실제 팩트체크에서 프런티어 LLM 간 불일치

2 days ago 5
  • 프런티어 LLM 5종은 실제 사용자 제출 클레임 1,000개 중 67%에서 판정이 갈렸고, 5개가 모두 일치한 경우는 33%였음
  • 다수 판정은 정답 라벨이 아니라 불일치 측정 기준이며, 비만장일치 67%에서는 최소 1개 모델이 틀릴 수밖에 없음
  • 4단계 루브릭에서 2칸 이상 벌어진 실질적 불일치는 34%였고, True와 False의 극단적 분열도 21%로 나타남
  • 모델 쌍별 라벨 일치율은 53~75% 였으며, 같은 기반 모델인 Gemini 3 Pro와 Search 버전의 일치율이 가장 높았음
  • 데이터는 Lenz의 최근 실제 클레임에서 뽑았고 정답 라벨·LLM 채점기 없이 측정해, 정확도보다 판정 구조의 불안정성을 드러냄

실제 클레임에서 판정이 얼마나 자주 갈렸는가

  • 분석 대상 1,000개 클레임 중 672개, 67%(95% CI 64–70%)에서 5개 프런티어 모델의 판정이 일치하지 않았음
    • 5개 모델이 모두 같은 판정을 낸 클레임은 328개, 33%(95% CI 30–36%)였음
    • 1개 모델만 다른 판정을 낸 클레임은 224개, 22%(95% CI 20–25%)였음
    • 2개 모델이 다른 판정을 낸 클레임은 316개, 32%(95% CI 29–35%)였음
    • 2-2-1 또는 2-1-1-1처럼 엄격한 다수가 형성되지 않은 분열은 132개, 13%(95% CI 11–15%)였음
    • 최소 2개 모델이 다른 판정을 낸 경우는 448개, 45%(95% CI 42–48%)였음
  • 다수 판정은 정확성의 대리 지표가 아니라 불일치를 세기 위한 구조적 기준임
    • 다수 판정이 틀릴 수 있고, 소수 판정을 낸 모델이 맞을 수도 있음
    • 네 개 판정 버킷 중 하나만 정답이라고 두면, 비만장일치 클레임 67%에서는 최소 1개 모델이 틀림
    • 3-2, 3-1-1, 다수 없음 분열을 포함한 45%에서는 최소 2개 모델이 틀림
    • 다수가 없는 13%에서는 어떤 버킷도 3표에 도달하지 못하므로 최소 3개 모델이 틀림
    • 5개 모델이 모두 동의한 33% 안에도 공유된 사각지대가 있을 수 있음
  • 패널 합의도는 Krippendorff’s α(ordinal)=0.639였음
    • 모델 판정은 무작위에 가깝지는 않지만, 5개 모델을 하나의 상호교환 가능한 판정자로 볼 만큼 일관적이지도 않았음
    • True / Mostly True / Misleading / False가 순서형 범주이므로 순서형 α를 사용함

뉘앙스 차이와 실질적 불일치

  • 1,000개 클레임 중 343개, 34%(95% CI 31–37%)에서 최소 두 모델의 판정이 4단계 루브릭상 2칸 이상 벌어졌음
    • True와 Mostly True의 차이는 신뢰도 보정에 가까운 뉘앙스 차이로 다룸
    • True와 False의 차이는 답 자체가 갈린 실질적 불일치로 다룸
  • 측정은 5개 판정의 최대 쌍대 버킷 거리로 계산됨
    • 판정 순서는 True (0) → Mostly True (1) → Misleading (2) → False (3)임
    • 거리 0은 328개, 33%(95% CI 30–36%)로 5개 모델이 모두 같은 버킷을 고른 경우임
    • 거리 1은 329개, 33%(95% CI 30–36%)로 True ↔ Mostly True 같은 뉘앙스 차이에 해당함
    • 거리 2는 132개, 13%(95% CI 11–15%)로 True ↔ Misleading 또는 Mostly True ↔ False 같은 실질적 불일치임
    • 거리 3은 211개, 21%(95% CI 19–24%)로 True ↔ False의 극단적 분열임
  • 버킷 거리는 오류 크기의 정밀한 척도가 아니라 거친 지표임
    • True / Mostly True / Misleading / False를 등간격 순서 척도로 보는 단순화가 들어감
    • 2칸 차이는 루브릭 모호성, 시간 기준 차이, “Misleading” 해석 차이에서도 생길 수 있음

모델 간 일치율

  • 5개 모델 쌍의 라벨 일치율은 53%~75% 범위였음
    • 가장 높은 일치율은 Gemini 3 Pro × Gemini 3 Pro + Search의 75%(95% CI 72–77%)였고, 두 모델은 같은 기반 모델을 공유함
    • 가장 낮은 일치율은 53%(95% CI 50–56%)로 세 쌍에서 나타남
  • 주요 쌍별 일치율
    • GPT-5.4 × Claude Opus 4.7: 65%(95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro: 65%(95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro + Search: 60%(95% CI 57–63%)
    • GPT-5.4 × Sonar Pro: 60%(95% CI 57–63%)
    • Claude Opus 4.7 × Gemini 3 Pro: 53%(95% CI 50–56%)
    • Claude Opus 4.7 × Gemini 3 Pro + Search: 53%(95% CI 50–56%)
    • Claude Opus 4.7 × Sonar Pro: 58%(95% CI 55–61%)
    • Gemini 3 Pro × Sonar Pro: 53%(95% CI 50–56%)
    • Gemini 3 Pro + Search × Sonar Pro: 58%(95% CI 55–61%)

모델별 판정 경향

  • 판정 분포

    • 모델마다 True/False 양극에 몰리는 정도와 Mostly True/Misleading 중간 버킷을 쓰는 정도가 달랐음
    • 정답 라벨이 없기 때문에 모델의 사전 경향과 클레임 특성의 영향을 분리할 수 없음
    • GPT-5.4: True 42%(95% CI 39–45%), Mostly True 16%(14–19%), Misleading 12%(10–14%), False 30%(28–33%)
    • Claude Opus 4.7: True 38%(35–41%), Mostly True 26%(23–29%), Misleading 19%(17–22%), False 17%(15–20%)
    • Gemini 3 Pro: True 54%(51–57%), Mostly True 3%(2–4%), Misleading 3%(2–4%), False 40%(37–43%)
    • Gemini 3 Pro + Search: True 52%(49–55%), Mostly True 4%(3–5%), Misleading 9%(7–11%), False 35%(32–38%)
    • Sonar Pro: True 35%(32–38%), Mostly True 23%(21–26%), Misleading 16%(14–18%), False 26%(23–28%)
  • 나머지 패널 다수와의 일치

    • 각 모델이 나머지 4개 모델 중 3개 이상이 만든 엄격한 다수와 같은 판정을 낸 비율은 69%~81% 였음
    • 이 값은 해당 코퍼스에서의 동료 정렬도이며 정확성이 아님
    • 계산에는 나머지 4개 모델이 3/4 이상 다수를 형성한 클레임만 포함되어, 모델별 eligible n이 다름
    • GPT-5.4: 81%(95% CI 78–84%), eligible n=650, ineligible=350
    • Claude Opus 4.7: 70%(95% CI 67–74%), eligible n=691, ineligible=309
    • Gemini 3 Pro: 77%(95% CI 74–80%), eligible n=683, ineligible=317
    • Gemini 3 Pro + Search: 76%(95% CI 73–79%), eligible n=693, ineligible=307
    • Sonar Pro: 69%(95% CI 66–73%), eligible n=675, ineligible=325

영역별 불일치

  • 영역별 분모는 해당 영역의 클레임 수이며, 대부분의 영역에서 불일치율이 절반을 크게 넘었음
    • Finance: 75개, 임의 불일치 67%(95% CI 55–76%), 실질적 불일치 39%(28–50%), 다수 없음 20%(13–30%)
    • General: 179개, 임의 불일치 68%(60–74%), 실질적 불일치 40%(33–48%), 다수 없음 12%(8–17%)
    • Health: 171개, 임의 불일치 71%(64–78%), 실질적 불일치 29%(23–36%), 다수 없음 12%(8–17%)
    • History: 131개, 임의 불일치 53%(44–61%), 실질적 불일치 24%(17–32%), 다수 없음 13%(8–20%)
    • Legal: 48개, 임의 불일치 77%(63–87%), 실질적 불일치 40%(27–54%), 다수 없음 19%(10–32%)
    • Politics: 168개, 임의 불일치 70%(62–76%), 실질적 불일치 38%(31–46%), 다수 없음 8%(5–13%)
    • Science: 151개, 임의 불일치 68%(60–75%), 실질적 불일치 36%(29–44%), 다수 없음 21%(15–28%)
    • Tech: 77개, 임의 불일치 69%(58–78%), 실질적 불일치 31%(22–42%), 다수 없음 8%(4–16%)
  • 영역 구분은 Lenz의 트래픽 패턴을 반영하며, 모든 팩트체크 가능 클레임을 균등 표본추출한 결과가 아님

판정 버킷별 합의

  • 패널이 중간 버킷에 도달할 때는 거의 수렴하지 않았음
    • Mostly True와 Misleading의 다수 판정에서 만장일치는 각각 최대 5% 수준에 그침
    • True와 False 다수 판정의 만장일치 비율은 각각 47%, 43%였음
  • 엄격한 3/5 이상 다수가 해당 판정을 낸 클레임 기준
    • True: eligible n=438, 만장일치 47%(95% CI 42–51%), 3~4표 다수 53%(49–58%)
    • Mostly True: eligible n=76, 만장일치 0%(95% CI 0–5%), 3~4표 다수 100%(95% CI 95–100%)
    • Misleading: eligible n=74, 만장일치 5%(95% CI 2–13%), 3~4표 다수 95%(87–98%)
    • False: eligible n=280, 만장일치 43%(95% CI 37–49%), 3~4표 다수 57%(51–63%)
  • 5개 모델이 모두 같은 판정을 낸 328개 클레임도 양극에 몰렸음
    • True: 204개, 만장일치 중 62%(95% CI 57–67%)
    • Mostly True: 0개, 0%(95% CI 0–1%)
    • Misleading: 4개, 1%(95% CI 0–3%)
    • False: 120개, 37%(95% CI 32–42%)
  • 17,856개 PolitiFact 클레임에 대한 단일 계열 Llama-3 절제 연구, Schwab et al. 2025에서도 정교한 라벨에서 팩트체크 판정 모델의 오류가 집중되는 관련 결과가 나옴

데이터셋과 제외 기준

  • 분석 대상은 1,000개 클레임
    • Lenz 팩트체크 플랫폼에 제출된 실제 사용자 요청 중 제외 조건을 통과한 가장 최근 클레임임
    • 모든 클레임은 2026년 2월 15일 이후에 생성됨
    • Lenz 자체 판정은 분석에 사용되지 않았고, 분석은 Lenz와 프런티어 모델의 비교가 아니라 프런티어 모델 간 불일치만 측정함
  • atomic_claim 필드는 사용자가 입력한 원문이 아니라 Lenz의 프레이밍 단계를 거쳐 정리된 중립적·검증 가능 명제임
    • 예를 들어 “Canadian authorities are throwing Christians in jail for quoting the Bible!!!”라는 입력은 “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”라는 명제로 바뀜
  • 제외된 클레임
    • 제출자가 비공개로 표시한 클레임
    • 플랫폼 직원, 내부 계정, 에이전트/API 제출 클레임
    • 편집 상태가 pending 또는 hidden인 클레임
    • 공개 인물이 아닌 개인에 대한 개인정보를 포함해 Lenz의 PII 스크리닝 단계에서 자동 플래그된 클레임
    • OpenAI text-embedding-3-small 1536차원 임베딩의 atomic_claim 간 코사인 거리 0.2 이내인 근접 중복 클레임
    • 5개 모델 중 하나라도 한 번의 재시도 후에도 파싱 가능한 판정을 내지 못한 클레임
    • 수집 시점 기준 180일보다 오래된 클레임
  • 근접 중복에서는 시간 의존적 명제의 경우 더 최신 클레임을, 그 외에는 Lenz에서 조회수가 가장 많은 기존 클레임을 대표 행으로 삼음

방법론

  • 모델과 프롬프트

    • 파라메트릭 모델: GPT-5.4(OpenAI), Claude Opus 4.7(Anthropic), Gemini 3 Pro(Google)
    • 검색 증강 모델: Gemini 3 Pro + Search(Google), Sonar Pro(Perplexity)
    • 각 클레임은 제출일에 맞춘 “as of YYYY-MM-DD” 기준일과 함께 제시됨
    • 모델은 True, Mostly True, Misleading, False 중 하나를 강제로 선택해야 했음
Classify this claim as of <date>: "<atomic claim>" Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
  • Abstain 선택지는 제공하지 않았고, 강제 선택으로 모델 간 비교를 대칭적으로 유지함
  • 호출 설정과 채점

    • 모든 모델은 같은 시스템 플레이스홀더 .와 같은 사용자 프롬프트 템플릿 usr_v2를 받음
    • 구조화 출력 스키마, 도구 호출 스키마, seed, top-p, logit-bias 제어는 사용하지 않음
    • 지원되는 경우 결정론적 디코딩을 요청해 temperature=0.0을 사용함
    • GPT-5.4와 Claude Opus 4.7은 제공자 어댑터가 커스텀 temperature 설정을 거부해 명시적 temperature 없이 호출됨
    • GPT-5.4, Claude Opus 4.7, Sonar Pro는 출력 길이를 16토큰으로 제한했고, Gemini 3 Pro와 Gemini 3 Pro + Search는 1024토큰 제한을 사용함
    • Gemini 3 Pro + Search는 Google Search grounding을 켰고, Sonar Pro는 Perplexity의 search-backed API를 통한 검색 증강 모델로 다룸
    • 정규화 후 네 개 라벨 중 정확히 하나와 일치해야 파싱 가능한 출력으로 인정됨
    • LLM 채점기와 참조 정답 라벨은 사용하지 않았고, 모든 측정은 5개 모델의 직접 파싱 라벨 일치에서 나옴
  • 통계 처리

    • 코퍼스는 단일 팩트체크 플랫폼에 제출된 가장 최근 1,000개 eligible 클레임이며, 더 넓은 모집단의 확률표본이 아님
    • Wilson 95% 신뢰구간은 같은 선별 규칙을 따르는 유사한 eligible 제출 흐름에서 각 클레임이 독립적으로 뽑힌다는 모델하의 명목 이항 구간임
    • Lenz 클레임은 뉴스 이벤트 주변으로 제출이 몰리고, 같은 사용자가 한 세션에서 관련 클레임을 여러 개 제출할 수 있어 독립동일분포가 아님
    • 더 정직한 클러스터 모델에서는 실제 표본 변동성이 Wilson 구간보다 커질 가능성이 있음
    • 모델 간 유의성 검정은 하지 않고, 쌍별 일치율과 Wilson 95% CI를 기술 통계로 보고함

재현성과 공개 산출물

  • 전체 클레임별 데이터는 CSV로 제공됨
    • 각 행에는 claim ID와 URL, atomic claim 텍스트, 5개 프런티어 판정, 최대 쌍대 버킷 거리, 영역, 생성일이 포함됨
    • 제출자가 이후 클레임을 삭제하거나 비공개로 바꾸면 일부 페이지는 사용할 수 없을 수 있음
  • PDF는 오프라인 읽기, 인용, arxiv 스타일 프리프린트 호스팅을 위한 브라우저 독립 렌더링본임
  • 스냅샷은 v1.0이며 데이터 기준일은 2026년 5월 21일임
  • 영구 기록과 인용은 doi.org/10.5281/zenodo.20344847에서 제공됨

한계

  • 비둘기집 원리 기반 오류 하한은 루브릭 불일치의 하한이지, 특정 클레임에서 어떤 모델이 사실적으로 틀렸다는 판정이 아님
    • 네 개 버킷 중 하나만 정답일 수 있으므로 어떤 불일치든 최소 하나의 일관되지 않은 판정을 뜻함
    • 하지만 어떤 모델이 어떤 클레임에서 틀렸는지는 알 수 없음
  • 버킷 거리의 순서성은 단순화임
    • True / Mostly True / Misleading / False를 등간격 순서 척도로 취급함
    • 2칸 차이는 루브릭 모호성, 시간 기준 차이, “Misleading” 해석 차이에서 비롯될 수 있으며, 반드시 더 큰 사실 오류를 뜻하지 않음
  • 판정 모호성은 LLM만의 문제가 아니라 과제 자체의 속성이기도 함
    • AVeriTeC은 50개 팩트체크 조직을 기준으로 다중 라운드 검토를 거친 4,568개 클레임 코퍼스이며, 판정의 주석자 간 합의가 κ=0.619에 머묾
    • 프런티어 모델 불일치 중 일부는 어떤 평가자에게도 어려운 라벨 자체의 특성을 반영함
  • 스냅샷은 특정 날짜와 특정 모델 버전에 고정됨
    • 프런티어 LLM은 비결정적이므로 같은 모델과 프롬프트로 다시 실행해도 수치가 어느 정도 달라질 수 있음
    • 새 모델이나 다른 프롬프트로 재실행하면 수치가 더 많이 움직일 수 있음
  • 검색 지원 모델은 추론 시점에 출처를 조회했을 수 있지만, 무엇을 검색했는지는 통제하거나 감사하지 않음

기존 연구와 후속 계획

  • Yang & Wang (2026)은 최상위 프런티어 모델들이 총 정확도를 맞춘 상태에서도 MMLU-Pro와 GPQA 항목의 16~38%에서 불일치함을 보임
  • 실제 클레임 검증의 엄격한 인간 주석 기준점으로는 AVeriTeC이 제시됨
  • 더 큰 팩트체크 코퍼스로는 단일 계열 Llama-3 절제 설정의 17,856개 PolitiFact 클레임이 있음
  • Lenz 코퍼스는 지난 180일의 실제 사용자 제출이고, lenz.io에만 색인되어 있으며, 공개 학습 세트에서 표준 판정과 짝지어진 적이 없음
  • 후속 연구는 같은 코퍼스 전체를 사람이 라벨링하고, 그 라벨을 정답으로 삼아 5개 프런티어 모델과 Lenz 자체 판정을 평가할 예정임
  • 목표는 리더보드가 아니라 프런티어 패널이 인간 합의에서 벗어나는 위치, Lenz가 둘 모두에서 벗어나는 위치, 어떤 범주가 불일치를 유발하는지를 분석하는 것임

윤리와 데이터 사용

  • 사용한 필드는 공개 클레임 필드인 atomic claim 텍스트와 생성일뿐임
    • 개인정보는 사용하지 않음
    • 비공개 클레임과 직원 클레임은 제외됨
    • 프런티어 모델에는 클레임 텍스트와 기준일만 제공되며, 제출자 신원이나 분석 신호는 제공되지 않음
  • 제출자가 나중에 클레임을 비공개화하거나 삭제하면 해당 클레임은 스냅샷과 향후 다운로드에서 제거될 수 있음

프런티어 패널이 크게 갈린 예시

Read Entire Article