2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

LLM이 증거 기반 팩트체킹을 위한 인간 수준의 세분화된 증거를 추출할 수 있는가?

기본 정보

논문 ID: 2511.21401
제목: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
저자: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (브르노 공과대학교, 체코)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 11월 26일 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2511.21401

초록

본 논문은 팩트체킹 시나리오에서 대규모 언어 모델(LLM)의 세분화된 증거 추출 능력을 연구하며, 특히 체코어와 슬로바키아어에 중점을 둡니다. 연구팀은 186개 샘플로 구성된 이중 주석 데이터셋을 구축했으며, 각 샘플은 두 명의 독립적인 주석자에 의해 세분화된 증거로 표시되었습니다. 4B에서 685B 매개변수까지의 17개 서로 다른 규모의 LLM을 평가한 결과: (1) LLM은 원본 텍스트에서 증거를 정확히 복사하지 못하는 경우가 많아 무효 출력을 생성합니다. (2) llama3.1:8b 모델은 규모가 작음에도 불구하고 높은 정확도를 보이는 반면, gpt-oss-120b는 매개변수가 많음에도 불구하고 성능이 저조합니다. (3) qwen3:14b, deepseek-r1:32b, gpt-oss:20b는 모델 규모와 인간 주석 정렬도 사이에서 효과적인 균형을 달성합니다.

연구 배경 및 동기

1. 해결해야 할 문제

온라인 뉴스 기사의 댓글 섹션은 허위 정보 확산의 중요한 장소입니다. 온라인 토론을 효과적으로 관리하고 허위 정보에 대항하기 위해 자동화 시스템은 다음을 수행할 수 있어야 합니다:

사용자 댓글에서 검증 가능한 주장(claims) 추출
관련 신뢰할 수 있는 문서 검색
문서에서 주장을 지지하거나 반박하는 텍스트 조각의 정확한 위치 파악(세분화된 증거)

본 논문은 마지막 작업인 세분화된 증거 추출에 중점을 둡니다.

2. 문제의 중요성

사용자 요구: 3/4 이상의 사용자가 댓글 섹션의 토론에 전문가의 응답을 원하지만, 인적 대응은 비현실적입니다.
효율성과 설득력: 전체 문서를 증거로 제공하는 것은 너무 거칠며, 세분화된 텍스트 조각은 독자가 판단 정확성을 저하시키지 않으면서 빠르게 평가할 수 있게 합니다.
플랫폼 관행: X 플랫폼(이전 Twitter)은 "커뮤니티 노트"를 사용하고, Seznam.cz는 선택된 댓글에 팩트체킹 정보를 보충합니다.

3. 기존 방법의 한계

거친 입도의 증거: 기존 자동 팩트체킹 시스템(예: FactLens, Loki)은 단락 수준의 증거만 제공합니다.
데이터셋 부재: FEVER와 SciFact는 문장 수준의 증거를 제공하지만, 체코어/슬로바키아어용 데이터셋이 없으며, 기존 데이터셋의 최고 입도는 문장 수준일 뿐 범위(span) 수준이 아닙니다.
LLM 능력 미지수: LLM의 추론 능력이 지속적으로 향상되고 있음에도 불구하고, 세분화된 증거 추출 작업에서 인간 주석과의 정렬 정도는 아직 체계적으로 평가되지 않았습니다.

4. 연구 동기

LLM이 인간처럼 세분화된 증거를 식별하고 추출할 수 있는지 검증하여 자동화된 팩트체킹 시스템 구축을 위한 기술적 기초를 제공합니다.

핵심 기여

새로운 데이터셋 구축: 186개의 체코어/슬로바키아어 주장-텍스트 쌍으로 구성된 데이터셋을 생성하며, 각 샘플은 두 명의 독립적인 주석자에 의해 세분화된 증거로 표시되어 해당 언어 쌍과 범위 수준 주석의 공백을 채웁니다.
LLM의 체계적 평가: 17개의 서로 다른 규모의 LLM(685B DeepSeek-R1, 120B gpt-oss 등의 추론 모델 포함, Gemma-3, Phi4 등의 개방 가중치 모델 포함)을 세분화된 증거 추출 작업에서 평가합니다.
오류율 및 정렬도 분석:
- LLM이 무효 출력을 생성하는 오류율 분석
- 헝가리 매칭 알고리즘과 Token-F1을 사용하여 인간 주석과의 정렬도 평가
- 모델 규모와 성능 간의 비선형 관계 발견
최적 모델 식별: 중간 규모 모델(14B-32B)이 효율성과 정확성 사이에서 최고의 균형을 달성함을 발견합니다.

방법론 상세 설명

작업 정의

문제 진술: 주장과 토큰화된 텍스트 t = (t₁, t₂, ..., tₙ)이 주어졌을 때, 범위 집합 S = {s₁, s₂, ..., sₘ}을 선택합니다. 여기서 각 범위 sₘ = (tᵢ, ..., tⱼ)(i ≤ j)는 주장을 지지하는 연속 부분 수열을 나타냅니다.

주요 제약 조건:

범위는 텍스트의 연속 부분 수열이어야 합니다.
최소화된 텍스트 조각을 선택합니다.
여러 범위를 선택할 수 있습니다.
범위는 주장의 진실성을 직접 지지해야 합니다.

데이터 구축 방법

이중 주석 프로세스

샘플 수집: 186개의 주장-텍스트 쌍
주석자 풀: 8명의 비전문가 유급 주석자
독립적 주석: 각 샘플은 두 명의 서로 다른 주석자에 의해 독립적으로 주석 처리됨
주석 도구:
- 첫 번째 주석: 맞춤형 주석 도구
- 두 번째 주석: Label Studio
주석 지침:
"주장을 지지하거나 반박하는 최소 텍스트 부분을 강조 표시합니다. 해당 진술이 참이라고 당신을 확신시키는 부분을 강조 표시합니다."

주석 특성

인간 주석자는 텍스트를 직접 강조 표시하여 원본 텍스트의 연속 범위를 선택하도록 보장합니다.
LLM은 범위 텍스트를 다시 생성해야 하므로 원본 텍스트에 없는 출력을 생성할 수 있습니다.

LLM 증거 추출 방법

모델 선택

세 가지 범주의 모델을 평가했습니다:

1. 표준 LLM(9개):

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. 사고의 연쇄(CoT) 추론 모델(8개):

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

프롬프트 엔지니어링

LLM이 받는 입력에는 다음이 포함됩니다:

원본 댓글(컨텍스트 제공)
추출된 주장
증거를 추출할 텍스트

주요 지침:

주장을 직접 지지하는 최소 텍스트 부분 식별
주장의 진실성을 증명하는 가장 좋은 구문 선택
절대 필요한 경우를 제외하고 전체 문장 선택 회피
여러 범위를 선택할 수 있음
텍스트를 수정, 수정 또는 다시 작성하지 말고 모든 문법 및 구문 오류 유지
JSON 형식으로 출력: {"spans": [...]}
각 범위는 원본 텍스트의 정확한 부분 문자열이어야 함(문자 단위로 완전히 동일)

기준선 방법

1. 주장 기준선:

주장을 토큰화하여 c = (c₁, c₂, ..., cₒ)로 변환
텍스트에서 주장의 단어 수열 일치
범위 집합 Sᴄ 구성

2. 쿼리 기준선:

주석자가 증거를 검색할 때 사용한 쿼리 단어 사용
주장 기준선과 동일한 일치 방식

3. 무작위 기준선:

연속 범위를 무작위로 샘플링
범위 수와 길이는 무작위로 선택된 주석자와 일치

평가 방법

전처리

모든 증거 집합에서 불용어 제거(부록 A 참조, 체코어/슬로바키아어 일반 불용어 포함: "a", "je", "to" 등)

Token-F1 계산

범위 쌍 F1: 두 주석 집합의 모든 가능한 범위 쌍 간의 토큰 수준 F1 점수 계산
헝가리 매칭: 헝가리 알고리즘을 사용하여 최적 할당 찾기, 총 F1 최대화
최종 점수: 최적 매칭의 평균 F1을 단일 데이터 포인트의 토큰 수준 F1로 사용

근거: 주석자와 LLM이 서로 다른 수의 범위를 선택할 수 있으므로(상세 정도 차이), 헝가리 알고리즘을 사용하여 이러한 차이에 대한 불공정한 페널티를 회피합니다.

평가 지표

오류율: 무효 출력의 비율(생성된 범위가 원본 텍스트에 없음)
Token-F1: 인간 주석과의 정렬도
인간 간 일치성: 두 주석자 간의 F1 점수

실험 설정

데이터셋

규모: 186개 샘플
언어: 체코어 및 슬로바키아어
주석: 각 샘플 2회 독립 주석
출처: 온라인 뉴스 댓글의 검증 가능한 주장
문서: 주석자가 검색 엔진으로 찾은 고도로 관련된 문서

평가 지표

Invalid %: 무효 출력 백분율(생성된 범위가 원본 텍스트에 없음)
Token-F1: 헝가리 매칭 기반의 토큰 수준 F1 점수(0-100 척도)
Max F1: 두 주석자 중 더 높은 F1 점수와의 정렬(최소 한 명의 주석자와의 정렬 반영)

비교 방법

인간 주석: ann 1 (LS) 및 ann 2
17개 LLM: 다양한 규모 및 아키텍처
3개 기준선: random, claim, query

구현 세부 사항

동일한 프롬프트 템플릿 사용(부록 B 참조)
JSON 형식 출력
기술적 제약 미적용(원본 텍스트에 없는 범위 생성 허용하여 오류 관찰)
불용어 제거 후 F1 계산

실험 결과

주요 결과

1. 오류율 분석(그림 1)

최저 오류율:

qwen2.5:72b: 4.3%(최고, 72B 매개변수)
deepseek-r1: 7.0%(685B 매개변수)
llama3.1:8b: 13.4%(단 8B 매개변수, 우수한 성능)

최고 오류율:

mixtral:8x7b: 61.8%(최악, 7B 유효 매개변수)
gemma3:4b: 57.5%(4B 매개변수)
qwen3:14b: 40.3%

이상 사례:

gpt-oss-120b: 32.8%(120B 매개변수이지만 오류율 높음, 예상 미달)
llama3.3:70b: 27.4%(70B 매개변수이지만 상대적으로 높은 오류율)

전체 추세: 모델 규모가 클수록 오류율이 일반적으로 낮지만 현저한 예외가 있습니다.

2. 추출 성능 분석(그림 2)

인간 간 일치성:

ann 1 (LS) vs ann 2: F1 = 48

최고 LLM 성능(ann 1 (LS)과의 비교):

qwen3:14b: F1 = 56(인간 일치성 초과)
deepseek-r1:32b: F1 = 55(인간 일치성 초과)
deepseek-r1 (685B): F1 = 38
qwen2.5:72b: F1 = 43

ann 2와의 정렬:

모든 LLM의 ann 2와의 F1 점수는 ann 1 (LS)과의 점수보다 낮음
두 가지 주석 환경이 서로 다른 주석 스타일을 생성했음을 시사

기준선 성능:

주장 기준선: F1 = 17(정밀도 약 30, 재현율 매우 낮음)
쿼리 기준선: F1 = 12
무작위 기준선: F1 = 10

모든 비신경 기준선 방법의 성능이 약함(F1 < 18).

3. 모델 규모와 성능 관계(그림 3)

주요 발견:

소형에서 중형: 규모 증가에 따라 성능 향상
초대형: 685B deepseek-r1 및 120B gpt-oss는 추가 향상을 가져오지 않음
최적 균형점:
- qwen3:14b: Max F1 ≈ 0.56
- deepseek-r1:32b: Max F1 ≈ 0.55
- gpt-oss:20b: Max F1 ≈ 0.45

결론: 특정 임계값을 초과하면 매개변수 증가만으로는 추출 성능이 더 이상 향상되지 않습니다.

제거 실험

논문이 전통적인 제거 실험을 수행하지는 않았지만, 다양한 모델의 비교를 통해 다음 분석이 암시적으로 이루어졌습니다:

모델 아키텍처의 영향:

추론 모델(CoT)이 표준 모델보다 일관되게 우수하지는 않음
deepseek-r1:32b는 우수한 성능을 보이지만, deepseek-r1 (685B)은 더 나아지지 않음

모델 규모의 영향:

8B llama3.1이 많은 더 큰 모델보다 우수한 성능 발휘
모델 품질과 훈련 데이터가 순수 규모보다 더 중요함을 시사

주석 도구의 영향:

Label Studio 주석(ann 1)과 맞춤형 도구 주석(ann 2) 간의 체계적 차이 존재
모든 LLM이 Label Studio 주석에 더 가까움

사례 분석

논문이 구체적인 사례를 제공하지는 않지만, 방법 설명에서 다음을 추론할 수 있습니다:

인간 주석 예시:

인터페이스에서 최소 관련 텍스트 조각을 직접 강조 표시
문법 오류가 있는 원본 텍스트 포함 가능

LLM 출력 예시(추론):

정확한 경우: 원본 텍스트 조각을 정확히 복사
오류 경우: 개역, 문법 수정, 또는 존재하지 않는 텍스트 생성

실험 발견

모델 규모의 비단조 관계: 중간 규모 모델이 초대형 모델보다 우수할 수 있음
지침 준수 능력 차이: 많은 LLM이 "정확히 복사"의 지침을 엄격히 준수하지 못함
주석 환경의 영향: 서로 다른 주석 도구가 서로 다른 입도의 주석을 생성
기준선 방법의 한계: 간단한 단어 일치 방법은 정밀도는 괜찮지만 재현율이 극히 낮음
다국어 능력: LLM이 체코어/슬로바키아어에서 합리적인 성능을 보여 다국어 능력을 증명
오류율과 정렬도의 불완전한 상관관계: 낮은 오류율이 반드시 높은 F1을 의미하지는 않음(예: qwen2.5:72b)

결론 및 토론

주요 결론

데이터셋 기여: 체코어/슬로바키아어 범위 수준 세분화된 증거의 첫 번째 데이터셋 구축, 인간 간 일치성 F1은 47
오류율과 모델 규모:
- 명확한 관계 존재: 소형 모델(4B gemma3, 8B mixtral)의 오류율 > 50%
- 제약 디코딩 메커니즘 채택 필요
성능 수익 감소:
- 소형에서 중형: 성능 향상
- 초대형(685B, 120B): 추가 향상 없음
- 최적 균형: 14B qwen3, 32B deepseek-r1, 20B gpt-oss
인간 정렬 초과: 일부 LLM(qwen3:14b, deepseek-r1:32b)의 F1 점수가 인간 간 일치성을 초과(유효 샘플에서만)

한계

데이터셋 규모:
- 186개 샘플만 해당
- 일부 모델은 최대 116개의 오류 출력 생성
- 평가 편향 가능성
평가 편향:
- 무효 출력 제외는 더 어려운 샘플을 제거할 수 있음
- 특정 모델의 성능 지표를 인위적으로 상향 조정
단일 작업:
- 지지 증거에만 중점
- 반박 증거 분석 미흡
언어 제한:
- 체코어 및 슬로바키아어만 포함
- 다른 언어의 일반화 능력 미지수
주석 차이:
- 두 가지 주석 도구가 체계적 차이 생성
- 원인에 대한 추가 분석 필요
무제약 생성:
- 범위가 원본 텍스트에 있어야 한다는 기술적 강제 미적용
- 높은 오류율 초래

향후 방향

제약 디코딩:
- 제약 디코딩 또는 구조화된 출력 생성 구현
- 의미론적으로 유효한 증거 생성 강제
- 오류 출력 현저히 감소
반박 증거:
- 반박 증거에 대한 동일한 분석 수행
- 팩트체킹 프로세스 완성
데이터셋 확장:
- 샘플 수 증가
- 통계적 유의성 향상
주석 차이 분석:
- 두 가지 주석 환경의 차이 심층 분석
- 주석 표준 통일
엔드투엔드 시스템:
- 주장 추출, 문서 검색 및 증거 추출 통합
- 완전한 자동 팩트체킹 시스템 구축
다국어 확장:
- 다른 언어로 확장
- 다국어 일반화 능력 평가

심층 평가

장점

1. 방법론의 혁신성

범위 수준 주석 최초 도입: 기존 문장 수준보다 더 세분화, 실제 응용에 더 적합
이중 주석 설계: 인간 간 일치성 계산 가능, LLM 평가를 위한 벤치마크 제공
헝가리 매칭 알고리즘: 서로 다른 상세 정도의 정렬 문제를 교묘하게 해결, 불공정한 페널티 회피

2. 실험의 충분성

모델 커버리지 포괄적: 17개 LLM, 4B에서 685B 매개변수, 표준 모델과 추론 모델 포함
다차원 분석: 오류율, 정렬도, 모델 규모 관계
기준선 비교: 비신경 기준선과 인간 주석 기준선 포함

3. 결과의 통찰력

직관에 반하는 발견: 모델 규모와 성능의 비선형 관계 공개
실용적 가치: 성가격비 최고의 모델(14B-32B) 식별
정직한 보고: 높은 오류율과 평가 편향을 솔직히 보고

4. 작성의 명확성

문제 정의 명확(형식적 정의)
방법 설명 상세(완전한 프롬프트 포함)
결과 시각화 명확(그림 1-3)

부족한 점

1. 방법론의 한계

무제약 생성: 범위가 원본 텍스트에 있어야 한다는 강제 미적용, 30%-60%의 무효 출력 초래
불용어 처리: 단순 제거는 중요 정보 손실 가능
단일 프롬프트: 다양한 프롬프트 전략의 영향 미탐색

2. 실험 설정의 결함

샘플 수 적음: 186개 샘플은 견고한 결론을 도출하기에 불충분할 수 있음
평가 편향: 무효 샘플 제외는 성능 비교를 왜곡할 수 있음
통계적 유의성 검정 부재: 통계적 유의성 미보고
단일 실행: 여러 실행의 분산 미보고

3. 분석 부족

사례 연구 부재: 구체적인 성공/실패 사례 미제시
오류 유형 분석 부재: 오류 유형 세분화 미흡(개역, 환각, 절단 등)
주석 차이 미설명: 두 가지 주석 도구의 체계적 차이 발견했으나 심층 분석 미흡
다국어 차이: 체코어와 슬로바키아어의 성능 차이 미구분

4. 기술 세부 사항

하이퍼파라미터 미보고: LLM의 온도, top-p 등 설정 미명시
추론 비용 미보고: 서로 다른 규모 모델의 실제 계산 비용 미비교
견고성 미검증: 프롬프트 변화, 텍스트 길이 등에 대한 견고성 미테스트

영향력

1. 분야에 대한 기여

공백 채우기: 체코어/슬로바키아어 첫 번째 세분화된 증거 데이터셋
방법론 기여: 범위 정렬 평가를 위한 헝가리 매칭 사용
실증적 통찰: 모델 규모 수익 감소의 실증적 증거

2. 실용적 가치

모델 선택 지침: 실제 배포를 위한 성가격비 최적 모델 추천
문제 인식: LLM의 지침 준수 문제에 대한 연구자 주의 환기
응용 시나리오: 온라인 토론 관리를 위한 기술 경로 제시

3. 재현성

장점:
- 완전한 프롬프트 제공(부록 B)
- 개방 소스 모델 사용(대부분)
- 방법 설명 상세
부족:
- 데이터셋 미공개(논문에서 발표 계획 미언급)
- 코드 미공개
- 구체적 하이퍼파라미터 부재

적용 시나리오

적합한 시나리오

온라인 토론 관리: 댓글에 자동으로 팩트체킹 증거 제공
뉴스 플랫폼: 사용자 댓글에 컨텍스트 정보 보충
교육 응용: 학생이 증거 식별 방법 학습 지원
연구 도구: 연구자의 문헌 검토 보조

부적합한 시나리오

고위험 의사결정: 의료, 법률 등 100% 정확성이 필요한 분야(오류율 여전히 높음)
실시간 응용: 초대형 모델(685B)의 계산 비용 과다
저자원 언어: 다른 언어에서의 방법 유효성 미검증
장문서: 장문 처리 능력 미테스트

배포 권장사항

권장 모델: qwen3:14b 또는 deepseek-r1:32b(성능과 비용 균형)
필수 개선: 오류율 감소를 위한 제약 디코딩 구현
인간 검토: 고위험 응용에서 인간 검토 단계 유지
다국어 확장: 대상 언어에 대한 재평가 필요

참고 문헌(주요 문헌)

FEVER (Thorne et al., 2018): 대규모 팩트 추출 및 검증 데이터셋, 문장 수준 증거
SciFact (Wadden et al., 2020): 과학 주장 검증, 문장 수준 근거 주석
AmbiFC (Glockner et al., 2024): 모호성 도입 팩트체킹, 세분화된 증거의 중요성 강조
DeepSeek-R1 (Guo et al., 2025): 강화 학습으로 추론을 장려하는 LLM
Llama 3 (Grattafiori et al., 2024): Meta의 개방 소스 LLM 시리즈
Hungarian Algorithm (Kuhn, 1955): 할당 문제의 고전 알고리즘, 범위 매칭에 사용

종합 평가

본 논문은 팩트체킹의 세분화된 증거 추출이라는 중요하지만 연구 부족한 작업에 대해 가치 있는 기여를 합니다. 최대 강점은 범위 수준 주석을 갖춘 첫 번째 체코어/슬로바키아어 데이터셋을 구축했으며, 특히 모델 규모 수익 감소와 중간 규모 모델의 우수한 성가격비를 공개한 LLM의 능력과 한계를 밝혔다는 점입니다.

그러나 주요 한계는 샘플 수가 적음(186개), 높은 오류율(일부 모델 > 50%), 그리고 무효 샘플 제외로 인한 평가 편향 가능성입니다. 향후 작업은 제약 디코딩 메커니즘 구현과 데이터셋 규모 확장이 시급합니다.

불완전함에도 불구하고, 본 논문은 자동화된 팩트체킹 시스템 구축을 위한 중요한 실증적 기초와 방법론적 기여를 제공하며, 특히 자원이 상대적으로 부족한 언어에 대해 그렇습니다. 추천 지수: 4/5 — 가치 있는 탐색적 연구이지만, 실제 배포를 위해서는 기술적 문제 해결이 필요한 후속 작업이 필요합니다.