How is a factual claim made credible? We propose the novel task of Epistemic Appeal Identification, which identifies whether and how factual statements have been anchored by external sources or evidence. To advance research on this task, we present FactAppeal, a manually annotated dataset of 3,226 English-language news sentences. Unlike prior resources that focus solely on claim detection and verification, FactAppeal identifies the nuanced epistemic structures and evidentiary basis underlying these claims and used to support them. FactAppeal contains span-level annotations which identify factual statements and mentions of sources on which they rely. Moreover, the annotations include fine-grained characteristics of factual appeals such as the type of source (e.g. Active Participant, Witness, Expert, Direct Evidence), whether it is mentioned by name, mentions of the source's role and epistemic credentials, attribution to the source via direct or indirect quotation, and other features. We model the task with a range of encoder models and generative decoder models in the 2B-9B parameter range. Our best performing model, based on Gemma 2 9B, achieves a macro-F1 score of 0.73.
academic- 논문 ID: 2510.10627
- 제목: FactAppeal: Identifying Epistemic Factual Appeals in News Media
- 저자: Guy Mor-Lan, Tamir Sheafer, Shaul R. Shenhav (Hebrew University of Jerusalem)
- 분류: cs.CL (계산 언어학)
- 발표 시간: 2025년 10월 12일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.10627
본 논문은 사실 진술이 외부 출처 또는 증거에 의해 어떻게 지지되는지를 식별하는 새로운 과제인 인식론적 주장 식별(Epistemic Appeal Identification)을 제안한다. 이 과제를 진전시키기 위해 저자들은 3,226개의 영어 뉴스 문장에 대한 인간 주석이 포함된 FactAppeal 데이터셋을 구축했다. 이전의 주장 탐지 및 검증에만 초점을 맞춘 자원과 달리, FactAppeal은 이러한 주장을 지지하는 정교한 인식론적 구조와 증거 기반을 식별한다. 이 데이터셋은 사실 진술 및 이들이 의존하는 출처 언급을 식별하는 범위 수준의 주석을 포함한다. 또한 주석에는 출처 유형(예: 적극적 참여자, 목격자, 전문가, 직접 증거), 명명된 언급 여부, 출처 역할 및 인식론적 자격 언급, 직접 또는 간접 인용을 통한 출처 귀속 등과 같은 사실 주장의 세분화된 특징이 포함된다. 저자들은 2B-9B 매개변수 범위의 인코더 모델과 생성식 디코더 모델을 사용하여 이 과제를 모델링했으며, 최고 성능 모델은 Gemma 2 9B를 기반으로 하여 0.73의 매크로 평균 F1 점수를 달성했다.
정보 오류 전파와 미디어 보도에 대한 회의주의가 만연한 시대에, 사실 주장이 어떻게 제시되는지를 이해하는 것이 그 어느 때보다 중요하다. 사실 주장의 신뢰성은 그 내용뿐만 아니라 전문가 증언, 공식 성명 또는 직접 경험 증거 등 외부 지식 출처에 어떻게 호소하는지에 따라 달라진다.
주장 탐지 및 검증 연구가 상당한 진전을 이루었음에도 불구하고, 기존 방법은 주로 고립된 진술 내용에 초점을 맞추고 이러한 주장에 신뢰성과 설득력을 부여하는 인식론적 구조를 간과한다. 전통적인 사실성 탐지 프레임워크는 뉴스 미디어에서 주장이 어떻게 구성되고 지지되는지에 대한 깊은 이해가 부족하다.
- 인식론적 구조 분석의 필요성: 사실 주장이 외부 권위 출처에 의해 어떻게 지지되는지 이해할 필요
- 미디어 신뢰성 연구: 뉴스 미디어에서의 지식 흐름 및 검증 메커니즘 분석
- 자동 팩트체크 개선: 더 맥락 인식적인 팩트체킹을 위한 기초 제공
- 사회과학 응용: 정치 철학, 사회 인식론 및 커뮤니케이션 연구에 도구 제공
- 새로운 과제 제안: 전통적 사실성 탐지를 초월하여 풍부한 인식론적 추론 계층을 도입하는 인식론적 주장 식별 과제를 처음으로 정의
- 주석 데이터셋 구축: 3,226개의 뉴스 문장에 대한 세분화된 범위 수준 주석을 포함하는 FactAppeal 데이터셋 생성
- 분류 체계 수립: 출처와 사건의 근접성(내부 vs 외부) 및 출처 유형(인간 vs 비인간)을 기반으로 한 구조화된 인식론적 주장 분류법 개발
- 기본 모델 구현: 인코더 및 생성식 디코더 모델을 사용하여 과제 기본선 수립, 최고 성능 모델이 0.73 매크로 평균 F1 점수 달성
- 학제간 가치: 계산 언어학, 사회과학 및 미디어 연구에 중요한 도구 제공
인식론적 주장 식별 과제는 다음을 요구한다:
- 문장이 사실 주장을 제시하는지 결정
- 그렇다면, 그 주장을 지지하기 위해 외부 출처 또는 증거를 어떻게 호소하는지 식별
- 인식론적 권위의 출처 식별
- 주장의 유형 및 방법 분류
- Fact Without Appeal: 인식론적 주장이 없는 사실 진술
- Fact With Appeal: 인식론적 주장이 있는 사실 진술
- 수정자: Direct quote(직접 인용) / Indirect quote(간접 인용)
- Source: 진술이 귀속되는 인식론적 출처
- 명명 상태: Named / Unnamed
- 출처 유형: 7가지 유형 분류
- Source Attribute: 출처의 관련 인식론적 속성
- Recipient: 정보를 수신하는 대상
- Appeal Time: 주장이 발생한 시간
- Appeal Location: 주장이 발생한 위치
두 가지 차원을 기반으로 분류법 구축:
- 사건과의 근접성: 내부(직접 접촉) vs 외부(일반 전문 지식)
- 출처의 성질: 인간 vs 비인간
내부 출처(직접 접촉 기반):
- Active Participant: 사건의 적극적 참여자
- Witness: 일차 증언을 제공하는 관찰자
- Official: 법적, 정치적 또는 관료적 권위를 가진 참여자
- Direct Evidence: 현장에서 발견된 직접 증거
외부 출처(전문 지식 기반):
- Expert: 전문 지식을 가진 과학자 또는 전문가
- Expert Document: 연구 문서, 과학 및 기관 보고서
- News Report: 이전 뉴스 보도 인용
- 범위 수준 주석: 단일 텍스트 내에서 사실 주장, 주장 없는 사실 및 비사실 성분을 구분 가능
- 중첩 레이블 지원: 다양한 유형의 레이블이 중첩되어 복잡한 인식론적 구조 지원
- 세분화된 특징: 출처 유형, 명명 상태, 인용 방식 등 다차원 정보 포착
- 인식론적 권위 분류: 인식론 이론을 기반으로 구축된 체계적 출처 분류 체계
- 규모: 2020-2022년 영어 뉴스 기사에서 추출한 3,226개 문장
- 주석자: 두 명의 주석자(저자 중 한 명 및 연구 보조원)
- 데이터 분할: 훈련 집합 70%, 개발 집합 15%, 테스트 집합 15%
- 주석자 일치도: 전체 IoU 0.74, Cohen's Kappa 0.82
- 단어 수준 매크로 평균 정확도, 재현율 및 F1 점수
- 18개 레이블 범주에 대한 다중 레이블 이진 분류 평가
인코더 모델(토큰 수준 다중 레이블 분류):
- RoBERTa (base, 125M)
- DeBERTa v3 (base, 184M)
- ModernBERT (base, 150M)
생성식 디코더 모델(시퀀스-투-시퀀스):
- Gemma 2 (2B, 9B)
- Llama 3.1 (8B)
- Mistral v0.3 (7B)
- 인코더 모델: Focal loss를 사용하여 최대 12개 에포크 훈련
- 디코더 모델: QLORA를 사용한 4비트 양자화 미세조정, 3개 에포크 훈련
- 하드웨어: 단일 A100 GPU (40GB VRAM)
- 학습률: 1e-5
| 모델 | 정확도 | 재현율 | F1 |
|---|
| Gemma 2 9B | 0.76 | 0.73 | 0.73 |
| RoBERTa (base) | 0.75 | 0.67 | 0.70 |
| Mistral v0.3 7B | 0.73 | 0.68 | 0.70 |
| DeBERTa v3 (base) | 0.73 | 0.67 | 0.69 |
| Llama 3.1 8B | 0.75 | 0.65 | 0.68 |
- 생성식 모델의 장점: 최대 규모의 디코더 모델인 Gemma 2 9B가 최고 성능 달성
- 인코더 모델의 한계: 인코더 모델이 범주 간 성능 변동성이 더 큼
- 레이블 빈도의 영향: 인코더 모델 성능이 레이블 개수와의 상관성이 더 강함 (ρs = 0.72 vs 0.66)
- 출처 유형 탐지: 출처 유형 주석의 성능이 레이블 인기도와의 상관성이 낮음
- 사실성 탐지: Fact w/o Appeal (0.89), Fact with Appeal (0.85)
- 출처 탐지: Source (0.84), Source Attribute (0.79)
- 인용 유형: Indirect Quote (0.83), Direct Quote (0.80)
- 출처 유형: 성능 차이가 큼, Active Participant (0.54), News Report (0.68)
- 사실 문장 비율: 80% 이상의 문장이 사실성으로 주석됨
- 주장 유형 분포: 주장 없는 사실이 주장 있는 사실의 약 2배
- 인용 방식: 66%는 의역 사용, 34%는 직접 인용 사용
- 명명 상태: 64%의 출처가 명명되어 언급됨
- 초기 연구: 검증 가능한 사건 결정에 초점 (Sauri and Pustejovsky, 2009)
- 대규모 벤치마크: FEVER, SciFact, FactRel 등 데이터셋
- 한계: 주로 주장 탐지 및 주장 간 관계에 초점, 완전한 인식론적 패턴 설명 부족
- 인식론적 양태: 확실성 및 신념의 언어적 표지 포착
- 논증 마이닝: 담화에서 주장이 어떻게 구성되고 지지되는지 탐색
- 인식론적 입장 탐지: 출처의 주장에 대한 약속 정도 모델링
- 인용 탐지: 인용 탐지 및 실체에 대한 귀속
- 한계: 일반적으로 출처를 유형별로 분류하거나 주장이 직접 발언 또는 의역을 통해 호소되는지 포착하지 않음
- 과제 실행 가능성: 인식론적 주장 식별 과제는 실행 가능하지만 여전히 도전적
- 생성식 모델의 장점: 생성식 모델이 복잡한 인식론적 구조 처리에서 더 나은 성능 발휘
- 세분화된 분석의 가치: 범위 수준 주석이 뉴스 미디어의 복잡한 인식론적 구조 드러낼 수 있음
- 문장 수준 제한: 문장 수준 주석만 사용하여 포착할 수 있는 맥락 정보 제한
- 출처-주장 연결: 현재 주석이 각 출처와 해당 주장을 명시적으로 연결하지 않음
- 언어 및 시간 범위: 2020-2022년 영어 뉴스 기사로만 제한
- 주석 규모: 데이터셋이 상대적으로 작아 모델 일반화 능력에 영향 가능
- 단락/기사 수준으로 확장: 더 큰 텍스트 단위에서 복잡한 담화 구조 모델링
- 다국어 확장: 다른 언어 및 문화 배경에 적용
- 출처-주장 관계 모델링: 출처와 주장 간의 대응 관계 명시적 모델링
- 소셜 미디어 응용: 소셜 미디어 등 다른 담화 유형으로 확장
- 시간 동적 분석: 인식론적 주장 패턴의 시간 변화 연구
- 과제의 혁신성: 인식론적 주장 식별 과제를 처음으로 체계적으로 정의 및 연구하여 중요한 연구 공백 메우기
- 견고한 이론적 기초: 인식론 및 언어학 이론을 기반으로 분류 체계 구축, 견고한 이론적 기초 보유
- 높은 주석 품질: 범위 수준 주석이 정교하고 주석자 일치도 우수 (Kappa=0.82)
- 학제간 가치: 계산 언어학, 정치학, 커뮤니케이션 등 여러 분야에 가치 있는 자원 제공
- 포괄적 실험: 다양한 모델 아키텍처 비교, 상세한 성능 분석 제공
- 데이터 규모 제한: 3,226개 문장의 규모가 상대적으로 작아 모델 성능 및 일반화 능력 제한 가능
- 주석 복잡도: 일부 레이블 범주의 샘플이 부족하여 모델 학습 효과 영향
- 평가 지표의 단순성: 주로 F1 점수 사용, 과제 특정 평가 지표 부족
- 오류 분석 부족: 모델 오류 유형에 대한 심층 분석 부족
- 실제 응용 검증 부족: 실제 팩트체크 또는 미디어 분석 과제에서 효과 검증 미흡
- 학술적 기여: 자연언어처리 분야에 새로운 연구 방향 개척
- 실용적 가치: 자동 팩트체크, 미디어 편향 탐지, 지식 그래프 구축 등에 응용 가능
- 사회적 의의: 미디어의 정보 전파 및 검증 메커니즘 이해 및 분석에 도움
- 재현성: 데이터 및 코드 공개 발표로 후속 연구 용이
- 뉴스 미디어 분석: 뉴스 보도의 증거 사용 패턴 분석
- 팩트체크 보조: 자동 팩트체크 시스템에 더 풍부한 맥락 정보 제공
- 미디어 리터러시 교육: 미디어의 인식론적 주장 전략 식별 및 분석 지원
- 정치 담화 분석: 정치 커뮤니케이션의 권위 호소 패턴 연구
- 지식 그래프 구축: 증거 관계를 포함하는 지식 그래프 구축을 위한 기초 제공
- Thorne et al. (2018): FEVER 데이터셋, 대규모 사실 추출 및 검증
- Sauri and Pustejovsky (2009): 초기 사실성 탐지 연구
- Da San Martino et al. (2019): 선전 기법의 세분화된 분석
- Collins and Evans (2002): 전문 지식 및 경험 연구의 제3의 물결
- Anderson (2021): 인식론적 거품과 권위주의 정치
본 논문은 인식론적 주장 식별이라는 신흥 과제에서 개척적 기여를 하였으며, 고품질의 주석 데이터셋을 제공할 뿐만 아니라 체계적인 이론적 프레임워크와 실험 기본선을 수립했다. 데이터 규모 및 모델 성능 측면에서 개선의 여지가 있지만, 학제간 연구 가치와 실제 응용 잠재력이 이 분야의 중요한 연구로 만든다.