2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.

academic

대규모 언어 모델 기반 엔티티 매칭에서의 신뢰도 보정

기본 정보

논문 ID: 2509.19557
제목: Confidence Calibration in Large Language Model-Based Entity Matching
저자: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
분류: cs.CL cs.LG
발표 시간: 2025년 10월 15일 (arXiv v2)
기관: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
논문 링크: https://arxiv.org/abs/2509.19557

초록

본 연구는 대규모 언어 모델과 엔티티 매칭에서의 신뢰도 보정의 교차 영역을 탐색합니다. 실증 연구를 통해 엔티티 매칭 작업에서 RoBERTa의 기준선 신뢰도와 온도 스케일링, 몬테카를로 드롭아웃, 앙상블 방법을 사용한 보정 후의 신뢰도를 비교했습니다. Abt-Buy, DBLP-ACM, iTunes-Amazon 및 Company 데이터셋을 사용하여 실험을 수행했습니다. 결과는 개선된 RoBERTa 모델이 경미한 과신뢰를 나타내며, 기대 보정 오류(ECE)가 다양한 데이터셋에서 0.0043에서 0.0552 범위임을 보여줍니다. 연구는 온도 스케일링을 사용하면 이러한 과신뢰를 완화할 수 있으며 ECE 점수를 최대 23.83% 감소시킬 수 있음을 발견했습니다.

연구 배경 및 동기

문제 정의

엔티티 매칭(Entity Matching, EM)은 엔티티 해석의 핵심 부분 작업으로, 서로 다른 데이터 소스의 데이터 항목 쌍이 동일한 현실 세계 엔티티를 가리키는지 여부를 결정하는 것을 목표로 합니다. 이는 엔티티 쌍이 "일치" 또는 "불일치"인지를 판단해야 하는 이진 분류 문제입니다.

중요성

다중 영역 응용 가치: 의료 분야에서 환자 치료를 개선하고, 역사적 인구 재구성에서 출생, 결혼 및 사망 기록을 연결하며, 법 집행에서 조사 및 범죄 예방에 필수적입니다
투명성 요구: 모델은 예측 결과를 제공하는 것 외에도 사용자가 모델의 신뢰성을 이해할 수 있도록 신뢰할 수 있는 신뢰도 점수를 제공해야 합니다
후속 작업 지도: 정확한 신뢰도 점수는 후속 작업의 의사 결정을 지도할 수 있습니다

기존 방법의 한계

과신뢰 문제: 현대의 대규모 언어 모델은 다른 NLP 작업에서 과신뢰를 나타내며, 예측의 불확실성을 정확하게 표현하기 어렵습니다
연구 공백: LLM이 신뢰도 보정 측면에서 연구되었지만, 엔티티 매칭 영역에서의 응용은 아직 충분히 탐색되지 않았습니다
체계적 평가 부족: 엔티티 매칭 작업을 위한 신뢰도 보정 방법의 체계적 비교 연구가 부족합니다

연구 동기

모델 예측의 투명성을 제공하고, 모델 내부 작동 메커니즘을 이해하는 데 도움을 주며, 모델의 약점을 식별하고 성능을 개선합니다. 모델이 어떤 구체적인 상황에서 불확실한지 명확히 알 때, 개선 방향을 찾기가 더 쉬워집니다.

핵심 기여

첫 번째 체계적 연구: 엔티티 매칭 영역에서 LLM의 신뢰도 보정 문제를 처음으로 체계적으로 연구했습니다
다양한 보정 방법 비교: 엔티티 매칭에서 온도 스케일링, 몬테카를로 드롭아웃 및 앙상블 방법의 신뢰도 보정 효과를 포괄적으로 비교했습니다
다중 데이터셋 검증: 6개의 서로 다른 영역 및 구조의 데이터셋에서 방법의 효과성 및 일반화 능력을 검증했습니다
실용적 지도: 실제 응용에서 신뢰도 보정의 모범 사례 권장사항, 특히 온도 스케일링 방법의 장점을 제공합니다

방법론 상세 설명

작업 정의

입력: 서로 다른 데이터 소스의 엔티티 쌍
출력: 이진 분류 레이블("일치"/"불일치") 및 해당 신뢰도 점수
목표: 신뢰도 점수가 예측이 정확할 실제 확률을 정확하게 반영하도록 합니다

모델 아키텍처

기본 아키텍처

사전 훈련된 RoBERTa: HuggingFace의 RoBERTa-base 모델을 인코더로 사용합니다
완전 연결 계층: RoBERTa 이후에 단일 계층 완전 연결 네트워크를 추가합니다
Sigmoid 출력 계층: 0-1 사이의 신뢰도 점수를 생성합니다
데이터 직렬화: Li 등(2020)의 방법을 채택하여 구조화된 데이터를 텍스트 시퀀스로 변환합니다

신뢰도 보정 방법

1. 온도 스케일링(Temperature Scaling)

Sigmoid 출력 후 온도 매개변수 T를 사용하여 로짓을 스케일링합니다
검증 세트에서 그리드 검색을 통해 온도 매개변수를 최적화합니다: T ∈ {0.1, 0.2, ..., 10.0}
ECE를 최소화하는 온도 값을 선택합니다
장점: 경량, 쉬운 구현, F1 점수 변경 없음

2. 몬테카를로 드롭아웃(Monte Carlo Dropout)

추론 시 완전 연결 계층에 드롭아웃(확률 p)을 적용합니다
10번의 전방 전파를 수행하고 출력을 평균화합니다
최적 드롭아웃 확률에 대해 그리드 검색을 수행합니다: p ∈ {0.05, 0.10, ..., 0.95}
F1 점수가 감소하지 않는 전제 하에 최소 ECE를 가진 p 값을 선택합니다

3. 앙상블 방법(Ensemble Method)

서로 다른 무작위 초기화로 5개의 완전 연결 계층을 훈련합니다
5개 모델의 출력 평균을 최종 예측으로 사용합니다
계산 비용을 최소화하기 위해 완전 연결 계층 및 Sigmoid 계층에만 앙상블을 적용합니다

기술적 혁신점

경량 구현: 몬테카를로 드롭아웃 및 앙상블 방법은 완전 연결 계층에만 적용되어 계산 비용을 최소화합니다
다중 지표 최적화: 응용 프로그램 요구사항에 따라 ECE, MCE 또는 RMSCE를 최적화하도록 선택할 수 있습니다
통계적 유의성 검증: 쌍을 이루는 t 검정(온도 스케일링, 몬테카를로 드롭아웃) 및 쌍을 이루지 않는 t 검정(앙상블 방법)을 사용하여 개선의 유의성을 평가합니다

실험 설정

데이터셋

6개의 서로 다른 영역의 엔티티 매칭 데이터셋을 사용합니다:

데이터셋	영역	훈련 세트	검증 세트	테스트 세트
Abt-Buy	제품	5,743 (10.72%)	1,916 (10.75%)	1,916 (10.75%)
DBLP-ACM-S/D	인용	7,417 (17.96%)	2,473 (17.96%)	2,473 (17.96%)
iTunes-Amazon-S/D	노래	321 (24.30%)	109 (27.78%)	109 (27.78%)
Company	회사	67,596 (24.94%)	22,533 (25.30%)	22,503 (25.06%)

주: S/D는 구조화된/더티 데이터 버전을 나타내며, 괄호 안은 양성 샘플의 비율입니다

평가 지표

기대 보정 오류(ECE): 주요 지표로, 예측 확률과 경험적 확률 간의 평균 차이를 측정합니다
최대 보정 오류(MCE): 최악의 경우 편차를 측정하며, 고위험 응용에 적합합니다
제곱근 평균 제곱 보정 오류(RMSCE): 더 큰 오류의 영향을 강조합니다
F1 점수: 보정 개선이 분류 성능을 손상시키지 않도록 보장합니다
시각화 분석: 신뢰도 히스토그램 및 신뢰성 그래프

비교 방법

기준선 방법: 보정되지 않은 RoBERTa Sigmoid 출력
보정 방법: 온도 스케일링, 몬테카를로 드롭아웃, 앙상블 방법

구현 세부사항

훈련 에포크: 40 에포크(Li 등 2020의 설정을 따릅니다)
모델 선택: 검증 세트 F1 점수가 가장 높은 체크포인트를 선택합니다
반복 실험: 각 실험을 5번 반복하고 평균 및 표준 편차를 보고합니다
빈 개수: √|D| (D는 데이터셋 크기)

실험 결과

주요 결과

기준선 성능 분석

RoBERTa 모델은 모든 데이터셋에서 경미한 과신뢰를 나타냅니다:

ECE 범위: 0.0043-0.0552, DBLP-ACM 데이터셋이 가장 낮고 Company 데이터셋이 가장 높습니다
신뢰도 분포: 모델은 극도로 높거나 극도로 낮은 예측 확률을 생성하는 경향이 있습니다
F1 성능: DBLP-ACM 데이터셋에서 98% 이상 달성, Company 데이터셋에서 약 82%

보정 방법 효과 비교

데이터셋	기준선 ECE	온도 스케일링 ECE	MC 드롭아웃 ECE	앙상블 ECE
Abt-Buy	0.0193±0.0018	0.0147±0.0017	0.0193±0.0016	0.0173±0.0005
DBLP-ACM-S	0.0041±0.0010	0.0036±0.0011	0.0038±0.0010	0.0057±0.0023
Company	0.0552±0.0099	0.0424±0.0102	0.0543±0.0085	-

온도 스케일링이 최고 성능을 발휘합니다:

Abt-Buy 데이터셋에서 ECE가 23.83% 크게 감소합니다
4개 데이터셋에서 유의미한 개선을 달성합니다
F1 점수 성능에 영향을 주지 않습니다

절제 실험

온도 매개변수 분석

최적 온도 값: 일반적으로 1.0보다 큼(평균 1.72±0.51), 기준선 모델이 실제로 과신뢰함을 나타냅니다
매개변수 안정성: 각 데이터셋 및 실행에서 명확한 최적 온도 값이 존재합니다

드롭아웃 확률 분석

최적 확률 범위: 0.5-1.0 사이, 일부 데이터셋에서는 0.8을 초과합니다
일반화 문제: 데이터셋 간 최적 드롭아웃 확률이 크게 변하여 일관성이 부족합니다

사례 분석

신뢰도 히스토그램은 다음을 보여줍니다:

정확한 예측: 주로 높은 신뢰도 구간에 집중됩니다
오류 예측: 분포가 더 분산되어 있지만 여전히 상당한 비율의 높은 신뢰도 오류 예측이 있습니다
중복 문제: 정확한 예측과 오류 예측의 신뢰도 분포에 상당한 중복이 있어 보정이 불충분함을 나타냅니다

실험 발견

과신뢰의 보편적 존재: 모든 데이터셋에서 RoBERTa는 다양한 정도의 과신뢰를 나타냅니다
온도 스케일링이 가장 효과적: 다른 방법과 비교하여 온도 스케일링은 ECE 개선 측면에서 최고 성능을 발휘합니다
계산 효율성 장점: 온도 스케일링의 계산 오버헤드가 가장 작아 배포가 용이합니다
성능 유지: 보정 방법은 기본적으로 분류 성능에 영향을 주지 않습니다

결론 및 토론

주요 결론

과신뢰 확인: RoBERTa는 엔티티 매칭 작업에서 실제로 과신뢰 문제를 가지고 있으며, ECE 점수는 0.0043-0.0552입니다
온도 스케일링이 최적: 온도 스케일링은 가장 효과적인 보정 방법으로 ECE를 최대 23.83% 감소시킬 수 있습니다
성능 유지: 신뢰도 보정은 분류 성능을 손상시키지 않습니다
실용성 강함: 온도 스케일링 방법은 간단하고 구현하기 쉬우며 실제 배포에 적합합니다

한계

모델 규모 제한: 연구는 상대적으로 작은 RoBERTa 모델에 집중하며 더 큰 규모의 현대 LLM을 포함하지 않습니다
평가 지표 한계: ECE, MCE, RMSCE 등의 지표는 경우에 따라 보정 품질을 정확하게 반영하지 못할 수 있습니다
계산 제약: 계산 제약으로 인해 앙상블 방법이 Company 데이터셋에서 완료되지 않았습니다
방법 단일성: 여러 보정 방법의 조합 사용을 탐색하지 않았습니다

향후 방향

대규모 모델 확장: 연구를 GPT-4 등 더 큰 규모의 언어 모델로 확장합니다
방법 조합: 온도 스케일링과 다른 방법의 조합 탐색, 예: 앙상블+온도 스케일링
분산 활용: 몬테카를로 드롭아웃 및 앙상블 방법이 생성하는 분산 정보를 활용하여 보정을 개선합니다
새로운 평가 지표: 보정 품질을 더 정확하게 반영하는 평가 지표를 개발합니다

심층 평가

장점

높은 연구 가치: 엔티티 매칭 영역의 신뢰도 보정 연구 공백을 채웁니다
엄격한 실험 설계: 다중 데이터셋, 다중 방법, 다중 지표의 포괄적 비교
통계적 엄격성: 적절한 통계 검정을 사용하여 결과의 유의성을 검증합니다
실용성 강함: 직접 적용 가능한 방법 및 매개변수 선택 지도를 제공합니다
명확한 작성: 논문 구조가 합리적이고 기술 세부사항이 정확하게 설명되어 있습니다

부족한 점

모델 범위 제한: RoBERTa 하나의 모델 아키텍처만 연구합니다
이론적 분석 부족: 온도 스케일링이 왜 가장 효과적인지에 대한 깊이 있는 이론적 설명이 부족합니다
데이터셋 규모: 일부 데이터셋(예: iTunes-Amazon)의 규모가 작아 결과의 일반화 가능성에 영향을 미칠 수 있습니다
계산 자원 제한: 일부 실험의 완전성에 영향을 미칩니다

영향력

학술적 기여: 엔티티 매칭 영역에 중요한 신뢰도 보정 연구 방향을 도입합니다
실용적 가치: 온도 스케일링 방법은 간단하고 효과적이며 실제 시스템에 쉽게 배포할 수 있습니다
재현 가능성: 실험 설정이 상세하여 재현 및 확장이 용이합니다
영감 제공: 후속 연구를 위한 중요한 기초 및 방향 지도를 제공합니다

적용 시나리오

고위험 응용: 의료 기록 매칭 등 신뢰할 수 있는 신뢰도 추정이 필요한 시나리오
인간-기계 협력: 모델이 불확실성 정보를 제공하여 인간의 의사 결정을 보조하는 응용
품질 관리: 신뢰도 점수를 통해 인간 검토가 필요한 어려운 샘플을 식별합니다
모델 최적화: 신뢰도 정보를 활용하여 모델 훈련 및 데이터 수집 전략을 개선합니다

참고문헌

Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

요약: 본 논문은 엔티티 매칭 영역의 신뢰도 보정 연구에 중요한 기여를 하였으며, 체계적인 방법 비교 및 실용적인 해결책을 제공합니다. 온도 스케일링 방법의 우수한 성능은 실제 응용에 가치 있는 지도를 제공합니다. 일부 한계가 있지만, 본 연구는 후속 작업을 위한 견고한 기초를 마련하며 중요한 학술적 및 실용적 가치를 가집니다.