2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.
This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
academic

Калибровка уверенности в сопоставлении сущностей на основе больших языковых моделей

Основная информация

  • ID статьи: 2509.19557
  • Название: Confidence Calibration in Large Language Model-Based Entity Matching
  • Авторы: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
  • Классификация: cs.CL cs.LG
  • Дата публикации: 15 октября 2025 г. (arXiv v2)
  • Учреждения: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
  • Ссылка на статью: https://arxiv.org/abs/2509.19557

Аннотация

В данном исследовании изучается пересечение больших языковых моделей и калибровки уверенности при сопоставлении сущностей. Посредством эмпирического исследования сравниваются базовые показатели уверенности RoBERTa при сопоставлении сущностей с показателями после калибровки с использованием масштабирования температуры, Monte Carlo Dropout и методов ансамбля. Эксперименты проводились на наборах данных Abt-Buy, DBLP-ACM, iTunes-Amazon и Company. Результаты показывают, что улучшенная модель RoBERTa демонстрирует легкую переуверенность, при этом ожидаемая ошибка калибровки (ECE) варьируется от 0,0043 до 0,0552 на различных наборах данных. Исследование показывает, что использование масштабирования температуры может смягчить эту переуверенность, снижая показатели ECE на 23,83%.

Предпосылки и мотивация исследования

Определение проблемы

Сопоставление сущностей (Entity Matching, EM) является ключевой подзадачей разрешения сущностей, целью которой является определение того, относятся ли пары записей данных из различных источников данных к одной и той же сущности реального мира. Это задача бинарной классификации, требующая определения того, являются ли пары сущностей "совпадающими" или "несовпадающими".

Значимость

  1. Ценность в различных областях: улучшение ухода за пациентами в медицине, связывание записей о рождении, браке и смерти при исторической реконструкции населения, критическое значение для расследований и предотвращения преступлений в правоохранительной деятельности
  2. Требование прозрачности: модели должны предоставлять не только прогнозы, но и надежные оценки уверенности, чтобы пользователи могли понять надежность модели
  3. Руководство для последующих задач: точные оценки уверенности могут направлять принятие решений в последующих задачах

Ограничения существующих методов

  1. Проблема переуверенности: современные большие языковые модели демонстрируют переуверенность в других задачах NLP, с трудом точно выражая неопределенность прогнозов
  2. Пробел в исследованиях: хотя исследования калибровки уверенности LLM уже проводились, их применение в области сопоставления сущностей еще не полностью изучено
  3. Отсутствие систематической оценки: отсутствуют систематические сравнительные исследования методов калибровки уверенности для задач сопоставления сущностей

Мотивация исследования

Обеспечение прозрачности прогнозов модели, помощь в понимании внутреннего механизма работы модели, выявление слабых мест модели и улучшение производительности. Когда точно известно, в каких конкретных ситуациях модель неуверена, легче найти направления для улучшения.

Основные вклады

  1. Первое систематическое исследование: первое систематическое исследование проблемы калибровки уверенности LLM в области сопоставления сущностей
  2. Сравнение нескольких методов калибровки: всестороннее сравнение эффективности масштабирования температуры, Monte Carlo Dropout и методов ансамбля при калибровке уверенности при сопоставлении сущностей
  3. Проверка на нескольких наборах данных: проверка эффективности и обобщаемости методов на 6 наборах данных из различных областей и структур
  4. Практические рекомендации: предоставление рекомендаций по лучшим практикам калибровки уверенности в практических приложениях, особенно преимуществ метода масштабирования температуры

Подробное описание методов

Определение задачи

  • Входные данные: пары сущностей из различных источников данных
  • Выходные данные: метка бинарной классификации ("совпадение"/"несовпадение") и соответствующая оценка уверенности
  • Цель: обеспечение того, чтобы оценка уверенности точно отражала истинную вероятность правильного прогноза

Архитектура модели

Базовая архитектура

  1. Предварительно обученный RoBERTa: использование модели RoBERTa-base из HuggingFace в качестве кодировщика
  2. Полносвязный слой: добавление однослойной полносвязной сети после RoBERTa
  3. Выходной слой Sigmoid: создание оценок уверенности в диапазоне 0-1
  4. Сериализация данных: использование метода Li et al. (2020) для преобразования структурированных данных в текстовые последовательности

Методы калибровки уверенности

1. Масштабирование температуры (Temperature Scaling)

  • Применение параметра температуры T для масштабирования логитов после Sigmoid
  • Оптимизация параметра температуры посредством поиска по сетке на наборе валидации: T ∈ {0,1, 0,2, ..., 10,0}
  • Выбор значения температуры, минимизирующего ECE
  • Преимущества: легковесность, простота реализации, отсутствие влияния на показатель F1

2. Monte Carlo Dropout

  • Применение dropout (вероятность p) к полносвязному слою во время вывода
  • Выполнение 10 прямых проходов и усреднение выходов
  • Поиск по сетке оптимальной вероятности dropout: p ∈ {0,05, 0,10, ..., 0,95}
  • Выбор значения p, обеспечивающего минимальное ECE при условии неснижения показателя F1

3. Метод ансамбля

  • Обучение 5 полносвязных слоев с различной случайной инициализацией
  • Усреднение выходов 5 моделей в качестве окончательного прогноза
  • Применение ансамбля только к полносвязному слою и слою Sigmoid для снижения вычислительных затрат

Технические инновации

  1. Легковесная реализация: методы Monte Carlo Dropout и ансамбля применяются только к полносвязному слою, минимизируя вычислительные затраты
  2. Оптимизация по нескольким метрикам: возможность выбора оптимизации ECE, MCE или RMSCE в зависимости от требований приложения
  3. Проверка статистической значимости: использование парного t-теста (масштабирование температуры, Monte Carlo Dropout) и непарного t-теста (метод ансамбля) для оценки значимости улучшений

Экспериментальная установка

Наборы данных

Использование 6 наборов данных сопоставления сущностей из различных областей:

Набор данныхОбластьОбучающий наборНабор валидацииТестовый набор
Abt-BuyПродукты5 743 (10,72%)1 916 (10,75%)1 916 (10,75%)
DBLP-ACM-S/DЦитирования7 417 (17,96%)2 473 (17,96%)2 473 (17,96%)
iTunes-Amazon-S/DПесни321 (24,30%)109 (27,78%)109 (27,78%)
CompanyКомпании67 596 (24,94%)22 533 (25,30%)22 503 (25,06%)

Примечание: S/D обозначает версии структурированных/грязных данных, цифры в скобках указывают долю положительных образцов

Метрики оценки

  1. Ожидаемая ошибка калибровки (ECE): основная метрика, измеряющая среднюю разницу между предсказанной и эмпирической вероятностями
  2. Максимальная ошибка калибровки (MCE): измеряет отклонение в наихудшем случае, подходит для приложений высокого риска
  3. Среднеквадратичная ошибка калибровки (RMSCE): сильнее подчеркивает влияние больших ошибок
  4. Показатель F1: обеспечение того, чтобы улучшения калибровки не происходили за счет производительности классификации
  5. Визуальный анализ: гистограммы уверенности и графики надежности

Методы сравнения

  • Базовый метод: некалиброванный выход RoBERTa Sigmoid
  • Методы калибровки: масштабирование температуры, Monte Carlo Dropout, метод ансамбля

Детали реализации

  • Количество эпох обучения: 40 (в соответствии с установками Li et al. 2020)
  • Выбор модели: выбор контрольной точки с наивысшим показателем F1 на наборе валидации
  • Повторение экспериментов: каждый эксперимент повторяется 5 раз с отчетом о среднем значении и стандартном отклонении
  • Количество бинов: √|D| (D — размер набора данных)

Результаты экспериментов

Основные результаты

Анализ производительности базовой модели

Модель RoBERTa демонстрирует легкую переуверенность на всех наборах данных:

  • Диапазон ECE: 0,0043-0,0552, минимум на наборе данных DBLP-ACM, максимум на наборе данных Company
  • Распределение уверенности: модель имеет тенденцию создавать очень высокие или очень низкие предсказанные вероятности
  • Производительность F1: более 98% на наборе данных DBLP-ACM, около 82% на наборе данных Company

Сравнение эффективности методов калибровки

Набор данныхБазовое ECEМасштабирование температуры ECEMC Dropout ECEАнсамбль ECE
Abt-Buy0,0193±0,00180,0147±0,00170,0193±0,00160,0173±0,0005
DBLP-ACM-S0,0041±0,00100,0036±0,00110,0038±0,00100,0057±0,0023
Company0,0552±0,00990,0424±0,01020,0543±0,0085-

Масштабирование температуры показало лучший результат:

  • Значительное снижение ECE на 23,83% на наборе данных Abt-Buy
  • Значительные улучшения на 4 наборах данных
  • Отсутствие влияния на производительность F1

Абляционные эксперименты

Анализ параметра температуры

  • Оптимальные значения температуры: обычно больше 1,0 (среднее 1,72±0,51), что подтверждает переуверенность базовой модели
  • Стабильность параметра: четкие оптимальные значения температуры для каждого набора данных и запуска

Анализ вероятности Dropout

  • Оптимальный диапазон вероятности: 0,5-1,0, в некоторых наборах данных даже превышает 0,8
  • Проблемы обобщения: значительные различия в оптимальной вероятности dropout между наборами данных, отсутствие согласованности

Анализ конкретных случаев

Гистограммы уверенности показывают:

  • Правильные прогнозы: в основном сосредоточены в диапазоне высокой уверенности
  • Неправильные прогнозы: более рассеянное распределение, но значительная доля высокоуверенных ошибочных прогнозов
  • Проблема перекрытия: значительное перекрытие распределений уверенности между правильными и неправильными прогнозами, указывающее на недостаточную калибровку

Экспериментальные выводы

  1. Универсальность переуверенности: RoBERTa демонстрирует различные степени переуверенности на всех наборах данных
  2. Эффективность масштабирования температуры: по сравнению с другими методами масштабирование температуры показывает лучшие результаты в улучшении ECE
  3. Преимущества вычислительной эффективности: масштабирование температуры имеет минимальные вычислительные затраты и легко развертывается
  4. Сохранение производительности: методы калибровки практически не влияют на производительность классификации

Связанные работы

LLM при сопоставлении сущностей

  • Модели серии BERT: Brunner и Stockinger (2020) обнаружили, что BERT, RoBERTa и другие модели обеспечивают улучшение F1 на 35,9% по сравнению с традиционными методами
  • Система DITTO: Li et al. (2020) система сопоставления сущностей, объединяющая LLM с методами оптимизации
  • Модели декодера: исследования применения GPT-3, ChatGPT, GPT-4 при сопоставлении сущностей

Калибровка уверенности LLM

  • Ранние открытия: Guo et al. (2017) обнаружили универсальные проблемы калибровки в современных нейронных сетях
  • Исследования BERT/RoBERTa: Desai и Durrett (2020), Xiao et al. (2022) исследования калибровки на множественных задачах NLP
  • Методы калибровки: развитие масштабирования температуры, Monte Carlo Dropout, методов ансамбля

Инновации данной работы

  • Первопроходство в области: первое систематическое применение калибровки уверенности к задачам сопоставления сущностей
  • Сравнение методов: всестороннее сравнение эффективности нескольких методов калибровки
  • Практические рекомендации: предоставление рекомендаций по лучшим практикам для практического применения

Выводы и обсуждение

Основные выводы

  1. Подтверждение переуверенности: RoBERTa действительно демонстрирует проблему переуверенности при сопоставлении сущностей, с показателями ECE 0,0043-0,0552
  2. Оптимальность масштабирования температуры: масштабирование температуры является наиболее эффективным методом калибровки, способным снижать показатели ECE на 23,83%
  3. Сохранение производительности: калибровка уверенности не наносит ущерба производительности классификации
  4. Высокая практичность: метод масштабирования температуры прост в реализации и подходит для практического развертывания

Ограничения

  1. Ограничения размера модели: исследование сосредоточено на относительно небольших моделях RoBERTa, не охватывая более крупные современные LLM
  2. Ограничения метрик оценки: метрики ECE, MCE, RMSCE могут в некоторых случаях неточно отражать качество калибровки
  3. Вычислительные ограничения: из-за вычислительных ограничений метод ансамбля не был полностью реализован на наборе данных Company
  4. Однородность методов: не исследовалось комбинированное использование нескольких методов калибровки

Направления будущих исследований

  1. Расширение на большие модели: расширение исследования на более крупные языковые модели, такие как GPT-4
  2. Комбинирование методов: исследование комбинированного использования масштабирования температуры с другими методами, такими как Ensembles+Temperature Scaling
  3. Использование дисперсии: использование информации о дисперсии, генерируемой методами Monte Carlo Dropout и ансамбля, для улучшения калибровки
  4. Новые метрики оценки: разработка метрик оценки, более точно отражающих качество калибровки

Глубокая оценка

Преимущества

  1. Высокая исследовательская ценность: заполнение пробела в исследованиях калибровки уверенности в области сопоставления сущностей
  2. Строгий дизайн экспериментов: всестороннее сравнение с использованием нескольких наборов данных, методов и метрик
  3. Статистическая строгость: использование надлежащих статистических тестов для проверки значимости результатов
  4. Высокая практичность: предоставление методов и рекомендаций по выбору параметров, которые можно непосредственно применять
  5. Ясность изложения: логичная структура статьи, точное описание технических деталей

Недостатки

  1. Ограниченное охватывание моделей: исследование только архитектуры RoBERTa
  2. Недостаточный теоретический анализ: отсутствие глубокого теоретического объяснения того, почему масштабирование температуры наиболее эффективно
  3. Размер наборов данных: некоторые наборы данных (например, iTunes-Amazon) имеют относительно небольшой размер, что может влиять на обобщаемость результатов
  4. Ограничения вычислительных ресурсов: влияние на полноту некоторых экспериментов

Влияние

  1. Академический вклад: введение важного направления исследований калибровки уверенности в область сопоставления сущностей
  2. Практическая ценность: метод масштабирования температуры прост и эффективен, легко развертывается в практических системах
  3. Воспроизводимость: детальное описание экспериментальной установки облегчает воспроизведение и расширение исследования
  4. Вдохновляющее значение: предоставление важной основы и направлений для последующих исследований

Применимые сценарии

  1. Приложения высокого риска: сопоставление медицинских записей и другие сценарии, требующие надежных оценок уверенности
  2. Сотрудничество человека и машины: приложения, требующие предоставления моделью информации о неопределенности для поддержки принятия решений человеком
  3. Контроль качества: использование оценок уверенности для выявления сложных образцов, требующих ручной проверки
  4. Оптимизация модели: использование информации об уверенности для улучшения обучения модели и стратегии сбора данных

Библиография

  1. Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
  2. Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
  3. Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
  4. Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
  5. Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

Резюме: Данная статья вносит важный вклад в исследование калибровки уверенности в области сопоставления сущностей, предоставляя систематическое сравнение методов и практические решения. Отличная производительность метода масштабирования температуры предоставляет ценное руководство для практического применения. Несмотря на некоторые ограничения, данное исследование закладывает прочную основу для последующих работ и имеет важное академическое и практическое значение.