Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
Большие языковые модели (LLMs) достигли значительного прогресса в выражении уверенности на естественном языке, повышая прозрачность и надежность. Однако их оценки уверенности часто демонстрируют проблему избыточной уверенности, коренные причины которой остаются недостаточно изученными. В данном исследовании проводится детальный анализ внутренней динамики вербализованной уверенности, выявляющий "независимость от ответа" как ключевой фактор, то есть неспособность модели модулировать уверенность на основе собственного ответа. Для решения этой проблемы авторы предлагают ADVICE (Answer-Dependent Verbalized Confidence Estimation) — фреймворк тонкой настройки, способствующий оценке уверенности на основе ответа. Обширные эксперименты показывают, что ADVICE значительно улучшает калибровку уверенности при сохранении производительности задачи. Дальнейший анализ подтверждает, что ADVICE повышает зависимость от ответа, создавая более сбалансированное и хорошо откалиброванное распределение уверенности.
Основная проблема: Большие языковые модели при генерации вербализованной уверенности демонстрируют серьезную проблему избыточной уверенности, то есть склонность выражать высокую уверенность независимо от правильности ответа
Значимость: При развертывании LLMs в высокорисковых областях, таких как право и медицина, надежная оценка уверенности критична для управления присущей моделям неполнотой
Ограничения существующих методов:
Существующие исследования сосредоточены на "как" смягчить избыточную уверенность, а не на "почему" она возникает
Отсутствует глубокое понимание внутренних механизмов вербализованной уверенности
Методы подсказок, выборки и тонкой настройки, хотя и показывают улучшения, не раскрывают коренные причины
Авторы вдохновляются теориями оценки уверенности из нейронауки, формулируя оценку уверенности как процесс накопления доказательств после принятия решения. Они обнаруживают, что LLMs при оценке уверенности часто игнорируют информацию о собственном сгенерированном ответе, что противоречит определению уверенности.
Теоретическое открытие: Первое систематическое выявление и анализ "независимости от ответа" как коренной причины избыточной уверенности в LLMs
Методология анализа: Предложен двойной метод верификации на основе сравнения вероятностных распределений и анализа атрибуции для количественной оценки зависимости от ответа
Решение: Разработан фреймворк тонкой настройки ADVICE, явно побуждающий модель обращать внимание на сгенерированный ответ при сообщении уверенности
Эмпирическая верификация: Метод верифицирован на нескольких наборах данных и моделях, доказывая важность информации об ответе в оценке уверенности
Способность к обобщению: Продемонстрирована сильная способность к обобщению на задачах вне распределения и характеристика сбалансированного распределения уверенности
Учитывая вопрос q и соответствующий ответ a, вербализованная уверенность должна приблизительно соответствовать вероятности правильности ответа P(correct|q,a). Идеальная оценка уверенности должна:
Выражать высокую уверенность при правильном ответе
Выражать низкую уверенность при неправильном ответе
Регулировать уровень уверенности в зависимости от содержания ответа
Для количественной оценки различия между двумя распределениями используется расстояние Йенсена-Шеннона (JSD). Значение JSD, близкое к 0, указывает на нечувствительность модели к информации об ответе.
Верификация независимости от ответа: Распределение JSD демонстрирует степенной закон, большинство значений близки к 0, подтверждая гипотезу независимости от ответа
Паттерны внимания: Вес внимания от уверенности к ответу значительно ниже, чем в других направлениях
Улучшение калибровки: Графики надежности показывают, что ADVICE создает более детальное и точное распределение уверенности
Повышение осведомленности об ответе: Эксперименты с маскированием показывают, что ADVICE надлежащим образом выражает неопределенность при отсутствии ответа
Основное внимание уделяется задачам вопросно-ответного взаимодействия с коротким текстом; применимость к задачам понимания длинного текста требует дальнейшей проверки
Требуются дополнительные затраты на построение данных для генерации пар контрастивных ответов
Эффективность на задачах сложного рассуждения требует дальнейшего изучения
Статья цитирует 68 связанных работ, охватывающих вербализованную уверенность, методы зондирования LLM, теорию калибровки и другие области, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная исследовательская работа с важными вкладами как в теоретический анализ, так и в практические методы. Авторы не только выявили коренную причину избыточной уверенности в LLMs, но и предложили эффективное решение. Метод прост и эффективен, дизайн экспериментов строг, результаты убедительны. Работа имеет важное значение для продвижения надежного AI и повышения надежности LLMs в практических приложениях.