2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim

Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.

academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Основная информация

ID статьи: 2510.10913
Название: ADVICE: Answer-Dependent Verbalized Confidence Estimation
Авторы: Ki Jung Seo, Sehun Lim, Taeuk Kim (Hanyang University)
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10913

Аннотация

Большие языковые модели (LLMs) достигли значительного прогресса в выражении уверенности на естественном языке, повышая прозрачность и надежность. Однако их оценки уверенности часто демонстрируют проблему избыточной уверенности, коренные причины которой остаются недостаточно изученными. В данном исследовании проводится детальный анализ внутренней динамики вербализованной уверенности, выявляющий "независимость от ответа" как ключевой фактор, то есть неспособность модели модулировать уверенность на основе собственного ответа. Для решения этой проблемы авторы предлагают ADVICE (Answer-Dependent Verbalized Confidence Estimation) — фреймворк тонкой настройки, способствующий оценке уверенности на основе ответа. Обширные эксперименты показывают, что ADVICE значительно улучшает калибровку уверенности при сохранении производительности задачи. Дальнейший анализ подтверждает, что ADVICE повышает зависимость от ответа, создавая более сбалансированное и хорошо откалиброванное распределение уверенности.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Большие языковые модели при генерации вербализованной уверенности демонстрируют серьезную проблему избыточной уверенности, то есть склонность выражать высокую уверенность независимо от правильности ответа
Значимость: При развертывании LLMs в высокорисковых областях, таких как право и медицина, надежная оценка уверенности критична для управления присущей моделям неполнотой
Ограничения существующих методов:
- Существующие исследования сосредоточены на "как" смягчить избыточную уверенность, а не на "почему" она возникает
- Отсутствует глубокое понимание внутренних механизмов вербализованной уверенности
- Методы подсказок, выборки и тонкой настройки, хотя и показывают улучшения, не раскрывают коренные причины

Исследовательская мотивация

Авторы вдохновляются теориями оценки уверенности из нейронауки, формулируя оценку уверенности как процесс накопления доказательств после принятия решения. Они обнаруживают, что LLMs при оценке уверенности часто игнорируют информацию о собственном сгенерированном ответе, что противоречит определению уверенности.

Основные вклады

Теоретическое открытие: Первое систематическое выявление и анализ "независимости от ответа" как коренной причины избыточной уверенности в LLMs
Методология анализа: Предложен двойной метод верификации на основе сравнения вероятностных распределений и анализа атрибуции для количественной оценки зависимости от ответа
Решение: Разработан фреймворк тонкой настройки ADVICE, явно побуждающий модель обращать внимание на сгенерированный ответ при сообщении уверенности
Эмпирическая верификация: Метод верифицирован на нескольких наборах данных и моделях, доказывая важность информации об ответе в оценке уверенности
Способность к обобщению: Продемонстрирована сильная способность к обобщению на задачах вне распределения и характеристика сбалансированного распределения уверенности

Подробное описание метода

Определение задачи

Учитывая вопрос q и соответствующий ответ a, вербализованная уверенность должна приблизительно соответствовать вероятности правильности ответа P(correct|q,a). Идеальная оценка уверенности должна:

Выражать высокую уверенность при правильном ответе
Выражать низкую уверенность при неправильном ответе
Регулировать уровень уверенности в зависимости от содержания ответа

Анализ независимости от ответа

1. Метод сравнения вероятностных распределений

Верификация независимости от ответа путем сравнения следующих двух распределений:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

где правая часть раскрывается через формулу полной вероятности:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Для количественной оценки различия между двумя распределениями используется расстояние Йенсена-Шеннона (JSD). Значение JSD, близкое к 0, указывает на нечувствительность модели к информации об ответе.

2. Метод анализа атрибуции

Развертывание внимания (Attention Rollout): Анализ весов внимания при генерации уверенности к токенам ответа
Интегрированные градиенты (Integrated Gradients): Расчет вклада токенов ответа в предсказание уверенности

Дизайн фреймворка ADVICE

Построение обучающих данных

Выборка 2000 экземпляров из TriviaQA
Построение троек (q, a_correct, a_wrong) для каждого вопроса q
Создание трех вариантов языкового формата для повышения способности к обобщению

Цель обучения

Определены три функции потерь:

Потеря языкового моделирования:

L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

Сохранение исходной способности модели к вопросно-ответному взаимодействию

Потеря контрастного распределения:

L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

Побуждение модели различать распределения уверенности для правильных и неправильных ответов

Маржинальная потеря:

L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

Обеспечение более высокой ожидаемой уверенности для правильных ответов

Общая функция потерь:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

Технические инновации

Анализ коренной причины: Первый анализ проблемы избыточной уверенности с точки зрения зависимости от ответа
Двойная верификация: Комбинирование вероятностного анализа и методов атрибуции нейронной сети для верификации гипотезы
Контрастивное обучение: Использование пар правильных/неправильных ответов для контрастивного обучения
Многоцелевая оптимизация: Балансирование сохранения производительности задачи и улучшения калибровки уверенности

Экспериментальная установка

Наборы данных

Обучение: TriviaQA (2000 экземпляров)
Оценка: TriviaQA, MMLU, SciQ, LogiQA (тестирование обобщения между доменами)

Модели

LLAMA-3.1-8B-INSTRUCT
MISTRAL-7B-INSTRUCT-V0.3
GEMMA-2-9B-IT

Типы выражения уверенности

ScoreText: {low, medium, high}
ScoreLetter: {E, D, C, B, A}
ScoreNumber: {0, 1, ..., 9}
ScoreFloat: 0.0, 1.0
ScorePercent: {0%, 1%, ..., 100%}

Метрики оценки

ECE (Expected Calibration Error): Средняя абсолютная разница между предсказанной уверенностью и фактической точностью
NCE (Net Calibration Error): Подписанная ошибка калибровки, отражающая смещение
BS (Brier Score): Среднеквадратичная ошибка вероятностного предсказания
AUROC: Способность к ранжированию уверенности

Методы сравнения

Default: Базовый метод подсказок
Self-Consistency: Метод на основе выборки
ConfTuner: Современный метод тонкой настройки

Результаты экспериментов

Основные результаты

Сравнение производительности на TriviaQA (GEMMA-2-9B-IT):

ECE: Default (21.9%) → ADVICE (6.5%)
NCE: Default (-21.8%) → ADVICE (1.6%)
AUROC: Default (52.7%) → ADVICE (78.5%)

Результаты обобщения между доменами показывают значительные улучшения ADVICE на MMLU, SciQ и LogiQA, доказывая робастность метода.

Абляционные эксперименты

Анализ вклада каждой функции потерь:

L_JSD отдельно: ECE снижается с 19.7% до 4.9%
L_Margin отдельно: ECE снижается с 19.7% до 3.9%
Полный ADVICE: Лучшая способность к обобщению между наборами данных

Ключевые находки

Верификация независимости от ответа: Распределение JSD демонстрирует степенной закон, большинство значений близки к 0, подтверждая гипотезу независимости от ответа
Паттерны внимания: Вес внимания от уверенности к ответу значительно ниже, чем в других направлениях
Улучшение калибровки: Графики надежности показывают, что ADVICE создает более детальное и точное распределение уверенности
Повышение осведомленности об ответе: Эксперименты с маскированием показывают, что ADVICE надлежащим образом выражает неопределенность при отсутствии ответа

Анализ гиперпараметров

Увеличение δ_JSD постоянно снижает ECE, подтверждая эффективность цели контрастивного обучения.

Связанные работы

Исследования вербализованной уверенности

Lin и др. (2022) впервые представили оценку вербализованной уверенности
Последующие исследования разделены на три категории: методы подсказок, методы выборки и методы тонкой настройки
Данное исследование заполняет пробел в анализе механизмов

Методы зондирования LLM

Анализ механизмов внимания: Attention Rollout, Attention Flow и др.
Методы атрибуции градиентов: Integrated Gradients и др.
Данное исследование инновационно применяет эти методы к анализу уверенности

Заключение и обсуждение

Основные выводы

Избыточная уверенность в LLMs в основном вызвана проблемой независимости от ответа
ADVICE эффективно улучшает калибровку уверенности путем повышения зависимости от ответа
Метод демонстрирует хорошую способность к обобщению и практическую ценность

Ограничения

Основное внимание уделяется задачам вопросно-ответного взаимодействия с коротким текстом; применимость к задачам понимания длинного текста требует дальнейшей проверки
Требуются дополнительные затраты на построение данных для генерации пар контрастивных ответов
Эффективность на задачах сложного рассуждения требует дальнейшего изучения

Будущие направления

Расширение на задачи, требующие понимания длинного контекста и сложного рассуждения
Исследование более эффективных методов построения обучающих данных
Изучение применения в других модальностях (например, в видео-языковых моделях)

Глубокая оценка

Преимущества

Выдающийся теоретический вклад: Первый систематический анализ коренной причины избыточной уверенности, обеспечивающий важные теоретические инсайты
Строгая методология: Использование многоугольной верификации (вероятностный анализ + анализ атрибуции) обеспечивает высокую достоверность выводов
Совершенный дизайн экспериментов: Всесторонняя оценка между моделями и наборами данных с достаточными абляционными экспериментами
Значительная практическая ценность: Значительное улучшение калибровки уверенности при сохранении производительности задачи
Сильная способность к обобщению: Хорошая производительность на данных вне распределения, демонстрирующая робастность метода

Недостатки

Ограниченный диапазон задач: Основная верификация на задачах вопросно-ответного взаимодействия; применимость к другим задачам NLP недостаточно изучена
Вычислительные затраты: Требуется дополнительный процесс тонкой настройки и построение контрастивных данных
Глубина теоретического анализа: Хотя выявлена проблема независимости от ответа, анализ глубинных причин ее возникновения недостаточен
Долгосрочные эффекты: Не оценена стабильность модели после тонкой настройки при длительном использовании

Влияние

Академическая ценность: Предоставляет новую исследовательскую перспективу и аналитический фреймворк для области оценки уверенности
Практическое значение: Имеет важное значение для повышения надежности LLMs в высокорисковых приложениях
Воспроизводимость: Предоставляет детальные детали реализации и открытый исходный код, облегчающие воспроизведение и расширение

Применимые сценарии

Системы вопросно-ответного взаимодействия, требующие надежной оценки уверенности
Системы поддержки принятия решений в высокорисковых областях
Сценарии человеко-машинного сотрудничества с выражением неопределенности
Приложения калибровки моделей и надежного AI

Библиография

Статья цитирует 68 связанных работ, охватывающих вербализованную уверенность, методы зондирования LLM, теорию калибровки и другие области, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная исследовательская работа с важными вкладами как в теоретический анализ, так и в практические методы. Авторы не только выявили коренную причину избыточной уверенности в LLMs, но и предложили эффективное решение. Метод прост и эффективен, дизайн экспериментов строг, результаты убедительны. Работа имеет важное значение для продвижения надежного AI и повышения надежности LLMs в практических приложениях.