2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

Оценка уверенности на основе активаций: повышение надежности LLM посредством оценки неопределенности на основе активаций

Основная информация

ID статьи: 2510.13750
Название: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Авторы: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 16 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.13750v2

Аннотация

В данной статье предлагается метод оценки уверенности для систем поиска с дополнением (RAG), который тесно коррелирует с корректностью выходных данных больших языковых моделей (LLM). Оценка уверенности особенно важна в высокорисковых областях, таких как финансы и здравоохранение, где стоимость ошибочного ответа значительно превышает стоимость отсутствия ответа. Метод расширяет существующие подходы к количественной оценке неопределенности путем использования исходных активаций сети прямого распространения (FFN) в качестве авторегрессивного сигнала, избегая присущей потери информации при проектировании логитов токенов и вероятностей после нормализации softmax. Авторы моделируют прогнозирование уверенности как задачу классификации последовательности и используют регуляризацию потерь Хубера при обучении для повышения устойчивости к зашумленному контролю. На реальных сценариях поддержки клиентов финансовой отрасли со сложной базой знаний метод превосходит сильные базовые модели и сохраняет высокую точность при строгих ограничениях на задержку.

Исследовательский контекст и мотивация

Определение проблемы

В высокорисковых сценариях применения системы RAG должны отказывать в ответе, а не предоставлять неправильные ответы. Это требует меры уверенности, которая сильно коррелирует с корректностью ответа и маскирует ответы, когда оценка уверенности падает ниже порога.

Важность проблемы

Требования высокорисковых областей: В строго регулируемых областях, таких как финансы и здравоохранение, репутационные и финансовые затраты на предоставление неправильного ответа значительно превышают затраты на отсутствие ответа
Вызовы развертывания в реальном времени: Существующие методы плохо работают с длинными нарративными ответами и требованиями задержки в производственной среде
Источники неопределенности: Главным образом происходят из эпистемической неопределенности (недостаточные знания модели), а не из алеаторической неопределенности (присущая случайность данных)

Ограничения существующих методов

Методы на основе выборки: Требуют множественных генераций, вводя чрезмерные вычислительные затраты и задержку в производственной среде
Методы вероятности токенов: Плохо работают на длинных ответах, где одно слово с низкой вероятностью может непропорционально снизить общую оценку последовательности
Потеря информации: Вероятности токенов теряют богатую информацию внутреннего представления после линейного проектирования и преобразования softmax

Основные вклады

Предложен метод оценки уверенности на основе активаций: Использует исходные активации FFN в качестве авторегрессивного сигнала, избегая потери информации логитов токенов
Структура классификации последовательности: Моделирует прогнозирование уверенности как задачу классификации последовательности с использованием LSTM для обработки последовательности активаций
Регуляризация потерь Хубера: Вводит потери Хубера для повышения устойчивости к зашумленному контролю на этапе поиска
Проверка в производственной среде: Подтверждает эффективность и масштабируемость метода в реальных сценариях поддержки финансовых клиентов
Оптимизация эффективности: Демонстрирует, что использование только активаций 16-го слоя значительно снижает задержку при сохранении точности

Подробное описание метода

Определение задачи

Для входных данных x и сгенерированной последовательности s целью является оценка оценки уверенности c, которая сильно коррелирует с корректностью ответа. Когда c ниже порога, система отказывает в отображении ответа.

Архитектура модели

Общая структура

Входная последовательность конструируется как:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

где xI (инструкция), xQ (вопрос), xC (контекст), s (ответ), xEOS (маркер конца)

Извлечение активаций

Извлечение активаций скрытого состояния из слоя ℓ Transformer:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

Сохранение только активаций, соответствующих части ответа:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

Классификатор последовательности

Использование LSTM в качестве классификатора последовательности g(Sin), выводящего 2-мерный вектор логитов z, оценка уверенности:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

Стратегия обучения

Функция потерь

Комбинирование потерь кросс-энтропии и регуляризации потерь Хубера:

LTotal = LCE + λLHuber

Потери Хубера определяются как:

Hδ(x) = {
  ½x² для |x| ≤ δ
  δ(|x| - ½δ) иначе
}

Потери Хубера на уровне пакета:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

Технические инновации

Исходные активации vs вероятности токенов: Избегает сжатия информации и искажения, вызванных линейным проектированием и softmax
Авторегрессивное моделирование последовательности: Использует LSTM для захвата временных зависимостей в процессе генерации
Регуляризация устойчивости: Потери Хубера более устойчивы к зашумленным меткам, вводимым ошибками поиска
Оптимизация слоев: Экспериментальное определение оптимального слоя для извлечения активаций

Экспериментальная установка

Набор данных

Источник: Внутренняя база знаний поддержки клиентов Capital One
Масштаб: 8,5 тыс. документов, примерно 45 тыс. фрагментов
Характеристики: Полуструктурированные документы с комплексной иерархией, таблицами, списками и т.д.
Аннотирование: Двухуровневый механизм проверки через обратную связь в реальном времени и оценку экспертов

Метрики оценки

AUROC: Способность различения оценки уверенности
Precision (P): Точность отображаемых ответов
Recall (R): Полнота правильных ответов
ROUGE-L: Оценка качества ответа
Mask Rate: Доля замаскированных ответов
Задержка: Среднее и P99 время ответа

Методы сравнения

Vectara (HHEM2.1): Модель семантической согласованности на основе импликации
VectaraFT: Версия Vectara с тонкой настройкой
Logits-based: Модель неопределенности на основе логитов токенов

Детали реализации

Модель: Llama 3.1 8B
Слои активаций: 16-й и 32-й слои
Размер контекста: Top-1, Top-3, Top-5, Full (Top-7)
Фреймворк вывода: Hugging Face, vLLM

Результаты экспериментов

Основные результаты

Метод	AUROC
Vectara	0.590
VectaraFT	0.634
Logits-based	0.663
Наша модель (без калибровки)	0.741
Наша модель (с калибровкой)	0.772

Анализ порога уверенности

Порог	Точность	Полнота	ROUGE-L (показано/замаскировано)	Доля маскирования
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

Оптимизация слоев и контекста

16-й слой vs 32-й слой:

16-й слой значительно снижает задержку (примерно на 42,5%) при сохранении аналогичной производительности
При полном контексте 16-й слой достигает точности 0.97 с долей маскирования 31.3%

Анализ задержки:

Фреймворк	Слой	Контекст	Средняя задержка (мс)	P99 задержка (мс)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

Абляционные исследования

Влияние потерь Хубера: Улучшение с 0.741 до 0.772 AUROC
Выбор слоя активации: Производительность 16-го слоя близка к 32-му, но с меньшей задержкой
Влияние размера контекста: Больший контекст повышает точность, но увеличивает задержку

Связанные работы

Классификация методов количественной оценки неопределенности

Методы на основе выборки: Измерение согласованности через множественные генерации, но с высокими вычислительными затратами
Методы на основе вероятности: Использование вероятностей токенов и семантической энтропии, но с ограниченной эффективностью на длинных текстах
Методы на основе классификации: Такие как HHEM, избегающие множественных генераций, но требующие доступа к черному ящику
Методы на основе активаций: Использование внутренних представлений, основное направление вклада данной работы

Преимущества данной работы

По сравнению с методами выборки: Одиночный прямой проход, меньшая задержка
По сравнению с методами вероятности: Сохранение полного внутреннего представления, меньше потери информации
По сравнению с методами черного ящика: Использование доступа белого ящика для получения более богатых сигналов

Заключение и обсуждение

Основные выводы

Эффективность: Метод на основе активаций значительно превосходит существующие базовые модели с AUROC 0.772
Практичность: Достижение хорошего баланса между точностью 0.95 и долей маскирования 29.9% в производственной среде
Эффективность: Активации 16-го слоя значительно снижают задержку при сохранении производительности
Устойчивость: Потери Хубера эффективно повышают устойчивость к зашумленному контролю

Ограничения

Зависимость от белого ящика: Требует доступа к внутренним активациям модели, ограничивая универсальность
Специфичность архитектуры: Метод адаптирован для конкретной архитектуры модели, требует переконфигурации для передачи
Двухэтапная обработка: Требует дополнительного прямого прохода для вычисления оценки уверенности
Ограничения данных: Невозможность публикации экспериментальных данных влияет на воспроизводимость

Направления будущих исследований

Сквозная интеграция: Прямая интеграция оценки уверенности в процесс генерации
Независимость от архитектуры: Разработка универсальных методов, применимых к различным архитектурам LLM
Оптимизация вычислений: Дальнейшее снижение вычислительных затрат на оценку уверенности
Теоретический анализ: Углубленное понимание теоретической связи между паттернами активаций и уверенностью

Глубокая оценка

Преимущества

Техническая инновация: Первая систематическая работа по использованию активаций FFN для оценки уверенности в RAG, избегающая потери информации вероятностей токенов
Практическая ценность: Проверка на реальных финансовых сценариях с сильной практической ориентацией
Комплексные эксперименты: Достаточные абляционные исследования с множественных аспектов (слои, контекст, задержка)
Инженерные соображения: Полное учитывание требований задержки и масштабируемости производственной среды

Недостатки

Ограничения универсальности: Метод зависит от доступа белого ящика и специфической архитектуры, ограничивая распространение
Теоретическая база: Отсутствие глубокого теоретического анализа того, почему активации FFN могут предсказывать уверенность
Прозрачность данных: Невозможность публикации проприетарного набора данных влияет на проверяемость результатов
Ограниченное сравнение: Недостаточное сравнение с более новыми методами количественной оценки неопределенности

Влияние

Академический вклад: Предоставляет новый технический путь для исследований надежности систем RAG
Промышленная ценность: Предоставляет практическое решение для развертывания LLM в высокорисковых областях
Методологическое вдохновение: Методы на основе активаций могут вдохновить больше исследований по использованию внутренних представлений

Применимые сценарии

Высокорисковые области: Финансы, здравоохранение, право и другие сценарии с экстремальными требованиями к точности
Развертывание белого ящика: Корпоративные приложения с доступом к внутренним параметрам модели
Системы реального времени: Сценарии, требующие предоставления надежных ответов при строгих ограничениях задержки
Специализированные базы знаний: Приложения RAG со структурированными и специализированными базами знаний

Библиография

Статья цитирует важные работы из нескольких связанных областей, включая количественную оценку неопределенности, системы RAG и анализ активаций:

Azaria and Mitchell (2023): Обнаружение "лжи" во внутренних состояниях LLM
Bakman et al. (2024): Оценка ответов на основе значения
Bao et al. (2024): Модель импликации HHEM
Dai et al. (2022): Нейроны знаний в предварительно обученных Transformer

Общая оценка: Это технически обоснованная статья с высокой практической ценностью, предлагающая инновационное решение важной проблемы оценки уверенности в системах RAG. Несмотря на определенные ограничения в универсальности и теоретической глубине, успешное применение в реальных сценариях и комплексная экспериментальная проверка придают ей значительную академическую и промышленную ценность.