Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic
Оценка уверенности на основе активаций: повышение надежности LLM посредством оценки неопределенности на основе активаций
В данной статье предлагается метод оценки уверенности для систем поиска с дополнением (RAG), который тесно коррелирует с корректностью выходных данных больших языковых моделей (LLM). Оценка уверенности особенно важна в высокорисковых областях, таких как финансы и здравоохранение, где стоимость ошибочного ответа значительно превышает стоимость отсутствия ответа. Метод расширяет существующие подходы к количественной оценке неопределенности путем использования исходных активаций сети прямого распространения (FFN) в качестве авторегрессивного сигнала, избегая присущей потери информации при проектировании логитов токенов и вероятностей после нормализации softmax. Авторы моделируют прогнозирование уверенности как задачу классификации последовательности и используют регуляризацию потерь Хубера при обучении для повышения устойчивости к зашумленному контролю. На реальных сценариях поддержки клиентов финансовой отрасли со сложной базой знаний метод превосходит сильные базовые модели и сохраняет высокую точность при строгих ограничениях на задержку.
В высокорисковых сценариях применения системы RAG должны отказывать в ответе, а не предоставлять неправильные ответы. Это требует меры уверенности, которая сильно коррелирует с корректностью ответа и маскирует ответы, когда оценка уверенности падает ниже порога.
Требования высокорисковых областей: В строго регулируемых областях, таких как финансы и здравоохранение, репутационные и финансовые затраты на предоставление неправильного ответа значительно превышают затраты на отсутствие ответа
Вызовы развертывания в реальном времени: Существующие методы плохо работают с длинными нарративными ответами и требованиями задержки в производственной среде
Источники неопределенности: Главным образом происходят из эпистемической неопределенности (недостаточные знания модели), а не из алеаторической неопределенности (присущая случайность данных)
Методы на основе выборки: Требуют множественных генераций, вводя чрезмерные вычислительные затраты и задержку в производственной среде
Методы вероятности токенов: Плохо работают на длинных ответах, где одно слово с низкой вероятностью может непропорционально снизить общую оценку последовательности
Потеря информации: Вероятности токенов теряют богатую информацию внутреннего представления после линейного проектирования и преобразования softmax
Предложен метод оценки уверенности на основе активаций: Использует исходные активации FFN в качестве авторегрессивного сигнала, избегая потери информации логитов токенов
Структура классификации последовательности: Моделирует прогнозирование уверенности как задачу классификации последовательности с использованием LSTM для обработки последовательности активаций
Регуляризация потерь Хубера: Вводит потери Хубера для повышения устойчивости к зашумленному контролю на этапе поиска
Проверка в производственной среде: Подтверждает эффективность и масштабируемость метода в реальных сценариях поддержки финансовых клиентов
Оптимизация эффективности: Демонстрирует, что использование только активаций 16-го слоя значительно снижает задержку при сохранении точности
Для входных данных x и сгенерированной последовательности s целью является оценка оценки уверенности c, которая сильно коррелирует с корректностью ответа. Когда c ниже порога, система отказывает в отображении ответа.
Техническая инновация: Первая систематическая работа по использованию активаций FFN для оценки уверенности в RAG, избегающая потери информации вероятностей токенов
Практическая ценность: Проверка на реальных финансовых сценариях с сильной практической ориентацией
Комплексные эксперименты: Достаточные абляционные исследования с множественных аспектов (слои, контекст, задержка)
Инженерные соображения: Полное учитывание требований задержки и масштабируемости производственной среды
Статья цитирует важные работы из нескольких связанных областей, включая количественную оценку неопределенности, системы RAG и анализ активаций:
Azaria and Mitchell (2023): Обнаружение "лжи" во внутренних состояниях LLM
Bakman et al. (2024): Оценка ответов на основе значения
Bao et al. (2024): Модель импликации HHEM
Dai et al. (2022): Нейроны знаний в предварительно обученных Transformer
Общая оценка: Это технически обоснованная статья с высокой практической ценностью, предлагающая инновационное решение важной проблемы оценки уверенности в системах RAG. Несмотря на определенные ограничения в универсальности и теоретической глубине, успешное применение в реальных сценариях и комплексная экспериментальная проверка придают ей значительную академическую и промышленную ценность.