2025-11-15T02:58:11.720673

Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions

Kang, Bakman, Yaldiz et al.

The rapid advancement of large language models (LLMs) has transformed the landscape of natural language processing, enabling breakthroughs across a wide range of areas including question answering, machine translation, and text summarization. Yet, their deployment in real-world applications has raised concerns over reliability and trustworthiness, as LLMs remain prone to hallucinations that produce plausible but factually incorrect outputs. Uncertainty quantification (UQ) has emerged as a central research direction to address this issue, offering principled measures for assessing the trustworthiness of model generations. We begin by introducing the foundations of UQ, from its formal definition to the traditional distinction between epistemic and aleatoric uncertainty, and then highlight how these concepts have been adapted to the context of LLMs. Building on this, we examine the role of UQ in hallucination detection, where quantifying uncertainty provides a mechanism for identifying unreliable generations and improving reliability. We systematically categorize a wide spectrum of existing methods along multiple dimensions and present empirical results for several representative approaches. Finally, we discuss current limitations and outline promising future research directions, providing a clearer picture of the current landscape of LLM UQ for hallucination detection.

academic

Количественная оценка неопределённости для обнаружения галлюцинаций в больших языковых моделях: основы, методология и перспективные направления

Основная информация

ID статьи: 2510.12040
Название: Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions
Авторы: Sungmin Kang, Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Salman Avestimehr
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 15 октября 2025 г. (препринт)
Ссылка на статью: https://arxiv.org/abs/2510.12040

Аннотация

Быстрое развитие больших языковых моделей (БЯМ) трансформировало ландшафт обработки естественного языка, достигнув прорывных результатов в вопросно-ответных системах, машинном переводе и автоматическом реферировании. Однако их развёртывание в реальных приложениях вызывает опасения по поводу надёжности и достоверности, поскольку БЯМ по-прежнему подвержены генерированию галлюцинаций — выходных данных, которые выглядят правдоподобно, но содержат фактические ошибки. Количественная оценка неопределённости (КОН) стала ключевым направлением исследований для решения этой проблемы, предоставляя принципиальные метрики для оценки достоверности генерируемых моделью текстов. В данной статье сначала представлены теоретические основы КОН — от формальных определений до традиционного разделения на эпистемическую и алеаторную неопределённость, а затем подчёркивается, как эти концепции адаптируются к контексту БЯМ. На этой основе мы исследуем роль КОН в обнаружении галлюцинаций, где квантификация неопределённости предоставляет механизм для выявления ненадёжных генераций и повышения надёжности. Мы систематически классифицируем существующие методы по нескольким измерениям и представляем экспериментальные результаты нескольких репрезентативных подходов. Наконец, мы обсуждаем текущие ограничения и намечаем перспективные направления будущих исследований.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование, — как эффективно обнаруживать и количественно оценивать галлюцинации в больших языковых моделях. Конкретно это включает:

Проблема обнаружения галлюцинаций: БЯМ часто генерируют выходные данные, которые выглядят правдоподобно, но содержат фактические ошибки, что особенно опасно в высокорисковых областях, таких как здравоохранение, право и маркетинг
Оценка достоверности: отсутствие эффективных механизмов для оценки надёжности и уверенности выходных данных модели
Вызовы количественной оценки неопределённости: традиционные методы КОН сложно применять непосредственно к авторегрессивным БЯМ

Важность проблемы

Практическая ценность: в высокорисковых сценариях применения ошибочные выходные данные модели могут привести к серьёзным последствиям
Доверие к модели: повышение достоверности БЯМ является предпосылкой их широкого применения
Теоретическое значение: предоставление теоретической основы для количественной оценки неопределённости в генеративных моделях

Ограничения существующих методов

Неприменимость традиционных методов КОН: методы КОН для задач классификации не могут быть напрямую применены к открытым задачам генерации
Отсутствие систематической базы: существующие методы обнаружения галлюцинаций не имеют единой теоретической базы
Несогласованность критериев оценки: различные методы используют разные метрики оценки, что затрудняет справедливое сравнение

Основные вклады

Теоретический вклад: систематическая адаптация традиционной теории количественной оценки неопределённости к сценариям генерации БЯМ с чётким разграничением проявлений эпистемической и алеаторной неопределённости в БЯМ
Классификационная база методов: предложена четырёхмерная система классификации (концептуальный метод, требования к выборке, доступ к модели, зависимость от обучения), систематизирующая 30+ методов КОН
Экспериментальная оценка: комплексное сравнение репрезентативных методов на нескольких наборах данных с предоставлением результатов эталонной оценки
Указание на будущие направления: глубокий анализ ограничений текущих методов с предложением 7 конкретных направлений будущих исследований

Подробное описание методов

Определение задачи

Вход: запрос x и ответ y, сгенерированный моделью Выход: оценка неопределённости UQ(x,y), в идеале должна быть обратно коррелирована с корректностью ответа Цель: максимизировать E1_{U(x₁,y₁)<U(x₂,y₂)} · 1_{y₁∈Y₁∧y₂∉Y₂}, то есть корректные выходные данные должны получать более низкие оценки неопределённости

Четырёхмерная классификационная база

1. Измерение концептуального метода

Методы вероятности токена: основаны на условной вероятности генерируемой последовательности
- Условная вероятность последовательности (УВП): УВП(y,x) = log P(y|x) = Σⱼ log P(yⱼ|y<ⱼ,x)
- Оценка с нормализацией по длине (ОНД): средняя логарифмическая вероятность токена
- Семантическая энтропия: расчёт энтропии на основе семантической кластеризации
Методы согласованности выходных данных: проверка согласованности выходных данных посредством многократной выборки
- Ядерная языковая энтропия (ЯЯЭ): использование энтропии фон Неймана для квантификации семантического ядра
- Семантическая плотность: оценка плотности поддержки ответа в семантическом пространстве
Проверка внутренних состояний: анализ внутренних представлений модели
- Расстояние Махаланобиса: измерение расстояния скрытого состояния от распределения обучающих данных
- Анализ внимания: использование паттернов весов внимания для обнаружения неопределённости
Методы самопроверки: самооценка модели
- P(True): оценка вероятностью моделью корректности собственного выходного сигнала
- Вербализованная уверенность: прямой запрос модели о баллах уверенности

2. Измерение требований к выборке

Однократная выборка: требуется только один проход вывода, высокая вычислительная эффективность
Многократная выборка: требуется несколько проходов вывода, оценка неопределённости через многообразие выходных данных

3. Измерение доступа к модели

Чёрный ящик: доступ только к выходному тексту
Серый ящик: доступ к частичной внутренней информации, такой как вероятности токенов
Белый ящик: полный доступ к внутренним состояниям и параметрам модели

4. Измерение зависимости от обучения

Контролируемые методы: требуют аннотированных данных для обучения оценивателя неопределённости
Неконтролируемые методы: прямая оценка неопределённости из поведения модели

Технические инновации

Теоретическая адаптация: успешная адаптация теории разложения байесовской неопределённости к генеративным БЯМ
Многомерная классификация: предоставление более детальной классификационной базы методов, чем ранее
Унифицированная оценка: установление согласованного протокола оценки и системы метрик
Расширение на длинные тексты: расширение КОН с коротких текстов вопросно-ответных систем на сценарии генерации длинных текстов

Экспериментальная установка

Наборы данных

TriviaQA: 1000 образцов открытого вопросно-ответного формата, тестирование фактических знаний
GSM8K: 1000 задач математического рассуждения, тестирование способности логического рассуждения
FactScore-Bio: генерация длинных текстов биографического типа, тестирование точности множественных фактических утверждений

Метрики оценки

Метрики, независимые от порога (основное использование):
- AUROC: площадь под кривой рабочих характеристик приёмника, диапазон 0,5–1,0
- PRR: коэффициент прогноз-отклонение, измерение эффективности фильтрации прогнозов с низкой уверенностью
- AUPRC: площадь под кривой точность-полнота
Метрики, зависимые от порога:
- Точность, полнота, чувствительность, F1-мера (требуют калибровки)

Методы сравнения

Оценены 17 репрезентативных методов КОН, включая:

LARS, MARS, SAPLMA (контролируемые методы)
Semantic Entropy, SAR, KLE (неконтролируемые методы)
P(True), Cross-Examination (методы самопроверки)

Детали реализации

Использование LLaMA-3-8B (открытый исходный код) и GPT-4o-mini (закрытый исходный код)
Унифицированная оценка через библиотеку TruthTorchLM
Применение различных методов калибровки для обеспечения справедливого сравнения

Экспериментальные результаты

Основные результаты

Категория метода	LLaMA-3 8B (TriviaQA)	GPT-4o-mini (TriviaQA)	LLaMA-3 8B (GSM8K)
LARS (контролируемый)	0,861 AUROC	0,852 AUROC	0,834 AUROC
SAR (неконтролируемый)	0,804 AUROC	0,835 AUROC	0,768 AUROC
Semantic Entropy	0,799 AUROC	0,813 AUROC	0,699 AUROC
Verbalized Confidence	0,759 AUROC	0,836 AUROC	0,579 AUROC

Ключевые выводы

Преимущество контролируемых методов: контролируемые методы, такие как LARS и SAPLMA, показывают лучшие результаты на большинстве задач
Различия между задачами: оптимальные методы различаются для разных задач, например, Multi-LLM Collab показывает лучшие результаты на GSM8K для GPT-4o-mini (0,933 AUROC)
Вызовы длинных текстов: на FactScore-Bio производительность всех методов значительно снижается, что указывает на то, что КОН для длинных текстов остаётся вызовом
Зависимость от модели: один и тот же метод показывает значительные различия в производительности на разных моделях

Результаты абляционных исследований

Влияние количества выборок: производительность методов многократной выборки улучшается с увеличением количества выборок, но предельный эффект снижается
Важность калибровки: надлежащая калибровка значительно повышает сравнимость различных методов
Важность признаков: в методах внутреннего состояния признаки промежуточных слоёв более эффективны, чем признаки выходного слоя

Связанные работы

Основные направления исследований

Традиционная теория КОН: байесовские нейронные сети, ансамблевое обучение, методы калибровки
Обнаружение галлюцинаций БЯМ: проверка фактов, проверка согласованности, вспомогательные внешние инструменты
Неопределённость в генеративных моделях: методы количественной оценки неопределённости на уровне последовательности

Относительные преимущества данной статьи

Систематичность: первый комплексный обзор и классификация КОН для БЯМ
Практичность: сосредоточение на сценариях практического применения обнаружения галлюцинаций
Полнота: охват теоретических основ, классификации методов, экспериментальной оценки и будущих направлений

Заключение и обсуждение

Основные выводы

Эффективность КОН: количественная оценка неопределённости является эффективным инструментом для обнаружения галлюцинаций БЯМ
Разнообразие методов: различные типы методов КОН имеют свои преимущества и недостатки, применимые к разным сценариям
Важность оценки: унифицированная база оценки критична для справедливого сравнения методов
Пространство для развития: в этой области остаётся множество нерешённых теоретических и практических проблем

Ограничения

Проблема границ знаний: знания БЯМ имеют временные ограничения, КОН не может решить проблему устаревшей информации
Интерпретируемость оценок: большинство методов КОН генерируют оценки, которые не имеют интуитивной вероятностной интерпретации
Вычислительные затраты: ансамблевые методы имеют чрезмерные вычислительные затраты в масштабе БЯМ
Вызовы длинных текстов: количественная оценка неопределённости для генерации длинных текстов по-прежнему не имеет эффективных решений

Будущие направления

Теоретическая база: разработка более строгой теории КОН для генеративных моделей
КОН для длинных текстов: разработка количественной оценки неопределённости на уровне утверждений для длинных текстов
Влияние стратегий декодирования: исследование влияния различных стратегий декодирования на КОН
Новые разложения неопределённости: выход за рамки традиционного двоичного разделения на эпистемическую и алеаторную неопределённость
Практическое применение: интеграция КОН в практические системы вывода и диалога

Глубокая оценка

Преимущества

Теоретическая глубина: систематическая адаптация классической теории КОН к сценариям БЯМ с прочной теоретической базой
Полнота классификации: четырёхмерная классификационная база ясна и полна, способствует пониманию характеристик различных методов
Достаточность экспериментов: комплексное сравнение экспериментов на нескольких наборах данных и моделях
Практическая ценность: предоставление непосредственно используемой библиотеки оценки и результатов эталонной оценки
Перспективность: глубокий анализ ограничений с предложением конкретных направлений исследований

Недостатки

Ограниченная оригинальность методов: в основном обзорная работа с относительно небольшим вкладом оригинальных методов
Недостаточность экспериментов на длинных текстах: эксперименты по КОН для длинных текстов относительно просты, глубокий анализ недостаточен
Глубина теоретического анализа: анализ теоретических характеристик различных методов может быть более глубоким
Отсутствие анализа вычислительной эффективности: отсутствует систематический анализ вычислительной сложности различных методов

Влияние

Академическая ценность: предоставление важной теоретической базы и экспериментального эталона для исследований КОН БЯМ
Практическая ценность: предоставление практического руководства для применения КОН БЯМ в промышленности
Воспроизводимость: открытие библиотеки оценки облегчает воспроизведение и сравнение последующих исследований
Продвижение области: вероятно, станет важным справочным материалом в этой области

Применимые сценарии

Академическая справка: подходит в качестве вводного и справочного материала для исследований КОН БЯМ
Выбор метода: предоставление руководства по выбору подходящих методов КОН в практических приложениях
Эталонная оценка: предоставление стандартизированной базы оценки для новых методов
Учебный материал: может служить учебным материалом для соответствующих курсов

Ссылки

Статья цитирует богатую литературу по соответствующим темам, включая:

Классическую теорию количественной оценки неопределённости (байесовские методы, ансамблевое обучение)
Методы обнаружения галлюцинаций БЯМ (проверка фактов, проверка согласованности)
Методы оценки и наборы данных (TriviaQA, GSM8K, FactScore и т. д.)
Новейшие методы КОН (Semantic Entropy, MARS, LARS и т. д.)

Данная статья предоставляет комплексный и глубокий обзор области количественной оценки неопределённости БЯМ, не только систематизируя теоретические основы и существующие методы, но и предоставляя ценные результаты эталонной оценки посредством экспериментов, а также указывая направление для будущих исследований. Для исследователей и практиков в этой области это является весьма ценным справочным материалом.