2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Credal Transformer: Принципиальный подход к количественной оценке и смягчению галлюцинаций в больших языковых моделях

Основная информация

  • ID статьи: 2510.12137
  • Название: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
  • Авторы: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • Классификация: cs.CL, cs.AI
  • Дата публикации/Конференция: 39-я конференция по нейросетевым системам обработки информации (NeurIPS 2025) Семинар: Надежное машинное обучение из ненадежных данных
  • Ссылка на статью: https://arxiv.org/abs/2510.12137v1

Аннотация

Большие языковые модели (LLM) страдают от проблемы галлюцинаций, генерируя фактически неправильные утверждения с высокой уверенностью. Авторы утверждают, что это происходит из-за функции Softmax в Transformer, которая создает "искусственную определенность", сворачивая неясные оценки внимания в единое распределение вероятностей и отбрасывая информацию о неопределенности на каждом слое. Для решения этой проблемы авторы предлагают Credal Transformer, заменяя стандартный механизм внимания механизмом Credal внимания (CAM), основанным на теории свидетельств. CAM генерирует "credal множества" (множества распределений) вместо единого вектора внимания, где размер множества напрямую измеряет неопределенность модели. Это достигается путем переосмысления оценок внимания как качества свидетельств распределения Дирихле: достаточные свидетельства восстанавливают стандартное внимание, недостаточные свидетельства создают размытое распределение, представляющее неясность. Эксперименты показывают, что Credal Transformer может идентифицировать входные данные вне распределения, количественно оценивать неясность и значительно снижать ошибки уверенности на неответимые вопросы путем отказа от ответа.

Исследовательский контекст и мотивация

Основная проблема

Данное исследование направлено на решение проблемы галлюцинаций в больших языковых моделях — генерирование моделью фактически неправильного контента, демонстрирующего при этом высокую уверенность. Это явление серьезно ограничивает развертывание LLM в высокорисковых областях.

Важность проблемы

  1. Практическое препятствие: Проблема галлюцинаций препятствует применению LLM в медицине, праве, финансах и других высокорисковых областях
  2. Кризис доверия: Пользователи испытывают трудности с определением надежности выходных данных модели, влияя на доверие к системам ИИ
  3. Угрозы безопасности: Неправильные, но высокоуверенные выходные данные могут привести к серьезным ошибкам в принятии решений

Ограничения существующих методов

Традиционные решения включают:

  • Методы внешнего вмешательства: Генерация с дополнением поиском (RAG), проверка фактов с использованием внешних баз знаний, модификация процесса декодирования
  • Ограничения: Рассматривают LLM как черный ящик, не решая внутреннюю проблему избыточной уверенности на уровне архитектуры

Исследовательская мотивация

Авторы выдвигают фундаментальную гипотезу: проблема галлюцинаций — это не только проблема данных, но и проблема самой архитектуры Transformer, в частности функции Softmax в механизме внимания, которая создает "искусственную определенность".

Основные вклады

  1. Теоретическое понимание: Выявление того, что функция Softmax в механизме внимания создает "искусственную определенность", являющуюся архитектурной причиной галлюцинаций
  2. Новая архитектура: Предложение Credal Transformer, интегрирующего количественную оценку неопределенности как внутреннего компонента модели
  3. Техническое инновация: Разработка механизма Credal внимания (CAM), основанного на теории свидетельств, способного представлять и количественно оценивать когнитивную неопределенность
  4. Эмпирическая верификация: Проверка эффективности метода на множественных задачах, включая обнаружение выбросов, количественную оценку неясности и вопросно-ответные задачи
  5. Парадигма проектирования: Пропаганда принципа "неопределенность в первую очередь" при проектировании моделей

Подробное описание метода

Определение задачи

Замена детерминированного механизма внимания стандартного Transformer на механизм, способный представлять и количественно оценивать неопределенность, позволяя модели:

  • Идентифицировать неясность входных данных
  • Количественно оценивать собственную когнитивную неопределенность
  • Отказываться от ответа при недостатке достаточных свидетельств

Архитектура модели

Проблемы стандартного механизма внимания

Формула стандартного расчета внимания:

ai = Softmax(si) где aij = exp(sij) / Σ(k=1 до L) exp(sik)

Проблема: Softmax заставляет модель делать определенный выбор, даже когда оценки неясны.

Механизм Credal внимания (CAM)

Основная идея: Переосмысление оценок внимания как свидетельств для параметризации распределения Дирихле.

Этапы реализации:

  1. Преобразование свидетельств:
    eij = exp(sij)  // Преобразование исходных оценок в неотрицательные свидетельства
    
  2. Параметризация Дирихле:
    αij = eij + 1  // Параметр концентрации
    
  3. Ожидаемые веса внимания:
    âij = E[pij] = αij / αi0
    

    где αi0 = Σ(k=1 до L) αik
  4. Количественная оценка неопределенности:
    Ui = L / αi0  // Пустота (vacuity) измеряет когнитивную неопределенность
    

Ключевые технические инновации

  1. Интеграция теории свидетельств: Первое применение принципов доказательного глубокого обучения к ядру механизма внимания
  2. Дифференцируемая неопределенность: Предоставление прямой, дифференцируемой меры неопределенности
  3. Адаптивное поведение:
    • Высокие свидетельства → Острое распределение → Восстановление стандартного внимания
    • Низкие свидетельства → Размытое распределение → Явное представление неясности
  4. Сквозное обучение: Вся архитектура остается дифференцируемой, может обучаться стандартными методами оптимизации

Экспериментальная установка

Наборы данных

Синтетические наборы данных (для обнаружения выбросов):

  • Внутри распределения (ID): Последовательности, генерируемые с фиксированным паттерном шума
  • Вне распределения (OOD): Последовательности, генерируемые из равномерного случайного распределения
  • Бессмысленные данные: Последовательности чистого шума

Метрики оценки

  • Оценка неопределенности: Средняя неопределенность, производимая на выходном слое модели
  • Показатели вычислительной эффективности: GFLOPs, время вывода, время обучения

Методы сравнения

  • Стандартный Transformer (с использованием внимания Softmax)

Детали реализации

  • Обучение классификатора Credal Transformer на данных ID
  • Тестирование на трех типах данных, измерение выходной неопределенности

Результаты экспериментов

Основные результаты

Эксперимент по обнаружению выбросов

Тип данныхСредняя оценка неопределенности
Внутри распределения (ID)0.0415
Вне распределения (OOD)0.1378
Бессмысленные данные0.1953

Ключевые находки: Модель четко различает разные типы входных данных, производя более высокую неопределенность для данных, более отклоняющихся от распределения обучения.

Сравнение вычислительной эффективности

ПоказательСтандартное вниманиеCredal внимание (CAM)
GFLOPs25.77 G25.77 G (+0%)
Накладные расходы выводаБазовое значение+4.4%
Накладные расходы обученияБазовое значение+11.6%

Важный вывод: CAM достигает возможности количественной оценки неопределенности практически без увеличения вычислительных затрат.

Верификация других возможностей

  1. Количественная оценка неясности: Для внутренне неясных входных данных модель производит большие credal множества (высокая энтропия)
  2. Обработка неответимых вопросов: В тестах вопросно-ответных систем выбор отказа от ответа на основе внутренней меры неопределенности значительно снижает ошибки уверенности

Экспериментальные находки

  1. Эффективность решения на уровне архитектуры: Прямая модификация механизма внимания более фундаментально решает проблему, чем внешние вмешательства
  2. Связь неопределенности с качеством данных: Неопределенность модели высоко коррелирует со степенью отклонения входных данных от распределения обучения
  3. Приемлемая вычислительная эффективность: Минимальные накладные расходы делают метод практически применимым

Связанные работы

Методы смягчения галлюцинаций

  • Генерация с дополнением поиском (RAG): Lewis et al. 2020
  • Внешняя проверка фактов: Schick et al. 2023
  • Модификация декодирования: Li et al. 2022

Количественная оценка неопределенности

  • Байесовские нейронные сети: Blundell et al. 2015 — высокие вычислительные затраты
  • Доказательное глубокое обучение: Sensoy et al. 2018 — теоретическая основа данной работы

Преимущества данной работы

Первое интегрирование количественной оценки неопределенности в ядро архитектуры Transformer, а не как внешний инструмент или этап постобработки.

Заключение и обсуждение

Основные выводы

  1. Выявление коренной причины: "Искусственная определенность" функции Softmax является архитектурной причиной проблемы галлюцинаций
  2. Эффективное решение: Credal Transformer эффективно представляет и количественно оценивает неопределенность через credal множества
  3. Проверка практичности: Метод показывает отличные результаты на множественных задачах с приемлемыми вычислительными затратами

Ограничения

  1. Недостаточная верификация на задачах генерации: Основная верификация проводилась на дискриминативных задачах, эффективность на открытых задачах генерации требует исследования
  2. Ограниченное использование неопределенности: В настоящее время используется в основном как показатель для принятия решений на выходном слое, не полностью использует информацию о неопределенности на разных уровнях
  3. Масштабируемость на больших моделях: Масштабируемость на моделях с 100B+ параметрами требует дальнейшей верификации

Направления будущих исследований

  1. Динамическое руководство декодированием: Использование сигналов неопределенности CAM для динамического руководства процессом генерации
  2. Модуляция информации на разных уровнях: Динамическая регулировка потока информации в сети на основе неопределенности на разных уровнях
  3. Верификация на больших масштабах: Проверка на сверхбольших моделях и в условиях распределенного обучения

Глубокая оценка

Преимущества

  1. Глубокий теоретический вклад:
    • Предложена теория архитектурной коренной причины проблемы галлюцинаций
    • Элегантная интеграция теории свидетельств в механизм внимания
  2. Элегантное проектирование метода:
    • Сохранение сквозной дифференцируемости
    • Естественное вырождение в стандартное внимание (при высоких свидетельствах)
    • Предоставление прямой меры неопределенности
  3. Достаточная экспериментальная верификация:
    • Охват обнаружения выбросов, количественной оценки неясности, вопросно-ответных задач
    • Детальный анализ вычислительной эффективности
    • Статистически убедительные результаты
  4. Высокая практическая ценность:
    • Минимальные вычислительные затраты
    • Прямая замена существующей архитектуры Transformer
    • Архитектурная основа для построения надежного ИИ

Недостатки

  1. Недостаточно глубокий теоретический анализ:
    • Отсутствие теоретического анализа связи размера credal множества с фактической неопределенностью
    • Отсутствие теоретических гарантий сходимости или стабильности
  2. Ограниченный диапазон экспериментов:
    • Основная верификация на малых масштабах и синтетических данных
    • Отсутствие верификации на реальных больших LLM
    • Недостаточная верификация на задачах генерации
  3. Неполные сравнительные эксперименты:
    • Отсутствие сравнения с другими методами количественной оценки неопределенности
    • Отсутствие прямого сравнения с существующими методами смягчения галлюцинаций
  4. Недостаточно подробные детали реализации:
    • Недостаточно информации о стратегиях обучения, выборе гиперпараметров
    • Возможные проблемы с воспроизводимостью

Влияние

  1. Академическое влияние:
    • Предоставление новой парадигмы исследований: количественная оценка неопределенности на уровне архитектуры
    • Теоретическая основа для последующих связанных исследований
    • Возможное вдохновение для дальнейших работ по улучшению механизмов внимания
  2. Практическая ценность:
    • Предоставление конкретного технического пути для построения надежных систем ИИ
    • Важность в высокорисковых сценариях применения
    • Вычислительная эффективность обеспечивает потенциал для промышленного применения
  3. Методологический вклад:
    • Пропаганда принципа "надежность в первую очередь" при проектировании моделей
    • Демонстрация метода проектирования архитектуры, управляемого теорией

Применимые сценарии

  1. Сценарии с высокими требованиями к надежности: Медицинская диагностика, юридические консультации, финансовый анализ и т.д.
  2. Приложения, требующие количественной оценки неопределенности: Научные исследования, системы поддержки принятия решений
  3. Потребность в обнаружении выбросов: Системы, критичные по безопасности, обнаружение аномалий
  4. Интерактивные системы ИИ: Диалоговые системы, требующие от модели выражать "я не знаю"

Библиография

Ключевые ссылки в статье включают:

  • Vaswani et al. 2017: Attention is All You Need (оригинальная статья Transformer)
  • Sensoy et al. 2018: Evidential Deep Learning (теоретическая основа доказательного глубокого обучения)
  • Brown et al. 2020: Статья GPT-3 (основа больших языковых моделей)
  • Lewis et al. 2020: RAG — генерация с дополнением поиском
  • Huang et al. 2025: Обзор проблемы галлюцинаций

Общая оценка: Это статья с отличными теоретическими идеями и техническими инновациями. Авторы выявили архитектурную коренную причину проблемы галлюцинаций в LLM и предложили элегантное решение. Хотя есть место для улучшения в верификации на больших масштабах и теоретическом анализе, основная идея и метод имеют важную академическую ценность и практический потенциал, предоставляя важную техническую основу для построения более надежных систем ИИ.