Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic
Credal Transformer: Принципиальный подход к количественной оценке и смягчению галлюцинаций в больших языковых моделях
Название: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Авторы: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
Классификация: cs.CL, cs.AI
Дата публикации/Конференция: 39-я конференция по нейросетевым системам обработки информации (NeurIPS 2025) Семинар: Надежное машинное обучение из ненадежных данных
Большие языковые модели (LLM) страдают от проблемы галлюцинаций, генерируя фактически неправильные утверждения с высокой уверенностью. Авторы утверждают, что это происходит из-за функции Softmax в Transformer, которая создает "искусственную определенность", сворачивая неясные оценки внимания в единое распределение вероятностей и отбрасывая информацию о неопределенности на каждом слое. Для решения этой проблемы авторы предлагают Credal Transformer, заменяя стандартный механизм внимания механизмом Credal внимания (CAM), основанным на теории свидетельств. CAM генерирует "credal множества" (множества распределений) вместо единого вектора внимания, где размер множества напрямую измеряет неопределенность модели. Это достигается путем переосмысления оценок внимания как качества свидетельств распределения Дирихле: достаточные свидетельства восстанавливают стандартное внимание, недостаточные свидетельства создают размытое распределение, представляющее неясность. Эксперименты показывают, что Credal Transformer может идентифицировать входные данные вне распределения, количественно оценивать неясность и значительно снижать ошибки уверенности на неответимые вопросы путем отказа от ответа.
Данное исследование направлено на решение проблемы галлюцинаций в больших языковых моделях — генерирование моделью фактически неправильного контента, демонстрирующего при этом высокую уверенность. Это явление серьезно ограничивает развертывание LLM в высокорисковых областях.
Методы внешнего вмешательства: Генерация с дополнением поиском (RAG), проверка фактов с использованием внешних баз знаний, модификация процесса декодирования
Ограничения: Рассматривают LLM как черный ящик, не решая внутреннюю проблему избыточной уверенности на уровне архитектуры
Авторы выдвигают фундаментальную гипотезу: проблема галлюцинаций — это не только проблема данных, но и проблема самой архитектуры Transformer, в частности функции Softmax в механизме внимания, которая создает "искусственную определенность".
Теоретическое понимание: Выявление того, что функция Softmax в механизме внимания создает "искусственную определенность", являющуюся архитектурной причиной галлюцинаций
Новая архитектура: Предложение Credal Transformer, интегрирующего количественную оценку неопределенности как внутреннего компонента модели
Техническое инновация: Разработка механизма Credal внимания (CAM), основанного на теории свидетельств, способного представлять и количественно оценивать когнитивную неопределенность
Эмпирическая верификация: Проверка эффективности метода на множественных задачах, включая обнаружение выбросов, количественную оценку неясности и вопросно-ответные задачи
Парадигма проектирования: Пропаганда принципа "неопределенность в первую очередь" при проектировании моделей
Ключевые находки: Модель четко различает разные типы входных данных, производя более высокую неопределенность для данных, более отклоняющихся от распределения обучения.
Количественная оценка неясности: Для внутренне неясных входных данных модель производит большие credal множества (высокая энтропия)
Обработка неответимых вопросов: В тестах вопросно-ответных систем выбор отказа от ответа на основе внутренней меры неопределенности значительно снижает ошибки уверенности
Недостаточная верификация на задачах генерации: Основная верификация проводилась на дискриминативных задачах, эффективность на открытых задачах генерации требует исследования
Ограниченное использование неопределенности: В настоящее время используется в основном как показатель для принятия решений на выходном слое, не полностью использует информацию о неопределенности на разных уровнях
Масштабируемость на больших моделях: Масштабируемость на моделях с 100B+ параметрами требует дальнейшей верификации
Vaswani et al. 2017: Attention is All You Need (оригинальная статья Transformer)
Sensoy et al. 2018: Evidential Deep Learning (теоретическая основа доказательного глубокого обучения)
Brown et al. 2020: Статья GPT-3 (основа больших языковых моделей)
Lewis et al. 2020: RAG — генерация с дополнением поиском
Huang et al. 2025: Обзор проблемы галлюцинаций
Общая оценка: Это статья с отличными теоретическими идеями и техническими инновациями. Авторы выявили архитектурную коренную причину проблемы галлюцинаций в LLM и предложили элегантное решение. Хотя есть место для улучшения в верификации на больших масштабах и теоретическом анализе, основная идея и метод имеют важную академическую ценность и практический потенциал, предоставляя важную техническую основу для построения более надежных систем ИИ.