2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.

Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.

academic

Многоэтапное уточнение подсказок для смягчения галлюцинаций в больших языковых моделях

Основная информация

ID статьи: 2510.12032
Название: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
Авторы: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
Учреждение: Корейский университет, Факультет искусственного интеллекта
Классификация: cs.CL cs.AI cs.LG
Дата публикации: 14 октября 2025 г. (arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12032

Аннотация

Большие языковые модели демонстрируют превосходные результаты в задачах понимания и генерации естественного языка, однако по-прежнему сталкиваются с проблемой галлюцинаций — генерацией информации, которая кажется правдоподобной, но на самом деле является ошибочной. Хотя галлюцинации вызваны множеством факторов, влияние неправильно сформулированных подсказок (содержащих неясные формулировки, грамматические ошибки или неполную информацию) остаётся относительно неизученным. В данной статье предлагается многоэтапная структура оптимизации подсказок (MPR), которая систематически улучшает эти неправильно сформулированные подсказки через несколько этапов. На каждом этапе используются небольшие языковые модели, тонко настроенные для конкретных задач, для решения конкретных проблем, таких как пунктуация, орфографические ошибки и неправильное использование ключевых слов. MPR итеративно повышает ясность подсказок и применяет механизм саморефлексии и ранжирования для приоритизации наиболее релевантных входных данных. Экспериментальные результаты показывают, что подсказки, оптимизированные с помощью MPR, достигают показателя победы более 85% по сравнению с исходной формой, эффективно снижая галлюцинации и повышая точность выходных данных БЯМ.

Исследовательский контекст и мотивация

Определение проблемы

Большие языковые модели, несмотря на превосходные результаты во многих задачах обработки естественного языка, сталкиваются с критической проблемой: галлюцинациями, то есть генерацией информации, которая кажется правдоподобной, но на самом деле является ошибочной. Это особенно опасно в критических областях, таких как здравоохранение и образование, где точная передача информации имеет решающее значение.

Ограничения существующих методов

Текущие подходы к смягчению галлюцинаций сосредоточены главным образом на:

Модификации архитектуры модели: изменение внутренних механизмов БЯМ, но с высокими вычислительными затратами
Методах постобработки: проверка содержимого после генерации, что увеличивает сложность системы и задержку
Микротонкой настройке с подкреплением: требует значительных вычислительных ресурсов, сложно применяется в реальном времени

Эти методы обычно игнорируют один важный фактор: качество пользовательских подсказок. Неправильно сформулированные подсказки напрямую приводят к неточным результатам, но существующие решения часто полагаются на большие модели или вычислительно интенсивные технологии.

Исследовательская мотивация

В данной статье утверждается, что путём систематической оптимизации качества входных подсказок можно снизить проблему галлюцинаций у источника. По сравнению с модификацией архитектуры модели или постобработкой выходных данных, оптимизация подсказок является более лёгким и масштабируемым решением.

Основные вклады

Предложение структуры MPR: первая систематическая многоэтапная структура оптимизации, решающая проблему галлюцинаций, вызванных неправильно сформулированными подсказками
Лёгкий дизайн: использование небольших языковых моделей (SLM) вместо больших моделей, что значительно снижает вычислительные затраты
Модельная независимость: беспрепятственная интеграция с любой архитектурой БЯМ, высокая адаптивность
Комплексная оценка: проверка эффективности на нескольких наборах данных с показателем победы более 85%
Проверка совместимости: демонстрация возможности комбинирования с существующими методами смягчения галлюцинаций для дальнейшего повышения производительности

Подробное описание метода

Определение задачи

Входные данные: неправильно сформулированные пользовательские подсказки (содержащие ошибки пунктуации, орфографические ошибки, грамматические проблемы, неправильное использование терминов и т.д.) Выходные данные: многоэтапно оптимизированная высокачественная подсказка Цель: снижение галлюцинаций в генерируемом контенте БЯМ, повышение точности и релевантности выходных данных

Архитектура модели

Структура MPR включает три основных этапа:

Этап 1: Обнаружение и классификация ошибок

Использование специально настроенной SLM для определения типов ошибок в подсказке с классификацией на:

Ошибки этапа 1: базовые ошибки пунктуации и заглавных букв
Ошибки этапа 2: орфографические и грамматические ошибки
Ошибки этапа 3: семантическая неясность и неправильное использование терминов

Этап 2: Многоэтапная очистка подсказок

В зависимости от типа ошибки используются соответствующие специализированные SLM для исправления:

Этап 1: Исправление пунктуации

Входные данные: "what is the caPital of fRAnce?"
Выходные данные: "What is the capital of France?"

Этап 2: Исправление орфографии и грамматики

Входные данные: "See from spaiin moroco?"
Выходные данные: "Can you see Spain from Morocco?"

Этап 3: Семантическое выравнивание и переформулирование

Входные данные: "Tell me about transformers"
Выходные данные: "Can you explain how Transformer-based neural networks work?"

Этап 3: Итеративное генерирование описаний

Генерирование описаний: добавление контекстной информации к неясным терминам
Проверка саморефлексии: оценка адекватности и краткости описаний
Ранжирование по перплексивности: выбор наиболее связных и релевантных описаний
Интеллектуальная интеграция: добавление описаний только при необходимости для повышения эффективности

Технические инновации

Стратегия поэтапной обработки: различные типы ошибок требуют различных методов обработки, поэтапная обработка более точна и эффективна
Специализация небольших моделей: каждая SLM тонко настроена для конкретной задачи, обеспечивая качество при сохранении эффективности
Микротонкая настройка QLoRA: использование 4-битного квантования с низкоранговой адаптацией, снижение требований к памяти при сохранении производительности
Адаптивное генерирование описаний: динамическое генерирование описаний по мере необходимости, избежание ненужных вычислительных затрат

Экспериментальная установка

Наборы данных

Построение обучающих данных:

Набор данных OLM Wikipedia: 10 000 грамматически совершенных статей для оптимизации пунктуации и грамматики
Набор данных CoEdIT: сосредоточен на несемантических изменениях редактирования, касающихся беглости, связности и стиля
Набор данных MQR: 2 114 пар переформулированных вопросов для обучения семантически эквивалентному преобразованию
Набор данных Magpie: 300 000 пар ключевое слово-описание для генерирования объяснений терминов

Наборы данных оценки:

Набор данных Well-formed Query: 8 000 пользовательских запросов с оценкой качества формата ниже 0,5
GSM8K: набор данных математических задач
SQuAD: набор данных понимания прочитанного
Natural Questions: набор данных естественных вопросов

Стратегия повреждения: для полного тестирования структуры искусственно вводятся ошибки трёх уровней:

Этап 1: базовые ошибки пунктуации
Этап 2: орфографические и грамматические ошибки
Этап 3: ошибки технических терминов и аббревиатур

Метрики оценки

Индекс галлюцинации (HI): количественная оценка фактической точности генерируемого контента (0-1, ниже лучше)
Оценка качества контента (CQS): измерение релевантности, связности и общего качества (0-1, выше лучше)
Показатель победы (WR): процент преимущества оптимизированных подсказок MPR по сравнению с исходными подсказками
Время обработки (T): оценка эффективности обработки структурой

Методы сравнения

SelfCheckGPT: метод обнаружения галлюцинаций без ресурсов в чёрном ящике
CoVE: метод цепочки проверки
DRESS: метод выравнивания на основе обратной связи на естественном языке
MixAlign: метод выравнивания знаний

Детали реализации

Оборудование: обучение на GPU NVIDIA RTX A6000, вывод на GPU NVIDIA TITAN V
Метод микротонкой настройки: QLoRA (4-битное квантование с низкоранговой адаптацией)
Оценивающий: API GPT-3.5-turbo в качестве основного стандарта оценки

Результаты экспериментов

Основные результаты

Производительность на наборе данных Well-formed Query:

Модель	Уровень повреждения	HI ↓	CQS ↑	WR ↑
Базовая модель	-	0.81	0.52	-
LLaMA-2 (7B)	Этап 1	0.26 (-0.55)	0.80 (+0.28)	91%
LLaMA-2 (7B)	Этап 3	0.48 (-0.33)	0.60 (+0.08)	86%
Средняя производительность	-	0.37 (-0.44)	0.68 (+0.16)	86%

Ключевые выводы

Последовательное улучшение: MPR демонстрирует значительное улучшение на всех протестированных моделях и наборах данных
Связь с уровнем повреждения: чем выше степень повреждения, тем более выраженным является улучшение MPR
Эффект размера модели: более крупные модели (такие как LLaMA-3.2) получают большую пользу от этапа генерирования описаний MPR
Кроссдоменная эффективность: эффективна в различных задачах, включая математику (GSM8K), понимание прочитанного (SQuAD) и ответы на вопросы (NQ)

Абляционные исследования

Конфигурация	HI ↓	CQS ↑	WR ↑
Полная MPR	0.14	0.83	93%
Без генерирования описаний	0.20	0.78	89%
Без многоэтапной очистки	0.24	0.74	86%
Без итеративного ранжирования	0.21	0.75	87%

Результаты показывают, что каждый компонент вносит важный вклад в общую производительность, при этом многоэтапная очистка является наиболее критическим компонентом.

Сравнение с существующими методами

Структура	HI ↓	CQS ↑	WR ↑	Время обработки (мс)
MPR	0.18	0.81	91%	1215
SelfCheckGPT	0.22	0.76	85%	1541
SelfCheckGPT + MPR	0.14	0.85	94%	1478

MPR не только показывает отличные результаты отдельно, но и демонстрирует ещё лучшие результаты при комбинировании с существующими методами.

Связанные работы

Методы смягчения галлюцинаций

Существующие методы можно разделить на три категории:

Модификация архитектуры: корректировка внутренних механизмов модели, высокие вычислительные затраты
Проверка постобработки: проверка содержимого после генерации, увеличение задержки
Обучение с подкреплением: вознаграждение за фактические ответы, требует значительных вычислительных ресурсов

Применение небольших языковых моделей

SLM при микротонкой настройке для конкретных задач могут достичь отличной производительности, особенно подходят для:

Сред с ограниченными ресурсами
Приложений в реальном времени
Задач в конкретных областях

Методы оптимизации подсказок

Традиционные методы включают:

Переформулирование подсказок с помощью БЯМ (высокие вычислительные затраты)
Итеративное улучшение с подкреплением
Оптимизация с участием человека

MPR достигла лёгкой оптимизации подсказок путём использования небольших моделей.

Заключение и обсуждение

Основные выводы

Проверка эффективности: MPR демонстрирует отличные результаты в снижении галлюцинаций и повышении качества выходных данных
Лёгкий дизайн: значительное снижение вычислительных затрат по сравнению с существующими методами
Широкая применимость: может комбинироваться с различными архитектурами БЯМ и существующими методами смягчения
Практическая ценность: предоставляет масштабируемое решение для практического применения

Ограничения

Специфичность области: может показать неудовлетворительные результаты в специализированных областях, таких как право и медицина
Ограничения метрик оценки: существующие метрики не полностью отражают удовлетворённость пользователей и плавность
Степень автоматизации: хотя полностью автоматизирована, может получить пользу от систем с участием человека в цикле

Направления будущих исследований

Специализация по областям: разработка стратегий микротонкой настройки для конкретных областей
Расширение на мультимодальность: расширение структуры на мультимодальные среды, такие как изображение-текст
Сотрудничество человека и машины: интеграция механизмов обратной связи от человека
Система оценки: разработка более комплексных методов оценки, ориентированных на пользователя

Глубокая оценка

Преимущества

Высокая инновационность: первый систематический подход к решению проблемы галлюцинаций с точки зрения качества подсказок
Разумный дизайн: стратегия многоэтапной обработки, ориентированная на различные типы ошибок, точна и эффективна
Высокая практичность: лёгкий дизайн делает его применимым в средах с ограниченными ресурсами
Полные эксперименты: комплексная оценка на нескольких наборах данных и моделях
Хорошая совместимость: может комбинироваться с существующими методами для дальнейшего повышения эффективности

Недостатки

Ограничения по областям: производительность в специализированных областях требует проверки
Языковые ограничения: в основном ориентирована на английский язык, поддержка многоязычности не ясна
Оценка сложности: хотя заявлена как лёгкая, многоэтапная обработка всё ещё имеет определённую сложность
Долгосрочные эффекты: производительность в длительных диалогах или сложных задачах не оценена

Влияние

Академическая ценность: предоставляет новое направление исследований для смягчения галлюцинаций
Практическая ценность: предоставляет жизнеспособное решение для оптимизации практического развёртывания БЯМ
Воспроизводимость: подробное описание метода облегчает воспроизведение и улучшение
Расширяемость: дизайн структуры имеет хороший потенциал расширения

Применимые сценарии

Среды с ограниченными ресурсами: граничные устройства, мобильные приложения
Системы в реальном времени: интерактивные системы, требующие быстрого ответа
Приложения, чувствительные к качеству: образование, обслуживание клиентов и другие сценарии с высокими требованиями к точности
Обновление существующих систем: интеграция в качестве плагина в существующие системы БЯМ

Библиография

В данной статье цитируется 27 важных ссылок, охватывающих последние результаты исследований в связанных областях, включая большие языковые модели, обнаружение галлюцинаций, инженерию подсказок и применение небольших моделей, обеспечивая прочную теоретическую базу для исследования.

Общая оценка: Это высокачественная исследовательская статья, предлагающая инновационное решение для решения проблемы галлюцинаций в БЯМ. Структура MPR тщательно разработана, эксперименты полны, результаты убедительны. Хотя существуют некоторые ограничения, лёгкий и модульный дизайн придаёт ей высокую практическую ценность и потенциал расширения.