2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.

Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.

academic

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

基本信息

论文ID: 2510.12032
标题: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
作者: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
机构: Korea University, Department of Artificial Intelligence
分类: cs.CL cs.AI cs.LG
发表时间: 2025年10月14日 (arXiv)
论文链接: https://arxiv.org/abs/2510.12032

摘要

大型语言模型在自然语言理解和生成任务中表现出色，但仍面临幻觉问题，即生成看似合理但实际错误的信息。虽然多种因素导致幻觉，但格式不良的提示（包含模糊措辞、语法错误或信息不完整）的影响相对未被充分探索。本文提出了多阶段提示优化框架(MPR)，通过多个阶段系统性地改进这些格式不良的提示。每个阶段使用针对特定任务微调的小型语言模型，解决标点符号、拼写错误和关键词误用等具体问题。MPR通过迭代增强提示清晰度，并采用自反思机制和排序来优先选择最相关的输入。实验结果显示，经MPR优化的提示相比原始形式获得超过85%的胜率，有效减少了幻觉并提高了LLM输出准确性。

研究背景与动机

问题定义

大型语言模型虽然在多项NLP任务中表现优异，但面临一个关键挑战：幻觉问题，即模型生成看似合理但实际错误的信息。这在医疗、教育等关键领域尤为危险，准确信息传达至关重要。

现有方法局限性

当前缓解幻觉的方法主要集中在：

模型架构调整：修改LLM内部机制，但计算成本高昂
后处理技术：在生成后验证内容，增加了系统复杂性和延迟
强化学习微调：需要大量计算资源，难以实时应用

这些方法通常忽视了一个重要因素：用户提示的质量。格式不良的提示直接导致不准确的输出，但现有解决方案往往依赖大型模型或计算密集型技术。

研究动机

本文认为，通过系统性地优化输入提示质量，可以从源头减少幻觉问题。相比于修改模型架构或后处理输出，提示优化是一种更轻量级、更具扩展性的解决方案。

核心贡献

提出MPR框架：首个系统性解决格式不良提示导致幻觉问题的多阶段优化框架
轻量级设计：使用小型语言模型(SLMs)而非大型模型，显著降低计算成本
模型无关性：可与任何LLM架构无缝集成，具有高度适应性
综合评估：在多个数据集上验证有效性，胜率超过85%
兼容性验证：证明可与现有后处理幻觉缓解方法结合使用，进一步提升性能

方法详解

任务定义

输入：格式不良的用户提示（包含标点错误、拼写错误、语法问题、术语误用等）输出：经过多阶段优化的高质量提示目标：减少LLM生成内容中的幻觉，提高输出准确性和相关性

模型架构

MPR框架包含三个主要阶段：

阶段1：错误检测与分类

使用专门微调的SLM识别提示中的错误类型，将其分类为：

Stage 1错误：基础标点和大小写错误
Stage 2错误：拼写和语法错误
Stage 3错误：语义模糊和术语误用

阶段2：多阶段提示清洗

根据错误类型，使用相应的专业化SLM进行修正：

Stage 1: 标点符号修正

输入: "what is the caPital of fRAnce?"
输出: "What is the capital of France?"

Stage 2: 拼写和语法修正

输入: "See from spaiin moroco?"
输出: "Can you see Spain from Morocco?"

Stage 3: 语义对齐和改写

输入: "Tell me about transformers"
输出: "Can you explain how Transformer-based neural networks work?"

阶段3：迭代描述生成

描述生成：为模糊术语添加上下文信息
自反思验证：评估描述的充分性和简洁性
困惑度排序：选择最连贯和相关的描述
智能集成：仅在必要时添加描述，提高效率

技术创新点

分阶段处理策略：不同类型错误需要不同处理方法，分阶段处理更精确有效
小模型专业化：每个SLM针对特定任务微调，在保持效率的同时确保质量
QLoRA微调技术：使用4位量化低秩适应，减少内存需求同时保持性能
自适应描述生成：根据需要动态生成描述，避免不必要的计算开销

实验设置

数据集

训练数据构建：

OLM Wikipedia数据集：10,000个语法完美条目用于标点和语法优化
CoEdIT数据集：专注于流畅性、连贯性和风格的非语义改变编辑
MQR数据集：2,114对改写问题，用于语义等价转换训练
Magpie数据集：300,000个关键词-描述对，用于术语解释生成

评估数据集：

Well-formed Query数据集：8,000个格式质量评分低于0.5的用户查询
GSM8K：数学问题数据集
SQuAD：阅读理解数据集
Natural Questions：自然问题数据集

破坏策略：为充分测试框架，人为引入三个级别的错误：

Stage 1：基础标点错误
Stage 2：拼写和语法错误
Stage 3：技术术语和缩写错误

评价指标

幻觉指数(HI)：量化生成内容的事实准确性（0-1，越低越好）
内容质量评分(CQS)：衡量相关性、连贯性和整体质量（0-1，越高越好）
胜率(WR)：MPR优化提示相比原始提示的表现优势百分比
处理时间(T)：框架处理效率评估

对比方法

SelfCheckGPT：零资源黑盒幻觉检测方法
CoVE：验证链方法
DRESS：基于自然语言反馈的对齐方法
MixAlign：知识对齐方法

实现细节

硬件：训练使用NVIDIA RTX A6000 GPU，推理使用NVIDIA TITAN V GPU
微调方法：QLoRA（4位量化低秩适应）
评估器：GPT-3.5-turbo API作为主要评判标准

实验结果

主要结果

在Well-formed Query数据集上的表现：

模型	破坏级别	HI ↓	CQS ↑	WR ↑
基线	-	0.81	0.52	-
LLaMA-2 (7B)	Stage 1	0.26 (-0.55)	0.80 (+0.28)	91%
LLaMA-2 (7B)	Stage 3	0.48 (-0.33)	0.60 (+0.08)	86%
平均表现	-	0.37 (-0.44)	0.68 (+0.16)	86%