2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.

Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.

academic

Refinamiento de Indicaciones Multi-etapa para Mitigar Alucinaciones en Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2510.12032
Título: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
Autores: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
Institución: Korea University, Department of Artificial Intelligence
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación: 14 de octubre de 2025 (arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12032

Resumen

Los modelos de lenguaje grande demuestran un desempeño excepcional en tareas de comprensión y generación de lenguaje natural, pero aún enfrentan el problema de alucinaciones, es decir, la generación de información que parece razonable pero es factualmente incorrecta. Aunque múltiples factores contribuyen a las alucinaciones, el impacto de las indicaciones mal formadas (que contienen redacción ambigua, errores gramaticales o información incompleta) ha sido relativamente poco explorado. Este artículo propone el marco de optimización de indicaciones multi-etapa (MPR), que mejora sistemáticamente estas indicaciones mal formadas a través de múltiples etapas. Cada etapa utiliza modelos de lenguaje pequeños (SLMs) especializados y ajustados para tareas específicas, abordando problemas concretos como puntuación, errores ortográficos y uso incorrecto de términos. MPR mejora iterativamente la claridad de las indicaciones y emplea mecanismos de autorreflexión y clasificación para priorizar las entradas más relevantes. Los resultados experimentales demuestran que las indicaciones optimizadas por MPR logran una tasa de victoria superior al 85% en comparación con su forma original, mitigando efectivamente las alucinaciones y mejorando la precisión de los resultados de los LLM.

Contexto de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grande demuestran un desempeño sobresaliente en múltiples tareas de PNL, enfrentan un desafío crítico: el problema de las alucinaciones, es decir, la generación de información que parece razonable pero es factualmente incorrecta. Esto es particularmente peligroso en campos críticos como medicina y educación, donde la transmisión precisa de información es fundamental.

Limitaciones de los Métodos Existentes

Los enfoques actuales para mitigar alucinaciones se concentran principalmente en:

Ajustes de Arquitectura de Modelos: Modificación de mecanismos internos de LLM, pero con alto costo computacional
Técnicas de Postprocesamiento: Verificación de contenido después de la generación, aumentando la complejidad del sistema y la latencia
Ajuste Fino con Aprendizaje por Refuerzo: Requiere recursos computacionales significativos, difícil de aplicar en tiempo real

Estos métodos típicamente ignoran un factor importante: la calidad de la indicación del usuario. Las indicaciones mal formadas conducen directamente a resultados imprecisos, pero las soluciones existentes frecuentemente dependen de modelos grandes o técnicas computacionalmente intensivas.

Motivación de la Investigación

Este artículo sostiene que mediante la optimización sistemática de la calidad de las indicaciones de entrada, es posible reducir el problema de alucinaciones desde su origen. En comparación con la modificación de arquitecturas de modelos o el postprocesamiento de salidas, la optimización de indicaciones es una solución más ligera y escalable.

Contribuciones Principales

Propuesta del Marco MPR: Primer marco de optimización multi-etapa sistemático que aborda el problema de alucinaciones causadas por indicaciones mal formadas
Diseño Ligero: Utiliza modelos de lenguaje pequeños (SLMs) en lugar de modelos grandes, reduciendo significativamente los costos computacionales
Independencia de Modelos: Se integra sin problemas con cualquier arquitectura de LLM, demostrando alta adaptabilidad
Evaluación Integral: Validación de efectividad en múltiples conjuntos de datos, con tasa de victoria superior al 85%
Verificación de Compatibilidad: Demuestra que puede combinarse con métodos existentes de mitigación de alucinaciones, mejorando aún más el desempeño

Explicación Detallada del Método

Definición de la Tarea

Entrada: Indicaciones de usuario mal formadas (que contienen errores de puntuación, errores ortográficos, problemas gramaticales, uso incorrecto de terminología, etc.) Salida: Indicaciones de alta calidad optimizadas a través de múltiples etapas Objetivo: Reducir alucinaciones en el contenido generado por LLM, mejorando la precisión y relevancia de los resultados

Arquitectura del Modelo

El marco MPR contiene tres etapas principales:

Etapa 1: Detección y Clasificación de Errores

Utiliza SLMs especializados y ajustados para identificar tipos de errores en las indicaciones, clasificándolos como:

Errores de Etapa 1: Errores básicos de puntuación y mayúsculas
Errores de Etapa 2: Errores ortográficos y gramaticales
Errores de Etapa 3: Ambigüedad semántica y uso incorrecto de terminología

Etapa 2: Limpieza de Indicaciones Multi-etapa

Según el tipo de error, se utilizan SLMs especializados correspondientes para realizar correcciones:

Etapa 1: Corrección de Puntuación

Entrada: "what is the caPital of fRAnce?"
Salida: "What is the capital of France?"

Etapa 2: Corrección Ortográfica y Gramatical

Entrada: "See from spaiin moroco?"
Salida: "Can you see Spain from Morocco?"

Etapa 3: Alineación Semántica y Reformulación

Entrada: "Tell me about transformers"
Salida: "Can you explain how Transformer-based neural networks work?"

Etapa 3: Generación de Descripciones Iterativas

Generación de Descripciones: Añade información contextual para términos ambiguos
Verificación de Autorreflexión: Evalúa la suficiencia y concisión de las descripciones
Clasificación por Perplejidad: Selecciona las descripciones más coherentes y relevantes
Integración Inteligente: Añade descripciones solo cuando es necesario, mejorando la eficiencia

Puntos de Innovación Técnica

Estrategia de Procesamiento por Etapas: Diferentes tipos de errores requieren diferentes métodos de tratamiento; el procesamiento por etapas es más preciso y efectivo
Especialización de Modelos Pequeños: Cada SLM se ajusta finamente para tareas específicas, asegurando calidad mientras se mantiene la eficiencia
Técnica de Ajuste Fino QLoRA: Utiliza adaptación de bajo rango cuantizada a 4 bits, reduciendo requisitos de memoria mientras se mantiene el desempeño
Generación de Descripciones Adaptativa: Genera dinámicamente descripciones según sea necesario, evitando gastos computacionales innecesarios

Configuración Experimental

Conjuntos de Datos

Construcción de Datos de Entrenamiento:

Conjunto de Datos OLM Wikipedia: 10,000 entradas gramaticalmente perfectas para optimización de puntuación y gramática
Conjunto de Datos CoEdIT: Enfocado en ediciones no semánticas que mejoran fluidez, coherencia y estilo
Conjunto de Datos MQR: 2,114 pares de reformulación de preguntas para entrenamiento de transformación semánticamente equivalente
Conjunto de Datos Magpie: 300,000 pares palabra clave-descripción para generación de explicación de terminología

Conjuntos de Datos de Evaluación:

Conjunto de Datos Well-formed Query: 8,000 consultas de usuario con puntuación de calidad de formato inferior a 0.5
GSM8K: Conjunto de datos de problemas matemáticos
SQuAD: Conjunto de datos de comprensión lectora
Natural Questions: Conjunto de datos de preguntas naturales

Estrategia de Corrupción: Para probar completamente el marco, se introdujeron artificialmente errores en tres niveles:

Etapa 1: Errores básicos de puntuación
Etapa 2: Errores ortográficos y gramaticales
Etapa 3: Errores de terminología técnica y abreviaturas

Métricas de Evaluación

Índice de Alucinación (HI): Cuantifica la precisión factual del contenido generado (0-1, menor es mejor)
Puntuación de Calidad de Contenido (CQS): Mide relevancia, coherencia y calidad general (0-1, mayor es mejor)
Tasa de Victoria (WR): Porcentaje de ventaja de desempeño de indicaciones optimizadas por MPR en comparación con indicaciones originales
Tiempo de Procesamiento (T): Evaluación de la eficiencia del marco

Métodos de Comparación

SelfCheckGPT: Método de detección de alucinaciones de caja negra sin recursos
CoVE: Método de cadena de verificación
DRESS: Método de alineación basado en retroalimentación en lenguaje natural
MixAlign: Método de alineación de conocimiento

Detalles de Implementación

Hardware: Entrenamiento utilizando GPU NVIDIA RTX A6000, inferencia utilizando GPU NVIDIA TITAN V
Método de Ajuste Fino: QLoRA (adaptación de bajo rango cuantizada a 4 bits)
Evaluador: API GPT-3.5-turbo como estándar de evaluación principal

Resultados Experimentales

Resultados Principales

Desempeño en el conjunto de datos Well-formed Query:

Modelo	Nivel de Corrupción	HI ↓	CQS ↑	WR ↑
Línea Base	-	0.81	0.52	-
LLaMA-2 (7B)	Etapa 1	0.26 (-0.55)	0.80 (+0.28)	91%
LLaMA-2 (7B)	Etapa 3	0.48 (-0.33)	0.60 (+0.08)	86%
Desempeño Promedio	-	0.37 (-0.44)	0.68 (+0.16)	86%

Hallazgos Clave

Mejora Consistente: MPR demuestra mejoras significativas en todos los modelos y conjuntos de datos probados
Correlación con Nivel de Corrupción: Cuanto mayor sea el grado de corrupción, más evidente es la mejora de MPR
Efecto del Tamaño del Modelo: Los modelos más grandes (como LLaMA-3.2) se benefician más del paso de generación de descripciones de MPR
Validez Transversal de Dominios: Efectivo en diferentes tareas incluyendo matemáticas (GSM8K), comprensión lectora (SQuAD) y preguntas y respuestas (NQ)

Experimentos de Ablación

Configuración	HI ↓	CQS ↑	WR ↑
MPR Completo	0.14	0.83	93%
Sin Generación de Descripciones	0.20	0.78	89%
Sin Limpieza Multi-etapa	0.24	0.74	86%
Sin Clasificación Iterativa	0.21	0.75	87%

Los resultados demuestran que cada componente contribuye significativamente al desempeño general, siendo la limpieza multi-etapa el componente más crítico.

Comparación con Métodos Existentes

Marco	HI ↓	CQS ↑	WR ↑	Tiempo de Procesamiento (ms)
MPR	0.18	0.81	91%	1215
SelfCheckGPT	0.22	0.76	85%	1541
SelfCheckGPT + MPR	0.14	0.85	94%	1478

MPR no solo demuestra un desempeño excepcional de forma independiente, sino que logra resultados aún mejores cuando se combina con métodos existentes.

Trabajo Relacionado

Métodos de Mitigación de Alucinaciones

Los métodos existentes se dividen principalmente en tres categorías:

Modificación de Arquitectura: Ajuste de mecanismos internos del modelo, alto costo computacional
Verificación de Postprocesamiento: Verificación de contenido después de la generación, aumenta la latencia
Aprendizaje por Refuerzo: Recompensa de respuestas factuales, requiere recursos computacionales significativos

Aplicaciones de Modelos de Lenguaje Pequeños

Los SLMs pueden lograr desempeño excepcional en tareas específicas mediante ajuste fino, siendo particularmente adecuados para:

Entornos con recursos limitados
Aplicaciones en tiempo real
Tareas específicas de dominio

Técnicas de Optimización de Indicaciones

Los métodos tradicionales incluyen:

Reformulación de indicaciones por LLM (alto costo computacional)
Mejora iterativa con aprendizaje por refuerzo
Optimización con intervención humana

MPR logra optimización de indicaciones ligera mediante el uso de modelos pequeños.

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: MPR demuestra un desempeño excepcional en la reducción de alucinaciones y mejora de la calidad de salida
Diseño Ligero: Reduce significativamente los costos computacionales en comparación con métodos existentes
Aplicabilidad Amplia: Puede combinarse con múltiples arquitecturas de LLM y métodos de mitigación existentes
Valor Práctico: Proporciona una solución escalable para aplicaciones reales

Limitaciones

Especificidad de Dominio: Puede tener desempeño deficiente en dominios profesionales como derecho y medicina
Limitaciones de Métricas de Evaluación: Las métricas existentes no capturan completamente la satisfacción del usuario y la fluidez
Grado de Automatización: Aunque completamente automatizado, podría beneficiarse de sistemas con intervención humana

Direcciones Futuras

Especialización de Dominio: Desarrollo de estrategias de ajuste fino para dominios específicos
Extensión Multimodal: Extensión del marco a entornos multimodales como imagen-texto
Colaboración Humano-Máquina: Integración de mecanismos de retroalimentación humana
Sistema de Evaluación: Desarrollo de métodos de evaluación más comprehensivos centrados en el usuario

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera abordaje sistemático del problema de alucinaciones desde la perspectiva de la calidad de indicaciones
Diseño Razonable: La estrategia de procesamiento multi-etapa es precisa y efectiva para diferentes tipos de errores
Alta Practicidad: El diseño ligero lo hace viable en entornos con recursos limitados
Experimentación Integral: Evaluación comprehensiva en múltiples conjuntos de datos y modelos
Buena Compatibilidad: Puede combinarse con métodos existentes para mejorar aún más el desempeño

Deficiencias

Limitaciones de Dominio: El desempeño en dominios profesionales requiere validación adicional
Restricción de Idioma: Enfocado principalmente en inglés, soporte multilingüe no está claro
Evaluación de Complejidad: Aunque se afirma ser ligero, el procesamiento multi-etapa aún tiene cierta complejidad
Efectos a Largo Plazo: No se evalúa el desempeño en diálogos prolongados o tareas complejas

Impacto

Valor Académico: Proporciona una nueva dirección de investigación para la mitigación de alucinaciones
Valor Práctico: Ofrece una solución viable de optimización para el despliegue real de LLM
Reproducibilidad: La descripción detallada del método facilita la reproducción y mejora
Extensibilidad: El diseño del marco tiene buen potencial de extensión

Escenarios de Aplicación

Entornos con Recursos Limitados: Dispositivos periféricos, aplicaciones móviles
Sistemas en Tiempo Real: Sistemas interactivos que requieren respuesta rápida
Aplicaciones Sensibles a Calidad: Educación, servicio al cliente y otros escenarios con altos requisitos de precisión
Actualización de Sistemas Existentes: Integración como complemento en sistemas LLM existentes

Referencias

Este artículo cita 27 referencias importantes que abarcan investigaciones recientes en modelos de lenguaje grande, detección de alucinaciones, ingeniería de indicaciones y aplicaciones de modelos pequeños, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar el problema de alucinaciones en LLM. El marco MPR está diseñado ingeniosamente, la experimentación es integral y los resultados son convincentes. Aunque existen algunas limitaciones, su diseño ligero y modular le confiere alto valor práctico y potencial de extensión.