2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.
Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.
academic

Refinamiento de Indicaciones Multi-etapa para Mitigar Alucinaciones en Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2510.12032
  • Título: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
  • Autores: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
  • Institución: Korea University, Department of Artificial Intelligence
  • Clasificación: cs.CL cs.AI cs.LG
  • Fecha de Publicación: 14 de octubre de 2025 (arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12032

Resumen

Los modelos de lenguaje grande demuestran un desempeño excepcional en tareas de comprensión y generación de lenguaje natural, pero aún enfrentan el problema de alucinaciones, es decir, la generación de información que parece razonable pero es factualmente incorrecta. Aunque múltiples factores contribuyen a las alucinaciones, el impacto de las indicaciones mal formadas (que contienen redacción ambigua, errores gramaticales o información incompleta) ha sido relativamente poco explorado. Este artículo propone el marco de optimización de indicaciones multi-etapa (MPR), que mejora sistemáticamente estas indicaciones mal formadas a través de múltiples etapas. Cada etapa utiliza modelos de lenguaje pequeños (SLMs) especializados y ajustados para tareas específicas, abordando problemas concretos como puntuación, errores ortográficos y uso incorrecto de términos. MPR mejora iterativamente la claridad de las indicaciones y emplea mecanismos de autorreflexión y clasificación para priorizar las entradas más relevantes. Los resultados experimentales demuestran que las indicaciones optimizadas por MPR logran una tasa de victoria superior al 85% en comparación con su forma original, mitigando efectivamente las alucinaciones y mejorando la precisión de los resultados de los LLM.

Contexto de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grande demuestran un desempeño sobresaliente en múltiples tareas de PNL, enfrentan un desafío crítico: el problema de las alucinaciones, es decir, la generación de información que parece razonable pero es factualmente incorrecta. Esto es particularmente peligroso en campos críticos como medicina y educación, donde la transmisión precisa de información es fundamental.

Limitaciones de los Métodos Existentes

Los enfoques actuales para mitigar alucinaciones se concentran principalmente en:

  1. Ajustes de Arquitectura de Modelos: Modificación de mecanismos internos de LLM, pero con alto costo computacional
  2. Técnicas de Postprocesamiento: Verificación de contenido después de la generación, aumentando la complejidad del sistema y la latencia
  3. Ajuste Fino con Aprendizaje por Refuerzo: Requiere recursos computacionales significativos, difícil de aplicar en tiempo real

Estos métodos típicamente ignoran un factor importante: la calidad de la indicación del usuario. Las indicaciones mal formadas conducen directamente a resultados imprecisos, pero las soluciones existentes frecuentemente dependen de modelos grandes o técnicas computacionalmente intensivas.

Motivación de la Investigación

Este artículo sostiene que mediante la optimización sistemática de la calidad de las indicaciones de entrada, es posible reducir el problema de alucinaciones desde su origen. En comparación con la modificación de arquitecturas de modelos o el postprocesamiento de salidas, la optimización de indicaciones es una solución más ligera y escalable.

Contribuciones Principales

  1. Propuesta del Marco MPR: Primer marco de optimización multi-etapa sistemático que aborda el problema de alucinaciones causadas por indicaciones mal formadas
  2. Diseño Ligero: Utiliza modelos de lenguaje pequeños (SLMs) en lugar de modelos grandes, reduciendo significativamente los costos computacionales
  3. Independencia de Modelos: Se integra sin problemas con cualquier arquitectura de LLM, demostrando alta adaptabilidad
  4. Evaluación Integral: Validación de efectividad en múltiples conjuntos de datos, con tasa de victoria superior al 85%
  5. Verificación de Compatibilidad: Demuestra que puede combinarse con métodos existentes de mitigación de alucinaciones, mejorando aún más el desempeño

Explicación Detallada del Método

Definición de la Tarea

Entrada: Indicaciones de usuario mal formadas (que contienen errores de puntuación, errores ortográficos, problemas gramaticales, uso incorrecto de terminología, etc.) Salida: Indicaciones de alta calidad optimizadas a través de múltiples etapas Objetivo: Reducir alucinaciones en el contenido generado por LLM, mejorando la precisión y relevancia de los resultados

Arquitectura del Modelo

El marco MPR contiene tres etapas principales:

Etapa 1: Detección y Clasificación de Errores

Utiliza SLMs especializados y ajustados para identificar tipos de errores en las indicaciones, clasificándolos como:

  • Errores de Etapa 1: Errores básicos de puntuación y mayúsculas
  • Errores de Etapa 2: Errores ortográficos y gramaticales
  • Errores de Etapa 3: Ambigüedad semántica y uso incorrecto de terminología

Etapa 2: Limpieza de Indicaciones Multi-etapa

Según el tipo de error, se utilizan SLMs especializados correspondientes para realizar correcciones:

Etapa 1: Corrección de Puntuación

Entrada: "what is the caPital of fRAnce?"
Salida: "What is the capital of France?"

Etapa 2: Corrección Ortográfica y Gramatical

Entrada: "See from spaiin moroco?"
Salida: "Can you see Spain from Morocco?"

Etapa 3: Alineación Semántica y Reformulación

Entrada: "Tell me about transformers"
Salida: "Can you explain how Transformer-based neural networks work?"

Etapa 3: Generación de Descripciones Iterativas

  • Generación de Descripciones: Añade información contextual para términos ambiguos
  • Verificación de Autorreflexión: Evalúa la suficiencia y concisión de las descripciones
  • Clasificación por Perplejidad: Selecciona las descripciones más coherentes y relevantes
  • Integración Inteligente: Añade descripciones solo cuando es necesario, mejorando la eficiencia

Puntos de Innovación Técnica

  1. Estrategia de Procesamiento por Etapas: Diferentes tipos de errores requieren diferentes métodos de tratamiento; el procesamiento por etapas es más preciso y efectivo
  2. Especialización de Modelos Pequeños: Cada SLM se ajusta finamente para tareas específicas, asegurando calidad mientras se mantiene la eficiencia
  3. Técnica de Ajuste Fino QLoRA: Utiliza adaptación de bajo rango cuantizada a 4 bits, reduciendo requisitos de memoria mientras se mantiene el desempeño
  4. Generación de Descripciones Adaptativa: Genera dinámicamente descripciones según sea necesario, evitando gastos computacionales innecesarios

Configuración Experimental

Conjuntos de Datos

Construcción de Datos de Entrenamiento:

  • Conjunto de Datos OLM Wikipedia: 10,000 entradas gramaticalmente perfectas para optimización de puntuación y gramática
  • Conjunto de Datos CoEdIT: Enfocado en ediciones no semánticas que mejoran fluidez, coherencia y estilo
  • Conjunto de Datos MQR: 2,114 pares de reformulación de preguntas para entrenamiento de transformación semánticamente equivalente
  • Conjunto de Datos Magpie: 300,000 pares palabra clave-descripción para generación de explicación de terminología

Conjuntos de Datos de Evaluación:

  • Conjunto de Datos Well-formed Query: 8,000 consultas de usuario con puntuación de calidad de formato inferior a 0.5
  • GSM8K: Conjunto de datos de problemas matemáticos
  • SQuAD: Conjunto de datos de comprensión lectora
  • Natural Questions: Conjunto de datos de preguntas naturales

Estrategia de Corrupción: Para probar completamente el marco, se introdujeron artificialmente errores en tres niveles:

  • Etapa 1: Errores básicos de puntuación
  • Etapa 2: Errores ortográficos y gramaticales
  • Etapa 3: Errores de terminología técnica y abreviaturas

Métricas de Evaluación

  • Índice de Alucinación (HI): Cuantifica la precisión factual del contenido generado (0-1, menor es mejor)
  • Puntuación de Calidad de Contenido (CQS): Mide relevancia, coherencia y calidad general (0-1, mayor es mejor)
  • Tasa de Victoria (WR): Porcentaje de ventaja de desempeño de indicaciones optimizadas por MPR en comparación con indicaciones originales
  • Tiempo de Procesamiento (T): Evaluación de la eficiencia del marco

Métodos de Comparación

  • SelfCheckGPT: Método de detección de alucinaciones de caja negra sin recursos
  • CoVE: Método de cadena de verificación
  • DRESS: Método de alineación basado en retroalimentación en lenguaje natural
  • MixAlign: Método de alineación de conocimiento

Detalles de Implementación

  • Hardware: Entrenamiento utilizando GPU NVIDIA RTX A6000, inferencia utilizando GPU NVIDIA TITAN V
  • Método de Ajuste Fino: QLoRA (adaptación de bajo rango cuantizada a 4 bits)
  • Evaluador: API GPT-3.5-turbo como estándar de evaluación principal

Resultados Experimentales

Resultados Principales

Desempeño en el conjunto de datos Well-formed Query:

ModeloNivel de CorrupciónHI ↓CQS ↑WR ↑
Línea Base-0.810.52-
LLaMA-2 (7B)Etapa 10.26 (-0.55)0.80 (+0.28)91%
LLaMA-2 (7B)Etapa 30.48 (-0.33)0.60 (+0.08)86%
Desempeño Promedio-0.37 (-0.44)0.68 (+0.16)86%

Hallazgos Clave

  1. Mejora Consistente: MPR demuestra mejoras significativas en todos los modelos y conjuntos de datos probados
  2. Correlación con Nivel de Corrupción: Cuanto mayor sea el grado de corrupción, más evidente es la mejora de MPR
  3. Efecto del Tamaño del Modelo: Los modelos más grandes (como LLaMA-3.2) se benefician más del paso de generación de descripciones de MPR
  4. Validez Transversal de Dominios: Efectivo en diferentes tareas incluyendo matemáticas (GSM8K), comprensión lectora (SQuAD) y preguntas y respuestas (NQ)

Experimentos de Ablación

ConfiguraciónHI ↓CQS ↑WR ↑
MPR Completo0.140.8393%
Sin Generación de Descripciones0.200.7889%
Sin Limpieza Multi-etapa0.240.7486%
Sin Clasificación Iterativa0.210.7587%

Los resultados demuestran que cada componente contribuye significativamente al desempeño general, siendo la limpieza multi-etapa el componente más crítico.

Comparación con Métodos Existentes

MarcoHI ↓CQS ↑WR ↑Tiempo de Procesamiento (ms)
MPR0.180.8191%1215
SelfCheckGPT0.220.7685%1541
SelfCheckGPT + MPR0.140.8594%1478

MPR no solo demuestra un desempeño excepcional de forma independiente, sino que logra resultados aún mejores cuando se combina con métodos existentes.

Trabajo Relacionado

Métodos de Mitigación de Alucinaciones

Los métodos existentes se dividen principalmente en tres categorías:

  1. Modificación de Arquitectura: Ajuste de mecanismos internos del modelo, alto costo computacional
  2. Verificación de Postprocesamiento: Verificación de contenido después de la generación, aumenta la latencia
  3. Aprendizaje por Refuerzo: Recompensa de respuestas factuales, requiere recursos computacionales significativos

Aplicaciones de Modelos de Lenguaje Pequeños

Los SLMs pueden lograr desempeño excepcional en tareas específicas mediante ajuste fino, siendo particularmente adecuados para:

  • Entornos con recursos limitados
  • Aplicaciones en tiempo real
  • Tareas específicas de dominio

Técnicas de Optimización de Indicaciones

Los métodos tradicionales incluyen:

  • Reformulación de indicaciones por LLM (alto costo computacional)
  • Mejora iterativa con aprendizaje por refuerzo
  • Optimización con intervención humana

MPR logra optimización de indicaciones ligera mediante el uso de modelos pequeños.

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de Efectividad: MPR demuestra un desempeño excepcional en la reducción de alucinaciones y mejora de la calidad de salida
  2. Diseño Ligero: Reduce significativamente los costos computacionales en comparación con métodos existentes
  3. Aplicabilidad Amplia: Puede combinarse con múltiples arquitecturas de LLM y métodos de mitigación existentes
  4. Valor Práctico: Proporciona una solución escalable para aplicaciones reales

Limitaciones

  1. Especificidad de Dominio: Puede tener desempeño deficiente en dominios profesionales como derecho y medicina
  2. Limitaciones de Métricas de Evaluación: Las métricas existentes no capturan completamente la satisfacción del usuario y la fluidez
  3. Grado de Automatización: Aunque completamente automatizado, podría beneficiarse de sistemas con intervención humana

Direcciones Futuras

  1. Especialización de Dominio: Desarrollo de estrategias de ajuste fino para dominios específicos
  2. Extensión Multimodal: Extensión del marco a entornos multimodales como imagen-texto
  3. Colaboración Humano-Máquina: Integración de mecanismos de retroalimentación humana
  4. Sistema de Evaluación: Desarrollo de métodos de evaluación más comprehensivos centrados en el usuario

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera abordaje sistemático del problema de alucinaciones desde la perspectiva de la calidad de indicaciones
  2. Diseño Razonable: La estrategia de procesamiento multi-etapa es precisa y efectiva para diferentes tipos de errores
  3. Alta Practicidad: El diseño ligero lo hace viable en entornos con recursos limitados
  4. Experimentación Integral: Evaluación comprehensiva en múltiples conjuntos de datos y modelos
  5. Buena Compatibilidad: Puede combinarse con métodos existentes para mejorar aún más el desempeño

Deficiencias

  1. Limitaciones de Dominio: El desempeño en dominios profesionales requiere validación adicional
  2. Restricción de Idioma: Enfocado principalmente en inglés, soporte multilingüe no está claro
  3. Evaluación de Complejidad: Aunque se afirma ser ligero, el procesamiento multi-etapa aún tiene cierta complejidad
  4. Efectos a Largo Plazo: No se evalúa el desempeño en diálogos prolongados o tareas complejas

Impacto

  1. Valor Académico: Proporciona una nueva dirección de investigación para la mitigación de alucinaciones
  2. Valor Práctico: Ofrece una solución viable de optimización para el despliegue real de LLM
  3. Reproducibilidad: La descripción detallada del método facilita la reproducción y mejora
  4. Extensibilidad: El diseño del marco tiene buen potencial de extensión

Escenarios de Aplicación

  • Entornos con Recursos Limitados: Dispositivos periféricos, aplicaciones móviles
  • Sistemas en Tiempo Real: Sistemas interactivos que requieren respuesta rápida
  • Aplicaciones Sensibles a Calidad: Educación, servicio al cliente y otros escenarios con altos requisitos de precisión
  • Actualización de Sistemas Existentes: Integración como complemento en sistemas LLM existentes

Referencias

Este artículo cita 27 referencias importantes que abarcan investigaciones recientes en modelos de lenguaje grande, detección de alucinaciones, ingeniería de indicaciones y aplicaciones de modelos pequeños, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar el problema de alucinaciones en LLM. El marco MPR está diseñado ingeniosamente, la experimentación es integral y los resultados son convincentes. Aunque existen algunas limitaciones, su diseño ligero y modular le confiere alto valor práctico y potencial de extensión.