2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.
Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.
academic

Affinement Multi-étapes des Invites pour Atténuer les Hallucinations dans les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2510.12032
  • Titre : Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
  • Auteurs : Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
  • Institution : Korea University, Department of Artificial Intelligence
  • Classification : cs.CL cs.AI cs.LG
  • Date de publication : 14 octobre 2025 (arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12032

Résumé

Les grands modèles de langage excellent dans les tâches de compréhension et de génération du langage naturel, mais font face à des problèmes d'hallucinations, c'est-à-dire la génération d'informations apparemment raisonnables mais réellement erronées. Bien que plusieurs facteurs causent les hallucinations, l'impact des invites mal formées (contenant des formulations ambiguës, des erreurs grammaticales ou des informations incomplètes) reste relativement peu exploré. Cet article propose un cadre d'optimisation multi-étapes des invites (MPR) qui améliore systématiquement ces invites mal formées à travers plusieurs étapes. Chaque étape utilise un petit modèle de langage affiné pour des tâches spécifiques, résolvant des problèmes concrets tels que la ponctuation, les fautes d'orthographe et l'utilisation incorrecte de mots-clés. MPR améliore itérativement la clarté des invites et emploie un mécanisme d'auto-réflexion et de classement pour prioriser les entrées les plus pertinentes. Les résultats expérimentaux montrent que les invites optimisées par MPR obtiennent un taux de victoire supérieur à 85 % par rapport à leur forme originale, réduisant efficacement les hallucinations et améliorant la précision des résultats des LLM.

Contexte et Motivation de la Recherche

Définition du Problème

Bien que les grands modèles de langage excellent dans de nombreuses tâches de traitement du langage naturel, ils font face à un défi clé : le problème des hallucinations, c'est-à-dire que le modèle génère des informations apparemment raisonnables mais réellement erronées. Ceci est particulièrement dangereux dans les domaines critiques tels que la médecine et l'éducation, où la transmission d'informations précises est cruciale.

Limitations des Méthodes Existantes

Les approches actuelles pour atténuer les hallucinations se concentrent principalement sur :

  1. Ajustements architecturaux : Modification des mécanismes internes des LLM, mais avec des coûts de calcul élevés
  2. Techniques de post-traitement : Vérification du contenu après génération, augmentant la complexité du système et la latence
  3. Affinement par apprentissage par renforcement : Nécessitant d'importantes ressources de calcul, difficile à appliquer en temps réel

Ces méthodes négligent généralement un facteur important : la qualité de l'invite utilisateur. Les invites mal formées conduisent directement à des résultats inexacts, mais les solutions existantes dépendent souvent de grands modèles ou de techniques intensives en calcul.

Motivation de la Recherche

Cet article soutient que l'optimisation systématique de la qualité des invites d'entrée peut réduire les problèmes d'hallucinations à la source. Comparée à la modification de l'architecture du modèle ou au post-traitement des résultats, l'optimisation des invites est une solution plus légère et plus évolutive.

Contributions Principales

  1. Proposition du cadre MPR : Premier cadre d'optimisation multi-étapes systématique abordant le problème des hallucinations causées par les invites mal formées
  2. Conception légère : Utilisation de petits modèles de langage (SLMs) plutôt que de grands modèles, réduisant considérablement les coûts de calcul
  3. Indépendance du modèle : Intégration transparente avec n'importe quelle architecture LLM, avec une grande adaptabilité
  4. Évaluation complète : Validation de l'efficacité sur plusieurs ensembles de données, avec un taux de victoire supérieur à 85 %
  5. Vérification de compatibilité : Démonstration de la possibilité de combinaison avec les méthodes existantes d'atténuation des hallucinations, améliorant davantage les performances

Détails de la Méthode

Définition de la Tâche

Entrée : Invites utilisateur mal formées (contenant des erreurs de ponctuation, des fautes d'orthographe, des problèmes grammaticaux, des utilisations incorrectes de terminologie, etc.) Sortie : Invites de haute qualité optimisées à travers plusieurs étapes Objectif : Réduire les hallucinations dans le contenu généré par les LLM, améliorer la précision et la pertinence des résultats

Architecture du Modèle

Le cadre MPR comprend trois étapes principales :

Étape 1 : Détection et Classification des Erreurs

Utilisation d'un SLM spécialisé affiné pour identifier les types d'erreurs dans l'invite, les classant en :

  • Erreurs de l'étape 1 : Erreurs de ponctuation et de casse basiques
  • Erreurs de l'étape 2 : Erreurs d'orthographe et de grammaire
  • Erreurs de l'étape 3 : Ambiguïté sémantique et utilisation incorrecte de terminologie

Étape 2 : Nettoyage Multi-étapes des Invites

Selon le type d'erreur, utilisation de SLMs spécialisés correspondants pour la correction :

Étape 1 : Correction de la Ponctuation

Entrée : "what is the caPital of fRAnce?"
Sortie : "What is the capital of France?"

Étape 2 : Correction de l'Orthographe et de la Grammaire

Entrée : "See from spaiin moroco?"
Sortie : "Can you see Spain from Morocco?"

Étape 3 : Alignement Sémantique et Reformulation

Entrée : "Tell me about transformers"
Sortie : "Can you explain how Transformer-based neural networks work?"

Étape 3 : Génération de Descriptions Itératives

  • Génération de descriptions : Ajout d'informations contextuelles pour les termes ambigus
  • Vérification par auto-réflexion : Évaluation de l'adéquation et de la concision des descriptions
  • Classement par perplexité : Sélection des descriptions les plus cohérentes et pertinentes
  • Intégration intelligente : Ajout de descriptions uniquement si nécessaire, améliorant l'efficacité

Points d'Innovation Technique

  1. Stratégie de traitement par étapes : Les différents types d'erreurs nécessitent différentes méthodes de traitement ; le traitement par étapes est plus précis et efficace
  2. Spécialisation des petits modèles : Chaque SLM est affiné pour une tâche spécifique, garantissant la qualité tout en maintenant l'efficacité
  3. Technique d'affinement QLoRA : Utilisation de l'adaptation de rang faible quantifiée à 4 bits, réduisant les besoins en mémoire tout en préservant les performances
  4. Génération de descriptions adaptative : Génération dynamique de descriptions selon les besoins, évitant les frais de calcul inutiles

Configuration Expérimentale

Ensembles de Données

Construction des données d'entraînement :

  • Ensemble de données OLM Wikipedia : 10 000 entrées grammaticalement parfaites pour l'optimisation de la ponctuation et de la grammaire
  • Ensemble de données CoEdIT : Axé sur les modifications non sémantiques concernant la fluidité, la cohérence et le style
  • Ensemble de données MQR : 2 114 paires de questions reformulées pour l'entraînement à la transformation équivalente sémantique
  • Ensemble de données Magpie : 300 000 paires mot-clé-description pour la génération d'explications de terminologie

Ensembles de données d'évaluation :

  • Ensemble de données Well-formed Query : 8 000 requêtes utilisateur avec des scores de qualité de format inférieurs à 0,5
  • GSM8K : Ensemble de données de problèmes mathématiques
  • SQuAD : Ensemble de données de compréhension de lecture
  • Natural Questions : Ensemble de données de questions naturelles

Stratégie de corruption : Pour tester complètement le cadre, introduction artificielle d'erreurs à trois niveaux :

  • Étape 1 : Erreurs de ponctuation basiques
  • Étape 2 : Erreurs d'orthographe et de grammaire
  • Étape 3 : Erreurs de terminologie technique et d'abréviations

Métriques d'Évaluation

  • Indice d'hallucination (HI) : Quantification de la précision factuelle du contenu généré (0-1, plus bas est mieux)
  • Score de qualité du contenu (CQS) : Mesure de la pertinence, de la cohérence et de la qualité globale (0-1, plus haut est mieux)
  • Taux de victoire (WR) : Pourcentage d'avantage de performance des invites optimisées par MPR par rapport aux invites originales
  • Temps de traitement (T) : Évaluation de l'efficacité du traitement du cadre

Méthodes de Comparaison

  • SelfCheckGPT : Méthode de détection des hallucinations en boîte noire sans ressources
  • CoVE : Méthode de chaîne de vérification
  • DRESS : Méthode d'alignement basée sur les retours en langage naturel
  • MixAlign : Méthode d'alignement des connaissances

Détails d'Implémentation

  • Matériel : Entraînement utilisant GPU NVIDIA RTX A6000, inférence utilisant GPU NVIDIA TITAN V
  • Méthode d'affinement : QLoRA (adaptation de rang faible quantifiée à 4 bits)
  • Évaluateur : API GPT-3.5-turbo comme critère de jugement principal

Résultats Expérimentaux

Résultats Principaux

Performance sur l'ensemble de données Well-formed Query :

ModèleNiveau de CorruptionHI ↓CQS ↑WR ↑
Baseline-0,810,52-
LLaMA-2 (7B)Étape 10,26 (-0,55)0,80 (+0,28)91 %
LLaMA-2 (7B)Étape 30,48 (-0,33)0,60 (+0,08)86 %
Performance Moyenne-0,37 (-0,44)0,68 (+0,16)86 %

Résultats Clés

  1. Amélioration Cohérente : MPR montre des améliorations significatives sur tous les modèles et ensembles de données testés
  2. Corrélation au Niveau de Corruption : Plus le niveau de corruption est élevé, plus l'amélioration de MPR est prononcée
  3. Effet de la Taille du Modèle : Les modèles plus grands (comme LLaMA-3.2) bénéficient davantage de l'étape de génération de descriptions de MPR
  4. Efficacité Transdomaine : Efficacité démontrée dans différentes tâches incluant les mathématiques (GSM8K), la compréhension de lecture (SQuAD), et les questions-réponses (NQ)

Expériences d'Ablation

ConfigurationHI ↓CQS ↑WR ↑
MPR Complet0,140,8393 %
Sans Génération de Descriptions0,200,7889 %
Sans Nettoyage Multi-étapes0,240,7486 %
Sans Classement Itératif0,210,7587 %

Les résultats montrent que chaque composant contribue de manière importante aux performances globales, le nettoyage multi-étapes étant le composant le plus critique.

Comparaison avec les Méthodes Existantes

CadreHI ↓CQS ↑WR ↑Temps de Traitement (ms)
MPR0,180,8191 %1215
SelfCheckGPT0,220,7685 %1541
SelfCheckGPT + MPR0,140,8594 %1478

MPR non seulement fonctionne bien de manière indépendante, mais produit des résultats encore meilleurs lorsqu'il est combiné avec les méthodes existantes.

Travaux Connexes

Méthodes d'Atténuation des Hallucinations

Les méthodes existantes se divisent principalement en trois catégories :

  1. Modifications architecturales : Ajustement des mécanismes internes du modèle, coûts de calcul élevés
  2. Vérification post-traitement : Vérification du contenu après génération, augmentation de la latence
  3. Apprentissage par renforcement : Récompense des réponses factuelles, nécessitant d'importantes ressources de calcul

Applications des Petits Modèles de Langage

Les SLMs peuvent atteindre d'excellentes performances sur des tâches spécifiques grâce à l'affinement, particulièrement adaptés à :

  • Les environnements aux ressources limitées
  • Les applications en temps réel
  • Les tâches spécifiques à un domaine

Techniques d'Optimisation des Invites

Les méthodes traditionnelles incluent :

  • Reformulation des invites par LLM (coûts de calcul élevés)
  • Amélioration itérative par apprentissage par renforcement
  • Optimisation par intervention humaine

MPR a réalisé une optimisation légère des invites en utilisant des petits modèles.

Conclusions et Discussion

Conclusions Principales

  1. Validation de l'efficacité : MPR montre d'excellentes performances dans la réduction des hallucinations et l'amélioration de la qualité des résultats
  2. Conception légère : Réduction significative des coûts de calcul par rapport aux méthodes existantes
  3. Applicabilité générale : Peut être combiné avec diverses architectures LLM et méthodes d'atténuation existantes
  4. Valeur pratique : Fournit une solution évolutive pour les applications réelles

Limitations

  1. Spécificité du domaine : Peut ne pas fonctionner bien dans les domaines professionnels tels que le droit et la médecine
  2. Limitations des métriques d'évaluation : Les métriques existantes ne capturent pas complètement la satisfaction des utilisateurs et la fluidité
  3. Degré d'automatisation : Bien que complètement automatisé, pourrait bénéficier de systèmes avec boucle humaine

Directions Futures

  1. Spécialisation par domaine : Développement de stratégies d'affinement ciblées pour des domaines spécifiques
  2. Extension multimodale : Extension du cadre à des environnements multimodaux tels que image-texte
  3. Collaboration homme-machine : Intégration de mécanismes de retour humain
  4. Système d'évaluation : Développement de méthodes d'évaluation plus complètes centrées sur l'utilisateur

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première approche systématique abordant les hallucinations sous l'angle de la qualité des invites
  2. Conception rationnelle : La stratégie de traitement multi-étapes cible différents types d'erreurs, précise et efficace
  3. Haute praticité : La conception légère la rend viable dans les environnements aux ressources limitées
  4. Expérimentation complète : Évaluation complète sur plusieurs ensembles de données et modèles
  5. Bonne compatibilité : Peut être combinée avec les méthodes existantes pour améliorer davantage les résultats

Insuffisances

  1. Limitations de domaine : Les performances dans les domaines professionnels restent à vérifier
  2. Restrictions linguistiques : Principalement orientée vers l'anglais, le support multilingue n'est pas clairement défini
  3. Évaluation de la complexité : Bien que décrite comme légère, le traitement multi-étapes présente une certaine complexité
  4. Effets à long terme : Absence d'évaluation des performances dans les dialogues longs ou les tâches complexes

Impact

  1. Valeur académique : Fournit une nouvelle direction de recherche pour l'atténuation des hallucinations
  2. Valeur pratique : Fournit une solution d'optimisation viable pour le déploiement réel des LLM
  3. Reproductibilité : Description détaillée de la méthode, facile à reproduire et améliorer
  4. Extensibilité : La conception du cadre possède un bon potentiel d'extension

Scénarios d'Application

  • Environnements aux ressources limitées : Appareils périphériques, applications mobiles
  • Systèmes en temps réel : Systèmes interactifs nécessitant une réponse rapide
  • Applications sensibles à la qualité : Éducation, service client et autres scénarios exigeant une haute précision
  • Mise à niveau de systèmes existants : Intégration en tant que plug-in dans les systèmes LLM existants

Références

Cet article cite 27 références importantes couvrant les domaines connexes des grands modèles de langage, de la détection des hallucinations, de l'ingénierie des invites, et des applications des petits modèles, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante pour résoudre le problème des hallucinations dans les LLM. Le cadre MPR est bien conçu, l'expérimentation est complète, et les résultats sont convaincants. Bien qu'il existe certaines limitations, sa conception légère et modulaire lui confère une très haute valeur pratique et un potentiel d'extension considérable.