2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.

Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.

academic

Affinement Multi-étapes des Invites pour Atténuer les Hallucinations dans les Grands Modèles de Langage

Informations Fondamentales

ID de l'article : 2510.12032
Titre : Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
Auteurs : Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
Institution : Korea University, Department of Artificial Intelligence
Classification : cs.CL cs.AI cs.LG
Date de publication : 14 octobre 2025 (arXiv)
Lien de l'article : https://arxiv.org/abs/2510.12032

Résumé

Les grands modèles de langage excellent dans les tâches de compréhension et de génération du langage naturel, mais font face à des problèmes d'hallucinations, c'est-à-dire la génération d'informations apparemment raisonnables mais réellement erronées. Bien que plusieurs facteurs causent les hallucinations, l'impact des invites mal formées (contenant des formulations ambiguës, des erreurs grammaticales ou des informations incomplètes) reste relativement peu exploré. Cet article propose un cadre d'optimisation multi-étapes des invites (MPR) qui améliore systématiquement ces invites mal formées à travers plusieurs étapes. Chaque étape utilise un petit modèle de langage affiné pour des tâches spécifiques, résolvant des problèmes concrets tels que la ponctuation, les fautes d'orthographe et l'utilisation incorrecte de mots-clés. MPR améliore itérativement la clarté des invites et emploie un mécanisme d'auto-réflexion et de classement pour prioriser les entrées les plus pertinentes. Les résultats expérimentaux montrent que les invites optimisées par MPR obtiennent un taux de victoire supérieur à 85 % par rapport à leur forme originale, réduisant efficacement les hallucinations et améliorant la précision des résultats des LLM.

Contexte et Motivation de la Recherche

Définition du Problème

Bien que les grands modèles de langage excellent dans de nombreuses tâches de traitement du langage naturel, ils font face à un défi clé : le problème des hallucinations, c'est-à-dire que le modèle génère des informations apparemment raisonnables mais réellement erronées. Ceci est particulièrement dangereux dans les domaines critiques tels que la médecine et l'éducation, où la transmission d'informations précises est cruciale.

Limitations des Méthodes Existantes

Les approches actuelles pour atténuer les hallucinations se concentrent principalement sur :

Ajustements architecturaux : Modification des mécanismes internes des LLM, mais avec des coûts de calcul élevés
Techniques de post-traitement : Vérification du contenu après génération, augmentant la complexité du système et la latence
Affinement par apprentissage par renforcement : Nécessitant d'importantes ressources de calcul, difficile à appliquer en temps réel

Ces méthodes négligent généralement un facteur important : la qualité de l'invite utilisateur. Les invites mal formées conduisent directement à des résultats inexacts, mais les solutions existantes dépendent souvent de grands modèles ou de techniques intensives en calcul.

Motivation de la Recherche

Cet article soutient que l'optimisation systématique de la qualité des invites d'entrée peut réduire les problèmes d'hallucinations à la source. Comparée à la modification de l'architecture du modèle ou au post-traitement des résultats, l'optimisation des invites est une solution plus légère et plus évolutive.

Contributions Principales

Proposition du cadre MPR : Premier cadre d'optimisation multi-étapes systématique abordant le problème des hallucinations causées par les invites mal formées
Conception légère : Utilisation de petits modèles de langage (SLMs) plutôt que de grands modèles, réduisant considérablement les coûts de calcul
Indépendance du modèle : Intégration transparente avec n'importe quelle architecture LLM, avec une grande adaptabilité
Évaluation complète : Validation de l'efficacité sur plusieurs ensembles de données, avec un taux de victoire supérieur à 85 %
Vérification de compatibilité : Démonstration de la possibilité de combinaison avec les méthodes existantes d'atténuation des hallucinations, améliorant davantage les performances

Détails de la Méthode

Définition de la Tâche

Entrée : Invites utilisateur mal formées (contenant des erreurs de ponctuation, des fautes d'orthographe, des problèmes grammaticaux, des utilisations incorrectes de terminologie, etc.) Sortie : Invites de haute qualité optimisées à travers plusieurs étapes Objectif : Réduire les hallucinations dans le contenu généré par les LLM, améliorer la précision et la pertinence des résultats

Architecture du Modèle

Le cadre MPR comprend trois étapes principales :

Étape 1 : Détection et Classification des Erreurs

Utilisation d'un SLM spécialisé affiné pour identifier les types d'erreurs dans l'invite, les classant en :

Erreurs de l'étape 1 : Erreurs de ponctuation et de casse basiques
Erreurs de l'étape 2 : Erreurs d'orthographe et de grammaire
Erreurs de l'étape 3 : Ambiguïté sémantique et utilisation incorrecte de terminologie

Étape 2 : Nettoyage Multi-étapes des Invites

Selon le type d'erreur, utilisation de SLMs spécialisés correspondants pour la correction :

Étape 1 : Correction de la Ponctuation

Entrée : "what is the caPital of fRAnce?"
Sortie : "What is the capital of France?"

Étape 2 : Correction de l'Orthographe et de la Grammaire

Entrée : "See from spaiin moroco?"
Sortie : "Can you see Spain from Morocco?"

Étape 3 : Alignement Sémantique et Reformulation

Entrée : "Tell me about transformers"
Sortie : "Can you explain how Transformer-based neural networks work?"

Étape 3 : Génération de Descriptions Itératives

Génération de descriptions : Ajout d'informations contextuelles pour les termes ambigus
Vérification par auto-réflexion : Évaluation de l'adéquation et de la concision des descriptions
Classement par perplexité : Sélection des descriptions les plus cohérentes et pertinentes
Intégration intelligente : Ajout de descriptions uniquement si nécessaire, améliorant l'efficacité

Points d'Innovation Technique

Stratégie de traitement par étapes : Les différents types d'erreurs nécessitent différentes méthodes de traitement ; le traitement par étapes est plus précis et efficace
Spécialisation des petits modèles : Chaque SLM est affiné pour une tâche spécifique, garantissant la qualité tout en maintenant l'efficacité
Technique d'affinement QLoRA : Utilisation de l'adaptation de rang faible quantifiée à 4 bits, réduisant les besoins en mémoire tout en préservant les performances
Génération de descriptions adaptative : Génération dynamique de descriptions selon les besoins, évitant les frais de calcul inutiles

Configuration Expérimentale

Ensembles de Données

Construction des données d'entraînement :

Ensemble de données OLM Wikipedia : 10 000 entrées grammaticalement parfaites pour l'optimisation de la ponctuation et de la grammaire
Ensemble de données CoEdIT : Axé sur les modifications non sémantiques concernant la fluidité, la cohérence et le style
Ensemble de données MQR : 2 114 paires de questions reformulées pour l'entraînement à la transformation équivalente sémantique
Ensemble de données Magpie : 300 000 paires mot-clé-description pour la génération d'explications de terminologie

Ensembles de données d'évaluation :

Ensemble de données Well-formed Query : 8 000 requêtes utilisateur avec des scores de qualité de format inférieurs à 0,5
GSM8K : Ensemble de données de problèmes mathématiques
SQuAD : Ensemble de données de compréhension de lecture
Natural Questions : Ensemble de données de questions naturelles

Stratégie de corruption : Pour tester complètement le cadre, introduction artificielle d'erreurs à trois niveaux :

Étape 1 : Erreurs de ponctuation basiques
Étape 2 : Erreurs d'orthographe et de grammaire
Étape 3 : Erreurs de terminologie technique et d'abréviations

Métriques d'Évaluation

Indice d'hallucination (HI) : Quantification de la précision factuelle du contenu généré (0-1, plus bas est mieux)
Score de qualité du contenu (CQS) : Mesure de la pertinence, de la cohérence et de la qualité globale (0-1, plus haut est mieux)
Taux de victoire (WR) : Pourcentage d'avantage de performance des invites optimisées par MPR par rapport aux invites originales
Temps de traitement (T) : Évaluation de l'efficacité du traitement du cadre

Méthodes de Comparaison

SelfCheckGPT : Méthode de détection des hallucinations en boîte noire sans ressources
CoVE : Méthode de chaîne de vérification
DRESS : Méthode d'alignement basée sur les retours en langage naturel
MixAlign : Méthode d'alignement des connaissances

Détails d'Implémentation

Matériel : Entraînement utilisant GPU NVIDIA RTX A6000, inférence utilisant GPU NVIDIA TITAN V
Méthode d'affinement : QLoRA (adaptation de rang faible quantifiée à 4 bits)
Évaluateur : API GPT-3.5-turbo comme critère de jugement principal

Résultats Expérimentaux

Résultats Principaux

Performance sur l'ensemble de données Well-formed Query :

Modèle	Niveau de Corruption	HI ↓	CQS ↑	WR ↑
Baseline	-	0,81	0,52	-
LLaMA-2 (7B)	Étape 1	0,26 (-0,55)	0,80 (+0,28)	91 %
LLaMA-2 (7B)	Étape 3	0,48 (-0,33)	0,60 (+0,08)	86 %
Performance Moyenne	-	0,37 (-0,44)	0,68 (+0,16)	86 %

Résultats Clés

Amélioration Cohérente : MPR montre des améliorations significatives sur tous les modèles et ensembles de données testés
Corrélation au Niveau de Corruption : Plus le niveau de corruption est élevé, plus l'amélioration de MPR est prononcée
Effet de la Taille du Modèle : Les modèles plus grands (comme LLaMA-3.2) bénéficient davantage de l'étape de génération de descriptions de MPR
Efficacité Transdomaine : Efficacité démontrée dans différentes tâches incluant les mathématiques (GSM8K), la compréhension de lecture (SQuAD), et les questions-réponses (NQ)

Expériences d'Ablation

Configuration	HI ↓	CQS ↑	WR ↑
MPR Complet	0,14	0,83	93 %
Sans Génération de Descriptions	0,20	0,78	89 %
Sans Nettoyage Multi-étapes	0,24	0,74	86 %
Sans Classement Itératif	0,21	0,75	87 %

Les résultats montrent que chaque composant contribue de manière importante aux performances globales, le nettoyage multi-étapes étant le composant le plus critique.

Comparaison avec les Méthodes Existantes

Cadre	HI ↓	CQS ↑	WR ↑	Temps de Traitement (ms)
MPR	0,18	0,81	91 %	1215
SelfCheckGPT	0,22	0,76	85 %	1541
SelfCheckGPT + MPR	0,14	0,85	94 %	1478

MPR non seulement fonctionne bien de manière indépendante, mais produit des résultats encore meilleurs lorsqu'il est combiné avec les méthodes existantes.

Travaux Connexes

Méthodes d'Atténuation des Hallucinations

Les méthodes existantes se divisent principalement en trois catégories :

Modifications architecturales : Ajustement des mécanismes internes du modèle, coûts de calcul élevés
Vérification post-traitement : Vérification du contenu après génération, augmentation de la latence
Apprentissage par renforcement : Récompense des réponses factuelles, nécessitant d'importantes ressources de calcul

Applications des Petits Modèles de Langage

Les SLMs peuvent atteindre d'excellentes performances sur des tâches spécifiques grâce à l'affinement, particulièrement adaptés à :

Les environnements aux ressources limitées
Les applications en temps réel
Les tâches spécifiques à un domaine

Techniques d'Optimisation des Invites

Les méthodes traditionnelles incluent :

Reformulation des invites par LLM (coûts de calcul élevés)
Amélioration itérative par apprentissage par renforcement
Optimisation par intervention humaine

MPR a réalisé une optimisation légère des invites en utilisant des petits modèles.

Conclusions et Discussion

Conclusions Principales

Validation de l'efficacité : MPR montre d'excellentes performances dans la réduction des hallucinations et l'amélioration de la qualité des résultats
Conception légère : Réduction significative des coûts de calcul par rapport aux méthodes existantes
Applicabilité générale : Peut être combiné avec diverses architectures LLM et méthodes d'atténuation existantes
Valeur pratique : Fournit une solution évolutive pour les applications réelles

Limitations

Spécificité du domaine : Peut ne pas fonctionner bien dans les domaines professionnels tels que le droit et la médecine
Limitations des métriques d'évaluation : Les métriques existantes ne capturent pas complètement la satisfaction des utilisateurs et la fluidité
Degré d'automatisation : Bien que complètement automatisé, pourrait bénéficier de systèmes avec boucle humaine

Directions Futures

Spécialisation par domaine : Développement de stratégies d'affinement ciblées pour des domaines spécifiques
Extension multimodale : Extension du cadre à des environnements multimodaux tels que image-texte
Collaboration homme-machine : Intégration de mécanismes de retour humain
Système d'évaluation : Développement de méthodes d'évaluation plus complètes centrées sur l'utilisateur

Évaluation Approfondie

Points Forts

Innovation forte : Première approche systématique abordant les hallucinations sous l'angle de la qualité des invites
Conception rationnelle : La stratégie de traitement multi-étapes cible différents types d'erreurs, précise et efficace
Haute praticité : La conception légère la rend viable dans les environnements aux ressources limitées
Expérimentation complète : Évaluation complète sur plusieurs ensembles de données et modèles
Bonne compatibilité : Peut être combinée avec les méthodes existantes pour améliorer davantage les résultats

Insuffisances

Limitations de domaine : Les performances dans les domaines professionnels restent à vérifier
Restrictions linguistiques : Principalement orientée vers l'anglais, le support multilingue n'est pas clairement défini
Évaluation de la complexité : Bien que décrite comme légère, le traitement multi-étapes présente une certaine complexité
Effets à long terme : Absence d'évaluation des performances dans les dialogues longs ou les tâches complexes

Impact

Valeur académique : Fournit une nouvelle direction de recherche pour l'atténuation des hallucinations
Valeur pratique : Fournit une solution d'optimisation viable pour le déploiement réel des LLM
Reproductibilité : Description détaillée de la méthode, facile à reproduire et améliorer
Extensibilité : La conception du cadre possède un bon potentiel d'extension

Scénarios d'Application

Environnements aux ressources limitées : Appareils périphériques, applications mobiles
Systèmes en temps réel : Systèmes interactifs nécessitant une réponse rapide
Applications sensibles à la qualité : Éducation, service client et autres scénarios exigeant une haute précision
Mise à niveau de systèmes existants : Intégration en tant que plug-in dans les systèmes LLM existants

Références

Cet article cite 27 références importantes couvrant les domaines connexes des grands modèles de langage, de la détection des hallucinations, de l'ingénierie des invites, et des applications des petits modèles, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante pour résoudre le problème des hallucinations dans les LLM. Le cadre MPR est bien conçu, l'expérimentation est complète, et les résultats sont convaincants. Bien qu'il existe certaines limitations, sa conception légère et modulaire lui confère une très haute valeur pratique et un potentiel d'extension considérable.