2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.

Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.

academic

Raffinamento Multi-stadio dei Prompt per Mitigare le Allucinazioni nei Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

ID Articolo: 2510.12032
Titolo: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
Autori: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
Istituzione: Korea University, Department of Artificial Intelligence
Classificazione: cs.CL cs.AI cs.LG
Data di Pubblicazione: 14 ottobre 2025 (arXiv)
Link Articolo: https://arxiv.org/abs/2510.12032

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano eccellenza nei compiti di comprensione e generazione del linguaggio naturale, ma affrontano ancora il problema delle allucinazioni, ovvero la generazione di informazioni apparentemente plausibili ma effettivamente errate. Sebbene molteplici fattori causino allucinazioni, l'impatto dei prompt mal formattati (contenenti formulazioni ambigue, errori grammaticali o informazioni incomplete) rimane relativamente inesplorato. Questo articolo propone il framework di ottimizzazione multi-stadio dei prompt (MPR), che migliora sistematicamente questi prompt mal formattati attraverso molteplici stadi. Ogni stadio utilizza piccoli modelli linguistici (SLM) microadattati per compiti specifici, affrontando problemi concreti come punteggiatura, errori ortografici e uso errato di terminologia. MPR migliora iterativamente la chiarezza dei prompt e impiega meccanismi di auto-riflessione e ranking per dare priorità agli input più rilevanti. I risultati sperimentali mostrano che i prompt ottimizzati da MPR raggiungono un tasso di vittoria superiore all'85% rispetto alla forma originale, riducendo efficacemente le allucinazioni e migliorando l'accuratezza dell'output degli LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

Sebbene i modelli linguistici di grandi dimensioni eccellano in numerosi compiti di elaborazione del linguaggio naturale, affrontano una sfida critica: il problema delle allucinazioni, ovvero la generazione di informazioni apparentemente plausibili ma effettivamente errate. Ciò è particolarmente pericoloso in settori critici come la medicina e l'istruzione, dove la comunicazione accurata delle informazioni è essenziale.

Limitazioni dei Metodi Esistenti

Gli attuali approcci per mitigare le allucinazioni si concentrano principalmente su:

Adattamenti dell'architettura del modello: Modifica dei meccanismi interni degli LLM, ma con costi computazionali elevati
Tecniche di post-elaborazione: Verifica del contenuto dopo la generazione, aumentando la complessità del sistema e la latenza
Microadattamento con apprendimento per rinforzo: Richiede risorse computazionali significative, difficile da applicare in tempo reale

Questi metodi generalmente trascurano un fattore importante: la qualità del prompt dell'utente. I prompt mal formattati conducono direttamente a output imprecisi, ma le soluzioni esistenti spesso si basano su modelli di grandi dimensioni o tecniche computazionalmente intensive.

Motivazione della Ricerca

Questo articolo sostiene che ottimizzando sistematicamente la qualità dei prompt di input, è possibile ridurre i problemi di allucinazione alla fonte. Rispetto alla modifica dell'architettura del modello o alla post-elaborazione dell'output, l'ottimizzazione dei prompt rappresenta una soluzione più leggera e scalabile.

Contributi Fondamentali

Proposta del Framework MPR: Primo framework di ottimizzazione multi-stadio sistematico che affronta il problema delle allucinazioni causate da prompt mal formattati
Progettazione Leggera: Utilizza piccoli modelli linguistici (SLM) anziché modelli di grandi dimensioni, riducendo significativamente i costi computazionali
Indipendenza dal Modello: Si integra perfettamente con qualsiasi architettura LLM, con elevata adattabilità
Valutazione Completa: Verifica l'efficacia su molteplici dataset, con tassi di vittoria superiori all'85%
Verifica di Compatibilità: Dimostra la possibilità di combinazione con metodi esistenti di mitigazione delle allucinazioni, migliorando ulteriormente le prestazioni

Dettagli Metodologici

Definizione del Compito

Input: Prompt utente mal formattati (contenenti errori di punteggiatura, errori ortografici, problemi grammaticali, uso errato di terminologia, ecc.) Output: Prompt di alta qualità ottimizzati attraverso molteplici stadi Obiettivo: Ridurre le allucinazioni nel contenuto generato dagli LLM, migliorando l'accuratezza e la rilevanza dell'output

Architettura del Modello

Il framework MPR comprende tre stadi principali:

Stadio 1: Rilevamento e Classificazione degli Errori

Utilizza SLM specializzati e microadattati per identificare i tipi di errori nel prompt, classificandoli come:

Errori di Stadio 1: Errori di base di punteggiatura e maiuscole
Errori di Stadio 2: Errori ortografici e grammaticali
Errori di Stadio 3: Ambiguità semantica e uso errato di terminologia

Stadio 2: Pulizia Multi-stadio dei Prompt

In base al tipo di errore, utilizza SLM specializzati corrispondenti per la correzione:

Stadio 1: Correzione della Punteggiatura

Input: "what is the caPital of fRAnce?"
Output: "What is the capital of France?"

Stadio 2: Correzione Ortografica e Grammaticale

Input: "See from spaiin moroco?"
Output: "Can you see Spain from Morocco?"

Stadio 3: Allineamento Semantico e Riscrittura

Input: "Tell me about transformers"
Output: "Can you explain how Transformer-based neural networks work?"

Stadio 3: Generazione Descrittiva Iterativa

Generazione di Descrizioni: Aggiunge informazioni di contesto per termini ambigui
Verifica di Auto-riflessione: Valuta l'adeguatezza e la concisione delle descrizioni
Ranking per Perplessità: Seleziona le descrizioni più coerenti e rilevanti
Integrazione Intelligente: Aggiunge descrizioni solo quando necessario, migliorando l'efficienza

Punti di Innovazione Tecnica

Strategia di Elaborazione Multi-stadio: Diversi tipi di errori richiedono metodi di trattamento diversi; l'elaborazione multi-stadio è più precisa ed efficace
Specializzazione di Modelli Piccoli: Ogni SLM è microadattato per compiti specifici, garantendo qualità mantenendo l'efficienza
Tecnica di Microadattamento QLoRA: Utilizza adattamento a basso rango con quantizzazione a 4 bit, riducendo i requisiti di memoria mantenendo le prestazioni
Generazione di Descrizioni Adattiva: Genera dinamicamente descrizioni secondo le necessità, evitando costi computazionali non necessari

Configurazione Sperimentale

Dataset

Costruzione dei Dati di Addestramento:

Dataset OLM Wikipedia: 10.000 voci grammaticalmente perfette per l'ottimizzazione di punteggiatura e grammatica
Dataset CoEdIT: Focalizzato su modifiche non semantiche di fluidità, coerenza e stile
Dataset MQR: 2.114 coppie di riscritture di domande per l'addestramento di trasformazioni semanticamente equivalenti
Dataset Magpie: 300.000 coppie termine-descrizione per la generazione di spiegazioni di terminologia

Dataset di Valutazione:

Dataset Well-formed Query: 8.000 query utente con punteggio di qualità del formato inferiore a 0,5
GSM8K: Dataset di problemi matematici
SQuAD: Dataset di comprensione della lettura
Natural Questions: Dataset di domande naturali

Strategia di Corruzione: Per testare completamente il framework, vengono introdotti artificialmente errori a tre livelli:

Stadio 1: Errori di punteggiatura di base
Stadio 2: Errori ortografici e grammaticali
Stadio 3: Errori di terminologia tecnica e abbreviazioni

Metriche di Valutazione

Indice di Allucinazione (HI): Quantifica l'accuratezza fattuale del contenuto generato (0-1, più basso è meglio)
Punteggio di Qualità del Contenuto (CQS): Misura la rilevanza, la coerenza e la qualità complessiva (0-1, più alto è meglio)
Tasso di Vittoria (WR): Percentuale di vantaggio di prestazione dei prompt ottimizzati da MPR rispetto ai prompt originali
Tempo di Elaborazione (T): Valutazione dell'efficienza del framework

Metodi di Confronto

SelfCheckGPT: Metodo di rilevamento delle allucinazioni black-box a risorse zero
CoVE: Metodo della catena di verifica
DRESS: Metodo di allineamento basato su feedback in linguaggio naturale
MixAlign: Metodo di allineamento della conoscenza

Dettagli di Implementazione

Hardware: Addestramento su GPU NVIDIA RTX A6000, inferenza su GPU NVIDIA TITAN V
Metodo di Microadattamento: QLoRA (adattamento a basso rango con quantizzazione a 4 bit)
Valutatore: API GPT-3.5-turbo come standard di valutazione principale

Risultati Sperimentali

Risultati Principali

Prestazioni sul dataset Well-formed Query:

Modello	Livello di Corruzione	HI ↓	CQS ↑	WR ↑
Baseline	-	0.81	0.52	-
LLaMA-2 (7B)	Stadio 1	0.26 (-0.55)	0.80 (+0.28)	91%
LLaMA-2 (7B)	Stadio 3	0.48 (-0.33)	0.60 (+0.08)	86%
Prestazione Media	-	0.37 (-0.44)	0.68 (+0.16)	86%

Scoperte Chiave

Miglioramento Coerente: MPR mostra miglioramenti significativi su tutti i modelli testati e i dataset
Correlazione con il Livello di Corruzione: Maggiore è il livello di corruzione, più evidente è il miglioramento di MPR
Effetto della Dimensione del Modello: I modelli più grandi (come LLaMA-3.2) traggono maggior beneficio dallo stadio di generazione di descrizioni di MPR
Efficacia Transdisciplinare: Efficace in diversi compiti come matematica (GSM8K), comprensione della lettura (SQuAD), domande e risposte (NQ)

Esperimenti di Ablazione

Configurazione	HI ↓	CQS ↑	WR ↑
MPR Completo	0.14	0.83	93%
Senza Generazione di Descrizioni	0.20	0.78	89%
Senza Pulizia Multi-stadio	0.24	0.74	86%
Senza Ranking Iterativo	0.21	0.75	87%

I risultati dimostrano che ogni componente contribuisce significativamente alle prestazioni complessive, con la pulizia multi-stadio come componente più critica.

Confronto con Metodi Esistenti

Framework	HI ↓	CQS ↑	WR ↑	Tempo di Elaborazione (ms)
MPR	0.18	0.81	91%	1215
SelfCheckGPT	0.22	0.76	85%	1541
SelfCheckGPT + MPR	0.14	0.85	94%	1478

MPR non solo mostra prestazioni eccellenti singolarmente, ma raggiunge risultati ancora migliori se combinato con metodi esistenti.

Lavori Correlati

Metodi di Mitigazione delle Allucinazioni

I metodi esistenti si dividono principalmente in tre categorie:

Modifiche dell'Architettura: Adattamento dei meccanismi interni del modello, costi computazionali elevati
Verifica Post-elaborazione: Verifica del contenuto dopo la generazione, aumento della latenza
Apprendimento per Rinforzo: Premiazione di risposte fattuali, richiede risorse computazionali significative

Applicazioni di Piccoli Modelli Linguistici

Gli SLM attraverso il microadattamento per compiti specifici possono raggiungere prestazioni eccellenti, particolarmente adatti per:

Ambienti con risorse limitate
Applicazioni in tempo reale
Compiti specifici del dominio

Tecniche di Ottimizzazione dei Prompt

I metodi tradizionali includono:

Riscrittura dei prompt da parte degli LLM (costi computazionali elevati)
Miglioramento iterativo con apprendimento per rinforzo
Ottimizzazione con intervento umano

MPR ha realizzato l'ottimizzazione leggera dei prompt utilizzando modelli piccoli.

Conclusioni e Discussione

Conclusioni Principali

Validazione dell'Efficacia: MPR dimostra prestazioni eccellenti nella riduzione delle allucinazioni e nel miglioramento della qualità dell'output
Progettazione Leggera: Riduce significativamente i costi computazionali rispetto ai metodi esistenti
Applicabilità Ampia: Può essere combinato con molteplici architetture LLM e metodi di mitigazione esistenti
Valore Pratico: Fornisce una soluzione scalabile per applicazioni pratiche

Limitazioni

Specificità del Dominio: Potrebbe non funzionare bene in domini professionali come il diritto e la medicina
Limitazioni delle Metriche di Valutazione: Le metriche esistenti potrebbero non catturare completamente la soddisfazione dell'utente e la fluidità
Grado di Automazione: Sebbene completamente automatizzato, potrebbe beneficiare di sistemi con intervento umano nel ciclo

Direzioni Future

Specializzazione per Dominio: Sviluppare strategie di microadattamento per domini specifici
Estensione Multimodale: Estendere il framework a ambienti multimodali come immagine-testo
Collaborazione Uomo-Macchina: Integrare meccanismi di feedback umano
Sistema di Valutazione: Sviluppare metodi di valutazione più completi e centrati sull'utente

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo approccio sistematico che affronta il problema delle allucinazioni dalla prospettiva della qualità dei prompt
Progettazione Razionale: La strategia di elaborazione multi-stadio è mirata a diversi tipi di errori, precisa ed efficace
Alta Praticità: La progettazione leggera la rende fattibile in ambienti con risorse limitate
Sperimentazione Completa: Valutazione completa su molteplici dataset e modelli
Buona Compatibilità: Può essere combinata con metodi esistenti per ulteriori miglioramenti

Insufficienze

Limitazioni di Dominio: Le prestazioni in domini professionali rimangono da verificare
Limitazioni Linguistiche: Principalmente focalizzato sull'inglese, il supporto multilingue non è chiaro
Valutazione della Complessità: Sebbene dichiarato leggero, l'elaborazione multi-stadio comporta comunque una certa complessità
Effetti a Lungo Termine: Non valutati in dialoghi lunghi o compiti complessi

Impatto

Valore Accademico: Fornisce una nuova direzione di ricerca per la mitigazione delle allucinazioni
Valore Pratico: Fornisce una soluzione di ottimizzazione fattibile per il deployment pratico degli LLM
Riproducibilità: La descrizione metodologica è dettagliata, facile da riprodurre e migliorare
Estensibilità: La progettazione del framework ha buon potenziale di estensione

Scenari Applicabili

Ambienti con Risorse Limitate: Dispositivi edge, applicazioni mobili
Sistemi in Tempo Reale: Sistemi interattivi che richiedono risposte rapide
Applicazioni Sensibili alla Qualità: Istruzione, servizio clienti e altri scenari con elevati requisiti di accuratezza
Aggiornamento di Sistemi Esistenti: Integrazione come plugin in sistemi LLM esistenti

Bibliografia

Questo articolo cita 27 importanti riferimenti bibliografici, coprendo i più recenti risultati di ricerca nei campi dei modelli linguistici di grandi dimensioni, rilevamento delle allucinazioni, ingegneria dei prompt e applicazioni di modelli piccoli, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa per affrontare il problema delle allucinazioni negli LLM. Il framework MPR è elegantemente progettato, gli esperimenti sono completi e i risultati sono convincenti. Sebbene presenti alcune limitazioni, la sua progettazione leggera e modulare gli conferisce un elevato valore pratico e potenziale di estensione.