2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.
Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.
academic

Raffinamento Multi-stadio dei Prompt per Mitigare le Allucinazioni nei Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2510.12032
  • Titolo: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
  • Autori: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
  • Istituzione: Korea University, Department of Artificial Intelligence
  • Classificazione: cs.CL cs.AI cs.LG
  • Data di Pubblicazione: 14 ottobre 2025 (arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.12032

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano eccellenza nei compiti di comprensione e generazione del linguaggio naturale, ma affrontano ancora il problema delle allucinazioni, ovvero la generazione di informazioni apparentemente plausibili ma effettivamente errate. Sebbene molteplici fattori causino allucinazioni, l'impatto dei prompt mal formattati (contenenti formulazioni ambigue, errori grammaticali o informazioni incomplete) rimane relativamente inesplorato. Questo articolo propone il framework di ottimizzazione multi-stadio dei prompt (MPR), che migliora sistematicamente questi prompt mal formattati attraverso molteplici stadi. Ogni stadio utilizza piccoli modelli linguistici (SLM) microadattati per compiti specifici, affrontando problemi concreti come punteggiatura, errori ortografici e uso errato di terminologia. MPR migliora iterativamente la chiarezza dei prompt e impiega meccanismi di auto-riflessione e ranking per dare priorità agli input più rilevanti. I risultati sperimentali mostrano che i prompt ottimizzati da MPR raggiungono un tasso di vittoria superiore all'85% rispetto alla forma originale, riducendo efficacemente le allucinazioni e migliorando l'accuratezza dell'output degli LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

Sebbene i modelli linguistici di grandi dimensioni eccellano in numerosi compiti di elaborazione del linguaggio naturale, affrontano una sfida critica: il problema delle allucinazioni, ovvero la generazione di informazioni apparentemente plausibili ma effettivamente errate. Ciò è particolarmente pericoloso in settori critici come la medicina e l'istruzione, dove la comunicazione accurata delle informazioni è essenziale.

Limitazioni dei Metodi Esistenti

Gli attuali approcci per mitigare le allucinazioni si concentrano principalmente su:

  1. Adattamenti dell'architettura del modello: Modifica dei meccanismi interni degli LLM, ma con costi computazionali elevati
  2. Tecniche di post-elaborazione: Verifica del contenuto dopo la generazione, aumentando la complessità del sistema e la latenza
  3. Microadattamento con apprendimento per rinforzo: Richiede risorse computazionali significative, difficile da applicare in tempo reale

Questi metodi generalmente trascurano un fattore importante: la qualità del prompt dell'utente. I prompt mal formattati conducono direttamente a output imprecisi, ma le soluzioni esistenti spesso si basano su modelli di grandi dimensioni o tecniche computazionalmente intensive.

Motivazione della Ricerca

Questo articolo sostiene che ottimizzando sistematicamente la qualità dei prompt di input, è possibile ridurre i problemi di allucinazione alla fonte. Rispetto alla modifica dell'architettura del modello o alla post-elaborazione dell'output, l'ottimizzazione dei prompt rappresenta una soluzione più leggera e scalabile.

Contributi Fondamentali

  1. Proposta del Framework MPR: Primo framework di ottimizzazione multi-stadio sistematico che affronta il problema delle allucinazioni causate da prompt mal formattati
  2. Progettazione Leggera: Utilizza piccoli modelli linguistici (SLM) anziché modelli di grandi dimensioni, riducendo significativamente i costi computazionali
  3. Indipendenza dal Modello: Si integra perfettamente con qualsiasi architettura LLM, con elevata adattabilità
  4. Valutazione Completa: Verifica l'efficacia su molteplici dataset, con tassi di vittoria superiori all'85%
  5. Verifica di Compatibilità: Dimostra la possibilità di combinazione con metodi esistenti di mitigazione delle allucinazioni, migliorando ulteriormente le prestazioni

Dettagli Metodologici

Definizione del Compito

Input: Prompt utente mal formattati (contenenti errori di punteggiatura, errori ortografici, problemi grammaticali, uso errato di terminologia, ecc.) Output: Prompt di alta qualità ottimizzati attraverso molteplici stadi Obiettivo: Ridurre le allucinazioni nel contenuto generato dagli LLM, migliorando l'accuratezza e la rilevanza dell'output

Architettura del Modello

Il framework MPR comprende tre stadi principali:

Stadio 1: Rilevamento e Classificazione degli Errori

Utilizza SLM specializzati e microadattati per identificare i tipi di errori nel prompt, classificandoli come:

  • Errori di Stadio 1: Errori di base di punteggiatura e maiuscole
  • Errori di Stadio 2: Errori ortografici e grammaticali
  • Errori di Stadio 3: Ambiguità semantica e uso errato di terminologia

Stadio 2: Pulizia Multi-stadio dei Prompt

In base al tipo di errore, utilizza SLM specializzati corrispondenti per la correzione:

Stadio 1: Correzione della Punteggiatura

Input: "what is the caPital of fRAnce?"
Output: "What is the capital of France?"

Stadio 2: Correzione Ortografica e Grammaticale

Input: "See from spaiin moroco?"
Output: "Can you see Spain from Morocco?"

Stadio 3: Allineamento Semantico e Riscrittura

Input: "Tell me about transformers"
Output: "Can you explain how Transformer-based neural networks work?"

Stadio 3: Generazione Descrittiva Iterativa

  • Generazione di Descrizioni: Aggiunge informazioni di contesto per termini ambigui
  • Verifica di Auto-riflessione: Valuta l'adeguatezza e la concisione delle descrizioni
  • Ranking per Perplessità: Seleziona le descrizioni più coerenti e rilevanti
  • Integrazione Intelligente: Aggiunge descrizioni solo quando necessario, migliorando l'efficienza

Punti di Innovazione Tecnica

  1. Strategia di Elaborazione Multi-stadio: Diversi tipi di errori richiedono metodi di trattamento diversi; l'elaborazione multi-stadio è più precisa ed efficace
  2. Specializzazione di Modelli Piccoli: Ogni SLM è microadattato per compiti specifici, garantendo qualità mantenendo l'efficienza
  3. Tecnica di Microadattamento QLoRA: Utilizza adattamento a basso rango con quantizzazione a 4 bit, riducendo i requisiti di memoria mantenendo le prestazioni
  4. Generazione di Descrizioni Adattiva: Genera dinamicamente descrizioni secondo le necessità, evitando costi computazionali non necessari

Configurazione Sperimentale

Dataset

Costruzione dei Dati di Addestramento:

  • Dataset OLM Wikipedia: 10.000 voci grammaticalmente perfette per l'ottimizzazione di punteggiatura e grammatica
  • Dataset CoEdIT: Focalizzato su modifiche non semantiche di fluidità, coerenza e stile
  • Dataset MQR: 2.114 coppie di riscritture di domande per l'addestramento di trasformazioni semanticamente equivalenti
  • Dataset Magpie: 300.000 coppie termine-descrizione per la generazione di spiegazioni di terminologia

Dataset di Valutazione:

  • Dataset Well-formed Query: 8.000 query utente con punteggio di qualità del formato inferiore a 0,5
  • GSM8K: Dataset di problemi matematici
  • SQuAD: Dataset di comprensione della lettura
  • Natural Questions: Dataset di domande naturali

Strategia di Corruzione: Per testare completamente il framework, vengono introdotti artificialmente errori a tre livelli:

  • Stadio 1: Errori di punteggiatura di base
  • Stadio 2: Errori ortografici e grammaticali
  • Stadio 3: Errori di terminologia tecnica e abbreviazioni

Metriche di Valutazione

  • Indice di Allucinazione (HI): Quantifica l'accuratezza fattuale del contenuto generato (0-1, più basso è meglio)
  • Punteggio di Qualità del Contenuto (CQS): Misura la rilevanza, la coerenza e la qualità complessiva (0-1, più alto è meglio)
  • Tasso di Vittoria (WR): Percentuale di vantaggio di prestazione dei prompt ottimizzati da MPR rispetto ai prompt originali
  • Tempo di Elaborazione (T): Valutazione dell'efficienza del framework

Metodi di Confronto

  • SelfCheckGPT: Metodo di rilevamento delle allucinazioni black-box a risorse zero
  • CoVE: Metodo della catena di verifica
  • DRESS: Metodo di allineamento basato su feedback in linguaggio naturale
  • MixAlign: Metodo di allineamento della conoscenza

Dettagli di Implementazione

  • Hardware: Addestramento su GPU NVIDIA RTX A6000, inferenza su GPU NVIDIA TITAN V
  • Metodo di Microadattamento: QLoRA (adattamento a basso rango con quantizzazione a 4 bit)
  • Valutatore: API GPT-3.5-turbo come standard di valutazione principale

Risultati Sperimentali

Risultati Principali

Prestazioni sul dataset Well-formed Query:

ModelloLivello di CorruzioneHI ↓CQS ↑WR ↑
Baseline-0.810.52-
LLaMA-2 (7B)Stadio 10.26 (-0.55)0.80 (+0.28)91%
LLaMA-2 (7B)Stadio 30.48 (-0.33)0.60 (+0.08)86%
Prestazione Media-0.37 (-0.44)0.68 (+0.16)86%

Scoperte Chiave

  1. Miglioramento Coerente: MPR mostra miglioramenti significativi su tutti i modelli testati e i dataset
  2. Correlazione con il Livello di Corruzione: Maggiore è il livello di corruzione, più evidente è il miglioramento di MPR
  3. Effetto della Dimensione del Modello: I modelli più grandi (come LLaMA-3.2) traggono maggior beneficio dallo stadio di generazione di descrizioni di MPR
  4. Efficacia Transdisciplinare: Efficace in diversi compiti come matematica (GSM8K), comprensione della lettura (SQuAD), domande e risposte (NQ)

Esperimenti di Ablazione

ConfigurazioneHI ↓CQS ↑WR ↑
MPR Completo0.140.8393%
Senza Generazione di Descrizioni0.200.7889%
Senza Pulizia Multi-stadio0.240.7486%
Senza Ranking Iterativo0.210.7587%

I risultati dimostrano che ogni componente contribuisce significativamente alle prestazioni complessive, con la pulizia multi-stadio come componente più critica.

Confronto con Metodi Esistenti

FrameworkHI ↓CQS ↑WR ↑Tempo di Elaborazione (ms)
MPR0.180.8191%1215
SelfCheckGPT0.220.7685%1541
SelfCheckGPT + MPR0.140.8594%1478

MPR non solo mostra prestazioni eccellenti singolarmente, ma raggiunge risultati ancora migliori se combinato con metodi esistenti.

Lavori Correlati

Metodi di Mitigazione delle Allucinazioni

I metodi esistenti si dividono principalmente in tre categorie:

  1. Modifiche dell'Architettura: Adattamento dei meccanismi interni del modello, costi computazionali elevati
  2. Verifica Post-elaborazione: Verifica del contenuto dopo la generazione, aumento della latenza
  3. Apprendimento per Rinforzo: Premiazione di risposte fattuali, richiede risorse computazionali significative

Applicazioni di Piccoli Modelli Linguistici

Gli SLM attraverso il microadattamento per compiti specifici possono raggiungere prestazioni eccellenti, particolarmente adatti per:

  • Ambienti con risorse limitate
  • Applicazioni in tempo reale
  • Compiti specifici del dominio

Tecniche di Ottimizzazione dei Prompt

I metodi tradizionali includono:

  • Riscrittura dei prompt da parte degli LLM (costi computazionali elevati)
  • Miglioramento iterativo con apprendimento per rinforzo
  • Ottimizzazione con intervento umano

MPR ha realizzato l'ottimizzazione leggera dei prompt utilizzando modelli piccoli.

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione dell'Efficacia: MPR dimostra prestazioni eccellenti nella riduzione delle allucinazioni e nel miglioramento della qualità dell'output
  2. Progettazione Leggera: Riduce significativamente i costi computazionali rispetto ai metodi esistenti
  3. Applicabilità Ampia: Può essere combinato con molteplici architetture LLM e metodi di mitigazione esistenti
  4. Valore Pratico: Fornisce una soluzione scalabile per applicazioni pratiche

Limitazioni

  1. Specificità del Dominio: Potrebbe non funzionare bene in domini professionali come il diritto e la medicina
  2. Limitazioni delle Metriche di Valutazione: Le metriche esistenti potrebbero non catturare completamente la soddisfazione dell'utente e la fluidità
  3. Grado di Automazione: Sebbene completamente automatizzato, potrebbe beneficiare di sistemi con intervento umano nel ciclo

Direzioni Future

  1. Specializzazione per Dominio: Sviluppare strategie di microadattamento per domini specifici
  2. Estensione Multimodale: Estendere il framework a ambienti multimodali come immagine-testo
  3. Collaborazione Uomo-Macchina: Integrare meccanismi di feedback umano
  4. Sistema di Valutazione: Sviluppare metodi di valutazione più completi e centrati sull'utente

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo approccio sistematico che affronta il problema delle allucinazioni dalla prospettiva della qualità dei prompt
  2. Progettazione Razionale: La strategia di elaborazione multi-stadio è mirata a diversi tipi di errori, precisa ed efficace
  3. Alta Praticità: La progettazione leggera la rende fattibile in ambienti con risorse limitate
  4. Sperimentazione Completa: Valutazione completa su molteplici dataset e modelli
  5. Buona Compatibilità: Può essere combinata con metodi esistenti per ulteriori miglioramenti

Insufficienze

  1. Limitazioni di Dominio: Le prestazioni in domini professionali rimangono da verificare
  2. Limitazioni Linguistiche: Principalmente focalizzato sull'inglese, il supporto multilingue non è chiaro
  3. Valutazione della Complessità: Sebbene dichiarato leggero, l'elaborazione multi-stadio comporta comunque una certa complessità
  4. Effetti a Lungo Termine: Non valutati in dialoghi lunghi o compiti complessi

Impatto

  1. Valore Accademico: Fornisce una nuova direzione di ricerca per la mitigazione delle allucinazioni
  2. Valore Pratico: Fornisce una soluzione di ottimizzazione fattibile per il deployment pratico degli LLM
  3. Riproducibilità: La descrizione metodologica è dettagliata, facile da riprodurre e migliorare
  4. Estensibilità: La progettazione del framework ha buon potenziale di estensione

Scenari Applicabili

  • Ambienti con Risorse Limitate: Dispositivi edge, applicazioni mobili
  • Sistemi in Tempo Reale: Sistemi interattivi che richiedono risposte rapide
  • Applicazioni Sensibili alla Qualità: Istruzione, servizio clienti e altri scenari con elevati requisiti di accuratezza
  • Aggiornamento di Sistemi Esistenti: Integrazione come plugin in sistemi LLM esistenti

Bibliografia

Questo articolo cita 27 importanti riferimenti bibliografici, coprendo i più recenti risultati di ricerca nei campi dei modelli linguistici di grandi dimensioni, rilevamento delle allucinazioni, ingegneria dei prompt e applicazioni di modelli piccoli, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa per affrontare il problema delle allucinazioni negli LLM. Il framework MPR è elegantemente progettato, gli esperimenti sono completi e i risultati sono convincenti. Sebbene presenti alcune limitazioni, la sua progettazione leggera e modulare gli conferisce un elevato valore pratico e potenziale di estensione.