2025-11-23T14:31:17.888154

Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models

Shim, Ju, Park et al.
Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.
academic

Mehrstufige Prompt-Verfeinerung zur Minderung von Halluzinationen in großen Sprachmodellen

Grundlegende Informationen

  • Paper-ID: 2510.12032
  • Titel: Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
  • Autoren: Jung-Woo Shim, Yeong-Joon Ju, Ji-Hoon Park, Seong-Whan Lee
  • Institution: Korea University, Department of Artificial Intelligence
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv)
  • Paper-Link: https://arxiv.org/abs/2510.12032

Zusammenfassung

Große Sprachmodelle zeigen hervorragende Leistungen bei Aufgaben des natürlichen Sprachverständnisses und der Sprachgenerierung, sind aber weiterhin mit dem Halluzinationsproblem konfrontiert – der Generierung von scheinbar plausiblen, aber faktisch fehlerhaften Informationen. Obwohl mehrere Faktoren zu Halluzinationen führen, ist die Auswirkung schlecht formatierter Prompts (mit mehrdeutiger Formulierung, Grammatikfehlern oder unvollständigen Informationen) relativ wenig erforscht. Dieses Paper präsentiert ein mehrstufiges Prompt-Optimierungsframework (MPR), das solche schlecht formatierten Prompts systematisch durch mehrere Stufen verbessert. Jede Stufe nutzt kleine Sprachmodelle, die für spezifische Aufgaben feinabgestimmt wurden, um konkrete Probleme wie Interpunktion, Rechtschreibfehler und Terminologiemissbrauch zu beheben. MPR verbessert iterativ die Prompt-Klarheit und nutzt Selbstreflexionsmechanismen und Ranking, um die relevantesten Eingaben priorisiert auszuwählen. Experimentelle Ergebnisse zeigen, dass durch MPR optimierte Prompts gegenüber ihrer ursprünglichen Form eine Gewinnquote von über 85% erzielen und Halluzinationen wirksam reduzieren sowie die Genauigkeit der LLM-Ausgaben verbessern.

Forschungshintergrund und Motivation

Problembeschreibung

Obwohl große Sprachmodelle in vielen NLP-Aufgaben hervorragende Leistungen zeigen, sehen sie sich einer kritischen Herausforderung gegenüber: dem Halluzinationsproblem – der Generierung von scheinbar plausiblen, aber faktisch fehlerhaften Informationen. Dies ist besonders in kritischen Bereichen wie Medizin und Bildung gefährlich, wo die genaue Informationsvermittlung entscheidend ist.

Einschränkungen bestehender Methoden

Aktuelle Methoden zur Minderung von Halluzinationen konzentrieren sich hauptsächlich auf:

  1. Modellarchitektur-Anpassungen: Änderung der internen LLM-Mechanismen, aber mit hohen Rechenkosten
  2. Nachbearbeitungstechniken: Validierung von Inhalten nach der Generierung, was die Systemkomplexität und Latenz erhöht
  3. Verstärkungslernfeinabstimmung: Erfordert erhebliche Rechenressourcen und ist schwer in Echtzeit anwendbar

Diese Methoden übersehen oft einen wichtigen Faktor: die Qualität der Benutzerprompts. Schlecht formatierte Prompts führen direkt zu ungenauen Ausgaben, aber bestehende Lösungen verlassen sich häufig auf große Modelle oder rechenintensive Techniken.

Forschungsmotivation

Dieses Paper argumentiert, dass durch systematische Optimierung der Eingabe-Prompt-Qualität Halluzinationsprobleme an der Quelle reduziert werden können. Im Vergleich zu Modellarchitektur-Änderungen oder Nachbearbeitung von Ausgaben ist Prompt-Optimierung eine leichtgewichtigere und skalierbarer Lösungsansatz.

Kernbeiträge

  1. MPR-Framework vorgestellt: Das erste systematische mehrstufige Optimierungsframework, das das Problem von schlecht formatierten Prompts, die Halluzinationen verursachen, adressiert
  2. Leichtgewichtiges Design: Verwendung kleiner Sprachmodelle (SLMs) statt großer Modelle, was die Rechenkosten erheblich senkt
  3. Modellunabhängigkeit: Nahtlose Integration mit jeder LLM-Architektur mit hoher Adaptivität
  4. Umfassende Bewertung: Validierung der Wirksamkeit auf mehreren Datensätzen mit Gewinnquoten über 85%
  5. Kompatibilitätsverifikation: Nachweis der Kombinierbarkeit mit bestehenden Halluzinations-Minderungsmethoden zur weiteren Leistungssteigerung

Methodische Details

Aufgabendefinition

Eingabe: Schlecht formatierte Benutzerprompts (mit Interpunktionsfehlern, Rechtschreibfehlern, Grammatikproblemen, Terminologiemissbrauch usw.) Ausgabe: Mehrstufig optimierte hochwertige Prompts Ziel: Reduzierung von Halluzinationen in LLM-generierten Inhalten und Verbesserung der Ausgabegenauigkeit und Relevanz

Modellarchitektur

Das MPR-Framework besteht aus drei Hauptstufen:

Stufe 1: Fehlererkennung und Klassifizierung

Verwendung speziell feinabgestimmter SLMs zur Identifizierung von Fehlertypen in Prompts, klassifiziert als:

  • Stufe-1-Fehler: Grundlegende Interpunktions- und Großschreibungsfehler
  • Stufe-2-Fehler: Rechtschreib- und Grammatikfehler
  • Stufe-3-Fehler: Semantische Mehrdeutigkeit und Terminologiemissbrauch

Stufe 2: Mehrstufige Prompt-Bereinigung

Je nach Fehlertyp werden entsprechende spezialisierte SLMs zur Korrektur eingesetzt:

Stufe 1: Interpunktionskorrektur

Eingabe: "what is the caPital of fRAnce?"
Ausgabe: "What is the capital of France?"

Stufe 2: Rechtschreib- und Grammatikkorrektur

Eingabe: "See from spaiin moroco?"
Ausgabe: "Can you see Spain from Morocco?"

Stufe 3: Semantische Ausrichtung und Umformulierung

Eingabe: "Tell me about transformers"
Ausgabe: "Can you explain how Transformer-based neural networks work?"

Stufe 3: Iterative Beschreibungsgenerierung

  • Beschreibungsgenerierung: Kontextinformationen für mehrdeutige Begriffe hinzufügen
  • Selbstreflexions-Validierung: Bewertung der Angemessenheit und Prägnanz von Beschreibungen
  • Perplexitäts-Ranking: Auswahl der kohärentesten und relevantesten Beschreibungen
  • Intelligente Integration: Beschreibungen nur bei Bedarf hinzufügen, um Effizienz zu verbessern

Technische Innovationen

  1. Mehrstufige Verarbeitungsstrategie: Verschiedene Fehlertypen erfordern unterschiedliche Behandlungsmethoden; mehrstufige Verarbeitung ist präziser und effektiver
  2. Spezialisierung kleiner Modelle: Jedes SLM wird für spezifische Aufgaben feinabgestimmt, um Qualität bei Effizienz zu gewährleisten
  3. QLoRA-Feinabstimmungstechnik: Verwendung von 4-Bit-Quantisierung und Low-Rank-Adaption zur Reduzierung des Speicherbedarfs bei Leistungserhaltung
  4. Adaptive Beschreibungsgenerierung: Dynamische Beschreibungsgenerierung nach Bedarf zur Vermeidung unnötiger Rechenkosten

Experimentelle Einrichtung

Datensätze

Trainingsdaten-Konstruktion:

  • OLM Wikipedia-Datensatz: 10.000 grammatikalisch perfekte Einträge für Interpunktions- und Grammatikoptimierung
  • CoEdIT-Datensatz: Fokus auf Flüssigkeit, Kohärenz und Stil mit nicht-semantischen Änderungsbearbeitungen
  • MQR-Datensatz: 2.114 Umformulierungspaare für semantisch äquivalente Transformationstraining
  • Magpie-Datensatz: 300.000 Schlüsselwort-Beschreibungspaare für Terminologieerklärungsgenerierung

Evaluierungsdatensätze:

  • Well-formed Query-Datensatz: 8.000 Benutzerabfragen mit Formatqualitätsbewertung unter 0,5
  • GSM8K: Mathematik-Problem-Datensatz
  • SQuAD: Leseverständnis-Datensatz
  • Natural Questions: Natürliche Fragen-Datensatz

Beschädigungsstrategie: Zur umfassenden Testung des Frameworks wurden künstlich drei Fehlerebenen eingeführt:

  • Stufe 1: Grundlegende Interpunktionsfehler
  • Stufe 2: Rechtschreib- und Grammatikfehler
  • Stufe 3: Technische Terminologie- und Abkürzungsfehler

Bewertungsmetriken

  • Halluzinations-Index (HI): Quantifizierung der faktischen Genauigkeit generierter Inhalte (0-1, niedriger ist besser)
  • Content Quality Score (CQS): Messung von Relevanz, Kohärenz und Gesamtqualität (0-1, höher ist besser)
  • Gewinnquote (WR): Prozentsatz der Leistungsvorteile von MPR-optimierten Prompts gegenüber ursprünglichen Prompts
  • Verarbeitungszeit (T): Bewertung der Framework-Verarbeitungseffizienz

Vergleichsmethoden

  • SelfCheckGPT: Ressourcenfreie Black-Box-Halluzinations-Erkennungsmethode
  • CoVE: Verifikationsketten-Methode
  • DRESS: Ausrichtungsmethode basierend auf natürlichsprachlichem Feedback
  • MixAlign: Wissensausrichtungsmethode

Implementierungsdetails

  • Hardware: Training mit NVIDIA RTX A6000 GPU, Inferenz mit NVIDIA TITAN V GPU
  • Feinabstimmungsmethode: QLoRA (4-Bit-Quantisierung und Low-Rank-Adaption)
  • Evaluator: GPT-3.5-turbo API als primärer Bewertungsstandard

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf dem Well-formed Query-Datensatz:

ModellBeschädigungsebeneHI ↓CQS ↑WR ↑
Baseline-0,810,52-
LLaMA-2 (7B)Stufe 10,26 (-0,55)0,80 (+0,28)91%
LLaMA-2 (7B)Stufe 30,48 (-0,33)0,60 (+0,08)86%
Durchschnittliche Leistung-0,37 (-0,44)0,68 (+0,16)86%

Wichtigste Erkenntnisse

  1. Konsistente Verbesserungen: MPR zeigt signifikante Verbesserungen über alle getesteten Modelle und Datensätze hinweg
  2. Beschädigungsebenen-Korrelation: Je höher der Beschädigungsgrad, desto deutlicher die Verbesserungen durch MPR
  3. Modellgrößen-Effekt: Größere Modelle (wie LLaMA-3.2) profitieren mehr vom Beschreibungsgenerierungsschritt von MPR
  4. Domänenübergreifende Wirksamkeit: Wirksam bei verschiedenen Aufgaben wie Mathematik (GSM8K), Leseverständnis (SQuAD) und Frage-Antwort (NQ)

Ablationsstudien

KonfigurationHI ↓CQS ↑WR ↑
Vollständiges MPR0,140,8393%
Ohne Beschreibungsgenerierung0,200,7889%
Ohne mehrstufige Bereinigung0,240,7486%
Ohne iteratives Ranking0,210,7587%

Die Ergebnisse zeigen, dass jede Komponente wichtig zur Gesamtleistung beiträgt, wobei mehrstufige Bereinigung die kritischste Komponente ist.

Vergleich mit bestehenden Methoden

FrameworkHI ↓CQS ↑WR ↑Verarbeitungszeit (ms)
MPR0,180,8191%1215
SelfCheckGPT0,220,7685%1541
SelfCheckGPT + MPR0,140,8594%1478

MPR zeigt nicht nur eigenständig hervorragende Leistungen, sondern erzielt noch bessere Ergebnisse in Kombination mit bestehenden Methoden.

Verwandte Arbeiten

Halluzinations-Minderungsmethoden

Bestehende Methoden lassen sich in drei Kategorien einteilen:

  1. Architektur-Modifikationen: Anpassung interner Modellmechanismen mit hohen Rechenkosten
  2. Nachbearbeitungs-Validierung: Inhaltsvalidierung nach Generierung mit erhöhter Latenz
  3. Verstärkungslernen: Belohnung faktischer Antworten mit hohem Rechenressourcenbedarf

Anwendungen kleiner Sprachmodelle

SLMs können durch Feinabstimmung auf spezifischen Aufgaben hervorragende Leistungen erzielen, besonders geeignet für:

  • Ressourcenbegrenzte Umgebungen
  • Echtzeitanwendungen
  • Aufgaben in spezifischen Domänen

Prompt-Optimierungstechniken

Traditionelle Methoden umfassen:

  • LLM-basierte Prompt-Umformulierung (hohe Rechenkosten)
  • Verstärkungslern-iterative Verbesserung
  • Manuelle Optimierung durch Menschen

MPR erreicht leichtgewichtige Prompt-Optimierung durch die Verwendung kleiner Modelle.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wirksamkeitsvalidierung: MPR zeigt hervorragende Leistungen bei der Reduzierung von Halluzinationen und Verbesserung der Ausgabequalität
  2. Leichtgewichtiges Design: Signifikante Reduzierung der Rechenkosten im Vergleich zu bestehenden Methoden
  3. Breite Anwendbarkeit: Kombinierbar mit verschiedenen LLM-Architekturen und bestehenden Minderungsmethoden
  4. Praktischer Wert: Bietet eine skalierbare Lösung für praktische Anwendungen

Einschränkungen

  1. Domänenspezifität: Möglicherweise schlechtere Leistung in spezialisierten Bereichen wie Recht und Medizin
  2. Einschränkungen der Bewertungsmetriken: Bestehende Metriken erfassen möglicherweise nicht vollständig Nutzerzufriedenheit und Flüssigkeit
  3. Automatisierungsgrad: Obwohl vollautomatisiert, könnte ein Mensch-in-der-Schleife-System von Vorteil sein

Zukünftige Richtungen

  1. Domänen-Spezialisierung: Entwicklung feinabgestimmter Strategien für spezifische Domänen
  2. Multimodale Erweiterung: Erweiterung des Frameworks auf multimodale Umgebungen wie Bild-Text
  3. Mensch-Maschine-Zusammenarbeit: Integration von Mechanismen für menschliches Feedback
  4. Bewertungssystem: Entwicklung umfassenderer benutzerzentrischer Bewertungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmals systematische Adressierung des Halluzinationsproblems aus der Perspektive der Prompt-Qualität
  2. Durchdachtes Design: Mehrstufige Verarbeitungsstrategie adressiert verschiedene Fehlertypen präzise und effektiv
  3. Hoher praktischer Wert: Leichtgewichtiges Design macht es in ressourcenbegrenzten Umgebungen praktikabel
  4. Umfassende Experimente: Vollständige Bewertung über mehrere Datensätze und Modelle
  5. Gute Kompatibilität: Kombinierbar mit bestehenden Methoden zur weiteren Leistungssteigerung

Schwächen

  1. Domänenlimitierungen: Leistung in spezialisierten Bereichen bedarf weiterer Validierung
  2. Sprachbeschränkungen: Hauptsächlich auf Englisch ausgerichtet, mehrsprachige Unterstützung unklar
  3. Komplexitätsbewertung: Trotz Leichtgewichtsanspruch hat mehrstufige Verarbeitung gewisse Komplexität
  4. Langzeiteffekte: Leistung in längeren Dialogen oder komplexen Aufgaben nicht bewertet

Einflussfähigkeit

  1. Akademischer Wert: Bietet neue Forschungsrichtung für Halluzinations-Minderung
  2. Praktischer Wert: Bietet praktikable Optimierungslösung für LLM-Bereitstellung
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung ermöglicht einfache Reproduktion und Verbesserung
  4. Erweiterbarkeit: Framework-Design zeigt gutes Erweiterungspotenzial

Anwendungsszenarien

  • Ressourcenbegrenzte Umgebungen: Edge-Geräte, mobile Anwendungen
  • Echtzeitsysteme: Interaktive Systeme, die schnelle Reaktionen erfordern
  • Qualitätssensitive Anwendungen: Bildung, Kundenservice und andere Szenarien mit hohen Genauigkeitsanforderungen
  • Upgrades bestehender Systeme: Integration als Plugin in bestehende LLM-Systeme

Literaturverzeichnis

Dieses Paper zitiert 27 wichtige Referenzen, die aktuelle Forschungsergebnisse in verwandten Bereichen wie großen Sprachmodellen, Halluzinations-Erkennung, Prompt-Engineering und Anwendungen kleiner Modelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das Halluzinationsproblem in LLMs präsentiert. Das MPR-Framework ist sorgfältig gestaltet, die Experimente sind umfassend und die Ergebnisse überzeugend. Obwohl es einige Einschränkungen gibt, machen sein leichtgewichtiges und modulares Design es zu einer Lösung mit hohem praktischen Wert und großem Erweiterungspotenzial.