2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic

Generierungsraumgröße: Verständnis und Kalibrierung der Offenheit von LLM-Generierungen

Grundinformationen

  • Paper-ID: 2510.12699
  • Titel: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
  • Autoren: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
  • Klassifizierung: cs.CL, cs.AI
  • Veröffentlichungsstatus: Zur Überprüfung eingereicht
  • Paper-Link: https://arxiv.org/abs/2510.12699

Zusammenfassung

Verschiedene offene Generierungsaufgaben erfordern unterschiedliche Grade an Ausgabenvielfalt. Allerdings sind aktuelle große Sprachmodelle (LLMs) oft schlecht kalibriert: Sie produzieren zu homogene Ausgaben bei kreativen Aufgaben und vielfältige, aber falsche Halluzinationsantworten bei faktischen Aufgaben. Dieser Artikel schlägt vor, dass diese beiden Ausfallmodi durch das Konzept der „effektiven Generierungsraumgröße" (GSS) – der Menge semantisch unterschiedlicher Ausgaben, die das Modell für einen gegebenen Prompt berücksichtigt – einheitlich verstanden und gelöst werden können. Die Autoren stellen das GSSBench-Evaluierungsframework vor, das Prompt-Paare mit echten GSS-Beziehungen enthält, um verschiedene Metriken zu bewerten und zu verstehen, wo Modelle von erwartetem Verhalten abweichen. Die Forschung zeigt, dass Halluzinationserkennungsmetriken – insbesondere EigenScore – unter Verwendung nur interner Modellinformationen durchgehend besser abschneiden als Standard-Diversitäts- und Unsicherheitsquantifizierungsmetriken und interpretierbare Einblicke in die interne Aufgabendarstellung des Modells bieten.

Forschungshintergrund und Motivation

Kernprobleme

Aktuelle LLMs weisen zwei Hauptausfallmodi bei der Generierung auf:

  1. Ausgabehomogenisierung bei kreativen Aufgaben: Bei Aufgaben, die Vielfalt erfordern (wie Brainstorming, kreatives Schreiben), produziert das Modell zu ähnliche Ausgaben
  2. Halluzinationsprobleme bei faktischen Aufgaben: Bei Aufgaben, die Genauigkeit erfordern (wie Frage-Antwort), generiert das Modell vielfältige, aber falsche Antworten

Forschungsmotivation

Traditionelle Ansätze behandeln diese beiden Probleme separat: Entweder wird das Diversitätssignal maximiert oder die Diversität wird eingeschränkt, um die faktische Genauigkeit zu verbessern. Dieser Artikel schlägt eine einheitliche Perspektive vor und argumentiert, dass beide Probleme aus Kalibrierungsfehlern der Generierungsraumgröße (GSS) stammen.

Einschränkungen bestehender Methoden

  • Mangel an einheitlichem theoretischem Rahmen zum Verständnis verschiedener Arten von Generierungsausfällen
  • Die meisten bestehenden Diversitätsmetriken sind retrospektiv und können nicht direkt auf die internen Darstellungen des Modells zugreifen
  • Mangel an systematischem Evaluierungsframework zur Quantifizierung der GSS-Kalibrierungsfähigkeit des Modells

Kernbeiträge

  1. Theoretischer Beitrag: Vorschlag von Generierungsraumgröße (GSS) als einheitlicher Rahmen, der Ausgabehomogenisierung und Halluzinationsprobleme als zwei Aspekte von GSS-Kalibrierungsfehlern betrachtet
  2. Evaluierungsframework: Konstruktion von GSSBench, einer Evaluierungssuite mit 9.300 Prompt-Paaren zur Messung von GSS und seinen Kalibrierungsfehlern
  3. Methodenfunde: Nachweis, dass Halluzinationserkennungsmetriken wie EigenScore bei der GSS-Schätzung traditionelle Diversitäts- und Unsicherheitsquantifizierungsmetriken übertreffen
  4. Praktische Anwendung: Demonstration des Wertes von GSS in drei wichtigen Anwendungen: Prompt-Mehrdeutigkeitserkennung, Analyse von Reasoning-Modellen und Diversitätsoptimierung

Methodische Details

Aufgabendefinition

Für jeden Prompt p existiert ein echter Generierungsraum Gt(p): die semantische Verteilung aller möglichen korrekten Ausgaben. Das Modell m hat auch einen Generierungsraum Gm(p): den Ausgaberaum, den das Modell für einen gegebenen Prompt „berücksichtigt". Der GSS-Kalibrierungsfehler ist definiert als:

|Gm(p)| = |Gt(p)| + εm(p)

wobei εm(p) der Fehler zwischen der Modell-GSS und der erwarteten GSS ist.

GSSBench-Evaluierungsframework

Datensatzkonstruktion

Konstruktion von sechs Datensätzen basierend auf mengentheoretischen Operationen, insgesamt 9.300 Prompt-Paare:

  1. Complement: Basis-Prompt vs. Komplement-Prompt (z.B. „Schreibe ein Gedicht über den Mond" vs. „Schreibe etwas, das nicht über den Mond handelt")
  2. FactualQA: Spezifische Fragen vs. allgemeine Fragen (z.B. „Flüsse in Brasilien" vs. „Flüsse")
  3. Random Choice: Multiple-Choice-Fragen mit unterschiedlicher Anzahl von Optionen
  4. Subset: Teilmengenbeziehungen durch Hinzufügen von Einschränkungen erstellen
  5. Union: Generierungsraum durch „oder"-Verbindung erweitern
  6. Intersection: Generierungsraum durch „und"-Verbindung verkleinern

Evaluierungsmetriken

Verwendung von Paargenauigkeit zur Bewertung der Vorhersagefähigkeit der Metrik f für GSS-Rangfolgen:

  • Für Prompt-Paare (x,y), wobei |Gt(x)| > |Gt(y)|
  • Punktzahl von 1, wenn f(x) > f(y), sonst 0

Analyse von Kandidatenmetriken

Bewertung mehrerer Metriken als Proxys für GSS:

  • Traditionelle Metriken: Perplexität, Energie, längennormalisierte Entropie, Wortschatzähnlichkeit
  • Halluzinationserkennungsmetriken: EigenScore und seine Varianten, semantische Entropie
  • EigenScore-Varianten:
    • Eoriginal: Originalversion
    • Eaverage: Durchschnitt über Schichten und Token
    • Eoutput: Verwendung eines externen Satzeinbettungsmodells

Experimentelle Einrichtung

Modellauswahl

Getestete fünf anweisungsoptimierte Modelle:

  • Llama-8B-Instruct
  • Mistral-7B-v0.3
  • Qwen3-Serie (0,6B, 4B, 8B)

Hyperparameter-Einstellungen

  • Temperatur: 1,0
  • Anzahl der Stichproben: 10
  • Top-k: 10
  • Optimale Parameter basierend auf Ablationsstudien bestimmt

Experimentelle Ergebnisse

Hauptfunde

EigenScore-Varianten zeigen beste Leistung

  • Eoutput und Eaverage erreichen höchste Genauigkeit auf allen Modellen
  • Eoutput erreicht 71,7% Genauigkeit auf Llama-8B-Instruct
  • Eaverage erreicht 72,4% Genauigkeit auf demselben Modell
  • Deutlich besser als traditionelle Metriken wie Perplexität (60,0%) und Wortschatzähnlichkeit (66,5%)

Modellkalibrierungsanalyse

  • Llama-8B-Instruct zeigt beste Kalibrierung bei den meisten Metriken
  • Qwen3-0,6B zeigt beste Leistung bei Eoutput und semantischer Entropie
  • Skaleneffekt: Größere Modelle sind nicht unbedingt besser kalibriert; Qwen3-0,6B übertrifft Qwen3-8B bei allen Metriken

Verteilungsanalyse

EigenScore-Varianten zeigen deutliche bimodale Verteilung und können Prompts mit unterschiedlicher GSS effektiv unterscheiden, während andere Metriken überlappendere Verteilungen aufweisen.

Ablationsstudien

Parameterempfindlichkeitsanalyse

  • Top-k: Variationen haben geringen Einfluss auf die Leistung
  • Anzahl der Stichproben: Stabile Verbesserung von 0 bis 20, danach begrenzte Verbesserung
  • Temperatur: EigenScore zeigt beste Leistung bei Temperatur 1,0 (unterschiedlich von 0,5 bei Halluzinationserkennung)

EigenScore-Implementierungsdetails

  • Durchschnitt über Schichten ist besser als Verwendung einer einzelnen Schicht
  • Durchschnitt aller Token ist besser als nur das letzte Token

Praktische Anwendungen

1. Prompt-Mehrdeutigkeitserkennung und Klärungsfragevorhersage

Experiment 1: Mehrdeutigkeitserkennung auf RIFTS-Datensatz

Auf dem RIFTS-Datensatz mit 1.740 Prompts:

  • Nur Eoutput und Eaverage können mehrdeutige und nicht mehrdeutige Prompts korrekt unterscheiden
  • Eoutput kann auf allen Testmodellen zwei Klassen signifikant unterscheiden

Experiment 2: Klärungsfragevorhersage

  • Eoutput und Eaverage sind die einzigen Metriken, die auf allen Modellen signifikant vorhersagen können, ob das Modell Klärungsfragen stellen wird
  • Bietet interpretierbare Einblicke, wann das Modell Klärung sucht

2. Analyse von Reasoning-Modellen

Messung der Anzahl von Lösungspfaden

Auf 1.000 logischen Problemen:

  • Konstruktion von Einfach-Pfad- vs. Mehrfach-Pfad-Prompt-Paaren
  • Eoutput erreicht höchste Genauigkeit auf allen Reasoning-Modellen (73% auf Qwen3-4B und 8B)

Vorhersage der Reasoning-Token-Länge

  • GSS zeigt mittlere bis starke positive Korrelation mit Reasoning-Token-Länge
  • Bei deduktiven Reasoning-Aufgaben zeigt Eoriginal stärkste Korrelation mit Reasoning-Länge
  • Bietet neue Perspektive zum Verständnis von „Überdenken" und „Unterdenken" in Reasoning-Modellen

3. Diversitätsoptimierung: Leave-One-Out EigenScore (LOOE)

LOOE-Metrik-Design

Vorschlag einer neuen Antwort-Level-Diversitätsmetrik:

LOOEi = Eglobal - Ei

wobei Ei das neu berechnete EigenScore nach Entfernung der Antwort i ist.

DivPO-Experimentiergebnisse

  • LOOE zeigt vergleichbare Leistung mit anderen Diversitätsmetriken bei Diversität und Belohnung
  • Im Vergleich zu traditionellen Metriken hat LOOE drei einzigartige Vorteile:
    1. Verwendung interner Modellinformationen
    2. Semantische Sensibilität
    3. Antwort-Level-Bewertung

Verwandte Arbeiten

Unsicherheitsquantifizierung und Modellkalibrierung

Traditionelle Kalibrierung konzentriert sich hauptsächlich auf die Ausrichtung von UQ-Metriken mit der Korrektheit faktischer Probleme. Dieser Artikel erweitert dies auf breitere offene Aufgaben.

Diversitätsmetriken

Bestehende Diversitätsmetriken (wie unique n-gram, self-BLEU usw.) sind hauptsächlich retrospektiv und können nicht auf interne Modelldarstellungen zugreifen. EigenScore bietet eine auf internen Modellen basierende semantische Diversitätsmessung.

Halluzinationserkennung

Methoden wie semantische Entropie, Kernel Language Entropy werden hauptsächlich zur Halluzinationserkennung verwendet. Dieser Artikel demonstriert den breiteren Wert dieser Metriken bei der GSS-Schätzung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Einheitlicher Rahmen: GSS bietet eine einheitliche Perspektive zum Verständnis verschiedener Arten von LLM-Generierungsausfällen
  2. Metrik-Funde: EigenScore als GSS-Proxy-Metrik zeigt beste Leistung und übertrifft traditionelle Diversitäts- und Unsicherheitsmetriken
  3. Breite Anwendbarkeit: Das GSS-Konzept hat Wert in mehreren Bereichen wie Mehrdeutigkeitserkennung, Reasoning-Analyse und Diversitätsoptimierung

Einschränkungen

  1. Inhaltsunabhängigkeit: GSS ist nicht empfindlich gegenüber der Qualität generierter Inhalte
  2. Evaluierungsannahmen: Annahme, dass Modell-GSS der echten GSS nahe kommt, aber diese Annahme trifft möglicherweise nicht immer zu
  3. Rechenkomplexität: Einige Metriken (wie EigenScore) haben höhere Rechenkosten

Zukünftige Richtungen

  1. GSS-bewusstes Training: Entwicklung von Trainingsmethoden, die GSS dynamisch anpassen können
  2. Bessere Proxy-Metriken: Suche nach genaueren und effizienteren GSS-Schätzmethoden
  3. Inhaltssensitive Erweiterung: Kombination von GSS mit Inhaltsqualitätsbewertung

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Vorschlag des GSS-Konzepts als einheitliches Verständnis scheinbar unterschiedlicher Generierungsprobleme mit wichtigem theoretischem Wert
  2. Systematische Bewertung: GSSBench bietet umfassendes Evaluierungsframework und füllt eine Lücke in diesem Bereich
  3. Starke Praktikabilität: Drei Anwendungsfälle demonstrieren praktischen Wert des GSS-Konzepts
  4. Strenge Methodologie: Konstruktion von Ground-Truth-Beziehungen durch mengentheoretische Operationen vermeidet subjektive Urteile
  5. Wichtige Funde: Entdeckung von EigenScore als GSS-Proxy bietet neues Werkzeug für das Feld

Mängel

  1. Skalierungsbeschränkungen: Hauptsächlich auf kleineren Modellen getestet; Leistung bei großen Modellen könnte unterschiedlich sein
  2. Aufgabenabdeckung: Obwohl mehrere Aufgabentypen abgedeckt, könnte umfassender sein
  3. Theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum EigenScore am besten abschneidet
  4. Recheneffizienz: Rechenkosten einiger Metriken könnten praktische Anwendung einschränken

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen theoretischen Rahmen und Werkzeuge für LLM-Generierungsqualitätsbewertung
  2. Praktischer Wert: Bietet Orientierung zur Verbesserung der LLM-Leistung bei verschiedenen Aufgabentypen
  3. Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtung und Datensatzkonstruktionsmethoden

Anwendungsszenarien

  1. Modellbewertung: Bewertung des Kalibrierungsgrades von LLMs bei verschiedenen Aufgabentypen
  2. Modelltraining: Anleitung zur Entwicklung GSS-bewusster Trainingsmethoden
  3. Anwendungssysteme: Optimierung der Diversitätskontrolle in Dialogsystemen, Inhaltsgenerierung usw.

Referenzen

Dieser Artikel zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

  • Unsicherheitsquantifizierung: Kuhn et al. (2023), Farquhar et al. (2024)
  • Diversitätsmessung: Kirk et al. (2024), Li et al. (2024)
  • Halluzinationserkennung: Chen et al. (2024), Nikitin et al. (2024)
  • Modellkalibrierung: Huang et al. (2024), Vashurin et al. (2025)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen innovativen theoretischen Rahmen zur einheitlichen Interpretation verschiedener LLM-Generierungsprobleme vorschlägt. Das GSSBench-Evaluierungsframework und die Entdeckung von EigenScore als GSS-Proxy-Metrik haben wichtigen akademischen und praktischen Wert. Trotz einiger Einschränkungen sind die Beiträge bedeutsam genug, um wertvolle Werkzeuge und Einblicke für die Entwicklung des Feldes bereitzustellen.