2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.

Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.

academic

Generierungsraumgröße: Verständnis und Kalibrierung der Offenheit von LLM-Generierungen

Grundinformationen

Paper-ID: 2510.12699
Titel: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Autoren: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
Klassifizierung: cs.CL, cs.AI
Veröffentlichungsstatus: Zur Überprüfung eingereicht
Paper-Link: https://arxiv.org/abs/2510.12699

Zusammenfassung

Verschiedene offene Generierungsaufgaben erfordern unterschiedliche Grade an Ausgabenvielfalt. Allerdings sind aktuelle große Sprachmodelle (LLMs) oft schlecht kalibriert: Sie produzieren zu homogene Ausgaben bei kreativen Aufgaben und vielfältige, aber falsche Halluzinationsantworten bei faktischen Aufgaben. Dieser Artikel schlägt vor, dass diese beiden Ausfallmodi durch das Konzept der „effektiven Generierungsraumgröße" (GSS) – der Menge semantisch unterschiedlicher Ausgaben, die das Modell für einen gegebenen Prompt berücksichtigt – einheitlich verstanden und gelöst werden können. Die Autoren stellen das GSSBench-Evaluierungsframework vor, das Prompt-Paare mit echten GSS-Beziehungen enthält, um verschiedene Metriken zu bewerten und zu verstehen, wo Modelle von erwartetem Verhalten abweichen. Die Forschung zeigt, dass Halluzinationserkennungsmetriken – insbesondere EigenScore – unter Verwendung nur interner Modellinformationen durchgehend besser abschneiden als Standard-Diversitäts- und Unsicherheitsquantifizierungsmetriken und interpretierbare Einblicke in die interne Aufgabendarstellung des Modells bieten.

Forschungshintergrund und Motivation

Kernprobleme

Aktuelle LLMs weisen zwei Hauptausfallmodi bei der Generierung auf:

Ausgabehomogenisierung bei kreativen Aufgaben: Bei Aufgaben, die Vielfalt erfordern (wie Brainstorming, kreatives Schreiben), produziert das Modell zu ähnliche Ausgaben
Halluzinationsprobleme bei faktischen Aufgaben: Bei Aufgaben, die Genauigkeit erfordern (wie Frage-Antwort), generiert das Modell vielfältige, aber falsche Antworten

Forschungsmotivation

Traditionelle Ansätze behandeln diese beiden Probleme separat: Entweder wird das Diversitätssignal maximiert oder die Diversität wird eingeschränkt, um die faktische Genauigkeit zu verbessern. Dieser Artikel schlägt eine einheitliche Perspektive vor und argumentiert, dass beide Probleme aus Kalibrierungsfehlern der Generierungsraumgröße (GSS) stammen.

Einschränkungen bestehender Methoden

Mangel an einheitlichem theoretischem Rahmen zum Verständnis verschiedener Arten von Generierungsausfällen
Die meisten bestehenden Diversitätsmetriken sind retrospektiv und können nicht direkt auf die internen Darstellungen des Modells zugreifen
Mangel an systematischem Evaluierungsframework zur Quantifizierung der GSS-Kalibrierungsfähigkeit des Modells

Kernbeiträge

Theoretischer Beitrag: Vorschlag von Generierungsraumgröße (GSS) als einheitlicher Rahmen, der Ausgabehomogenisierung und Halluzinationsprobleme als zwei Aspekte von GSS-Kalibrierungsfehlern betrachtet
Evaluierungsframework: Konstruktion von GSSBench, einer Evaluierungssuite mit 9.300 Prompt-Paaren zur Messung von GSS und seinen Kalibrierungsfehlern
Methodenfunde: Nachweis, dass Halluzinationserkennungsmetriken wie EigenScore bei der GSS-Schätzung traditionelle Diversitäts- und Unsicherheitsquantifizierungsmetriken übertreffen
Praktische Anwendung: Demonstration des Wertes von GSS in drei wichtigen Anwendungen: Prompt-Mehrdeutigkeitserkennung, Analyse von Reasoning-Modellen und Diversitätsoptimierung

Methodische Details

Aufgabendefinition

Für jeden Prompt p existiert ein echter Generierungsraum Gt(p): die semantische Verteilung aller möglichen korrekten Ausgaben. Das Modell m hat auch einen Generierungsraum Gm(p): den Ausgaberaum, den das Modell für einen gegebenen Prompt „berücksichtigt". Der GSS-Kalibrierungsfehler ist definiert als:

|Gm(p)| = |Gt(p)| + εm(p)

wobei εm(p) der Fehler zwischen der Modell-GSS und der erwarteten GSS ist.

GSSBench-Evaluierungsframework

Datensatzkonstruktion

Konstruktion von sechs Datensätzen basierend auf mengentheoretischen Operationen, insgesamt 9.300 Prompt-Paare:

Complement: Basis-Prompt vs. Komplement-Prompt (z.B. „Schreibe ein Gedicht über den Mond" vs. „Schreibe etwas, das nicht über den Mond handelt")
FactualQA: Spezifische Fragen vs. allgemeine Fragen (z.B. „Flüsse in Brasilien" vs. „Flüsse")
Random Choice: Multiple-Choice-Fragen mit unterschiedlicher Anzahl von Optionen
Subset: Teilmengenbeziehungen durch Hinzufügen von Einschränkungen erstellen
Union: Generierungsraum durch „oder"-Verbindung erweitern
Intersection: Generierungsraum durch „und"-Verbindung verkleinern

Evaluierungsmetriken

Verwendung von Paargenauigkeit zur Bewertung der Vorhersagefähigkeit der Metrik f für GSS-Rangfolgen:

Für Prompt-Paare (x,y), wobei |Gt(x)| > |Gt(y)|
Punktzahl von 1, wenn f(x) > f(y), sonst 0

Analyse von Kandidatenmetriken

Bewertung mehrerer Metriken als Proxys für GSS:

Traditionelle Metriken: Perplexität, Energie, längennormalisierte Entropie, Wortschatzähnlichkeit
Halluzinationserkennungsmetriken: EigenScore und seine Varianten, semantische Entropie
EigenScore-Varianten:
- Eoriginal: Originalversion
- Eaverage: Durchschnitt über Schichten und Token
- Eoutput: Verwendung eines externen Satzeinbettungsmodells

Experimentelle Einrichtung

Modellauswahl

Getestete fünf anweisungsoptimierte Modelle:

Llama-8B-Instruct
Mistral-7B-v0.3
Qwen3-Serie (0,6B, 4B, 8B)

Hyperparameter-Einstellungen

Temperatur: 1,0
Anzahl der Stichproben: 10
Top-k: 10
Optimale Parameter basierend auf Ablationsstudien bestimmt

Experimentelle Ergebnisse

Hauptfunde

EigenScore-Varianten zeigen beste Leistung

Eoutput und Eaverage erreichen höchste Genauigkeit auf allen Modellen
Eoutput erreicht 71,7% Genauigkeit auf Llama-8B-Instruct
Eaverage erreicht 72,4% Genauigkeit auf demselben Modell
Deutlich besser als traditionelle Metriken wie Perplexität (60,0%) und Wortschatzähnlichkeit (66,5%)

Modellkalibrierungsanalyse

Llama-8B-Instruct zeigt beste Kalibrierung bei den meisten Metriken
Qwen3-0,6B zeigt beste Leistung bei Eoutput und semantischer Entropie
Skaleneffekt: Größere Modelle sind nicht unbedingt besser kalibriert; Qwen3-0,6B übertrifft Qwen3-8B bei allen Metriken

Verteilungsanalyse

EigenScore-Varianten zeigen deutliche bimodale Verteilung und können Prompts mit unterschiedlicher GSS effektiv unterscheiden, während andere Metriken überlappendere Verteilungen aufweisen.

Ablationsstudien

Parameterempfindlichkeitsanalyse

Top-k: Variationen haben geringen Einfluss auf die Leistung
Anzahl der Stichproben: Stabile Verbesserung von 0 bis 20, danach begrenzte Verbesserung
Temperatur: EigenScore zeigt beste Leistung bei Temperatur 1,0 (unterschiedlich von 0,5 bei Halluzinationserkennung)

EigenScore-Implementierungsdetails

Durchschnitt über Schichten ist besser als Verwendung einer einzelnen Schicht
Durchschnitt aller Token ist besser als nur das letzte Token

Praktische Anwendungen

1. Prompt-Mehrdeutigkeitserkennung und Klärungsfragevorhersage

Experiment 1: Mehrdeutigkeitserkennung auf RIFTS-Datensatz

Auf dem RIFTS-Datensatz mit 1.740 Prompts:

Nur Eoutput und Eaverage können mehrdeutige und nicht mehrdeutige Prompts korrekt unterscheiden
Eoutput kann auf allen Testmodellen zwei Klassen signifikant unterscheiden

Experiment 2: Klärungsfragevorhersage

Eoutput und Eaverage sind die einzigen Metriken, die auf allen Modellen signifikant vorhersagen können, ob das Modell Klärungsfragen stellen wird
Bietet interpretierbare Einblicke, wann das Modell Klärung sucht

2. Analyse von Reasoning-Modellen

Messung der Anzahl von Lösungspfaden

Auf 1.000 logischen Problemen:

Konstruktion von Einfach-Pfad- vs. Mehrfach-Pfad-Prompt-Paaren
Eoutput erreicht höchste Genauigkeit auf allen Reasoning-Modellen (73% auf Qwen3-4B und 8B)

Vorhersage der Reasoning-Token-Länge

GSS zeigt mittlere bis starke positive Korrelation mit Reasoning-Token-Länge
Bei deduktiven Reasoning-Aufgaben zeigt Eoriginal stärkste Korrelation mit Reasoning-Länge
Bietet neue Perspektive zum Verständnis von „Überdenken" und „Unterdenken" in Reasoning-Modellen

3. Diversitätsoptimierung: Leave-One-Out EigenScore (LOOE)

LOOE-Metrik-Design

Vorschlag einer neuen Antwort-Level-Diversitätsmetrik:

LOOEi = Eglobal - Ei

wobei Ei das neu berechnete EigenScore nach Entfernung der Antwort i ist.

DivPO-Experimentiergebnisse

LOOE zeigt vergleichbare Leistung mit anderen Diversitätsmetriken bei Diversität und Belohnung
Im Vergleich zu traditionellen Metriken hat LOOE drei einzigartige Vorteile:
1. Verwendung interner Modellinformationen
2. Semantische Sensibilität
3. Antwort-Level-Bewertung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einheitlicher Rahmen: GSS bietet eine einheitliche Perspektive zum Verständnis verschiedener Arten von LLM-Generierungsausfällen
Metrik-Funde: EigenScore als GSS-Proxy-Metrik zeigt beste Leistung und übertrifft traditionelle Diversitäts- und Unsicherheitsmetriken
Breite Anwendbarkeit: Das GSS-Konzept hat Wert in mehreren Bereichen wie Mehrdeutigkeitserkennung, Reasoning-Analyse und Diversitätsoptimierung

Einschränkungen

Inhaltsunabhängigkeit: GSS ist nicht empfindlich gegenüber der Qualität generierter Inhalte
Evaluierungsannahmen: Annahme, dass Modell-GSS der echten GSS nahe kommt, aber diese Annahme trifft möglicherweise nicht immer zu
Rechenkomplexität: Einige Metriken (wie EigenScore) haben höhere Rechenkosten

Zukünftige Richtungen

GSS-bewusstes Training: Entwicklung von Trainingsmethoden, die GSS dynamisch anpassen können
Bessere Proxy-Metriken: Suche nach genaueren und effizienteren GSS-Schätzmethoden
Inhaltssensitive Erweiterung: Kombination von GSS mit Inhaltsqualitätsbewertung

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Vorschlag des GSS-Konzepts als einheitliches Verständnis scheinbar unterschiedlicher Generierungsprobleme mit wichtigem theoretischem Wert
Systematische Bewertung: GSSBench bietet umfassendes Evaluierungsframework und füllt eine Lücke in diesem Bereich
Starke Praktikabilität: Drei Anwendungsfälle demonstrieren praktischen Wert des GSS-Konzepts
Strenge Methodologie: Konstruktion von Ground-Truth-Beziehungen durch mengentheoretische Operationen vermeidet subjektive Urteile
Wichtige Funde: Entdeckung von EigenScore als GSS-Proxy bietet neues Werkzeug für das Feld

Mängel

Skalierungsbeschränkungen: Hauptsächlich auf kleineren Modellen getestet; Leistung bei großen Modellen könnte unterschiedlich sein
Aufgabenabdeckung: Obwohl mehrere Aufgabentypen abgedeckt, könnte umfassender sein
Theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum EigenScore am besten abschneidet
Recheneffizienz: Rechenkosten einiger Metriken könnten praktische Anwendung einschränken

Auswirkungen

Akademischer Beitrag: Bietet neuen theoretischen Rahmen und Werkzeuge für LLM-Generierungsqualitätsbewertung
Praktischer Wert: Bietet Orientierung zur Verbesserung der LLM-Leistung bei verschiedenen Aufgabentypen
Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtung und Datensatzkonstruktionsmethoden

Anwendungsszenarien

Modellbewertung: Bewertung des Kalibrierungsgrades von LLMs bei verschiedenen Aufgabentypen
Modelltraining: Anleitung zur Entwicklung GSS-bewusster Trainingsmethoden
Anwendungssysteme: Optimierung der Diversitätskontrolle in Dialogsystemen, Inhaltsgenerierung usw.

Referenzen

Dieser Artikel zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

Unsicherheitsquantifizierung: Kuhn et al. (2023), Farquhar et al. (2024)
Diversitätsmessung: Kirk et al. (2024), Li et al. (2024)
Halluzinationserkennung: Chen et al. (2024), Nikitin et al. (2024)
Modellkalibrierung: Huang et al. (2024), Vashurin et al. (2025)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen innovativen theoretischen Rahmen zur einheitlichen Interpretation verschiedener LLM-Generierungsprobleme vorschlägt. Das GSSBench-Evaluierungsframework und die Entdeckung von EigenScore als GSS-Proxy-Metrik haben wichtigen akademischen und praktischen Wert. Trotz einiger Einschränkungen sind die Beiträge bedeutsam genug, um wertvolle Werkzeuge und Einblicke für die Entwicklung des Feldes bereitzustellen.