Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic
Generierungsraumgröße: Verständnis und Kalibrierung der Offenheit von LLM-Generierungen
Verschiedene offene Generierungsaufgaben erfordern unterschiedliche Grade an Ausgabenvielfalt. Allerdings sind aktuelle große Sprachmodelle (LLMs) oft schlecht kalibriert: Sie produzieren zu homogene Ausgaben bei kreativen Aufgaben und vielfältige, aber falsche Halluzinationsantworten bei faktischen Aufgaben. Dieser Artikel schlägt vor, dass diese beiden Ausfallmodi durch das Konzept der „effektiven Generierungsraumgröße" (GSS) – der Menge semantisch unterschiedlicher Ausgaben, die das Modell für einen gegebenen Prompt berücksichtigt – einheitlich verstanden und gelöst werden können. Die Autoren stellen das GSSBench-Evaluierungsframework vor, das Prompt-Paare mit echten GSS-Beziehungen enthält, um verschiedene Metriken zu bewerten und zu verstehen, wo Modelle von erwartetem Verhalten abweichen. Die Forschung zeigt, dass Halluzinationserkennungsmetriken – insbesondere EigenScore – unter Verwendung nur interner Modellinformationen durchgehend besser abschneiden als Standard-Diversitäts- und Unsicherheitsquantifizierungsmetriken und interpretierbare Einblicke in die interne Aufgabendarstellung des Modells bieten.
Aktuelle LLMs weisen zwei Hauptausfallmodi bei der Generierung auf:
Ausgabehomogenisierung bei kreativen Aufgaben: Bei Aufgaben, die Vielfalt erfordern (wie Brainstorming, kreatives Schreiben), produziert das Modell zu ähnliche Ausgaben
Halluzinationsprobleme bei faktischen Aufgaben: Bei Aufgaben, die Genauigkeit erfordern (wie Frage-Antwort), generiert das Modell vielfältige, aber falsche Antworten
Traditionelle Ansätze behandeln diese beiden Probleme separat: Entweder wird das Diversitätssignal maximiert oder die Diversität wird eingeschränkt, um die faktische Genauigkeit zu verbessern. Dieser Artikel schlägt eine einheitliche Perspektive vor und argumentiert, dass beide Probleme aus Kalibrierungsfehlern der Generierungsraumgröße (GSS) stammen.
Theoretischer Beitrag: Vorschlag von Generierungsraumgröße (GSS) als einheitlicher Rahmen, der Ausgabehomogenisierung und Halluzinationsprobleme als zwei Aspekte von GSS-Kalibrierungsfehlern betrachtet
Evaluierungsframework: Konstruktion von GSSBench, einer Evaluierungssuite mit 9.300 Prompt-Paaren zur Messung von GSS und seinen Kalibrierungsfehlern
Methodenfunde: Nachweis, dass Halluzinationserkennungsmetriken wie EigenScore bei der GSS-Schätzung traditionelle Diversitäts- und Unsicherheitsquantifizierungsmetriken übertreffen
Praktische Anwendung: Demonstration des Wertes von GSS in drei wichtigen Anwendungen: Prompt-Mehrdeutigkeitserkennung, Analyse von Reasoning-Modellen und Diversitätsoptimierung
Für jeden Prompt p existiert ein echter Generierungsraum Gt(p): die semantische Verteilung aller möglichen korrekten Ausgaben. Das Modell m hat auch einen Generierungsraum Gm(p): den Ausgaberaum, den das Modell für einen gegebenen Prompt „berücksichtigt". Der GSS-Kalibrierungsfehler ist definiert als:
|Gm(p)| = |Gt(p)| + εm(p)
wobei εm(p) der Fehler zwischen der Modell-GSS und der erwarteten GSS ist.
EigenScore-Varianten zeigen deutliche bimodale Verteilung und können Prompts mit unterschiedlicher GSS effektiv unterscheiden, während andere Metriken überlappendere Verteilungen aufweisen.
Traditionelle Kalibrierung konzentriert sich hauptsächlich auf die Ausrichtung von UQ-Metriken mit der Korrektheit faktischer Probleme. Dieser Artikel erweitert dies auf breitere offene Aufgaben.
Bestehende Diversitätsmetriken (wie unique n-gram, self-BLEU usw.) sind hauptsächlich retrospektiv und können nicht auf interne Modelldarstellungen zugreifen. EigenScore bietet eine auf internen Modellen basierende semantische Diversitätsmessung.
Methoden wie semantische Entropie, Kernel Language Entropy werden hauptsächlich zur Halluzinationserkennung verwendet. Dieser Artikel demonstriert den breiteren Wert dieser Metriken bei der GSS-Schätzung.
Theoretische Innovation: Vorschlag des GSS-Konzepts als einheitliches Verständnis scheinbar unterschiedlicher Generierungsprobleme mit wichtigem theoretischem Wert
Systematische Bewertung: GSSBench bietet umfassendes Evaluierungsframework und füllt eine Lücke in diesem Bereich
Starke Praktikabilität: Drei Anwendungsfälle demonstrieren praktischen Wert des GSS-Konzepts
Strenge Methodologie: Konstruktion von Ground-Truth-Beziehungen durch mengentheoretische Operationen vermeidet subjektive Urteile
Wichtige Funde: Entdeckung von EigenScore als GSS-Proxy bietet neues Werkzeug für das Feld
Dieser Artikel zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:
Unsicherheitsquantifizierung: Kuhn et al. (2023), Farquhar et al. (2024)
Diversitätsmessung: Kirk et al. (2024), Li et al. (2024)
Halluzinationserkennung: Chen et al. (2024), Nikitin et al. (2024)
Modellkalibrierung: Huang et al. (2024), Vashurin et al. (2025)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen innovativen theoretischen Rahmen zur einheitlichen Interpretation verschiedener LLM-Generierungsprobleme vorschlägt. Das GSSBench-Evaluierungsframework und die Entdeckung von EigenScore als GSS-Proxy-Metrik haben wichtigen akademischen und praktischen Wert. Trotz einiger Einschränkungen sind die Beiträge bedeutsam genug, um wertvolle Werkzeuge und Einblicke für die Entwicklung des Feldes bereitzustellen.