Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic
Dimensione dello Spazio di Generazione: Comprensione e Calibrazione dell'Open-Endedness delle Generazioni LLM
I diversi compiti di generazione aperta richiedono diversi gradi di diversità dell'output. Tuttavia, i modelli linguistici di grandi dimensioni (LLM) attuali sono spesso mal calibrati: producono output eccessivamente omogenei nei compiti creativi, mentre generano risposte allucinatorie diverse ma scorrette nei compiti fattivi. Questo articolo propone che entrambe queste modalità di fallimento possono essere comprese e affrontate in modo unificato attraverso il concetto di "dimensione effettiva dello spazio di generazione" (GSS) — l'insieme degli output semanticamente distinti che il modello considera per un dato prompt. Gli autori propongono il framework di valutazione GSSBench, che contiene coppie di prompt con relazioni GSS reali, per valutare diverse metriche e comprendere dove i modelli si discostano dal comportamento atteso. La ricerca rivela che le metriche di rilevamento dell'allucinazione (in particolare EigenScore) superano costantemente gli indicatori standard di diversità e quantificazione dell'incertezza utilizzando solo informazioni interne del modello, fornendo intuizioni interpretabili sulla rappresentazione interna dei compiti.
Gli LLM attuali presentano due principali modalità di fallimento della generazione:
Omogeneità dell'output nei compiti creativi: Nei compiti che richiedono diversità (come brainstorming, scrittura creativa), il modello produce output eccessivamente simili
Problema dell'allucinazione nei compiti fattivi: Nei compiti che richiedono accuratezza (come domande e risposte), il modello genera risposte diverse ma scorrette
Gli approcci tradizionali affrontano questi due problemi separatamente: massimizzano i segnali di diversità oppure vincolano la diversità per migliorare l'accuratezza fattiva. Questo articolo propone una prospettiva unificata, sostenendo che entrambi i problemi derivano da errori di calibrazione della dimensione dello spazio di generazione (GSS).
Contributo Teorico: Propone GSS (Generation Space Size) come framework unificato, considerando l'omogeneità dell'output e i problemi di allucinazione come due aspetti degli errori di calibrazione GSS
Framework di Valutazione: Costruisce GSSBench, una suite di valutazione con 9300 coppie di prompt, per misurare GSS e i suoi errori di calibrazione
Scoperte Metodologiche: Dimostra che metriche di rilevamento dell'allucinazione come EigenScore superano gli indicatori tradizionali di diversità e quantificazione dell'incertezza nella stima GSS
Applicazioni Pratiche: Mostra il valore di GSS in tre importanti applicazioni: rilevamento dell'ambiguità del prompt, analisi di modelli di ragionamento e ottimizzazione della diversità
Per ogni prompt p, esiste uno spazio di generazione reale Gt(p): la distribuzione semantica di tutti gli output possibili corretti. Il modello m ha anche uno spazio di generazione Gm(p): lo spazio di output che il modello "considera" per un dato prompt. L'errore di calibrazione GSS è definito come:
|Gm(p)| = |Gt(p)| + εm(p)
dove εm(p) è l'errore tra il GSS del modello e il GSS atteso.
Costruisce sei tipi di dataset basati su operazioni di teoria degli insiemi, per un totale di 9300 coppie di prompt:
Complement: Prompt di base vs prompt di complemento (ad esempio, "scrivi una poesia sulla luna" vs "scrivi qualsiasi cosa che non sia una poesia sulla luna")
FactualQA: Domande specifiche vs domande generali (ad esempio, "fiumi del Brasile" vs "fiumi")
Random Choice: Domande a scelta multipla con diversi numeri di opzioni
Subset: Creare relazioni di sottoinsieme aggiungendo vincoli
Union: Espandere lo spazio di generazione collegando con "o"
Intersection: Ridurre lo spazio di generazione collegando con "e"
Le varianti di EigenScore mostrano una chiara distribuzione bimodale, in grado di distinguere efficacemente i prompt con diversi GSS, mentre altri indicatori hanno distribuzioni più sovrapposte.
La calibrazione tradizionale si concentra principalmente sull'allineamento degli indicatori UQ con la correttezza dei problemi fattivi. Questo articolo si estende a compiti open-ended più ampi.
Le metriche di diversità esistenti (come n-gram unici, self-BLEU, ecc.) sono principalmente post-hoc e non possono accedere alle rappresentazioni interne del modello. EigenScore fornisce una misurazione della diversità semantica consapevole basata sulle informazioni interne del modello.
Metodi come entropia semantica, Kernel Language Entropy, ecc. sono principalmente utilizzati per il rilevamento dell'allucinazione. Questo articolo dimostra il valore più ampio di questi indicatori nella stima GSS.
Framework Unificato: GSS fornisce una prospettiva unificata per comprendere diversi tipi di fallimenti di generazione degli LLM
Scoperta di Metriche: EigenScore come metrica proxy GSS mostra le migliori prestazioni, superando gli indicatori tradizionali di diversità e incertezza
Applicazioni Diffuse: Il concetto di GSS ha valore in molteplici domini come rilevamento dell'ambiguità, analisi del ragionamento e ottimizzazione della diversità
Innovazione Teorica: La proposta di GSS come concetto unificato per comprendere problemi di generazione apparentemente diversi ha un valore teorico significativo
Valutazione Sistematica: GSSBench fornisce un framework di valutazione completo, colmando un vuoto nel campo
Forte Praticità: Tre casi di applicazione dimostrano il valore pratico del concetto di GSS
Metodologia Rigorosa: La costruzione di relazioni ground truth attraverso operazioni di teoria degli insiemi evita giudizi soggettivi
Scoperta Importante: La scoperta di EigenScore come proxy GSS fornisce un nuovo strumento al campo
Questo articolo cita importanti lavori nel campo correlato, inclusi:
Quantificazione dell'incertezza: Kuhn et al. (2023), Farquhar et al. (2024)
Misure di diversità: Kirk et al. (2024), Li et al. (2024)
Rilevamento dell'allucinazione: Chen et al. (2024), Nikitin et al. (2024)
Calibrazione del modello: Huang et al. (2024), Vashurin et al. (2025)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework teorico innovativo per comprendere in modo unificato diversi problemi di generazione degli LLM. Sia il framework di valutazione GSSBench che la scoperta di EigenScore come metrica proxy GSS hanno un valore accademico e pratico significativo. Nonostante alcune limitazioni, i suoi contributi sono sufficientemente importanti da fornire strumenti e intuizioni preziose per lo sviluppo del campo.