2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic

Dimensione dello Spazio di Generazione: Comprensione e Calibrazione dell'Open-Endedness delle Generazioni LLM

Informazioni Fondamentali

  • ID Articolo: 2510.12699
  • Titolo: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
  • Autori: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
  • Classificazione: cs.CL, cs.AI
  • Stato di Pubblicazione: In Revisione
  • Link Articolo: https://arxiv.org/abs/2510.12699

Riassunto

I diversi compiti di generazione aperta richiedono diversi gradi di diversità dell'output. Tuttavia, i modelli linguistici di grandi dimensioni (LLM) attuali sono spesso mal calibrati: producono output eccessivamente omogenei nei compiti creativi, mentre generano risposte allucinatorie diverse ma scorrette nei compiti fattivi. Questo articolo propone che entrambe queste modalità di fallimento possono essere comprese e affrontate in modo unificato attraverso il concetto di "dimensione effettiva dello spazio di generazione" (GSS) — l'insieme degli output semanticamente distinti che il modello considera per un dato prompt. Gli autori propongono il framework di valutazione GSSBench, che contiene coppie di prompt con relazioni GSS reali, per valutare diverse metriche e comprendere dove i modelli si discostano dal comportamento atteso. La ricerca rivela che le metriche di rilevamento dell'allucinazione (in particolare EigenScore) superano costantemente gli indicatori standard di diversità e quantificazione dell'incertezza utilizzando solo informazioni interne del modello, fornendo intuizioni interpretabili sulla rappresentazione interna dei compiti.

Contesto di Ricerca e Motivazione

Problema Centrale

Gli LLM attuali presentano due principali modalità di fallimento della generazione:

  1. Omogeneità dell'output nei compiti creativi: Nei compiti che richiedono diversità (come brainstorming, scrittura creativa), il modello produce output eccessivamente simili
  2. Problema dell'allucinazione nei compiti fattivi: Nei compiti che richiedono accuratezza (come domande e risposte), il modello genera risposte diverse ma scorrette

Motivazione della Ricerca

Gli approcci tradizionali affrontano questi due problemi separatamente: massimizzano i segnali di diversità oppure vincolano la diversità per migliorare l'accuratezza fattiva. Questo articolo propone una prospettiva unificata, sostenendo che entrambi i problemi derivano da errori di calibrazione della dimensione dello spazio di generazione (GSS).

Limitazioni dei Metodi Esistenti

  • Mancanza di un framework teorico unificato per comprendere diversi tipi di fallimenti di generazione
  • La maggior parte delle metriche di diversità esistenti sono post-hoc e non possono accedere direttamente alle rappresentazioni interne del modello
  • Assenza di un framework di valutazione sistematico per quantificare la capacità di calibrazione GSS del modello

Contributi Principali

  1. Contributo Teorico: Propone GSS (Generation Space Size) come framework unificato, considerando l'omogeneità dell'output e i problemi di allucinazione come due aspetti degli errori di calibrazione GSS
  2. Framework di Valutazione: Costruisce GSSBench, una suite di valutazione con 9300 coppie di prompt, per misurare GSS e i suoi errori di calibrazione
  3. Scoperte Metodologiche: Dimostra che metriche di rilevamento dell'allucinazione come EigenScore superano gli indicatori tradizionali di diversità e quantificazione dell'incertezza nella stima GSS
  4. Applicazioni Pratiche: Mostra il valore di GSS in tre importanti applicazioni: rilevamento dell'ambiguità del prompt, analisi di modelli di ragionamento e ottimizzazione della diversità

Spiegazione Dettagliata del Metodo

Definizione del Compito

Per ogni prompt p, esiste uno spazio di generazione reale Gt(p): la distribuzione semantica di tutti gli output possibili corretti. Il modello m ha anche uno spazio di generazione Gm(p): lo spazio di output che il modello "considera" per un dato prompt. L'errore di calibrazione GSS è definito come:

|Gm(p)| = |Gt(p)| + εm(p)

dove εm(p) è l'errore tra il GSS del modello e il GSS atteso.

Framework di Valutazione GSSBench

Costruzione del Dataset

Costruisce sei tipi di dataset basati su operazioni di teoria degli insiemi, per un totale di 9300 coppie di prompt:

  1. Complement: Prompt di base vs prompt di complemento (ad esempio, "scrivi una poesia sulla luna" vs "scrivi qualsiasi cosa che non sia una poesia sulla luna")
  2. FactualQA: Domande specifiche vs domande generali (ad esempio, "fiumi del Brasile" vs "fiumi")
  3. Random Choice: Domande a scelta multipla con diversi numeri di opzioni
  4. Subset: Creare relazioni di sottoinsieme aggiungendo vincoli
  5. Union: Espandere lo spazio di generazione collegando con "o"
  6. Intersection: Ridurre lo spazio di generazione collegando con "e"

Metriche di Valutazione

Utilizza l'accuratezza delle coppie per valutare la capacità di una metrica f di prevedere l'ordinamento GSS:

  • Per coppie di prompt (x,y), dove |Gt(x)| > |Gt(y)|
  • Ottiene un punteggio di 1 se f(x) > f(y), altrimenti 0

Analisi degli Indicatori Candidati

Valuta diverse metriche come proxy per GSS:

  • Metriche Tradizionali: Perplessità, energia, entropia normalizzata per lunghezza, similarità lessicale
  • Metriche di Rilevamento dell'Allucinazione: EigenScore e sue varianti, entropia semantica
  • Varianti di EigenScore:
    • Eoriginal: Versione originale
    • Eaverage: Media tra strati e token
    • Eoutput: Utilizzo di modello di embedding di frasi esterno

Configurazione Sperimentale

Selezione dei Modelli

Testa 5 modelli con istruzioni ottimizzate:

  • Llama-8B-Instruct
  • Mistral-7B-v0.3
  • Serie Qwen3 (0.6B, 4B, 8B)

Impostazione degli Iperparametri

  • Temperatura: 1.0
  • Numero di campioni: 10
  • Top-k: 10
  • Parametri ottimali determinati sulla base di studi di ablazione

Risultati Sperimentali

Scoperte Principali

Le Varianti di EigenScore Mostrano le Migliori Prestazioni

  • Eoutput e Eaverage raggiungono l'accuratezza più alta su tutti i modelli
  • Eoutput raggiunge il 71.7% di accuratezza su Llama-8B-Instruct
  • Eaverage raggiunge il 72.4% di accuratezza sullo stesso modello
  • Significativamente superiore agli indicatori tradizionali come perplessità (60.0%) e similarità lessicale (66.5%)

Analisi della Calibrazione del Modello

  • Llama-8B-Instruct è calibrato meglio sulla maggior parte degli indicatori
  • Qwen3-0.6B mostra le migliori prestazioni su Eoutput e entropia semantica
  • Effetto della Scala: I modelli più grandi non sono necessariamente meglio calibrati; Qwen3-0.6B supera Qwen3-8B su tutti gli indicatori

Analisi della Distribuzione

Le varianti di EigenScore mostrano una chiara distribuzione bimodale, in grado di distinguere efficacemente i prompt con diversi GSS, mentre altri indicatori hanno distribuzioni più sovrapposte.

Esperimenti di Ablazione

Analisi della Sensibilità dei Parametri

  • Top-k: Le variazioni hanno scarso impatto sulle prestazioni
  • Numero di Campioni: Miglioramento stabile da 0 a 20, con miglioramenti limitati oltre 20
  • Temperatura: EigenScore mostra le migliori prestazioni a temperatura 1.0 (diverso da 0.5 nel rilevamento dell'allucinazione)

Dettagli di Implementazione di EigenScore

  • La media tra strati è migliore dell'utilizzo di un singolo strato
  • La media di tutti i token è migliore dell'utilizzo solo dell'ultimo token

Applicazioni Pratiche

1. Rilevamento dell'Ambiguità del Prompt e Previsione di Domande di Chiarimento

Esperimento 1: Rilevamento dell'Ambiguità sul Dataset RIFTS

Sul dataset RIFTS di 1740 prompt:

  • Solo Eoutput e Eaverage riescono a distinguere correttamente i prompt ambigui da quelli non ambigui
  • Eoutput distingue significativamente le due classi su tutti i modelli testati

Esperimento 2: Previsione di Domande di Chiarimento

  • Eoutput e Eaverage sono gli unici indicatori in grado di prevedere significativamente su tutti i modelli se il modello porrà domande di chiarimento
  • Fornisce intuizioni interpretabili sulla comprensione di quando il modello cerca chiarimenti

2. Analisi dei Modelli di Ragionamento

Misurazione del Numero di Percorsi di Soluzione

Su 1000 problemi logici:

  • Costruisce coppie di prompt a percorso singolo vs multi-percorso
  • Eoutput raggiunge l'accuratezza più alta su tutti i modelli di ragionamento (73% su Qwen3-4B e 8B)

Previsione della Lunghezza del Token di Ragionamento

  • GSS mostra una correlazione da moderata a forte con la lunghezza del token di ragionamento
  • Nei compiti di ragionamento deduttivo, Eoriginal mostra la correlazione più forte con la lunghezza del ragionamento
  • Fornisce una nuova prospettiva per comprendere i problemi di "pensiero eccessivo" e "pensiero insufficiente" dei modelli di ragionamento

3. Ottimizzazione della Diversità: Leave-One-Out EigenScore (LOOE)

Progettazione della Metrica LOOE

Propone una nuova metrica di diversità a livello di risposta:

LOOEi = Eglobal - Ei

dove Ei è l'EigenScore ricalcolato dopo la rimozione della risposta i.

Risultati dell'Esperimento DivPO

  • LOOE mostra prestazioni comparabili ad altri indicatori di diversità in termini di diversità e ricompensa
  • Rispetto agli indicatori tradizionali, LOOE ha tre vantaggi unici:
    1. Utilizza informazioni interne del modello
    2. Consapevolezza semantica
    3. Valutazione a livello di risposta

Lavori Correlati

Quantificazione dell'Incertezza e Calibrazione del Modello

La calibrazione tradizionale si concentra principalmente sull'allineamento degli indicatori UQ con la correttezza dei problemi fattivi. Questo articolo si estende a compiti open-ended più ampi.

Metriche di Diversità

Le metriche di diversità esistenti (come n-gram unici, self-BLEU, ecc.) sono principalmente post-hoc e non possono accedere alle rappresentazioni interne del modello. EigenScore fornisce una misurazione della diversità semantica consapevole basata sulle informazioni interne del modello.

Rilevamento dell'Allucinazione

Metodi come entropia semantica, Kernel Language Entropy, ecc. sono principalmente utilizzati per il rilevamento dell'allucinazione. Questo articolo dimostra il valore più ampio di questi indicatori nella stima GSS.

Conclusioni e Discussione

Conclusioni Principali

  1. Framework Unificato: GSS fornisce una prospettiva unificata per comprendere diversi tipi di fallimenti di generazione degli LLM
  2. Scoperta di Metriche: EigenScore come metrica proxy GSS mostra le migliori prestazioni, superando gli indicatori tradizionali di diversità e incertezza
  3. Applicazioni Diffuse: Il concetto di GSS ha valore in molteplici domini come rilevamento dell'ambiguità, analisi del ragionamento e ottimizzazione della diversità

Limitazioni

  1. Indipendenza dal Contenuto: GSS non è sensibile alla qualità del contenuto generato
  2. Ipotesi di Valutazione: Assume che il GSS del modello sia vicino al GSS reale, ma questa ipotesi potrebbe non essere sempre valida
  3. Complessità Computazionale: Alcune metriche (come EigenScore) hanno costi computazionali relativamente elevati

Direzioni Future

  1. Addestramento Consapevole di GSS: Sviluppare metodi di addestramento che possono regolare dinamicamente GSS
  2. Metriche Proxy Migliori: Cercare metodi più accurati ed efficienti per la stima di GSS
  3. Estensioni Sensibili al Contenuto: Combinare GSS con valutazione della qualità del contenuto

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: La proposta di GSS come concetto unificato per comprendere problemi di generazione apparentemente diversi ha un valore teorico significativo
  2. Valutazione Sistematica: GSSBench fornisce un framework di valutazione completo, colmando un vuoto nel campo
  3. Forte Praticità: Tre casi di applicazione dimostrano il valore pratico del concetto di GSS
  4. Metodologia Rigorosa: La costruzione di relazioni ground truth attraverso operazioni di teoria degli insiemi evita giudizi soggettivi
  5. Scoperta Importante: La scoperta di EigenScore come proxy GSS fornisce un nuovo strumento al campo

Insufficienze

  1. Limitazioni di Scala: Principalmente testato su modelli più piccoli; le prestazioni su modelli più grandi potrebbero essere diverse
  2. Copertura dei Compiti: Sebbene copra diversi tipi di compiti, potrebbe non essere sufficientemente completo
  3. Analisi Teorica: Manca una spiegazione teorica approfondita del perché EigenScore mostra le migliori prestazioni
  4. Efficienza Computazionale: Il costo computazionale di alcune metriche potrebbe limitare l'applicazione pratica

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico e strumenti per la valutazione della qualità di generazione degli LLM
  2. Valore Pratico: Fornisce indicazioni per migliorare le prestazioni degli LLM su diversi tipi di compiti
  3. Riproducibilità: Fornisce impostazioni sperimentali dettagliate e metodi di costruzione del dataset

Scenari Applicabili

  1. Valutazione del Modello: Valutare il grado di calibrazione degli LLM su diversi tipi di compiti
  2. Addestramento del Modello: Guidare lo sviluppo di metodi di addestramento consapevoli di GSS
  3. Sistemi di Applicazione: Ottimizzare il controllo della diversità in sistemi di dialogo, generazione di contenuti, ecc.

Riferimenti Bibliografici

Questo articolo cita importanti lavori nel campo correlato, inclusi:

  • Quantificazione dell'incertezza: Kuhn et al. (2023), Farquhar et al. (2024)
  • Misure di diversità: Kirk et al. (2024), Li et al. (2024)
  • Rilevamento dell'allucinazione: Chen et al. (2024), Nikitin et al. (2024)
  • Calibrazione del modello: Huang et al. (2024), Vashurin et al. (2025)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework teorico innovativo per comprendere in modo unificato diversi problemi di generazione degli LLM. Sia il framework di valutazione GSSBench che la scoperta di EigenScore come metrica proxy GSS hanno un valore accademico e pratico significativo. Nonostante alcune limitazioni, i suoi contributi sono sufficientemente importanti da fornire strumenti e intuizioni preziose per lo sviluppo del campo.