2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic

Trovare Risposte nel Pensiero Importa: Rivisitazione della Valutazione dei Modelli di Linguaggio di Grandi Dimensioni con Ragionamento

Informazioni Fondamentali

  • ID Articolo: 2510.14773
  • Titolo: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
  • Autori: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 16 ottobre 2024
  • Link Articolo: https://arxiv.org/abs/2510.14773

Riassunto

Questo articolo affronta una questione critica nella valutazione delle capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM): l'impatto significativo dei metodi di estrazione delle risposte sulla valutazione delle prestazioni del modello. Lo studio rivela che le prestazioni dei modelli di ragionamento e la distribuzione delle risposte finali dipendono fortemente dall'algoritmo di estrazione delle risposte adottato. Per affrontare questo problema, gli autori propongono il framework "Answer Regeneration" (Rigenerazione della Risposta), che attraverso ulteriori fasi di ragionamento del modello, utilizza il prefisso "Answer:" per rigenerare la risposta finale, realizzando così una valutazione robusta indipendente dalle regole di estrazione.

Contesto di Ricerca e Motivazione

Problema Centrale

La valutazione tradizionale degli LLM si basa solitamente sulla distribuzione di probabilità della scelta della risposta, ma per i modelli che richiedono ragionamento, il metodo di estrazione della risposta diventa cruciale. I metodi di estrazione basati su regole esistenti presentano i seguenti problemi:

  1. Diversità di Formato: I modelli di ragionamento producono formati di output estremamente vari, e una singola regola di estrazione non può coprire tutti i casi
  2. Differenze tra Modelli: Diversi modelli utilizzano diversi formati di risposta, richiedendo regole di estrazione personalizzate per ogni modello
  3. Incoerenza nella Valutazione: Lo stesso output del modello potrebbe ricevere valutazioni completamente diverse a causa di diverse regole di estrazione

Motivazione della Ricerca

  • Problemi di Riproducibilità: Le differenze tra le prestazioni pubblicamente riportate e i risultati riprodotti potrebbero derivare da metodi di estrazione delle risposte non divulgati
  • Equità della Valutazione: I metodi basati su regole potrebbero introdurre pregiudizi verso determinati modelli
  • Specificità dei Modelli di Ragionamento: La complessità dell'output del ragionamento Chain-of-Thought (CoT) rende i metodi di valutazione tradizionali inadeguati

Contributi Principali

  1. Primo studio sistematico sulla sensibilità dei metodi di estrazione delle risposte nella valutazione dei modelli di ragionamento, rivelando questo problema critico ma trascurato
  2. Proposta del framework Answer Regeneration, che realizza un metodo di valutazione robusto indipendente dalle regole di estrazione
  3. Dimostrazione della versatilità del metodo, con miglioramenti su molteplici tipi di compiti inclusi domande a scelta multipla, problemi matematici e domande aperte
  4. Fornitura di un ordinamento più affidabile dei modelli, rendendo i risultati della valutazione più intuitivi (ad esempio, modelli più grandi superiori a modelli più piccoli)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato l'output di un modello di ragionamento (contenente il processo di ragionamento completo), è necessario estrarre accuratamente la risposta finale per la valutazione. I metodi tradizionali si basano su regole di espressioni regolari create manualmente, mentre questo articolo propone una soluzione generativa.

Framework Answer Regeneration

Architettura Complessiva

Input Originale + Output di Ragionamento + "Answer:" → Ragionamento del Modello → Risposta Finale Semplificata

Fasi Principali

  1. Preparazione dell'Input: Combinazione della domanda originale, del processo di ragionamento del modello e della parola chiave "Answer:"
  2. Ragionamento Ricorrente: Utilizzo del modello (in modalità non-ragionamento) per un ulteriore passo di ragionamento
  3. Estrazione della Risposta: Estrazione della risposta finale dall'output semplificato

Vantaggi Tecnici

  • Base Probabilistica: Per domande a scelta multipla, è possibile utilizzare la selezione della risposta basata su probabilità
  • Semplificazione dell'Output: La risposta generata ha un formato più conciso, facilitando l'estrazione
  • Indipendenza dalle Regole: Non dipende da complesse regole manuali

Punti di Innovazione Tecnica

1. Estrazione Generativa della Risposta

A differenza del tradizionale abbinamento di regole, utilizza la capacità generativa del modello stesso per "riformulare" la risposta finale, evitando la complessità dell'analisi del formato.

2. Separazione Ragionamento-Generazione

Separa il processo di ragionamento dalla generazione della risposta, con la fase di ragionamento focalizzata sul processo di pensiero e la fase di generazione focalizzata sull'output della risposta.

3. Adattabilità

Il framework si adatta automaticamente a diversi tipi di compiti e formati di risposta, senza richiedere ottimizzazione specifica per modelli o compiti particolari.

Configurazione Sperimentale

Dataset

  • MMLU: Test di conoscenza a scelta multipla multidisciplinare, come benchmark di valutazione principale
  • MMLU-Pro: Benchmark a scelta multipla più complesso, con numero di opzioni dinamico
  • GSM8K: Problemi di ragionamento matematico, formato di risposta breve
  • TriviaQA: Compito di domande e risposte aperte

Modelli Valutati

  • Serie Qwen3: Qwen3-32B, Qwen3-14B, Qwen3-8B
  • Serie DeepSeek-R1: R1-Distill-Llama-8B, R1-Qwen3-8B

Metodi di Confronto

  1. strict-match: Abbinamento esatto di stringhe ("answer is X")
  2. flexible-extract: Estrazione flessibile di opzioni (ricerca di (A), (B), ecc.)
  3. instructed-format: Output di formato istruito
  4. answer-is-correct: Abbinamento rigoroso ottimizzato
  5. last-extract: Estrazione dell'ultima lettera maiuscola

Dettagli di Implementazione

  • Utilizzo del toolkit lm-evaluation-harness
  • Temperatura impostata a 0,6, top-p a 0,95, top-k a 20
  • Lunghezza massima di generazione limitata a 4096 token

Risultati Sperimentali

Risultati Principali

Fluttuazioni Significative delle Prestazioni

Diversi metodi di estrazione causano differenze di prestazioni enormi:

  • Intervallo di accuratezza di Qwen3-32B con diversi metodi: 75,8% - 87,1%
  • L'ordinamento dei modelli può cambiare completamente in base al metodo di estrazione

Vantaggi Evidenti di Answer Regeneration

Answer Regeneration ha ottenuto le migliori prestazioni su tutti i modelli testati:

ModelloMiglior Metodo Basato su RegoleAnswer RegenerationMiglioramento
Qwen3-32B82,1%87,1%+5,0%
Qwen3-14B83,8%85,0%+1,2%
Qwen3-8B82,1%83,3%+1,2%
R1-Llama-8B64,8%68,8%+4,0%
R1-Qwen3-8B77,6%80,7%+3,1%

Esperimenti di Ablazione

Analisi dell'Incoerenza delle Risposte

Lo stesso output del modello potrebbe essere analizzato come risposte diverse da diversi metodi di estrazione:

  • Alcuni metodi estraggono risposte dal processo di pensiero
  • Alcuni metodi estraggono risposte finali formattate
  • Alcuni metodi falliscono nell'estrazione a causa di problemi di formato

Gestione del Ragionamento Incompleto

Answer Regeneration mostra prestazioni migliori nel gestire output di ragionamento incompleto:

  • I metodi tradizionali falliscono facilmente quando il ragionamento viene interrotto
  • Il metodo di rigenerazione può fornire risposte basate sulle informazioni disponibili

Validazione della Valutazione Umana

In una valutazione umana di 300 campioni:

  • Tasso di coerenza di Answer Regeneration con annotazioni umane: 84,2%
  • Tasso di coerenza del miglior metodo basato su regole con annotazioni umane: 61,7%

Generalizzazione Tra Compiti

Risultati MMLU-Pro

Answer Regeneration mantiene il vantaggio anche su benchmark più complessi, avvicinandosi alle prestazioni ufficialmente riportate.

Ragionamento Matematico GSM8K

In compiti matematici, Answer Regeneration mostra comunque le migliori prestazioni:

  • Gestisce il formato LaTeX (\boxed{}) in modo più robusto
  • La valutazione umana mostra una differenza di accuratezza del 16,3% vs 6,1%

Domande Aperte TriviaQA

Nei compiti aperti, evita i pregiudizi del modello del metodo LLM-as-a-judge.

Lavori Correlati

Framework di Valutazione degli LLM

Gli strumenti di valutazione esistenti come lm-evaluation-harness, HELM, OpenCompass si basano principalmente su:

  1. Valutazione basata su probabilità per domande a scelta multipla
  2. Post-elaborazione euristica semplice per compiti generativi

Ricerca sulla Sensibilità ai Prompt

Ricerche precedenti si sono concentrate sui cambiamenti di prompt a livello di input che influenzano le prestazioni, ma manca uno studio sistematico sull'estrazione delle risposte a livello di output.

Valutazione dei Modelli di Ragionamento

L'emergere di metodi di ragionamento come Chain-of-Thought ha posto nuove sfide ai metodi di valutazione tradizionali.

Conclusioni e Discussione

Conclusioni Principali

  1. Il metodo di estrazione delle risposte ha un impatto decisivo sulla valutazione dei modelli di ragionamento, con differenze di prestazioni superiori al 10%
  2. Answer Regeneration fornisce uno schema di valutazione più robusto, superiore alle regole manuali su molteplici compiti
  3. L'equità della valutazione è migliorata, con ordinamento dei modelli più coerente con le aspettative intuitive

Limitazioni

  1. Costo Computazionale: Richiede ulteriori fasi di ragionamento, aumentando il carico di valutazione
  2. Innovazione Tecnica Limitata: Il metodo stesso è relativamente semplice, mancando di profondità tecnica
  3. Intervallo di Modelli: Principalmente testato su modelli open-source, le prestazioni su modelli commerciali rimangono da verificare

Direzioni Future

  1. Integrazione di Auto-Coerenza: Combinazione con tecniche come self-consistency per ulteriori miglioramenti
  2. Valutazione di Modelli Commerciali: Estensione a modelli commerciali come GPT, Gemini, Claude
  3. Ottimizzazione dell'Efficienza: Esplorazione di metodi per ridurre il carico computazionale

Valutazione Approfondita

Punti di Forza

1. Importanza dell'Identificazione del Problema

Rivela sistematicamente per la prima volta un problema critico ma trascurato nell'estrazione delle risposte, con significato importante per la valutazione dei modelli di ragionamento.

2. Praticità del Metodo

Il framework proposto è semplice ed efficace, facile da implementare e distribuire, con forte valore pratico.

3. Completezza degli Esperimenti

  • Valutazione completa su molteplici modelli e tipi di compiti
  • Esperimenti di ablazione dettagliati e validazione umana
  • Confronto sufficiente con metodi esistenti

4. Convincenza dei Risultati

Attraverso numerosi esperimenti, dimostra l'efficacia del metodo, con risultati statisticamente significativi.

Insufficienze

1. Innovazione Tecnica Limitata

Il metodo stesso è relativamente semplice, principalmente un miglioramento nella pratica ingegneristica, mancando di innovazione tecnica profonda.

2. Problema del Carico Computazionale

I passi di ragionamento aggiuntivi aumenteranno significativamente il costo di valutazione, potendo diventare un collo di bottiglia in valutazioni su larga scala.

3. Analisi Teorica Insufficiente

Manca l'analisi teorica dell'efficacia del metodo, affidandosi principalmente alla validazione sperimentale.

4. Dipendenza dal Modello

La qualità della rigenerazione dipende ancora dalle capacità del modello stesso, potendo presentare pregiudizi del modello.

Impatto

Contributo Accademico

  • Colma il vuoto nella metodologia di valutazione dei modelli di ragionamento
  • Fornisce importanti riferimenti per il design futuro di framework di valutazione
  • Promuove l'attenzione sull'equità e riproducibilità della valutazione

Valore Pratico

  • Applicabile direttamente al miglioramento dei framework di valutazione esistenti
  • Fornisce benchmark di prestazioni più affidabili per gli sviluppatori di modelli
  • Contribuisce ad aumentare l'affidabilità dei risultati di valutazione

Riproducibilità

L'articolo fornisce dettagli di implementazione dettagliati e espressioni regolari, facilitando la riproduzione e l'applicazione.

Scenari Applicabili

Scenari Applicativi Appropriati

  1. Valutazione dei Modelli di Ragionamento: Particolarmente adatto per modelli come CoT che richiedono processi di ragionamento
  2. Test di Benchmark Multitask: Applicazione su benchmark standard come MMLU, GSM8K
  3. Ricerca di Confronto tra Modelli: Quando è necessario confrontare equamente diversi modelli di ragionamento

Condizioni Limitanti

  1. Risorse Computazionali Sufficienti: Necessario sostenere il costo di ragionamento aggiuntivo
  2. Requisiti Elevati di Accuratezza della Valutazione: Adatto a scenari con elevati requisiti di qualità della valutazione
  3. Specifico per Modelli di Ragionamento: Principalmente mirato a modelli con capacità di ragionamento

Bibliografia

  1. Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
  2. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  3. Liang et al. (2023). Holistic evaluation of language models. arXiv.
  4. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Sintesi: Sebbene questo articolo sia relativamente semplice in termini di innovazione tecnica, identifica e risolve un problema importante nella valutazione dei modelli di ragionamento. La proposta del framework Answer Regeneration fornisce una soluzione pratica per una valutazione equa e robusta dei modelli di ragionamento, con significato importante nel promuovere la standardizzazione e la riproducibilità in questo campo. Nonostante le limitazioni come il carico computazionale, il suo valore pratico e il contributo alla metodologia di valutazione lo rendono un lavoro di ricerca prezioso.