2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.

Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.

academic

Trovare Risposte nel Pensiero Importa: Rivisitazione della Valutazione dei Modelli di Linguaggio di Grandi Dimensioni con Ragionamento

Informazioni Fondamentali

ID Articolo: 2510.14773
Titolo: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Autori: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
Classificazione: cs.CL cs.AI
Data di Pubblicazione: 16 ottobre 2024
Link Articolo: https://arxiv.org/abs/2510.14773

Riassunto

Questo articolo affronta una questione critica nella valutazione delle capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM): l'impatto significativo dei metodi di estrazione delle risposte sulla valutazione delle prestazioni del modello. Lo studio rivela che le prestazioni dei modelli di ragionamento e la distribuzione delle risposte finali dipendono fortemente dall'algoritmo di estrazione delle risposte adottato. Per affrontare questo problema, gli autori propongono il framework "Answer Regeneration" (Rigenerazione della Risposta), che attraverso ulteriori fasi di ragionamento del modello, utilizza il prefisso "Answer:" per rigenerare la risposta finale, realizzando così una valutazione robusta indipendente dalle regole di estrazione.

Contesto di Ricerca e Motivazione

Problema Centrale

La valutazione tradizionale degli LLM si basa solitamente sulla distribuzione di probabilità della scelta della risposta, ma per i modelli che richiedono ragionamento, il metodo di estrazione della risposta diventa cruciale. I metodi di estrazione basati su regole esistenti presentano i seguenti problemi:

Diversità di Formato: I modelli di ragionamento producono formati di output estremamente vari, e una singola regola di estrazione non può coprire tutti i casi
Differenze tra Modelli: Diversi modelli utilizzano diversi formati di risposta, richiedendo regole di estrazione personalizzate per ogni modello
Incoerenza nella Valutazione: Lo stesso output del modello potrebbe ricevere valutazioni completamente diverse a causa di diverse regole di estrazione

Motivazione della Ricerca

Problemi di Riproducibilità: Le differenze tra le prestazioni pubblicamente riportate e i risultati riprodotti potrebbero derivare da metodi di estrazione delle risposte non divulgati
Equità della Valutazione: I metodi basati su regole potrebbero introdurre pregiudizi verso determinati modelli
Specificità dei Modelli di Ragionamento: La complessità dell'output del ragionamento Chain-of-Thought (CoT) rende i metodi di valutazione tradizionali inadeguati

Contributi Principali

Primo studio sistematico sulla sensibilità dei metodi di estrazione delle risposte nella valutazione dei modelli di ragionamento, rivelando questo problema critico ma trascurato
Proposta del framework Answer Regeneration, che realizza un metodo di valutazione robusto indipendente dalle regole di estrazione
Dimostrazione della versatilità del metodo, con miglioramenti su molteplici tipi di compiti inclusi domande a scelta multipla, problemi matematici e domande aperte
Fornitura di un ordinamento più affidabile dei modelli, rendendo i risultati della valutazione più intuitivi (ad esempio, modelli più grandi superiori a modelli più piccoli)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato l'output di un modello di ragionamento (contenente il processo di ragionamento completo), è necessario estrarre accuratamente la risposta finale per la valutazione. I metodi tradizionali si basano su regole di espressioni regolari create manualmente, mentre questo articolo propone una soluzione generativa.

Framework Answer Regeneration

Architettura Complessiva

Input Originale + Output di Ragionamento + "Answer:" → Ragionamento del Modello → Risposta Finale Semplificata

Fasi Principali

Preparazione dell'Input: Combinazione della domanda originale, del processo di ragionamento del modello e della parola chiave "Answer:"
Ragionamento Ricorrente: Utilizzo del modello (in modalità non-ragionamento) per un ulteriore passo di ragionamento
Estrazione della Risposta: Estrazione della risposta finale dall'output semplificato

Vantaggi Tecnici

Base Probabilistica: Per domande a scelta multipla, è possibile utilizzare la selezione della risposta basata su probabilità
Semplificazione dell'Output: La risposta generata ha un formato più conciso, facilitando l'estrazione
Indipendenza dalle Regole: Non dipende da complesse regole manuali

Punti di Innovazione Tecnica

1. Estrazione Generativa della Risposta

A differenza del tradizionale abbinamento di regole, utilizza la capacità generativa del modello stesso per "riformulare" la risposta finale, evitando la complessità dell'analisi del formato.

2. Separazione Ragionamento-Generazione

Separa il processo di ragionamento dalla generazione della risposta, con la fase di ragionamento focalizzata sul processo di pensiero e la fase di generazione focalizzata sull'output della risposta.

3. Adattabilità

Il framework si adatta automaticamente a diversi tipi di compiti e formati di risposta, senza richiedere ottimizzazione specifica per modelli o compiti particolari.

Configurazione Sperimentale

Dataset

MMLU: Test di conoscenza a scelta multipla multidisciplinare, come benchmark di valutazione principale
MMLU-Pro: Benchmark a scelta multipla più complesso, con numero di opzioni dinamico
GSM8K: Problemi di ragionamento matematico, formato di risposta breve
TriviaQA: Compito di domande e risposte aperte

Modelli Valutati

Serie Qwen3: Qwen3-32B, Qwen3-14B, Qwen3-8B
Serie DeepSeek-R1: R1-Distill-Llama-8B, R1-Qwen3-8B

Metodi di Confronto

strict-match: Abbinamento esatto di stringhe ("answer is X")
flexible-extract: Estrazione flessibile di opzioni (ricerca di (A), (B), ecc.)
instructed-format: Output di formato istruito
answer-is-correct: Abbinamento rigoroso ottimizzato
last-extract: Estrazione dell'ultima lettera maiuscola

Dettagli di Implementazione

Utilizzo del toolkit lm-evaluation-harness
Temperatura impostata a 0,6, top-p a 0,95, top-k a 20
Lunghezza massima di generazione limitata a 4096 token

Risultati Sperimentali

Risultati Principali

Fluttuazioni Significative delle Prestazioni

Diversi metodi di estrazione causano differenze di prestazioni enormi:

Intervallo di accuratezza di Qwen3-32B con diversi metodi: 75,8% - 87,1%
L'ordinamento dei modelli può cambiare completamente in base al metodo di estrazione

Vantaggi Evidenti di Answer Regeneration

Answer Regeneration ha ottenuto le migliori prestazioni su tutti i modelli testati:

Modello	Miglior Metodo Basato su Regole	Answer Regeneration	Miglioramento
Qwen3-32B	82,1%	87,1%	+5,0%
Qwen3-14B	83,8%	85,0%	+1,2%
Qwen3-8B	82,1%	83,3%	+1,2%
R1-Llama-8B	64,8%	68,8%	+4,0%
R1-Qwen3-8B	77,6%	80,7%	+3,1%

Esperimenti di Ablazione

Analisi dell'Incoerenza delle Risposte

Lo stesso output del modello potrebbe essere analizzato come risposte diverse da diversi metodi di estrazione:

Alcuni metodi estraggono risposte dal processo di pensiero
Alcuni metodi estraggono risposte finali formattate
Alcuni metodi falliscono nell'estrazione a causa di problemi di formato

Gestione del Ragionamento Incompleto

Answer Regeneration mostra prestazioni migliori nel gestire output di ragionamento incompleto:

I metodi tradizionali falliscono facilmente quando il ragionamento viene interrotto
Il metodo di rigenerazione può fornire risposte basate sulle informazioni disponibili

Validazione della Valutazione Umana

In una valutazione umana di 300 campioni:

Tasso di coerenza di Answer Regeneration con annotazioni umane: 84,2%
Tasso di coerenza del miglior metodo basato su regole con annotazioni umane: 61,7%

Generalizzazione Tra Compiti

Risultati MMLU-Pro

Answer Regeneration mantiene il vantaggio anche su benchmark più complessi, avvicinandosi alle prestazioni ufficialmente riportate.

Ragionamento Matematico GSM8K

In compiti matematici, Answer Regeneration mostra comunque le migliori prestazioni:

Gestisce il formato LaTeX (\boxed{}) in modo più robusto
La valutazione umana mostra una differenza di accuratezza del 16,3% vs 6,1%

Domande Aperte TriviaQA

Nei compiti aperti, evita i pregiudizi del modello del metodo LLM-as-a-judge.

Lavori Correlati

Framework di Valutazione degli LLM

Gli strumenti di valutazione esistenti come lm-evaluation-harness, HELM, OpenCompass si basano principalmente su:

Valutazione basata su probabilità per domande a scelta multipla
Post-elaborazione euristica semplice per compiti generativi

Ricerca sulla Sensibilità ai Prompt

Ricerche precedenti si sono concentrate sui cambiamenti di prompt a livello di input che influenzano le prestazioni, ma manca uno studio sistematico sull'estrazione delle risposte a livello di output.

Valutazione dei Modelli di Ragionamento

L'emergere di metodi di ragionamento come Chain-of-Thought ha posto nuove sfide ai metodi di valutazione tradizionali.

Conclusioni e Discussione

Conclusioni Principali

Il metodo di estrazione delle risposte ha un impatto decisivo sulla valutazione dei modelli di ragionamento, con differenze di prestazioni superiori al 10%
Answer Regeneration fornisce uno schema di valutazione più robusto, superiore alle regole manuali su molteplici compiti
L'equità della valutazione è migliorata, con ordinamento dei modelli più coerente con le aspettative intuitive

Limitazioni

Costo Computazionale: Richiede ulteriori fasi di ragionamento, aumentando il carico di valutazione
Innovazione Tecnica Limitata: Il metodo stesso è relativamente semplice, mancando di profondità tecnica
Intervallo di Modelli: Principalmente testato su modelli open-source, le prestazioni su modelli commerciali rimangono da verificare

Direzioni Future

Integrazione di Auto-Coerenza: Combinazione con tecniche come self-consistency per ulteriori miglioramenti
Valutazione di Modelli Commerciali: Estensione a modelli commerciali come GPT, Gemini, Claude
Ottimizzazione dell'Efficienza: Esplorazione di metodi per ridurre il carico computazionale

Valutazione Approfondita

Punti di Forza

1. Importanza dell'Identificazione del Problema

Rivela sistematicamente per la prima volta un problema critico ma trascurato nell'estrazione delle risposte, con significato importante per la valutazione dei modelli di ragionamento.

2. Praticità del Metodo

Il framework proposto è semplice ed efficace, facile da implementare e distribuire, con forte valore pratico.

3. Completezza degli Esperimenti

Valutazione completa su molteplici modelli e tipi di compiti
Esperimenti di ablazione dettagliati e validazione umana
Confronto sufficiente con metodi esistenti

4. Convincenza dei Risultati

Attraverso numerosi esperimenti, dimostra l'efficacia del metodo, con risultati statisticamente significativi.

Insufficienze

1. Innovazione Tecnica Limitata

Il metodo stesso è relativamente semplice, principalmente un miglioramento nella pratica ingegneristica, mancando di innovazione tecnica profonda.

2. Problema del Carico Computazionale

I passi di ragionamento aggiuntivi aumenteranno significativamente il costo di valutazione, potendo diventare un collo di bottiglia in valutazioni su larga scala.

3. Analisi Teorica Insufficiente

Manca l'analisi teorica dell'efficacia del metodo, affidandosi principalmente alla validazione sperimentale.

4. Dipendenza dal Modello

La qualità della rigenerazione dipende ancora dalle capacità del modello stesso, potendo presentare pregiudizi del modello.

Impatto

Contributo Accademico

Colma il vuoto nella metodologia di valutazione dei modelli di ragionamento
Fornisce importanti riferimenti per il design futuro di framework di valutazione
Promuove l'attenzione sull'equità e riproducibilità della valutazione

Valore Pratico

Applicabile direttamente al miglioramento dei framework di valutazione esistenti
Fornisce benchmark di prestazioni più affidabili per gli sviluppatori di modelli
Contribuisce ad aumentare l'affidabilità dei risultati di valutazione

Riproducibilità

L'articolo fornisce dettagli di implementazione dettagliati e espressioni regolari, facilitando la riproduzione e l'applicazione.

Scenari Applicabili

Scenari Applicativi Appropriati

Valutazione dei Modelli di Ragionamento: Particolarmente adatto per modelli come CoT che richiedono processi di ragionamento
Test di Benchmark Multitask: Applicazione su benchmark standard come MMLU, GSM8K
Ricerca di Confronto tra Modelli: Quando è necessario confrontare equamente diversi modelli di ragionamento

Condizioni Limitanti

Risorse Computazionali Sufficienti: Necessario sostenere il costo di ragionamento aggiuntivo
Requisiti Elevati di Accuratezza della Valutazione: Adatto a scenari con elevati requisiti di qualità della valutazione
Specifico per Modelli di Ragionamento: Principalmente mirato a modelli con capacità di ragionamento

Bibliografia

Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Sintesi: Sebbene questo articolo sia relativamente semplice in termini di innovazione tecnica, identifica e risolve un problema importante nella valutazione dei modelli di ragionamento. La proposta del framework Answer Regeneration fornisce una soluzione pratica per una valutazione equa e robusta dei modelli di ragionamento, con significato importante nel promuovere la standardizzazione e la riproducibilità in questo campo. Nonostante le limitazioni come il carico computazionale, il suo valore pratico e il contributo alla metodologia di valutazione lo rendono un lavoro di ricerca prezioso.