Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic
Trovare Risposte nel Pensiero Importa: Rivisitazione della Valutazione dei Modelli di Linguaggio di Grandi Dimensioni con Ragionamento
Questo articolo affronta una questione critica nella valutazione delle capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM): l'impatto significativo dei metodi di estrazione delle risposte sulla valutazione delle prestazioni del modello. Lo studio rivela che le prestazioni dei modelli di ragionamento e la distribuzione delle risposte finali dipendono fortemente dall'algoritmo di estrazione delle risposte adottato. Per affrontare questo problema, gli autori propongono il framework "Answer Regeneration" (Rigenerazione della Risposta), che attraverso ulteriori fasi di ragionamento del modello, utilizza il prefisso "Answer:" per rigenerare la risposta finale, realizzando così una valutazione robusta indipendente dalle regole di estrazione.
La valutazione tradizionale degli LLM si basa solitamente sulla distribuzione di probabilità della scelta della risposta, ma per i modelli che richiedono ragionamento, il metodo di estrazione della risposta diventa cruciale. I metodi di estrazione basati su regole esistenti presentano i seguenti problemi:
Diversità di Formato: I modelli di ragionamento producono formati di output estremamente vari, e una singola regola di estrazione non può coprire tutti i casi
Differenze tra Modelli: Diversi modelli utilizzano diversi formati di risposta, richiedendo regole di estrazione personalizzate per ogni modello
Incoerenza nella Valutazione: Lo stesso output del modello potrebbe ricevere valutazioni completamente diverse a causa di diverse regole di estrazione
Problemi di Riproducibilità: Le differenze tra le prestazioni pubblicamente riportate e i risultati riprodotti potrebbero derivare da metodi di estrazione delle risposte non divulgati
Equità della Valutazione: I metodi basati su regole potrebbero introdurre pregiudizi verso determinati modelli
Specificità dei Modelli di Ragionamento: La complessità dell'output del ragionamento Chain-of-Thought (CoT) rende i metodi di valutazione tradizionali inadeguati
Primo studio sistematico sulla sensibilità dei metodi di estrazione delle risposte nella valutazione dei modelli di ragionamento, rivelando questo problema critico ma trascurato
Proposta del framework Answer Regeneration, che realizza un metodo di valutazione robusto indipendente dalle regole di estrazione
Dimostrazione della versatilità del metodo, con miglioramenti su molteplici tipi di compiti inclusi domande a scelta multipla, problemi matematici e domande aperte
Fornitura di un ordinamento più affidabile dei modelli, rendendo i risultati della valutazione più intuitivi (ad esempio, modelli più grandi superiori a modelli più piccoli)
Dato l'output di un modello di ragionamento (contenente il processo di ragionamento completo), è necessario estrarre accuratamente la risposta finale per la valutazione. I metodi tradizionali si basano su regole di espressioni regolari create manualmente, mentre questo articolo propone una soluzione generativa.
A differenza del tradizionale abbinamento di regole, utilizza la capacità generativa del modello stesso per "riformulare" la risposta finale, evitando la complessità dell'analisi del formato.
Separa il processo di ragionamento dalla generazione della risposta, con la fase di ragionamento focalizzata sul processo di pensiero e la fase di generazione focalizzata sull'output della risposta.
Il framework si adatta automaticamente a diversi tipi di compiti e formati di risposta, senza richiedere ottimizzazione specifica per modelli o compiti particolari.
Ricerche precedenti si sono concentrate sui cambiamenti di prompt a livello di input che influenzano le prestazioni, ma manca uno studio sistematico sull'estrazione delle risposte a livello di output.
Il metodo di estrazione delle risposte ha un impatto decisivo sulla valutazione dei modelli di ragionamento, con differenze di prestazioni superiori al 10%
Answer Regeneration fornisce uno schema di valutazione più robusto, superiore alle regole manuali su molteplici compiti
L'equità della valutazione è migliorata, con ordinamento dei modelli più coerente con le aspettative intuitive
Rivela sistematicamente per la prima volta un problema critico ma trascurato nell'estrazione delle risposte, con significato importante per la valutazione dei modelli di ragionamento.
I passi di ragionamento aggiuntivi aumenteranno significativamente il costo di valutazione, potendo diventare un collo di bottiglia in valutazioni su larga scala.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
Sintesi: Sebbene questo articolo sia relativamente semplice in termini di innovazione tecnica, identifica e risolve un problema importante nella valutazione dei modelli di ragionamento. La proposta del framework Answer Regeneration fornisce una soluzione pratica per una valutazione equa e robusta dei modelli di ragionamento, con significato importante nel promuovere la standardizzazione e la riproducibilità in questo campo. Nonostante le limitazioni come il carico computazionale, il suo valore pratico e il contributo alla metodologia di valutazione lo rendono un lavoro di ricerca prezioso.