Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
Oltre la Superficie: Migliorare l'Allineamento LLM-as-a-Judge con gli Umani tramite Rappresentazioni Interne
Con l'espansione continua della scala dei compiti di valutazione, il paradigma "LLM-as-a-judge" per la valutazione automatizzata tramite modelli di linguaggio di grandi dimensioni ha ottenuto un'ampia adozione. Tuttavia, migliorare l'allineamento con le preferenze umane senza utilizzare prompt complessi o fine-tuning rimane una sfida. Ricerche precedenti si sono principalmente concentrate sull'ottimizzazione basata su output superficiali, trascurando le ricche rappresentazioni cross-layer. Questo studio, ispirato da scoperte preliminari secondo cui le rappresentazioni semantiche e correlate ai compiti codificate nei layer intermedi-superiori spesso si allineano meglio con i giudizi umani rispetto al layer finale, propone LAGER, un framework post-hoc plug-and-play che migliora l'allineamento della valutazione puntuale LLM-as-a-Judge con i punteggi umani sfruttando le rappresentazioni interne. LAGER produce giudizi di valutazione a grana fine aggregando i logit dei token di valutazione cross-layer e calcolando i punteggi attesi da distribuzioni basate su softmax, mantenendo il backbone LLM congelato e garantendo l'assenza di impatto sul processo di inferenza.
Problema Centrale: I metodi LLM-as-a-judge esistenti si basano principalmente sull'output del layer finale per la valutazione, trascurando le ricche informazioni di rappresentazione cross-layer all'interno del modello, determinando un allineamento non ideale con i giudizi umani.
Importanza:
LLM-as-a-judge ha applicazioni diffuse nella valutazione di modelli, sintesi di dati e potenziamento di modelli
Migliorare l'accuratezza della valutazione e la coerenza con le preferenze umane è cruciale per l'affidabilità dei sistemi di IA
I compiti di valutazione su larga scala richiedono metodi di valutazione automatizzati efficienti e accurati
Limitazioni dei Metodi Esistenti:
I metodi basati su prompt richiedono passaggi di ragionamento complessi, aumentando i costi computazionali
I metodi di fine-tuning affrontano problemi di generalizzazione con adattabilità limitata
I metodi tradizionali si basano solo sull'output del layer finale, trascurando le informazioni semantiche dei layer intermedi
Motivazione della Ricerca:
Studi preliminari rivelano che i layer intermedi-superiori (circa 20-30 layer) spesso mostrano correlazione più elevata con i punteggi umani rispetto al layer finale
Diversi layer codificano diversi tipi di informazioni: i layer inferiori si concentrano su informazioni lessicali, i layer intermedi-superiori su informazioni semantiche e globali
È necessario un metodo leggero e plug-and-play per sfruttare queste rappresentazioni interne
Propone il Framework LAGER: Un framework post-hoc e plug-and-play che migliora l'allineamento di LLM-as-a-judge con i punteggi umani aggregando rappresentazioni interne cross-layer
Scopre i Vantaggi dei Layer Intermedi: Dimostra empiricamente che le rappresentazioni dei layer intermedi-superiori si allineano meglio con i giudizi umani rispetto al layer finale
Realizza Miglioramenti Significativi delle Prestazioni: Raggiunge miglioramenti fino al 7,5% su tre benchmark standard di allineamento: Flask, HelpSteer e BIGGen
Dimostra Capacità di Generalizzazione: Mostra buone prestazioni di generalizzazione in applicazioni downstream come la selezione di dati di istruzioni e la comprensione del sentimento
Fornisce una Soluzione Leggera: Richiede l'addestramento di soli pochi parametri di peso (L+1), mantenendo il backbone del modello congelato
Input: Descrizione del compito di valutazione, istruzione dell'utente, risposta da valutare, criteri di valutazione
Output: Punteggio di valutazione continuo a grana fine (anziché punteggio intero discreto)
Vincoli: Mantenere i parametri del backbone LLM congelati, senza impatto sul processo di inferenza originale
Vantaggi dei Layer Intermedi: Le rappresentazioni dei layer intermedi-superiori si allineano effettivamente meglio con i giudizi umani rispetto al layer finale
Efficacia Leggera: L'addestramento di soli pochi parametri può migliorare significativamente le prestazioni
Ragionamento Non Necessario: È possibile raggiungere o superare i metodi basati su ragionamento senza passaggi di ragionamento espliciti
Buona Generalizzazione: Prestazioni eccellenti in più compiti downstream
Questo articolo cita numerosi lavori correlati, inclusi:
Ricerche correlate a LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023, ecc.)
Ricerche sulle rappresentazioni interne (Wang et al., 2020; Yang et al., 2022, ecc.)
Benchmark e metodi di valutazione (Ye et al., 2024; Kim et al., 2024, ecc.)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone il framework innovativo LAGER, migliorando significativamente l'allineamento dell'IA umana della valutazione automatizzata sfruttando le rappresentazioni interne di LLM. Il metodo è semplice ed efficace, gli esperimenti sono completi e approfonditi, con importante valore accademico e pratico significativo. La principale limitazione è l'applicabilità solo ai modelli open-source, ma nel contesto dell'attuale rapido sviluppo di LLM open-source, questo lavoro mantiene ancora ampie prospettive di applicazione.