2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.

academic

Oltre la Superficie: Migliorare l'Allineamento LLM-as-a-Judge con gli Umani tramite Rappresentazioni Interne

Informazioni Fondamentali

ID Articolo: 2508.03550
Titolo: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Autori: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
Classificazione: cs.CL (Linguistica Computazionale)
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Link Articolo: https://arxiv.org/abs/2508.03550

Riassunto

Con l'espansione continua della scala dei compiti di valutazione, il paradigma "LLM-as-a-judge" per la valutazione automatizzata tramite modelli di linguaggio di grandi dimensioni ha ottenuto un'ampia adozione. Tuttavia, migliorare l'allineamento con le preferenze umane senza utilizzare prompt complessi o fine-tuning rimane una sfida. Ricerche precedenti si sono principalmente concentrate sull'ottimizzazione basata su output superficiali, trascurando le ricche rappresentazioni cross-layer. Questo studio, ispirato da scoperte preliminari secondo cui le rappresentazioni semantiche e correlate ai compiti codificate nei layer intermedi-superiori spesso si allineano meglio con i giudizi umani rispetto al layer finale, propone LAGER, un framework post-hoc plug-and-play che migliora l'allineamento della valutazione puntuale LLM-as-a-Judge con i punteggi umani sfruttando le rappresentazioni interne. LAGER produce giudizi di valutazione a grana fine aggregando i logit dei token di valutazione cross-layer e calcolando i punteggi attesi da distribuzioni basate su softmax, mantenendo il backbone LLM congelato e garantendo l'assenza di impatto sul processo di inferenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I metodi LLM-as-a-judge esistenti si basano principalmente sull'output del layer finale per la valutazione, trascurando le ricche informazioni di rappresentazione cross-layer all'interno del modello, determinando un allineamento non ideale con i giudizi umani.
Importanza:
- LLM-as-a-judge ha applicazioni diffuse nella valutazione di modelli, sintesi di dati e potenziamento di modelli
- Migliorare l'accuratezza della valutazione e la coerenza con le preferenze umane è cruciale per l'affidabilità dei sistemi di IA
- I compiti di valutazione su larga scala richiedono metodi di valutazione automatizzati efficienti e accurati
Limitazioni dei Metodi Esistenti:
- I metodi basati su prompt richiedono passaggi di ragionamento complessi, aumentando i costi computazionali
- I metodi di fine-tuning affrontano problemi di generalizzazione con adattabilità limitata
- I metodi tradizionali si basano solo sull'output del layer finale, trascurando le informazioni semantiche dei layer intermedi
Motivazione della Ricerca:
- Studi preliminari rivelano che i layer intermedi-superiori (circa 20-30 layer) spesso mostrano correlazione più elevata con i punteggi umani rispetto al layer finale
- Diversi layer codificano diversi tipi di informazioni: i layer inferiori si concentrano su informazioni lessicali, i layer intermedi-superiori su informazioni semantiche e globali
- È necessario un metodo leggero e plug-and-play per sfruttare queste rappresentazioni interne

Contributi Principali

Propone il Framework LAGER: Un framework post-hoc e plug-and-play che migliora l'allineamento di LLM-as-a-judge con i punteggi umani aggregando rappresentazioni interne cross-layer
Scopre i Vantaggi dei Layer Intermedi: Dimostra empiricamente che le rappresentazioni dei layer intermedi-superiori si allineano meglio con i giudizi umani rispetto al layer finale
Realizza Miglioramenti Significativi delle Prestazioni: Raggiunge miglioramenti fino al 7,5% su tre benchmark standard di allineamento: Flask, HelpSteer e BIGGen
Dimostra Capacità di Generalizzazione: Mostra buone prestazioni di generalizzazione in applicazioni downstream come la selezione di dati di istruzioni e la comprensione del sentimento
Fornisce una Soluzione Leggera: Richiede l'addestramento di soli pochi parametri di peso (L+1), mantenendo il backbone del modello congelato

Dettagli del Metodo

Definizione del Compito

Input: Descrizione del compito di valutazione, istruzione dell'utente, risposta da valutare, criteri di valutazione Output: Punteggio di valutazione continuo a grana fine (anziché punteggio intero discreto) Vincoli: Mantenere i parametri del backbone LLM congelati, senza impatto sul processo di inferenza originale

Architettura del Modello

1. Framework di Base

Per i modelli decoder, il metodo tradizionale utilizza solo lo stato nascosto del layer finale:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. Meccanismo Principale di LAGER

Aggregazione di Logit Cross-Layer:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

Estrazione di Punteggi Candidati:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

dove M = {Tokenize(s)|s ∈ S} è l'insieme di token di punteggio candidati

Calcolo della Distribuzione di Probabilità:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

Punteggio Atteso:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. Strategia di Addestramento dei Pesi

Fornisce due impostazioni di peso:

Versione Senza Ottimizzazione: Aggregazione media w_l = 1/(L+1)
Versione Ottimizzata: Addestramento dei pesi utilizzando una funzione di perdita composita

Funzione di Perdita:

L_Final = α·L_CE + (1-α)·L_MAE

dove la perdita di entropia incrociata gestisce etichette discrete e la perdita MAE gestisce punteggi continui

Punti di Innovazione Tecnica

Fusione di Informazioni Cross-Layer: Primo utilizzo sistematico delle rappresentazioni interne di tutti i layer di Transformer per la valutazione
Meccanismo di Punteggio Atteso: Calcola punteggi continui tramite distribuzione di probabilità, anziché semplice operazione argmax
Design Plug-and-Play: Non modifica i parametri del modello originale e il processo di inferenza, applicabile direttamente ai modelli esistenti
Addestramento Leggero: Richiede l'addestramento di soli L+1 parametri di peso con costo di addestramento minimo

Configurazione Sperimentale

Dataset

Flask: 2.001 voci, contenenti 12 dimensioni di valutazione (concisione, perspicacia, leggibilità, ecc.)
HelpSteer: 8.95k punti dati, valutazione basata su 5 standard (utilità, correttezza, coerenza, ecc.)
BiGGen Bench: Benchmark di valutazione completo che copre 77 compiti, valutando 9 capacità generative

Metriche di Valutazione

Metrica Principale: Coefficiente di Correlazione di Spearman (appropriato per dati ordinali, robusto agli outlier)
Metriche Ausiliarie: Coefficiente di Correlazione di Pearson

Metodi di Confronto

Baseline Senza Addestramento: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
Modelli API: GPT-4o-mini
Modelli Fine-Tuned: TIGERScore-7B, Prometheus2-7B (solo per riferimento)

Dettagli di Implementazione

Modelli: 6 modelli backbone di diverse dimensioni (7B-70B)
Strategia di Decodifica: Decodifica greedy per garantire stabilità
Condizioni di Valutazione: Valutazione diretta e impostazioni di valutazione con inferenza
Addestramento dei Pesi: Utilizzo di 1000 campioni HelpSteer, ottimizzatore Adam, tasso di apprendimento 0,01

Risultati Sperimentali

Risultati Principali

Miglioramenti Significativi delle Prestazioni:

LAGER supera tutti i baseline senza addestramento su tutti i benchmark
Miglioramento medio della correlazione di Spearman: versione senza ottimizzazione +4,5%, versione ottimizzata superiore
Raggiunge il massimo miglioramento del 7,5% su alcuni modelli

Scoperte Chiave:

Coerenza Cross-Modello: Miglioramenti ottenuti su 6 modelli di diverse dimensioni
Competizione con Modelli API: Consente ai modelli open-source di raggiungere il livello di GPT-4o-mini
Superamento di Metodi Fine-Tuned: InternLM3-8B e LLaMA3.1-8B superano Prometheus2-7B della stessa dimensione

Esperimenti di Ablazione

Ranking di Importanza dei Componenti:

Punteggio Atteso > Punteggio Massimo (miglioramento +0,17)
Aggregazione di Logit > Aggregazione di Probabilità (miglioramento +0,07)
Ottimizzazione dei Pesi apporta miglioramento +0,10
L'integrazione multi-layer ha effetti diversi su modelli diversi

Analisi Cross-Scale

Effetti di Scala:

Verifica sulla serie Qwen2.5 (0,5B-72B)
I miglioramenti di LAGER si amplificano con l'aumento della dimensione del modello
Prestazioni ottimali raggiunte sul modello 72B (Flask: 0,658 Spearman)

Analisi di Casi

Allineamento di Distribuzione:

La distribuzione dei punteggi generata da LAGER si allinea più strettamente con le annotazioni umane
La divergenza KL diminuisce da 0,312 a 0,087
MSE diminuisce da 0,112 a 0,060

Lavori Correlati

Valutazione della Generazione di Testo

Metriche Tradizionali: BLEU, ROUGE e altri metodi statistici con evidenti limitazioni
Metodi Basati su Embedding: BERTScore, BARTScore, ecc. richiedono risposte di riferimento
GPTScore: Basato su probabilità di generazione, ma trascura la qualità semantica

LLM-as-a-Judge

Valutazione Puntuale: Valutazione indipendente di singole risposte
Confronto Pairwise: Confronto diretto di due risposte
Ordinamento di Lista: Ordinamento di più risposte

Classificazione dei Metodi:

Basati su Prompt: Miglioramento del giudizio tramite passaggi di ragionamento
Basati su Fine-Tuning: Addestramento specializzato di modelli di valutazione

Conclusioni e Discussione

Conclusioni Principali

Vantaggi dei Layer Intermedi: Le rappresentazioni dei layer intermedi-superiori si allineano effettivamente meglio con i giudizi umani rispetto al layer finale
Efficacia Leggera: L'addestramento di soli pochi parametri può migliorare significativamente le prestazioni
Ragionamento Non Necessario: È possibile raggiungere o superare i metodi basati su ragionamento senza passaggi di ragionamento espliciti
Buona Generalizzazione: Prestazioni eccellenti in più compiti downstream

Limitazioni

Limitazioni dei Modelli Open-Source: Richiede accesso agli stati interni del modello, non applicabile ai modelli API closed-source
Overhead Computazionale: Richiede calcolo aggiuntivo degli stati nascosti di tutti i layer
Universalità dei Pesi: Diverse famiglie di modelli potrebbero richiedere un nuovo addestramento dei pesi

Direzioni Future

Analisi Teorica: Comprensione più profonda delle caratteristiche semantiche delle rappresentazioni di diversi layer
Ottimizzazione dell'Efficienza: Metodi per ridurre l'overhead computazionale
Pesi Adattivi: Meccanismi per regolare adattivamente i pesi di diversi layer

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo utilizzo sistematico delle rappresentazioni interne di Transformer per la valutazione
Alto Valore Pratico: Design plug-and-play, facile da distribuire
Esperimenti Completi: Valutazione completa su più benchmark e scale di modelli
Supporto Teorico: Fornisce intuizioni teoriche tramite analisi di similarità tra layer

Insufficienze

Limitazioni di Applicabilità: Applicabile solo ai modelli open-source
Spiegazione Insufficiente del Meccanismo: Manca spiegazione teorica approfondita del perché i layer intermedi siano migliori
Costo Computazionale: Sebbene i parametri siano pochi, l'inferenza richiede il calcolo di tutti i layer

Impatto

Contributo Accademico: Fornisce una nuova prospettiva per la ricerca sulle rappresentazioni interne di LLM
Valore Pratico: Fornisce uno strumento efficace per la valutazione di modelli open-source
Riproducibilità: Codice pubblico, esperimenti riproducibili

Scenari Applicabili

Valutazione di Modelli: Miglioramento dei processi di valutazione esistenti
Filtraggio di Dati: Filtraggio di dati di addestramento di alta qualità
Controllo di Qualità: Valutazione automatica della qualità dei contenuti generati
Strumenti di Ricerca: Ricerca sui meccanismi interni di LLM

Riferimenti Bibliografici

Questo articolo cita numerosi lavori correlati, inclusi:

Ricerche correlate a LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023, ecc.)
Ricerche sulle rappresentazioni interne (Wang et al., 2020; Yang et al., 2022, ecc.)
Benchmark e metodi di valutazione (Ye et al., 2024; Kim et al., 2024, ecc.)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone il framework innovativo LAGER, migliorando significativamente l'allineamento dell'IA umana della valutazione automatizzata sfruttando le rappresentazioni interne di LLM. Il metodo è semplice ed efficace, gli esperimenti sono completi e approfonditi, con importante valore accademico e pratico significativo. La principale limitazione è l'applicabilità solo ai modelli open-source, ma nel contesto dell'attuale rapido sviluppo di LLM open-source, questo lavoro mantiene ancora ampie prospettive di applicazione.