2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic

Oltre la Superficie: Migliorare l'Allineamento LLM-as-a-Judge con gli Umani tramite Rappresentazioni Interne

Informazioni Fondamentali

  • ID Articolo: 2508.03550
  • Titolo: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
  • Autori: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Link Articolo: https://arxiv.org/abs/2508.03550

Riassunto

Con l'espansione continua della scala dei compiti di valutazione, il paradigma "LLM-as-a-judge" per la valutazione automatizzata tramite modelli di linguaggio di grandi dimensioni ha ottenuto un'ampia adozione. Tuttavia, migliorare l'allineamento con le preferenze umane senza utilizzare prompt complessi o fine-tuning rimane una sfida. Ricerche precedenti si sono principalmente concentrate sull'ottimizzazione basata su output superficiali, trascurando le ricche rappresentazioni cross-layer. Questo studio, ispirato da scoperte preliminari secondo cui le rappresentazioni semantiche e correlate ai compiti codificate nei layer intermedi-superiori spesso si allineano meglio con i giudizi umani rispetto al layer finale, propone LAGER, un framework post-hoc plug-and-play che migliora l'allineamento della valutazione puntuale LLM-as-a-Judge con i punteggi umani sfruttando le rappresentazioni interne. LAGER produce giudizi di valutazione a grana fine aggregando i logit dei token di valutazione cross-layer e calcolando i punteggi attesi da distribuzioni basate su softmax, mantenendo il backbone LLM congelato e garantendo l'assenza di impatto sul processo di inferenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: I metodi LLM-as-a-judge esistenti si basano principalmente sull'output del layer finale per la valutazione, trascurando le ricche informazioni di rappresentazione cross-layer all'interno del modello, determinando un allineamento non ideale con i giudizi umani.
  2. Importanza:
    • LLM-as-a-judge ha applicazioni diffuse nella valutazione di modelli, sintesi di dati e potenziamento di modelli
    • Migliorare l'accuratezza della valutazione e la coerenza con le preferenze umane è cruciale per l'affidabilità dei sistemi di IA
    • I compiti di valutazione su larga scala richiedono metodi di valutazione automatizzati efficienti e accurati
  3. Limitazioni dei Metodi Esistenti:
    • I metodi basati su prompt richiedono passaggi di ragionamento complessi, aumentando i costi computazionali
    • I metodi di fine-tuning affrontano problemi di generalizzazione con adattabilità limitata
    • I metodi tradizionali si basano solo sull'output del layer finale, trascurando le informazioni semantiche dei layer intermedi
  4. Motivazione della Ricerca:
    • Studi preliminari rivelano che i layer intermedi-superiori (circa 20-30 layer) spesso mostrano correlazione più elevata con i punteggi umani rispetto al layer finale
    • Diversi layer codificano diversi tipi di informazioni: i layer inferiori si concentrano su informazioni lessicali, i layer intermedi-superiori su informazioni semantiche e globali
    • È necessario un metodo leggero e plug-and-play per sfruttare queste rappresentazioni interne

Contributi Principali

  1. Propone il Framework LAGER: Un framework post-hoc e plug-and-play che migliora l'allineamento di LLM-as-a-judge con i punteggi umani aggregando rappresentazioni interne cross-layer
  2. Scopre i Vantaggi dei Layer Intermedi: Dimostra empiricamente che le rappresentazioni dei layer intermedi-superiori si allineano meglio con i giudizi umani rispetto al layer finale
  3. Realizza Miglioramenti Significativi delle Prestazioni: Raggiunge miglioramenti fino al 7,5% su tre benchmark standard di allineamento: Flask, HelpSteer e BIGGen
  4. Dimostra Capacità di Generalizzazione: Mostra buone prestazioni di generalizzazione in applicazioni downstream come la selezione di dati di istruzioni e la comprensione del sentimento
  5. Fornisce una Soluzione Leggera: Richiede l'addestramento di soli pochi parametri di peso (L+1), mantenendo il backbone del modello congelato

Dettagli del Metodo

Definizione del Compito

Input: Descrizione del compito di valutazione, istruzione dell'utente, risposta da valutare, criteri di valutazione Output: Punteggio di valutazione continuo a grana fine (anziché punteggio intero discreto) Vincoli: Mantenere i parametri del backbone LLM congelati, senza impatto sul processo di inferenza originale

Architettura del Modello

1. Framework di Base

Per i modelli decoder, il metodo tradizionale utilizza solo lo stato nascosto del layer finale:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. Meccanismo Principale di LAGER

Aggregazione di Logit Cross-Layer:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

Estrazione di Punteggi Candidati:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

dove M = {Tokenize(s)|s ∈ S} è l'insieme di token di punteggio candidati

Calcolo della Distribuzione di Probabilità:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

Punteggio Atteso:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. Strategia di Addestramento dei Pesi

Fornisce due impostazioni di peso:

  • Versione Senza Ottimizzazione: Aggregazione media w_l = 1/(L+1)
  • Versione Ottimizzata: Addestramento dei pesi utilizzando una funzione di perdita composita

Funzione di Perdita:

L_Final = α·L_CE + (1-α)·L_MAE

dove la perdita di entropia incrociata gestisce etichette discrete e la perdita MAE gestisce punteggi continui

Punti di Innovazione Tecnica

  1. Fusione di Informazioni Cross-Layer: Primo utilizzo sistematico delle rappresentazioni interne di tutti i layer di Transformer per la valutazione
  2. Meccanismo di Punteggio Atteso: Calcola punteggi continui tramite distribuzione di probabilità, anziché semplice operazione argmax
  3. Design Plug-and-Play: Non modifica i parametri del modello originale e il processo di inferenza, applicabile direttamente ai modelli esistenti
  4. Addestramento Leggero: Richiede l'addestramento di soli L+1 parametri di peso con costo di addestramento minimo

Configurazione Sperimentale

Dataset

  1. Flask: 2.001 voci, contenenti 12 dimensioni di valutazione (concisione, perspicacia, leggibilità, ecc.)
  2. HelpSteer: 8.95k punti dati, valutazione basata su 5 standard (utilità, correttezza, coerenza, ecc.)
  3. BiGGen Bench: Benchmark di valutazione completo che copre 77 compiti, valutando 9 capacità generative

Metriche di Valutazione

  • Metrica Principale: Coefficiente di Correlazione di Spearman (appropriato per dati ordinali, robusto agli outlier)
  • Metriche Ausiliarie: Coefficiente di Correlazione di Pearson

Metodi di Confronto

  1. Baseline Senza Addestramento: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
  2. Modelli API: GPT-4o-mini
  3. Modelli Fine-Tuned: TIGERScore-7B, Prometheus2-7B (solo per riferimento)

Dettagli di Implementazione

  • Modelli: 6 modelli backbone di diverse dimensioni (7B-70B)
  • Strategia di Decodifica: Decodifica greedy per garantire stabilità
  • Condizioni di Valutazione: Valutazione diretta e impostazioni di valutazione con inferenza
  • Addestramento dei Pesi: Utilizzo di 1000 campioni HelpSteer, ottimizzatore Adam, tasso di apprendimento 0,01

Risultati Sperimentali

Risultati Principali

Miglioramenti Significativi delle Prestazioni:

  • LAGER supera tutti i baseline senza addestramento su tutti i benchmark
  • Miglioramento medio della correlazione di Spearman: versione senza ottimizzazione +4,5%, versione ottimizzata superiore
  • Raggiunge il massimo miglioramento del 7,5% su alcuni modelli

Scoperte Chiave:

  1. Coerenza Cross-Modello: Miglioramenti ottenuti su 6 modelli di diverse dimensioni
  2. Competizione con Modelli API: Consente ai modelli open-source di raggiungere il livello di GPT-4o-mini
  3. Superamento di Metodi Fine-Tuned: InternLM3-8B e LLaMA3.1-8B superano Prometheus2-7B della stessa dimensione

Esperimenti di Ablazione

Ranking di Importanza dei Componenti:

  1. Punteggio Atteso > Punteggio Massimo (miglioramento +0,17)
  2. Aggregazione di Logit > Aggregazione di Probabilità (miglioramento +0,07)
  3. Ottimizzazione dei Pesi apporta miglioramento +0,10
  4. L'integrazione multi-layer ha effetti diversi su modelli diversi

Analisi Cross-Scale

Effetti di Scala:

  • Verifica sulla serie Qwen2.5 (0,5B-72B)
  • I miglioramenti di LAGER si amplificano con l'aumento della dimensione del modello
  • Prestazioni ottimali raggiunte sul modello 72B (Flask: 0,658 Spearman)

Analisi di Casi

Allineamento di Distribuzione:

  • La distribuzione dei punteggi generata da LAGER si allinea più strettamente con le annotazioni umane
  • La divergenza KL diminuisce da 0,312 a 0,087
  • MSE diminuisce da 0,112 a 0,060

Lavori Correlati

Valutazione della Generazione di Testo

  • Metriche Tradizionali: BLEU, ROUGE e altri metodi statistici con evidenti limitazioni
  • Metodi Basati su Embedding: BERTScore, BARTScore, ecc. richiedono risposte di riferimento
  • GPTScore: Basato su probabilità di generazione, ma trascura la qualità semantica

LLM-as-a-Judge

  1. Valutazione Puntuale: Valutazione indipendente di singole risposte
  2. Confronto Pairwise: Confronto diretto di due risposte
  3. Ordinamento di Lista: Ordinamento di più risposte

Classificazione dei Metodi:

  • Basati su Prompt: Miglioramento del giudizio tramite passaggi di ragionamento
  • Basati su Fine-Tuning: Addestramento specializzato di modelli di valutazione

Conclusioni e Discussione

Conclusioni Principali

  1. Vantaggi dei Layer Intermedi: Le rappresentazioni dei layer intermedi-superiori si allineano effettivamente meglio con i giudizi umani rispetto al layer finale
  2. Efficacia Leggera: L'addestramento di soli pochi parametri può migliorare significativamente le prestazioni
  3. Ragionamento Non Necessario: È possibile raggiungere o superare i metodi basati su ragionamento senza passaggi di ragionamento espliciti
  4. Buona Generalizzazione: Prestazioni eccellenti in più compiti downstream

Limitazioni

  1. Limitazioni dei Modelli Open-Source: Richiede accesso agli stati interni del modello, non applicabile ai modelli API closed-source
  2. Overhead Computazionale: Richiede calcolo aggiuntivo degli stati nascosti di tutti i layer
  3. Universalità dei Pesi: Diverse famiglie di modelli potrebbero richiedere un nuovo addestramento dei pesi

Direzioni Future

  1. Analisi Teorica: Comprensione più profonda delle caratteristiche semantiche delle rappresentazioni di diversi layer
  2. Ottimizzazione dell'Efficienza: Metodi per ridurre l'overhead computazionale
  3. Pesi Adattivi: Meccanismi per regolare adattivamente i pesi di diversi layer

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo utilizzo sistematico delle rappresentazioni interne di Transformer per la valutazione
  2. Alto Valore Pratico: Design plug-and-play, facile da distribuire
  3. Esperimenti Completi: Valutazione completa su più benchmark e scale di modelli
  4. Supporto Teorico: Fornisce intuizioni teoriche tramite analisi di similarità tra layer

Insufficienze

  1. Limitazioni di Applicabilità: Applicabile solo ai modelli open-source
  2. Spiegazione Insufficiente del Meccanismo: Manca spiegazione teorica approfondita del perché i layer intermedi siano migliori
  3. Costo Computazionale: Sebbene i parametri siano pochi, l'inferenza richiede il calcolo di tutti i layer

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva per la ricerca sulle rappresentazioni interne di LLM
  2. Valore Pratico: Fornisce uno strumento efficace per la valutazione di modelli open-source
  3. Riproducibilità: Codice pubblico, esperimenti riproducibili

Scenari Applicabili

  1. Valutazione di Modelli: Miglioramento dei processi di valutazione esistenti
  2. Filtraggio di Dati: Filtraggio di dati di addestramento di alta qualità
  3. Controllo di Qualità: Valutazione automatica della qualità dei contenuti generati
  4. Strumenti di Ricerca: Ricerca sui meccanismi interni di LLM

Riferimenti Bibliografici

Questo articolo cita numerosi lavori correlati, inclusi:

  • Ricerche correlate a LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023, ecc.)
  • Ricerche sulle rappresentazioni interne (Wang et al., 2020; Yang et al., 2022, ecc.)
  • Benchmark e metodi di valutazione (Ye et al., 2024; Kim et al., 2024, ecc.)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone il framework innovativo LAGER, migliorando significativamente l'allineamento dell'IA umana della valutazione automatizzata sfruttando le rappresentazioni interne di LLM. Il metodo è semplice ed efficace, gli esperimenti sono completi e approfonditi, con importante valore accademico e pratico significativo. La principale limitazione è l'applicabilità solo ai modelli open-source, ma nel contesto dell'attuale rapido sviluppo di LLM open-source, questo lavoro mantiene ancora ampie prospettive di applicazione.