2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.

academic

Au-delà de la surface : Améliorer l'alignement du LLM-as-a-Judge avec l'humain via les représentations internes

Informations de base

ID de l'article : 2508.03550
Titre : Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Auteurs : Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
Classification : cs.CL (Linguistique informatique)
Conférence de publication : 39e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025)
Lien de l'article : https://arxiv.org/abs/2508.03550

Résumé

Avec l'expansion continue de l'échelle des tâches d'évaluation, le paradigme « LLM-as-a-judge » pour l'évaluation automatisée utilisant les grands modèles de langage a été largement adopté. Cependant, améliorer son alignement avec les préférences humaines sans utiliser d'invites complexes ou d'ajustement fin reste un défi. Les recherches antérieures se concentraient principalement sur l'optimisation basée sur les sorties superficielles, négligeant les représentations riches entre les couches. Inspirée par des découvertes préliminaires selon lesquelles les représentations sémantiques et liées aux tâches encodées dans les couches intermédiaires supérieures s'alignent souvent mieux avec les jugements humains que la couche finale, cette étude propose LAGER, un cadre post-hoc enfichable qui améliore l'alignement de l'évaluation ponctuelle du LLM-as-a-Judge avec les scores humains en exploitant les représentations internes. LAGER produit des scores de jugement granulaires en agrégeant les logits des jetons d'évaluation entre les couches et en calculant les scores attendus à partir de distributions basées sur softmax, tout en maintenant le tronc LLM gelé et en garantissant que le processus d'inférence n'est pas affecté.

Contexte de recherche et motivation

Définition du problème

Problème central : Les méthodes existantes de LLM-as-a-judge dépendent principalement de la sortie de la couche finale pour l'évaluation, négligeant les informations riches des représentations entre les couches du modèle, ce qui entraîne un alignement insuffisant avec les jugements humains.
Importance :
- Le LLM-as-a-judge est largement appliqué dans l'évaluation de modèles, la synthèse de données et l'amélioration de modèles
- Améliorer la précision de l'évaluation et la cohérence avec les préférences humaines est crucial pour la fiabilité des systèmes d'IA
- Les tâches d'évaluation à grande échelle nécessitent des méthodes d'évaluation automatisées efficaces et précises
Limitations des méthodes existantes :
- Les méthodes basées sur les invites nécessitent des étapes de raisonnement complexes, augmentant les coûts de calcul
- Les méthodes d'ajustement fin font face à des problèmes de généralisation avec une adaptabilité limitée
- Les méthodes traditionnelles ne dépendent que de la sortie de la couche finale, négligeant les informations sémantiques des couches intermédiaires
Motivation de la recherche :
- Les études préliminaires révèlent que les couches intermédiaires supérieures (environ 20-30 couches) présentent souvent une corrélation plus élevée avec les scores humains que la couche finale
- Différentes couches encodent différents types d'informations : les couches inférieures se concentrent sur les informations lexicales, les couches intermédiaires supérieures sur les informations sémantiques et globales
- Un besoin de méthode légère et enfichable pour exploiter ces représentations internes

Contributions principales

Proposition du cadre LAGER : Un cadre post-hoc et enfichable qui améliore l'alignement du LLM-as-a-Judge avec les scores humains en agrégeant les représentations internes entre les couches
Découverte des avantages des couches intermédiaires : Démonstration empirique que les représentations des couches intermédiaires supérieures s'alignent mieux avec les jugements humains que la couche finale
Amélioration significative des performances : Réalisation d'améliorations jusqu'à 7,5 % sur trois repères d'alignement standard (Flask, HelpSteer, BIGGen)
Démonstration de la capacité de généralisation : Manifestation de bonnes performances de généralisation dans les applications en aval telles que la sélection de données d'instruction et la compréhension des sentiments
Fourniture d'une solution légère : Nécessite uniquement l'entraînement d'un petit nombre de paramètres de poids (L+1), maintenant le tronc du modèle gelé

Explication détaillée de la méthode

Définition de la tâche

Entrée : Description de la tâche d'évaluation, instruction utilisateur, réponse à évaluer, critères d'évaluation Sortie : Score d'évaluation continu granulaire (plutôt que score entier discret) Contraintes : Maintenir les paramètres du tronc LLM gelés, sans affecter le processus d'inférence existant

Architecture du modèle

1. Cadre de base

Pour les modèles de décodeur, la méthode traditionnelle utilise uniquement l'état caché de la couche finale :

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. Mécanisme central de LAGER

Agrégation des logits entre les couches :

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

Extraction des scores candidats :

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

où M = {Tokenize(s)|s ∈ S} est l'ensemble des jetons de score candidats

Calcul de la distribution de probabilité :

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

Score attendu :

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. Stratégie d'entraînement des poids

Deux configurations de poids sont proposées :

Version sans ajustement : Agrégation moyenne w_l = 1/(L+1)
Version ajustée : Entraînement des poids utilisant une fonction de perte combinée

Fonction de perte :

L_Final = α·L_CE + (1-α)·L_MAE

où la perte d'entropie croisée traite les étiquettes discrètes et la perte MAE traite les scores continus

Points d'innovation technique

Fusion d'informations entre les couches : Utilisation systématique pour la première fois de toutes les représentations internes des couches Transformer pour l'évaluation
Mécanisme de score attendu : Calcul de scores continus via distribution de probabilité plutôt que simple opération argmax
Conception enfichable : Pas de modification des paramètres du modèle original ni du processus d'inférence, application directe aux modèles existants
Entraînement léger : Nécessite uniquement l'entraînement de L+1 paramètres de poids, coût d'entraînement extrêmement faible

Configuration expérimentale

Ensembles de données

Flask : 2 001 entrées, incluant 12 dimensions d'évaluation (concision, perspicacité, lisibilité, etc.)
HelpSteer : 8,95k points de données, évaluation basée sur 5 critères (utilité, exactitude, cohérence, etc.)
BiGGen Bench : Repère d'évaluation complet couvrant 77 tâches, évaluant 9 capacités de génération

Métriques d'évaluation

Métrique principale : Coefficient de corrélation de Spearman (approprié pour les données ordinales, robuste aux valeurs aberrantes)
Métriques auxiliaires : Coefficient de corrélation de Pearson

Méthodes de comparaison

Lignes de base sans entraînement : GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
Modèles API : GPT-4o-mini
Modèles ajustés fins : TIGERScore-7B, Prometheus2-7B (à titre de référence uniquement)

Détails de mise en œuvre

Modèles : 6 modèles de tronc de différentes tailles (7B-70B)
Stratégie de décodage : Décodage glouton pour assurer la stabilité
Conditions d'évaluation : Deux paramètres d'évaluation directe et d'évaluation par inférence
Entraînement des poids : Utilisation de 1 000 échantillons HelpSteer, optimiseur Adam, taux d'apprentissage 0,01

Résultats expérimentaux

Résultats principaux

Amélioration significative des performances :

LAGER surpasse toutes les lignes de base sans entraînement sur tous les repères
Amélioration moyenne de la corrélation de Spearman : 4,5 % pour la version sans ajustement, plus élevée pour la version ajustée
Amélioration maximale de 7,5 % sur certains modèles

Découvertes clés :

Cohérence entre les modèles : Amélioration obtenue sur 6 modèles de différentes tailles
Compétition avec les modèles API : Permet aux modèles open-source d'atteindre le niveau de GPT-4o-mini
Dépassement des méthodes d'ajustement fin : InternLM3-8B et LLaMA3.1-8B surpassent Prometheus2-7B de même taille

Expériences d'ablation

Classement de l'importance des composants :

Score attendu > Score maximal (amélioration +0,17)
Agrégation de logits > Agrégation de probabilité (amélioration +0,07)
Ajustement des poids apporte +0,10 d'amélioration
L'intégration multi-couches a des effets différents selon les modèles

Analyse entre les échelles

Effets d'échelle :

Vérification sur la série Qwen2.5 (0,5B-72B)
L'amélioration de LAGER s'amplifie avec la taille du modèle
Performance optimale atteinte sur le modèle 72B (Flask : 0,658 Spearman)

Analyse de cas

Alignement de distribution :

Les scores générés par LAGER s'alignent mieux avec la distribution des annotations humaines
Divergence KL réduite de 0,312 à 0,087
MSE réduit de 0,112 à 0,060

Travaux connexes

Évaluation de la génération de texte

Métriques traditionnelles : BLEU, ROUGE et autres méthodes statistiques présentent des limitations évidentes
Méthodes d'intégration : BERTScore, BARTScore, etc. nécessitent des réponses de référence
GPTScore : Basé sur les probabilités de génération, mais néglige la qualité sémantique

LLM-as-a-Judge

Évaluation ponctuelle : Évaluation indépendante de réponses individuelles
Comparaison par paires : Comparaison directe de deux réponses
Tri de listes : Classement de plusieurs réponses

Classification des méthodes :

Basées sur les invites : Amélioration du jugement via étapes de raisonnement
Basées sur l'ajustement fin : Entraînement spécialisé de modèles d'évaluation

Conclusions et discussion

Conclusions principales

Avantages des couches intermédiaires : Les représentations des couches intermédiaires supérieures s'alignent effectivement mieux avec les jugements humains que la couche finale
Efficacité légère : L'entraînement d'un petit nombre de paramètres peut améliorer significativement les performances
Raisonnement non nécessaire : Atteinte ou dépassement des méthodes de raisonnement sans étapes de raisonnement explicites
Bonne généralisation : Performances excellentes dans plusieurs tâches en aval

Limitations

Restrictions des modèles open-source : Nécessite l'accès aux états internes du modèle, inapplicable aux modèles API fermés
Surcharge de calcul : Nécessite le calcul supplémentaire des états cachés de toutes les couches
Universalité des poids : Différentes familles de modèles peuvent nécessiter un réentraînement des poids

Directions futures

Analyse théorique : Compréhension approfondie des caractéristiques sémantiques des représentations de différentes couches
Optimisation de l'efficacité : Méthodes pour réduire la surcharge de calcul
Poids adaptatifs : Mécanismes d'ajustement adaptatif des poids de différentes couches

Évaluation approfondie

Avantages

Innovation forte : Utilisation systématique pour la première fois des représentations internes de Transformer pour l'évaluation
Valeur pratique élevée : Conception enfichable, facile à déployer
Expérimentation complète : Évaluation complète sur plusieurs repères et tailles de modèles
Support théorique : Fourniture d'aperçus théoriques via analyse de similarité entre les couches, etc.

Insuffisances

Limitations de portée d'application : Applicable uniquement aux modèles open-source
Explication insuffisante des mécanismes : Manque d'explication théorique approfondie sur pourquoi les couches intermédiaires sont meilleures
Coûts de calcul : Bien que peu de paramètres, l'inférence nécessite le calcul de toutes les couches

Impact

Contribution académique : Nouvelle perspective pour la recherche sur les représentations internes des LLM
Valeur pratique : Outil efficace pour l'évaluation des modèles open-source
Reproductibilité : Code public, expériences reproductibles

Scénarios d'application

Évaluation de modèles : Amélioration des processus d'évaluation existants
Filtrage de données : Sélection de données d'entraînement de haute qualité
Contrôle de qualité : Évaluation automatique de la qualité du contenu généré
Outil de recherche : Recherche sur les mécanismes internes des LLM

Références

Cet article cite de nombreux travaux connexes, notamment :

Recherches liées au LLM-as-a-judge (Lin & Chen, 2023 ; Liu et al., 2023, etc.)
Recherches sur les représentations internes (Wang et al., 2020 ; Yang et al., 2022, etc.)
Repères et méthodes d'évaluation (Ye et al., 2024 ; Kim et al., 2024, etc.)

Évaluation globale : Ceci est un article de recherche de haute qualité proposant le cadre innovant LAGER, qui améliore significativement l'alignement de l'évaluation automatisée avec les jugements humains en exploitant les représentations internes des LLM. La méthode est simple et efficace, l'expérimentation est complète et rigoureuse, avec une valeur académique et pratique importante. La principale limitation réside dans son applicabilité uniquement aux modèles open-source, mais dans le contexte du développement rapide des LLM open-source actuels, ce travail conserve des perspectives d'application larges.