Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
Au-delà de la surface : Améliorer l'alignement du LLM-as-a-Judge avec l'humain via les représentations internes
Avec l'expansion continue de l'échelle des tâches d'évaluation, le paradigme « LLM-as-a-judge » pour l'évaluation automatisée utilisant les grands modèles de langage a été largement adopté. Cependant, améliorer son alignement avec les préférences humaines sans utiliser d'invites complexes ou d'ajustement fin reste un défi. Les recherches antérieures se concentraient principalement sur l'optimisation basée sur les sorties superficielles, négligeant les représentations riches entre les couches. Inspirée par des découvertes préliminaires selon lesquelles les représentations sémantiques et liées aux tâches encodées dans les couches intermédiaires supérieures s'alignent souvent mieux avec les jugements humains que la couche finale, cette étude propose LAGER, un cadre post-hoc enfichable qui améliore l'alignement de l'évaluation ponctuelle du LLM-as-a-Judge avec les scores humains en exploitant les représentations internes. LAGER produit des scores de jugement granulaires en agrégeant les logits des jetons d'évaluation entre les couches et en calculant les scores attendus à partir de distributions basées sur softmax, tout en maintenant le tronc LLM gelé et en garantissant que le processus d'inférence n'est pas affecté.
Problème central : Les méthodes existantes de LLM-as-a-judge dépendent principalement de la sortie de la couche finale pour l'évaluation, négligeant les informations riches des représentations entre les couches du modèle, ce qui entraîne un alignement insuffisant avec les jugements humains.
Importance :
Le LLM-as-a-judge est largement appliqué dans l'évaluation de modèles, la synthèse de données et l'amélioration de modèles
Améliorer la précision de l'évaluation et la cohérence avec les préférences humaines est crucial pour la fiabilité des systèmes d'IA
Les tâches d'évaluation à grande échelle nécessitent des méthodes d'évaluation automatisées efficaces et précises
Limitations des méthodes existantes :
Les méthodes basées sur les invites nécessitent des étapes de raisonnement complexes, augmentant les coûts de calcul
Les méthodes d'ajustement fin font face à des problèmes de généralisation avec une adaptabilité limitée
Les méthodes traditionnelles ne dépendent que de la sortie de la couche finale, négligeant les informations sémantiques des couches intermédiaires
Motivation de la recherche :
Les études préliminaires révèlent que les couches intermédiaires supérieures (environ 20-30 couches) présentent souvent une corrélation plus élevée avec les scores humains que la couche finale
Différentes couches encodent différents types d'informations : les couches inférieures se concentrent sur les informations lexicales, les couches intermédiaires supérieures sur les informations sémantiques et globales
Un besoin de méthode légère et enfichable pour exploiter ces représentations internes
Proposition du cadre LAGER : Un cadre post-hoc et enfichable qui améliore l'alignement du LLM-as-a-Judge avec les scores humains en agrégeant les représentations internes entre les couches
Découverte des avantages des couches intermédiaires : Démonstration empirique que les représentations des couches intermédiaires supérieures s'alignent mieux avec les jugements humains que la couche finale
Amélioration significative des performances : Réalisation d'améliorations jusqu'à 7,5 % sur trois repères d'alignement standard (Flask, HelpSteer, BIGGen)
Démonstration de la capacité de généralisation : Manifestation de bonnes performances de généralisation dans les applications en aval telles que la sélection de données d'instruction et la compréhension des sentiments
Fourniture d'une solution légère : Nécessite uniquement l'entraînement d'un petit nombre de paramètres de poids (L+1), maintenant le tronc du modèle gelé
Entrée : Description de la tâche d'évaluation, instruction utilisateur, réponse à évaluer, critères d'évaluation
Sortie : Score d'évaluation continu granulaire (plutôt que score entier discret)
Contraintes : Maintenir les paramètres du tronc LLM gelés, sans affecter le processus d'inférence existant
Fusion d'informations entre les couches : Utilisation systématique pour la première fois de toutes les représentations internes des couches Transformer pour l'évaluation
Mécanisme de score attendu : Calcul de scores continus via distribution de probabilité plutôt que simple opération argmax
Conception enfichable : Pas de modification des paramètres du modèle original ni du processus d'inférence, application directe aux modèles existants
Entraînement léger : Nécessite uniquement l'entraînement de L+1 paramètres de poids, coût d'entraînement extrêmement faible
Avantages des couches intermédiaires : Les représentations des couches intermédiaires supérieures s'alignent effectivement mieux avec les jugements humains que la couche finale
Efficacité légère : L'entraînement d'un petit nombre de paramètres peut améliorer significativement les performances
Raisonnement non nécessaire : Atteinte ou dépassement des méthodes de raisonnement sans étapes de raisonnement explicites
Bonne généralisation : Performances excellentes dans plusieurs tâches en aval
Cet article cite de nombreux travaux connexes, notamment :
Recherches liées au LLM-as-a-judge (Lin & Chen, 2023 ; Liu et al., 2023, etc.)
Recherches sur les représentations internes (Wang et al., 2020 ; Yang et al., 2022, etc.)
Repères et méthodes d'évaluation (Ye et al., 2024 ; Kim et al., 2024, etc.)
Évaluation globale : Ceci est un article de recherche de haute qualité proposant le cadre innovant LAGER, qui améliore significativement l'alignement de l'évaluation automatisée avec les jugements humains en exploitant les représentations internes des LLM. La méthode est simple et efficace, l'expérimentation est complète et rigoureuse, avec une valeur académique et pratique importante. La principale limitation réside dans son applicabilité uniquement aux modèles open-source, mais dans le contexte du développement rapide des LLM open-source actuels, ce travail conserve des perspectives d'application larges.