2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.

academic

सतह से परे: आंतरिक प्रतिनिधित्व के माध्यम से LLM-as-a-Judge संरेखण को मानव के साथ बढ़ाना

मूल जानकारी

पेपर ID: 2508.03550
शीर्षक: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
लेखक: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन सम्मेलन: 39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन (NeurIPS 2025)
पेपर लिंक: https://arxiv.org/abs/2508.03550

सारांश

मूल्यांकन कार्यों के पैमाने में निरंतर वृद्धि के साथ, बड़े भाषा मॉडल का उपयोग करके स्वचालित मूल्यांकन का प्रतिमान "LLM-as-a-judge" व्यापक रूप से अपनाया गया है। हालांकि, जटिल प्रॉम्प्टिंग या सूक्ष्म-ट्यूनिंग के बिना मानव वरीयताओं के साथ इसके संरेखण में सुधार करना अभी भी चुनौतीपूर्ण है। पूर्ववर्ती अनुसंधान मुख्य रूप से सतही आउटपुट पर आधारित अनुकूलन पर केंद्रित था, जो परतों में समृद्ध प्रतिनिधित्व को नजरअंदाज करता था। यह अनुसंधान एक प्रारंभिक खोज से प्रेरित है—मध्य-ऊपरी परतों में एन्कोड किए गए शब्दार्थ और कार्य-संबंधित प्रतिनिधित्व अक्सर अंतिम परत की तुलना में मानव निर्णय के साथ बेहतर संरेखित होते हैं। यह पेपर LAGER प्रस्तावित करता है, जो एक पश्च-प्रक्रिया प्लग-एंड-प्ले ढांचा है जो आंतरिक प्रतिनिधित्व का उपयोग करके LLM-as-a-Judge बिंदु-वार मूल्यांकन को मानव स्कोरिंग के साथ संरेखित करने में सुधार करता है। LAGER परतों में मूल्यांकन टोकन लॉजिट्स को एकत्रित करके और softmax-आधारित वितरण से अपेक्षित स्कोर की गणना करके सूक्ष्म-दानेदार निर्णय स्कोर उत्पन्न करता है, जबकि LLM मुख्य भाग को फ्रीज रखता है और अनुमान प्रक्रिया को प्रभावित नहीं करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: मौजूदा LLM-as-a-judge विधियां मुख्य रूप से अंतिम परत आउटपुट पर निर्भर करती हैं, मॉडल के भीतर समृद्ध परत-भर प्रतिनिधित्व जानकारी को नजरअंदाज करती हैं, जिससे मानव निर्णय के साथ संरेखण अपर्याप्त है।
महत्व:
- LLM-as-a-judge का मॉडल मूल्यांकन, डेटा संश्लेषण, मॉडल वृद्धि आदि परिदृश्यों में व्यापक अनुप्रयोग है
- मूल्यांकन की सटीकता और मानव वरीयताओं के साथ संगति में सुधार AI प्रणालियों की विश्वसनीयता के लिए महत्वपूर्ण है
- बड़े पैमाने पर मूल्यांकन कार्यों को कुशल और सटीक स्वचालित मूल्यांकन विधियों की आवश्यकता है
मौजूदा विधियों की सीमाएं:
- प्रॉम्प्ट-आधारित विधियां जटिल तर्क चरणों की आवश्यकता करती हैं, जिससे कम्प्यूटेशनल लागत बढ़ती है
- सूक्ष्म-ट्यूनिंग विधियां सामान्यीकरण समस्याओं का सामना करती हैं, अनुकूलन क्षमता सीमित है
- पारंपरिक विधियां केवल अंतिम परत आउटपुट पर निर्भर करती हैं, मध्य परतों की शब्दार्थ जानकारी को नजरअंदाज करती हैं
अनुसंधान प्रेरणा:
- प्रारंभिक अनुसंधान से पता चलता है कि मध्य-ऊपरी परतें (लगभग 20-30 परतें) अक्सर अंतिम परत की तुलना में मानव स्कोरिंग के साथ उच्च सहसंबंध रखती हैं
- विभिन्न परतें विभिन्न प्रकार की जानकारी एन्कोड करती हैं: निचली परतें शब्दावली जानकारी पर ध्यान केंद्रित करती हैं, मध्य-ऊपरी परतें शब्दार्थ और वैश्विक जानकारी पर ध्यान केंद्रित करती हैं
- इन आंतरिक प्रतिनिधित्वों का उपयोग करने के लिए एक हल्के-फुल्के, प्लग-एंड-प्ले विधि की आवश्यकता है

मुख्य योगदान

LAGER ढांचा प्रस्तावित करना: एक पश्च-प्रक्रिया, प्लग-एंड-प्ले ढांचा जो परत-भर आंतरिक प्रतिनिधित्व को एकत्रित करके LLM-as-a-judge को मानव स्कोरिंग के साथ संरेखित करने में सुधार करता है
मध्य परतों के लाभ की खोज: अनुभवजन्य अनुसंधान के माध्यम से साबित करना कि मध्य-ऊपरी परत प्रतिनिधित्व अंतिम परत की तुलना में मानव निर्णय के साथ बेहतर संरेखित हैं
महत्वपूर्ण प्रदर्शन सुधार: Flask, HelpSteer, BIGGen तीन मानक संरेखण बेंचमार्क पर 7.5% तक सुधार प्राप्त करना
सामान्यीकरण क्षमता प्रदर्शित करना: निर्देश डेटा चयन, भावनात्मक समझ आदि डाउनस्ट्रीम अनुप्रयोगों में अच्छी सामान्यीकरण क्षमता प्रदर्शित करना
हल्के-फुल्के समाधान प्रदान करना: केवल कुछ वजन पैरामीटर (L+1) को प्रशिक्षित करने की आवश्यकता है, मॉडल मुख्य भाग को फ्रीज रखता है

विधि विवरण

कार्य परिभाषा

इनपुट: मूल्यांकन कार्य विवरण, उपयोगकर्ता निर्देश, मूल्यांकन किए जाने वाले प्रतिक्रिया, स्कोरिंग मानदंड आउटपुट: सूक्ष्म-दानेदार निरंतर स्कोरिंग (असतत पूर्णांक स्कोरिंग के बजाय) बाधा: LLM मुख्य भाग पैरामीटर को फ्रीज रखना, मूल अनुमान प्रक्रिया को प्रभावित न करना

मॉडल आर्किटेक्चर

1. मूल ढांचा

डिकोडर मॉडल के लिए, पारंपरिक विधि केवल अंतिम परत छिपी हुई स्थिति का उपयोग करती है:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. LAGER मुख्य तंत्र

परत-भर लॉजिट्स एकत्रीकरण:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

उम्मीदवार स्कोर निष्कर्षण:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

जहां M = {Tokenize(s)|s ∈ S} उम्मीदवार स्कोर टोकन समुच्चय है

संभाव्यता वितरण गणना:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

अपेक्षित स्कोर:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. वजन प्रशिक्षण रणनीति

दो वजन सेटिंग प्रदान करता है:

बिना ट्यूनिंग संस्करण: औसत एकत्रीकरण w_l = 1/(L+1)
ट्यूनिंग संस्करण: संयुक्त हानि फ़ंक्शन का उपयोग करके वजन प्रशिक्षित करना

हानि फ़ंक्शन:

L_Final = α·L_CE + (1-α)·L_MAE

जहां क्रॉस-एंट्रॉपी हानि असतत लेबल को संभालती है, MAE हानि निरंतर स्कोरिंग को संभालती है

तकनीकी नवाचार बिंदु

परत-भर जानकारी संलयन: Transformer की सभी परतों के आंतरिक प्रतिनिधित्व का पहली बार व्यवस्थित रूप से मूल्यांकन के लिए उपयोग
अपेक्षित स्कोरिंग तंत्र: संभाव्यता वितरण के माध्यम से निरंतर स्कोरिंग की गणना, सरल argmax ऑपरेशन के बजाय
प्लग-एंड-प्ले डिजाइन: मूल मॉडल पैरामीटर और अनुमान प्रक्रिया को संशोधित न करके, मौजूदा मॉडल पर सीधे लागू किया जा सकता है
हल्के-फुल्के प्रशिक्षण: केवल L+1 वजन पैरामीटर को प्रशिक्षित करने की आवश्यकता है, प्रशिक्षण लागत अत्यंत कम है

प्रयोग सेटअप

डेटासेट

Flask: 2,001 प्रविष्टियां, 12 स्कोरिंग आयाम युक्त (संक्षिप्तता, अंतर्दृष्टि, पठनीयता आदि)
HelpSteer: 8.95k डेटा बिंदु, 5 मानदंडों के आधार पर मूल्यांकन (उपयोगिता, सटीकता, सुसंगतता आदि)
BiGGen Bench: 77 कार्यों को शामिल करने वाला व्यापक मूल्यांकन बेंचमार्क, 9 प्रकार की पीढ़ी क्षमताओं का मूल्यांकन

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: Spearman सहसंबंध गुणांक (क्रमिक डेटा के लिए उपयुक्त, विषम मूल्यों के लिए मजबूत)
सहायक मेट्रिक: Pearson सहसंबंध गुणांक

तुलना विधियां

गैर-प्रशिक्षण आधारभूत: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
API मॉडल: GPT-4o-mini
सूक्ष्म-ट्यूनिंग मॉडल: TIGERScore-7B, Prometheus2-7B (केवल संदर्भ के लिए)

कार्यान्वयन विवरण

मॉडल: 6 विभिन्न आकारों के मुख्य मॉडल (7B-70B)
डिकोडिंग रणनीति: स्थिरता सुनिश्चित करने के लिए लालची डिकोडिंग
मूल्यांकन शर्तें: प्रत्यक्ष मूल्यांकन और अनुमान मूल्यांकन दोनों सेटिंग
वजन प्रशिक्षण: 1000 HelpSteer नमूनों का उपयोग, Adam अनुकूलक, सीखने की दर 0.01

प्रयोग परिणाम

मुख्य परिणाम

महत्वपूर्ण प्रदर्शन सुधार:

LAGER सभी बेंचमार्क पर गैर-प्रशिक्षण आधारभूत से बेहतर है
औसत Spearman सहसंबंध सुधार: बिना ट्यूनिंग संस्करण 4.5%, ट्यूनिंग संस्करण अधिक
कुछ मॉडलों पर 7.5% का अधिकतम सुधार प्राप्त करना

मुख्य खोजें:

क्रॉस-मॉडल सामंजस्य: 6 विभिन्न आकारों के मॉडलों पर सुधार प्राप्त करना
API मॉडल के साथ प्रतिस्पर्धा: ओपन-सोर्स मॉडलों को GPT-4o-mini स्तर तक पहुंचाना
सूक्ष्म-ट्यूनिंग विधियों को पार करना: InternLM3-8B और LLaMA3.1-8B समान आकार के Prometheus2-7B को पार करना

विलोपन प्रयोग

घटक महत्व क्रम:

अपेक्षित स्कोरिंग > अधिकतम स्कोरिंग (+0.17 सुधार)
Logits एकत्रीकरण > संभाव्यता एकत्रीकरण (+0.07 सुधार)
वजन ट्यूनिंग +0.10 सुधार लाता है
बहु-परत एकीकरण विभिन्न मॉडलों पर अलग-अलग प्रभाव डालता है

क्रॉस-स्केल विश्लेषण

स्केल प्रभाव:

Qwen2.5 श्रृंखला (0.5B-72B) पर सत्यापन
LAGER का सुधार मॉडल स्केल के साथ बढ़ता है
72B मॉडल पर सर्वोत्तम प्रदर्शन (Flask: 0.658 Spearman)

केस विश्लेषण

वितरण संरेखण:

LAGER द्वारा उत्पन्न स्कोरिंग वितरण मानव एनोटेशन के करीब है
KL विचलन 0.312 से 0.087 तक गिरता है
MSE 0.112 से 0.060 तक गिरता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मध्य परत लाभ: मध्य-ऊपरी परत प्रतिनिधित्व वास्तव में अंतिम परत की तुलना में मानव निर्णय के साथ बेहतर संरेखित हैं
हल्के-फुल्के प्रभावशीलता: केवल कुछ पैरामीटर प्रशिक्षित करके महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना
तर्क अनावश्यक: स्पष्ट तर्क चरणों के बिना तर्क विधियों के बराबर या बेहतर प्रदर्शन प्राप्त करना
अच्छी सामान्यीकरण क्षमता: कई डाउनस्ट्रीम कार्यों में उत्कृष्ट प्रदर्शन

सीमाएं

ओपन-सोर्स मॉडल प्रतिबंध: मॉडल आंतरिक स्थिति तक पहुंच की आवश्यकता है, बंद API मॉडलों पर लागू नहीं किया जा सकता
कम्प्यूटेशनल ओवरहेड: सभी परतों की छिपी हुई स्थिति की अतिरिक्त गणना की आवश्यकता है
वजन सार्वभौमिकता: विभिन्न मॉडल परिवारों को वजन को फिर से प्रशिक्षित करने की आवश्यकता हो सकती है

भविष्य की दिशाएं

सैद्धांतिक विश्लेषण: विभिन्न परत प्रतिनिधित्वों की शब्दार्थ विशेषताओं को गहराई से समझना
दक्षता अनुकूलन: कम्प्यूटेशनल ओवरहेड को कम करने की विधियां
अनुकूली वजन: विभिन्न परत वजन को स्वचालित रूप से समायोजित करने की तंत्र

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: Transformer आंतरिक प्रतिनिधित्व का पहली बार व्यवस्थित उपयोग मूल्यांकन के लिए
उच्च व्यावहारिक मूल्य: प्लग-एंड-प्ले डिजाइन, तैनाती में आसान
व्यापक प्रयोग: कई बेंचमार्क, विभिन्न मॉडल आकारों पर व्यापक मूल्यांकन
सैद्धांतिक समर्थन: परत-भर समानता विश्लेषण आदि के माध्यम से सैद्धांतिक अंतर्दृष्टि प्रदान करना

कमियां

अनुप्रयोग सीमा: केवल ओपन-सोर्स मॉडलों पर लागू
तंत्र व्याख्या अपर्याप्त: मध्य परतें क्यों बेहतर हैं इसके बारे में गहन सैद्धांतिक व्याख्या की कमी
कम्प्यूटेशनल लागत: हालांकि पैरामीटर कम हैं, अनुमान के दौरान सभी परतों की गणना करने की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: LLM आंतरिक प्रतिनिधित्व अनुसंधान के लिए नया दृष्टिकोण प्रदान करना
व्यावहारिक मूल्य: ओपन-सोर्स मॉडल मूल्यांकन के लिए प्रभावी उपकरण प्रदान करना
पुनरुत्पादनीयता: कोड सार्वजनिक, प्रयोग पुनरुत्पादनीय

लागू परिदृश्य

मॉडल मूल्यांकन: मौजूदा मूल्यांकन प्रक्रिया में सुधार
डेटा फ़िल्टरिंग: उच्च-गुणवत्ता प्रशिक्षण डेटा फ़िल्टरिंग
गुणवत्ता नियंत्रण: उत्पन्न सामग्री का स्वचालित गुणवत्ता मूल्यांकन
अनुसंधान उपकरण: LLM आंतरिक तंत्र अनुसंधान

संदर्भ

यह पेपर संबंधित कार्यों का व्यापक संदर्भ देता है, जिसमें शामिल हैं:

LLM-as-a-judge संबंधित अनुसंधान (Lin & Chen, 2023; Liu et al., 2023 आदि)
आंतरिक प्रतिनिधित्व अनुसंधान (Wang et al., 2020; Yang et al., 2022 आदि)
मूल्यांकन बेंचमार्क और विधियां (Ye et al., 2024; Kim et al., 2024 आदि)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो नवीन LAGER ढांचा प्रस्तावित करता है, जो LLM आंतरिक प्रतिनिधित्व का उपयोग करके स्वचालित मूल्यांकन के मानव संरेखण में महत्वपूर्ण सुधार करता है। विधि सरल और प्रभावी है, प्रयोग व्यापक और पूर्ण हैं, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखते हैं। मुख्य सीमा यह है कि यह केवल ओपन-सोर्स मॉडलों पर लागू है, लेकिन वर्तमान ओपन-सोर्स LLM के तीव्र विकास की पृष्ठभूमि में, यह कार्य अभी भी व्यापक अनुप्रयोग संभावनाएं रखता है।