Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
सतह से परे: आंतरिक प्रतिनिधित्व के माध्यम से LLM-as-a-Judge संरेखण को मानव के साथ बढ़ाना
मूल्यांकन कार्यों के पैमाने में निरंतर वृद्धि के साथ, बड़े भाषा मॉडल का उपयोग करके स्वचालित मूल्यांकन का प्रतिमान "LLM-as-a-judge" व्यापक रूप से अपनाया गया है। हालांकि, जटिल प्रॉम्प्टिंग या सूक्ष्म-ट्यूनिंग के बिना मानव वरीयताओं के साथ इसके संरेखण में सुधार करना अभी भी चुनौतीपूर्ण है। पूर्ववर्ती अनुसंधान मुख्य रूप से सतही आउटपुट पर आधारित अनुकूलन पर केंद्रित था, जो परतों में समृद्ध प्रतिनिधित्व को नजरअंदाज करता था। यह अनुसंधान एक प्रारंभिक खोज से प्रेरित है—मध्य-ऊपरी परतों में एन्कोड किए गए शब्दार्थ और कार्य-संबंधित प्रतिनिधित्व अक्सर अंतिम परत की तुलना में मानव निर्णय के साथ बेहतर संरेखित होते हैं। यह पेपर LAGER प्रस्तावित करता है, जो एक पश्च-प्रक्रिया प्लग-एंड-प्ले ढांचा है जो आंतरिक प्रतिनिधित्व का उपयोग करके LLM-as-a-Judge बिंदु-वार मूल्यांकन को मानव स्कोरिंग के साथ संरेखित करने में सुधार करता है। LAGER परतों में मूल्यांकन टोकन लॉजिट्स को एकत्रित करके और softmax-आधारित वितरण से अपेक्षित स्कोर की गणना करके सूक्ष्म-दानेदार निर्णय स्कोर उत्पन्न करता है, जबकि LLM मुख्य भाग को फ्रीज रखता है और अनुमान प्रक्रिया को प्रभावित नहीं करता है।
मुख्य समस्या: मौजूदा LLM-as-a-judge विधियां मुख्य रूप से अंतिम परत आउटपुट पर निर्भर करती हैं, मॉडल के भीतर समृद्ध परत-भर प्रतिनिधित्व जानकारी को नजरअंदाज करती हैं, जिससे मानव निर्णय के साथ संरेखण अपर्याप्त है।
महत्व:
LLM-as-a-judge का मॉडल मूल्यांकन, डेटा संश्लेषण, मॉडल वृद्धि आदि परिदृश्यों में व्यापक अनुप्रयोग है
मूल्यांकन की सटीकता और मानव वरीयताओं के साथ संगति में सुधार AI प्रणालियों की विश्वसनीयता के लिए महत्वपूर्ण है
बड़े पैमाने पर मूल्यांकन कार्यों को कुशल और सटीक स्वचालित मूल्यांकन विधियों की आवश्यकता है
मौजूदा विधियों की सीमाएं:
प्रॉम्प्ट-आधारित विधियां जटिल तर्क चरणों की आवश्यकता करती हैं, जिससे कम्प्यूटेशनल लागत बढ़ती है
सूक्ष्म-ट्यूनिंग विधियां सामान्यीकरण समस्याओं का सामना करती हैं, अनुकूलन क्षमता सीमित है
पारंपरिक विधियां केवल अंतिम परत आउटपुट पर निर्भर करती हैं, मध्य परतों की शब्दार्थ जानकारी को नजरअंदाज करती हैं
अनुसंधान प्रेरणा:
प्रारंभिक अनुसंधान से पता चलता है कि मध्य-ऊपरी परतें (लगभग 20-30 परतें) अक्सर अंतिम परत की तुलना में मानव स्कोरिंग के साथ उच्च सहसंबंध रखती हैं
विभिन्न परतें विभिन्न प्रकार की जानकारी एन्कोड करती हैं: निचली परतें शब्दावली जानकारी पर ध्यान केंद्रित करती हैं, मध्य-ऊपरी परतें शब्दार्थ और वैश्विक जानकारी पर ध्यान केंद्रित करती हैं
इन आंतरिक प्रतिनिधित्वों का उपयोग करने के लिए एक हल्के-फुल्के, प्लग-एंड-प्ले विधि की आवश्यकता है
LAGER ढांचा प्रस्तावित करना: एक पश्च-प्रक्रिया, प्लग-एंड-प्ले ढांचा जो परत-भर आंतरिक प्रतिनिधित्व को एकत्रित करके LLM-as-a-judge को मानव स्कोरिंग के साथ संरेखित करने में सुधार करता है
मध्य परतों के लाभ की खोज: अनुभवजन्य अनुसंधान के माध्यम से साबित करना कि मध्य-ऊपरी परत प्रतिनिधित्व अंतिम परत की तुलना में मानव निर्णय के साथ बेहतर संरेखित हैं
महत्वपूर्ण प्रदर्शन सुधार: Flask, HelpSteer, BIGGen तीन मानक संरेखण बेंचमार्क पर 7.5% तक सुधार प्राप्त करना
सामान्यीकरण क्षमता प्रदर्शित करना: निर्देश डेटा चयन, भावनात्मक समझ आदि डाउनस्ट्रीम अनुप्रयोगों में अच्छी सामान्यीकरण क्षमता प्रदर्शित करना
हल्के-फुल्के समाधान प्रदान करना: केवल कुछ वजन पैरामीटर (L+1) को प्रशिक्षित करने की आवश्यकता है, मॉडल मुख्य भाग को फ्रीज रखता है
इनपुट: मूल्यांकन कार्य विवरण, उपयोगकर्ता निर्देश, मूल्यांकन किए जाने वाले प्रतिक्रिया, स्कोरिंग मानदंड
आउटपुट: सूक्ष्म-दानेदार निरंतर स्कोरिंग (असतत पूर्णांक स्कोरिंग के बजाय)
बाधा: LLM मुख्य भाग पैरामीटर को फ्रीज रखना, मूल अनुमान प्रक्रिया को प्रभावित न करना
यह पेपर संबंधित कार्यों का व्यापक संदर्भ देता है, जिसमें शामिल हैं:
LLM-as-a-judge संबंधित अनुसंधान (Lin & Chen, 2023; Liu et al., 2023 आदि)
आंतरिक प्रतिनिधित्व अनुसंधान (Wang et al., 2020; Yang et al., 2022 आदि)
मूल्यांकन बेंचमार्क और विधियां (Ye et al., 2024; Kim et al., 2024 आदि)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो नवीन LAGER ढांचा प्रस्तावित करता है, जो LLM आंतरिक प्रतिनिधित्व का उपयोग करके स्वचालित मूल्यांकन के मानव संरेखण में महत्वपूर्ण सुधार करता है। विधि सरल और प्रभावी है, प्रयोग व्यापक और पूर्ण हैं, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखते हैं। मुख्य सीमा यह है कि यह केवल ओपन-सोर्स मॉडलों पर लागू है, लेकिन वर्तमान ओपन-सोर्स LLM के तीव्र विकास की पृष्ठभूमि में, यह कार्य अभी भी व्यापक अनुप्रयोग संभावनाएं रखता है।