Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
ما وراء السطح: تحسين محاذاة حكم النماذج اللغوية الكبيرة مع الإنسان عبر التمثيلات الداخلية
مع التوسع المستمر في نطاق مهام التقييم، اعتُمدت على نطاق واسع نموذج "النموذج اللغوي الكبير كحكم" للتقييم الآلي. ومع ذلك، يظل تحسين محاذاته مع تفضيلات الإنسان دون استخدام مطالبات معقدة أو ضبط دقيق تحديًا كبيرًا. ركزت الأبحاث السابقة على تحسين المخرجات السطحية، متجاهلة التمثيلات الغنية عبر الطبقات. استُلهمت هذه الدراسة من نتائج أولية تشير إلى أن التمثيلات الدلالية والمتعلقة بالمهام المشفرة في الطبقات الوسطى العليا غالبًا ما تتوافق بشكل أفضل مع الأحكام البشرية من الطبقة الأخيرة. تقترح الدراسة LAGER، وهو إطار عمل لاحق قابل للتوصيل الفوري، يحسّن محاذاة تقييم النقاط في نماذج "النموذج اللغوي الكبير كحكم" مع الدرجات البشرية من خلال الاستفادة من التمثيلات الداخلية. ينتج LAGER أحكامًا تقييمية دقيقة من خلال تجميع لوغاريتمات رموز التقييم عبر الطبقات وحساب الدرجة المتوقعة من التوزيعات القائمة على softmax، مع الحفاظ على تجميد جذع النموذج وضمان عدم التأثير على عملية الاستدلال.
المشكلة الأساسية: تعتمد طرق "النموذج اللغوي الكبير كحكم" الحالية بشكل أساسي على مخرجات الطبقة الأخيرة للتقييم، متجاهلة التمثيلات الغنية عبر الطبقات داخل النموذج، مما يؤدي إلى محاذاة دون المستوى الأمثل مع الأحكام البشرية.
الأهمية:
يتمتع نموذج "النموذج اللغوي الكبير كحكم" بتطبيقات واسعة في تقييم النماذج وتوليف البيانات وتحسين النماذج
تحسين دقة التقييم والاتساق مع تفضيلات الإنسان أمر بالغ الأهمية لموثوقية أنظمة الذكاء الاصطناعي
تتطلب مهام التقييم على نطاق واسع طرقًا تقييمية آلية فعالة وقابلة للدقة
قيود الطرق الموجودة:
تتطلب الطرق القائمة على المطالبات خطوات استدلال معقدة، مما يزيد من التكاليف الحسابية
تواجه طرق الضبط الدقيق مشاكل التعميم، مع قابلية تكيف محدودة
تعتمد الطرق التقليدية فقط على مخرجات الطبقة الأخيرة، متجاهلة المعلومات الدلالية في الطبقات الوسيطة
دافع البحث:
كشفت الدراسات الأولية أن الطبقات الوسطى العليا (حوالي 20-30 طبقة) غالبًا ما تُظهر ارتباطًا أعلى مع الدرجات البشرية من الطبقة الأخيرة
تشفر الطبقات المختلفة أنواعًا مختلفة من المعلومات: تركز الطبقات السفلية على المعلومات المعجمية، والطبقات الوسطى العليا على المعلومات الدلالية والعالمية
هناك حاجة إلى طريقة خفيفة الوزن وقابلة للتوصيل الفوري للاستفادة من هذه التمثيلات الداخلية
اقتراح إطار عمل LAGER: إطار عمل لاحق قابل للتوصيل الفوري يحسّن محاذاة "النموذج اللغوي الكبير كحكم" مع الدرجات البشرية من خلال تجميع التمثيلات الداخلية عبر الطبقات
اكتشاف مزايا الطبقات الوسيطة: إثبات تجريبي يوضح أن التمثيلات في الطبقات الوسطى العليا تتوافق بشكل أفضل مع الأحكام البشرية من الطبقة الأخيرة
تحقيق تحسينات أداء كبيرة: تحقيق تحسينات تصل إلى 7.5% على ثلاث معايير محاذاة قياسية (Flask و HelpSteer و BIGGen)
إثبات القدرة على التعميم: إظهار أداء تعميم جيد في التطبيقات النهائية مثل اختيار بيانات التعليمات وفهم المشاعر
توفير حل خفيف الوزن: يتطلب فقط تدريب عدد قليل من معاملات الأوزان (L+1)، مع الحفاظ على تجميد جذع النموذج
الإدخال: وصف مهمة التقييم، تعليمات المستخدم، الاستجابة المراد تقييمها، معايير التقييم
الإخراج: درجة تقييم مستمرة دقيقة (وليس درجة عددية منفصلة)
القيود: الحفاظ على معاملات جذع النموذج مجمدة، عدم التأثير على عملية الاستدلال الأصلية
تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
أبحاث "النموذج اللغوي الكبير كحكم" (Lin & Chen, 2023; Liu et al., 2023 وغيرها)
أبحاث التمثيلات الداخلية (Wang et al., 2020; Yang et al., 2022 وغيرها)
معايير وطرق التقييم (Ye et al., 2024; Kim et al., 2024 وغيرها)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح إطار عمل LAGER مبتكرًا، والذي يحسّن بشكل كبير محاذاة التقييم الآلي مع الإنسان من خلال الاستفادة من التمثيلات الداخلية للنماذج اللغوية الكبيرة. الطريقة بسيطة وفعالة، والتجارب شاملة وكافية، مع قيمة أكاديمية وعملية مهمة. القيد الرئيسي هو أنه ينطبق فقط على النماذج مفتوحة المصدر، لكن في سياق التطور السريع للنماذج اللغوية الكبيرة مفتوحة المصدر الحالي، لا يزال لهذا العمل آفاق تطبيق واسعة.