2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic

ما وراء السطح: تحسين محاذاة حكم النماذج اللغوية الكبيرة مع الإنسان عبر التمثيلات الداخلية

المعلومات الأساسية

  • معرّف الورقة: 2508.03550
  • العنوان: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
  • المؤلفون: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2508.03550

الملخص

مع التوسع المستمر في نطاق مهام التقييم، اعتُمدت على نطاق واسع نموذج "النموذج اللغوي الكبير كحكم" للتقييم الآلي. ومع ذلك، يظل تحسين محاذاته مع تفضيلات الإنسان دون استخدام مطالبات معقدة أو ضبط دقيق تحديًا كبيرًا. ركزت الأبحاث السابقة على تحسين المخرجات السطحية، متجاهلة التمثيلات الغنية عبر الطبقات. استُلهمت هذه الدراسة من نتائج أولية تشير إلى أن التمثيلات الدلالية والمتعلقة بالمهام المشفرة في الطبقات الوسطى العليا غالبًا ما تتوافق بشكل أفضل مع الأحكام البشرية من الطبقة الأخيرة. تقترح الدراسة LAGER، وهو إطار عمل لاحق قابل للتوصيل الفوري، يحسّن محاذاة تقييم النقاط في نماذج "النموذج اللغوي الكبير كحكم" مع الدرجات البشرية من خلال الاستفادة من التمثيلات الداخلية. ينتج LAGER أحكامًا تقييمية دقيقة من خلال تجميع لوغاريتمات رموز التقييم عبر الطبقات وحساب الدرجة المتوقعة من التوزيعات القائمة على softmax، مع الحفاظ على تجميد جذع النموذج وضمان عدم التأثير على عملية الاستدلال.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تعتمد طرق "النموذج اللغوي الكبير كحكم" الحالية بشكل أساسي على مخرجات الطبقة الأخيرة للتقييم، متجاهلة التمثيلات الغنية عبر الطبقات داخل النموذج، مما يؤدي إلى محاذاة دون المستوى الأمثل مع الأحكام البشرية.
  2. الأهمية:
    • يتمتع نموذج "النموذج اللغوي الكبير كحكم" بتطبيقات واسعة في تقييم النماذج وتوليف البيانات وتحسين النماذج
    • تحسين دقة التقييم والاتساق مع تفضيلات الإنسان أمر بالغ الأهمية لموثوقية أنظمة الذكاء الاصطناعي
    • تتطلب مهام التقييم على نطاق واسع طرقًا تقييمية آلية فعالة وقابلة للدقة
  3. قيود الطرق الموجودة:
    • تتطلب الطرق القائمة على المطالبات خطوات استدلال معقدة، مما يزيد من التكاليف الحسابية
    • تواجه طرق الضبط الدقيق مشاكل التعميم، مع قابلية تكيف محدودة
    • تعتمد الطرق التقليدية فقط على مخرجات الطبقة الأخيرة، متجاهلة المعلومات الدلالية في الطبقات الوسيطة
  4. دافع البحث:
    • كشفت الدراسات الأولية أن الطبقات الوسطى العليا (حوالي 20-30 طبقة) غالبًا ما تُظهر ارتباطًا أعلى مع الدرجات البشرية من الطبقة الأخيرة
    • تشفر الطبقات المختلفة أنواعًا مختلفة من المعلومات: تركز الطبقات السفلية على المعلومات المعجمية، والطبقات الوسطى العليا على المعلومات الدلالية والعالمية
    • هناك حاجة إلى طريقة خفيفة الوزن وقابلة للتوصيل الفوري للاستفادة من هذه التمثيلات الداخلية

المساهمات الأساسية

  1. اقتراح إطار عمل LAGER: إطار عمل لاحق قابل للتوصيل الفوري يحسّن محاذاة "النموذج اللغوي الكبير كحكم" مع الدرجات البشرية من خلال تجميع التمثيلات الداخلية عبر الطبقات
  2. اكتشاف مزايا الطبقات الوسيطة: إثبات تجريبي يوضح أن التمثيلات في الطبقات الوسطى العليا تتوافق بشكل أفضل مع الأحكام البشرية من الطبقة الأخيرة
  3. تحقيق تحسينات أداء كبيرة: تحقيق تحسينات تصل إلى 7.5% على ثلاث معايير محاذاة قياسية (Flask و HelpSteer و BIGGen)
  4. إثبات القدرة على التعميم: إظهار أداء تعميم جيد في التطبيقات النهائية مثل اختيار بيانات التعليمات وفهم المشاعر
  5. توفير حل خفيف الوزن: يتطلب فقط تدريب عدد قليل من معاملات الأوزان (L+1)، مع الحفاظ على تجميد جذع النموذج

شرح الطريقة

تعريف المهمة

الإدخال: وصف مهمة التقييم، تعليمات المستخدم، الاستجابة المراد تقييمها، معايير التقييم الإخراج: درجة تقييم مستمرة دقيقة (وليس درجة عددية منفصلة) القيود: الحفاظ على معاملات جذع النموذج مجمدة، عدم التأثير على عملية الاستدلال الأصلية

معمارية النموذج

1. الإطار الأساسي

بالنسبة لنماذج فك التشفير، تستخدم الطرق التقليدية فقط حالة الطبقة الأخيرة المخفية:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. آلية LAGER الأساسية

تجميع اللوغاريتمات عبر الطبقات:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

استخراج درجات المرشحين:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

حيث M = {Tokenize(s)|s ∈ S} هي مجموعة رموز درجات المرشحين

حساب التوزيع الاحتمالي:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

الدرجة المتوقعة:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. استراتيجية تدريب الأوزان

توفير خيارين لتعيين الأوزان:

  • نسخة بدون ضبط: تجميع متوسط w_l = 1/(L+1)
  • نسخة معدلة: تدريب الأوزان باستخدام دالة خسارة مركبة

دالة الخسارة:

L_Final = α·L_CE + (1-α)·L_MAE

حيث تتعامل خسارة الإنتروبيا المتقاطعة مع التسميات المنفصلة، وتتعامل خسارة MAE مع الدرجات المستمرة

نقاط الابتكار التقني

  1. دمج المعلومات عبر الطبقات: الاستفادة المنهجية الأولى من التمثيلات الداخلية من جميع طبقات Transformer للتقييم
  2. آلية الدرجة المتوقعة: حساب درجات مستمرة من خلال التوزيع الاحتمالي، بدلاً من عملية argmax البسيطة
  3. تصميم قابل للتوصيل الفوري: عدم تعديل معاملات النموذج الأصلية وعملية الاستدلال، مع إمكانية التطبيق المباشر على النماذج الموجودة
  4. تدريب خفيف الوزن: يتطلب فقط تدريب معاملات L+1، مع تكاليف تدريب منخفضة جدًا

إعداد التجارب

مجموعات البيانات

  1. Flask: 2,001 إدخال، يتضمن 12 بُعد تقييم (الإيجاز والرؤى والقراءة وما إلى ذلك)
  2. HelpSteer: 8.95k نقطة بيانات، بناءً على 5 معايير تقييم (الفائدة والصحة والتماسك وما إلى ذلك)
  3. BiGGen Bench: معيار تقييم شامل يغطي 77 مهمة، يقيّم 9 قدرات توليد

مؤشرات التقييم

  • المؤشر الرئيسي: معامل ارتباط Spearman (مناسب للبيانات الترتيبية، قوي ضد القيم الشاذة)
  • المؤشرات المساعدة: معامل ارتباط Pearson

طرق المقارنة

  1. خطوط الأساس بدون تدريب: GPTScore و Vanilla Score (VScore) و Expectation Score (E-Score)
  2. نماذج API: GPT-4o-mini
  3. نماذج معدلة: TIGERScore-7B و Prometheus2-7B (للمرجعية فقط)

تفاصيل التنفيذ

  • النموذج: 6 نماذج جذع بأحجام مختلفة (7B-70B)
  • استراتيجية فك التشفير: فك التشفير الجشع لضمان الاستقرار
  • شروط التقييم: إعدادات التقييم المباشر والاستدلالي
  • تدريب الأوزان: استخدام 1000 عينة HelpSteer، محسّن Adam، معدل تعلم 0.01

نتائج التجارب

النتائج الرئيسية

تحسينات الأداء كبيرة:

  • يتفوق LAGER على جميع خطوط الأساس بدون تدريب على جميع المعايير
  • متوسط تحسن ارتباط Spearman: 4.5% للنسخة بدون ضبط، أعلى للنسخة المعدلة
  • يصل إلى أقصى تحسن بنسبة 7.5% على بعض النماذج

النتائج الرئيسية:

  1. الاتساق عبر النماذج: تحسينات على 6 نماذج جذع بأحجام مختلفة
  2. المنافسة مع نماذج API: جعل النماذج مفتوحة المصدر تصل إلى مستوى GPT-4o-mini
  3. تجاوز طرق الضبط الدقيق: InternLM3-8B و LLaMA3.1-8B يتفوقان على Prometheus2-7B من نفس الحجم

تجارب الاستبدال

ترتيب أهمية المكونات:

  1. الدرجة المتوقعة > أقصى درجة (تحسن +0.17)
  2. تجميع اللوغاريتمات > تجميع الاحتمالات (تحسن +0.07)
  3. ضبط الأوزان يجلب تحسن +0.10
  4. التكامل متعدد الطبقات له تأثيرات مختلفة على نماذج مختلفة

تحليل عبر الأحجام

تأثيرات الحجم:

  • التحقق على سلسلة Qwen2.5 (0.5B-72B)
  • تتضخم تحسينات LAGER مع زيادة حجم النموذج
  • تحقيق أفضل أداء على نموذج 72B (Flask: 0.658 Spearman)

تحليل الحالات

محاذاة التوزيع:

  • توزيع الدرجات الناتج عن LAGER أقرب إلى التسميات البشرية
  • انخفاض KL divergence من 0.312 إلى 0.087
  • انخفاض MSE من 0.112 إلى 0.060

الأعمال ذات الصلة

تقييم توليد النصوص

  • المؤشرات التقليدية: BLEU و ROUGE وغيرها من الطرق الإحصائية لها قيود واضحة
  • طرق التضمين: BERTScore و BARTScore وغيرها تتطلب إجابات مرجعية
  • GPTScore: بناءً على احتمالية التوليد، لكنها تتجاهل جودة الدلالات

النموذج اللغوي الكبير كحكم

  1. التقييم النقطي: تقييم مستقل لاستجابة واحدة
  2. المقارنة الثنائية: مقارنة مباشرة لاستجابتين
  3. ترتيب القائمة: ترتيب استجابات متعددة

تصنيف الطرق:

  • قائمة على المطالبات: تحسين الأحكام من خلال خطوات الاستدلال
  • قائمة على الضبط الدقيق: تدريب نماذج تقييم متخصصة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. مزايا الطبقات الوسيطة: التمثيلات في الطبقات الوسطى العليا تتوافق بالفعل بشكل أفضل مع الأحكام البشرية
  2. فعالية التدريب الخفيف الوزن: تدريب عدد قليل من المعاملات فقط يمكن أن يحسّن الأداء بشكل كبير
  3. الاستدلال غير ضروري: يمكن تحقيق أو تجاوز طرق الاستدلال بدون خطوات استدلال صريحة
  4. التعميم الجيد: أداء ممتازة في مهام نهائية متعددة

القيود

  1. قيود النماذج مفتوحة المصدر: يتطلب الوصول إلى الحالات الداخلية للنموذج، لا يمكن تطبيقه على نماذج API المغلقة
  2. التكاليف الحسابية: يتطلب حسابًا إضافيًا للحالات المخفية لجميع الطبقات
  3. عمومية الأوزان: قد تتطلب نماذج عائلات مختلفة إعادة تدريب الأوزان

الاتجاهات المستقبلية

  1. التحليل النظري: فهم أعمق للخصائص الدلالية للتمثيلات في طبقات مختلفة
  2. تحسين الكفاءة: طرق لتقليل التكاليس الحسابية
  3. الأوزان التكيفية: آليات لضبط أوزان الطبقات المختلفة بشكل تكيفي

التقييم المتعمق

المزايا

  1. ابتكار قوي: الاستفادة المنهجية الأولى من التمثيلات الداخلية لـ Transformer للتقييم
  2. قيمة عملية عالية: تصميم قابل للتوصيل الفوري، سهل النشر
  3. تجارب شاملة: تقييم شامل على معايير متعددة وأحجام نماذج متنوعة
  4. دعم نظري: توفير رؤى نظرية من خلال تحليل التشابه بين الطبقات وغيرها

أوجه القصور

  1. قيود نطاق التطبيق: ينطبق فقط على النماذج مفتوحة المصدر
  2. شرح الآلية غير كافٍ: نقص الشرح النظري العميق لسبب كون الطبقات الوسيطة أفضل
  3. التكاليس الحسابية: على الرغم من قلة المعاملات، يتطلب الاستدلال حسابًا لجميع الطبقات

التأثير

  1. المساهمة الأكاديمية: توفير منظور جديد لأبحاث التمثيلات الداخلية للنماذج اللغوية الكبيرة
  2. القيمة العملية: توفير أداة فعالة لتقييم النماذج مفتوحة المصدر
  3. قابلية إعادة الإنتاج: الكود مفتوح المصدر، التجارب قابلة للتكرار

السيناريوهات المناسبة

  1. تقييم النموذج: تحسين عمليات التقييم الموجودة
  2. فحص البيانات: فحص بيانات التدريب عالية الجودة
  3. التحكم في الجودة: التقييم الآلي للجودة للمحتوى المُنتج
  4. أداة البحث: أبحاث آليات النماذج اللغوية الكبيرة الداخلية

المراجع

تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

  • أبحاث "النموذج اللغوي الكبير كحكم" (Lin & Chen, 2023; Liu et al., 2023 وغيرها)
  • أبحاث التمثيلات الداخلية (Wang et al., 2020; Yang et al., 2022 وغيرها)
  • معايير وطرق التقييم (Ye et al., 2024; Kim et al., 2024 وغيرها)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح إطار عمل LAGER مبتكرًا، والذي يحسّن بشكل كبير محاذاة التقييم الآلي مع الإنسان من خلال الاستفادة من التمثيلات الداخلية للنماذج اللغوية الكبيرة. الطريقة بسيطة وفعالة، والتجارب شاملة وكافية، مع قيمة أكاديمية وعملية مهمة. القيد الرئيسي هو أنه ينطبق فقط على النماذج مفتوحة المصدر، لكن في سياق التطور السريع للنماذج اللغوية الكبيرة مفتوحة المصدر الحالي، لا يزال لهذا العمل آفاق تطبيق واسعة.