2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.

Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.

academic

حجم فضاء التوليد: فهم ومعايرة الانفتاح في توليدات نماذج اللغة الكبيرة

المعلومات الأساسية

معرّف الورقة: 2510.12699
العنوان: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
المؤلفون: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (جامعة ستانفورد)
التصنيف: cs.CL, cs.AI
حالة النشر: قيد المراجعة
رابط الورقة: https://arxiv.org/abs/2510.12699

الملخص

تتطلب مهام التوليد المختلفة ذات النهاية المفتوحة درجات متفاوتة من تنوع المخرجات. ومع ذلك، غالباً ما تكون نماذج اللغة الكبيرة (LLMs) معايرة بشكل سيء: فهي تنتج مخرجات متجانسة جداً في المهام الإبداعية، بينما تنتج إجابات متنوعة لكن غير صحيحة في المهام الواقعية. تقترح هذه الورقة أن كلا نمطي الفشل يمكن فهمهما وحلهما من خلال مفهوم "حجم فضاء التوليد الفعال" (GSS) - أي مجموعة المخرجات المختلفة دلالياً التي يأخذها النموذج في الاعتبار لمحفز معين. يقترح المؤلفون إطار عمل تقييم GSSBench يتضمن أزواج محفزات بعلاقات GSS حقيقية، لتقييم المقاييس المختلفة وفهم حيث ينحرف النموذج عن السلوك المتوقع. يكتشف البحث أن مقاييس كشف الهلوسة (خاصة EigenScore) تتفوق باستمرار على مقاييس التنوع والكمية غير المؤكدة القياسية، باستخدام معلومات داخلية للنموذج فقط، مما يوفر رؤى قابلة للتفسير حول تمثيل المهام الداخلية للنموذج.

الخلفية البحثية والدافع

المشكلة الأساسية

يواجه نماذج اللغة الكبيرة الحالية نمطي فشل رئيسيين في التوليد:

تجانس المخرجات في المهام الإبداعية: في المهام التي تتطلب تنوعاً (مثل العصف الذهني والكتابة الإبداعية)، ينتج النموذج مخرجات متشابهة جداً
مشكلة الهلوسة في المهام الواقعية: في المهام التي تتطلب دقة (مثل الإجابة على الأسئلة)، يولد النموذج إجابات متنوعة لكن غير صحيحة

دافع البحث

تتعامل الطرق التقليدية مع هاتين المشكلتين بشكل منفصل: إما بتعظيم إشارات التنوع أو بتقييد التنوع لتحسين الدقة الواقعية. تقترح هذه الورقة منظوراً موحداً، معتقدة أن كلا المشكلتين تنبعان من أخطاء معايرة حجم فضاء التوليد (GSS).

حدود الطرق الموجودة

غياب إطار عمل نظري موحد لفهم أنواع مختلفة من أعطال التوليد
معظم مقاييس التنوع الموجودة هي لاحقة، ولا يمكنها الوصول المباشر إلى التمثيلات الداخلية للنموذج
غياب إطار عمل تقييم منهجي لقياس قدرة النموذج على معايرة GSS

المساهمات الأساسية

المساهمة النظرية: اقتراح حجم فضاء التوليد (GSS) كإطار عمل موحد، معتبراً تجانس المخرجات ومشاكل الهلوسة كجانبين من أخطاء معايرة GSS
إطار التقييم: بناء GSSBench، مجموعة تقييم تتضمن 9300 زوج محفز، لقياس GSS وأخطاء معايرته
اكتشافات الطريقة: إثبات أن مقاييس كشف الهلوسة مثل EigenScore تتفوق على مقاييس التنوع والكمية غير المؤكدة التقليدية في تقدير GSS
التطبيق العملي: عرض قيمة GSS في ثلاث تطبيقات مهمة: كشف غموض المحفز، تحليل نماذج الاستدلال، وتحسين التنوع

شرح الطريقة

تعريف المهمة

لكل محفز p، يوجد فضاء توليد حقيقي Gt(p): التوزيع الدلالي لجميع المخرجات الصحيحة الممكنة. للنموذج m أيضاً فضاء توليد Gm(p): فضاء المخرجات التي "يأخذها" النموذج في الاعتبار للمحفز المعطى. يُعرّف خطأ معايرة GSS كالتالي:

|Gm(p)| = |Gt(p)| + εm(p)

حيث εm(p) هو الخطأ بين GSS للنموذج و GSS المتوقع.

إطار عمل تقييم GSSBench

بناء مجموعة البيانات

بناء ست مجموعات بيانات بناءً على العمليات النظرية المجموعية، بإجمالي 9300 زوج محفز:

Complement: محفز أساسي مقابل محفز المتمم (مثل "اكتب قصيدة عن القمر" مقابل "اكتب أي شيء ليس عن القمر")
FactualQA: أسئلة محددة مقابل أسئلة عامة (مثل "أنهار البرازيل" مقابل "الأنهار")
Random Choice: أسئلة اختيار من متعدد بأعداد خيارات مختلفة
Subset: إنشاء علاقات مجموعات جزئية بإضافة قيود
Union: توسيع فضاء التوليد بربط "أو"
Intersection: تقليل فضاء التوليد بربط "و"

مقاييس التقييم

استخدام دقة الترتيب المقترن لتقييم قدرة المقياس f على التنبؤ بترتيب GSS:

لزوج محفز (x,y) حيث |Gt(x)| > |Gt(y)|
الحصول على درجة 1 إذا كان f(x) > f(y)، وإلا 0

تحليل المقاييس المرشحة

تقييم مقاييس متعددة كبدائل لـ GSS:

المقاييس التقليدية: الارتباك، الطاقة، الإنتروبيا المعايرة بالطول، التشابه المعجمي
مقاييس كشف الهلوسة: EigenScore وأشكاله المختلفة، الإنتروبيا الدلالية
أشكال EigenScore:
- Eoriginal: النسخة الأصلية
- Eaverage: المتوسط عبر الطبقات والرموز
- Eoutput: استخدام نموذج تضمين الجملة الخارجي

إعداد التجارب

اختيار النموذج

اختبار 5 نماذج معايرة على التعليمات:

Llama-8B-Instruct
Mistral-7B-v0.3
سلسلة Qwen3 (0.6B, 4B, 8B)

إعدادات المعاملات الفائقة

درجة الحرارة: 1.0
عدد العينات: 10
Top-k: 10
تحديد المعاملات المثلى بناءً على دراسات الاستبعاد

نتائج التجارب

الاكتشافات الرئيسية

أشكال EigenScore تحقق أفضل أداء

Eoutput و Eaverage يحققان أعلى دقة على جميع النماذج
Eoutput يحقق دقة 71.7% على Llama-8B-Instruct
Eaverage يحقق دقة 72.4% على نفس النموذج
تفوق واضح على المقاييس التقليدية مثل الارتباك (60.0%) والتشابه المعجمي (66.5%)

تحليل معايرة النموذج

Llama-8B-Instruct معايرة بشكل أفضل على معظم المقاييس
Qwen3-0.6B يحقق أفضل أداء على Eoutput والإنتروبيا الدلالية
تأثير الحجم: النماذج الأكبر ليست بالضرورة معايرة بشكل أفضل، Qwen3-0.6B يتفوق على Qwen3-8B على جميع المقاييس

تحليل التوزيع

أشكال EigenScore تظهر توزيعاً ثنائي الذروة واضحاً، قادرة على التمييز الفعال بين المحفزات ذات GSS المختلفة، بينما المقاييس الأخرى تظهر توزيعات متداخلة أكثر.

تجارب الاستبعاد

تحليل حساسية المعاملات

Top-k: التغيير له تأثير ضئيل على الأداء
عدد العينات: تحسن مستقر من 0 إلى 20، تحسن محدود بعد 20
درجة الحرارة: EigenScore يحقق أفضل أداء عند درجة حرارة 1.0 (مختلف عن 0.5 في كشف الهلوسة)

تفاصيل تنفيذ EigenScore

المتوسط عبر الطبقات أفضل من استخدام طبقة واحدة
متوسط جميع الرموز أفضل من استخدام الرمز الأخير فقط

التطبيقات العملية

1. كشف غموض المحفز والتنبؤ بأسئلة التوضيح

التجربة 1: كشف الغموض على مجموعة بيانات RIFTS

على مجموعة بيانات RIFTS من 1740 محفز:

فقط Eoutput و Eaverage يمكنهما التمييز الصحيح بين المحفزات الغامضة وغير الغامضة
Eoutput يمكنه التمييز بشكل كبير بين الفئتين على جميع نماذج الاختبار

التجربة 2: التنبؤ بأسئلة التوضيح

Eoutput و Eaverage هما المقياسان الوحيدان القادران على التنبؤ بشكل كبير على جميع النماذج ما إذا كان النموذج سيطرح أسئلة توضيح
توفير رؤى قابلة للتفسير حول متى يسعى النموذج للتوضيح

2. تحليل نماذج الاستدلال

قياس عدد مسارات الحل

على 1000 مشكلة منطقية:

بناء أزواج محفزات بمسار واحد مقابل مسارات متعددة
Eoutput يحقق أعلى دقة على جميع نماذج الاستدلال (73% على Qwen3-4B و 8B)

التنبؤ بطول رموز الاستدلال

وجود ارتباط متوسط إلى قوي بين GSS وطول رموز الاستدلال
على مهام الاستدلال الاستنتاجي، Eoriginal يظهر أقوى ارتباط مع طول الاستدلال
توفير منظور جديد لفهم مشاكل "الإفراط في التفكير" و"نقص التفكير" في نماذج الاستدلال

3. تحسين التنوع: Leave-One-Out EigenScore (LOOE)

تصميم مقياس LOOE

اقتراح مقياس تنوع جديد على مستوى الاستجابة:

LOOEi = Eglobal - Ei

حيث Ei هو EigenScore المحسوب مجدداً بعد إزالة الاستجابة i.

نتائج تجارب DivPO

LOOE يحقق أداء مماثلة مع مقاييس التنوع الأخرى من حيث التنوع والمكافأة
مقارنة بالمقاييس التقليدية، LOOE يتمتع بثلاث مزايا فريدة:
1. استخدام المعلومات الداخلية للنموذج
2. الوعي الدلالي
3. التقييم على مستوى الاستجابة

الأعمال ذات الصلة

كمية عدم اليقين ومعايرة النموذج

تركز المعايرة التقليدية على محاذاة مقاييس UQ مع صحة المشاكل الواقعية. تمتد هذه الورقة إلى مهام مفتوحة النهاية أوسع.

مقاييس التنوع

معظم مقاييس التنوع الموجودة (مثل n-gram الفريد، self-BLEU وغيرها) هي لاحقة بشكل أساسي، ولا يمكنها الوصول إلى التمثيلات الداخلية للنموذج. يوفر EigenScore قياساً للتنوع الدلالي المدرك بناءً على المعلومات الداخلية للنموذج.

كشف الهلوسة

طرق مثل الإنتروبيا الدلالية و Kernel Language Entropy تُستخدم بشكل أساسي لكشف الهلوسة. تثبت هذه الورقة القيمة الأوسع لهذه المقاييس في تقدير GSS.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إطار عمل موحد: يوفر GSS منظوراً موحداً لفهم أنواع مختلفة من أعطال توليد LLM
اكتشاف المقاييس: يحقق EigenScore أفضل أداء كمقياس بديل لـ GSS، متفوقاً على مقاييس التنوع والكمية غير المؤكدة التقليدية
التطبيقات الواسعة: مفهوم GSS له قيمة في مجالات متعددة بما فيها كشف الغموض وتحليل الاستدلال وتحسين التنوع

القيود

عدم الحساسية للمحتوى: GSS غير حساس لجودة المحتوى المولد
افتراضات التقييم: افتراض أن GSS للنموذج قريب من GSS الحقيقي، لكن هذا الافتراض قد لا يكون صحيحاً دائماً
التعقيد الحسابي: بعض المقاييس (مثل EigenScore) لها تكلفة حسابية عالية

الاتجاهات المستقبلية

التدريب الحساس لـ GSS: تطوير طرق تدريب يمكنها ضبط GSS ديناميكياً
مقاييس بديلة أفضل: البحث عن طرق أكثر دقة وكفاءة لتقدير GSS
التوسع الحساس للمحتوى: دمج GSS مع تقييم جودة المحتوى

التقييم المتعمق

المزايا

الابتكار النظري: اقتراح مفهوم GSS الموحد لفهم المشاكل المختلفة ظاهرياً في التوليد، ذو قيمة نظرية مهمة
التقييم المنهجي: يوفر GSSBench إطار عمل تقييم شامل، ملء الفراغ في هذا المجال
قوة عملية: تظهر ثلاث حالات تطبيق قيمة مفهوم GSS العملية
صرامة منهجية: بناء علاقات ground truth من خلال العمليات النظرية المجموعية، تجنب الأحكام الذاتية
اكتشاف مهم: اكتشاف EigenScore كمقياس بديل لـ GSS يوفر أداة جديدة للمجال

أوجه القصور

حدود الحجم: الاختبار الرئيسي على نماذج أصغر، قد تختلف الأداء على النماذج الكبيرة
تغطية المهام: على الرغم من تغطية أنواع مهام متعددة، قد لا تكون شاملة بما يكفي
التحليل النظري: غياب شرح نظري عميق لماذا يحقق EigenScore أفضل أداء
الكفاءة الحسابية: قد تحد تكلفة حساب بعض المقاييس من التطبيق العملي

التأثير

المساهمة الأكاديمية: توفير إطار عمل نظري جديد وأدوات لتقييم جودة توليد LLM
القيمة العملية: توفير إرشادات لتحسين أداء LLM على أنواع مهام مختلفة
القابلية للتكرار: توفير إعدادات تجارب مفصلة وطرق بناء مجموعات البيانات

السيناريوهات المطبقة

تقييم النموذج: تقييم درجة معايرة LLM على أنواع مهام مختلفة
تدريب النموذج: توجيه تطوير طرق تدريب حساسة لـ GSS
الأنظمة التطبيقية: تحسين التحكم في التنوع في الأنظمة الحوارية وتطبيقات توليد المحتوى

المراجع

تستشهد هذه الورقة بأعمال مهمة في المجالات ذات الصلة، بما فيها:

كمية عدم اليقين: Kuhn et al. (2023), Farquhar et al. (2024)
مقاييس التنوع: Kirk et al. (2024), Li et al. (2024)
كشف الهلوسة: Chen et al. (2024), Nikitin et al. (2024)
معايرة النموذج: Huang et al. (2024), Vashurin et al. (2025)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تقترح إطار عمل نظري مبتكر لفهم موحد لمشاكل التوليد المختلفة في LLM. يتمتع إطار عمل تقييم GSSBench واكتشاف EigenScore كمقياس بديل لـ GSS بقيمة أكاديمية وعملية مهمة. على الرغم من وجود بعض القيود، فإن مساهماتها كافية بما يكفي لتوفير أدوات ورؤى قيمة لتطور المجال.