Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic
حجم فضاء التوليد: فهم ومعايرة الانفتاح في توليدات نماذج اللغة الكبيرة
تتطلب مهام التوليد المختلفة ذات النهاية المفتوحة درجات متفاوتة من تنوع المخرجات. ومع ذلك، غالباً ما تكون نماذج اللغة الكبيرة (LLMs) معايرة بشكل سيء: فهي تنتج مخرجات متجانسة جداً في المهام الإبداعية، بينما تنتج إجابات متنوعة لكن غير صحيحة في المهام الواقعية. تقترح هذه الورقة أن كلا نمطي الفشل يمكن فهمهما وحلهما من خلال مفهوم "حجم فضاء التوليد الفعال" (GSS) - أي مجموعة المخرجات المختلفة دلالياً التي يأخذها النموذج في الاعتبار لمحفز معين. يقترح المؤلفون إطار عمل تقييم GSSBench يتضمن أزواج محفزات بعلاقات GSS حقيقية، لتقييم المقاييس المختلفة وفهم حيث ينحرف النموذج عن السلوك المتوقع. يكتشف البحث أن مقاييس كشف الهلوسة (خاصة EigenScore) تتفوق باستمرار على مقاييس التنوع والكمية غير المؤكدة القياسية، باستخدام معلومات داخلية للنموذج فقط، مما يوفر رؤى قابلة للتفسير حول تمثيل المهام الداخلية للنموذج.
تتعامل الطرق التقليدية مع هاتين المشكلتين بشكل منفصل: إما بتعظيم إشارات التنوع أو بتقييد التنوع لتحسين الدقة الواقعية. تقترح هذه الورقة منظوراً موحداً، معتقدة أن كلا المشكلتين تنبعان من أخطاء معايرة حجم فضاء التوليد (GSS).
لكل محفز p، يوجد فضاء توليد حقيقي Gt(p): التوزيع الدلالي لجميع المخرجات الصحيحة الممكنة. للنموذج m أيضاً فضاء توليد Gm(p): فضاء المخرجات التي "يأخذها" النموذج في الاعتبار للمحفز المعطى. يُعرّف خطأ معايرة GSS كالتالي:
أشكال EigenScore تظهر توزيعاً ثنائي الذروة واضحاً، قادرة على التمييز الفعال بين المحفزات ذات GSS المختلفة، بينما المقاييس الأخرى تظهر توزيعات متداخلة أكثر.
معظم مقاييس التنوع الموجودة (مثل n-gram الفريد، self-BLEU وغيرها) هي لاحقة بشكل أساسي، ولا يمكنها الوصول إلى التمثيلات الداخلية للنموذج. يوفر EigenScore قياساً للتنوع الدلالي المدرك بناءً على المعلومات الداخلية للنموذج.
تستشهد هذه الورقة بأعمال مهمة في المجالات ذات الصلة، بما فيها:
كمية عدم اليقين: Kuhn et al. (2023), Farquhar et al. (2024)
مقاييس التنوع: Kirk et al. (2024), Li et al. (2024)
كشف الهلوسة: Chen et al. (2024), Nikitin et al. (2024)
معايرة النموذج: Huang et al. (2024), Vashurin et al. (2025)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تقترح إطار عمل نظري مبتكر لفهم موحد لمشاكل التوليد المختلفة في LLM. يتمتع إطار عمل تقييم GSSBench واكتشاف EigenScore كمقياس بديل لـ GSS بقيمة أكاديمية وعملية مهمة. على الرغم من وجود بعض القيود، فإن مساهماتها كافية بما يكفي لتوفير أدوات ورؤى قيمة لتطور المجال.