2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic

जनरेशन स्पेस साइज: LLM जनरेशन की ओपन-एंडेडनेस को समझना और कैलिब्रेट करना

बुनियादी जानकारी

  • पेपर ID: 2510.12699
  • शीर्षक: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
  • लेखक: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
  • वर्गीकरण: cs.CL, cs.AI
  • प्रकाशन स्थिति: समीक्षाधीन
  • पेपर लिंक: https://arxiv.org/abs/2510.12699

सारांश

विभिन्न ओपन-एंडेड जनरेशन कार्यों के लिए आउटपुट विविधता के विभिन्न स्तरों की आवश्यकता होती है। हालांकि, वर्तमान बड़े भाषा मॉडल (LLMs) अक्सर खराब रूप से कैलिब्रेट होते हैं: रचनात्मक कार्यों में अत्यधिक समरूप आउटपुट उत्पन्न करते हैं, जबकि तथ्यात्मक कार्यों में विविध लेकिन गलत भ्रम प्रतिक्रियाएं उत्पन्न करते हैं। यह पेपर प्रस्तावित करता है कि ये दोनों विफलता के तरीके "प्रभावी जनरेशन स्पेस साइज" (GSS) की अवधारणा के माध्यम से एकीकृत रूप से समझे और समाधान किए जा सकते हैं - अर्थात्, मॉडल द्वारा दिए गए प्रॉम्प्ट के लिए विचार किए जाने वाले शब्दार्थ रूप से भिन्न आउटपुट का समुच्चय। लेखकों ने GSSBench मूल्यांकन ढांचा प्रस्तावित किया है, जिसमें वास्तविक GSS संबंधों वाले प्रॉम्प्ट जोड़े हैं, विभिन्न मेट्रिक्स का मूल्यांकन करने और यह समझने के लिए कि मॉडल अपेक्षित व्यवहार से कहां विचलित होते हैं। अनुसंधान से पता चलता है कि भ्रम पहचान मेट्रिक्स (विशेष रूप से EigenScore) केवल मॉडल आंतरिक जानकारी का उपयोग करके, लगातार मानक विविधता और अनिश्चितता परिमाणीकरण मेट्रिक्स से बेहतर प्रदर्शन करते हैं, जो मॉडल आंतरिक कार्य प्रतिनिधित्व के लिए व्याख्यायोग्य अंतर्दृष्टि प्रदान करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

वर्तमान LLMs में दो प्रमुख जनरेशन विफलता के तरीके हैं:

  1. रचनात्मक कार्यों में आउटपुट समरूपता: ऐसे कार्यों में जहां विविधता की आवश्यकता है (जैसे ब्रेनस्टॉर्मिंग, रचनात्मक लेखन), मॉडल अत्यधिक समान आउटपुट उत्पन्न करते हैं
  2. तथ्यात्मक कार्यों में भ्रम समस्या: ऐसे कार्यों में जहां सटीकता की आवश्यकता है (जैसे प्रश्नोत्तर), मॉडल विविध लेकिन गलत उत्तर उत्पन्न करते हैं

अनुसंधान प्रेरणा

पारंपरिक दृष्टिकोण इन दोनों समस्याओं को अलग से संभालते हैं: या तो विविधता संकेत को अधिकतम करते हैं, या तथ्यात्मक सटीकता में सुधार के लिए विविधता को सीमित करते हैं। यह पेपर एक एकीकृत दृष्टिकोण प्रस्तावित करता है, जो मानता है कि ये दोनों समस्याएं जनरेशन स्पेस साइज (GSS) की कैलिब्रेशन त्रुटि से उत्पन्न होती हैं।

मौजूदा तरीकों की सीमाएं

  • विभिन्न प्रकार की जनरेशन विफलताओं को समझने के लिए एकीकृत सैद्धांतिक ढांचे की कमी
  • अधिकांश मौजूदा विविधता मेट्रिक्स पश्चवर्ती हैं, मॉडल के आंतरिक प्रतिनिधित्व तक सीधी पहुंच नहीं हो सकती
  • मॉडल की GSS कैलिब्रेशन क्षमता को परिमाणित करने के लिए व्यवस्थित मूल्यांकन ढांचे की कमी

मूल योगदान

  1. सैद्धांतिक योगदान: जनरेशन स्पेस साइज (GSS) को एकीकृत ढांचे के रूप में प्रस्तावित किया, आउटपुट समरूपता और भ्रम समस्याओं को GSS कैलिब्रेशन त्रुटि के दो पहलुओं के रूप में देखा
  2. मूल्यांकन ढांचा: GSSBench का निर्माण किया, जिसमें 9300 प्रॉम्प्ट जोड़ों का मूल्यांकन सूट है, GSS को मापने और इसकी कैलिब्रेशन त्रुटियों के लिए
  3. विधि खोज: साबित किया कि EigenScore जैसे भ्रम पहचान मेट्रिक्स GSS अनुमान में पारंपरिक विविधता और अनिश्चितता परिमाणीकरण मेट्रिक्स से बेहतर हैं
  4. व्यावहारिक अनुप्रयोग: तीन महत्वपूर्ण अनुप्रयोगों में GSS का मूल्य प्रदर्शित किया: प्रॉम्प्ट अस्पष्टता पहचान, तर्क मॉडल विश्लेषण और विविधता अनुकूलन

विधि विवरण

कार्य परिभाषा

प्रत्येक प्रॉम्प्ट p के लिए, एक वास्तविक जनरेशन स्पेस Gt(p) मौजूद है: सभी संभावित सही आउटपुट का शब्दार्थ वितरण। मॉडल m के पास एक जनरेशन स्पेस Gm(p) भी है: मॉडल द्वारा दिए गए प्रॉम्प्ट के लिए "विचार किए जाने वाले" आउटपुट स्पेस। GSS कैलिब्रेशन त्रुटि को इस प्रकार परिभाषित किया गया है:

|Gm(p)| = |Gt(p)| + εm(p)

जहां εm(p) मॉडल GSS और अपेक्षित GSS के बीच की त्रुटि है।

GSSBench मूल्यांकन ढांचा

डेटासेट निर्माण

समुच्चय सिद्धांत संचालन के आधार पर छह प्रकार के डेटासेट का निर्माण, कुल 9300 प्रॉम्प्ट जोड़े:

  1. Complement: आधार प्रॉम्प्ट बनाम पूरक प्रॉम्प्ट (जैसे "चंद्रमा के बारे में एक कविता लिखें" बनाम "चंद्रमा के बारे में नहीं कुछ भी लिखें")
  2. FactualQA: विशिष्ट प्रश्न बनाम सामान्य प्रश्न (जैसे "ब्राजील की नदियां" बनाम "नदियां")
  3. Random Choice: विभिन्न विकल्प संख्या वाले बहुविकल्पीय प्रश्न
  4. Subset: बाधाओं को जोड़कर सबसेट संबंध बनाएं
  5. Union: "या" से जुड़कर जनरेशन स्पेस का विस्तार करें
  6. Intersection: "और" से जुड़कर जनरेशन स्पेस को कम करें

मूल्यांकन मेट्रिक्स

GSS रैंकिंग की भविष्यवाणी क्षमता का मूल्यांकन करने के लिए युग्मित सटीकता का उपयोग करें:

  • प्रॉम्प्ट जोड़ी (x,y) के लिए, जहां |Gt(x)| > |Gt(y)|
  • यदि f(x) > f(y) तो स्कोर 1, अन्यथा 0

उम्मीदवार मेट्रिक्स विश्लेषण

GSS के प्रॉक्सी के रूप में कई मेट्रिक्स का मूल्यांकन किया गया:

  • पारंपरिक मेट्रिक्स: भ्रम, ऊर्जा, लंबाई सामान्यीकृत एंट्रॉपी, शब्दावली समानता
  • भ्रम पहचान मेट्रिक्स: EigenScore और इसके वेरिएंट, शब्दार्थ एंट्रॉपी
  • EigenScore वेरिएंट:
    • Eoriginal: मूल संस्करण
    • Eaverage: परतों और टोकन में औसत
    • Eoutput: बाहरी वाक्य एम्बेडिंग मॉडल का उपयोग

प्रायोगिक सेटअप

मॉडल चयन

5 निर्देश-ट्यून किए गए मॉडलों का परीक्षण किया गया:

  • Llama-8B-Instruct
  • Mistral-7B-v0.3
  • Qwen3 श्रृंखला (0.6B, 4B, 8B)

हाइपरपैरामीटर सेटिंग

  • तापमान: 1.0
  • नमूनाकरण संख्या: 10
  • Top-k: 10
  • विलोपन अध्ययन के आधार पर इष्टतम पैरामीटर निर्धारित

प्रायोगिक परिणाम

मुख्य निष्कर्ष

EigenScore वेरिएंट सर्वोत्तम प्रदर्शन करते हैं

  • Eoutput और Eaverage सभी मॉडलों पर सर्वोच्च सटीकता प्राप्त करते हैं
  • Eoutput Llama-8B-Instruct पर 71.7% सटीकता प्राप्त करता है
  • Eaverage एक ही मॉडल पर 72.4% सटीकता प्राप्त करता है
  • भ्रम (60.0%) और शब्दावली समानता (66.5%) जैसे पारंपरिक मेट्रिक्स से स्पष्ट रूप से बेहतर

मॉडल कैलिब्रेशन विश्लेषण

  • Llama-8B-Instruct अधिकांश मेट्रिक्स पर सर्वोत्तम कैलिब्रेट है
  • Qwen3-0.6B Eoutput और शब्दार्थ एंट्रॉपी पर सर्वोत्तम प्रदर्शन करता है
  • स्केल प्रभाव: बड़े मॉडल आवश्यक रूप से बेहतर कैलिब्रेट नहीं होते हैं, Qwen3-0.6B सभी मेट्रिक्स पर Qwen3-8B से बेहतर है

वितरण विश्लेषण

EigenScore वेरिएंट स्पष्ट द्विमोडल वितरण दिखाते हैं, जो विभिन्न GSS वाले प्रॉम्प्ट को प्रभावी ढंग से अलग कर सकते हैं, जबकि अन्य मेट्रिक्स का वितरण अधिक ओवरलैप होता है।

विलोपन प्रयोग

पैरामीटर संवेदनशीलता विश्लेषण

  • Top-k: भिन्नता का प्रदर्शन पर कम प्रभाव पड़ता है
  • नमूनाकरण संख्या: 0 से 20 तक वृद्धि से स्थिर सुधार, 20 से अधिक के बाद सुधार सीमित
  • तापमान: EigenScore तापमान 1.0 पर सर्वोत्तम प्रदर्शन करता है (भ्रम पहचान में 0.5 से भिन्न)

EigenScore कार्यान्वयन विवरण

  • एकल परत का उपयोग करने की तुलना में परतों में औसत बेहतर है
  • केवल अंतिम टोकन का उपयोग करने की तुलना में सभी टोकन के औसत का उपयोग बेहतर है

व्यावहारिक अनुप्रयोग

1. प्रॉम्प्ट अस्पष्टता पहचान और स्पष्टीकरण प्रश्न भविष्यवाणी

प्रयोग 1: RIFTS डेटासेट पर अस्पष्टता पहचान

1740 प्रॉम्प्ट के RIFTS डेटासेट पर:

  • केवल Eoutput और Eaverage अस्पष्ट और गैर-अस्पष्ट प्रॉम्प्ट को सही ढंग से अलग कर सकते हैं
  • Eoutput सभी परीक्षण मॉडलों पर दोनों वर्गों को महत्वपूर्ण रूप से अलग कर सकता है

प्रयोग 2: स्पष्टीकरण प्रश्न भविष्यवाणी

  • Eoutput और Eaverage एकमात्र मेट्रिक्स हैं जो सभी मॉडलों पर महत्वपूर्ण रूप से भविष्यवाणी कर सकते हैं कि मॉडल स्पष्टीकरण प्रश्न पूछेगा या नहीं
  • यह समझने के लिए व्याख्यायोग्य अंतर्दृष्टि प्रदान करता है कि मॉडल कब स्पष्टीकरण मांगता है

2. तर्क मॉडल विश्लेषण

समाधान पथ संख्या माप

1000 तार्किक समस्याओं पर:

  • एकल-पथ बनाम बहु-पथ प्रॉम्प्ट जोड़े का निर्माण किया
  • Eoutput सभी तर्क मॉडलों पर सर्वोच्च सटीकता प्राप्त करता है (Qwen3-4B और 8B पर 73%)

तर्क टोकन लंबाई भविष्यवाणी

  • GSS और तर्क टोकन लंबाई के बीच मध्यम से मजबूत सकारात्मक सहसंबंध मौजूद है
  • निगमनात्मक तर्क कार्यों पर, Eoriginal तर्क लंबाई के साथ सबसे मजबूत सहसंबंध रखता है
  • तर्क मॉडलों की "अत्यधिक सोच" और "अपर्याप्त सोच" समस्याओं को समझने के लिए नया दृष्टिकोण प्रदान करता है

3. विविधता अनुकूलन: Leave-One-Out EigenScore (LOOE)

LOOE मेट्रिक डिजाइन

नई प्रतिक्रिया-स्तरीय विविधता मेट्रिक प्रस्तावित की गई:

LOOEi = Eglobal - Ei

जहां Ei प्रतिक्रिया i को हटाने के बाद पुनः गणना की गई EigenScore है।

DivPO प्रयोग परिणाम

  • LOOE विविधता और पुरस्कार दोनों में अन्य विविधता मेट्रिक्स के समान प्रदर्शन करता है
  • पारंपरिक मेट्रिक्स की तुलना में, LOOE के तीन अद्वितीय लाभ हैं:
    1. मॉडल आंतरिक जानकारी का उपयोग करता है
    2. शब्दार्थ-जागरूक है
    3. प्रतिक्रिया-स्तरीय मूल्यांकन

संबंधित कार्य

अनिश्चितता परिमाणीकरण और मॉडल कैलिब्रेशन

पारंपरिक कैलिब्रेशन मुख्य रूप से UQ मेट्रिक्स को तथ्यात्मक समस्याओं की सटीकता के साथ संरेखित करने पर केंद्रित है। यह पेपर अधिक व्यापक ओपन-एंडेड कार्यों तक विस्तारित करता है।

विविधता मेट्रिक्स

मौजूदा विविधता मेट्रिक्स (जैसे unique n-gram, self-BLEU आदि) मुख्य रूप से पश्चवर्ती हैं, मॉडल आंतरिक प्रतिनिधित्व तक पहुंच नहीं हो सकती। EigenScore मॉडल आंतरिक के आधार पर शब्दार्थ-जागरूक विविधता माप प्रदान करता है।

भ्रम पहचान

शब्दार्थ एंट्रॉपी, Kernel Language Entropy आदि विधियां मुख्य रूप से भ्रम पहचान के लिए उपयोग की जाती हैं। यह पेपर साबित करता है कि ये मेट्रिक्स GSS अनुमान में व्यापक मूल्य रखते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. एकीकृत ढांचा: GSS विभिन्न प्रकार की LLM जनरेशन विफलताओं को समझने के लिए एकीकृत दृष्टिकोण प्रदान करता है
  2. मेट्रिक खोज: EigenScore GSS प्रॉक्सी मेट्रिक के रूप में सर्वोत्तम प्रदर्शन करता है, पारंपरिक विविधता और अनिश्चितता मेट्रिक्स से आगे निकल जाता है
  3. व्यापक अनुप्रयोग: GSS अवधारणा अस्पष्टता पहचान, तर्क विश्लेषण और विविधता अनुकूलन सहित कई क्षेत्रों में मूल्य रखती है

सीमाएं

  1. सामग्री-अज्ञेयवाद: GSS जनरेट की गई सामग्री की गुणवत्ता के प्रति असंवेदनशील है
  2. मूल्यांकन धारणाएं: मानता है कि मॉडल GSS वास्तविक GSS के करीब है, लेकिन यह धारणा हमेशा सत्य नहीं हो सकती
  3. कम्प्यूटेशनल जटिलता: कुछ मेट्रिक्स (जैसे EigenScore) की कम्प्यूटेशनल लागत अधिक है

भविष्य की दिशाएं

  1. GSS-जागरूक प्रशिक्षण: ऐसे प्रशिक्षण तरीके विकसित करें जो GSS को गतिशील रूप से समायोजित कर सकें
  2. बेहतर प्रॉक्सी मेट्रिक्स: अधिक सटीक और कुशल GSS अनुमान विधियां खोजें
  3. सामग्री-संवेदनशील विस्तार: GSS को सामग्री गुणवत्ता मूल्यांकन के साथ संयोजित करें

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक नवाचार: GSS अवधारणा प्रस्तावित करता है जो देखने में भिन्न जनरेशन समस्याओं को समझने के लिए, महत्वपूर्ण सैद्धांतिक मूल्य के साथ
  2. व्यवस्थित मूल्यांकन: GSSBench व्यापक मूल्यांकन ढांचा प्रदान करता है, इस क्षेत्र में अंतराल को भरता है
  3. व्यावहारिक शक्ति: तीन अनुप्रयोग केस GSS अवधारणा का व्यावहारिक मूल्य प्रदर्शित करते हैं
  4. कठोर पद्धति: समुच्चय सिद्धांत संचालन के माध्यम से ground truth संबंध बनाता है, व्यक्तिपरक निर्णय से बचता है
  5. महत्वपूर्ण खोज: EigenScore को GSS प्रॉक्सी के रूप में खोज इस क्षेत्र को नया उपकरण प्रदान करता है

कमियां

  1. स्केल सीमाएं: मुख्य रूप से छोटे मॉडलों पर परीक्षण किया गया, बड़े मॉडलों का प्रदर्शन भिन्न हो सकता है
  2. कार्य कवरेज: हालांकि कई कार्य प्रकारों को शामिल करता है, लेकिन पूर्ण नहीं हो सकता है
  3. सैद्धांतिक विश्लेषण: EigenScore सर्वोत्तम प्रदर्शन क्यों करता है इसके गहन सैद्धांतिक व्याख्या की कमी
  4. कम्प्यूटेशनल दक्षता: कुछ मेट्रिक्स की कम्प्यूटेशनल लागत व्यावहारिक अनुप्रयोग को सीमित कर सकती है

प्रभाव

  1. शैक्षणिक योगदान: LLM जनरेशन गुणवत्ता मूल्यांकन के लिए नया सैद्धांतिक ढांचा और उपकरण प्रदान करता है
  2. व्यावहारिक मूल्य: विभिन्न कार्य प्रकारों पर LLM प्रदर्शन में सुधार के लिए मार्गदर्शन प्रदान करता है
  3. पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और डेटासेट निर्माण विधि प्रदान करता है

लागू परिदृश्य

  1. मॉडल मूल्यांकन: विभिन्न कार्य प्रकारों पर LLM की कैलिब्रेशन डिग्री का मूल्यांकन करने के लिए
  2. मॉडल प्रशिक्षण: GSS-जागरूक प्रशिक्षण विधियां विकसित करने के लिए मार्गदर्शन
  3. अनुप्रयोग सिस्टम: संवाद प्रणाली, सामग्री जनरेशन आदि में विविधता नियंत्रण को अनुकूलित करने के लिए

संदर्भ

यह पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का उद्धरण देता है, जिसमें शामिल हैं:

  • अनिश्चितता परिमाणीकरण: Kuhn et al. (2023), Farquhar et al. (2024)
  • विविधता माप: Kirk et al. (2024), Li et al. (2024)
  • भ्रम पहचान: Chen et al. (2024), Nikitin et al. (2024)
  • मॉडल कैलिब्रेशन: Huang et al. (2024), Vashurin et al. (2025)

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पत्र है जो LLM की विभिन्न जनरेशन समस्याओं को एकीकृत रूप से समझने के लिए एक नवीन सैद्धांतिक ढांचा प्रस्तावित करता है। GSSBench मूल्यांकन ढांचा और EigenScore को GSS प्रॉक्सी मेट्रिक के रूप में खोज दोनों महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखते हैं। कुछ सीमाओं के बावजूद, इसका योगदान पर्याप्त रूप से महत्वपूर्ण है, इस क्षेत्र के विकास के लिए मूल्यवान उपकरण और अंतर्दृष्टि प्रदान करता है।