2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.

Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.

academic

প্রজন্ম স্থান আকার: এলএলএম প্রজন্মের খোলা-সমাপ্তির বোঝা এবং ক্যালিব্রেশন

মৌলিক তথ্য

পত্র আইডি: 2510.12699
শিরোনাম: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
লেখক: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (স্ট্যানফোর্ড বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.CL, cs.AI
প্রকাশনা অবস্থা: পর্যালোচনাধীন
পত্র লিঙ্ক: https://arxiv.org/abs/2510.12699

সারসংক্ষেপ

বিভিন্ন খোলা-সমাপ্ত প্রজন্ম কাজের জন্য বিভিন্ন স্তরের আউটপুট বৈচিত্র্যের প্রয়োজন। তবে, বর্তমান বড় ভাষা মডেল (এলএলএম) সাধারণত খারাপভাবে ক্যালিব্রেট করা হয়: সৃজনশীল কাজে অত্যন্ত সমজাতীয় আউটপুট তৈরি করে, যখন তথ্যপূর্ণ কাজে বৈচিত্র্যময় কিন্তু ভুল হ্যালুসিনেশন প্রতিক্রিয়া তৈরি করে। এই পত্রটি প্রস্তাব করে যে এই দুটি ব্যর্থতার ধরণ "কার্যকর প্রজন্ম স্থান আকার" (জিএসএস) ধারণার মাধ্যমে একীভূতভাবে বোঝা এবং সমাধান করা যায়—অর্থাৎ, প্রদত্ত প্রম্পটের জন্য মডেল বিবেচনা করে এমন শব্দার্থগতভাবে ভিন্ন আউটপুটের সেট। লেখকরা জিএসএসবেঞ্চ মূল্যায়ন কাঠামো প্রস্তাব করেছেন, যাতে প্রকৃত জিএসএস সম্পর্ক সহ প্রম্পট জোড়া রয়েছে, বিভিন্ন মেট্রিক্স মূল্যায়ন এবং মডেল প্রত্যাশিত আচরণ থেকে বিচ্যুত হওয়ার জায়গা বোঝার জন্য। গবেষণা দেখায় যে হ্যালুসিনেশন সনাক্তকরণ মেট্রিক্স (বিশেষত ইজেনস্কোর) শুধুমাত্র মডেল অভ্যন্তরীণ তথ্য ব্যবহার করে ধারাবাহিকভাবে মান বৈচিত্র্য এবং অনিশ্চয়তা পরিমাণীকরণ মেট্রিক্সকে অতিক্রম করে, মডেল অভ্যন্তরীণ কাজ প্রতিনিধিত্বের জন্য ব্যাখ্যাযোগ্য অন্তর্দৃষ্টি প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বর্তমান এলএলএম দুটি প্রধান প্রজন্ম ব্যর্থতার ধরণ উপস্থাপন করে:

সৃজনশীল কাজে আউটপুট সমজাতীয়করণ: এমন কাজে যেখানে বৈচিত্র্যের প্রয়োজন (যেমন মস্তিষ্ক ঝড়, সৃজনশীল লেখা), মডেল অত্যন্ত অনুরূপ আউটপুট তৈরি করে
তথ্যপূর্ণ কাজে হ্যালুসিনেশন সমস্যা: এমন কাজে যেখানে নির্ভুলতার প্রয়োজন (যেমন প্রশ্নোত্তর), মডেল বৈচিত্র্যময় কিন্তু ভুল উত্তর তৈরি করে

গবেষণা প্রেরণা

ঐতিহ্যবাহী পদ্ধতি এই দুটি সমস্যা আলাদাভাবে পরিচালনা করে: হয় বৈচিত্র্য সংকেত সর্বাধিক করা, অথবা তথ্যপূর্ণ নির্ভুলতা উন্নত করতে বৈচিত্র্য সীমাবদ্ধ করা। এই পত্রটি একটি একীভূত দৃষ্টিভঙ্গি প্রস্তাব করে, যা বিশ্বাস করে যে এই দুটি সমস্যা উভয়ই প্রজন্ম স্থান আকার (জিএসএস) ক্যালিব্রেশন ত্রুটি থেকে উদ্ভূত।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিভিন্ন ধরনের প্রজন্ম ব্যর্থতা বোঝার জন্য একীভূত তাত্ত্বিক কাঠামোর অভাব
বিদ্যমান বৈচিত্র্য মেট্রিক্স বেশিরভাগই পরবর্তী-বিশ্লেষণাত্মক, মডেলের অভ্যন্তরীণ প্রতিনিধিত্বে সরাসরি অ্যাক্সেস করতে পারে না
মডেলের জিএসএস ক্যালিব্রেশন ক্ষমতা পরিমাপ করার জন্য একটি সিস্টেমেটিক মূল্যায়ন কাঠামোর অভাব

মূল অবদান

তাত্ত্বিক অবদান: প্রজন্ম স্থান আকার (জিএসএস) একটি একীভূত কাঠামো হিসাবে প্রস্তাব করা, আউটপুট সমজাতীয়করণ এবং হ্যালুসিনেশন সমস্যা জিএসএস ক্যালিব্রেশন ত্রুটির দুটি দিক হিসাবে দেখা
মূল্যায়ন কাঠামো: জিএসএস পরিমাপ এবং এর ক্যালিব্রেশন ত্রুটি পরীক্ষা করার জন্য 9300টি প্রম্পট জোড়া সহ জিএসএসবেঞ্চ নির্মাণ করা
পদ্ধতি আবিষ্কার: প্রমাণ করা যে ইজেনস্কোর এর মতো হ্যালুসিনেশন সনাক্তকরণ মেট্রিক্স জিএসএস অনুমানে ঐতিহ্যবাহী বৈচিত্র্য এবং অনিশ্চয়তা পরিমাণীকরণ মেট্রিক্সকে অতিক্রম করে
ব্যবহারিক প্রয়োগ: তিনটি গুরুত্বপূর্ণ প্রয়োগে জিএসএসের মূল্য প্রদর্শন করা: প্রম্পট অস্পষ্টতা সনাক্তকরণ, যুক্তিপূর্ণ মডেল বিশ্লেষণ এবং বৈচিত্র্য অপ্টিমাইজেশন

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রতিটি প্রম্পট p এর জন্য, একটি প্রকৃত প্রজন্ম স্থান Gt(p) বিদ্যমান: সমস্ত সম্ভাব্য সঠিক আউটপুটের শব্দার্থগত বিতরণ। মডেল m এর একটি প্রজন্ম স্থান Gm(p) ও রয়েছে: প্রদত্ত প্রম্পটের জন্য মডেল "বিবেচনা করে" এমন আউটপুট স্থান। জিএসএস ক্যালিব্রেশন ত্রুটি সংজ্ঞায়িত করা হয়:

|Gm(p)| = |Gt(p)| + εm(p)

যেখানে εm(p) হল মডেল জিএসএস এবং প্রত্যাশিত জিএসএসের মধ্যে ত্রুটি।

জিএসএসবেঞ্চ মূল্যায়ন কাঠামো

ডেটাসেট নির্মাণ

সেট তাত্ত্বিক ক্রিয়াকলাপের উপর ভিত্তি করে ছয় ধরনের ডেটাসেট নির্মাণ করা, মোট 9300টি প্রম্পট জোড়া:

পরিপূরক: ভিত্তি প্রম্পট বনাম পরিপূরক প্রম্পট (যেমন "চাঁদ সম্পর্কে একটি কবিতা লিখুন" বনাম "চাঁদ সম্পর্কে নয় এমন কিছু লিখুন")
তথ্যপূর্ণ প্রশ্নোত্তর: নির্দিষ্ট প্রশ্ন বনাম সাধারণ প্রশ্ন (যেমন "ব্রাজিলের নদী" বনাম "নদী")
র্যান্ডম পছন্দ: বিভিন্ন বিকল্প সংখ্যা সহ বহুনির্বাচনী প্রশ্ন
উপসেট: সীমাবদ্ধতা শর্ত যোগ করে উপসেট সম্পর্ক তৈরি করা
ইউনিয়ন: "বা" সংযোগের মাধ্যমে প্রজন্ম স্থান প্রসারিত করা
ছেদ: "এবং" সংযোগের মাধ্যমে প্রজন্ম স্থান সংকুচিত করা

মূল্যায়ন মেট্রিক্স

জিএসএস র্যাঙ্কিং পূর্বাভাসের ক্ষমতা মূল্যায়ন করতে জোড়া নির্ভুলতা ব্যবহার করা হয়:

প্রম্পট জোড়ার জন্য (x,y), যেখানে |Gt(x)| > |Gt(y)|
যদি f(x) > f(y) হয় তবে স্কোর 1, অন্যথায় 0

প্রার্থী মেট্রিক্স বিশ্লেষণ

জিএসএসের প্রতিনিধি হিসাবে বিভিন্ন মেট্রিক্স মূল্যায়ন করা হয়েছে:

ঐতিহ্যবাহী মেট্রিক্স: বিভ্রান্তি, শক্তি, দৈর্ঘ্য-স্বাভাবিক এন্ট্রপি, শব্দভান্ডার সাদৃশ্য
হ্যালুসিনেশন সনাক্তকরণ মেট্রিক্স: ইজেনস্কোর এবং এর ভেরিয়েন্ট, শব্দার্থগত এন্ট্রপি
ইজেনস্কোর ভেরিয়েন্ট:
- Eoriginal: মূল সংস্করণ
- Eaverage: স্তর এবং টোকেন জুড়ে গড়
- Eoutput: বাহ্যিক বাক্য এম্বেডিং মডেল ব্যবহার করা

পরীক্ষামূলক সেটআপ

মডেল নির্বাচন

5টি নির্দেশনা-টিউন করা মডেল পরীক্ষা করা হয়েছে:

Llama-8B-Instruct
Mistral-7B-v0.3
Qwen3 সিরিজ (0.6B, 4B, 8B)

হাইপারপ্যারামিটার সেটিংস

তাপমাত্রা: 1.0
নমুনা সংখ্যা: 10
Top-k: 10
বিলোপন গবেষণার উপর ভিত্তি করে সর্বোত্তম পরামিতি নির্ধারণ করা

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

ইজেনস্কোর ভেরিয়েন্ট সর্বোত্তম পারফরম্যান্স

Eoutput এবং Eaverage সমস্ত মডেলে সর্বোচ্চ নির্ভুলতা অর্জন করে
Eoutput Llama-8B-Instruct এ 71.7% নির্ভুলতা অর্জন করে
Eaverage একই মডেলে 72.4% নির্ভুলতা অর্জন করে
বিভ্রান্তি (60.0%) এবং শব্দভান্ডার সাদৃশ্য (66.5%) এর মতো ঐতিহ্যবাহী মেট্রিক্সের চেয়ে উল্লেখযোগ্যভাবে ভাল

মডেল ক্যালিব্রেশন বিশ্লেষণ

Llama-8B-Instruct বেশিরভাগ মেট্রিক্সে সর্বোত্তম ক্যালিব্রেশন
Qwen3-0.6B Eoutput এবং শব্দার্থগত এন্ট্রপিতে সর্বোত্তম পারফরম্যান্স
স্কেল প্রভাব: বৃহত্তর মডেল অগত্যা ভাল ক্যালিব্রেট করা হয় না, Qwen3-0.6B সমস্ত মেট্রিক্সে Qwen3-8B কে ছাড়িয়ে যায়

বিতরণ বিশ্লেষণ

ইজেনস্কোর ভেরিয়েন্ট স্পষ্ট দ্বিমোডাল বিতরণ প্রদর্শন করে, বিভিন্ন জিএসএসের প্রম্পট কার্যকরভাবে পার্থক্য করতে পারে, যখন অন্যান্য মেট্রিক্সের বিতরণ আরও ওভারল্যাপ করে।

বিলোপন পরীক্ষা

প্যারামিটার সংবেদনশীলতা বিশ্লেষণ

Top-k: পরিবর্তন কর্মক্ষমতা উপর প্রভাব ছোট
নমুনা সংখ্যা: 0 থেকে 20 পর্যন্ত স্থিতিশীল উন্নতি, 20 এর বেশি সীমিত উন্নতি
তাপমাত্রা: ইজেনস্কোর তাপমাত্রা 1.0 এ সর্বোত্তম পারফরম্যান্স (হ্যালুসিনেশন সনাক্তকরণে 0.5 থেকে ভিন্ন)

ইজেনস্কোর বাস্তবায়ন বিবরণ

একক স্তর ব্যবহারের চেয়ে স্তর জুড়ে গড় ভাল
শুধুমাত্র শেষ টোকেন ব্যবহারের চেয়ে সমস্ত টোকেনের গড় ভাল

ব্যবহারিক প্রয়োগ

1. প্রম্পট অস্পষ্টতা সনাক্তকরণ এবং স্পষ্টীকরণ প্রশ্ন পূর্বাভাস

পরীক্ষা 1: RIFTS ডেটাসেটে অস্পষ্টতা সনাক্তকরণ

1740টি প্রম্পটের RIFTS ডেটাসেটে:

শুধুমাত্র Eoutput এবং Eaverage অস্পষ্ট এবং অ-অস্পষ্ট প্রম্পট সঠিকভাবে পার্থক্য করতে পারে
Eoutput সমস্ত পরীক্ষা মডেলে দুটি শ্রেণী উল্লেখযোগ্যভাবে পার্থক্য করতে পারে

পরীক্ষা 2: স্পষ্টীকরণ প্রশ্ন পূর্বাভাস

Eoutput এবং Eaverage একমাত্র মেট্রিক্স যা সমস্ত মডেলে মডেল স্পষ্টীকরণ প্রশ্ন উত্থাপন করবে কিনা তা উল্লেখযোগ্যভাবে পূর্বাভাস দিতে পারে
মডেল কখন স্পষ্টীকরণ চাইবে তা বোঝার জন্য ব্যাখ্যাযোগ্য অন্তর্দৃষ্টি প্রদান করে

2. যুক্তিপূর্ণ মডেল বিশ্লেষণ

সমাধান পথ সংখ্যা পরিমাপ

1000টি যুক্তিপূর্ণ সমস্যায়:

একক-পথ বনাম বহু-পথ প্রম্পট জোড়া নির্মাণ করা
Eoutput সমস্ত যুক্তিপূর্ণ মডেলে সর্বোচ্চ নির্ভুলতা অর্জন করে (Qwen3-4B এবং 8B এ 73%)

যুক্তিপূর্ণ টোকেন দৈর্ঘ্য পূর্বাভাস

জিএসএস যুক্তিপূর্ণ টোকেন দৈর্ঘ্যের সাথে মধ্যম থেকে শক্তিশালী ইতিবাচক সম্পর্ক
বৈশ্লেষিক যুক্তি কাজে, Eoriginal যুক্তিপূর্ণ দৈর্ঘ্যের সাথে সবচেয়ে শক্তিশালী সম্পর্ক
যুক্তিপূর্ণ মডেলের "অত্যধিক চিন্তা" এবং "অপর্যাপ্ত চিন্তা" সমস্যা বোঝার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে

3. বৈচিত্র্য অপ্টিমাইজেশন: Leave-One-Out EigenScore (LOOE)

LOOE মেট্রিক ডিজাইন

নতুন প্রতিক্রিয়া-স্তরের বৈচিত্র্য মেট্রিক প্রস্তাব করা:

LOOEi = Eglobal - Ei

যেখানে Ei হল প্রতিক্রিয়া i অপসারণের পরে পুনরায় গণনা করা ইজেনস্কোর।

DivPO পরীক্ষার ফলাফল

LOOE বৈচিত্র্য এবং পুরস্কারের ক্ষেত্রে অন্যান্য বৈচিত্র্য মেট্রিক্সের সাথে তুলনীয়
ঐতিহ্যবাহী মেট্রিক্সের তুলনায়, LOOE তিনটি অনন্য সুবিধা রয়েছে:
1. মডেল অভ্যন্তরীণ তথ্য ব্যবহার করা
2. শব্দার্থগত সচেতনতা
3. প্রতিক্রিয়া-স্তরের মূল্যায়ন

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

একীভূত কাঠামো: জিএসএস বিভিন্ন ধরনের এলএলএম প্রজন্ম ব্যর্থতা বোঝার জন্য একীভূত দৃষ্টিভঙ্গি প্রদান করে
মেট্রিক্স আবিষ্কার: ইজেনস্কোর জিএসএস প্রতিনিধি মেট্রিক্স হিসাবে সর্বোত্তম পারফরম্যান্স করে, ঐতিহ্যবাহী বৈচিত্র্য এবং অনিশ্চয়তা মেট্রিক্স অতিক্রম করে
বিস্তৃত প্রয়োগ: জিএসএস ধারণা অস্পষ্টতা সনাক্তকরণ, যুক্তিপূর্ণ বিশ্লেষণ এবং বৈচিত্র্য অপ্টিমাইজেশন সহ একাধিক ক্ষেত্রে মূল্যবান

সীমাবদ্ধতা

বিষয়বস্তু অজ্ঞেয়বাদ: জিএসএস প্রজন্ম বিষয়বস্তুর গুণমানের প্রতি সংবেদনশীল নয়
মূল্যায়ন অনুমান: মডেল জিএসএস প্রকৃত জিএসএসের কাছাকাছি অনুমান করে, কিন্তু এই অনুমান সর্বদা সত্য নাও হতে পারে
গণনা জটিলতা: কিছু মেট্রিক্স (যেমন ইজেনস্কোর) গণনা খরচ বেশি

ভবিষ্যত দিকনির্দেশনা

জিএসএস-সচেতন প্রশিক্ষণ: জিএসএস গতিশীলভাবে সামঞ্জস্য করতে পারে এমন প্রশিক্ষণ পদ্ধতি বিকাশ করা
আরও ভাল প্রতিনিধি মেট্রিক্স: আরও নির্ভুল, আরও দক্ষ জিএসএস অনুমান পদ্ধতি খোঁজা
বিষয়বস্তু-সংবেদনশীল সম্প্রসারণ: জিএসএস বিষয়বস্তু গুণমান মূল্যায়নের সাথে একত্রিত করা

গভীর মূল্যায়ন

শক্তি

তাত্ত্বিক উদ্ভাবন: জিএসএস ধারণা প্রস্তাব করা বিভিন্ন প্রজন্ম সমস্যা বোঝার জন্য, উল্লেখযোগ্য তাত্ত্বিক মূল্য সহ
সিস্টেমেটিক মূল্যায়ন: জিএসএসবেঞ্চ ব্যাপক মূল্যায়ন কাঠামো প্রদান করে, এই ক্ষেত্রে শূন্যতা পূরণ করে
শক্তিশালী ব্যবহারিকতা: তিনটি প্রয়োগ কেস জিএসএস ধারণার ব্যবহারিক মূল্য প্রদর্শন করে
কঠোর পদ্ধতিবিদ্যা: সেট তাত্ত্বিক ক্রিয়াকলাপের মাধ্যমে ground truth সম্পর্ক নির্মাণ করা, বিষয়গত বিচার এড়ানো
গুরুত্বপূর্ণ আবিষ্কার: ইজেনস্কোর জিএসএস প্রতিনিধি হিসাবে আবিষ্কার এই ক্ষেত্রের জন্য নতুন সরঞ্জাম প্রদান করে

অপূর্ণতা

স্কেল সীমাবদ্ধতা: প্রধানত ছোট মডেলে পরীক্ষা করা, বড় মডেলের পারফরম্যান্স ভিন্ন হতে পারে
কাজ কভারেজ: একাধিক কাজ ধরন অন্তর্ভুক্ত করলেও, সম্পূর্ণ নাও হতে পারে
তাত্ত্বিক বিশ্লেষণ: কেন ইজেনস্কোর সর্বোত্তম পারফরম্যান্স করে তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব
গণনা দক্ষতা: কিছু মেট্রিক্সের গণনা খরচ ব্যবহারিক প্রয়োগ সীমাবদ্ধ করতে পারে

প্রভাব

একাডেমিক অবদান: এলএলএম প্রজন্ম গুণমান মূল্যায়নের জন্য নতুন তাত্ত্বিক কাঠামো এবং সরঞ্জাম প্রদান করে
ব্যবহারিক মূল্য: বিভিন্ন কাজ ধরনে এলএলএম পারফরম্যান্স উন্নত করার জন্য নির্দেশনা প্রদান করে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ এবং ডেটাসেট নির্মাণ পদ্ধতি প্রদান করে

প্রযোজ্য পরিস্থিতি

মডেল মূল্যায়ন: বিভিন্ন কাজ ধরনে এলএলএম ক্যালিব্রেশন মূল্যায়ন করতে ব্যবহৃত
মডেল প্রশিক্ষণ: জিএসএস-সচেতন প্রশিক্ষণ পদ্ধতি বিকাশ নির্দেশনা দিতে
প্রয়োগ সিস্টেম: কথোপকথন সিস্টেম, বিষয়বস্তু প্রজন্ম ইত্যাদিতে বৈচিত্র্য নিয়ন্ত্রণ অপ্টিমাইজ করতে

রেফারেন্স

এই পত্রটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

অনিশ্চয়তা পরিমাণীকরণ: Kuhn et al. (2023), Farquhar et al. (2024)
বৈচিত্র্য পরিমাপ: Kirk et al. (2024), Li et al. (2024)
হ্যালুসিনেশন সনাক্তকরণ: Chen et al. (2024), Nikitin et al. (2024)
মডেল ক্যালিব্রেশন: Huang et al. (2024), Vashurin et al. (2025)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা এলএলএমের বিভিন্ন প্রজন্ম সমস্যা একীভূতভাবে বোঝার জন্য একটি উদ্ভাবনী তাত্ত্বিক কাঠামো প্রস্তাব করে। জিএসএসবেঞ্চ মূল্যায়ন কাঠামো এবং জিএসএস প্রতিনিধি মেট্রিক্স হিসাবে ইজেনস্কোরের আবিষ্কার উভয়ই উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। কিছু সীমাবদ্ধতা থাকলেও, এর অবদান এই ক্ষেত্রের উন্নয়নের জন্য মূল্যবান সরঞ্জাম এবং অন্তর্দৃষ্টি প্রদান করার জন্য যথেষ্ট উল্লেখযোগ্য।