2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.

Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.

academic

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

基本信息

论文ID: 2510.12699
标题: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
作者: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
分类: cs.CL, cs.AI
发表状态: Under Review
论文链接: https://arxiv.org/abs/2510.12699

摘要

不同的开放式生成任务需要不同程度的输出多样性。然而，当前的大语言模型(LLMs)往往校准不佳：在创造性任务中产生过于同质化的输出，而在事实性任务中产生多样但不正确的幻觉回答。本文提出，这两种失效模式可以通过"有效生成空间大小"(GSS)的概念统一理解和解决——即模型对给定提示考虑的语义不同输出的集合。作者提出了GSSBench评估框架，包含具有真实GSS关系的提示对，用于评估不同指标并理解模型偏离期望行为的位置。研究发现，幻觉检测指标（特别是EigenScore）在仅使用模型内部信息的情况下，始终优于标准的多样性和不确定性量化指标，为模型内部任务表征提供了可解释的洞察。

研究背景与动机

核心问题

当前LLMs存在两个主要的生成失效模式：

创造性任务中的输出同质化：在需要多样性的任务（如头脑风暴、创意写作）中，模型产生过于相似的输出
事实性任务中的幻觉问题：在需要准确性的任务（如问答）中，模型生成多样但不正确的答案

研究动机

传统方法将这两个问题分别处理：要么最大化多样性信号，要么约束多样性以提高事实准确性。本文提出一个统一的视角，认为这两个问题都源于生成空间大小(GSS)的校准错误。

现有方法的局限性

缺乏统一的理论框架来理解不同类型的生成失效
现有多样性指标大多是后验的，无法直接访问模型的内部表征
缺乏系统性的评估框架来量化模型的GSS校准能力

核心贡献

理论贡献：提出了生成空间大小(GSS)作为统一框架，将输出同质化和幻觉问题视为GSS校准错误的两个方面
评估框架：构建了GSSBench，包含9300个提示对的评估套件，用于测量GSS及其校准错误
方法发现：证明了EigenScore等幻觉检测指标在GSS估计方面优于传统的多样性和不确定性量化指标
实际应用：展示了GSS在三个重要应用中的价值：提示歧义检测、推理模型分析和多样性优化

方法详解

任务定义

对于每个提示p，存在一个真实生成空间Gt(p)：所有可能正确输出的语义分布。模型m也有一个生成空间Gm(p)：模型对给定提示"考虑"的输出空间。GSS校准错误定义为：

|Gm(p)| = |Gt(p)| + εm(p)

其中εm(p)是模型GSS与期望GSS之间的误差。

GSSBench评估框架

数据集构建

基于集合论操作构建六种数据集，总计9300个提示对：

Complement：基础提示vs补集提示（如"写一首关于月亮的诗" vs "写任何不是关于月亮的诗的内容"）
FactualQA：具体问题vs一般问题（如"巴西的河流" vs "河流"）
Random Choice：不同选项数量的选择题
Subset：通过添加约束条件创建子集关系
Union：通过"或"连接扩大生成空间
Intersection：通过"和"连接缩小生成空间

评估指标

使用配对准确率评估指标f对GSS排序的预测能力：

对于提示对(x,y)，其中|Gt(x)| > |Gt(y)|
如果f(x) > f(y)则得分为1，否则为0

候选指标分析

评估了多种指标作为GSS的代理：

传统指标：困惑度、能量、长度标准化熵、词汇相似性
幻觉检测指标：EigenScore及其变体、语义熵
EigenScore变体：
- Eoriginal：原始版本
- Eaverage：跨层和token平均
- Eoutput：使用外部句子嵌入模型

实验设置

模型选择

测试了5个指令调优模型：

Llama-8B-Instruct
Mistral-7B-v0.3
Qwen3系列（0.6B, 4B, 8B）

超参数设置

温度：1.0
采样数量：10
Top-k：10
基于消融研究确定最优参数

实验结果

主要发现

EigenScore变体表现最佳

Eoutput和Eaverage在所有模型上达到最高准确率
Eoutput在Llama-8B-Instruct上达到71.7%准确率
Eaverage在同一模型上达到72.4%准确率
明显优于传统指标如困惑度（60.0%）和词汇相似性（66.5%）

模型校准分析

Llama-8B-Instruct在大多数指标上校准最好
Qwen3-0.6B在Eoutput和语义熵上表现最佳
规模效应：更大的模型不一定校准更好，Qwen3-0.6B在所有指标上都优于Qwen3-8B

分布分析

EigenScore变体显示出明显的双峰分布，能够有效区分不同GSS的提示，而其他指标的分布更加重叠。

消融实验

参数敏感性分析

Top-k：变化对性能影响不大
采样数量：从0增加到20有稳定提升，超过20后提升有限
温度：EigenScore在温度1.0时表现最佳（与幻觉检测中的0.5不同）

EigenScore实现细节

跨层平均比使用单层效果更好
使用所有token的平均比仅使用最后token效果更好

实际应用

1. 提示歧义检测与澄清问题预测

实验1：RIFTS数据集上的歧义检测

在1740个提示的RIFTS数据集上：

只有Eoutput和Eaverage能够正确区分歧义和非歧义提示
Eoutput在所有测试模型上都能显著区分两类提示

实验2：澄清问题预测

Eoutput和Eaverage是唯一能在所有模型上显著预测模型是否会提出澄清问题的指标
为理解模型何时寻求澄清提供了可解释的洞察

2. 推理模型分析

解决方案路径数量测量

在1000个逻辑问题上：

构建了单路径vs多路径提示对
Eoutput在所有推理模型上达到最高准确率（Qwen3-4B和8B上为73%）

推理token长度预测

GSS与推理token长度存在中等到强的正相关
在演绎推理任务上，Eoriginal与推理长度相关性最强
为理解推理模型的"过度思考"和"思考不足"问题提供了新视角

3. 多样性优化：Leave-One-Out EigenScore (LOOE)

LOOE指标设计

提出了新的响应级多样性指标：

LOOEi = Eglobal - Ei

其中Ei是移除响应i后重新计算的EigenScore。

DivPO实验结果

LOOE在多样性和奖励方面与其他多样性指标表现相当
相比传统指标，LOOE具有三个独特优势：
1. 使用模型内部信息
2. 语义感知
3. 响应级评估

相关工作

不确定性量化与模型校准

传统校准主要关注UQ指标与事实性问题正确性的对齐。本文扩展到更广泛的开放式任务。

多样性指标

现有多样性指标（如unique n-gram、self-BLEU等）主要是后验的，无法访问模型内部表征。EigenScore提供了基于模型内部的语义感知多样性测量。

幻觉检测

语义熵、Kernel Language Entropy等方法主要用于幻觉检测。本文证明了这些指标在GSS估计方面的更广泛价值。

结论与讨论

主要结论

统一框架：GSS为理解不同类型的LLM生成失效提供了统一视角
指标发现：EigenScore作为GSS代理指标表现最佳，超越了传统多样性和不确定性指标
广泛应用：GSS概念在歧义检测、推理分析和多样性优化等多个领域都有价值

局限性

内容无关性：GSS对生成内容的质量不敏感
评估假设：假设模型GSS接近真实GSS，但这个假设可能不总是成立
计算复杂性：某些指标（如EigenScore）计算成本较高

未来方向

GSS感知训练：开发能够动态调整GSS的训练方法
更好的代理指标：寻找更准确、更高效的GSS估计方法
内容敏感扩展：将GSS与内容质量评估相结合

深度评价

优点

理论创新：提出GSS这一统一概念来理解看似不同的生成问题，具有重要的理论价值
系统性评估：GSSBench提供了全面的评估框架，填补了该领域的空白
实用性强：三个应用案例展示了GSS概念的实际价值
方法论严谨：通过集合论操作构建ground truth关系，避免了主观判断
发现重要：EigenScore作为GSS代理的发现为该领域提供了新工具

不足

规模限制：主要在较小模型上测试，大模型的表现可能不同
任务覆盖：虽然涵盖多种任务类型，但可能不够全面
理论分析：缺乏对为什么EigenScore表现最佳的深入理论解释
计算效率：某些指标的计算成本可能限制实际应用

影响力

学术贡献：为LLM生成质量评估提供了新的理论框架和工具
实用价值：对改进LLM在不同任务类型上的表现具有指导意义
可复现性：提供了详细的实验设置和数据集构建方法

适用场景

模型评估：用于评估LLM在不同任务类型上的校准程度
模型训练：指导开发GSS感知的训练方法
应用系统：在对话系统、内容生成等应用中优化多样性控制

参考文献

本文引用了相关领域的重要工作，包括：

不确定性量化：Kuhn et al. (2023), Farquhar et al. (2024)
多样性度量：Kirk et al. (2024), Li et al. (2024)
幻觉检测：Chen et al. (2024), Nikitin et al. (2024)
模型校准：Huang et al. (2024), Vashurin et al. (2025)

总体评价：这是一篇高质量的研究论文，提出了创新的理论框架来统一理解LLM的不同生成问题。GSSBench评估框架和EigenScore作为GSS代理指标的发现都具有重要的学术和实用价值。尽管存在一些局限性，但其贡献足够显著，为该领域的发展提供了有价值的工具和洞察。