Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
개방형 생성 작업마다 서로 다른 수준의 출력 다양성이 필요하다. 그러나 현재의 대규모 언어 모델(LLMs)은 종종 보정이 잘못되어 있다: 창의적 작업에서는 지나치게 동질적인 출력을 생성하고, 사실 기반 작업에서는 다양하지만 부정확한 환각 답변을 생성한다. 본 논문은 이 두 가지 실패 양식이 "유효 생성 공간 크기"(GSS) 개념을 통해 통일되게 이해되고 해결될 수 있음을 제안한다. GSS는 모델이 주어진 프롬프트에 대해 고려하는 의미론적으로 다른 출력의 집합이다. 저자들은 실제 GSS 관계를 포함하는 프롬프트 쌍으로 구성된 GSSBench 평가 프레임워크를 제안하여 다양한 지표를 평가하고 모델이 예상 동작에서 벗어나는 위치를 이해한다. 연구 결과, 환각 탐지 지표(특히 EigenScore)는 모델 내부 정보만 사용하면서도 표준 다양성 및 불확실성 정량화 지표를 지속적으로 능가하며, 모델 내부 작업 표현에 대한 해석 가능한 통찰력을 제공한다.
불확실성 정량화: Kuhn et al. (2023), Farquhar et al. (2024)
다양성 측정: Kirk et al. (2024), Li et al. (2024)
환각 탐지: Chen et al. (2024), Nikitin et al. (2024)
모델 보정: Huang et al. (2024), Vashurin et al. (2025)
종합 평가: 이는 LLM의 다양한 생성 문제를 통일되게 이해하기 위한 혁신적 이론 프레임워크를 제안하는 고품질 연구 논문이다. GSSBench 평가 프레임워크와 EigenScore를 GSS 대리로 발견한 것은 모두 중요한 학술적 및 실용적 가치를 가진다. 일부 한계가 있지만, 그 기여는 충분히 중요하여 해당 분야의 발전에 가치 있는 도구와 통찰력을 제공한다.