2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.

Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.

academic

생성 공간 크기: LLM 생성의 개방성 이해 및 보정

기본 정보

논문 ID: 2510.12699
제목: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
저자: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Stanford University)
분류: cs.CL, cs.AI
발표 상태: 검토 중
논문 링크: https://arxiv.org/abs/2510.12699

초록

개방형 생성 작업마다 서로 다른 수준의 출력 다양성이 필요하다. 그러나 현재의 대규모 언어 모델(LLMs)은 종종 보정이 잘못되어 있다: 창의적 작업에서는 지나치게 동질적인 출력을 생성하고, 사실 기반 작업에서는 다양하지만 부정확한 환각 답변을 생성한다. 본 논문은 이 두 가지 실패 양식이 "유효 생성 공간 크기"(GSS) 개념을 통해 통일되게 이해되고 해결될 수 있음을 제안한다. GSS는 모델이 주어진 프롬프트에 대해 고려하는 의미론적으로 다른 출력의 집합이다. 저자들은 실제 GSS 관계를 포함하는 프롬프트 쌍으로 구성된 GSSBench 평가 프레임워크를 제안하여 다양한 지표를 평가하고 모델이 예상 동작에서 벗어나는 위치를 이해한다. 연구 결과, 환각 탐지 지표(특히 EigenScore)는 모델 내부 정보만 사용하면서도 표준 다양성 및 불확실성 정량화 지표를 지속적으로 능가하며, 모델 내부 작업 표현에 대한 해석 가능한 통찰력을 제공한다.

연구 배경 및 동기

핵심 문제

현재 LLMs는 두 가지 주요 생성 실패 양식을 보인다:

창의적 작업에서의 출력 동질화: 다양성이 필요한 작업(예: 브레인스토밍, 창의적 글쓰기)에서 모델이 지나치게 유사한 출력을 생성
사실 기반 작업에서의 환각 문제: 정확성이 필요한 작업(예: 질의응답)에서 모델이 다양하지만 부정확한 답변을 생성

연구 동기

전통적 방법은 이 두 문제를 별도로 처리한다: 다양성 신호를 최대화하거나 사실 정확성을 높이기 위해 다양성을 제약한다. 본 논문은 이 두 문제가 모두 생성 공간 크기(GSS)의 보정 오류에서 비롯된다는 통일된 관점을 제안한다.

기존 방법의 한계

다양한 유형의 생성 실패를 이해하기 위한 통일된 이론적 프레임워크 부재
기존 다양성 지표는 대부분 사후적이며 모델의 내부 표현에 직접 접근할 수 없음
모델의 GSS 보정 능력을 정량화하기 위한 체계적 평가 프레임워크 부재

핵심 기여

이론적 기여: 생성 공간 크기(GSS)를 통일 프레임워크로 제안하여 출력 동질화와 환각 문제를 GSS 보정 오류의 두 측면으로 간주
평가 프레임워크: 9,300개 프롬프트 쌍으로 구성된 평가 모음인 GSSBench 구축
방법 발견: EigenScore 등의 환각 탐지 지표가 GSS 추정에서 전통적 다양성 및 불확실성 정량화 지표를 능가함을 증명
실제 응용: 세 가지 중요한 응용에서 GSS의 가치 입증: 프롬프트 모호성 탐지, 추론 모델 분석, 다양성 최적화

방법론 상세 설명

작업 정의

각 프롬프트 p에 대해 실제 생성 공간 Gt(p)가 존재한다: 모든 가능한 올바른 출력의 의미론적 분포. 모델 m도 생성 공간 Gm(p)를 가진다: 모델이 주어진 프롬프트에 대해 "고려하는" 출력 공간. GSS 보정 오류는 다음과 같이 정의된다:

|Gm(p)| = |Gt(p)| + εm(p)

여기서 εm(p)는 모델 GSS와 예상 GSS 간의 오류이다.

GSSBench 평가 프레임워크

데이터셋 구축

집합론 연산을 기반으로 총 9,300개 프롬프트 쌍으로 구성된 6가지 데이터셋 구축:

Complement: 기본 프롬프트 vs 여집합 프롬프트 (예: "달에 관한 시 쓰기" vs "달에 관한 것이 아닌 모든 것 쓰기")
FactualQA: 구체적 질문 vs 일반 질문 (예: "브라질의 강" vs "강")
Random Choice: 다양한 선택지 수의 객관식 문제
Subset: 제약 조건 추가를 통한 부분집합 관계 생성
Union: "또는"으로 연결하여 생성 공간 확대
Intersection: "그리고"로 연결하여 생성 공간 축소

평가 지표

쌍 정확도를 사용하여 지표 f의 GSS 순서 예측 능력 평가:

프롬프트 쌍(x,y)에 대해 |Gt(x)| > |Gt(y)|인 경우
f(x) > f(y)이면 1점, 그렇지 않으면 0점

후보 지표 분석

GSS의 대리 지표로 여러 지표 평가:

전통 지표: 혼란도, 에너지, 길이 정규화 엔트로피, 어휘 유사성
환각 탐지 지표: EigenScore 및 변형, 의미론적 엔트로피
EigenScore 변형:
- Eoriginal: 원본 버전
- Eaverage: 계층 및 토큰 전체 평균
- Eoutput: 외부 문장 임베딩 모델 사용

실험 설정

모델 선택

5개의 명령어 조정 모델 테스트:

Llama-8B-Instruct
Mistral-7B-v0.3
Qwen3 시리즈 (0.6B, 4B, 8B)

하이퍼파라미터 설정

온도: 1.0
샘플링 수: 10
Top-k: 10
제거 연구를 기반으로 최적 파라미터 결정

실험 결과

주요 발견

EigenScore 변형이 최고 성능

Eoutput과 Eaverage는 모든 모델에서 최고 정확도 달성
Eoutput은 Llama-8B-Instruct에서 71.7% 정확도 달성
Eaverage는 동일 모델에서 72.4% 정확도 달성
혼란도(60.0%)와 어휘 유사성(66.5%)과 같은 전통 지표를 명확히 능가

모델 보정 분석

Llama-8B-Instruct는 대부분 지표에서 최고 보정 달성
Qwen3-0.6B는 Eoutput과 의미론적 엔트로피에서 최고 성능
규모 효과: 더 큰 모델이 반드시 더 잘 보정되지는 않음. Qwen3-0.6B는 모든 지표에서 Qwen3-8B를 능가

분포 분석

EigenScore 변형은 명확한 이봉 분포를 보여 서로 다른 GSS의 프롬프트를 효과적으로 구분할 수 있는 반면, 다른 지표의 분포는 더 겹침.

제거 실험

파라미터 민감도 분석

Top-k: 변화가 성능에 미치는 영향 미미
샘플링 수: 0에서 20으로 증가 시 안정적 개선, 20 초과 시 개선 제한적
온도: EigenScore는 온도 1.0에서 최고 성능 (환각 탐지의 0.5와 다름)

EigenScore 구현 세부사항

단일 계층 사용보다 계층 전체 평균이 더 나음
마지막 토큰만 사용하는 것보다 모든 토큰의 평균이 더 나음

실제 응용

1. 프롬프트 모호성 탐지 및 명확화 질문 예측

실험 1: RIFTS 데이터셋의 모호성 탐지

1,740개 프롬프트의 RIFTS 데이터셋에서:

Eoutput과 Eaverage만이 모호한 프롬프트와 명확한 프롬프트를 올바르게 구분
Eoutput은 모든 테스트 모델에서 두 클래스를 유의미하게 구분

실험 2: 명확화 질문 예측

Eoutput과 Eaverage는 모든 모델에서 모델이 명확화 질문을 제시할지 여부를 유의미하게 예측할 수 있는 유일한 지표
모델이 언제 명확화를 요청하는지 이해하기 위한 해석 가능한 통찰력 제공

2. 추론 모델 분석

해결 경로 수 측정

1,000개 논리 문제에서:

단일 경로 vs 다중 경로 프롬프트 쌍 구축
Eoutput은 모든 추론 모델에서 최고 정확도 달성 (Qwen3-4B 및 8B에서 73%)

추론 토큰 길이 예측

GSS와 추론 토큰 길이 간 중간 정도에서 강한 양의 상관관계
연역 추론 작업에서 Eoriginal이 추론 길이와 가장 강한 상관관계
추론 모델의 "과도한 사고"와 "부족한 사고" 문제 이해에 새로운 관점 제공

3. 다양성 최적화: Leave-One-Out EigenScore (LOOE)

LOOE 지표 설계

새로운 응답 수준 다양성 지표 제안:

LOOEi = Eglobal - Ei

여기서 Ei는 응답 i를 제거한 후 재계산한 EigenScore.

DivPO 실험 결과

LOOE는 다양성과 보상 측면에서 다른 다양성 지표와 비슷한 성능
전통 지표 대비 LOOE의 세 가지 고유 장점:
1. 모델 내부 정보 사용
2. 의미론적 인식
3. 응답 수준 평가

결론 및 논의

주요 결론

통일 프레임워크: GSS는 다양한 유형의 LLM 생성 실패를 이해하기 위한 통일된 관점 제공
지표 발견: EigenScore는 GSS 대리 지표로 최고 성능을 보이며 전통 다양성 및 불확실성 지표를 초과
광범위한 응용: GSS 개념은 모호성 탐지, 추론 분석, 다양성 최적화 등 여러 영역에서 가치 있음

한계

내용 무관성: GSS는 생성 내용의 품질에 민감하지 않음
평가 가정: 모델 GSS가 실제 GSS에 가깝다고 가정하지만 이 가정이 항상 성립하지는 않을 수 있음
계산 복잡성: 일부 지표(예: EigenScore)의 계산 비용이 높음

향후 방향

GSS 인식 훈련: GSS를 동적으로 조정할 수 있는 훈련 방법 개발
더 나은 대리 지표: 더 정확하고 효율적인 GSS 추정 방법 탐색
내용 민감 확장: GSS를 내용 품질 평가와 결합

심층 평가

장점

이론적 혁신: 겉으로 다른 생성 문제를 이해하기 위한 통일 개념인 GSS 제안으로 중요한 이론적 가치 보유
체계적 평가: GSSBench는 포괄적 평가 프레임워크를 제공하여 해당 분야의 공백 채움
실용성 강함: 세 가지 응용 사례가 GSS 개념의 실제 가치 입증
방법론 엄밀함: 집합론 연산을 통해 ground truth 관계 구축하여 주관적 판단 회피
발견의 중요성: EigenScore를 GSS 대리로 발견하여 해당 분야에 새로운 도구 제공

부족한 점

규모 제한: 주로 소규모 모델에서 테스트, 대규모 모델의 성능은 다를 수 있음
작업 범위: 다양한 작업 유형을 포함하지만 충분히 포괄적이지 않을 수 있음
이론적 분석: EigenScore가 최고 성능을 보이는 이유에 대한 심층 이론적 설명 부재
계산 효율성: 일부 지표의 계산 비용이 실제 응용을 제한할 수 있음

영향력

학술 기여: LLM 생성 품질 평가를 위한 새로운 이론적 프레임워크 및 도구 제공
실용적 가치: 다양한 작업 유형에서 LLM 성능 개선에 지도적 의미
재현성: 상세한 실험 설정 및 데이터셋 구축 방법 제공

적용 시나리오

모델 평가: 다양한 작업 유형에서 LLM의 보정 정도 평가
모델 훈련: GSS 인식 훈련 방법 개발 지도
응용 시스템: 대화 시스템, 내용 생성 등 응용에서 다양성 제어 최적화

참고문헌

본 논문은 관련 분야의 중요한 연구를 인용:

불확실성 정량화: Kuhn et al. (2023), Farquhar et al. (2024)
다양성 측정: Kirk et al. (2024), Li et al. (2024)
환각 탐지: Chen et al. (2024), Nikitin et al. (2024)
모델 보정: Huang et al. (2024), Vashurin et al. (2025)

종합 평가: 이는 LLM의 다양한 생성 문제를 통일되게 이해하기 위한 혁신적 이론 프레임워크를 제안하는 고품질 연구 논문이다. GSSBench 평가 프레임워크와 EigenScore를 GSS 대리로 발견한 것은 모두 중요한 학술적 및 실용적 가치를 가진다. 일부 한계가 있지만, 그 기여는 충분히 중요하여 해당 분야의 발전에 가치 있는 도구와 통찰력을 제공한다.