2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic

Размер пространства генерации: понимание и калибровка открытости генераций LLM

Основная информация

  • ID статьи: 2510.12699
  • Название: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
  • Авторы: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (Стэнфордский университет)
  • Классификация: cs.CL, cs.AI
  • Статус публикации: На рассмотрении
  • Ссылка на статью: https://arxiv.org/abs/2510.12699

Аннотация

Различные открытые задачи генерации требуют разных уровней разнообразия выходных данных. Однако современные большие языковые модели (LLM) часто плохо откалиброваны: они производят чрезмерно однородные выходные данные в творческих задачах и разнообразные, но неправильные галлюцинаторные ответы в фактических задачах. В данной работе предлагается, что оба эти режима отказа можно объединить и решить через концепцию «эффективного размера пространства генерации» (GSS) — набора семантически различных выходных данных, которые модель рассматривает для данного запроса. Авторы предлагают оценочную базу GSSBench, содержащую пары запросов с истинными отношениями GSS для оценки различных метрик и понимания того, где модели отклоняются от ожидаемого поведения. Исследование показывает, что метрики обнаружения галлюцинаций (в частности, EigenScore) последовательно превосходят стандартные метрики разнообразия и количественной оценки неопределённости, используя только внутреннюю информацию модели, обеспечивая интерпретируемые представления о внутреннем представлении задач моделью.

Исследовательский контекст и мотивация

Основная проблема

Современные LLM имеют два основных режима отказа при генерации:

  1. Однородность выходных данных в творческих задачах: В задачах, требующих разнообразия (например, мозговой штурм, творческое письмо), модель производит чрезмерно похожие выходные данные
  2. Проблема галлюцинаций в фактических задачах: В задачах, требующих точности (например, вопросно-ответные системы), модель генерирует разнообразные, но неправильные ответы

Исследовательская мотивация

Традиционные подходы рассматривают эти две проблемы отдельно: либо максимизируют сигналы разнообразия, либо ограничивают разнообразие для повышения фактической точности. В данной работе предлагается единая перспектива, согласно которой обе проблемы вытекают из ошибок калибровки размера пространства генерации (GSS).

Ограничения существующих методов

  • Отсутствие единой теоретической базы для понимания различных типов отказов при генерации
  • Большинство существующих метрик разнообразия являются апостериорными и не могут напрямую получить доступ к внутренним представлениям модели
  • Отсутствие систематической оценочной базы для количественной оценки способности модели к калибровке GSS

Основные вклады

  1. Теоретический вклад: Предложение GSS в качестве единой базы для рассмотрения однородности выходных данных и проблем галлюцинаций как двух аспектов ошибок калибровки GSS
  2. Оценочная база: Построение GSSBench, содержащей набор оценок из 9300 пар запросов для измерения GSS и его ошибок калибровки
  3. Методологические находки: Демонстрация того, что метрики обнаружения галлюцинаций, такие как EigenScore, превосходят традиционные метрики разнообразия и количественной оценки неопределённости при оценке GSS
  4. Практическое применение: Демонстрация ценности GSS в трёх важных приложениях: обнаружение неоднозначности запросов, анализ моделей рассуждений и оптимизация разнообразия

Детальное описание методов

Определение задачи

Для каждого запроса p существует истинное пространство генерации Gt(p): семантическое распределение всех возможных правильных выходных данных. Модель m также имеет пространство генерации Gm(p): пространство выходных данных, которое модель «рассматривает» для данного запроса. Ошибка калибровки GSS определяется как:

|Gm(p)| = |Gt(p)| + εm(p)

где εm(p) — это ошибка между GSS модели и ожидаемым GSS.

Оценочная база GSSBench

Построение набора данных

На основе теоретико-множественных операций построены шесть типов наборов данных, всего 9300 пар запросов:

  1. Complement: Базовый запрос vs дополняющий запрос (например, «напишите стихотворение о луне» vs «напишите что-нибудь, что не является стихотворением о луне»)
  2. FactualQA: Конкретные вопросы vs общие вопросы (например, «реки Бразилии» vs «реки»)
  3. Random Choice: Вопросы с множественным выбором с разным количеством вариантов
  4. Subset: Создание подмножеств путём добавления ограничений
  5. Union: Расширение пространства генерации путём соединения с помощью «или»
  6. Intersection: Сужение пространства генерации путём соединения с помощью «и»

Оценочные метрики

Использование точности парного ранжирования для оценки способности метрики f предсказывать порядок GSS:

  • Для пары запросов (x,y), где |Gt(x)| > |Gt(y)|
  • Оценка 1, если f(x) > f(y), иначе 0

Анализ кандидатных метрик

Оценены различные метрики в качестве прокси-переменных для GSS:

  • Традиционные метрики: Перплексия, энергия, нормализованная по длине энтропия, лексическое сходство
  • Метрики обнаружения галлюцинаций: EigenScore и его варианты, семантическая энтропия
  • Варианты EigenScore:
    • Eoriginal: Исходная версия
    • Eaverage: Усреднение по слоям и токенам
    • Eoutput: Использование внешней модели встраивания предложений

Экспериментальная установка

Выбор моделей

Тестирование пяти моделей с инструкциями:

  • Llama-8B-Instruct
  • Mistral-7B-v0.3
  • Серия Qwen3 (0.6B, 4B, 8B)

Установка гиперпараметров

  • Температура: 1.0
  • Количество выборок: 10
  • Top-k: 10
  • Оптимальные параметры определены на основе исследования абляции

Результаты экспериментов

Основные находки

Варианты EigenScore показывают лучшие результаты

  • Eoutput и Eaverage достигают наивысшей точности на всех моделях
  • Eoutput достигает 71.7% точности на Llama-8B-Instruct
  • Eaverage достигает 72.4% точности на той же модели
  • Значительно превосходит традиционные метрики, такие как перплексия (60.0%) и лексическое сходство (66.5%)

Анализ калибровки модели

  • Llama-8B-Instruct показывает лучшую калибровку по большинству метрик
  • Qwen3-0.6B показывает лучшие результаты на Eoutput и семантической энтропии
  • Эффект масштаба: Более крупные модели не обязательно лучше откалиброваны; Qwen3-0.6B превосходит Qwen3-8B по всем метрикам

Анализ распределения

Варианты EigenScore показывают явное бимодальное распределение, способное эффективно различать запросы с разными GSS, в то время как другие метрики имеют более перекрывающиеся распределения.

Исследования абляции

Анализ чувствительности параметров

  • Top-k: Изменения оказывают незначительное влияние на производительность
  • Количество выборок: Стабильное улучшение при увеличении с 0 до 20, ограниченное улучшение свыше 20
  • Температура: EigenScore показывает лучшие результаты при температуре 1.0 (отличается от 0.5 при обнаружении галлюцинаций)

Детали реализации EigenScore

  • Усреднение по слоям работает лучше, чем использование одного слоя
  • Использование среднего значения всех токенов работает лучше, чем только последнего токена

Практические приложения

1. Обнаружение неоднозначности запросов и предсказание вопросов уточнения

Эксперимент 1: Обнаружение неоднозначности на наборе данных RIFTS

На наборе данных RIFTS из 1740 запросов:

  • Только Eoutput и Eaverage могут правильно различить неоднозначные и однозначные запросы
  • Eoutput значительно различает две категории на всех тестируемых моделях

Эксперимент 2: Предсказание вопросов уточнения

  • Eoutput и Eaverage — единственные метрики, которые значительно предсказывают на всех моделях, будет ли модель задавать вопросы уточнения
  • Обеспечивает интерпретируемые представления о том, когда модель ищет уточнения

2. Анализ моделей рассуждений

Измерение количества путей решения

На 1000 логических задачах:

  • Построены пары запросов с одним путём vs несколькими путями
  • Eoutput достигает наивысшей точности на всех моделях рассуждений (73% на Qwen3-4B и 8B)

Предсказание длины токенов рассуждений

  • GSS показывает среднюю и сильную положительную корреляцию с длиной токенов рассуждений
  • На задачах дедуктивного рассуждения Eoriginal показывает наиболее сильную корреляцию с длиной рассуждений
  • Обеспечивает новую перспективу для понимания проблем «чрезмерного» и «недостаточного» размышления в моделях рассуждений

3. Оптимизация разнообразия: Leave-One-Out EigenScore (LOOE)

Дизайн метрики LOOE

Предложена новая метрика разнообразия на уровне ответа:

LOOEi = Eglobal - Ei

где Ei — это EigenScore, пересчитанный после удаления ответа i.

Результаты эксперимента DivPO

  • LOOE показывает сравнимые результаты с другими метриками разнообразия по разнообразию и вознаграждению
  • По сравнению с традиционными метриками LOOE имеет три уникальных преимущества:
    1. Использование внутренней информации модели
    2. Семантическая осведомлённость
    3. Оценка на уровне ответа

Связанные работы

Количественная оценка неопределённости и калибровка модели

Традиционная калибровка сосредоточена на выравнивании метрик UQ с правильностью фактических вопросов. Данная работа расширяет это на более широкий спектр открытых задач.

Метрики разнообразия

Существующие метрики разнообразия (такие как unique n-gram, self-BLEU и т.д.) в основном являются апостериорными и не могут получить доступ к внутренним представлениям модели. EigenScore обеспечивает измерение разнообразия, осведомлённое о семантике и основанное на внутренних данных модели.

Обнаружение галлюцинаций

Методы, такие как семантическая энтропия, Kernel Language Entropy и др., в основном используются для обнаружения галлюцинаций. Данная работа демонстрирует более широкую ценность этих метрик при оценке GSS.

Выводы и обсуждение

Основные выводы

  1. Единая база: GSS обеспечивает единую перспективу для понимания различных типов отказов при генерации LLM
  2. Находки метрик: EigenScore как прокси-переменная для GSS показывает лучшие результаты, превосходя традиционные метрики разнообразия и количественной оценки неопределённости
  3. Широкое применение: Концепция GSS имеет ценность в нескольких областях, включая обнаружение неоднозначности, анализ рассуждений и оптимизацию разнообразия

Ограничения

  1. Независимость от содержания: GSS не чувствительна к качеству генерируемого содержания
  2. Предположения оценки: Предполагается, что GSS модели близка к истинному GSS, но это предположение может быть не всегда верным
  3. Вычислительная сложность: Некоторые метрики (такие как EigenScore) имеют высокие вычислительные затраты

Будущие направления

  1. Обучение, осведомлённое о GSS: Разработка методов обучения, которые динамически регулируют GSS
  2. Лучшие прокси-переменные: Поиск более точных и эффективных методов оценки GSS
  3. Расширение, осведомлённое о содержании: Объединение GSS с оценкой качества содержания

Глубокая оценка

Преимущества

  1. Теоретическая инновация: Предложение концепции GSS для объединённого понимания кажущихся различными проблем генерации имеет важную теоретическую ценность
  2. Систематическая оценка: GSSBench обеспечивает комплексную оценочную базу, заполняя пробел в этой области
  3. Высокая практичность: Три примера приложений демонстрируют практическую ценность концепции GSS
  4. Методологическая строгость: Использование теоретико-множественных операций для построения истинных отношений избегает субъективных суждений
  5. Важные находки: Обнаружение EigenScore как прокси-переменной для GSS обеспечивает новый инструмент для этой области

Недостатки

  1. Ограничения масштаба: Основное тестирование на меньших моделях; производительность на больших моделях может отличаться
  2. Охват задач: Хотя охватывает несколько типов задач, может быть недостаточно полным
  3. Теоретический анализ: Отсутствие глубокого теоретического объяснения того, почему EigenScore показывает лучшие результаты
  4. Вычислительная эффективность: Вычислительные затраты некоторых метрик могут ограничить практическое применение

Влияние

  1. Академический вклад: Обеспечение новой теоретической базы и инструментов для оценки качества генерации LLM
  2. Практическая ценность: Руководство по улучшению производительности LLM в различных типах задач
  3. Воспроизводимость: Предоставление детальных экспериментальных установок и методов построения наборов данных

Применимые сценарии

  1. Оценка моделей: Оценка степени калибровки LLM в различных типах задач
  2. Обучение моделей: Руководство по разработке методов обучения, осведомлённых о GSS
  3. Прикладные системы: Оптимизация управления разнообразием в диалоговых системах, системах генерации содержания и т.д.

Библиография

Данная работа ссылается на важные работы в соответствующих областях, включая:

  • Количественная оценка неопределённости: Kuhn et al. (2023), Farquhar et al. (2024)
  • Измерение разнообразия: Kirk et al. (2024), Li et al. (2024)
  • Обнаружение галлюцинаций: Chen et al. (2024), Nikitin et al. (2024)
  • Калибровка моделей: Huang et al. (2024), Vashurin et al. (2025)

Общая оценка: Это высокачественная исследовательская работа, предлагающая инновационную теоретическую базу для объединённого понимания различных проблем генерации LLM. Оценочная база GSSBench и обнаружение EigenScore как прокси-переменной для GSS имеют важную академическую и практическую ценность. Несмотря на некоторые ограничения, её вклады достаточно значительны, чтобы обеспечить ценные инструменты и представления для развития этой области.