Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic
Размер пространства генерации: понимание и калибровка открытости генераций LLM
Различные открытые задачи генерации требуют разных уровней разнообразия выходных данных. Однако современные большие языковые модели (LLM) часто плохо откалиброваны: они производят чрезмерно однородные выходные данные в творческих задачах и разнообразные, но неправильные галлюцинаторные ответы в фактических задачах. В данной работе предлагается, что оба эти режима отказа можно объединить и решить через концепцию «эффективного размера пространства генерации» (GSS) — набора семантически различных выходных данных, которые модель рассматривает для данного запроса. Авторы предлагают оценочную базу GSSBench, содержащую пары запросов с истинными отношениями GSS для оценки различных метрик и понимания того, где модели отклоняются от ожидаемого поведения. Исследование показывает, что метрики обнаружения галлюцинаций (в частности, EigenScore) последовательно превосходят стандартные метрики разнообразия и количественной оценки неопределённости, используя только внутреннюю информацию модели, обеспечивая интерпретируемые представления о внутреннем представлении задач моделью.
Современные LLM имеют два основных режима отказа при генерации:
Однородность выходных данных в творческих задачах: В задачах, требующих разнообразия (например, мозговой штурм, творческое письмо), модель производит чрезмерно похожие выходные данные
Проблема галлюцинаций в фактических задачах: В задачах, требующих точности (например, вопросно-ответные системы), модель генерирует разнообразные, но неправильные ответы
Традиционные подходы рассматривают эти две проблемы отдельно: либо максимизируют сигналы разнообразия, либо ограничивают разнообразие для повышения фактической точности. В данной работе предлагается единая перспектива, согласно которой обе проблемы вытекают из ошибок калибровки размера пространства генерации (GSS).
Теоретический вклад: Предложение GSS в качестве единой базы для рассмотрения однородности выходных данных и проблем галлюцинаций как двух аспектов ошибок калибровки GSS
Оценочная база: Построение GSSBench, содержащей набор оценок из 9300 пар запросов для измерения GSS и его ошибок калибровки
Методологические находки: Демонстрация того, что метрики обнаружения галлюцинаций, такие как EigenScore, превосходят традиционные метрики разнообразия и количественной оценки неопределённости при оценке GSS
Практическое применение: Демонстрация ценности GSS в трёх важных приложениях: обнаружение неоднозначности запросов, анализ моделей рассуждений и оптимизация разнообразия
Для каждого запроса p существует истинное пространство генерации Gt(p): семантическое распределение всех возможных правильных выходных данных. Модель m также имеет пространство генерации Gm(p): пространство выходных данных, которое модель «рассматривает» для данного запроса. Ошибка калибровки GSS определяется как:
|Gm(p)| = |Gt(p)| + εm(p)
где εm(p) — это ошибка между GSS модели и ожидаемым GSS.
На основе теоретико-множественных операций построены шесть типов наборов данных, всего 9300 пар запросов:
Complement: Базовый запрос vs дополняющий запрос (например, «напишите стихотворение о луне» vs «напишите что-нибудь, что не является стихотворением о луне»)
FactualQA: Конкретные вопросы vs общие вопросы (например, «реки Бразилии» vs «реки»)
Random Choice: Вопросы с множественным выбором с разным количеством вариантов
Subset: Создание подмножеств путём добавления ограничений
Union: Расширение пространства генерации путём соединения с помощью «или»
Intersection: Сужение пространства генерации путём соединения с помощью «и»
Варианты EigenScore показывают явное бимодальное распределение, способное эффективно различать запросы с разными GSS, в то время как другие метрики имеют более перекрывающиеся распределения.
Традиционная калибровка сосредоточена на выравнивании метрик UQ с правильностью фактических вопросов. Данная работа расширяет это на более широкий спектр открытых задач.
Существующие метрики разнообразия (такие как unique n-gram, self-BLEU и т.д.) в основном являются апостериорными и не могут получить доступ к внутренним представлениям модели. EigenScore обеспечивает измерение разнообразия, осведомлённое о семантике и основанное на внутренних данных модели.
Методы, такие как семантическая энтропия, Kernel Language Entropy и др., в основном используются для обнаружения галлюцинаций. Данная работа демонстрирует более широкую ценность этих метрик при оценке GSS.
Единая база: GSS обеспечивает единую перспективу для понимания различных типов отказов при генерации LLM
Находки метрик: EigenScore как прокси-переменная для GSS показывает лучшие результаты, превосходя традиционные метрики разнообразия и количественной оценки неопределённости
Широкое применение: Концепция GSS имеет ценность в нескольких областях, включая обнаружение неоднозначности, анализ рассуждений и оптимизацию разнообразия
Теоретическая инновация: Предложение концепции GSS для объединённого понимания кажущихся различными проблем генерации имеет важную теоретическую ценность
Систематическая оценка: GSSBench обеспечивает комплексную оценочную базу, заполняя пробел в этой области
Высокая практичность: Три примера приложений демонстрируют практическую ценность концепции GSS
Методологическая строгость: Использование теоретико-множественных операций для построения истинных отношений избегает субъективных суждений
Важные находки: Обнаружение EigenScore как прокси-переменной для GSS обеспечивает новый инструмент для этой области
Данная работа ссылается на важные работы в соответствующих областях, включая:
Количественная оценка неопределённости: Kuhn et al. (2023), Farquhar et al. (2024)
Измерение разнообразия: Kirk et al. (2024), Li et al. (2024)
Обнаружение галлюцинаций: Chen et al. (2024), Nikitin et al. (2024)
Калибровка моделей: Huang et al. (2024), Vashurin et al. (2025)
Общая оценка: Это высокачественная исследовательская работа, предлагающая инновационную теоретическую базу для объединённого понимания различных проблем генерации LLM. Оценочная база GSSBench и обнаружение EigenScore как прокси-переменной для GSS имеют важную академическую и практическую ценность. Несмотря на некоторые ограничения, её вклады достаточно значительны, чтобы обеспечить ценные инструменты и представления для развития этой области.