2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

Задание уточняющих вопросов для выявления предпочтений с использованием больших языковых моделей

Основная информация

  • ID статьи: 2510.12015
  • Название: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • Авторы: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • Классификация: cs.AI
  • Конференция: GENNEXT@SIGIR'25
  • Ссылка на статью: https://arxiv.org/abs/2510.12015

Аннотация

Большие языковые модели (LLM) позволяют системам рекомендаций взаимодействовать с пользователями через открытые диалоговые интерфейсы. Для персонализации ответов LLM, особенно при ограниченной истории пользователя, критически важно эффективное выявление предпочтений пользователя. В данной статье предлагается новый подход к обучению LLM задавать последовательные уточняющие вопросы, способные раскрыть предпочтения пользователя. Метод использует двухэтапный процесс, вдохновленный моделями диффузии: прямой процесс начинается с профиля пользователя и генерирует уточняющие вопросы, постепенно удаляя ответы как «шум»; обратный процесс обучает модель «удалять шум» из профиля пользователя путем изучения эффективных уточняющих вопросов. Экспериментальные результаты показывают, что предложенный метод значительно улучшает способность LLM задавать воронкообразные вопросы и эффективно выявлять предпочтения пользователя.

Исследовательский контекст и мотивация

Определение проблемы

Системы рекомендаций обычно полагаются на историю взаимодействия пользователя для изучения предпочтений, но сталкиваются с проблемами в следующих случаях:

  1. Проблема холодного старта: отсутствие достаточной истории взаимодействия
  2. Ограничения конфиденциальности: ограничение использования данных истории взаимодействия
  3. Неопределенность контекста: текущие предпочтения зависят от настроения, социальной среды и других факторов

Значимость исследования

С быстрым развитием LLM становятся возможны диалоговые системы рекомендаций (CRS), которые могут уточнять потребности пользователя и предоставлять высококачественные персонализированные рекомендации через прямые вопросы выявления предпочтений.

Ограничения существующих методов

Простые методы подсказок могут направить LLM на задание вопросов выявления в надлежащее время, однако генерация эффективных последовательных уточняющих вопросов в различных областях остается сложной задачей.

Исследовательская мотивация

Данная работа направлена на оптимизацию способности LLM задавать высококачественные вопросы выявления, в частности на изучение задания «воронкообразных» вопросов — начиная с общих концепций и постепенно переходя к более конкретным по мере развития диалога.

Основные вклады

  1. Инновационная структура: предложена двухэтапная структура выявления предпочтений, вдохновленная дискретными моделями диффузии
  2. Генерация последовательных вопросов: разработан метод обучения для генерации эффективных последовательных уточняющих вопросов
  3. Воронкообразная диалоговая стратегия: реализована стратегия задания вопросов от общего к конкретному
  4. Симулятор пользователя: построена модель симулятора пользователя для оценки
  5. Значительное улучшение производительности: метод верифицирован на наборе данных MovieLens

Подробное описание метода

Определение задачи

Учитывая профиль пользователя P, целью является реконструкция полного профиля пользователя P_n из пустого профиля P₀ = ∅ посредством последовательных вопросов Q₀, Q₁, ..., Q_ и соответствующих ответов A₀, A₁, ..., A_.

Архитектура модели

1. Процесс последовательного вопросно-ответного взаимодействия (SQN)

Использует цепное правило и предположение условной независимости:

p_θ,φ(P_n) = ∏_{i=1}^n p(P_i|P_{i-1}; θ, φ)

где каждая вероятность переходов разлагается на три компонента:

p(P_i|P_{i-1}; θ, φ) = p_θ(Q_{i-1}|P_{i-1}) × p_φ(A_{i-1}|Q_{i-1}, P_{i-1}) × p(P_i|P_{i-1}, Q_{i-1}, A_{i-1})
  • p_θ(Q_|P_): вероятность генератора вопросов
  • p_φ(A_|Q_, P_): вероятность симулятора пользователя
  • p(P_i|P_, Q_, A_): детерминированная функция обновления

2. Прямой процесс: деградация профиля

  1. Структурированное преобразование: преобразование текстового профиля пользователя в формат JSON
  2. Упорядочение меток: упорядочение меток по степени общности
  3. Генерация воронкообразных вопросов: генерация последовательности вопросов от общего к конкретному
  4. Постепенное удаление информации: пошаговое удаление соответствующей информации в порядке вопросов

Определение частичного профиля пользователя:

JP_u^t = JP_u \ ⋃_{i=t}^{n-1} T_i

3. Обратный процесс: изучение вопросов

Конструкция обучающих данных:

D_u = {(Q_{n-1}, JP_u^{n-1}), (Q_{n-2}, JP_u^{n-2}), ..., (Q_0, JP_u^0)}

Технические инновации

  1. Вдохновение моделями диффузии: аналогия профиля предпочтений пользователя с задачей удаления шума в дискретном процессе диффузии
  2. Воронкообразная стратегия: упорядочение меток обеспечивает естественный переход вопросов от общего к конкретному
  3. Совместное обучение: одновременная оптимизация генератора вопросов и симулятора пользователя
  4. Механизм истории вопросов: включение вопросов и ответов в обновление профиля для избежания повторений

Экспериментальная установка

Наборы данных

  • Набор данных MovieLens: широко используется в исследованиях систем рекомендаций
  • Профили пользователей: используются профили, созданные Jeong и др., а также Tennenholtz и др., которые генерируются LLM на основе полной истории оценок и верифицированы на предсказательность оценок пользователей

Метрики оценки

  • Оценка ROUGE: измеряет перекрытие между сгенерированным и истинным профилем
  • Оценка BLEU: оценивает качество генерации текста
  • Процент неответанных вопросов: оценивает релевантность вопросов

Методы сравнения

  • Немодифицированная модель Gemma vs. модифицированная модель Gemma
  • Немодифицированный симулятор пользователя Gemini vs. модифицированный симулятор пользователя Gemma

Детали реализации

  • Базовая модель: Gemma 7B (28 слоев) в качестве генератора вопросов и симулятора пользователя
  • Генерация данных: Gemini 2.0 для высококачественной генерации данных в прямом процессе
  • Метод модификации: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • Параметры обучения: размер пакета 64, скорость обучения 0.001
  • Ограничение вопросов: максимум 10 вопросов или до совпадения профиля

Результаты экспериментов

Основные результаты

Модификация значительно улучшила производительность модели:

  • Оценка ROUGE: улучшение с 0.4 до 0.68
  • Оценка BLEU: улучшение с 0.28 до 0.49
  • Симулятор пользователя: модифицированный симулятор Gemma превосходит немодифицированный симулятор Gemini

Абляционные эксперименты

1. Анализ эффекта модификации

  • Модифицированный генератор вопросов способен задавать более эффективные последовательные вопросы
  • Модифицированный симулятор пользователя может более точно отвечать на вопросы
  • Процент неответанных вопросов значительно снизился

2. Эффект количества вопросов

  • Оптимальная модель собирает широкую информацию в первые 5 раундов вопросов
  • В раундах 6-7 переходит к более конкретным и детальным вопросам
  • Демонстрирует хорошую воронкообразную диалоговую стратегию

3. Эффект истории вопросов

  • В модифицированной модели добавление истории вопросов улучшает производительность
  • В немодифицированной модели история вопросов снижает производительность
  • История вопросов помогает избежать повторений

4. Влияние количества шагов модификации

  • Большее количество шагов модификации (40,000 шагов) приводит к лучшей производительности
  • Наблюдается возрастающая тенденция при 4,000, 28,000 и 40,000 шагах

Анализ примеров

Анализ воронкообразных вопросов

Анализ взвешенного ранжирования (WR) показывает:

  • Ранние вопросы: жанр, эпоха фильма, десятилетие и другие широкие концепции
  • Средние вопросы: режиссеры, визуальный стиль, тон и другие конкретные концепции
  • Поздние вопросы: спецэффекты, юмор, атмосфера и другие детальные концепции

Это подтверждает, что модель изучила стратегию задания вопросов от широких концепций к конкретным деталям.

Экспериментальные выводы

  1. Синергетический эффект: совместная оптимизация генератора вопросов и симулятора пользователя создает синергетический эффект
  2. Последовательная стратегия: воронкообразная стратегия вопросов более эффективна, чем случайное задание вопросов
  3. Использование контекста: включение истории вопросов помогает избежать повторений и улучшить качество диалога

Связанные работы

Основные направления исследований

  1. Диалоговые системы рекомендаций: методы выявления предпочтений в CRS
  2. Генерация уточняющих вопросов: обучение языковых моделей задавать уточняющие вопросы
  3. Методы байесовой оптимизации: алгоритмы типа PEBOL для выявления предпочтений на естественном языке
  4. Активное выведение предпочтений: алгоритмы с использованием LLM и вероятностного вывода

Преимущества данной работы

  • Первое применение идей моделей диффузии к выявлению предпочтений
  • Предложена систематизированная воронкообразная стратегия генерации вопросов
  • Одновременная оптимизация двух компонентов: генератора вопросов и симулятора пользователя

Заключение и обсуждение

Основные выводы

  1. Двухэтапная структура, вдохновленная моделями диффузии, эффективно обучает LLM задавать высококачественные уточняющие вопросы
  2. Воронкообразная стратегия вопросов значительно превосходит метод случайного задания вопросов
  3. Совместная оптимизация генератора вопросов и симулятора пользователя создает синергетический эффект

Ограничения

  1. Зависимость от данных: зависит от высококачественных данных профилей пользователей
  2. Специфичность области: верификация проведена в основном в области рекомендаций фильмов
  3. Смоделированная среда: оценка в основном основана на симуляторе пользователя, а не на реальных пользователях
  4. Вычислительные затраты: требует значительных вычислительных ресурсов для модификации

Направления будущих исследований

  1. Расширение на другие области рекомендаций
  2. Верификация с реальными пользователями
  3. Исследование более эффективных стратегий обучения
  4. Интеграция мультимодальной информации

Глубокая оценка

Преимущества

  1. Инновационность метода: умелое применение идей моделей диффузии к диалоговым системам, концептуально новое и обоснованное
  2. Полнота техники: предоставляет полную структуру обучения, включая генерацию данных, обучение модели и оценку
  3. Полнота экспериментов: комплексные абляционные эксперименты верифицируют эффективность каждого компонента
  4. Практическая ценность: решает реальные проблемы в системах рекомендаций с сильным потенциалом применения

Недостатки

  1. Ограничения оценки: в основном полагается на смоделированную среду, отсутствует верификация с реальными пользователями
  2. Ограничения области: верификация только в области рекомендаций фильмов, способность к обобщению требует проверки
  3. Базовые методы сравнения: отсутствует прямое сравнение с другими передовыми методами выявления предпочтений
  4. Теоретический анализ: отсутствует глубокий анализ теоретических свойств метода

Влияние

  1. Научный вклад: предоставляет новые идеи исследования для диалоговых систем рекомендаций
  2. Практическая ценность: может быть непосредственно применена в реальных системах рекомендаций
  3. Воспроизводимость: предоставляет подробные детали реализации, облегчающие воспроизведение

Применимые сценарии

  1. Рекомендации при холодном старте: особенно подходит для выявления предпочтений новых пользователей
  2. Диалоговые системы: может быть интегрирована в различные диалоговые системы рекомендаций
  3. Персонализированные услуги: подходит для сценариев, требующих быстрого понимания предпочтений пользователя
  4. Многораундовое взаимодействие: подходит для приложений, требующих постепенного сбора информации

Библиография

Статья цитирует 31 связанную работу, охватывающую важные исследования в нескольких связанных областях, включая диалоговые системы рекомендаций, большие языковые модели, модели диффузии, выявление предпочтений и другие, обеспечивая прочную теоретическую основу для данного исследования.


Общая оценка: Это высококачественная исследовательская статья, которая инновационно применяет идеи моделей диффузии к проблеме выявления предпочтений, предлагает полное решение и верифицирует его эффективность экспериментально. Несмотря на некоторые ограничения, её технический вклад и практическая ценность делают её важным прогрессом в области диалоговых систем рекомендаций.