2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

大規模言語モデルを用いた選好抽出のための明確化質問

基本情報

論文ID: 2510.12015
タイトル: Asking Clarifying Questions for Preference Elicitation With Large Language Models
著者: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
分類: cs.AI
発表会議: GENNEXT@SIGIR'25
論文リンク: https://arxiv.org/abs/2510.12015

要約

大規模言語モデル(LLM)は、推薦システムがオープンエンドな対話インターフェースを通じてユーザーと相互作用することを可能にしている。特にユーザー履歴が限定的な場合、LLM応答をパーソナライズするために、ユーザー選好の効果的な抽出が重要である。本論文は、ユーザー選好を明らかにできる順序付き明確化質問をLLMに提出させるための訓練方法を提案する。本手法は拡散モデルに着想を得た2段階プロセスを採用している。前向きプロセスはユーザープロフィールから開始して明確化質問を生成し、答えを「ノイズ」として段階的に除去する。逆向きプロセスは、効果的な明確化質問を提出することを学習することで、ユーザープロフィールを「ノイズ除去」するようにモデルを訓練する。実験結果は、本手法がLLMのファネル型質問提出能力と効果的なユーザー選好抽出能力を大幅に向上させることを示している。

研究背景と動機

問題定義

推薦システムは通常、ユーザーの過去のインタラクション履歴に依存して選好を学習するが、以下の状況で課題に直面する:

新規ユーザー問題：十分なインタラクション履歴の欠如
プライバシー制約：過去のインタラクションデータの使用を制限
文脈的不確実性：現在の選好が気分や社会的環境などの要因に影響される

研究の重要性

LLMの急速な発展に伴い、対話型推薦システム(CRS)が可能になり、直接的な選好抽出質問を通じてシステムはユーザーニーズを明確にし、高品質なパーソナライズ推奨を提供できる。

既存手法の限界

単純なプロンプト技術はLLMに適切なタイミングで抽出質問を提出するよう指導できるが、複数領域にわたる効果的な順序付き明確化質問の生成は依然として課題である。

研究動機

本論文は、LLMが高品質な抽出質問を提出する能力を最適化することを目指している。特に「ファネル型」質問の提出を学習する——一般的な概念から始まり、対話の進行に伴ってより具体的になる質問。

核心的貢献

革新的フレームワーク：離散拡散モデルに着想を得た2段階選好抽出フレームワークを提案
順序付き質問生成：効果的な順序付き明確化質問を生成できる訓練方法を開発
ファネル型対話戦略：一般から具体への質問提出戦略を実装
ユーザーシミュレータ：評価用のユーザーシミュレータモデルを構築
顕著な性能向上：MovieLensデータセットで手法の有効性を検証

方法の詳細

タスク定義

ユーザープロフィールPが与えられたとき、目標は順序付き質問Q₀, Q₁, ..., Qₙ₋₁と対応する答えA₀, A₁, ..., Aₙ₋₁を通じて、空のプロフィールP₀ = ∅から完全なユーザープロフィールPₙを再構成することである。

モデルアーキテクチャ

1. 順序付き質問応答プロセス(SQN)

連鎖則と条件付き独立性仮定を使用:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

各遷移確率は3つの成分に分解される:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁)：質問生成器確率
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁)：ユーザーシミュレータ確率
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)：決定論的更新関数

2. 前向きプロセス：プロフィール破壊

構造化変換：テキストユーザープロフィールをJSON形式に変換
ラベル順序付け：一般性の程度に従ってラベルを順序付け
ファネル型質問生成：一般から具体への質問シーケンスを生成
段階的情報除去：質問順序に従って対応する情報を段階的に除去

部分的ユーザープロフィール定義:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. 逆向きプロセス：質問学習

訓練データ構成:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

技術的革新点

拡散モデル着想：ユーザー選好プロフィールを離散拡散プロセスのノイズ除去タスクに類比
ファネル型戦略：ラベル順序付けを通じて一般から具体への自然な流れを確保
共同訓練：質問生成器とユーザーシミュレータを同時に最適化
質問履歴メカニズム：プロフィール更新に質問と答えを含め、重複提出を回避

実験設定

データセット

MovieLensデータセット：推薦システム研究で広く使用
ユーザープロフィール：Jeongら及びTennenholtzらが生成したユーザープロフィールを使用。これらのプロフィールは完全な評価履歴に基づいてLLMにより生成され、ユーザー評価に対する予測性が検証されている

評価指標

ROUGEスコア：生成プロフィールと真実プロフィール間の重複度を測定
BLEUスコア：テキスト生成品質を評価
未回答質問の割合：質問の関連性を評価

比較手法

微調整なしのGemmaモデル vs 微調整されたGemmaモデル
微調整なしのGeminiユーザーシミュレータ vs 微調整されたGemmaユーザーシミュレータ

実装詳細

基本モデル：Gemma 7B (28層)を質問生成器とユーザーシミュレータとして使用
データ生成：前向きプロセスの高品質データ生成にGemini 2.0を使用
微調整方法：Parameter-Efficient Fine-Tuning (PEFT) + LoRA
訓練パラメータ：バッチサイズ64、学習率0.001
質問制限：最大10質問またはプロフィール一致まで

実験結果

主要結果

微調整はモデル性能を大幅に向上させた:

ROUGEスコア：0.4から0.68へ向上
BLEUスコア：0.28から0.49へ向上
ユーザーシミュレータ：微調整されたGemmaシミュレータが微調整なしのGeminiシミュレータを上回る

アブレーション実験

1. 微調整効果分析

微調整された質問生成器はより効果的な順序付き質問を提出できる
微調整されたユーザーシミュレータはより正確に質問に回答できる
未回答質問の割合が大幅に低下

2. 質問数の効果

最適モデルは最初の5ラウンドで広範な情報を収集
6～7ラウンド目でより具体的で詳細な質問に転換
良好なファネル型対話戦略を実現

3. 質問履歴の効果

微調整モデルでは、質問履歴の追加が性能を向上させる
微調整なしモデルでは、質問履歴が性能を低下させる
質問履歴は重複提出を回避するのに役立つ

4. 微調整ステップ数の影響

より多くの微調整ステップ(40,000ステップ)がより良い性能をもたらす
4,000ステップ、28,000ステップ、40,000ステップで漸増傾向

ケース分析

ファネル型質問分析

加重ランキング(WR)分析は以下を示している:

初期質問：ジャンル、映画時代、十年など広範な概念
中期質問：監督、ビジュアルスタイル、トーンなど具体的な概念
後期質問：特殊効果、ユーモア、雰囲気など詳細な概念

これは、モデルが広範な概念から具体的な詳細への質問提出戦略を学習したことを検証している。

実験的発見

相乗効果：質問生成器とユーザーシミュレータの共同最適化は相乗効果を生み出す
順序付き戦略：ファネル型質問戦略はランダム提出より効果的
文脈利用：質問履歴を含めることは重複を回避し、対話品質を向上させるのに役立つ

結論と考察

主要結論

拡散モデル着想の2段階フレームワークは、LLMが高品質な明確化質問を提出するよう効果的に訓練できる
ファネル型質問戦略はランダム提出方法を大幅に上回る
質問生成器とユーザーシミュレータの共同最適化は相乗効果を生み出す

限界

データ依存性：高品質なユーザープロフィールデータに依存
領域特定性：主に映画推奨領域で検証
シミュレーション環境：評価は主にユーザーシミュレータに基づき、実ユーザーではない
計算コスト：微調整に大量の計算リソースが必要

今後の方向性

より多くの推奨領域への拡張
実ユーザーとの相互作用検証
より効率的な訓練戦略の探索
マルチモーダル情報の統合

深層評価

利点

方法の革新性：拡散モデルの思想を対話システムに巧妙に適用し、概念が新規かつ合理的
技術的完全性：データ生成、モデル訓練、評価を含む完全な訓練フレームワークを提供
実験の充実性：各成分の有効性を検証する包括的なアブレーション実験
実用的価値：推奨システムの実際の問題を解決し、強い応用可能性を持つ

不足

評価の限界：主にシミュレーション環境に依存し、実ユーザー相互作用検証が不足
領域の限界：映画推奨領域でのみ検証され、汎化能力は検証待ち
比較基線：他の先進的選好抽出方法との直接比較が不足
理論分析：方法の理論的性質に関する深い分析が不足

影響力

学術的貢献：対話型推奨システムに新しい研究思想を提供
実用的価値：実際の推奨システムに直接適用可能
再現性：詳細な実装詳細を提供し、再現を容易にする

適用シーン

コールドスタート推奨：特に新規ユーザーの選好抽出に適している
対話型システム：様々な対話型推奨システムに統合可能
パーソナライズサービス：ユーザー選好を迅速に理解する必要があるシーン
多ラウンド相互作用：段階的な情報収集が必要なアプリケーション

参考文献

論文は対話型推薦システム、大規模言語モデル、拡散モデル、選好抽出など複数の関連領域の重要な研究を網羅する31篇の関連文献を引用しており、本研究に堅実な理論的基礎を提供している。

総合評価：これは高品質な研究論文であり、拡散モデルの思想を選好抽出問題に革新的に適用し、完全なソリューションを提案し、実験を通じて有効性を検証している。いくつかの限界は存在するが、その技術的貢献と実用的価値は、対話型推奨システム領域における重要な進展となっている。