Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
論文ID : 2510.12015タイトル : Asking Clarifying Questions for Preference Elicitation With Large Language Models著者 : Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)分類 : cs.AI発表会議 : GENNEXT@SIGIR'25論文リンク : https://arxiv.org/abs/2510.12015 大規模言語モデル(LLM)は、推薦システムがオープンエンドな対話インターフェースを通じてユーザーと相互作用することを可能にしている。特にユーザー履歴が限定的な場合、LLM応答をパーソナライズするために、ユーザー選好の効果的な抽出が重要である。本論文は、ユーザー選好を明らかにできる順序付き明確化質問をLLMに提出させるための訓練方法を提案する。本手法は拡散モデルに着想を得た2段階プロセスを採用している。前向きプロセスはユーザープロフィールから開始して明確化質問を生成し、答えを「ノイズ」として段階的に除去する。逆向きプロセスは、効果的な明確化質問を提出することを学習することで、ユーザープロフィールを「ノイズ除去」するようにモデルを訓練する。実験結果は、本手法がLLMのファネル型質問提出能力と効果的なユーザー選好抽出能力を大幅に向上させることを示している。
推薦システムは通常、ユーザーの過去のインタラクション履歴に依存して選好を学習するが、以下の状況で課題に直面する:
新規ユーザー問題 :十分なインタラクション履歴の欠如プライバシー制約 :過去のインタラクションデータの使用を制限文脈的不確実性 :現在の選好が気分や社会的環境などの要因に影響されるLLMの急速な発展に伴い、対話型推薦システム(CRS)が可能になり、直接的な選好抽出質問を通じてシステムはユーザーニーズを明確にし、高品質なパーソナライズ推奨を提供できる。
単純なプロンプト技術はLLMに適切なタイミングで抽出質問を提出するよう指導できるが、複数領域にわたる効果的な順序付き明確化質問の生成は依然として課題である。
本論文は、LLMが高品質な抽出質問を提出する能力を最適化することを目指している。特に「ファネル型」質問の提出を学習する——一般的な概念から始まり、対話の進行に伴ってより具体的になる質問。
革新的フレームワーク :離散拡散モデルに着想を得た2段階選好抽出フレームワークを提案順序付き質問生成 :効果的な順序付き明確化質問を生成できる訓練方法を開発ファネル型対話戦略 :一般から具体への質問提出戦略を実装ユーザーシミュレータ :評価用のユーザーシミュレータモデルを構築顕著な性能向上 :MovieLensデータセットで手法の有効性を検証ユーザープロフィールPが与えられたとき、目標は順序付き質問Q₀, Q₁, ..., Qₙ₋₁と対応する答えA₀, A₁, ..., Aₙ₋₁を通じて、空のプロフィールP₀ = ∅から完全なユーザープロフィールPₙを再構成することである。
連鎖則と条件付き独立性仮定を使用:
p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)
各遷移確率は3つの成分に分解される:
p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)
p_θ(Qᵢ₋₁|Pᵢ₋₁):質問生成器確率 p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁):ユーザーシミュレータ確率 p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁):決定論的更新関数 構造化変換 :テキストユーザープロフィールをJSON形式に変換ラベル順序付け :一般性の程度に従ってラベルを順序付けファネル型質問生成 :一般から具体への質問シーケンスを生成段階的情報除去 :質問順序に従って対応する情報を段階的に除去部分的ユーザープロフィール定義:
JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i
訓練データ構成:
D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}
拡散モデル着想 :ユーザー選好プロフィールを離散拡散プロセスのノイズ除去タスクに類比ファネル型戦略 :ラベル順序付けを通じて一般から具体への自然な流れを確保共同訓練 :質問生成器とユーザーシミュレータを同時に最適化質問履歴メカニズム :プロフィール更新に質問と答えを含め、重複提出を回避MovieLensデータセット :推薦システム研究で広く使用ユーザープロフィール :Jeongら及びTennenholtzらが生成したユーザープロフィールを使用。これらのプロフィールは完全な評価履歴に基づいてLLMにより生成され、ユーザー評価に対する予測性が検証されているROUGEスコア :生成プロフィールと真実プロフィール間の重複度を測定BLEUスコア :テキスト生成品質を評価未回答質問の割合 :質問の関連性を評価微調整なしのGemmaモデル vs 微調整されたGemmaモデル 微調整なしのGeminiユーザーシミュレータ vs 微調整されたGemmaユーザーシミュレータ 基本モデル :Gemma 7B (28層)を質問生成器とユーザーシミュレータとして使用データ生成 :前向きプロセスの高品質データ生成にGemini 2.0を使用微調整方法 :Parameter-Efficient Fine-Tuning (PEFT) + LoRA訓練パラメータ :バッチサイズ64、学習率0.001質問制限 :最大10質問またはプロフィール一致まで微調整はモデル性能を大幅に向上させた:
ROUGEスコア :0.4から0.68へ向上BLEUスコア :0.28から0.49へ向上ユーザーシミュレータ :微調整されたGemmaシミュレータが微調整なしのGeminiシミュレータを上回る微調整された質問生成器はより効果的な順序付き質問を提出できる 微調整されたユーザーシミュレータはより正確に質問に回答できる 未回答質問の割合が大幅に低下 最適モデルは最初の5ラウンドで広範な情報を収集 6~7ラウンド目でより具体的で詳細な質問に転換 良好なファネル型対話戦略を実現 微調整モデルでは、質問履歴の追加が性能を向上させる 微調整なしモデルでは、質問履歴が性能を低下させる 質問履歴は重複提出を回避するのに役立つ より多くの微調整ステップ(40,000ステップ)がより良い性能をもたらす 4,000ステップ、28,000ステップ、40,000ステップで漸増傾向 加重ランキング(WR)分析は以下を示している:
初期質問 :ジャンル、映画時代、十年など広範な概念中期質問 :監督、ビジュアルスタイル、トーンなど具体的な概念後期質問 :特殊効果、ユーモア、雰囲気など詳細な概念これは、モデルが広範な概念から具体的な詳細への質問提出戦略を学習したことを検証している。
相乗効果 :質問生成器とユーザーシミュレータの共同最適化は相乗効果を生み出す順序付き戦略 :ファネル型質問戦略はランダム提出より効果的文脈利用 :質問履歴を含めることは重複を回避し、対話品質を向上させるのに役立つ対話型推薦システム :CRSにおける選好抽出技術明確化質問生成 :言語モデルに明確化質問を提出させることの教育ベイズ最適化手法 :PEBOL アルゴリズムなど自然言語選好抽出フレームワーク能動的選好推論 :LLMと確率推論を使用するアルゴリズム拡散モデルの思想を選好抽出に初めて適用 体系的なファネル型質問生成戦略を提案 質問生成とユーザーシミュレーションの2つの成分を同時に最適化 拡散モデル着想の2段階フレームワークは、LLMが高品質な明確化質問を提出するよう効果的に訓練できる ファネル型質問戦略はランダム提出方法を大幅に上回る 質問生成器とユーザーシミュレータの共同最適化は相乗効果を生み出す データ依存性 :高品質なユーザープロフィールデータに依存領域特定性 :主に映画推奨領域で検証シミュレーション環境 :評価は主にユーザーシミュレータに基づき、実ユーザーではない計算コスト :微調整に大量の計算リソースが必要より多くの推奨領域への拡張 実ユーザーとの相互作用検証 より効率的な訓練戦略の探索 マルチモーダル情報の統合 方法の革新性 :拡散モデルの思想を対話システムに巧妙に適用し、概念が新規かつ合理的技術的完全性 :データ生成、モデル訓練、評価を含む完全な訓練フレームワークを提供実験の充実性 :各成分の有効性を検証する包括的なアブレーション実験実用的価値 :推奨システムの実際の問題を解決し、強い応用可能性を持つ評価の限界 :主にシミュレーション環境に依存し、実ユーザー相互作用検証が不足領域の限界 :映画推奨領域でのみ検証され、汎化能力は検証待ち比較基線 :他の先進的選好抽出方法との直接比較が不足理論分析 :方法の理論的性質に関する深い分析が不足学術的貢献 :対話型推奨システムに新しい研究思想を提供実用的価値 :実際の推奨システムに直接適用可能再現性 :詳細な実装詳細を提供し、再現を容易にするコールドスタート推奨 :特に新規ユーザーの選好抽出に適している対話型システム :様々な対話型推奨システムに統合可能パーソナライズサービス :ユーザー選好を迅速に理解する必要があるシーン多ラウンド相互作用 :段階的な情報収集が必要なアプリケーション論文は対話型推薦システム、大規模言語モデル、拡散モデル、選好抽出など複数の関連領域の重要な研究を網羅する31篇の関連文献を引用しており、本研究に堅実な理論的基礎を提供している。
総合評価 :これは高品質な研究論文であり、拡散モデルの思想を選好抽出問題に革新的に適用し、完全なソリューションを提案し、実験を通じて有効性を検証している。いくつかの限界は存在するが、その技術的貢献と実用的価値は、対話型推奨システム領域における重要な進展となっている。