2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

Asking Clarifying Questions for Preference Elicitation With Large Language Models

基本信息

论文ID: 2510.12015
标题: Asking Clarifying Questions for Preference Elicitation With Large Language Models
作者: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
分类: cs.AI
发表会议: GENNEXT@SIGIR'25
论文链接: https://arxiv.org/abs/2510.12015

摘要

大型语言模型(LLMs)使推荐系统能够通过开放式对话界面与用户交互。为了个性化LLM响应，尤其在用户历史有限的情况下，有效获取用户偏好至关重要。本文提出了一种新颖的方法来训练LLMs提出能够揭示用户偏好的序列化澄清问题。该方法采用受扩散模型启发的两阶段过程：前向过程从用户画像开始生成澄清问题并逐步移除答案作为"噪声"；反向过程训练模型通过学习提出有效澄清问题来"去噪"用户画像。实验结果表明，该方法显著提升了LLM在提出漏斗式问题和有效获取用户偏好方面的能力。

研究背景与动机

问题定义

推荐系统通常依赖用户历史交互来学习偏好，但在以下情况下面临挑战：

新用户问题：缺乏足够的交互历史
隐私约束：限制使用历史交互数据
上下文不确定性：当前偏好受心情、社交环境等因素影响

研究重要性

随着LLMs的快速发展，对话式推荐系统(CRS)成为可能，通过直接的偏好获取问题，系统可以澄清用户需求并提供高质量的个性化推荐。

现有方法局限性

简单的提示技术可以指导LLM在适当时提出获取问题，但生成跨领域的有效序列化澄清问题仍然是一个挑战。

研究动机

本文旨在优化LLMs提出高质量获取问题的能力，特别是学习提出"漏斗式"问题——从一般概念开始，随着对话进展逐渐变得更具体。

核心贡献

创新框架：提出了受离散扩散模型启发的两阶段偏好获取框架
序列化问题生成：开发了能够生成有效序列化澄清问题的训练方法
漏斗式对话策略：实现了从一般到具体的问题提问策略
用户模拟器：构建了用于评估的用户模拟器模型
显著性能提升：在MovieLens数据集上验证了方法的有效性

方法详解

任务定义

给定用户画像P，目标是通过序列化问题Q₀, Q₁, ..., Qₙ₋₁和对应答案A₀, A₁, ..., Aₙ₋₁，从空画像P₀ = ∅重构完整的用户画像Pₙ。

模型架构

1. 序列化问答过程(SQN)

使用链式规则和条件独立假设：

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

其中每个转移概率分解为三个组件：

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁)：问题生成器概率
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁)：用户模拟器概率
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)：确定性更新函数

2. 前向过程：画像破坏

结构化转换：将文本用户画像转换为JSON格式
标签排序：按照一般性程度对标签进行排序
漏斗式问题生成：生成从一般到具体的问题序列
逐步信息移除：按照问题顺序逐步移除对应信息

部分用户画像定义：

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. 反向过程：问题学习

训练数据构造：

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

技术创新点

扩散模型启发：将用户偏好画像类比为离散扩散过程中的去噪任务
漏斗式策略：通过标签排序确保问题从一般到具体的自然流程
联合训练：同时优化问题生成器和用户模拟器
问题历史机制：在画像更新中包含问题和答案，避免重复提问

实验设置

数据集

MovieLens数据集：广泛用于推荐系统研究
用户画像：使用Jeong等人和Tennenholtz等人生成的用户画像，这些画像通过LLM基于完整评分历史生成，已验证对用户评分具有预测性

评价指标

ROUGE分数：衡量生成画像与真实画像的重叠度
BLEU分数：评估文本生成质量
未回答问题百分比：评估问题的相关性

对比方法

非微调的Gemma模型 vs 微调的Gemma模型
非微调的Gemini用户模拟器 vs 微调的Gemma用户模拟器

实现细节

基础模型：Gemma 7B (28层) 作为问题生成器和用户模拟器
数据生成：Gemini 2.0 用于前向过程的高质量数据生成
微调方法：Parameter-Efficient Fine-Tuning (PEFT) + LoRA
训练参数：批量大小64，学习率0.001
问题限制：最多10个问题或直到画像匹配

实验结果

主要结果

微调显著提升了模型性能：

ROUGE分数：从0.4提升至0.68
BLEU分数：从0.28提升至0.49
用户模拟器：微调的Gemma模拟器优于非微调的Gemini模拟器

消融实验

1. 微调效果分析

微调的问题生成器能够提出更有效的序列化问题
微调的用户模拟器能够更准确地回答问题
未回答问题的百分比显著降低

2. 问题数量效果

最佳模型在前5轮提问中收集广泛信息
在第6-7轮转向更具体和详细的问题
体现了良好的漏斗式对话策略

3. 问题历史效果

在微调模型中，添加问题历史提升性能
在非微调模型中，问题历史降低性能
问题历史有助于避免重复提问

4. 微调步数影响

更多微调步数(40,000步)带来更好的性能
4,000步、28,000步、40,000步呈现递增趋势

案例分析

漏斗式问题分析

通过加权排名(WR)分析显示：

早期问题：Genre、Film Era、Decade等广泛概念
中期问题：Directors、Visual Style、Tone等具体概念
后期问题：Special Effects、Humor、Atmosphere等细节概念

这验证了模型学会了从广泛概念到具体细节的问题提问策略。

实验发现

协同效应：问题生成器和用户模拟器的联合优化产生协同效应
序列化策略：漏斗式问题策略比随机提问更有效
上下文利用：包含问题历史有助于避免重复并提升对话质量

结论与讨论

主要结论

扩散模型启发的两阶段框架能够有效训练LLM提出高质量澄清问题
漏斗式问题策略显著优于随机提问方法
联合优化问题生成器和用户模拟器产生协同效应

局限性

数据依赖：依赖高质量的用户画像数据
领域特定：主要在电影推荐领域验证
模拟环境：评估主要基于用户模拟器而非真实用户
计算成本：需要大量计算资源进行微调

未来方向

扩展到更多推荐领域
与真实用户进行交互验证
探索更高效的训练策略
集成多模态信息

深度评价

优点

方法创新性：巧妙地将扩散模型思想应用于对话系统，概念新颖且合理
技术完整性：提供了完整的训练框架，包括数据生成、模型训练和评估
实验充分性：全面的消融实验验证了各个组件的有效性
实用价值：解决了推荐系统中的实际问题，具有较强的应用潜力

不足

评估局限：主要依赖模拟环境，缺乏真实用户交互验证
领域局限：仅在电影推荐领域验证，泛化能力有待验证
对比基线：缺乏与其他先进偏好获取方法的直接对比
理论分析：缺乏对方法理论性质的深入分析

影响力

学术贡献：为对话式推荐系统提供了新的研究思路
实用价值：可直接应用于实际推荐系统中
可复现性：提供了详细的实现细节，便于复现

适用场景

冷启动推荐：特别适用于新用户的偏好获取
对话式系统：可集成到各种对话式推荐系统中
个性化服务：适用于需要快速了解用户偏好的场景
多轮交互：适合需要渐进式信息收集的应用

参考文献

论文引用了31篇相关文献，涵盖了对话式推荐系统、大型语言模型、扩散模型、偏好获取等多个相关领域的重要工作，为本研究提供了坚实的理论基础。

总体评价：这是一篇高质量的研究论文，创新性地将扩散模型思想应用于偏好获取问题，提出了完整的解决方案并通过实验验证了有效性。尽管存在一些局限性，但其技术贡献和实用价值使其成为对话式推荐系统领域的重要进展。