2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

Hacer Preguntas Aclaratorias para la Elicitación de Preferencias con Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2510.12015
Título: Asking Clarifying Questions for Preference Elicitation With Large Language Models
Autores: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
Clasificación: cs.AI
Conferencia de Publicación: GENNEXT@SIGIR'25
Enlace del Artículo: https://arxiv.org/abs/2510.12015

Resumen

Los modelos de lenguaje grande (LLMs) permiten que los sistemas de recomendación interactúen con usuarios a través de interfaces de diálogo abierto. Para personalizar las respuestas del LLM, especialmente cuando el historial del usuario es limitado, es crucial la adquisición efectiva de preferencias del usuario. Este artículo propone un método novedoso para entrenar LLMs a formular preguntas aclaratorias secuenciadas que revelen las preferencias del usuario. El método emplea un proceso de dos etapas inspirado en modelos de difusión: el proceso directo genera preguntas aclaratorias comenzando desde un perfil de usuario y elimina progresivamente respuestas como "ruido"; el proceso inverso entrena el modelo para "desruir" el perfil del usuario aprendiendo a formular preguntas aclaratorias efectivas. Los resultados experimentales demuestran que este método mejora significativamente la capacidad del LLM para formular preguntas en forma de embudo y adquirir efectivamente las preferencias del usuario.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas de recomendación típicamente dependen del historial de interacciones del usuario para aprender preferencias, pero enfrentan desafíos en los siguientes casos:

Problema del Usuario Nuevo: Falta de historial de interacciones suficiente
Restricciones de Privacidad: Limitaciones en el uso de datos históricos de interacciones
Incertidumbre Contextual: Las preferencias actuales se ven afectadas por factores como el estado de ánimo y el entorno social

Importancia de la Investigación

Con el rápido desarrollo de los LLMs, los sistemas de recomendación conversacionales (CRS) se han vuelto posibles, permitiendo que el sistema aclare las necesidades del usuario y proporcione recomendaciones personalizadas de alta calidad a través de preguntas directas de adquisición de preferencias.

Limitaciones de Métodos Existentes

Las técnicas simples de indicaciones pueden guiar al LLM para formular preguntas de adquisición en momentos apropiados, pero la generación de preguntas aclaratorias secuenciadas efectivas en múltiples dominios sigue siendo un desafío.

Motivación de la Investigación

Este artículo tiene como objetivo optimizar la capacidad de los LLMs para formular preguntas de adquisición de alta calidad, particularmente aprendiendo a formular preguntas "en embudo"—comenzando con conceptos generales y volviéndose progresivamente más específicas a medida que avanza la conversación.

Contribuciones Principales

Marco Innovador: Propone un marco de adquisición de preferencias de dos etapas inspirado en modelos de difusión discreta
Generación de Preguntas Secuenciadas: Desarrolla un método de entrenamiento capaz de generar preguntas aclaratorias secuenciadas efectivas
Estrategia de Diálogo en Embudo: Implementa una estrategia de formulación de preguntas de lo general a lo específico
Simulador de Usuario: Construye un modelo simulador de usuario para evaluación
Mejora Significativa del Desempeño: Valida la efectividad del método en el conjunto de datos MovieLens

Explicación Detallada del Método

Definición de la Tarea

Dado un perfil de usuario P, el objetivo es reconstruir el perfil de usuario completo P_n desde un perfil vacío P₀ = ∅ a través de preguntas secuenciadas Q₀, Q₁, ..., Q_ y respuestas correspondientes A₀, A₁, ..., A_.

Arquitectura del Modelo

1. Proceso de Preguntas y Respuestas Secuenciadas (SQN)

Utiliza la regla de la cadena y supuestos de independencia condicional:

p_θ,φ(P_n) = ∏ᵢ₌₁ⁿ p(P_i|P_{i-1}; θ, φ)

Donde cada probabilidad de transición se descompone en tres componentes:

p(P_i|P_{i-1}; θ, φ) = p_θ(Q_{i-1}|P_{i-1}) × p_φ(A_{i-1}|Q_{i-1}, P_{i-1}) × p(P_i|P_{i-1}, Q_{i-1}, A_{i-1})

p_θ(Q_|P_): Probabilidad del generador de preguntas
p_φ(A_|Q_, P_): Probabilidad del simulador de usuario
p(P_i|P_, Q_, A_): Función de actualización determinista

2. Proceso Directo: Corrupción del Perfil

Transformación Estructurada: Convierte el perfil de usuario textual a formato JSON
Ordenamiento de Etiquetas: Ordena las etiquetas según su grado de generalidad
Generación de Preguntas en Embudo: Genera una secuencia de preguntas de lo general a lo específico
Eliminación Progresiva de Información: Elimina información correspondiente progresivamente según el orden de preguntas

Definición del perfil de usuario parcial:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Proceso Inverso: Aprendizaje de Preguntas

Construcción de datos de entrenamiento:

D_u = {(Q_{n-1}, JP_u^{n-1}), (Q_{n-2}, JP_u^{n-2}), ..., (Q_0, JP_u^0)}

Puntos de Innovación Técnica

Inspiración en Modelos de Difusión: Analoga el perfil de preferencias del usuario a la tarea de desruido en procesos de difusión discreta
Estrategia en Embudo: Asegura un flujo natural de preguntas de lo general a lo específico mediante ordenamiento de etiquetas
Entrenamiento Conjunto: Optimiza simultáneamente el generador de preguntas y el simulador de usuario
Mecanismo de Historial de Preguntas: Incluye preguntas y respuestas en la actualización del perfil, evitando preguntas repetidas

Configuración Experimental

Conjunto de Datos

Conjunto de Datos MovieLens: Ampliamente utilizado en investigación de sistemas de recomendación
Perfiles de Usuario: Utiliza perfiles de usuario generados por Jeong et al. y Tennenholtz et al., generados mediante LLM basados en historial de calificaciones completo, validados como predictivos de calificaciones de usuario

Métricas de Evaluación

Puntuación ROUGE: Mide el solapamiento entre el perfil generado y el perfil real
Puntuación BLEU: Evalúa la calidad de la generación de texto
Porcentaje de Preguntas No Respondidas: Evalúa la relevancia de las preguntas

Métodos de Comparación

Modelo Gemma sin ajuste fino vs. modelo Gemma ajustado
Simulador de usuario Gemini sin ajuste fino vs. simulador de usuario Gemma ajustado

Detalles de Implementación

Modelo Base: Gemma 7B (28 capas) como generador de preguntas y simulador de usuario
Generación de Datos: Gemini 2.0 para generación de datos de alta calidad en el proceso directo
Método de Ajuste Fino: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
Parámetros de Entrenamiento: Tamaño de lote 64, tasa de aprendizaje 0.001
Límite de Preguntas: Máximo 10 preguntas o hasta que el perfil coincida

Resultados Experimentales

Resultados Principales

El ajuste fino mejoró significativamente el desempeño del modelo:

Puntuación ROUGE: Mejoró de 0.4 a 0.68
Puntuación BLEU: Mejoró de 0.28 a 0.49
Simulador de Usuario: El simulador Gemma ajustado superó al simulador Gemini sin ajuste fino

Experimentos de Ablación

1. Análisis del Efecto del Ajuste Fino

El generador de preguntas ajustado formula preguntas secuenciadas más efectivas
El simulador de usuario ajustado responde preguntas con mayor precisión
El porcentaje de preguntas no respondidas disminuyó significativamente

2. Efecto del Número de Preguntas

El modelo óptimo recopila información amplia en las primeras 5 rondas de preguntas
En las rondas 6-7 transita hacia preguntas más específicas y detalladas
Refleja una buena estrategia de diálogo en embudo

3. Efecto del Historial de Preguntas

En el modelo ajustado, agregar historial de preguntas mejora el desempeño
En el modelo sin ajuste fino, el historial de preguntas reduce el desempeño
El historial de preguntas ayuda a evitar preguntas repetidas

4. Impacto de Pasos de Ajuste Fino

Más pasos de ajuste fino (40,000 pasos) producen mejor desempeño
Se observa una tendencia creciente en 4,000, 28,000 y 40,000 pasos

Análisis de Casos

Análisis de Preguntas en Embudo

El análisis mediante clasificación ponderada (WR) muestra:

Preguntas Tempranas: Género, Era de Película, Década y otros conceptos amplios
Preguntas Intermedias: Directores, Estilo Visual, Tono y otros conceptos específicos
Preguntas Posteriores: Efectos Especiales, Humor, Atmósfera y otros conceptos detallados

Esto valida que el modelo aprendió una estrategia de formulación de preguntas de conceptos amplios a detalles específicos.

Hallazgos Experimentales

Efecto Sinérgico: La optimización conjunta del generador de preguntas y el simulador de usuario produce efectos sinérgicos
Estrategia Secuenciada: La estrategia de preguntas en embudo es más efectiva que la formulación aleatoria
Utilización de Contexto: Incluir historial de preguntas ayuda a evitar repeticiones y mejora la calidad del diálogo

Trabajo Relacionado

Direcciones Principales de Investigación

Sistemas de Recomendación Conversacionales: Técnicas de adquisición de preferencias en CRS
Generación de Preguntas Aclaratorias: Enseñanza a modelos de lenguaje para formular preguntas aclaratorias
Métodos de Optimización Bayesiana: Marco PEBOL y otros para adquisición de preferencias en lenguaje natural
Razonamiento Activo de Preferencias: Algoritmos que utilizan LLMs y razonamiento probabilístico

Ventajas de Este Artículo

Primera aplicación de ideas de modelos de difusión a adquisición de preferencias
Propone una estrategia sistemática de generación de preguntas en embudo
Optimiza simultáneamente dos componentes: generación de preguntas y simulación de usuario

Conclusiones y Discusión

Conclusiones Principales

El marco de dos etapas inspirado en modelos de difusión puede entrenar efectivamente LLMs para formular preguntas aclaratorias de alta calidad
La estrategia de preguntas en embudo supera significativamente a la formulación aleatoria de preguntas
La optimización conjunta del generador de preguntas y el simulador de usuario produce efectos sinérgicos

Limitaciones

Dependencia de Datos: Depende de datos de perfiles de usuario de alta calidad
Especificidad de Dominio: Principalmente validado en el dominio de recomendación de películas
Entorno Simulado: La evaluación se basa principalmente en simuladores de usuario en lugar de usuarios reales
Costo Computacional: Requiere recursos computacionales significativos para el ajuste fino

Direcciones Futuras

Extensión a más dominios de recomendación
Validación con interacciones de usuarios reales
Exploración de estrategias de entrenamiento más eficientes
Integración de información multimodal

Evaluación Profunda

Fortalezas

Innovación Metodológica: Aplica ingeniosamente ideas de modelos de difusión a sistemas conversacionales, con conceptos novedosos y razonables
Completitud Técnica: Proporciona un marco de entrenamiento completo, incluyendo generación de datos, entrenamiento de modelos y evaluación
Suficiencia Experimental: Experimentos de ablación exhaustivos validan la efectividad de cada componente
Valor Práctico: Resuelve problemas reales en sistemas de recomendación con fuerte potencial de aplicación

Deficiencias

Limitaciones de Evaluación: Depende principalmente de entornos simulados, carece de validación con interacciones de usuarios reales
Limitaciones de Dominio: Validado solo en el dominio de recomendación de películas, la capacidad de generalización requiere verificación
Líneas Base de Comparación: Carece de comparación directa con otros métodos avanzados de adquisición de preferencias
Análisis Teórico: Carece de análisis profundo de las propiedades teóricas del método

Impacto

Contribución Académica: Proporciona nuevas perspectivas de investigación para sistemas de recomendación conversacionales
Valor Práctico: Puede aplicarse directamente en sistemas de recomendación reales
Reproducibilidad: Proporciona detalles de implementación detallados para facilitar la reproducción

Escenarios Aplicables

Recomendación de Arranque en Frío: Particularmente adecuado para adquisición de preferencias de usuarios nuevos
Sistemas Conversacionales: Puede integrarse en varios sistemas de recomendación conversacionales
Servicios Personalizados: Adecuado para escenarios que requieren comprender rápidamente las preferencias del usuario
Interacción Multiturno: Adecuado para aplicaciones que requieren recopilación progresiva de información

Referencias Bibliográficas

El artículo cita 31 trabajos relacionados, cubriendo múltiples áreas relevantes incluyendo sistemas de recomendación conversacionales, modelos de lenguaje grande, modelos de difusión, adquisición de preferencias y otros, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que aplica innovadoramente ideas de modelos de difusión al problema de adquisición de preferencias, propone una solución completa y valida su efectividad mediante experimentos. A pesar de algunas limitaciones, sus contribuciones técnicas y valor práctico lo convierten en un avance importante en el campo de los sistemas de recomendación conversacionales.