2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

Hacer Preguntas Aclaratorias para la Elicitación de Preferencias con Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2510.12015
  • Título: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • Autores: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • Clasificación: cs.AI
  • Conferencia de Publicación: GENNEXT@SIGIR'25
  • Enlace del Artículo: https://arxiv.org/abs/2510.12015

Resumen

Los modelos de lenguaje grande (LLMs) permiten que los sistemas de recomendación interactúen con usuarios a través de interfaces de diálogo abierto. Para personalizar las respuestas del LLM, especialmente cuando el historial del usuario es limitado, es crucial la adquisición efectiva de preferencias del usuario. Este artículo propone un método novedoso para entrenar LLMs a formular preguntas aclaratorias secuenciadas que revelen las preferencias del usuario. El método emplea un proceso de dos etapas inspirado en modelos de difusión: el proceso directo genera preguntas aclaratorias comenzando desde un perfil de usuario y elimina progresivamente respuestas como "ruido"; el proceso inverso entrena el modelo para "desruir" el perfil del usuario aprendiendo a formular preguntas aclaratorias efectivas. Los resultados experimentales demuestran que este método mejora significativamente la capacidad del LLM para formular preguntas en forma de embudo y adquirir efectivamente las preferencias del usuario.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas de recomendación típicamente dependen del historial de interacciones del usuario para aprender preferencias, pero enfrentan desafíos en los siguientes casos:

  1. Problema del Usuario Nuevo: Falta de historial de interacciones suficiente
  2. Restricciones de Privacidad: Limitaciones en el uso de datos históricos de interacciones
  3. Incertidumbre Contextual: Las preferencias actuales se ven afectadas por factores como el estado de ánimo y el entorno social

Importancia de la Investigación

Con el rápido desarrollo de los LLMs, los sistemas de recomendación conversacionales (CRS) se han vuelto posibles, permitiendo que el sistema aclare las necesidades del usuario y proporcione recomendaciones personalizadas de alta calidad a través de preguntas directas de adquisición de preferencias.

Limitaciones de Métodos Existentes

Las técnicas simples de indicaciones pueden guiar al LLM para formular preguntas de adquisición en momentos apropiados, pero la generación de preguntas aclaratorias secuenciadas efectivas en múltiples dominios sigue siendo un desafío.

Motivación de la Investigación

Este artículo tiene como objetivo optimizar la capacidad de los LLMs para formular preguntas de adquisición de alta calidad, particularmente aprendiendo a formular preguntas "en embudo"—comenzando con conceptos generales y volviéndose progresivamente más específicas a medida que avanza la conversación.

Contribuciones Principales

  1. Marco Innovador: Propone un marco de adquisición de preferencias de dos etapas inspirado en modelos de difusión discreta
  2. Generación de Preguntas Secuenciadas: Desarrolla un método de entrenamiento capaz de generar preguntas aclaratorias secuenciadas efectivas
  3. Estrategia de Diálogo en Embudo: Implementa una estrategia de formulación de preguntas de lo general a lo específico
  4. Simulador de Usuario: Construye un modelo simulador de usuario para evaluación
  5. Mejora Significativa del Desempeño: Valida la efectividad del método en el conjunto de datos MovieLens

Explicación Detallada del Método

Definición de la Tarea

Dado un perfil de usuario P, el objetivo es reconstruir el perfil de usuario completo P_n desde un perfil vacío P₀ = ∅ a través de preguntas secuenciadas Q₀, Q₁, ..., Q_ y respuestas correspondientes A₀, A₁, ..., A_.

Arquitectura del Modelo

1. Proceso de Preguntas y Respuestas Secuenciadas (SQN)

Utiliza la regla de la cadena y supuestos de independencia condicional:

p_θ,φ(P_n) = ∏ᵢ₌₁ⁿ p(P_i|P_{i-1}; θ, φ)

Donde cada probabilidad de transición se descompone en tres componentes:

p(P_i|P_{i-1}; θ, φ) = p_θ(Q_{i-1}|P_{i-1}) × p_φ(A_{i-1}|Q_{i-1}, P_{i-1}) × p(P_i|P_{i-1}, Q_{i-1}, A_{i-1})
  • p_θ(Q_|P_): Probabilidad del generador de preguntas
  • p_φ(A_|Q_, P_): Probabilidad del simulador de usuario
  • p(P_i|P_, Q_, A_): Función de actualización determinista

2. Proceso Directo: Corrupción del Perfil

  1. Transformación Estructurada: Convierte el perfil de usuario textual a formato JSON
  2. Ordenamiento de Etiquetas: Ordena las etiquetas según su grado de generalidad
  3. Generación de Preguntas en Embudo: Genera una secuencia de preguntas de lo general a lo específico
  4. Eliminación Progresiva de Información: Elimina información correspondiente progresivamente según el orden de preguntas

Definición del perfil de usuario parcial:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Proceso Inverso: Aprendizaje de Preguntas

Construcción de datos de entrenamiento:

D_u = {(Q_{n-1}, JP_u^{n-1}), (Q_{n-2}, JP_u^{n-2}), ..., (Q_0, JP_u^0)}

Puntos de Innovación Técnica

  1. Inspiración en Modelos de Difusión: Analoga el perfil de preferencias del usuario a la tarea de desruido en procesos de difusión discreta
  2. Estrategia en Embudo: Asegura un flujo natural de preguntas de lo general a lo específico mediante ordenamiento de etiquetas
  3. Entrenamiento Conjunto: Optimiza simultáneamente el generador de preguntas y el simulador de usuario
  4. Mecanismo de Historial de Preguntas: Incluye preguntas y respuestas en la actualización del perfil, evitando preguntas repetidas

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos MovieLens: Ampliamente utilizado en investigación de sistemas de recomendación
  • Perfiles de Usuario: Utiliza perfiles de usuario generados por Jeong et al. y Tennenholtz et al., generados mediante LLM basados en historial de calificaciones completo, validados como predictivos de calificaciones de usuario

Métricas de Evaluación

  • Puntuación ROUGE: Mide el solapamiento entre el perfil generado y el perfil real
  • Puntuación BLEU: Evalúa la calidad de la generación de texto
  • Porcentaje de Preguntas No Respondidas: Evalúa la relevancia de las preguntas

Métodos de Comparación

  • Modelo Gemma sin ajuste fino vs. modelo Gemma ajustado
  • Simulador de usuario Gemini sin ajuste fino vs. simulador de usuario Gemma ajustado

Detalles de Implementación

  • Modelo Base: Gemma 7B (28 capas) como generador de preguntas y simulador de usuario
  • Generación de Datos: Gemini 2.0 para generación de datos de alta calidad en el proceso directo
  • Método de Ajuste Fino: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • Parámetros de Entrenamiento: Tamaño de lote 64, tasa de aprendizaje 0.001
  • Límite de Preguntas: Máximo 10 preguntas o hasta que el perfil coincida

Resultados Experimentales

Resultados Principales

El ajuste fino mejoró significativamente el desempeño del modelo:

  • Puntuación ROUGE: Mejoró de 0.4 a 0.68
  • Puntuación BLEU: Mejoró de 0.28 a 0.49
  • Simulador de Usuario: El simulador Gemma ajustado superó al simulador Gemini sin ajuste fino

Experimentos de Ablación

1. Análisis del Efecto del Ajuste Fino

  • El generador de preguntas ajustado formula preguntas secuenciadas más efectivas
  • El simulador de usuario ajustado responde preguntas con mayor precisión
  • El porcentaje de preguntas no respondidas disminuyó significativamente

2. Efecto del Número de Preguntas

  • El modelo óptimo recopila información amplia en las primeras 5 rondas de preguntas
  • En las rondas 6-7 transita hacia preguntas más específicas y detalladas
  • Refleja una buena estrategia de diálogo en embudo

3. Efecto del Historial de Preguntas

  • En el modelo ajustado, agregar historial de preguntas mejora el desempeño
  • En el modelo sin ajuste fino, el historial de preguntas reduce el desempeño
  • El historial de preguntas ayuda a evitar preguntas repetidas

4. Impacto de Pasos de Ajuste Fino

  • Más pasos de ajuste fino (40,000 pasos) producen mejor desempeño
  • Se observa una tendencia creciente en 4,000, 28,000 y 40,000 pasos

Análisis de Casos

Análisis de Preguntas en Embudo

El análisis mediante clasificación ponderada (WR) muestra:

  • Preguntas Tempranas: Género, Era de Película, Década y otros conceptos amplios
  • Preguntas Intermedias: Directores, Estilo Visual, Tono y otros conceptos específicos
  • Preguntas Posteriores: Efectos Especiales, Humor, Atmósfera y otros conceptos detallados

Esto valida que el modelo aprendió una estrategia de formulación de preguntas de conceptos amplios a detalles específicos.

Hallazgos Experimentales

  1. Efecto Sinérgico: La optimización conjunta del generador de preguntas y el simulador de usuario produce efectos sinérgicos
  2. Estrategia Secuenciada: La estrategia de preguntas en embudo es más efectiva que la formulación aleatoria
  3. Utilización de Contexto: Incluir historial de preguntas ayuda a evitar repeticiones y mejora la calidad del diálogo

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Sistemas de Recomendación Conversacionales: Técnicas de adquisición de preferencias en CRS
  2. Generación de Preguntas Aclaratorias: Enseñanza a modelos de lenguaje para formular preguntas aclaratorias
  3. Métodos de Optimización Bayesiana: Marco PEBOL y otros para adquisición de preferencias en lenguaje natural
  4. Razonamiento Activo de Preferencias: Algoritmos que utilizan LLMs y razonamiento probabilístico

Ventajas de Este Artículo

  • Primera aplicación de ideas de modelos de difusión a adquisición de preferencias
  • Propone una estrategia sistemática de generación de preguntas en embudo
  • Optimiza simultáneamente dos componentes: generación de preguntas y simulación de usuario

Conclusiones y Discusión

Conclusiones Principales

  1. El marco de dos etapas inspirado en modelos de difusión puede entrenar efectivamente LLMs para formular preguntas aclaratorias de alta calidad
  2. La estrategia de preguntas en embudo supera significativamente a la formulación aleatoria de preguntas
  3. La optimización conjunta del generador de preguntas y el simulador de usuario produce efectos sinérgicos

Limitaciones

  1. Dependencia de Datos: Depende de datos de perfiles de usuario de alta calidad
  2. Especificidad de Dominio: Principalmente validado en el dominio de recomendación de películas
  3. Entorno Simulado: La evaluación se basa principalmente en simuladores de usuario en lugar de usuarios reales
  4. Costo Computacional: Requiere recursos computacionales significativos para el ajuste fino

Direcciones Futuras

  1. Extensión a más dominios de recomendación
  2. Validación con interacciones de usuarios reales
  3. Exploración de estrategias de entrenamiento más eficientes
  4. Integración de información multimodal

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Aplica ingeniosamente ideas de modelos de difusión a sistemas conversacionales, con conceptos novedosos y razonables
  2. Completitud Técnica: Proporciona un marco de entrenamiento completo, incluyendo generación de datos, entrenamiento de modelos y evaluación
  3. Suficiencia Experimental: Experimentos de ablación exhaustivos validan la efectividad de cada componente
  4. Valor Práctico: Resuelve problemas reales en sistemas de recomendación con fuerte potencial de aplicación

Deficiencias

  1. Limitaciones de Evaluación: Depende principalmente de entornos simulados, carece de validación con interacciones de usuarios reales
  2. Limitaciones de Dominio: Validado solo en el dominio de recomendación de películas, la capacidad de generalización requiere verificación
  3. Líneas Base de Comparación: Carece de comparación directa con otros métodos avanzados de adquisición de preferencias
  4. Análisis Teórico: Carece de análisis profundo de las propiedades teóricas del método

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas de investigación para sistemas de recomendación conversacionales
  2. Valor Práctico: Puede aplicarse directamente en sistemas de recomendación reales
  3. Reproducibilidad: Proporciona detalles de implementación detallados para facilitar la reproducción

Escenarios Aplicables

  1. Recomendación de Arranque en Frío: Particularmente adecuado para adquisición de preferencias de usuarios nuevos
  2. Sistemas Conversacionales: Puede integrarse en varios sistemas de recomendación conversacionales
  3. Servicios Personalizados: Adecuado para escenarios que requieren comprender rápidamente las preferencias del usuario
  4. Interacción Multiturno: Adecuado para aplicaciones que requieren recopilación progresiva de información

Referencias Bibliográficas

El artículo cita 31 trabajos relacionados, cubriendo múltiples áreas relevantes incluyendo sistemas de recomendación conversacionales, modelos de lenguaje grande, modelos de difusión, adquisición de preferencias y otros, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que aplica innovadoramente ideas de modelos de difusión al problema de adquisición de preferencias, propone una solución completa y valida su efectividad mediante experimentos. A pesar de algunas limitaciones, sus contribuciones técnicas y valor práctico lo convierten en un avance importante en el campo de los sistemas de recomendación conversacionales.