Asking Clarifying Questions for Preference Elicitation With Large Language Models
Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic
Hacer Preguntas Aclaratorias para la Elicitación de Preferencias con Modelos de Lenguaje Grande
Los modelos de lenguaje grande (LLMs) permiten que los sistemas de recomendación interactúen con usuarios a través de interfaces de diálogo abierto. Para personalizar las respuestas del LLM, especialmente cuando el historial del usuario es limitado, es crucial la adquisición efectiva de preferencias del usuario. Este artículo propone un método novedoso para entrenar LLMs a formular preguntas aclaratorias secuenciadas que revelen las preferencias del usuario. El método emplea un proceso de dos etapas inspirado en modelos de difusión: el proceso directo genera preguntas aclaratorias comenzando desde un perfil de usuario y elimina progresivamente respuestas como "ruido"; el proceso inverso entrena el modelo para "desruir" el perfil del usuario aprendiendo a formular preguntas aclaratorias efectivas. Los resultados experimentales demuestran que este método mejora significativamente la capacidad del LLM para formular preguntas en forma de embudo y adquirir efectivamente las preferencias del usuario.
Los sistemas de recomendación típicamente dependen del historial de interacciones del usuario para aprender preferencias, pero enfrentan desafíos en los siguientes casos:
Problema del Usuario Nuevo: Falta de historial de interacciones suficiente
Restricciones de Privacidad: Limitaciones en el uso de datos históricos de interacciones
Incertidumbre Contextual: Las preferencias actuales se ven afectadas por factores como el estado de ánimo y el entorno social
Con el rápido desarrollo de los LLMs, los sistemas de recomendación conversacionales (CRS) se han vuelto posibles, permitiendo que el sistema aclare las necesidades del usuario y proporcione recomendaciones personalizadas de alta calidad a través de preguntas directas de adquisición de preferencias.
Las técnicas simples de indicaciones pueden guiar al LLM para formular preguntas de adquisición en momentos apropiados, pero la generación de preguntas aclaratorias secuenciadas efectivas en múltiples dominios sigue siendo un desafío.
Este artículo tiene como objetivo optimizar la capacidad de los LLMs para formular preguntas de adquisición de alta calidad, particularmente aprendiendo a formular preguntas "en embudo"—comenzando con conceptos generales y volviéndose progresivamente más específicas a medida que avanza la conversación.
Dado un perfil de usuario P, el objetivo es reconstruir el perfil de usuario completo P_n desde un perfil vacío P₀ = ∅ a través de preguntas secuenciadas Q₀, Q₁, ..., Q_ y respuestas correspondientes A₀, A₁, ..., A_.
Conjunto de Datos MovieLens: Ampliamente utilizado en investigación de sistemas de recomendación
Perfiles de Usuario: Utiliza perfiles de usuario generados por Jeong et al. y Tennenholtz et al., generados mediante LLM basados en historial de calificaciones completo, validados como predictivos de calificaciones de usuario
El artículo cita 31 trabajos relacionados, cubriendo múltiples áreas relevantes incluyendo sistemas de recomendación conversacionales, modelos de lenguaje grande, modelos de difusión, adquisición de preferencias y otros, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que aplica innovadoramente ideas de modelos de difusión al problema de adquisición de preferencias, propone una solución completa y valida su efectividad mediante experimentos. A pesar de algunas limitaciones, sus contribuciones técnicas y valor práctico lo convierten en un avance importante en el campo de los sistemas de recomendación conversacionales.