Asking Clarifying Questions for Preference Elicitation With Large Language Models
Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic
Klärende Fragen zur Präferenzermittlung mit großen Sprachmodellen
Große Sprachmodelle (LLMs) ermöglichen es Empfehlungssystemen, über offene Dialogschnittstellen mit Benutzern zu interagieren. Um LLM-Antworten zu personalisieren, insbesondere bei begrenztem Benutzerverlauf, ist eine effektive Erfassung von Benutzerpräferenzen entscheidend. Dieses Paper präsentiert einen neuartigen Ansatz zum Trainieren von LLMs, um sequenzielle Klärungsfragen zu stellen, die Benutzerpräferenzen offenbaren können. Der Ansatz nutzt einen von Diffusionsmodellen inspirierten zweistufigen Prozess: Der Vorwärtsprozess generiert Klärungsfragen ausgehend von einem Benutzerprofil und entfernt schrittweise Antworten als „Rauschen"; der Rückwärtsprozess trainiert das Modell, das Benutzerprofil durch Lernen effektiver Klärungsfragen zu „entrauschen". Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Fähigkeit des LLM zur Formulierung von Trichterfragen und zur effektiven Erfassung von Benutzerpräferenzen erheblich verbessert.
Empfehlungssysteme verlassen sich typischerweise auf Benutzerinteraktionsverlauf, um Präferenzen zu erlernen, sehen sich jedoch in folgenden Situationen mit Herausforderungen konfrontiert:
Kaltstart-Problem: Mangel an ausreichendem Interaktionsverlauf
Datenschutzbeschränkungen: Einschränkungen bei der Nutzung von Interaktionsdaten
Kontextunsicherheit: Aktuelle Präferenzen werden durch Stimmung, soziales Umfeld und andere Faktoren beeinflusst
Mit der rasanten Entwicklung von LLMs werden dialogbasierte Empfehlungssysteme (CRS) möglich, die durch direkte Präferenzerfassungsfragen Benutzerbedürfnisse klären und hochwertige personalisierte Empfehlungen bereitstellen können.
Einfache Prompt-Techniken können LLMs anleiten, Erfassungsfragen zum geeigneten Zeitpunkt zu stellen, aber die Generierung effektiver sequenzieller Klärungsfragen über Domänen hinweg bleibt eine Herausforderung.
Dieses Paper zielt darauf ab, die Fähigkeit von LLMs zur Formulierung hochwertiger Erfassungsfragen zu optimieren, insbesondere zum Erlernen von „Trichterfragen" – beginnend mit allgemeinen Konzepten und werdend mit dem Fortschreiten des Dialogs schrittweise spezifischer.
Gegeben ein Benutzerprofil P ist das Ziel, das vollständige Benutzerprofil Pₙ aus dem leeren Profil P₀ = ∅ durch sequenzielle Fragen Q₀, Q₁, ..., Qₙ₋₁ und entsprechende Antworten A₀, A₁, ..., Aₙ₋₁ zu rekonstruieren.
MovieLens-Datensatz: Weit verbreitet in der Empfehlungssystemforschung
Benutzerprofile: Verwendung von Profilen, die von Jeong et al. und Tennenholtz et al. generiert wurden, basierend auf vollständiger Bewertungshistorie durch LLM, validiert für Vorhersagekraft von Benutzerbewertungen
Das Paper zitiert 31 relevante Arbeiten, die dialogbasierte Empfehlungssysteme, große Sprachmodelle, Diffusionsmodelle, Präferenzerfassung und andere verwandte Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovativ Diffusionsmodell-Ideen auf das Präferenzerfassungsproblem anwendet, eine vollständige Lösung präsentiert und deren Effektivität durch Experimente validiert. Trotz einiger Einschränkungen machen sein technischer Beitrag und praktischer Wert es zu einem wichtigen Fortschritt im Bereich dialogbasierter Empfehlungssysteme.