2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

Klärende Fragen zur Präferenzermittlung mit großen Sprachmodellen

Grundinformationen

Paper-ID: 2510.12015
Titel: Asking Clarifying Questions for Preference Elicitation With Large Language Models
Autoren: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
Klassifizierung: cs.AI
Veröffentlichungskonferenz: GENNEXT@SIGIR'25
Paper-Link: https://arxiv.org/abs/2510.12015

Zusammenfassung

Große Sprachmodelle (LLMs) ermöglichen es Empfehlungssystemen, über offene Dialogschnittstellen mit Benutzern zu interagieren. Um LLM-Antworten zu personalisieren, insbesondere bei begrenztem Benutzerverlauf, ist eine effektive Erfassung von Benutzerpräferenzen entscheidend. Dieses Paper präsentiert einen neuartigen Ansatz zum Trainieren von LLMs, um sequenzielle Klärungsfragen zu stellen, die Benutzerpräferenzen offenbaren können. Der Ansatz nutzt einen von Diffusionsmodellen inspirierten zweistufigen Prozess: Der Vorwärtsprozess generiert Klärungsfragen ausgehend von einem Benutzerprofil und entfernt schrittweise Antworten als „Rauschen"; der Rückwärtsprozess trainiert das Modell, das Benutzerprofil durch Lernen effektiver Klärungsfragen zu „entrauschen". Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Fähigkeit des LLM zur Formulierung von Trichterfragen und zur effektiven Erfassung von Benutzerpräferenzen erheblich verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Empfehlungssysteme verlassen sich typischerweise auf Benutzerinteraktionsverlauf, um Präferenzen zu erlernen, sehen sich jedoch in folgenden Situationen mit Herausforderungen konfrontiert:

Kaltstart-Problem: Mangel an ausreichendem Interaktionsverlauf
Datenschutzbeschränkungen: Einschränkungen bei der Nutzung von Interaktionsdaten
Kontextunsicherheit: Aktuelle Präferenzen werden durch Stimmung, soziales Umfeld und andere Faktoren beeinflusst

Forschungsbedeutung

Mit der rasanten Entwicklung von LLMs werden dialogbasierte Empfehlungssysteme (CRS) möglich, die durch direkte Präferenzerfassungsfragen Benutzerbedürfnisse klären und hochwertige personalisierte Empfehlungen bereitstellen können.

Einschränkungen bestehender Methoden

Einfache Prompt-Techniken können LLMs anleiten, Erfassungsfragen zum geeigneten Zeitpunkt zu stellen, aber die Generierung effektiver sequenzieller Klärungsfragen über Domänen hinweg bleibt eine Herausforderung.

Forschungsmotivation

Dieses Paper zielt darauf ab, die Fähigkeit von LLMs zur Formulierung hochwertiger Erfassungsfragen zu optimieren, insbesondere zum Erlernen von „Trichterfragen" – beginnend mit allgemeinen Konzepten und werdend mit dem Fortschreiten des Dialogs schrittweise spezifischer.

Kernbeiträge

Innovativer Rahmen: Präsentation eines von diskreten Diffusionsmodellen inspirierten zweistufigen Präferenzerfassungsrahmens
Sequenzielle Fragegenerierung: Entwicklung einer Trainingsmethode zur Generierung effektiver sequenzieller Klärungsfragen
Trichterdialog-Strategie: Implementierung einer Fragenstrategie vom Allgemeinen zum Spezifischen
Benutzersimulator: Konstruktion eines Benutzersimulators zur Evaluierung
Signifikante Leistungsverbesserung: Validierung der Methodeneffektivität auf dem MovieLens-Datensatz

Methodische Details

Aufgabendefinition

Gegeben ein Benutzerprofil P ist das Ziel, das vollständige Benutzerprofil Pₙ aus dem leeren Profil P₀ = ∅ durch sequenzielle Fragen Q₀, Q₁, ..., Qₙ₋₁ und entsprechende Antworten A₀, A₁, ..., Aₙ₋₁ zu rekonstruieren.

Modellarchitektur

1. Sequenzieller Frage-Antwort-Prozess (SQN)

Verwendung der Kettenregel und bedingter Unabhängigkeitsannahmen:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

wobei jede Übergangwahrscheinlichkeit in drei Komponenten zerlegt wird:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁): Fragegenerator-Wahrscheinlichkeit
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): Benutzersimulator-Wahrscheinlichkeit
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): Deterministische Aktualisierungsfunktion

2. Vorwärtsprozess: Profilbeschädigung

Strukturierte Transformation: Umwandlung des Textbenutzerprofils in JSON-Format
Label-Sortierung: Sortierung von Labels nach Allgemeinheitsgrad
Trichterfragegenerierung: Generierung von Fragesequenzen vom Allgemeinen zum Spezifischen
Schrittweise Informationsentfernung: Schrittweise Entfernung entsprechender Informationen nach Fragereihenfolge

Definition des partiellen Benutzerprofils:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Rückwärtsprozess: Fragenlernen

Trainingsdatenkonstruktion:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

Technische Innovationen

Diffusionsmodell-Inspiration: Analogie des Benutzerpräferenzprofils zu einer Entrauschungsaufgabe in diskreten Diffusionsprozessen
Trichterstrategie: Sicherung eines natürlichen Ablaufs von allgemeinen zu spezifischen Fragen durch Label-Sortierung
Gemeinsames Training: Gleichzeitige Optimierung des Fragegenerators und des Benutzersimulators
Fragenverlauf-Mechanismus: Einbeziehung von Fragen und Antworten in die Profilaktualisierung zur Vermeidung wiederholter Fragen

Experimentelle Einrichtung

Datensätze

MovieLens-Datensatz: Weit verbreitet in der Empfehlungssystemforschung
Benutzerprofile: Verwendung von Profilen, die von Jeong et al. und Tennenholtz et al. generiert wurden, basierend auf vollständiger Bewertungshistorie durch LLM, validiert für Vorhersagekraft von Benutzerbewertungen

Evaluierungsmetriken

ROUGE-Score: Messung der Übereinstimmung zwischen generiertem und echtem Profil
BLEU-Score: Bewertung der Textgenerierungsqualität
Prozentsatz unbeantworteter Fragen: Bewertung der Fragerelevanz

Vergleichsmethoden

Nicht feinabgestimmtes Gemma-Modell vs. feinabgestimmtes Gemma-Modell
Nicht feinabgestimmter Gemini-Benutzersimulator vs. feinabgestimmter Gemma-Benutzersimulator

Implementierungsdetails

Basismodell: Gemma 7B (28 Schichten) als Fragegenerator und Benutzersimulator
Datengenerierung: Gemini 2.0 für hochwertige Datengenerierung im Vorwärtsprozess
Feinabstimmungsmethode: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
Trainingsparameter: Batch-Größe 64, Lernrate 0.001
Fragenbeschränkung: Maximal 10 Fragen oder bis zur Profilübereinstimmung

Experimentelle Ergebnisse

Hauptergebnisse

Feinabstimmung verbesserte die Modellleistung erheblich:

ROUGE-Score: Verbesserung von 0,4 auf 0,68
BLEU-Score: Verbesserung von 0,28 auf 0,49
Benutzersimulator: Feinabgestimmter Gemma-Simulator übertrifft nicht feinabgestimmten Gemini-Simulator

Ablationsstudien

1. Feinabstimmungseffekt-Analyse

Feinabgestimmter Fragegenerator stellt effektivere sequenzielle Fragen
Feinabgestimmter Benutzersimulator beantwortet Fragen genauer
Prozentsatz unbeantworteter Fragen sinkt erheblich

2. Fragenzahl-Effekt

Optimales Modell sammelt in den ersten 5 Runden umfassende Informationen
In Runden 6-7 Übergang zu spezifischeren und detaillierteren Fragen
Demonstriert gute Trichterdialog-Strategie

3. Fragenverlauf-Effekt

In feinabgestimmten Modellen verbessert Fragenverlauf die Leistung
In nicht feinabgestimmten Modellen verschlechtert Fragenverlauf die Leistung
Fragenverlauf hilft bei der Vermeidung wiederholter Fragen

4. Feinabstimmungsschritte-Einfluss

Mehr Feinabstimmungsschritte (40.000 Schritte) führen zu besserer Leistung
Aufsteigende Tendenz bei 4.000, 28.000 und 40.000 Schritten

Fallstudienanalyse

Trichterfrage-Analyse

Gewichtete Ranking-Analyse (WR) zeigt:

Frühe Fragen: Genre, Filmepoche, Jahrzehnt und andere breite Konzepte
Mittlere Fragen: Regisseure, visueller Stil, Ton und andere spezifische Konzepte
Späte Fragen: Spezialeffekte, Humor, Atmosphäre und andere Detailkonzepte

Dies validiert, dass das Modell eine Fragenstrategie vom breiten Konzept zu Detailebenen erlernt hat.

Experimentelle Erkenntnisse

Synergie-Effekt: Gemeinsame Optimierung von Fragegenerator und Benutzersimulator erzeugt Synergie-Effekte
Sequenzielle Strategie: Trichterfrage-Strategie ist effektiver als zufälliges Fragen
Kontextnutzung: Einbeziehung des Fragenverlaufs hilft bei Vermeidung von Wiederholungen und verbessert Dialogqualität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Der von Diffusionsmodellen inspirierte zweistufige Rahmen kann LLMs effektiv trainieren, hochwertige Klärungsfragen zu stellen
Die Trichterfrage-Strategie ist der zufälligen Fragenmethode erheblich überlegen
Gemeinsame Optimierung von Fragegenerator und Benutzersimulator erzeugt Synergie-Effekte

Einschränkungen

Datenabhängigkeit: Abhängigkeit von hochwertigen Benutzerprofildaten
Domänenspezifität: Hauptsächlich im Filmempfehlungsbereich validiert
Simulierte Umgebung: Evaluierung basiert hauptsächlich auf Benutzersimulator statt echten Benutzern
Rechenkosten: Erfordert erhebliche Rechenressourcen für Feinabstimmung

Zukünftige Richtungen

Erweiterung auf weitere Empfehlungsdomänen
Validierung durch Interaktion mit echten Benutzern
Erkundung effizienterer Trainingsstrategien
Integration multimodaler Informationen

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Geschickte Anwendung von Diffusionsmodell-Ideen auf Dialogsysteme, konzeptionell neuartig und sinnvoll
Technische Vollständigkeit: Bereitstellung eines vollständigen Trainingsrahmens einschließlich Datengenerierung, Modelltraining und Evaluierung
Experimentelle Umfassendheit: Umfassende Ablationsstudien validieren die Effektivität jeder Komponente
Praktischer Wert: Lösung praktischer Probleme in Empfehlungssystemen mit starkem Anwendungspotenzial

Schwächen

Evaluierungsbeschränkungen: Hauptsächlich auf simulierte Umgebung angewiesen, mangelnde Validierung durch echte Benutzerinteraktion
Domänenbeschränkungen: Nur im Filmempfehlungsbereich validiert, Verallgemeinerungsfähigkeit zu überprüfen
Vergleichsbaselines: Mangel an direktem Vergleich mit anderen fortgeschrittenen Präferenzerfassungsmethoden
Theoretische Analyse: Mangelnde tiefgreifende Analyse der theoretischen Eigenschaften der Methode

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Forschungsideen für dialogbasierte Empfehlungssysteme
Praktischer Wert: Kann direkt in praktischen Empfehlungssystemen angewendet werden
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails erleichtert Reproduktion

Anwendungsszenarien

Kaltstart-Empfehlungen: Besonders geeignet für Präferenzerfassung neuer Benutzer
Dialogsysteme: Kann in verschiedene dialogbasierte Empfehlungssysteme integriert werden
Personalisierte Dienste: Geeignet für Szenarien, die schnelles Verständnis von Benutzerpräferenzen erfordern
Mehrrundeninteraktion: Geeignet für Anwendungen, die progressive Informationserfassung erfordern

Literaturverzeichnis

Das Paper zitiert 31 relevante Arbeiten, die dialogbasierte Empfehlungssysteme, große Sprachmodelle, Diffusionsmodelle, Präferenzerfassung und andere verwandte Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovativ Diffusionsmodell-Ideen auf das Präferenzerfassungsproblem anwendet, eine vollständige Lösung präsentiert und deren Effektivität durch Experimente validiert. Trotz einiger Einschränkungen machen sein technischer Beitrag und praktischer Wert es zu einem wichtigen Fortschritt im Bereich dialogbasierter Empfehlungssysteme.