2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

Klärende Fragen zur Präferenzermittlung mit großen Sprachmodellen

Grundinformationen

  • Paper-ID: 2510.12015
  • Titel: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • Autoren: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • Klassifizierung: cs.AI
  • Veröffentlichungskonferenz: GENNEXT@SIGIR'25
  • Paper-Link: https://arxiv.org/abs/2510.12015

Zusammenfassung

Große Sprachmodelle (LLMs) ermöglichen es Empfehlungssystemen, über offene Dialogschnittstellen mit Benutzern zu interagieren. Um LLM-Antworten zu personalisieren, insbesondere bei begrenztem Benutzerverlauf, ist eine effektive Erfassung von Benutzerpräferenzen entscheidend. Dieses Paper präsentiert einen neuartigen Ansatz zum Trainieren von LLMs, um sequenzielle Klärungsfragen zu stellen, die Benutzerpräferenzen offenbaren können. Der Ansatz nutzt einen von Diffusionsmodellen inspirierten zweistufigen Prozess: Der Vorwärtsprozess generiert Klärungsfragen ausgehend von einem Benutzerprofil und entfernt schrittweise Antworten als „Rauschen"; der Rückwärtsprozess trainiert das Modell, das Benutzerprofil durch Lernen effektiver Klärungsfragen zu „entrauschen". Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Fähigkeit des LLM zur Formulierung von Trichterfragen und zur effektiven Erfassung von Benutzerpräferenzen erheblich verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Empfehlungssysteme verlassen sich typischerweise auf Benutzerinteraktionsverlauf, um Präferenzen zu erlernen, sehen sich jedoch in folgenden Situationen mit Herausforderungen konfrontiert:

  1. Kaltstart-Problem: Mangel an ausreichendem Interaktionsverlauf
  2. Datenschutzbeschränkungen: Einschränkungen bei der Nutzung von Interaktionsdaten
  3. Kontextunsicherheit: Aktuelle Präferenzen werden durch Stimmung, soziales Umfeld und andere Faktoren beeinflusst

Forschungsbedeutung

Mit der rasanten Entwicklung von LLMs werden dialogbasierte Empfehlungssysteme (CRS) möglich, die durch direkte Präferenzerfassungsfragen Benutzerbedürfnisse klären und hochwertige personalisierte Empfehlungen bereitstellen können.

Einschränkungen bestehender Methoden

Einfache Prompt-Techniken können LLMs anleiten, Erfassungsfragen zum geeigneten Zeitpunkt zu stellen, aber die Generierung effektiver sequenzieller Klärungsfragen über Domänen hinweg bleibt eine Herausforderung.

Forschungsmotivation

Dieses Paper zielt darauf ab, die Fähigkeit von LLMs zur Formulierung hochwertiger Erfassungsfragen zu optimieren, insbesondere zum Erlernen von „Trichterfragen" – beginnend mit allgemeinen Konzepten und werdend mit dem Fortschreiten des Dialogs schrittweise spezifischer.

Kernbeiträge

  1. Innovativer Rahmen: Präsentation eines von diskreten Diffusionsmodellen inspirierten zweistufigen Präferenzerfassungsrahmens
  2. Sequenzielle Fragegenerierung: Entwicklung einer Trainingsmethode zur Generierung effektiver sequenzieller Klärungsfragen
  3. Trichterdialog-Strategie: Implementierung einer Fragenstrategie vom Allgemeinen zum Spezifischen
  4. Benutzersimulator: Konstruktion eines Benutzersimulators zur Evaluierung
  5. Signifikante Leistungsverbesserung: Validierung der Methodeneffektivität auf dem MovieLens-Datensatz

Methodische Details

Aufgabendefinition

Gegeben ein Benutzerprofil P ist das Ziel, das vollständige Benutzerprofil Pₙ aus dem leeren Profil P₀ = ∅ durch sequenzielle Fragen Q₀, Q₁, ..., Qₙ₋₁ und entsprechende Antworten A₀, A₁, ..., Aₙ₋₁ zu rekonstruieren.

Modellarchitektur

1. Sequenzieller Frage-Antwort-Prozess (SQN)

Verwendung der Kettenregel und bedingter Unabhängigkeitsannahmen:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

wobei jede Übergangwahrscheinlichkeit in drei Komponenten zerlegt wird:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)
  • p_θ(Qᵢ₋₁|Pᵢ₋₁): Fragegenerator-Wahrscheinlichkeit
  • p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): Benutzersimulator-Wahrscheinlichkeit
  • p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): Deterministische Aktualisierungsfunktion

2. Vorwärtsprozess: Profilbeschädigung

  1. Strukturierte Transformation: Umwandlung des Textbenutzerprofils in JSON-Format
  2. Label-Sortierung: Sortierung von Labels nach Allgemeinheitsgrad
  3. Trichterfragegenerierung: Generierung von Fragesequenzen vom Allgemeinen zum Spezifischen
  4. Schrittweise Informationsentfernung: Schrittweise Entfernung entsprechender Informationen nach Fragereihenfolge

Definition des partiellen Benutzerprofils:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Rückwärtsprozess: Fragenlernen

Trainingsdatenkonstruktion:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

Technische Innovationen

  1. Diffusionsmodell-Inspiration: Analogie des Benutzerpräferenzprofils zu einer Entrauschungsaufgabe in diskreten Diffusionsprozessen
  2. Trichterstrategie: Sicherung eines natürlichen Ablaufs von allgemeinen zu spezifischen Fragen durch Label-Sortierung
  3. Gemeinsames Training: Gleichzeitige Optimierung des Fragegenerators und des Benutzersimulators
  4. Fragenverlauf-Mechanismus: Einbeziehung von Fragen und Antworten in die Profilaktualisierung zur Vermeidung wiederholter Fragen

Experimentelle Einrichtung

Datensätze

  • MovieLens-Datensatz: Weit verbreitet in der Empfehlungssystemforschung
  • Benutzerprofile: Verwendung von Profilen, die von Jeong et al. und Tennenholtz et al. generiert wurden, basierend auf vollständiger Bewertungshistorie durch LLM, validiert für Vorhersagekraft von Benutzerbewertungen

Evaluierungsmetriken

  • ROUGE-Score: Messung der Übereinstimmung zwischen generiertem und echtem Profil
  • BLEU-Score: Bewertung der Textgenerierungsqualität
  • Prozentsatz unbeantworteter Fragen: Bewertung der Fragerelevanz

Vergleichsmethoden

  • Nicht feinabgestimmtes Gemma-Modell vs. feinabgestimmtes Gemma-Modell
  • Nicht feinabgestimmter Gemini-Benutzersimulator vs. feinabgestimmter Gemma-Benutzersimulator

Implementierungsdetails

  • Basismodell: Gemma 7B (28 Schichten) als Fragegenerator und Benutzersimulator
  • Datengenerierung: Gemini 2.0 für hochwertige Datengenerierung im Vorwärtsprozess
  • Feinabstimmungsmethode: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • Trainingsparameter: Batch-Größe 64, Lernrate 0.001
  • Fragenbeschränkung: Maximal 10 Fragen oder bis zur Profilübereinstimmung

Experimentelle Ergebnisse

Hauptergebnisse

Feinabstimmung verbesserte die Modellleistung erheblich:

  • ROUGE-Score: Verbesserung von 0,4 auf 0,68
  • BLEU-Score: Verbesserung von 0,28 auf 0,49
  • Benutzersimulator: Feinabgestimmter Gemma-Simulator übertrifft nicht feinabgestimmten Gemini-Simulator

Ablationsstudien

1. Feinabstimmungseffekt-Analyse

  • Feinabgestimmter Fragegenerator stellt effektivere sequenzielle Fragen
  • Feinabgestimmter Benutzersimulator beantwortet Fragen genauer
  • Prozentsatz unbeantworteter Fragen sinkt erheblich

2. Fragenzahl-Effekt

  • Optimales Modell sammelt in den ersten 5 Runden umfassende Informationen
  • In Runden 6-7 Übergang zu spezifischeren und detaillierteren Fragen
  • Demonstriert gute Trichterdialog-Strategie

3. Fragenverlauf-Effekt

  • In feinabgestimmten Modellen verbessert Fragenverlauf die Leistung
  • In nicht feinabgestimmten Modellen verschlechtert Fragenverlauf die Leistung
  • Fragenverlauf hilft bei der Vermeidung wiederholter Fragen

4. Feinabstimmungsschritte-Einfluss

  • Mehr Feinabstimmungsschritte (40.000 Schritte) führen zu besserer Leistung
  • Aufsteigende Tendenz bei 4.000, 28.000 und 40.000 Schritten

Fallstudienanalyse

Trichterfrage-Analyse

Gewichtete Ranking-Analyse (WR) zeigt:

  • Frühe Fragen: Genre, Filmepoche, Jahrzehnt und andere breite Konzepte
  • Mittlere Fragen: Regisseure, visueller Stil, Ton und andere spezifische Konzepte
  • Späte Fragen: Spezialeffekte, Humor, Atmosphäre und andere Detailkonzepte

Dies validiert, dass das Modell eine Fragenstrategie vom breiten Konzept zu Detailebenen erlernt hat.

Experimentelle Erkenntnisse

  1. Synergie-Effekt: Gemeinsame Optimierung von Fragegenerator und Benutzersimulator erzeugt Synergie-Effekte
  2. Sequenzielle Strategie: Trichterfrage-Strategie ist effektiver als zufälliges Fragen
  3. Kontextnutzung: Einbeziehung des Fragenverlaufs hilft bei Vermeidung von Wiederholungen und verbessert Dialogqualität

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Dialogbasierte Empfehlungssysteme: Präferenzerfassungstechniken in CRS
  2. Klärungsfragengenerierung: Unterricht für Sprachmodelle zur Formulierung von Klärungsfragen
  3. Bayesische Optimierungsmethoden: PEBOL-Algorithmen und andere Frameworks für natürlichsprachige Präferenzerfassung
  4. Aktive Präferenzinferenz: Algorithmen mit LLM und probabilistischer Inferenz

Vorteile dieses Papers

  • Erste Anwendung von Diffusionsmodell-Ideen auf Präferenzerfassung
  • Systematische Trichterfrage-Generierungsstrategie
  • Gleichzeitige Optimierung von Fragegenerierung und Benutzersimulation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der von Diffusionsmodellen inspirierte zweistufige Rahmen kann LLMs effektiv trainieren, hochwertige Klärungsfragen zu stellen
  2. Die Trichterfrage-Strategie ist der zufälligen Fragenmethode erheblich überlegen
  3. Gemeinsame Optimierung von Fragegenerator und Benutzersimulator erzeugt Synergie-Effekte

Einschränkungen

  1. Datenabhängigkeit: Abhängigkeit von hochwertigen Benutzerprofildaten
  2. Domänenspezifität: Hauptsächlich im Filmempfehlungsbereich validiert
  3. Simulierte Umgebung: Evaluierung basiert hauptsächlich auf Benutzersimulator statt echten Benutzern
  4. Rechenkosten: Erfordert erhebliche Rechenressourcen für Feinabstimmung

Zukünftige Richtungen

  1. Erweiterung auf weitere Empfehlungsdomänen
  2. Validierung durch Interaktion mit echten Benutzern
  3. Erkundung effizienterer Trainingsstrategien
  4. Integration multimodaler Informationen

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität: Geschickte Anwendung von Diffusionsmodell-Ideen auf Dialogsysteme, konzeptionell neuartig und sinnvoll
  2. Technische Vollständigkeit: Bereitstellung eines vollständigen Trainingsrahmens einschließlich Datengenerierung, Modelltraining und Evaluierung
  3. Experimentelle Umfassendheit: Umfassende Ablationsstudien validieren die Effektivität jeder Komponente
  4. Praktischer Wert: Lösung praktischer Probleme in Empfehlungssystemen mit starkem Anwendungspotenzial

Schwächen

  1. Evaluierungsbeschränkungen: Hauptsächlich auf simulierte Umgebung angewiesen, mangelnde Validierung durch echte Benutzerinteraktion
  2. Domänenbeschränkungen: Nur im Filmempfehlungsbereich validiert, Verallgemeinerungsfähigkeit zu überprüfen
  3. Vergleichsbaselines: Mangel an direktem Vergleich mit anderen fortgeschrittenen Präferenzerfassungsmethoden
  4. Theoretische Analyse: Mangelnde tiefgreifende Analyse der theoretischen Eigenschaften der Methode

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Forschungsideen für dialogbasierte Empfehlungssysteme
  2. Praktischer Wert: Kann direkt in praktischen Empfehlungssystemen angewendet werden
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails erleichtert Reproduktion

Anwendungsszenarien

  1. Kaltstart-Empfehlungen: Besonders geeignet für Präferenzerfassung neuer Benutzer
  2. Dialogsysteme: Kann in verschiedene dialogbasierte Empfehlungssysteme integriert werden
  3. Personalisierte Dienste: Geeignet für Szenarien, die schnelles Verständnis von Benutzerpräferenzen erfordern
  4. Mehrrundeninteraktion: Geeignet für Anwendungen, die progressive Informationserfassung erfordern

Literaturverzeichnis

Das Paper zitiert 31 relevante Arbeiten, die dialogbasierte Empfehlungssysteme, große Sprachmodelle, Diffusionsmodelle, Präferenzerfassung und andere verwandte Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovativ Diffusionsmodell-Ideen auf das Präferenzerfassungsproblem anwendet, eine vollständige Lösung präsentiert und deren Effektivität durch Experimente validiert. Trotz einiger Einschränkungen machen sein technischer Beitrag und praktischer Wert es zu einem wichtigen Fortschritt im Bereich dialogbasierter Empfehlungssysteme.