2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

Porre Domande di Chiarimento per l'Elicitazione delle Preferenze con Modelli di Linguaggio di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2510.12015
  • Titolo: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • Autori: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • Classificazione: cs.AI
  • Conferenza di Pubblicazione: GENNEXT@SIGIR'25
  • Link Articolo: https://arxiv.org/abs/2510.12015

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) consentono ai sistemi di raccomandazione di interagire con gli utenti attraverso interfacce di dialogo aperto. Per personalizzare le risposte degli LLM, specialmente quando la cronologia dell'utente è limitata, è fondamentale acquisire efficacemente le preferenze dell'utente. Questo articolo propone un approccio innovativo per addestrare gli LLM a porre domande di chiarimento sequenziali che rivelano le preferenze dell'utente. Il metodo adotta un processo in due fasi ispirato dai modelli di diffusione: il processo in avanti inizia da un profilo utente e genera domande di chiarimento rimuovendo progressivamente le risposte come "rumore"; il processo inverso addestra il modello a "denoisare" il profilo utente imparando a porre domande di chiarimento efficaci. I risultati sperimentali dimostrano che il metodo migliora significativamente la capacità dell'LLM di porre domande a imbuto e di acquisire efficacemente le preferenze dell'utente.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di raccomandazione si affidano tipicamente alla cronologia delle interazioni dell'utente per apprendere le preferenze, ma affrontano sfide nei seguenti scenari:

  1. Problema dell'Utente Nuovo: Mancanza di una cronologia di interazioni sufficiente
  2. Vincoli di Privacy: Limitazioni nell'utilizzo dei dati della cronologia di interazioni
  3. Incertezza Contestuale: Le preferenze attuali sono influenzate da fattori come l'umore e l'ambiente sociale

Importanza della Ricerca

Con lo sviluppo rapido degli LLM, i sistemi di raccomandazione conversazionali (CRS) diventano possibili, consentendo al sistema di chiarire le esigenze dell'utente e fornire raccomandazioni personalizzate di alta qualità attraverso domande dirette di acquisizione delle preferenze.

Limitazioni dei Metodi Esistenti

Le semplici tecniche di prompt possono guidare l'LLM a porre domande di acquisizione al momento appropriato, ma la generazione di domande di chiarimento sequenziali efficaci tra diversi domini rimane una sfida.

Motivazione della Ricerca

Questo articolo mira a ottimizzare la capacità degli LLM di porre domande di acquisizione di alta qualità, in particolare imparando a porre domande "a imbuto" — iniziando da concetti generali e diventando progressivamente più specifiche con l'avanzare della conversazione.

Contributi Principali

  1. Framework Innovativo: Propone un framework di elicitazione delle preferenze in due fasi ispirato dai modelli di diffusione discreta
  2. Generazione di Domande Sequenziali: Sviluppa un metodo di addestramento in grado di generare domande di chiarimento sequenziali efficaci
  3. Strategia di Dialogo a Imbuto: Implementa una strategia di formulazione di domande che va dal generale allo specifico
  4. Simulatore di Utente: Costruisce un modello simulatore di utente per la valutazione
  5. Miglioramento Significativo delle Prestazioni: Verifica l'efficacia del metodo sul dataset MovieLens

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un profilo utente P, l'obiettivo è ricostruire il profilo utente completo Pₙ da un profilo vuoto P₀ = ∅ attraverso domande sequenziali Q₀, Q₁, ..., Qₙ₋₁ e risposte corrispondenti A₀, A₁, ..., Aₙ₋₁.

Architettura del Modello

1. Processo di Domande e Risposte Sequenziali (SQN)

Utilizza la regola della catena e l'assunzione di indipendenza condizionale:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

Dove ogni probabilità di transizione si decompone in tre componenti:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)
  • p_θ(Qᵢ₋₁|Pᵢ₋₁): Probabilità del generatore di domande
  • p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): Probabilità del simulatore di utente
  • p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): Funzione di aggiornamento deterministica

2. Processo in Avanti: Corruzione del Profilo

  1. Trasformazione Strutturata: Converte il profilo utente testuale in formato JSON
  2. Ordinamento delle Etichette: Ordina le etichette secondo il grado di generalità
  3. Generazione di Domande a Imbuto: Genera una sequenza di domande dal generale allo specifico
  4. Rimozione Progressiva di Informazioni: Rimuove progressivamente le informazioni corrispondenti secondo l'ordine delle domande

Definizione del profilo utente parziale:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Processo Inverso: Apprendimento delle Domande

Costruzione dei dati di addestramento:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

Punti di Innovazione Tecnica

  1. Ispirazione dai Modelli di Diffusione: Analogia tra il profilo di preferenza dell'utente e il compito di denoising nei processi di diffusione discreta
  2. Strategia a Imbuto: Garantisce un flusso naturale delle domande dal generale allo specifico attraverso l'ordinamento delle etichette
  3. Addestramento Congiunto: Ottimizza simultaneamente il generatore di domande e il simulatore di utente
  4. Meccanismo di Cronologia delle Domande: Include domande e risposte nell'aggiornamento del profilo, evitando domande ripetute

Configurazione Sperimentale

Dataset

  • Dataset MovieLens: Ampiamente utilizzato nella ricerca sui sistemi di raccomandazione
  • Profili Utente: Utilizza profili utente generati da Jeong et al. e Tennenholtz et al., generati da LLM basati sulla cronologia di valutazione completa, verificati come predittivi delle valutazioni degli utenti

Metriche di Valutazione

  • Punteggio ROUGE: Misura il grado di sovrapposizione tra il profilo generato e il profilo reale
  • Punteggio BLEU: Valuta la qualità della generazione di testo
  • Percentuale di Domande Non Risposte: Valuta la rilevanza delle domande

Metodi di Confronto

  • Modello Gemma non fine-tuned vs modello Gemma fine-tuned
  • Simulatore di utente Gemini non fine-tuned vs simulatore di utente Gemma fine-tuned

Dettagli di Implementazione

  • Modello di Base: Gemma 7B (28 strati) come generatore di domande e simulatore di utente
  • Generazione dei Dati: Gemini 2.0 per la generazione di dati di alta qualità nel processo in avanti
  • Metodo di Fine-tuning: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • Parametri di Addestramento: Dimensione del batch 64, tasso di apprendimento 0.001
  • Limite di Domande: Massimo 10 domande o fino al corrispondenza del profilo

Risultati Sperimentali

Risultati Principali

Il fine-tuning ha migliorato significativamente le prestazioni del modello:

  • Punteggio ROUGE: Miglioramento da 0.4 a 0.68
  • Punteggio BLEU: Miglioramento da 0.28 a 0.49
  • Simulatore di Utente: Il simulatore Gemma fine-tuned supera il simulatore Gemini non fine-tuned

Esperimenti di Ablazione

1. Analisi dell'Effetto del Fine-tuning

  • Il generatore di domande fine-tuned è in grado di porre domande sequenziali più efficaci
  • Il simulatore di utente fine-tuned è in grado di rispondere alle domande più accuratamente
  • La percentuale di domande non risposte diminuisce significativamente

2. Effetto del Numero di Domande

  • Il modello migliore raccoglie informazioni ampie nei primi 5 turni di domande
  • Nei turni 6-7 passa a domande più specifiche e dettagliate
  • Riflette una buona strategia di dialogo a imbuto

3. Effetto della Cronologia delle Domande

  • Nel modello fine-tuned, l'aggiunta della cronologia delle domande migliora le prestazioni
  • Nel modello non fine-tuned, la cronologia delle domande riduce le prestazioni
  • La cronologia delle domande aiuta a evitare domande ripetute

4. Impatto dei Passi di Fine-tuning

  • Più passi di fine-tuning (40.000 passi) portano a prestazioni migliori
  • Tendenza crescente tra 4.000, 28.000 e 40.000 passi

Analisi dei Casi

Analisi delle Domande a Imbuto

L'analisi mediante ranking ponderato (WR) mostra:

  • Domande Iniziali: Concetti ampi come Genere, Era Cinematografica, Decennio
  • Domande Intermedie: Concetti specifici come Registi, Stile Visivo, Tono
  • Domande Finali: Concetti dettagliati come Effetti Speciali, Umorismo, Atmosfera

Questo verifica che il modello ha imparato la strategia di formulazione di domande dal generale al dettaglio specifico.

Scoperte Sperimentali

  1. Effetto Sinergico: L'ottimizzazione congiunta del generatore di domande e del simulatore di utente produce effetti sinergici
  2. Strategia Sequenziale: La strategia di domande a imbuto è più efficace della formulazione casuale di domande
  3. Utilizzo del Contesto: L'inclusione della cronologia delle domande aiuta a evitare ripetizioni e migliora la qualità del dialogo

Lavori Correlati

Principali Direzioni di Ricerca

  1. Sistemi di Raccomandazione Conversazionali: Tecniche di elicitazione delle preferenze in CRS
  2. Generazione di Domande di Chiarimento: Insegnamento ai modelli di linguaggio a porre domande di chiarimento
  3. Metodi di Ottimizzazione Bayesiana: Framework come l'algoritmo PEBOL per l'acquisizione di preferenze in linguaggio naturale
  4. Ragionamento Attivo sulle Preferenze: Algoritmi che utilizzano LLM e ragionamento probabilistico

Vantaggi di Questo Articolo

  • Prima applicazione dell'idea dei modelli di diffusione all'elicitazione delle preferenze
  • Propone una strategia sistematica di generazione di domande a imbuto
  • Ottimizza simultaneamente due componenti: generazione di domande e simulazione di utente

Conclusioni e Discussione

Conclusioni Principali

  1. Il framework in due fasi ispirato dai modelli di diffusione può addestrare efficacemente gli LLM a porre domande di chiarimento di alta qualità
  2. La strategia di domande a imbuto supera significativamente il metodo di formulazione casuale di domande
  3. L'ottimizzazione congiunta del generatore di domande e del simulatore di utente produce effetti sinergici

Limitazioni

  1. Dipendenza dai Dati: Dipende da dati di profilo utente di alta qualità
  2. Specificità del Dominio: Principalmente verificato nel dominio della raccomandazione di film
  3. Ambiente Simulato: La valutazione si basa principalmente sul simulatore di utente piuttosto che su utenti reali
  4. Costo Computazionale: Richiede risorse computazionali significative per il fine-tuning

Direzioni Future

  1. Estensione a più domini di raccomandazione
  2. Verifica con interazioni di utenti reali
  3. Esplorazione di strategie di addestramento più efficienti
  4. Integrazione di informazioni multimodali

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Metodo: Applica ingegnosamente l'idea dei modelli di diffusione ai sistemi conversazionali, con concetti innovativi e ragionevoli
  2. Completezza Tecnica: Fornisce un framework di addestramento completo, inclusa la generazione di dati, l'addestramento del modello e la valutazione
  3. Completezza Sperimentale: Esperimenti di ablazione completi verificano l'efficacia di ogni componente
  4. Valore Pratico: Risolve problemi pratici nei sistemi di raccomandazione, con forte potenziale di applicazione

Insufficienze

  1. Limitazioni della Valutazione: Si affida principalmente all'ambiente simulato, mancando di verifica con interazioni di utenti reali
  2. Limitazioni del Dominio: Verificato solo nel dominio della raccomandazione di film, la capacità di generalizzazione rimane da verificare
  3. Baseline di Confronto: Manca il confronto diretto con altri metodi avanzati di elicitazione delle preferenze
  4. Analisi Teorica: Manca l'analisi approfondita delle proprietà teoriche del metodo

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive di ricerca per i sistemi di raccomandazione conversazionali
  2. Valore Pratico: Può essere direttamente applicato ai sistemi di raccomandazione reali
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

  1. Raccomandazione al Freddo: Particolarmente adatto all'elicitazione delle preferenze dei nuovi utenti
  2. Sistemi Conversazionali: Può essere integrato in vari sistemi di raccomandazione conversazionali
  3. Servizi Personalizzati: Adatto a scenari che richiedono una comprensione rapida delle preferenze dell'utente
  4. Interazione Multi-turno: Adatto ad applicazioni che richiedono la raccolta progressiva di informazioni

Riferimenti Bibliografici

L'articolo cita 31 lavori correlati, coprendo molteplici aree rilevanti inclusi sistemi di raccomandazione conversazionali, modelli di linguaggio di grandi dimensioni, modelli di diffusione, elicitazione delle preferenze e altri, fornendo una base teorica solida per questa ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che applica innovativamente l'idea dei modelli di diffusione al problema dell'elicitazione delle preferenze, proponendo una soluzione completa e verificandone l'efficacia attraverso esperimenti. Nonostante alcune limitazioni, il suo contributo tecnico e valore pratico lo rendono un progresso importante nel campo dei sistemi di raccomandazione conversazionali.