2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

Porre Domande di Chiarimento per l'Elicitazione delle Preferenze con Modelli di Linguaggio di Grandi Dimensioni

Informazioni Fondamentali

ID Articolo: 2510.12015
Titolo: Asking Clarifying Questions for Preference Elicitation With Large Language Models
Autori: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
Classificazione: cs.AI
Conferenza di Pubblicazione: GENNEXT@SIGIR'25
Link Articolo: https://arxiv.org/abs/2510.12015

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) consentono ai sistemi di raccomandazione di interagire con gli utenti attraverso interfacce di dialogo aperto. Per personalizzare le risposte degli LLM, specialmente quando la cronologia dell'utente è limitata, è fondamentale acquisire efficacemente le preferenze dell'utente. Questo articolo propone un approccio innovativo per addestrare gli LLM a porre domande di chiarimento sequenziali che rivelano le preferenze dell'utente. Il metodo adotta un processo in due fasi ispirato dai modelli di diffusione: il processo in avanti inizia da un profilo utente e genera domande di chiarimento rimuovendo progressivamente le risposte come "rumore"; il processo inverso addestra il modello a "denoisare" il profilo utente imparando a porre domande di chiarimento efficaci. I risultati sperimentali dimostrano che il metodo migliora significativamente la capacità dell'LLM di porre domande a imbuto e di acquisire efficacemente le preferenze dell'utente.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di raccomandazione si affidano tipicamente alla cronologia delle interazioni dell'utente per apprendere le preferenze, ma affrontano sfide nei seguenti scenari:

Problema dell'Utente Nuovo: Mancanza di una cronologia di interazioni sufficiente
Vincoli di Privacy: Limitazioni nell'utilizzo dei dati della cronologia di interazioni
Incertezza Contestuale: Le preferenze attuali sono influenzate da fattori come l'umore e l'ambiente sociale

Importanza della Ricerca

Con lo sviluppo rapido degli LLM, i sistemi di raccomandazione conversazionali (CRS) diventano possibili, consentendo al sistema di chiarire le esigenze dell'utente e fornire raccomandazioni personalizzate di alta qualità attraverso domande dirette di acquisizione delle preferenze.

Limitazioni dei Metodi Esistenti

Le semplici tecniche di prompt possono guidare l'LLM a porre domande di acquisizione al momento appropriato, ma la generazione di domande di chiarimento sequenziali efficaci tra diversi domini rimane una sfida.

Motivazione della Ricerca

Questo articolo mira a ottimizzare la capacità degli LLM di porre domande di acquisizione di alta qualità, in particolare imparando a porre domande "a imbuto" — iniziando da concetti generali e diventando progressivamente più specifiche con l'avanzare della conversazione.

Contributi Principali

Framework Innovativo: Propone un framework di elicitazione delle preferenze in due fasi ispirato dai modelli di diffusione discreta
Generazione di Domande Sequenziali: Sviluppa un metodo di addestramento in grado di generare domande di chiarimento sequenziali efficaci
Strategia di Dialogo a Imbuto: Implementa una strategia di formulazione di domande che va dal generale allo specifico
Simulatore di Utente: Costruisce un modello simulatore di utente per la valutazione
Miglioramento Significativo delle Prestazioni: Verifica l'efficacia del metodo sul dataset MovieLens

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un profilo utente P, l'obiettivo è ricostruire il profilo utente completo Pₙ da un profilo vuoto P₀ = ∅ attraverso domande sequenziali Q₀, Q₁, ..., Qₙ₋₁ e risposte corrispondenti A₀, A₁, ..., Aₙ₋₁.

Architettura del Modello

1. Processo di Domande e Risposte Sequenziali (SQN)

Utilizza la regola della catena e l'assunzione di indipendenza condizionale:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

Dove ogni probabilità di transizione si decompone in tre componenti:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁): Probabilità del generatore di domande
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): Probabilità del simulatore di utente
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): Funzione di aggiornamento deterministica

2. Processo in Avanti: Corruzione del Profilo

Trasformazione Strutturata: Converte il profilo utente testuale in formato JSON
Ordinamento delle Etichette: Ordina le etichette secondo il grado di generalità
Generazione di Domande a Imbuto: Genera una sequenza di domande dal generale allo specifico
Rimozione Progressiva di Informazioni: Rimuove progressivamente le informazioni corrispondenti secondo l'ordine delle domande

Definizione del profilo utente parziale:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. Processo Inverso: Apprendimento delle Domande

Costruzione dei dati di addestramento:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

Punti di Innovazione Tecnica

Ispirazione dai Modelli di Diffusione: Analogia tra il profilo di preferenza dell'utente e il compito di denoising nei processi di diffusione discreta
Strategia a Imbuto: Garantisce un flusso naturale delle domande dal generale allo specifico attraverso l'ordinamento delle etichette
Addestramento Congiunto: Ottimizza simultaneamente il generatore di domande e il simulatore di utente
Meccanismo di Cronologia delle Domande: Include domande e risposte nell'aggiornamento del profilo, evitando domande ripetute

Configurazione Sperimentale

Dataset

Dataset MovieLens: Ampiamente utilizzato nella ricerca sui sistemi di raccomandazione
Profili Utente: Utilizza profili utente generati da Jeong et al. e Tennenholtz et al., generati da LLM basati sulla cronologia di valutazione completa, verificati come predittivi delle valutazioni degli utenti

Metriche di Valutazione

Punteggio ROUGE: Misura il grado di sovrapposizione tra il profilo generato e il profilo reale
Punteggio BLEU: Valuta la qualità della generazione di testo
Percentuale di Domande Non Risposte: Valuta la rilevanza delle domande

Metodi di Confronto

Modello Gemma non fine-tuned vs modello Gemma fine-tuned
Simulatore di utente Gemini non fine-tuned vs simulatore di utente Gemma fine-tuned

Dettagli di Implementazione

Modello di Base: Gemma 7B (28 strati) come generatore di domande e simulatore di utente
Generazione dei Dati: Gemini 2.0 per la generazione di dati di alta qualità nel processo in avanti
Metodo di Fine-tuning: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
Parametri di Addestramento: Dimensione del batch 64, tasso di apprendimento 0.001
Limite di Domande: Massimo 10 domande o fino al corrispondenza del profilo

Risultati Sperimentali

Risultati Principali

Il fine-tuning ha migliorato significativamente le prestazioni del modello:

Punteggio ROUGE: Miglioramento da 0.4 a 0.68
Punteggio BLEU: Miglioramento da 0.28 a 0.49
Simulatore di Utente: Il simulatore Gemma fine-tuned supera il simulatore Gemini non fine-tuned

Esperimenti di Ablazione

1. Analisi dell'Effetto del Fine-tuning

Il generatore di domande fine-tuned è in grado di porre domande sequenziali più efficaci
Il simulatore di utente fine-tuned è in grado di rispondere alle domande più accuratamente
La percentuale di domande non risposte diminuisce significativamente

2. Effetto del Numero di Domande

Il modello migliore raccoglie informazioni ampie nei primi 5 turni di domande
Nei turni 6-7 passa a domande più specifiche e dettagliate
Riflette una buona strategia di dialogo a imbuto

3. Effetto della Cronologia delle Domande

Nel modello fine-tuned, l'aggiunta della cronologia delle domande migliora le prestazioni
Nel modello non fine-tuned, la cronologia delle domande riduce le prestazioni
La cronologia delle domande aiuta a evitare domande ripetute

4. Impatto dei Passi di Fine-tuning

Più passi di fine-tuning (40.000 passi) portano a prestazioni migliori
Tendenza crescente tra 4.000, 28.000 e 40.000 passi

Analisi dei Casi

Analisi delle Domande a Imbuto

L'analisi mediante ranking ponderato (WR) mostra:

Domande Iniziali: Concetti ampi come Genere, Era Cinematografica, Decennio
Domande Intermedie: Concetti specifici come Registi, Stile Visivo, Tono
Domande Finali: Concetti dettagliati come Effetti Speciali, Umorismo, Atmosfera

Questo verifica che il modello ha imparato la strategia di formulazione di domande dal generale al dettaglio specifico.

Scoperte Sperimentali

Effetto Sinergico: L'ottimizzazione congiunta del generatore di domande e del simulatore di utente produce effetti sinergici
Strategia Sequenziale: La strategia di domande a imbuto è più efficace della formulazione casuale di domande
Utilizzo del Contesto: L'inclusione della cronologia delle domande aiuta a evitare ripetizioni e migliora la qualità del dialogo

Lavori Correlati

Principali Direzioni di Ricerca

Sistemi di Raccomandazione Conversazionali: Tecniche di elicitazione delle preferenze in CRS
Generazione di Domande di Chiarimento: Insegnamento ai modelli di linguaggio a porre domande di chiarimento
Metodi di Ottimizzazione Bayesiana: Framework come l'algoritmo PEBOL per l'acquisizione di preferenze in linguaggio naturale
Ragionamento Attivo sulle Preferenze: Algoritmi che utilizzano LLM e ragionamento probabilistico

Vantaggi di Questo Articolo

Prima applicazione dell'idea dei modelli di diffusione all'elicitazione delle preferenze
Propone una strategia sistematica di generazione di domande a imbuto
Ottimizza simultaneamente due componenti: generazione di domande e simulazione di utente

Conclusioni e Discussione

Conclusioni Principali

Il framework in due fasi ispirato dai modelli di diffusione può addestrare efficacemente gli LLM a porre domande di chiarimento di alta qualità
La strategia di domande a imbuto supera significativamente il metodo di formulazione casuale di domande
L'ottimizzazione congiunta del generatore di domande e del simulatore di utente produce effetti sinergici

Limitazioni

Dipendenza dai Dati: Dipende da dati di profilo utente di alta qualità
Specificità del Dominio: Principalmente verificato nel dominio della raccomandazione di film
Ambiente Simulato: La valutazione si basa principalmente sul simulatore di utente piuttosto che su utenti reali
Costo Computazionale: Richiede risorse computazionali significative per il fine-tuning

Direzioni Future

Estensione a più domini di raccomandazione
Verifica con interazioni di utenti reali
Esplorazione di strategie di addestramento più efficienti
Integrazione di informazioni multimodali

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: Applica ingegnosamente l'idea dei modelli di diffusione ai sistemi conversazionali, con concetti innovativi e ragionevoli
Completezza Tecnica: Fornisce un framework di addestramento completo, inclusa la generazione di dati, l'addestramento del modello e la valutazione
Completezza Sperimentale: Esperimenti di ablazione completi verificano l'efficacia di ogni componente
Valore Pratico: Risolve problemi pratici nei sistemi di raccomandazione, con forte potenziale di applicazione

Insufficienze

Limitazioni della Valutazione: Si affida principalmente all'ambiente simulato, mancando di verifica con interazioni di utenti reali
Limitazioni del Dominio: Verificato solo nel dominio della raccomandazione di film, la capacità di generalizzazione rimane da verificare
Baseline di Confronto: Manca il confronto diretto con altri metodi avanzati di elicitazione delle preferenze
Analisi Teorica: Manca l'analisi approfondita delle proprietà teoriche del metodo

Impatto

Contributo Accademico: Fornisce nuove prospettive di ricerca per i sistemi di raccomandazione conversazionali
Valore Pratico: Può essere direttamente applicato ai sistemi di raccomandazione reali
Riproducibilità: Fornisce dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

Raccomandazione al Freddo: Particolarmente adatto all'elicitazione delle preferenze dei nuovi utenti
Sistemi Conversazionali: Può essere integrato in vari sistemi di raccomandazione conversazionali
Servizi Personalizzati: Adatto a scenari che richiedono una comprensione rapida delle preferenze dell'utente
Interazione Multi-turno: Adatto ad applicazioni che richiedono la raccolta progressiva di informazioni

Riferimenti Bibliografici

L'articolo cita 31 lavori correlati, coprendo molteplici aree rilevanti inclusi sistemi di raccomandazione conversazionali, modelli di linguaggio di grandi dimensioni, modelli di diffusione, elicitazione delle preferenze e altri, fornendo una base teorica solida per questa ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che applica innovativamente l'idea dei modelli di diffusione al problema dell'elicitazione delle preferenze, proponendo una soluzione completa e verificandone l'efficacia attraverso esperimenti. Nonostante alcune limitazioni, il suo contributo tecnico e valore pratico lo rendono un progresso importante nel campo dei sistemi di raccomandazione conversazionali.