Asking Clarifying Questions for Preference Elicitation With Large Language Models
Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic
Porre Domande di Chiarimento per l'Elicitazione delle Preferenze con Modelli di Linguaggio di Grandi Dimensioni
I modelli di linguaggio di grandi dimensioni (LLM) consentono ai sistemi di raccomandazione di interagire con gli utenti attraverso interfacce di dialogo aperto. Per personalizzare le risposte degli LLM, specialmente quando la cronologia dell'utente è limitata, è fondamentale acquisire efficacemente le preferenze dell'utente. Questo articolo propone un approccio innovativo per addestrare gli LLM a porre domande di chiarimento sequenziali che rivelano le preferenze dell'utente. Il metodo adotta un processo in due fasi ispirato dai modelli di diffusione: il processo in avanti inizia da un profilo utente e genera domande di chiarimento rimuovendo progressivamente le risposte come "rumore"; il processo inverso addestra il modello a "denoisare" il profilo utente imparando a porre domande di chiarimento efficaci. I risultati sperimentali dimostrano che il metodo migliora significativamente la capacità dell'LLM di porre domande a imbuto e di acquisire efficacemente le preferenze dell'utente.
I sistemi di raccomandazione si affidano tipicamente alla cronologia delle interazioni dell'utente per apprendere le preferenze, ma affrontano sfide nei seguenti scenari:
Problema dell'Utente Nuovo: Mancanza di una cronologia di interazioni sufficiente
Vincoli di Privacy: Limitazioni nell'utilizzo dei dati della cronologia di interazioni
Incertezza Contestuale: Le preferenze attuali sono influenzate da fattori come l'umore e l'ambiente sociale
Con lo sviluppo rapido degli LLM, i sistemi di raccomandazione conversazionali (CRS) diventano possibili, consentendo al sistema di chiarire le esigenze dell'utente e fornire raccomandazioni personalizzate di alta qualità attraverso domande dirette di acquisizione delle preferenze.
Le semplici tecniche di prompt possono guidare l'LLM a porre domande di acquisizione al momento appropriato, ma la generazione di domande di chiarimento sequenziali efficaci tra diversi domini rimane una sfida.
Questo articolo mira a ottimizzare la capacità degli LLM di porre domande di acquisizione di alta qualità, in particolare imparando a porre domande "a imbuto" — iniziando da concetti generali e diventando progressivamente più specifiche con l'avanzare della conversazione.
Dato un profilo utente P, l'obiettivo è ricostruire il profilo utente completo Pₙ da un profilo vuoto P₀ = ∅ attraverso domande sequenziali Q₀, Q₁, ..., Qₙ₋₁ e risposte corrispondenti A₀, A₁, ..., Aₙ₋₁.
Dataset MovieLens: Ampiamente utilizzato nella ricerca sui sistemi di raccomandazione
Profili Utente: Utilizza profili utente generati da Jeong et al. e Tennenholtz et al., generati da LLM basati sulla cronologia di valutazione completa, verificati come predittivi delle valutazioni degli utenti
L'articolo cita 31 lavori correlati, coprendo molteplici aree rilevanti inclusi sistemi di raccomandazione conversazionali, modelli di linguaggio di grandi dimensioni, modelli di diffusione, elicitazione delle preferenze e altri, fornendo una base teorica solida per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che applica innovativamente l'idea dei modelli di diffusione al problema dell'elicitazione delle preferenze, proponendo una soluzione completa e verificandone l'efficacia attraverso esperimenti. Nonostante alcune limitazioni, il suo contributo tecnico e valore pratico lo rendono un progresso importante nel campo dei sistemi di raccomandazione conversazionali.