2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

बड़े भाषा मॉडल के साथप्राथमिकता निष्कर्षण के लिए स्पष्टीकरण प्रश्न पूछना

मूल जानकारी

पेपर ID: 2510.12015
शीर्षक: Asking Clarifying Questions for Preference Elicitation With Large Language Models
लेखक: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
वर्गीकरण: cs.AI
प्रकाशन सम्मेलन: GENNEXT@SIGIR'25
पेपर लिंक: https://arxiv.org/abs/2510.12015

सारांश

बड़े भाषा मॉडल (LLMs) सिफारिश प्रणालियों को खुली-अंत वाली संवाद इंटरफेस के माध्यम से उपयोगकर्ताओं के साथ बातचीत करने में सक्षम बनाते हैं। LLM प्रतिक्रियाओं को व्यक्तिगत बनाने के लिए, विशेष रूप से सीमित उपयोगकर्ता इतिहास के मामलों में, प्रभावी उपयोगकर्ता प्राथमिकता अधिग्रहण महत्वपूर्ण है। यह पेपर LLMs को अनुक्रमित स्पष्टीकरण प्रश्न पूछने के लिए प्रशिक्षित करने के लिए एक नवीन दृष्टिकोण प्रस्तावित करता है जो उपयोगकर्ता प्राथमिकताओं को प्रकट कर सकते हैं। यह विधि विसरण मॉडल से प्रेरित एक दो-चरणीय प्रक्रिया अपनाती है: अग्रगामी प्रक्रिया उपयोगकर्ता प्रोफ़ाइल से शुरू करके स्पष्टीकरण प्रश्न उत्पन्न करती है और उत्तरों को "शोर" के रूप में क्रमिक रूप से हटाती है; पश्चगामी प्रक्रिया प्रभावी स्पष्टीकरण प्रश्न पूछने के माध्यम से उपयोगकर्ता प्रोफ़ाइल को "डीनॉइज़" करने के लिए मॉडल को प्रशिक्षित करती है। प्रायोगिक परिणाम दर्शाते हैं कि यह विधि漏斗-शैली प्रश्न पूछने और प्रभावी उपयोगकर्ता प्राथमिकता अधिग्रहण में LLM की क्षमता में काफी सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सिफारिश प्रणालियां आमतौर पर प्राथमिकताएं सीखने के लिए उपयोगकर्ता इतिहास इंटरैक्शन पर निर्भर करती हैं, लेकिन निम्नलिखित परिस्थितियों में चुनौतियों का सामना करती हैं:

नए उपयोगकर्ता समस्या: पर्याप्त इंटरैक्शन इतिहास की कमी
गोपनीयता बाधाएं: ऐतिहासिक इंटरैक्शन डेटा के उपयोग को सीमित करना
संदर्भ अनिश्चितता: वर्तमान प्राथमिकताएं मनोदशा, सामाजिक वातावरण आदि कारकों से प्रभावित होती हैं

अनुसंधान का महत्व

LLMs के तीव्र विकास के साथ, संवादी सिफारिश प्रणालियां (CRS) संभव हो गई हैं, जहां सीधे प्राथमिकता अधिग्रहण प्रश्नों के माध्यम से, सिस्टम उपयोगकर्ता आवश्यकताओं को स्पष्ट कर सकता है और उच्च-गुणवत्ता वाली व्यक्तिगत सिफारिशें प्रदान कर सकता है।

मौजूदा विधियों की सीमाएं

सरल प्रॉम्पटिंग तकनीकें LLM को उपयुक्त समय पर अधिग्रहण प्रश्न पूछने के लिए निर्देशित कर सकती हैं, लेकिन डोमेन भर में प्रभावी अनुक्रमित स्पष्टीकरण प्रश्न उत्पन्न करना अभी भी एक चुनौती है।

अनुसंधान प्रेरणा

यह पेपर उच्च-गुणवत्ता वाले अधिग्रहण प्रश्न पूछने में LLMs की क्षमता को अनुकूलित करने का लक्ष्य रखता है, विशेष रूप से "漏斗-शैली" प्रश्न पूछने के लिए—सामान्य अवधारणाओं से शुरू करके, संवाद के साथ क्रमिक रूप से अधिक विशिष्ट हो जाते हैं।

मुख्य योगदान

नवीन ढांचा: असतत विसरण मॉडल से प्रेरित दो-चरणीय प्राथमिकता अधिग्रहण ढांचा प्रस्तावित करना
अनुक्रमित प्रश्न पीढ़ी: प्रभावी अनुक्रमित स्पष्टीकरण प्रश्न उत्पन्न करने के लिए प्रशिक्षण विधि विकसित करना
漏斗-शैली संवाद रणनीति: सामान्य से विशिष्ट प्रश्न पूछने की रणनीति को लागू करना
उपयोगकर्ता सिम्युलेटर: मूल्यांकन के लिए उपयोगकर्ता सिम्युलेटर मॉडल का निर्माण
महत्वपूर्ण प्रदर्शन सुधार: MovieLens डेटासेट पर विधि की प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

उपयोगकर्ता प्रोफ़ाइल P दिए गए, लक्ष्य अनुक्रमित प्रश्नों Q₀, Q₁, ..., Qₙ₋₁ और संबंधित उत्तरों A₀, A₁, ..., Aₙ₋₁ के माध्यम से खाली प्रोफ़ाइल P₀ = ∅ से पूर्ण उपयोगकर्ता प्रोफ़ाइल Pₙ का पुनर्निर्माण करना है।

मॉडल आर्किटेक्चर

1. अनुक्रमित प्रश्नोत्तर प्रक्रिया (SQN)

श्रृंखला नियम और सशर्त स्वतंत्रता धारणा का उपयोग करना:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

जहां प्रत्येक संक्रमण संभावना तीन घटकों में विभाजित होती है:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁): प्रश्न जनरेटर संभावना
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): उपयोगकर्ता सिम्युलेटर संभावना
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): नियतात्मक अपडेट फ़ंक्शन

2. अग्रगामी प्रक्रिया: प्रोफ़ाइल क्षति

संरचित रूपांतरण: पाठ उपयोगकर्ता प्रोफ़ाइल को JSON प्रारूप में परिवर्तित करना
लेबल क्रमबद्धता: सामान्यता की डिग्री के अनुसार लेबल को क्रमबद्ध करना
漏斗-शैली प्रश्न पीढ़ी: सामान्य से विशिष्ट प्रश्नों का अनुक्रम उत्पन्न करना
क्रमिक सूचना हटाना: प्रश्न क्रम के अनुसार संबंधित जानकारी को क्रमिक रूप से हटाना

आंशिक उपयोगकर्ता प्रोफ़ाइल परिभाषा:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. पश्चगामी प्रक्रिया: प्रश्न सीखना

प्रशिक्षण डेटा निर्माण:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

तकनीकी नवाचार बिंदु

विसरण मॉडल प्रेरणा: उपयोगकर्ता प्राथमिकता प्रोफ़ाइल को असतत विसरण प्रक्रिया में डीनॉइज़िंग कार्य के रूप में सादृश्य देना
漏斗-शैली रणनीति: लेबल क्रमबद्धता के माध्यम से सामान्य से विशिष्ट प्रश्नों के प्राकृतिक प्रवाह को सुनिश्चित करना
संयुक्त प्रशिक्षण: प्रश्न जनरेटर और उपयोगकर्ता सिम्युलेटर दोनों को एक साथ अनुकूलित करना
प्रश्न इतिहास तंत्र: प्रोफ़ाइल अपडेट में प्रश्न और उत्तर शामिल करना, दोहराए गए प्रश्नों से बचना

प्रायोगिक सेटअप

डेटासेट

MovieLens डेटासेट: सिफारिश प्रणाली अनुसंधान में व्यापक रूप से उपयोग किया जाता है
उपयोगकर्ता प्रोफ़ाइल: Jeong आदि और Tennenholtz आदि द्वारा उत्पन्न उपयोगकर्ता प्रोफ़ाइल का उपयोग, जो पूर्ण रेटिंग इतिहास के आधार पर LLM द्वारा उत्पन्न होते हैं, उपयोगकर्ता रेटिंग के लिए भविष्यसूचक सत्यापित हैं

मूल्यांकन मेट्रिक्स

ROUGE स्कोर: उत्पन्न प्रोफ़ाइल और वास्तविक प्रोफ़ाइल के ओवरलैप को मापना
BLEU स्कोर: पाठ पीढ़ी गुणवत्ता का मूल्यांकन करना
अनुत्तरित प्रश्न प्रतिशत: प्रश्न प्रासंगिकता का मूल्यांकन करना

तुलनात्मक विधियां

गैर-미세-ट्यून किए गए Gemma मॉडल बनाम미세-ट्यून किए गए Gemma मॉडल
गैर-미세-ट्यून किए गए Gemini उपयोगकर्ता सिम्युलेटर बनाम미세-ट्यून किए गए Gemma उपयोगकर्ता सिम्युलेटर

कार्यान्वयन विवरण

आधार मॉडल: Gemma 7B (28 परतें) प्रश्न जनरेटर और उपयोगकर्ता सिम्युलेटर के रूप में
डेटा पीढ़ी: अग्रगामी प्रक्रिया के उच्च-गुणवत्ता डेटा पीढ़ी के लिए Gemini 2.0
미세-ट्यूनिंग विधि: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
प्रशिक्षण पैरामीटर: बैच आकार 64, सीखने की दर 0.001
प्रश्न सीमा: अधिकतम 10 प्रश्न या जब तक प्रोफ़ाइल मेल न खाए

प्रायोगिक परिणाम

मुख्य परिणाम

미세-ट्यूनिंग ने मॉडल प्रदर्शन में काफी सुधार किया:

ROUGE स्कोर: 0.4 से 0.68 तक
BLEU स्कोर: 0.28 से 0.49 तक
उपयोगकर्ता सिम्युलेटर:미세-ट्यून किया गया Gemma सिम्युलेटर गैर-미세-ट्यून किए गए Gemini सिम्युलेटर से बेहतर है

विलोपन प्रयोग

1. मिनट-ट्यूनिंग प्रभाव विश्लेषण

मिनट-ट्यून किया गया प्रश्न जनरेटर अधिक प्रभावी अनुक्रमित प्रश्न पूछ सकता है
मिनट-ट्यून किया गया उपयोगकर्ता सिम्युलेटर प्रश्नों का अधिक सटीक उत्तर दे सकता है
अनुत्तरित प्रश्नों का प्रतिशत काफी कम हो गया

2. प्रश्न संख्या प्रभाव

सर्वोत्तम मॉडल पहले 5 दौर में व्यापक जानकारी एकत्र करता है
6-7 दौर में अधिक विशिष्ट और विस्तृत प्रश्नों की ओर मुड़ता है
अच्छी漏斗-शैली संवाद रणनीति को दर्शाता है

3. प्रश्न इतिहास प्रभाव

मिनट-ट्यून किए गए मॉडल में, प्रश्न इतिहास जोड़ने से प्रदर्शन में सुधार होता है
गैर-मिनट-ट्यून किए गए मॉडल में, प्रश्न इतिहास प्रदर्शन को कम करता है
प्रश्न इतिहास दोहराए गए प्रश्नों से बचने में मदद करता है

4. मिनट-ट्यूनिंग चरण प्रभाव

अधिक मिनट-ट्यूनिंग चरण (40,000 चरण) बेहतर प्रदर्शन लाते हैं
4,000 चरण, 28,000 चरण, 40,000 चरण एक वृद्धिशील प्रवृत्ति दिखाते हैं

केस विश्लेषण

漏斗-शैली प्रश्न विश्लेषण

भारित रैंकिंग (WR) विश्लेषण दिखाता है:

प्रारंभिक प्रश्न: Genre, Film Era, Decade आदि व्यापक अवधारणाएं
मध्य प्रश्न: Directors, Visual Style, Tone आदि विशिष्ट अवधारणाएं
बाद के प्रश्न: Special Effects, Humor, Atmosphere आदि विस्तृत अवधारणाएं

यह सत्यापित करता है कि मॉडल ने व्यापक अवधारणाओं से विशिष्ट विवरणों तक प्रश्न पूछने की रणनीति सीखी है।

प्रायोगिक निष्कर्ष

सहक्रिया प्रभाव: प्रश्न जनरेटर और उपयोगकर्ता सिम्युलेटर का संयुक्त अनुकूलन सहक्रिया प्रभाव उत्पन्न करता है
अनुक्रमित रणनीति: 漏斗-शैली प्रश्न रणनीति यादृच्छिक प्रश्नों से अधिक प्रभावी है
संदर्भ उपयोग: प्रश्न इतिहास शामिल करने से दोहराव से बचने और संवाद गुणवत्ता में सुधार करने में मदद मिलती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विसरण मॉडल-प्रेरित दो-चरणीय ढांचा LLM को उच्च-गुणवत्ता वाले स्पष्टीकरण प्रश्न पूछने के लिए प्रभावी रूप से प्रशिक्षित कर सकता है
漏斗-शैली प्रश्न रणनीति यादृच्छिक प्रश्न विधि से काफी बेहतर है
प्रश्न जनरेटर और उपयोगकर्ता सिम्युलेटर का संयुक्त अनुकूलन सहक्रिया प्रभाव उत्पन्न करता है

सीमाएं

डेटा निर्भरता: उच्च-गुणवत्ता वाले उपयोगकर्ता प्रोफ़ाइल डेटा पर निर्भरता
डोमेन-विशिष्ट: मुख्य रूप से फिल्म सिफारिश डोमेन में सत्यापित
सिम्युलेशन वातावरण: मूल्यांकन मुख्य रूप से उपयोगकर्ता सिम्युलेटर पर आधारित है, वास्तविक उपयोगकर्ताओं पर नहीं
कम्प्यूटेशनल लागत: मिनट-ट्यूनिंग के लिए बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता

भविष्य की दिशाएं

अधिक सिफारिश डोमेन में विस्तार करना
वास्तविक उपयोगकर्ताओं के साथ इंटरैक्टिव सत्यापन
अधिक कुशल प्रशिक्षण रणनीतियों की खोज करना
बहु-मोडल जानकारी को एकीकृत करना

गहन मूल्यांकन

शक्तियां

विधि नवाचार: विसरण मॉडल विचारों को संवाद प्रणालियों में चतुराई से लागू करना, अवधारणा नई और तर्कसंगत है
तकनीकी पूर्णता: डेटा पीढ़ी, मॉडल प्रशिक्षण और मूल्यांकन सहित पूर्ण प्रशिक्षण ढांचा प्रदान करना
प्रायोगिक पर्याप्तता: व्यापक विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता को सत्यापित करते हैं
व्यावहारिक मूल्य: सिफारिश प्रणालियों में व्यावहारिक समस्याओं को हल करना, मजबूत अनुप्रयोग संभावना है

कमियां

मूल्यांकन सीमाएं: मुख्य रूप से सिम्युलेशन वातावरण पर निर्भर, वास्तविक उपयोगकर्ता इंटरैक्शन सत्यापन की कमी
डोमेन सीमाएं: केवल फिल्म सिफारिश डोमेन में सत्यापित, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
तुलनात्मक आधार: अन्य उन्नत प्राथमिकता अधिग्रहण विधियों के साथ सीधी तुलना की कमी
सैद्धांतिक विश्लेषण: विधि के सैद्धांतिक गुणों का गहन विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: संवादी सिफारिश प्रणालियों के लिए नई अनुसंधान दिशा प्रदान करना
व्यावहारिक मूल्य: वास्तविक सिफारिश प्रणालियों में सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करना, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

कोल्ड-स्टार्ट सिफारिश: विशेष रूप से नए उपयोगकर्ताओं की प्राथमिकता अधिग्रहण के लिए उपयुक्त
संवादी प्रणालियां: विभिन्न संवादी सिफारिश प्रणालियों में एकीकृत किया जा सकता है
व्यक्तिगत सेवाएं: उपयोगकर्ता प्राथमिकताओं को तेजी से समझने की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
बहु-दौर इंटरैक्शन: क्रमिक सूचना संग्रह की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त

संदर्भ

पेपर संवादी सिफारिश प्रणालियों, बड़े भाषा मॉडल, विसरण मॉडल, प्राथमिकता अधिग्रहण और अन्य कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 31 संबंधित संदर्भों का हवाला देता है, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो रचनात्मक रूप से विसरण मॉडल विचारों को प्राथमिकता अधिग्रहण समस्या में लागू करता है, एक पूर्ण समाधान प्रस्तावित करता है और प्रयोगों के माध्यम से प्रभावशीलता को सत्यापित करता है। कुछ सीमाओं के बावजूद, इसके तकनीकी योगदान और व्यावहारिक मूल्य इसे संवादी सिफारिश प्रणाली क्षेत्र में एक महत्वपूर्ण प्रगति बनाते हैं।