2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.

Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.

academic

বড় ভাষা মডেলগুলির সাথে পছন্দ সংগ্রহের জন্য স্পষ্টীকরণ প্রশ্ন জিজ্ঞাসা করা

মৌলিক তথ্য

পেপার আইডি: 2510.12015
শিরোনাম: বড় ভাষা মডেলগুলির সাথে পছন্দ সংগ্রহের জন্য স্পষ্টীকরণ প্রশ্ন জিজ্ঞাসা করা
লেখক: আলী মন্টাজারালগাইম, গাই টেনেনহোল্টজ, ক্রেইগ বুটিলিয়ার, ওফার মেশি (গুগল)
শ্রেণীবিভাগ: cs.AI
প্রকাশনা সম্মেলন: GENNEXT@SIGIR'25
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12015

সারসংক্ষেপ

বড় ভাষা মডেলগুলি (এলএলএম) সুপারিশ ব্যবস্থাগুলিকে খোলা-সমাপ্ত কথোপকথন ইন্টারফেসের মাধ্যমে ব্যবহারকারীদের সাথে যোগাযোগ করতে সক্ষম করে। এলএলএম প্রতিক্রিয়াগুলি ব্যক্তিগতকৃত করার জন্য, বিশেষত সীমিত ব্যবহারকারী ইতিহাসের ক্ষেত্রে, কার্যকর ব্যবহারকারী পছন্দ সংগ্রহ অত্যন্ত গুরুত্বপূর্ণ। এই পেপারটি এমন একটি উপন্যাস পদ্ধতি প্রস্তাব করে যা এলএলএমগুলিকে ব্যবহারকারীর পছন্দ প্রকাশ করতে পারে এমন ক্রমানুসারী স্পষ্টীকরণ প্রশ্ন জিজ্ঞাসা করার জন্য প্রশিক্ষণ দেয়। এই পদ্ধতিটি বিস্তার মডেল দ্বারা অনুপ্রাণিত একটি দুই-পর্যায়ের প্রক্রিয়া ব্যবহার করে: সামনের দিকের প্রক্রিয়া ব্যবহারকারী প্রোফাইল থেকে শুরু করে স্পষ্টীকরণ প্রশ্ন তৈরি করে এবং ধীরে ধীরে উত্তরগুলি "শব্দ" হিসাবে সরিয়ে দেয়; বিপরীত প্রক্রিয়া মডেলটিকে কার্যকর স্পষ্টীকরণ প্রশ্ন জিজ্ঞাসা করে শিখে ব্যবহারকারী প্রোফাইল "ডিনোইজ" করার জন্য প্রশিক্ষণ দেয়। পরীক্ষামূলক ফলাফলগুলি দেখায় যে এই পদ্ধতিটি এলএলএমগুলির ফানেল-শৈলীর প্রশ্ন জিজ্ঞাসা করার এবং কার্যকরভাবে ব্যবহারকারী পছন্দ সংগ্রহ করার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

সুপারিশ ব্যবস্থাগুলি সাধারণত ব্যবহারকারীর ঐতিহাসিক মিথস্ক্রিয়া থেকে পছন্দ শিখতে নির্ভর করে, কিন্তু নিম্নলিখিত পরিস্থিতিতে চ্যালেঞ্জের সম্মুখীন হয়:

নতুন ব্যবহারকারী সমস্যা: পর্যাপ্ত মিথস্ক্রিয়া ইতিহাসের অভাব
গোপনীয়তা সীমাবদ্ধতা: ঐতিহাসিক মিথস্ক্রিয়া ডেটা ব্যবহার সীমাবদ্ধ করে
প্রসঙ্গ অনিশ্চয়তা: বর্তমান পছন্দগুলি মেজাজ, সামাজিক পরিবেশ এবং অন্যান্য কারণ দ্বারা প্রভাবিত হয়

গবেষণার গুরুত্ব

এলএলএমগুলির দ্রুত বিকাশের সাথে, কথোপকথন সুপারিশ ব্যবস্থা (সিআরএস) সম্ভব হয়ে ওঠে, সরাসরি পছন্দ সংগ্রহের প্রশ্নের মাধ্যমে, সিস্টেমটি ব্যবহারকারীর চাহিদা স্পষ্ট করতে এবং উচ্চ-মানের ব্যক্তিগতকৃত সুপারিশ প্রদান করতে পারে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

সাধারণ প্রম্পটিং কৌশলগুলি এলএলএমগুলিকে উপযুক্ত সময়ে সংগ্রহের প্রশ্ন জিজ্ঞাসা করার জন্য গাইড করতে পারে, তবে ক্রস-ডোমেইন কার্যকর ক্রমানুসারী স্পষ্টীকরণ প্রশ্ন তৈরি করা এখনও একটি চ্যালেঞ্জ।

গবেষণা প্রেরণা

এই পেপারটি এলএলএমগুলির উচ্চ-মানের সংগ্রহ প্রশ্ন জিজ্ঞাসা করার ক্ষমতা অপ্টিমাইজ করার লক্ষ্য রাখে, বিশেষত "ফানেল-শৈলীর" প্রশ্ন জিজ্ঞাসা করা শিখতে—সাধারণ ধারণা থেকে শুরু করে, কথোপকথন অগ্রসর হওয়ার সাথে সাথে ধীরে ধীরে আরও নির্দিষ্ট হয়ে ওঠে।

মূল অবদান

উদ্ভাবনী কাঠামো: বিচ্ছিন্ন বিস্তার মডেল দ্বারা অনুপ্রাণিত একটি দুই-পর্যায়ের পছন্দ সংগ্রহ কাঠামো প্রস্তাব করা
ক্রমানুসারী প্রশ্ন প্রজন্ম: কার্যকর ক্রমানুসারী স্পষ্টীকরণ প্রশ্ন তৈরি করতে সক্ষম প্রশিক্ষণ পদ্ধতি বিকাশ করা
ফানেল-শৈলীর কথোপকথন কৌশল: সাধারণ থেকে নির্দিষ্ট প্রশ্ন জিজ্ঞাসার কৌশল বাস্তবায়ন করা
ব্যবহারকারী সিমুলেটর: মূল্যায়নের জন্য একটি ব্যবহারকারী সিমুলেটর মডেল তৈরি করা
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: মুভিলেন্স ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ব্যবহারকারী প্রোফাইল P দেওয়া, লক্ষ্য হল ক্রমানুসারী প্রশ্ন Q₀, Q₁, ..., Qₙ₋₁ এবং সংশ্লিষ্ট উত্তর A₀, A₁, ..., Aₙ₋₁ এর মাধ্যমে, খালি প্রোফাইল P₀ = ∅ থেকে সম্পূর্ণ ব্যবহারকারী প্রোফাইল Pₙ পুনর্নির্মাণ করা।

মডেল স্থাপত্য

1. ক্রমানুসারী প্রশ্ন-উত্তর প্রক্রিয়া (SQN)

শৃঙ্খল নিয়ম এবং শর্তসাপেক্ষ স্বাধীনতা অনুমান ব্যবহার করা:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

যেখানে প্রতিটি রূপান্তর সম্ভাবনা তিনটি উপাদানে বিভক্ত:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)

p_θ(Qᵢ₋₁|Pᵢ₋₁): প্রশ্ন প্রজন্ম সম্ভাবনা
p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): ব্যবহারকারী সিমুলেটর সম্ভাবনা
p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): নির্ধারণমূলক আপডেট ফাংশন

2. সামনের দিকের প্রক্রিয়া: প্রোফাইল ক্ষতি

কাঠামোগত রূপান্তর: পাঠ্য ব্যবহারকারী প্রোফাইলকে JSON ফর্ম্যাটে রূপান্তরিত করা
লেবেল অর্ডারিং: সাধারণতার ডিগ্রী অনুযায়ী লেবেলগুলি অর্ডার করা
ফানেল-শৈলীর প্রশ্ন প্রজন্ম: সাধারণ থেকে নির্দিষ্ট প্রশ্নের ক্রম তৈরি করা
ধীরে ধীরে তথ্য অপসারণ: প্রশ্নের ক্রম অনুযায়ী সংশ্লিষ্ট তথ্য ধীরে ধীরে সরানো

আংশিক ব্যবহারকারী প্রোফাইল সংজ্ঞা:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. বিপরীত প্রক্রিয়া: প্রশ্ন শিক্ষা

প্রশিক্ষণ ডেটা নির্মাণ:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

বিস্তার মডেল অনুপ্রেরণা: ব্যবহারকারী পছন্দ প্রোফাইলকে বিচ্ছিন্ন বিস্তার প্রক্রিয়ায় ডিনোইজিং কাজের সাথে সাদৃশ্য করা
ফানেল-শৈলীর কৌশল: লেবেল অর্ডারিংয়ের মাধ্যমে সাধারণ থেকে নির্দিষ্ট প্রশ্নের প্রাকৃতিক প্রবাহ নিশ্চিত করা
যৌথ প্রশিক্ষণ: প্রশ্ন প্রজন্ম এবং ব্যবহারকারী সিমুলেটর একযোগে অপ্টিমাইজ করা
প্রশ্ন ইতিহাস প্রক্রিয়া: প্রোফাইল আপডেটে প্রশ্ন এবং উত্তর অন্তর্ভুক্ত করা, পুনরাবৃত্তি প্রশ্ন এড়ানো

পরীক্ষামূলক সেটআপ

ডেটাসেট

মুভিলেন্স ডেটাসেট: সুপারিশ ব্যবস্থা গবেষণায় ব্যাপকভাবে ব্যবহৃত
ব্যবহারকারী প্রোফাইল: জিওং এবং অন্যদের এবং টেনেনহোল্টজ এবং অন্যদের দ্বারা তৈরি ব্যবহারকারী প্রোফাইল ব্যবহার করা, যা সম্পূর্ণ রেটিং ইতিহাসের উপর ভিত্তি করে এলএলএম দ্বারা তৈরি, ব্যবহারকারী রেটিংয়ের পূর্বাভাসমূলক হিসাবে যাচাই করা হয়েছে

মূল্যায়ন মেট্রিক্স

ROUGE স্কোর: উত্পন্ন প্রোফাইল এবং প্রকৃত প্রোফাইলের ওভারল্যাপ পরিমাপ করা
BLEU স্কোর: পাঠ্য প্রজন্ম গুণমান মূল্যায়ন করা
অনুত্তরিত প্রশ্নের শতাংশ: প্রশ্নের প্রাসঙ্গিকতা মূল্যায়ন করা

তুলনামূলক পদ্ধতি

অ-সূক্ষ্ম-সুর করা জেম্মা মডেল বনাম সূক্ষ্ম-সুর করা জেম্মা মডেল
অ-সূক্ষ্ম-সুর করা জেমিনি ব্যবহারকারী সিমুলেটর বনাম সূক্ষ্ম-সুর করা জেম্মা ব্যবহারকারী সিমুলেটর

বাস্তবায়ন বিবরণ

মৌলিক মডেল: জেম্মা 7B (28 স্তর) প্রশ্ন প্রজন্ম এবং ব্যবহারকারী সিমুলেটর হিসাবে
ডেটা প্রজন্ম: সামনের দিকের প্রক্রিয়ার উচ্চ-মানের ডেটা প্রজন্মের জন্য জেমিনি 2.0
সূক্ষ্ম-সুর করার পদ্ধতি: প্যারামিটার-দক্ষ সূক্ষ্ম-সুর করা (PEFT) + LoRA
প্রশিক্ষণ পরামিতি: ব্যাচ আকার 64, শিক্ষার হার 0.001
প্রশ্ন সীমাবদ্ধতা: সর্বাধিক 10টি প্রশ্ন বা প্রোফাইল মিলান পর্যন্ত

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সূক্ষ্ম-সুর করা উল্লেখযোগ্যভাবে মডেল কর্মক্ষমতা উন্নত করেছে:

ROUGE স্কোর: 0.4 থেকে 0.68 এ উন্নীত
BLEU স্কোর: 0.28 থেকে 0.49 এ উন্নীত
ব্যবহারকারী সিমুলেটর: সূক্ষ্ম-সুর করা জেম্মা সিমুলেটর অ-সূক্ষ্ম-সুর করা জেমিনি সিমুলেটরকে ছাড়িয়ে গেছে

অ্যাবলেশন পরীক্ষা

1. সূক্ষ্ম-সুর করার প্রভাব বিশ্লেষণ

সূক্ষ্ম-সুর করা প্রশ্ন প্রজন্মকারী আরও কার্যকর ক্রমানুসারী প্রশ্ন জিজ্ঞাসা করতে পারে
সূক্ষ্ম-সুর করা ব্যবহারকারী সিমুলেটর প্রশ্নের আরও সঠিকভাবে উত্তর দিতে পারে
অনুত্তরিত প্রশ্নের শতাংশ উল্লেখযোগ্যভাবে হ্রাস পেয়েছে

2. প্রশ্ন সংখ্যার প্রভাব

সর্বোত্তম মডেল প্রথম 5 রাউন্ড প্রশ্নে ব্যাপক তথ্য সংগ্রহ করে
6-7 রাউন্ডে আরও নির্দিষ্ট এবং বিস্তারিত প্রশ্নের দিকে মনোনিবেশ করে
একটি ভাল ফানেল-শৈলীর কথোপকথন কৌশল প্রদর্শন করে

3. প্রশ্ন ইতিহাসের প্রভাব

সূক্ষ্ম-সুর করা মডেলে, প্রশ্ন ইতিহাস যোগ করা কর্মক্ষমতা উন্নত করে
অ-সূক্ষ্ম-সুর করা মডেলে, প্রশ্ন ইতিহাস কর্মক্ষমতা হ্রাস করে
প্রশ্ন ইতিহাস পুনরাবৃত্তি প্রশ্ন এড়াতে সাহায্য করে

4. সূক্ষ্ম-সুর করার পদক্ষেপের প্রভাব

আরও সূক্ষ্ম-সুর করার পদক্ষেপ (40,000 পদক্ষেপ) আরও ভাল কর্মক্ষমতা নিয়ে আসে
4,000 পদক্ষেপ, 28,000 পদক্ষেপ, 40,000 পদক্ষেপ ক্রমবর্ধমান প্রবণতা দেখায়

কেস বিশ্লেষণ

ফানেল-শৈলীর প্রশ্ন বিশ্লেষণ

ওজনযুক্ত র্যাঙ্কিং (WR) বিশ্লেষণ দেখায়:

প্রাথমিক প্রশ্ন: ঘরানা, চলচ্চিত্র যুগ, দশক ইত্যাদি ব্যাপক ধারণা
মধ্য-পর্যায়ের প্রশ্ন: পরিচালক, ভিজ্যুয়াল স্টাইল, টোন ইত্যাদি নির্দিষ্ট ধারণা
পরবর্তী প্রশ্ন: বিশেষ প্রভাব, হাস্যরস, পরিবেশ ইত্যাদি বিস্তারিত ধারণা

এটি যাচাই করে যে মডেলটি ব্যাপক ধারণা থেকে নির্দিষ্ট বিস্তারিত পর্যন্ত প্রশ্ন জিজ্ঞাসার কৌশল শিখেছে।

পরীক্ষামূলক অনুসন্ধান

সহযোগিতামূলক প্রভাব: প্রশ্ন প্রজন্মকারী এবং ব্যবহারকারী সিমুলেটরের যৌথ অপ্টিমাইজেশন সহযোগিতামূলক প্রভাব তৈরি করে
ক্রমানুসারী কৌশল: ফানেল-শৈলীর প্রশ্ন কৌশল র্যান্ডম প্রশ্নের চেয়ে আরও কার্যকর
প্রসঙ্গ ব্যবহার: প্রশ্ন ইতিহাস অন্তর্ভুক্ত করা পুনরাবৃত্তি এড়াতে এবং কথোপকথনের গুণমান উন্নত করতে সাহায্য করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

বিস্তার মডেল অনুপ্রাণিত দুই-পর্যায়ের কাঠামো এলএলএমগুলিকে উচ্চ-মানের স্পষ্টীকরণ প্রশ্ন জিজ্ঞাসা করার জন্য কার্যকরভাবে প্রশিক্ষণ দিতে পারে
ফানেল-শৈলীর প্রশ্ন কৌশল র্যান্ডম প্রশ্নের পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত
প্রশ্ন প্রজন্মকারী এবং ব্যবহারকারী সিমুলেটরের যৌথ অপ্টিমাইজেশন সহযোগিতামূলক প্রভাব তৈরি করে

সীমাবদ্ধতা

ডেটা নির্ভরতা: উচ্চ-মানের ব্যবহারকারী প্রোফাইল ডেটার উপর নির্ভর করে
ডোমেইন-নির্দিষ্ট: প্রধানত চলচ্চিত্র সুপারিশ ডোমেইনে যাচাই করা
সিমুলেশন পরিবেশ: মূল্যায়ন প্রধানত ব্যবহারকারী সিমুলেটরের উপর ভিত্তি করে, প্রকৃত ব্যবহারকারীর অভাব
গণনামূলক খরচ: সূক্ষ্ম-সুর করার জন্য উল্লেখযোগ্য গণনামূলক সম্পদ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

আরও সুপারিশ ডোমেইনে সম্প্রসারণ করা
প্রকৃত ব্যবহারকারীদের সাথে ইন্টারেক্টিভ যাচাইকরণ
আরও দক্ষ প্রশিক্ষণ কৌশল অন্বেষণ করা
মাল্টিমোডাল তথ্য একীভূত করা

গভীর মূল্যায়ন

শক্তি

পদ্ধতি উদ্ভাবনী: বিস্তার মডেল ধারণাগুলি কথোপকথন ব্যবস্থায় চতুরভাবে প্রয়োগ করা, ধারণা উপন্যাস এবং যুক্তিসঙ্গত
প্রযুক্তিগত সম্পূর্ণতা: ডেটা প্রজন্ম, মডেল প্রশিক্ষণ এবং মূল্যায়ন সহ সম্পূর্ণ প্রশিক্ষণ কাঠামো প্রদান করা
পরীক্ষামূলক সম্পূর্ণতা: প্রতিটি উপাদানের কার্যকারিতা যাচাই করে ব্যাপক অ্যাবলেশন পরীক্ষা
ব্যবহারিক মূল্য: সুপারিশ ব্যবস্থায় ব্যবহারিক সমস্যা সমাধান করা, শক্তিশালী প্রয়োগ সম্ভাবনা সহ

অপূর্ণতা

মূল্যায়ন সীমাবদ্ধতা: প্রধানত সিমুলেশন পরিবেশে নির্ভর করে, প্রকৃত ব্যবহারকারী ইন্টারেক্শন যাচাইকরণের অভাব
ডোমেইন সীমাবদ্ধতা: শুধুমাত্র চলচ্চিত্র সুপারিশ ডোমেইনে যাচাই করা, সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন
তুলনামূলক ভিত্তি: অন্যান্য উন্নত পছন্দ সংগ্রহ পদ্ধতির সাথে সরাসরি তুলনার অভাব
তাত্ত্বিক বিশ্লেষণ: পদ্ধতির তাত্ত্বিক বৈশিষ্ট্যের গভীর বিশ্লেষণের অভাব

প্রভাব

একাডেমিক অবদান: কথোপকথন সুপারিশ ব্যবস্থার জন্য নতুন গবেষণা চিন্তাভাবনা প্রদান করা
ব্যবহারিক মূল্য: সরাসরি বাস্তব সুপারিশ ব্যবস্থায় প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করা, পুনরুৎপাদন সহজতর করা

প্রযোজ্য পরিস্থিতি

কোল্ড স্টার্ট সুপারিশ: বিশেষত নতুন ব্যবহারকারীদের পছন্দ সংগ্রহের জন্য উপযুক্ত
কথোপকথন ব্যবস্থা: বিভিন্ন কথোপকথন সুপারিশ ব্যবস্থায় একীভূত করা যায়
ব্যক্তিগতকৃত সেবা: দ্রুত ব্যবহারকারী পছন্দ বোঝার প্রয়োজনীয় পরিস্থিতিতে উপযুক্ত
বহু-রাউন্ড ইন্টারেক্শন: ধীরে ধীরে তথ্য সংগ্রহের প্রয়োজনীয় অ্যাপ্লিকেশনের জন্য উপযুক্ত

রেফারেন্স

পেপারটি 31টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা কথোপকথন সুপারিশ ব্যবস্থা, বড় ভাষা মডেল, বিস্তার মডেল, পছন্দ সংগ্রহ এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা সৃজনশীলভাবে বিস্তার মডেল ধারণাগুলি পছন্দ সংগ্রহ সমস্যায় প্রয়োগ করে, একটি সম্পূর্ণ সমাধান প্রস্তাব করে এবং পরীক্ষামূলক যাচাইকরণের মাধ্যমে কার্যকারিতা প্রদর্শন করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত অবদান এবং ব্যবহারিক মূল্য এটিকে কথোপকথন সুপারিশ ব্যবস্থা ক্ষেত্রের একটি গুরুত্বপূর্ণ অগ্রগতি করে তোলে।