Generalized Top-k Mallows Model for Ranked Choices
Haddadan, Ahmadian
The classic Mallows model is a foundational tool for modeling user preferences. However, it has limitations in capturing real-world scenarios, where users often focus only on a limited set of preferred items and are indifferent to the rest. To address this, extensions such as the top-k Mallows model have been proposed, aligning better with practical applications. In this paper, we address several challenges related to the generalized top-k Mallows model, with a focus on analyzing buyer choices. Our key contributions are: (1) a novel sampling scheme tailored to generalized top-k Mallows models, (2) an efficient algorithm for computing choice probabilities under this model, and (3) an active learning algorithm for estimating the model parameters from observed choice data. These contributions provide new tools for analysis and prediction in critical decision-making scenarios. We present a rigorous mathematical analysis for the performance of our algorithms. Furthermore, through extensive experiments on synthetic data and real-world data, we demonstrate the scalability and accuracy of our proposed methods, and we compare the predictive power of Mallows model for top-k lists compared to the simpler Multinomial Logit model.
academic
सामान्यीकृत Top-k Mallows मॉडल रैंक किए गए विकल्पों के लिए
शास्त्रीय Mallows मॉडल उपयोगकर्ता वरीयताओं को मॉडल करने के लिए एक मौलिक उपकरण है, लेकिन वास्तविक परिस्थितियों को पकड़ने में सीमाएं हैं—उपयोगकर्ता आमतौर पर केवल सीमित वरीयता वाली वस्तुओं के समूह पर ध्यान केंद्रित करते हैं, शेष वस्तुओं के प्रति उदासीन होते हैं। यह पेपर सामान्यीकृत top-k Mallows मॉडल की कई चुनौतियों पर अनुसंधान करता है, क्रेता विकल्प विश्लेषण पर ध्यान केंद्रित करता है। मुख्य योगदान में शामिल हैं: (1) सामान्यीकृत top-k Mallows मॉडल के लिए अनुकूलित नई सैंपलिंग योजना; (2) इस मॉडल के तहत विकल्प संभावनाओं की गणना के लिए कुशल एल्गोरिदम; (3) अवलोकन किए गए विकल्प डेटा से मॉडल पैरामीटर का अनुमान लगाने के लिए सक्रिय शिक्षण एल्गोरिदम। ये योगदान महत्वपूर्ण निर्णय परिस्थितियों में विश्लेषण और भविष्यवाणी के लिए नए उपकरण प्रदान करते हैं, और कठोर गणितीय विश्लेषण और व्यापक सिंथेटिक और वास्तविक डेटा प्रयोगों के माध्यम से विधि की स्केलेबिलिटी और सटीकता को सत्यापित किया गया है।
इस पेपर द्वारा हल की जाने वाली मुख्य समस्या है: जब उपयोगकर्ता पूर्ण रैंकिंग के बजाय आंशिक रैंकिंग जानकारी (top-k सूची) प्रदान करते हैं, तो वास्तविक परिस्थितियों में उपयोगकर्ता वरीयताओं को प्रभावी ढंग से कैसे मॉडल किया जाए और उनके विकल्प व्यवहार की भविष्यवाणी कैसे की जाए।
व्यापक व्यावहारिक अनुप्रयोग: सिफारिश प्रणाली, विज्ञापन प्लेटफॉर्म, खोज इंजन, समाचार एकत्रकर्ता आदि परिस्थितियों में, उपयोगकर्ता आमतौर पर सीमित संख्या में वस्तुओं के लिए वरीयता व्यक्त करते हैं
व्यावसायिक निर्णय मूल्य: ग्राहक विकल्प व्यवहार की सटीक भविष्यवाणी राजस्व प्रबंधन, उत्पाद पोर्टफोलियो अनुकूलन आदि निर्णयों के लिए महत्वपूर्ण है
सैद्धांतिक महत्व: शास्त्रीय संभाव्य रैंकिंग मॉडल को अधिक यथार्थवादी आंशिक रैंकिंग परिस्थितियों तक विस्तारित करना
शास्त्रीय Mallows मॉडल: केवल पूर्ण क्रमपरिवर्तन तक सीमित, आंशिक रैंकिंग को संभाल नहीं सकता
Multinomial Logit (MNL) मॉडल: सरल होने के बावजूद सीमित अभिव्यक्ति क्षमता, असंबंधित विकल्पों की स्वतंत्रता (IIA) धारणा को संतुष्ट करता है, जटिल विकल्प व्यवहार के मॉडलिंग को सीमित करता है
मौजूदा top-k एक्सटेंशन: Chierichetti et al. (2018) द्वारा प्रस्तावित top-k Mallows मॉडल में कुशल सैंपलिंग एल्गोरिदम और विकल्प संभावना गणना विधियों की कमी है
पैरामीटर सीखने की कठिनाई: पूर्ण रैंकिंग के बजाय विकल्प डेटा से मॉडल पैरामीटर सीखने में सैद्धांतिक गारंटी की कमी है
लेखकों का मानना है कि Mallows मॉडल को top-k सूचियों तक विस्तारित करना उपयोगकर्ता वरीयता संरचना को अधिक यथार्थवादी तरीके से प्रतिबिंबित कर सकता है, लेकिन तीन महत्वपूर्ण एल्गोरिदमिक समस्याओं को हल करने की आवश्यकता है: कुशल सैंपलिंग, विकल्प संभावना गणना और पैरामीटर सीखना।
PRIM सैंपलिंग एल्गोरिदम: Profile-based Repeated Insertion Method (PRIM) प्रस्तावित करता है, TopKGMM वितरण से कुशल सैंपलिंग को सक्षम करता है, समय जटिलता को O(k²4^k + k²log n) से O(k2^k + k²log n) तक कम करता है
DYPCHIP विकल्प संभावना एल्गोरिदम: Dynamic Programming for Choice Probabilities (DYPCHIP) एल्गोरिदम डिज़ाइन करता है, जो top-k Mallows मॉडल के तहत विकल्प संभावनाओं की कुशलतापूर्वक गणना कर सकता है
BUCCHOI सक्रिय शिक्षण एल्गोरिदम: Build Center from Choices (BUCCHOI) सक्रिय शिक्षण एल्गोरिदम विकसित करता है, निर्दिष्ट आकार के उत्पाद संयोजन प्रस्तुत करके और विकल्प देखकर, वितरण केंद्र और केंद्र आकार k का अनुमान लगाता है, नमूना जटिलता Θ(r²log n) है
मॉडल सामान्यीकरण: Chierichetti et al. के top-k Mallows मॉडल को सामान्यीकृत संस्करण (TopKGMM) तक विस्तारित करता है, प्रत्येक उत्पाद के लिए वजन जोड़ता है
अनुभवजन्य सत्यापन: Sushi वरीयता डेटासेट पर साबित करता है कि top-k Mallows मॉडल MNL मॉडल की तुलना में काफी अधिक भविष्यवाणी सटीकता प्रदान करता है
फिर S दिए गए, पुनरावृत्त सम्मिलन विधि के माध्यम से τ का निर्माण करता है
एल्गोरिदम प्रवाह:
1. सभी profile की संभावनाओं को पूर्वगणना करें (O(2^γk) समय, γ=min{k,n-k})
2. Profile S का नमूना लें
3. आरंभीकरण: [n]\[k] से समान रूप से यादृच्छिक रूप से k-ℓ तत्वों का नमूना लें
4. प्राथमिकता क्रम में S में तत्वों s को सम्मिलित करें, स्थिति j पर s सम्मिलित करने की संभावना:
P(स्थिति j पर s सम्मिलित करें) ∝ exp(-βw_s·j)
नवाचार बिंदु:
Chierichetti et al. द्वारा छोड़ी गई खुली समस्या को हल करता है (RIM जैसी सैंपलिंग विधि की कमी)
Profile अपघटन के माध्यम से जटिलता में काफी कमी
प्रीप्रोसेसिंग के बाद प्रत्येक नमूने की परिशोधित लागत केवल O(k log n) है
मुख्य विचार: गतिशील प्रोग्रामिंग के माध्यम से, दिए गए profile S के तहत विकल्प संभावना की गणना करता है
एल्गोरिदम संरचना:
त्रि-आयामी DP तालिका π_S(i, j, q):
i: उत्पाद संयोजन A में i-वां तत्व
j: वर्तमान स्थिति
q: PRIM एल्गोरिदम का q-वां पुनरावृत्ति
अर्थ: q-वें पुनरावृत्ति के बाद, a_i A∅ में सर्वोच्च रैंक वाला और स्थिति j पर होने की संभावना
पुनरावृत्ति संबंध:
जब नया तत्व A में नहीं है:
π_S(i,j,q) = π_S(i,j,q-1)·P(सम्मिलित>j) + π_S(i,j-1,q-1)·P(सम्मिलित≤j-1)
जब नया तत्व A में है:
π_S(i,j,q) = π_S(i,j,q-1)·P(सम्मिलित>j)
π_S(cur,j,q) = P(सम्मिलित=j)·Σ_{i<cur}Σ_{j'≥j}π_S(i,j',q-1)
यह पेपर top-k Mallows मॉडल और विकल्प मॉडलिंग के क्रॉस-डोमेन में महत्वपूर्ण योगदान देता है। चतुर profile अपघटन के माध्यम से, लेखकों ने एक पूर्ण एल्गोरिदम उपकरण श्रृंखला डिज़ाइन की है और कठोर सैद्धांतिक विश्लेषण प्रदान किया है। प्रयोग विधि की प्रभावशीलता को सत्यापित करते हैं, विशेष रूप से वास्तविक डेटा पर MNL की तुलना में महत्वपूर्ण लाभ।
मुख्य मूल्य में शामिल हैं: (1) सैद्धांतिक रूप से महत्वपूर्ण खुली समस्या को हल करना; (2) व्यावहारिक रूप से उपयोगी उपकरण प्रदान करना; (3) भविष्य के अनुसंधान के लिए आधार स्थापित करना।
मुख्य सीमा k पर घातीय निर्भरता है, जो बड़े k परिस्थितियों में अनुप्रयोग को सीमित करती है। भविष्य के अनुसंधान में मिश्रित मॉडल सीखना और अनुमानित एल्गोरिदम विकसित करना इस विधि की व्यावहारिकता को और बढ़ाएगा।
आंशिक क्रमपरिवर्तन वरीयता मॉडल करने और विकल्प व्यवहार की भविष्यवाणी करने की आवश्यकता वाले अनुप्रयोगों के लिए, यह पेपर द्वारा प्रदान किया गया TopKGMM ढांचा और एल्गोरिदम मूल्यवान उपकरण हैं, विशेष रूप से k छोटे (≤12) और उच्च भविष्यवाणी सटीकता की आवश्यकता वाली परिस्थितियों में।