Generalized Top-k Mallows Model for Ranked Choices
Haddadan, Ahmadian
The classic Mallows model is a foundational tool for modeling user preferences. However, it has limitations in capturing real-world scenarios, where users often focus only on a limited set of preferred items and are indifferent to the rest. To address this, extensions such as the top-k Mallows model have been proposed, aligning better with practical applications. In this paper, we address several challenges related to the generalized top-k Mallows model, with a focus on analyzing buyer choices. Our key contributions are: (1) a novel sampling scheme tailored to generalized top-k Mallows models, (2) an efficient algorithm for computing choice probabilities under this model, and (3) an active learning algorithm for estimating the model parameters from observed choice data. These contributions provide new tools for analysis and prediction in critical decision-making scenarios. We present a rigorous mathematical analysis for the performance of our algorithms. Furthermore, through extensive experiments on synthetic data and real-world data, we demonstrate the scalability and accuracy of our proposed methods, and we compare the predictive power of Mallows model for top-k lists compared to the simpler Multinomial Logit model.
academic
نموذج Mallows المعمم للاختيارات المرتبة (Generalized Top-k Mallows Model for Ranked Choices)
يعتبر نموذج Mallows الكلاسيكي أداة أساسية لنمذجة تفضيلات المستخدمين، لكنه يواجه قيوداً في التقاط السيناريوهات الواقعية — حيث يركز المستخدمون عادة على مجموعة محدودة من العناصر المفضلة فقط، ولا يهتمون بالعناصر المتبقية. تتناول هذه الورقة عدة تحديات في نموذج Mallows المعمم للـ top-k، مع التركيز على تحليل اختيارات المشترين. تشمل المساهمات الأساسية: (1) مخطط أخذ عينات جديد مخصص لنموذج Mallows المعمم للـ top-k؛ (2) خوارزمية فعالة لحساب احتمالات الاختيار في هذا النموذج؛ (3) خوارزمية التعلم النشط لتقدير معاملات النموذج من بيانات الاختيار المرصودة. توفر هذه المساهمات أدوات جديدة للتحليل والتنبؤ في سيناريوهات القرارات الحرجة، وتم التحقق من قابلية التوسع ودقة الطرق من خلال تحليل رياضي صارم وتجارب واسعة على البيانات الاصطناعية والحقيقية.
المشكلة الأساسية التي تعالجها هذه الورقة هي: كيفية نمذجة تفضيلات المستخدمين بفعالية والتنبؤ بسلوك اختيارهم في السيناريوهات الواقعية حيث يقدم المستخدمون معلومات ترتيب جزئية (قوائم top-k) بدلاً من الترتيب الكامل.
التطبيقات الواسعة: في أنظمة التوصيات والمنصات الإعلانية ومحركات البحث وموجزات الأخبار وغيرها، يعبر المستخدمون عادة عن تفضيلاتهم لعدد محدود من العناصر فقط
قيمة القرارات التجارية: يعتبر التنبؤ الدقيق بسلوك اختيار العملاء حاسماً لإدارة الإيرادات وتحسين مزيج المنتجات
الأهمية النظرية: توسيع نماذج الترتيب الاحتمالية الكلاسيكية إلى سيناريوهات الترتيب الجزئي الأكثر واقعية
نموذج Mallows الكلاسيكي: يقتصر على الترتيبات الكاملة (full permutations)، ولا يمكنه التعامل مع الترتيبات الجزئية
نموذج Multinomial Logit (MNL): بسيط لكن قدرته التعبيرية محدودة، يفترض استقلالية البدائل غير ذات الصلة (IIA)، مما يحد من نمذجة سلوكيات الاختيار المعقدة
التوسعات الموجودة للـ top-k: نموذج Mallows للـ top-k الذي اقترحه Chierichetti وآخرون (2018) يفتقر إلى خوارزميات أخذ عينات فعالة وطرق حساب احتمالات الاختيار
صعوبة تعلم المعاملات: يفتقر تعلم معاملات النموذج من بيانات الاختيار (وليس من الترتيبات الكاملة) إلى ضمانات نظرية
يرى المؤلفون أن توسيع نموذج Mallows إلى قوائم top-k يعكس بشكل أكثر واقعية هيكل تفضيلات المستخدمين، لكن يتطلب حل ثلاث مشاكل خوارزمية أساسية: أخذ العينات الفعال وحساب احتمالات الاختيار وتعلم المعاملات.
خوارزمية أخذ العينات PRIM: اقتراح Profile-based Repeated Insertion Method (PRIM)، التي تحقق أخذ عينات فعال من توزيع TopKGMM، مما يقلل التعقيد الزمني من O(k²4^k + k²log n) إلى O(k2^k + k²log n)
خوارزمية احتمالات الاختيار DYPCHIP: تصميم خوارزمية Dynamic Programming for Choice Probabilities (DYPCHIP)، التي تحسب بكفاءة احتمالات الاختيار في نموذج Mallows للـ top-k
خوارزمية التعلم النشط BUCCHOI: تطوير خوارزمية Build Center from Choices (BUCCHOI) للتعلم النشط، التي تستنتج المركز وحجم top-k من خلال تقديم مجموعات منتجات بأحجام محددة ومراقبة الاختيارات، بتعقيد عينة Θ(r²log n)
تعميم النموذج: توسيع نموذج Mallows للـ top-k من قبل Chierichetti وآخرين إلى نسخة معممة (TopKGMM)، حيث يرتبط بكل منتج وزن
التحقق التجريبي: إثبات أن نموذج Mallows للـ top-k يتفوق بشكل كبير على نموذج MNL من حيث دقة التنبؤ على مجموعة بيانات تفضيلات Sushi
1. حساب احتمالات جميع الملفات الشخصية مسبقاً (وقت O(2^γk)، حيث γ=min{k,n-k})
2. أخذ عينة من الملف الشخصي S
3. التهيئة: أخذ عينة عشوائية موحدة لـ k-ℓ عنصر من [n]\[k]
4. إدراج عناصر S بالترتيب حسب الأولوية s، احتمالية إدراج s في الموضع j:
P(إدراج s في الموضع j) ∝ exp(-βw_s·j)
نقاط الابتكار:
حل المشكلة المفتوحة التي تركها Chierichetti وآخرون (نقص طريقة أخذ عينات مشابهة لـ RIM)
تقليل التعقيد بشكل كبير من خلال تحليل الملف الشخصي
التكلفة المطفأة لكل عينة بعد المعالجة المسبقة هي فقط O(k log n)
الفكرة الأساسية: حساب احتمالات الاختيار من خلال البرمجة الديناميكية في ظل الملف الشخصي S
بنية الخوارزمية:
جدول DP ثلاثي الأبعاد π_S(i, j, q):
i: العنصر i في مجموعة المنتجات A
j: الموضع الحالي
q: التكرار q لخوارزمية PRIM
المعنى: احتمالية أن يكون a_i هو العنصر ذو الترتيب الأعلى في A∅ والموجود في الموضع j بعد التكرار q
العلاقة التكرارية:
عندما لا يكون العنصر الجديد في A:
π_S(i,j,q) = π_S(i,j,q-1)·P(إدراج>j) + π_S(i,j-1,q-1)·P(إدراج≤j-1)
عندما يكون العنصر الجديد في A:
π_S(i,j,q) = π_S(i,j,q-1)·P(إدراج>j)
π_S(cur,j,q) = P(إدراج=j)·Σ_{i<cur}Σ_{j'≥j}π_S(i,j',q-1)
قدمت هذه الورقة مساهمات مهمة في المجال المتقاطع بين نموذج Mallows للـ top-k ونمذجة الاختيار. من خلال تحليل الملف الشخصي الذكي، صمم المؤلفون مجموعة أدوات خوارزميات كاملة وقدموا تحليلاً نظرياً صارماً. التحقق التجريبي من فعالية الطريقة، خاصة التفوق الكبير على MNL على البيانات الحقيقية.
القيمة الرئيسية تكمن في: (1) حل نظري لمشكلة مفتوحة مهمة؛ (2) توفير أدوات عملية قابلة للاستخدام؛ (3) وضع أساس للأبحاث المستقبلية.
القيد الرئيسي هو الاعتماد الأسي على k، مما يحد من التطبيقات في سيناريوهات k الكبيرة. ستعزز الأبحاث المستقبلية حول تعلم النماذج المختلطة وتطوير خوارزميات تقريبية من القيمة العملية لهذه الطريقة.
بالنسبة للتطبيقات التي تتطلب نمذجة تفضيلات الترتيب الجزئي والتنبؤ بسلوك الاختيار، يوفر إطار TopKGMM والخوارزميات المقدمة في هذه الورقة أداة قيمة، خاصة في السيناريوهات حيث k صغير نسبياً (≤12) وتكون دقة التنبؤ العالية مطلوبة.