Generalized Top-k Mallows Model for Ranked Choices
Haddadan, Ahmadian
The classic Mallows model is a foundational tool for modeling user preferences. However, it has limitations in capturing real-world scenarios, where users often focus only on a limited set of preferred items and are indifferent to the rest. To address this, extensions such as the top-k Mallows model have been proposed, aligning better with practical applications. In this paper, we address several challenges related to the generalized top-k Mallows model, with a focus on analyzing buyer choices. Our key contributions are: (1) a novel sampling scheme tailored to generalized top-k Mallows models, (2) an efficient algorithm for computing choice probabilities under this model, and (3) an active learning algorithm for estimating the model parameters from observed choice data. These contributions provide new tools for analysis and prediction in critical decision-making scenarios. We present a rigorous mathematical analysis for the performance of our algorithms. Furthermore, through extensive experiments on synthetic data and real-world data, we demonstrate the scalability and accuracy of our proposed methods, and we compare the predictive power of Mallows model for top-k lists compared to the simpler Multinomial Logit model.
academic
Обобщенная модель Маллоуса Top-k для ранжированных выборов
Классическая модель Маллоуса является фундаментальным инструментом для моделирования предпочтений пользователей, но имеет ограничения при захвате реальных сценариев — пользователи обычно интересуются только ограниченным набором предпочитаемых элементов и безразличны к остальным. В данной работе исследуются несколько проблем обобщенной модели Маллоуса top-k, сосредоточиваясь на анализе выборов покупателей. Основные вклады включают: (1) новую схему выборки, адаптированную для обобщенной модели Маллоуса top-k; (2) эффективный алгоритм вычисления вероятностей выбора в этой модели; (3) алгоритм активного обучения для оценки параметров модели из наблюдаемых данных выбора. Эти вклады предоставляют новые инструменты для анализа и прогнозирования в критических сценариях принятия решений и подтверждены строгим математическим анализом и обширными экспериментами на синтетических и реальных данных.
Основная проблема, которую решает данная работа: как эффективно моделировать предпочтения пользователей и прогнозировать их поведение при выборе в реальных сценариях, когда пользователи предоставляют только частичную информацию о ранжировании (список top-k), а не полное ранжирование.
Широкое практическое применение: системы рекомендаций, рекламные платформы, поисковые системы, агрегаторы новостей и другие сценарии, где пользователи обычно выражают предпочтения только для ограниченного количества элементов
Ценность для бизнес-решений: точное прогнозирование поведения клиентов при выборе критично для управления доходами, оптимизации портфеля продуктов и других решений
Теоретическое значение: расширение классических вероятностных моделей ранжирования на более реалистичные сценарии частичного ранжирования
Классическая модель Маллоуса: ограничена полными перестановками, не может обрабатывать частичные ранжирования
Модель Multinomial Logit (MNL): хотя проста, имеет ограниченную выразительность и удовлетворяет предположению о независимости нерелевантных альтернатив (IIA), что ограничивает моделирование сложного поведения при выборе
Существующие расширения top-k: модель top-k Маллоуса, предложенная Chierichetti et al. (2018), лишена эффективных алгоритмов выборки и методов вычисления вероятностей выбора
Сложность обучения параметров: отсутствуют теоретические гарантии для обучения параметров модели из данных выбора (в отличие от полных ранжирований)
Авторы полагают, что расширение модели Маллоуса на списки top-k может более реалистично отражать структуру предпочтений пользователей, но требует решения трех ключевых алгоритмических проблем: эффективная выборка, вычисление вероятностей выбора и обучение параметров.
Алгоритм выборки PRIM: предложен Profile-based Repeated Insertion Method (PRIM) для эффективной выборки из распределения TopKGMM, снижающий временную сложность с O(k²4^k + k²log n) до O(k2^k + k²log n)
Алгоритм DYPCHIP для вероятностей выбора: разработан алгоритм Dynamic Programming for Choice Probabilities (DYPCHIP), позволяющий эффективно вычислять вероятности выбора в модели top-k Маллоуса
Алгоритм активного обучения BUCCHOI: создан алгоритм Build Center from Choices (BUCCHOI) для активного обучения, выводящий центр распределения и размер k путем представления наборов продуктов указанного размера и наблюдения выборов, с сложностью выборки Θ(r²log n)
Обобщение модели: расширена модель top-k Маллоуса, предложенная Chierichetti et al., до обобщенной версии (TopKGMM), связывающей вес с каждым продуктом
Эмпирическая проверка: на наборе данных о предпочтениях суши доказано, что модель top-k Маллоуса имеет значительно более высокую точность прогнозирования, чем модель MNL
Это разложение является ключевой инновацией алгоритма, разбивая сложное распределение top-k списков на две управляемые стадии: выбор профиля и условное ранжирование.
Затем построить τ при условии S методом повторной вставки
Поток алгоритма:
1. Предварительно вычислить вероятности всех профилей (время O(2^γk), γ=min{k,n-k})
2. Выбрать профиль S
3. Инициализация: равномерно случайно выбрать k-ℓ элементов из [n]\[k]
4. Последовательно вставить элементы s из S в позицию j с вероятностью:
P(вставить s в позицию j) ∝ exp(-βw_s·j)
Инновационные аспекты:
Решает открытую проблему, оставленную Chierichetti et al. (отсутствие метода выборки, подобного RIM)
Разложение профиля значительно снижает сложность
Амортизированная стоимость каждого образца после предварительной обработки составляет всего O(k log n)
Основная идея: через динамическое программирование вычислить вероятность выбора при условии профиля S
Структура алгоритма:
Трехмерная таблица DP π_S(i, j, q):
i: i-й элемент в ассортименте A
j: текущая позиция
q: q-я итерация алгоритма PRIM
Значение: вероятность того, что после q-й итерации a_i является элементом с наивысшим рангом в A∅ и находится в позиции j
Рекуррентные соотношения:
Когда новый элемент не в A:
π_S(i,j,q) = π_S(i,j,q-1)·P(вставить>j) + π_S(i,j-1,q-1)·P(вставить≤j-1)
Когда новый элемент в A:
π_S(i,j,q) = π_S(i,j,q-1)·P(вставить>j)
π_S(cur,j,q) = P(вставить=j)·Σ_{i<cur}Σ_{j'≥j}π_S(i,j',q-1)
Лучшая производительность при малых β (0.01-0.1), что указывает на относительно равномерное распределение
Лучший результат при p=0.5, балансирующем различные типы несогласованности
TopKGMM значительно превосходит MNL, подтверждая выразительность модели
С кластеризацией (Таблица 2, 2 кластера):
p=0.1, β=0.1: ошибка тестирования 0.0771
p=1.25, β=0.05: ошибка тестирования 0.0788
Наблюдение: производительность после кластеризации немного улучшается, но коэффициент силуэта очень низкий (<0.012), что указывает на то, что данные могут происходить из одного распределения
Данная работа делает важные вклады на пересечении моделирования top-k Маллоуса и выбора. Благодаря умному разложению профиля авторы разработали полный набор алгоритмических инструментов и предоставили строгий теоретический анализ. Эксперименты подтверждают эффективность метода, особенно значительное превосходство над MNL на реальных данных.
Основная ценность заключается в: (1) теоретическом решении важной открытой проблемы; (2) предоставлении практически применимых инструментов; (3) создании основы для будущих исследований.
Основное ограничение — экспоненциальная зависимость от k, ограничивающая применение в сценариях с большим k. Будущие исследования смешанных моделей и разработка приближенных алгоритмов дополнительно повысят практическую применимость этого метода.
Для приложений, требующих моделирования предпочтений частичного ранжирования и прогнозирования поведения при выборе, фреймворк TopKGMM и алгоритмы, предложенные в данной работе, представляют ценные инструменты, особенно в сценариях с малым k (≤12) и требованиями высокой точности прогнозирования.