2025-11-22T17:25:16.377518

Generalized Top-k Mallows Model for Ranked Choices

Haddadan, Ahmadian

The classic Mallows model is a foundational tool for modeling user preferences. However, it has limitations in capturing real-world scenarios, where users often focus only on a limited set of preferred items and are indifferent to the rest. To address this, extensions such as the top-k Mallows model have been proposed, aligning better with practical applications. In this paper, we address several challenges related to the generalized top-k Mallows model, with a focus on analyzing buyer choices. Our key contributions are: (1) a novel sampling scheme tailored to generalized top-k Mallows models, (2) an efficient algorithm for computing choice probabilities under this model, and (3) an active learning algorithm for estimating the model parameters from observed choice data. These contributions provide new tools for analysis and prediction in critical decision-making scenarios. We present a rigorous mathematical analysis for the performance of our algorithms. Furthermore, through extensive experiments on synthetic data and real-world data, we demonstrate the scalability and accuracy of our proposed methods, and we compare the predictive power of Mallows model for top-k lists compared to the simpler Multinomial Logit model.

academic

Обобщенная модель Маллоуса Top-k для ранжированных выборов

Основная информация

ID статьи: 2510.22040
Название: Generalized Top-k Mallows Model for Ranked Choices
Авторы: Shahrzad Haddadan (Rutgers Business School), Sara Ahmadian (Google Research)
Классификация: cs.LG, cs.DS, stat.ML
Конференция: NeurIPS 2025 (39-я конференция по нейронным системам обработки информации)
Ссылка на статью: https://arxiv.org/abs/2510.22040

Аннотация

Классическая модель Маллоуса является фундаментальным инструментом для моделирования предпочтений пользователей, но имеет ограничения при захвате реальных сценариев — пользователи обычно интересуются только ограниченным набором предпочитаемых элементов и безразличны к остальным. В данной работе исследуются несколько проблем обобщенной модели Маллоуса top-k, сосредоточиваясь на анализе выборов покупателей. Основные вклады включают: (1) новую схему выборки, адаптированную для обобщенной модели Маллоуса top-k; (2) эффективный алгоритм вычисления вероятностей выбора в этой модели; (3) алгоритм активного обучения для оценки параметров модели из наблюдаемых данных выбора. Эти вклады предоставляют новые инструменты для анализа и прогнозирования в критических сценариях принятия решений и подтверждены строгим математическим анализом и обширными экспериментами на синтетических и реальных данных.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данная работа: как эффективно моделировать предпочтения пользователей и прогнозировать их поведение при выборе в реальных сценариях, когда пользователи предоставляют только частичную информацию о ранжировании (список top-k), а не полное ранжирование.

Важность проблемы

Широкое практическое применение: системы рекомендаций, рекламные платформы, поисковые системы, агрегаторы новостей и другие сценарии, где пользователи обычно выражают предпочтения только для ограниченного количества элементов
Ценность для бизнес-решений: точное прогнозирование поведения клиентов при выборе критично для управления доходами, оптимизации портфеля продуктов и других решений
Теоретическое значение: расширение классических вероятностных моделей ранжирования на более реалистичные сценарии частичного ранжирования

Ограничения существующих методов

Классическая модель Маллоуса: ограничена полными перестановками, не может обрабатывать частичные ранжирования
Модель Multinomial Logit (MNL): хотя проста, имеет ограниченную выразительность и удовлетворяет предположению о независимости нерелевантных альтернатив (IIA), что ограничивает моделирование сложного поведения при выборе
Существующие расширения top-k: модель top-k Маллоуса, предложенная Chierichetti et al. (2018), лишена эффективных алгоритмов выборки и методов вычисления вероятностей выбора
Сложность обучения параметров: отсутствуют теоретические гарантии для обучения параметров модели из данных выбора (в отличие от полных ранжирований)

Исследовательская мотивация

Авторы полагают, что расширение модели Маллоуса на списки top-k может более реалистично отражать структуру предпочтений пользователей, но требует решения трех ключевых алгоритмических проблем: эффективная выборка, вычисление вероятностей выбора и обучение параметров.

Основные вклады

Основные вклады работы включают:

Алгоритм выборки PRIM: предложен Profile-based Repeated Insertion Method (PRIM) для эффективной выборки из распределения TopKGMM, снижающий временную сложность с O(k²4^k + k²log n) до O(k2^k + k²log n)
Алгоритм DYPCHIP для вероятностей выбора: разработан алгоритм Dynamic Programming for Choice Probabilities (DYPCHIP), позволяющий эффективно вычислять вероятности выбора в модели top-k Маллоуса
Алгоритм активного обучения BUCCHOI: создан алгоритм Build Center from Choices (BUCCHOI) для активного обучения, выводящий центр распределения и размер k путем представления наборов продуктов указанного размера и наблюдения выборов, с сложностью выборки Θ(r²log n)
Обобщение модели: расширена модель top-k Маллоуса, предложенная Chierichetti et al., до обобщенной версии (TopKGMM), связывающей вес с каждым продуктом
Эмпирическая проверка: на наборе данных о предпочтениях суши доказано, что модель top-k Маллоуса имеет значительно более высокую точность прогнозирования, чем модель MNL

Подробное описание методов

Определение задачи

Входные данные:

Набор продуктов N = n ∪ {∅} (содержит n продуктов и опцию "не покупать")
Ассортимент (assortment) A ⊆ n

Выходные данные:

Вероятность того, что пользователь выберет продукт i из ассортимента A: C_D(i, A)

Предположения модели:

Предпочтения пользователя следуют распределению TopKGMM D
Функция выбора пользователя: C_τ(A) = i тогда и только тогда, когда i — элемент с наивысшим рангом в A∪{∅} относительно τ

Архитектура модели

1. Определение распределения TopKGMM

Для центра τ* ∈ T_{k,N} и параметров β ≥ 0, w ∈ R^{k+1}_{≥0}, p > 0 вероятность списка top-k τ определяется как:

P_D[τ] ∝ exp(-β K_{p,w}(τ, τ*))

где метрика расстояния определяется как:

K_{p,w}(τ, τ*) = w_0·p·Q(τ) + Σ_{i∈[k]} w_i·(I_i(τ) + p·P_i(τ))

Ключевые компоненты:

I_i(τ) (вектор инверсий): количество элементов с более низким приоритетом, чем i, но имеющих более высокий ранг в τ
P_i(τ): количество элементов, первоначально имеющих более низкий ранг, чем i, но несравнимых в τ
Q(τ): количество несравнимых пар элементов в τ*, которые не упорядочены в τ
w_i: вес элемента, позволяющий различным элементам иметь различную важность

2. Концепция профиля

Определение профиля: S ⊆ k представляет пересечение примера списка top-k τ с центром τ*, то есть τ ∩ τ* = S

Вероятность профиля (Лемма 3.3):

P_D[S] ∝ exp(-βf(S))·Z(S)

где:

f(S) = w_0·p·Q(S) + Σ_{j∈[k]\S} w_j(I_j(S) + p·P_j(S))

Z(S) = C(n-k, k-ℓ)·(k-ℓ)! · Π_{j=1}^ℓ Σ_{r=0}^{k-j} e^{-βw_{s_j}r}

Это разложение является ключевой инновацией алгоритма, разбивая сложное распределение top-k списков на две управляемые стадии: выбор профиля и условное ранжирование.

Технические инновации

1. Алгоритм выборки PRIM (Алгоритмы 3-5)

Основная идея:

Сначала выбрать профиль S согласно P_DS
Затем построить τ при условии S методом повторной вставки

Поток алгоритма:

1. Предварительно вычислить вероятности всех профилей (время O(2^γk), γ=min{k,n-k})
2. Выбрать профиль S
3. Инициализация: равномерно случайно выбрать k-ℓ элементов из [n]\[k]
4. Последовательно вставить элементы s из S в позицию j с вероятностью:
   P(вставить s в позицию j) ∝ exp(-βw_s·j)

Инновационные аспекты:

Решает открытую проблему, оставленную Chierichetti et al. (отсутствие метода выборки, подобного RIM)
Разложение профиля значительно снижает сложность
Амортизированная стоимость каждого образца после предварительной обработки составляет всего O(k log n)

2. Алгоритм DYPCHIP для вероятностей выбора (Раздел 4.1)

Основная идея: через динамическое программирование вычислить вероятность выбора при условии профиля S

Структура алгоритма:

Трехмерная таблица DP π_S(i, j, q):
- i: i-й элемент в ассортименте A
- j: текущая позиция
- q: q-я итерация алгоритма PRIM
- Значение: вероятность того, что после q-й итерации a_i является элементом с наивысшим рангом в A∅ и находится в позиции j

Рекуррентные соотношения:

Когда новый элемент не в A:
π_S(i,j,q) = π_S(i,j,q-1)·P(вставить>j) + π_S(i,j-1,q-1)·P(вставить≤j-1)

Когда новый элемент в A:
π_S(i,j,q) = π_S(i,j,q-1)·P(вставить>j)
π_S(cur,j,q) = P(вставить=j)·Σ_{i<cur}Σ_{j'≥j}π_S(i,j',q-1)

Финальная вероятность выбора:

C_D(a,A) = Σ_{S⊆[k]} P_D[S]·(π_S(a) + π̄_S(a))

Сложность: O(2^{min{k,n-k}}·k³·|A|²)

3. Алгоритм активного обучения BUCCHOI (Алгоритм 2)

Основная идея: активно выбирать наборы продуктов и наблюдать выборы для обучения центру τ*

Ключевой подалгоритм FINDTOP (Алгоритм 1):

Поддерживать матрицу X_: записывает разницу количеств раз, когда продукт i был выбран, а j не был выбран
Критерий определения: Y_ = X_/m, если существует a такой, что Y_{aa'} > (1+|A|)/2 для всех a'∈A∅{a}, то a — верхний элемент

Теоретические гарантии (Лемма 5.2):

Когда β ≥ log(3)/w_
Используя Θ(ζ(r+1)²log n) образцов
С вероятностью не менее 1-o(n^{-ζ}) правильно определить верхний элемент

Поток BUCCHOI:

Поддерживать три набора: T (определено в τ*), B (определено в τ̄*), U (неизвестно)
Повторить: выбрать ассортимент размера r, вызвать FINDTOP
Если найден верхний элемент, переместить в T; иначе весь A переместить в B
Наконец, вызвать SORTCNTR для сортировки элементов в T

Сложность выборки: Θ(r²log n)

Экспериментальная установка

Наборы данных

1. Набор данных о предпочтениях суши (реальные данные)

Источник: Kamishima et al. (2005)
Масштаб: 5000 предпочтений пользователей, каждое представлено как список top-10
Количество продуктов: 100 различных типов суши
Разделение: 80% обучающий набор, 20% тестовый набор
Назначение: оценка способности модели к прогнозированию и сравнение с MNL

2. Синтетические данные

Диапазон параметров:
- n (количество продуктов): 200-20000
- k (размер top-k): 6-16
- β (параметр затухания): 0.01-5
- p (параметр Kendall's Tau): 0.01-5
- r (размер ассортимента): адаптируется в зависимости от k
Назначение: оценка точности алгоритма и сложности, проверка теоретических результатов

Метрики оценки

1. Точность прогнозирования

Ошибка тестирования: абсолютная ошибка между эмпирической вероятностью выбора и предсказанной вероятностью
Метод вычисления: случайная выборка ассортиментов из тестового набора, запись фактических выборов и сравнение с прогнозами DYPCHIP

2. Точность обучения

Расстояние Kendall's Tau: расстояние между изученным центром и истинным центром K_p(τ_learned, τ_true)
Точность FINDTOP: частота правильного определения верхних элементов

3. Временная сложность

PRIM: время предварительной обработки и амортизированное время на образец
DYPCHIP: общее время вычисления всех вероятностей выбора
Алгоритм обучения: количество образцов, необходимых для достижения указанной точности

Методы сравнения

Multinomial Logit (MNL): классический базовый метод выбора
DP выборка Chierichetti et al.: предыдущий метод выборки top-k Маллоуса
Без кластеризации vs с кластеризацией: одиночное TopKGMM vs смешанное TopKGMM (2-5 кластеров)

Детали реализации

Эксперименты на наборе данных суши

Настройка параметров: поиск по сетке β∈{0.01,0.025,0.05,...,5}, p∈{0.05,0.1,...,2}
Метод кластеризации: k-means на основе расстояния K_p, количество кластеров ∈{2,3,5}
Коэффициент силуэта: используется для оценки качества кластеризации
Обучение центра: использование BUCCHOI-II (Алгоритм 7) для обработки образцов списков top-10

Эксперименты на синтетических данных

Количество повторений: 10 запусков для каждого набора параметров
Диапазон образцов: 50-250 (адаптируется в зависимости от задачи)
Установка весов: w=2⃗1 или w=32222111 и т.д.
Вычислительная среда: MacBook Pro M1 Max, 32GB RAM

Результаты экспериментов

Основные результаты

1. TopKGMM vs MNL (реальные данные)

Без кластеризации (Таблица 1):

Оптимальные параметры: β=0.05, p=0.5
Ошибка тестирования TopKGMM: 0.0817
Ошибка тестирования MNL: 0.168
Относительное улучшение: снижение ошибки на 51.4%

Ключевые находки:

Лучшая производительность при малых β (0.01-0.1), что указывает на относительно равномерное распределение
Лучший результат при p=0.5, балансирующем различные типы несогласованности
TopKGMM значительно превосходит MNL, подтверждая выразительность модели

С кластеризацией (Таблица 2, 2 кластера):

p=0.1, β=0.1: ошибка тестирования 0.0771
p=1.25, β=0.05: ошибка тестирования 0.0788
Наблюдение: производительность после кластеризации немного улучшается, но коэффициент силуэта очень низкий (<0.012), что указывает на то, что данные могут происходить из одного распределения

2. Точность DYPCHIP (Рисунок 2a)

Экспериментальная установка: n=200, k=6, r=4, p=0.5, w=2⃗1

Использование PRIM для генерации образцов, вычисление эмпирической частоты выбора
Сравнение с прогнозами DYPCHIP
Повторение на 20 случайных ассортиментах

Результаты:

Средняя абсолютная ошибка <0.02
Очень малое стандартное отклонение, указывающее на стабильность прогнозов
Подтверждение правильности DYPCHIP

3. Временная сложность PRIM (Таблица 3)

Время предварительной обработки (секунды):

k	8	10	12	14	16
Время	0.007	0.035	0.19	1.06	8.64

Амортизированное время на образец (секунды):

k	8	10	12	14	16
Время	5.67e-5	9.59e-5	2.2e-4	7.4e-4	3.2e-3

Наблюдения:

Время предварительной обработки растет экспоненциально с k (соответствует теории O(k2^k))
Амортизированное время очень мало, что обеспечивает эффективность крупномасштабной выборки
Влияние n минимально (подтверждает сложность O(k log n))

4. Временная сложность DYPCHIP (Рисунок 3)

Экспериментальные параметры: β=0.6, p=0.5, w=2⃗1, r=k-2

k=6: примерно 0.05 секунд
k=8: примерно 0.5 секунд
k=10: примерно 5 секунд
k=12: примерно 50 секунд

Наблюдения:

Время растет экспоненциально с k
Влияние n относительно мало
При k>12 вычислительные затраты значительны, что ограничивает практическое применение

Абляционные эксперименты

1. Сложность выборки FINDTOP (Рисунок 2b, Рисунок 4)

Влияние параметров:

Влияние β (n=900, k=10, r=5, p=1):
- β=0.2: требуется 200+ образцов для достижения 80% точности
- β=0.6: требуется 100 образцов для достижения 95% точности
- β=1.2: требуется 50 образцов для достижения 100% точности
- Вывод: чем больше β, тем более сконцентрировано распределение, тем легче обучение
Влияние k:
- k=12 vs k=14 (другие параметры одинаковы): большее k требует больше образцов
- Соответствует теоретической сложности O(r²log n)
Влияние r:
- r=5 vs r=10: большее r обеспечивает больше информации за наблюдение, но также увеличивает шум

2. Сложность выборки BUCCHOI (Рисунок 2c-d, Рисунок 5)

Эксперимент 1 (n=500, k=10, p=0.5, w=2⃗1):

50 образцов: расстояние Kendall's Tau ≈12
100 образцов: расстояние ≈3
200 образцов: расстояние ≈0 (идеальное восстановление)

Эксперимент 2 (n=300, k=8, p=2, w=32222111):

Неравномерные веса усложняют обучение
Требуется больше образцов для достижения той же точности
Но остается в пределах Θ(r²log n)

Влияние β (Таблица 5, n=1000, k=12):

β	0.4	0.6	0.8	1.0	1.2
50 образцов	12.75	8.25	7.05	4.35	0.7
100 образцов	3.5	0.35	0.0	0.0	0.0

Наблюдения:

При β≥1 100 образцов достаточно для идеального восстановления центра
При β=0.4 даже 100 образцов имеют ошибку
Подтверждает теоретическое требование β≥log(3)/w_

Анализ конкретных случаев

Анализ кластеризации набора данных суши

Кластеризация с положительным коэффициентом силуэта:

p=0.1, 2 кластера: коэффициент силуэта=0.0063
p=1.25, 2 кластера: коэффициент силуэта=0.0078
p=5, 2 кластера: коэффициент силуэта=0.0110
p=5, 3 кластера: коэффициент силуэта=0.0023

Интерпретация:

Очень низкие коэффициенты силуэта указывают на большую внутрикластерную дисперсию
Одиночное TopKGMM может быть более подходящим
Это согласуется с более низкой ошибкой без кластеризации

Экспериментальные находки

Выразительность модели: TopKGMM значительно превосходит MNL на реальных данных, снижая ошибку более чем на 50%
Эффективность алгоритма:
- PRIM эффективна при выборке после предварительной обработки
- DYPCHIP практична для k<12
- Сложность выборки алгоритма обучения логарифмическая
Чувствительность параметров:
- β — критический параметр, влияющий на концентрацию распределения и сложность обучения
- p требует настройки в зависимости от характеристик данных
- Неравномерность весов увеличивает сложность обучения
Проверка теории: результаты экспериментов высоко согласуются с теоретическим анализом сложности

Связанные работы

1. Моделирование выбора (Choice Modeling)

Multinomial Logit (MNL):

Предложена Bradley & Terry (1952)
Преимущества: простота, интерпретируемость, удовлетворение IIA
Недостатки: ограниченная выразительность

Смешанный MNL:

Обобщение McFadden & Train (2000)
Методы обучения: алгоритм EM (Dempster et al. 1977)
Теоретические гарантии: Chierichetti et al. (2018b), Oh & Shah (2014)

Другие фреймворки:

Модель выбора Маллоуса (Désir et al. 2021)
Модели цепей Маркова (Blanchet et al. 2016)

2. Модель Маллоуса

Классическая модель Маллоуса:

Оригинальное определение Mallows (1957)
Распределение перестановок на основе расстояния Kendall's Tau
Нормализующая константа имеет замкнутую форму

Расширение top-k:

Ранние работы Fligner & Verducci (1986), Lebanon & Mao (2008)
Chierichetti et al. (2018a) предложили TopKMM
Проблема: отсутствие замкнутой нормализующей константы и эффективной выборки

Обобщенная модель Маллоуса:

Fligner & Verducci (1986) ввели веса
Данная работа — первое расширение на списки top-k

3. Применение модели Маллоуса к выбору

Работа Désir et al.:

Désir et al. (2021) первыми применили Маллоуса для моделирования выбора
Доказали более высокую точность прогнозирования по сравнению с MNL
Разработали алгоритм DP для вероятностей выбора полных перестановок

Последующие исследования:

Управление доходами и оптимизация портфеля продуктов (Désir et al. 2021, 2023; Feng & Tang 2022)
Упрощенные модели (Feng & Tang 2022)

Вклад данной работы: расширение на списки top-k, предоставление полного набора алгоритмических инструментов

4. Обучение параметров

Обучение из полных ранжирований:

Liu & Moitra (2018), Braverman & Mossel (2008)
Awasthi et al. (2014), Seshadri et al. (2020)

Обучение из частичных наблюдений:

Попарные сравнения (Lu & Boutilier 2014; Vitelli et al. 2018)
Обучение из выбора: мало исследований, отсутствуют теоретические гарантии

Вклад данной работы:

Первый алгоритм активного обучения для top-k Маллоуса из данных выбора
Гарантии конечной сложности выборки Θ(r²log n)

Заключение и обсуждение

Основные выводы

Теоретические вклады:
- Предложена обобщенная модель top-k Маллоуса (TopKGMM)
- Разложение профиля обеспечивает эффективный дизайн алгоритмов
- Предоставлены строгие математические анализы и гарантии сложности
Вклады алгоритмов:
- PRIM: алгоритм выборки O(k2^k + k²log n)
- DYPCHIP: алгоритм вероятностей выбора O(2^{min{k,n-k}}k³|A|²)
- BUCCHOI: алгоритм активного обучения со сложностью выборки Θ(r²log n)
Эмпирические вклады:
- Проверка TopKGMM на реальных данных, превосходящей MNL (снижение ошибки на 51%)
- Проверка точности и эффективности алгоритмов
- Рекомендации по настройке параметров

Ограничения

Вычислительная сложность:
- Экспоненциальная зависимость DYPCHIP от k ограничивает сценарии с большим k (k>15)
- Время предварительной обработки PRIM растет экспоненциально с k
- На практике k должно быть относительно малым
Теоретические предположения:
- BUCCHOI требует β≥log(3)/w_, ограничивая сценарии с низким β
- Предположение ∅∉τ* ограничивает область применения
Предположения модели:
- Одиночное TopKGMM может быть недостаточным для захвата нескольких типов пользователей
- Обучение параметров смешанной модели остается открытой проблемой
Диапазон экспериментов:
- Проверка только на одном реальном наборе данных
- Требуется проверка приложений в большем количестве областей

Будущие направления

Обучение смешанной TopKGMM:
- Обучение нескольких типов клиентов из данных выбора
- Алгоритмы обучения, подобные смешанному MNL
Снижение вычислительной сложности:
- Приближенные алгоритмы для снижения экспоненциальной зависимости от k
- Распределенные или параллельные вычисления
Расширение модели:
- Рассмотрение контекстной информации (contextual Mallows)
- Моделирование динамических предпочтений
Практические приложения:
- Управление доходами и ценообразование
- Оптимизация систем рекомендаций
- Дизайн A/B тестирования

Глубокая оценка

Преимущества

Теоретическая строгость:
- Все алгоритмы имеют строгие доказательства правильности
- Полный анализ сложности (Теоремы 3.1, 4.1, 5.1)
- Вероятностные гарантии сложности выборки
Инновационность методов:
- Разложение профиля — ключевая инновация, умело разбивающая сложное распределение на управляемые части
- Решает открытую проблему Chierichetti et al.
- Первое реализованное вычисление вероятностей выбора для top-k Маллоуса
Полнота экспериментов:
- Синтетические данные широко охватывают пространство параметров
- Проверка на реальных данных эффективности
- Абляционные эксперименты анализируют влияние каждого параметра
- Код открыт для воспроизведения
Практическая ценность:
- Значительное превосходство над MNL на реальных данных
- Алгоритмы эффективны в разумном диапазоне параметров
- Предоставлен полный набор инструментов (выборка-вывод-обучение)
Ясность изложения:
- Четкая структура, логичное построение
- Точные определения математических символов
- Подробные псевдокоды алгоритмов (приложение)

Недостатки

Масштабируемость вычислений:
- Экспоненциальная зависимость от k — фундаментальное ограничение
- Непрактично для сценариев с k>15
- Отсутствие обсуждения приближенных алгоритмов
Ограничения экспериментов:
- Только один реальный набор данных: набор данных суши может не представлять все сценарии приложений
- Отсутствие сравнения с другими моделями выбора top-k (например, варианты top-k MNL)
- Отсутствие экспериментов на крупномасштабных наборах данных
Предположения модели:
- Предположение ∅∉τ* ограничивает область применения
- Предположение одиночного распределения может быть неуместным при неявной кластеризации
- Отсутствие обсуждения робастности при неправильной спецификации модели
Выбор параметров:
- Выбор β и p зависит от поиска по сетке
- Отсутствие методов автоматического выбора параметров
- Отсутствие рекомендаций по установке веса w
Разрыв между теорией и практикой:
- Теоретическое требование BUCCHOI β≥log(3)/w_≈1.1, но на практике β=0.05 также эффективна
- Теоретическая сложность — наихудший случай, на практике может быть лучше

Влияние

Академический вклад:
- Заполняет пробел в моделировании выбора top-k Маллоуса
- Предоставляет базовые алгоритмы для последующих исследований
- Может стимулировать дальнейшие исследования моделей выбора на основе Маллоуса
Практическая ценность:
- Системы рекомендаций: моделирование предпочтений пользователей к top-k рекомендациям
- Электронная коммерция: оптимизация портфеля продуктов
- Поисковые системы: понимание поведения пользователей при клике
Воспроизводимость:
- Открытый код: https://github.com/ShahrzadGit/topkmallows-choices
- Использование открытых наборов данных
- Подробные псевдокоды алгоритмов
Ограничения влияния:
- Ограничение k может препятствовать внедрению в крупномасштабных приложениях
- Требуется проверка на большем количестве реальных наборов данных для широкого применения

Применимые сценарии

Высокая применимость:

Системы рекомендаций с малым-средним k (k≤12):
- Отображение top-10 продуктов и прогнозирование выбора пользователя
- Рекомендации новостей, видео
Оптимизация портфеля продуктов:
- Выбор розничным торговцем, какие продукты отображать
- Дизайн меню
A/B тестирование:
- Сравнение привлекательности различных портфелей продуктов
- Алгоритм активного обучения может снизить требуемые образцы тестирования

Осторожное использование:

Сценарии с большим k (k>15): высокие вычислительные затраты
Системы реального времени: время вычисления DYPCHIP может не удовлетворять требованиям задержки
Экстремально неравномерные веса: сложность обучения увеличивается

Неприменимо:

Полные ранжирования известны: следует использовать классическую модель Маллоуса
Предпочтения пользователей полностью случайны: MNL может быть проще и эффективнее
Требуется интерпретируемость: параметры модели Маллоуса менее интерпретируемы, чем MNL

Ключевые ссылки

Mallows (1957): оригинальная модель Маллоуса
Chierichetti et al. (2018a): основание модели top-k Маллоуса
Désir et al. (2021, 2023): пионерские работы по применению Маллоуса к выбору
Bradley & Terry (1952): основание модели MNL
McFadden & Train (2000): модель смешанного MNL
Fligner & Verducci (1986): обобщенная модель Маллоуса

Резюме

Данная работа делает важные вклады на пересечении моделирования top-k Маллоуса и выбора. Благодаря умному разложению профиля авторы разработали полный набор алгоритмических инструментов и предоставили строгий теоретический анализ. Эксперименты подтверждают эффективность метода, особенно значительное превосходство над MNL на реальных данных.

Основная ценность заключается в: (1) теоретическом решении важной открытой проблемы; (2) предоставлении практически применимых инструментов; (3) создании основы для будущих исследований.

Основное ограничение — экспоненциальная зависимость от k, ограничивающая применение в сценариях с большим k. Будущие исследования смешанных моделей и разработка приближенных алгоритмов дополнительно повысят практическую применимость этого метода.

Для приложений, требующих моделирования предпочтений частичного ранжирования и прогнозирования поведения при выборе, фреймворк TopKGMM и алгоритмы, предложенные в данной работе, представляют ценные инструменты, особенно в сценариях с малым k (≤12) и требованиями высокой точности прогнозирования.