2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Î©(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Î©(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.

academic

Nahezu Minimax-Optimales Bedauern für Multinomiales Logistisches Bandit

Grundinformationen

Paper-ID: 2405.09831
Titel: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
Autoren: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
Klassifizierung: stat.ML cs.LG
Veröffentlichungszeit/Konferenz: NeurIPS 2024 (38. Konferenz zu Neural Information Processing Systems)
Paper-Link: https://arxiv.org/abs/2405.09831

Zusammenfassung

Dieses Paper untersucht das kontextuelle multinomiale logistische (MNL) Bandit-Problem, bei dem ein lernender Agent basierend auf Kontextinformationen sequenziell Produktkombinationen auswählt und Nutzerfeedback dem MNL-Auswahlmodell folgt. Bestehende Arbeiten weisen erhebliche Lücken zwischen unteren und oberen Schranken auf, insbesondere bezüglich der maximalen Produktkombinationsgröße K. Unter einheitlicher Belohnungseinstellung wird eine Bedauerns-Untergrenze von Ω(d√T/K) etabliert und ein Algorithmus mit konstanter Zeit OFU-MNL+ vorgeschlagen, der die übereinstimmende obere Schranke Õ(d√T/K) erreicht. Unter nicht-einheitlicher Belohnungseinstellung werden eine Untergrenze von Ω(d√T) und eine obere Schranke von Õ(d√T) nachgewiesen. Dies ist die erste Arbeit, die Minimax-Optimalität in der kontextuellen MNL-Bandit-Literatur nachweist.

Forschungshintergrund und Motivation

Problemhintergrund

MNL-Bandit-Problem: In Anwendungen wie Empfehlungssystemen und Online-Einzelhandel muss ein Agent dem Nutzer eine Produktgruppe bereitstellen, wobei das Auswahlverhalten des Nutzers dem multinomialen logistischen (MNL) Modell folgt
Kontextinformationen: In jeder Runde kann der Agent Produktmerkmale und möglicherweise Nutzer-Kontextinformationen beobachten
Theoretische Lücke: Bestehende Arbeiten weisen erhebliche Lücken zwischen oberen und unteren Schranken des Bedauerns auf, insbesondere bezüglich der Abhängigkeit von der Produktkombinationsgröße K

Forschungsmotivation

Theoretische Vollständigkeit: Schließung von Lücken in der theoretischen Analyse von MNL-Bandits und Etablierung enger Bedauerns-Schranken
Algorithmen-Effizienz: Entwurf rechnerisch effizienter Algorithmen, die exponentielle Zeitkomplexität bestehender Methoden vermeiden
Praktische Anwendungen: Bereitstellung theoretischer Garantien und effizienter Algorithmen für praktische Anwendungen wie Empfehlungssysteme

Einschränkungen bestehender Methoden

Theoretische Lücke: Lücke von √K zwischen Untergrenze Ω(d√T/K) und Obergrenze Õ(d√T)
Rechenkomplexität: Bestehende Algorithmen erfordern Aufzählung aller möglichen Produktkombinationen, was zu exponentieller Zeitkomplexität führt
Parameterabhängigkeit: Ungünstige Abhängigkeit von problemrelevanter Konstante κ, wobei 1/κ = O(K²)

Kernbeiträge

Etablierung enger Bedauerns-Schranken:
- Unter einheitlicher Belohnung: Untergrenze Ω(√(v₀K/(v₀+K))d√T), Obergrenze Õ(√(v₀K/(v₀+K))d√T)
- Unter nicht-einheitlicher Belohnung: Untergrenze Ω(d√T), Obergrenze Õ(d√T)
Vorschlag des effizienten Algorithmus OFU-MNL+:
- Konstante Zeitkomplexität O(1), unabhängig von Rundenzahl t
- Erster Algorithmus in MNL-Bandits, der nachweist, dass Bedauern mit zunehmendem K abnimmt
Theoretische Innovationen:
- Erstmalige explizite Darstellung der Auswirkung des Attraktivitätsparameters der externen Option v₀ auf das Bedauern
- Bereitstellung instanzabhängiger Minimax-Bedauerns-Schranken
Technische Verbesserungen:
- Verbesserte elliptische Potenzial-Lemma, das Abhängigkeit von K eliminiert
- Verlustfunktionsanalyse mit konstanter Selbstkonkordanz-Eigenschaft

Methodische Details

Aufgabendefinition

Eingabe:

In Runde t werden Merkmalsvektoren x_ ∈ ℝᵈ von N Produkten beobachtet
Maximale Produktkombinationsgröße K
Attraktivitätsparameter der externen Option v₀

Ausgabe:

Auswahl einer Produktkombination S_t ⊆ {1,...,N}, |S_t| ≤ K
Beobachtung der Nutzerauswahl c_t ∈ S_t ∪ {0}, folgt dem MNL-Modell

Ziel: Minimierung des kumulativen Bedauerns Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Modellarchitektur

MNL-Auswahlmodell

Die Wahrscheinlichkeit, dass der Nutzer Produkt i ∈ S_t auswählt, ist:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Die Wahrscheinlichkeit der externen Option (Auswahl keines Produkts) ist:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Kernkomponenten des OFU-MNL+-Algorithmus

Online-Parameterschätzung:
```
w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
```
wobei H̃_t = H_t + ηG_t(w_t), G_t(w) ist die Hessian-Matrix des MNL-Verlusts
Konstruktion des Konfidenzbereichs:
```
C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
```
wobei β_t(δ) = O(√(d log t log K))

Berechnung des optimistischen Nutzens:

α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}

Auswahl der Produktkombination:
- Einheitliche Belohnung: Auswahl der K Produkte mit höchstem α_
- Nicht-einheitliche Belohnung: Lösung eines kombinatorischen Optimierungsproblems in Polynomialzeit

Technische Innovationspunkte

Verbesserte Selbstkonkordanz-Analyse: Nachweis, dass die MNL-Verlustfunktion 3√2-selbstkonkordant ist, eine Verbesserung um Faktor √K gegenüber dem bisherigen √(6K)

K-unabhängiges elliptisches Potenzial-Lemma:

Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))

Enge KL-Divergenz-Schranke: Etablierung einer engeren KL-Divergenz-Obergrenze, Verbesserung der Ergebnisse von Chen et al.

Experimentelle Einrichtung

Datensätze

Synthetische Datensätze, Parameter w* ∈ ℝᵈ gleichmäßig aus -1/√d, 1/√dᵈ abgetastet
Kontextmerkmale x_ aus multivariater Gaußverteilung N(0_d, I_d) abgetastet und auf -1/√d, 1/√dᵈ gekürzt
Konfiguration: N=100, K∈{5,10,15}, d=5, T=3000

Bewertungsmetriken

Kumulatives Bedauern: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
Rechenzeit pro Runde

Vergleichsmethoden

UCB-MNL: Methode basierend auf Konfidenz-Obergrenze
TS-MNL: Methode basierend auf Thompson-Sampling

Implementierungsdetails

Regularisierungsparameter λ = 84√(2d)η
Schrittweite η = (1/2)log(K+1) + 2
Konfidenzradius β_t(δ) = O(√(d log t log K))

Experimentelle Ergebnisse

Hauptergebnisse

Bedauerns-Leistung:
- Unter einheitlicher Belohnung nimmt das kumulative Bedauern aller Algorithmen mit zunehmendem K ab
- Unter nicht-einheitlicher Belohnung garantiert eine Zunahme von K keine Bedauerns-Verbesserung
- OFU-MNL+ übertrifft alle Baseline-Methoden in allen Einstellungen erheblich
Rechnerische Effizienz:
- OFU-MNL+ behält konstante Rechenkosten bei, unabhängig von Rundenzahl t
- Rechenzeit von Baseline-Methoden wächst linear mit t
- Laufzeit unter einheitlicher Belohnung etwa 1/10 der nicht-einheitlichen Einstellung

Theoretische Validierung

Experimentelle Ergebnisse validieren die theoretische Analyse:

Bei v₀ = Θ(1) nimmt Bedauern mit K ab
Bei v₀ = Θ(K) ist Bedauern unabhängig von K
Unter nicht-einheitlicher Belohnung ist Bedauern unabhängig von K

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Vollständigkeit: Erstmalige Erreichung von Minimax-Optimalität in MNL-Bandits
Algorithmen-Effizienz: Vorschlag des ersten Algorithmus mit konstanter Zeitkomplexität und Optimalität
Parametereinfluss: Explizite Quantifizierung der Auswirkung von v₀ und K auf Bedauern

Einschränkungen

Beschränktheitsannahme: Erfordert ||w*||₂ ≤ 1, Lockerung führt zu zusätzlichen exponentiellen Faktoren in Bedauerns-Schranken
Instanzabhängige Schranken: Keine instanzabhängigen Schranken unter nicht-einheitlicher Belohnung etablierbar
Konstante Faktoren: Logarithmische Faktoren in theoretischen Schranken könnten in der Praxis groß sein

Zukünftige Richtungen

Lockerung von Annahmen: Untersuchung optimaler Algorithmen unter unbeschränkten Parametern
Instanzadaption: Etablierung instanzabhängiger Schranken für nicht-einheitliche Belohnung
Praktische Anwendungen: Validierung der Algorithmen-Leistung in echten Empfehlungssystemen

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge: Erstmalige Lösung des Optimalitätsproblems in MNL-Bandits, Schließung wichtiger theoretischer Lücke
Signifikante technische Innovationen: Verbesserte Selbstkonkordanz-Analyse und elliptisches Potenzial-Lemma haben eigenständigen Wert
Hoher praktischer Wert: Konstante Zeitkomplexität macht Algorithmus für praktische Anwendungen geeignet
Umfassende Analyse: Berücksichtigung sowohl einheitlicher als auch nicht-einheitlicher Belohnung, Bereitstellung vollständiger theoretischer Landschaft

Mängel

Annahme-Einschränkungen: Beschränktheitsannahme könnte in der Praxis zu streng sein
Konstanten-Optimierung: Konstante Faktoren in theoretischen Schranken könnten nicht ausreichend eng sein
Experimentelle Skalierung: Experimente nur auf synthetischen Daten, fehlende Validierung auf echten Daten

Einflussfaktor

Akademischer Wert: Etablierung solider Grundlagen für MNL-Bandit-Theorie, erwartete hohe Zitierrate
Praktischer Wert: Bereitstellung theoretischer Anleitung für Empfehlungssysteme, Online-Werbung und andere Anwendungen
Methodologischer Beitrag: Technische Methoden können auf andere verwandte Probleme verallgemeinert werden

Anwendungsszenarien

Empfehlungssysteme: Online-Produktempfehlung, Inhaltsempfehlung
Online-Werbung: Auswahl und Optimierung von Anzeigenkombinationen
E-Commerce: Optimierung von Produktpräsentation und Förderungsstrategien

Literaturverzeichnis

Das Paper zitiert 52 verwandte Arbeiten, hauptsächlich einschließlich:

Grundlegende MNL-Bandit-Arbeiten: Agrawal et al., Chen et al.
Logistische Bandit-Theorie: Faury et al., Abeille et al.
Online-Lerngrundlagen: Lattimore & Szepesvári
Selbstkonkordante Funktionstheorie: Tran-Dinh et al.

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit herausragendem theoretischem Beitrag, das erfolgreich das zentrale offene Problem im MNL-Bandit-Bereich löst, signifikante technische Innovationen aufweist, ausreichende experimentelle Validierung bietet und wichtige Auswirkungen auf verwandte Bereiche hat.