2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh
In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academic

Nahezu Minimax-Optimales Bedauern für Multinomiales Logistisches Bandit

Grundinformationen

  • Paper-ID: 2405.09831
  • Titel: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
  • Autoren: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
  • Klassifizierung: stat.ML cs.LG
  • Veröffentlichungszeit/Konferenz: NeurIPS 2024 (38. Konferenz zu Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2405.09831

Zusammenfassung

Dieses Paper untersucht das kontextuelle multinomiale logistische (MNL) Bandit-Problem, bei dem ein lernender Agent basierend auf Kontextinformationen sequenziell Produktkombinationen auswählt und Nutzerfeedback dem MNL-Auswahlmodell folgt. Bestehende Arbeiten weisen erhebliche Lücken zwischen unteren und oberen Schranken auf, insbesondere bezüglich der maximalen Produktkombinationsgröße K. Unter einheitlicher Belohnungseinstellung wird eine Bedauerns-Untergrenze von Ω(d√T/K) etabliert und ein Algorithmus mit konstanter Zeit OFU-MNL+ vorgeschlagen, der die übereinstimmende obere Schranke Õ(d√T/K) erreicht. Unter nicht-einheitlicher Belohnungseinstellung werden eine Untergrenze von Ω(d√T) und eine obere Schranke von Õ(d√T) nachgewiesen. Dies ist die erste Arbeit, die Minimax-Optimalität in der kontextuellen MNL-Bandit-Literatur nachweist.

Forschungshintergrund und Motivation

Problemhintergrund

  1. MNL-Bandit-Problem: In Anwendungen wie Empfehlungssystemen und Online-Einzelhandel muss ein Agent dem Nutzer eine Produktgruppe bereitstellen, wobei das Auswahlverhalten des Nutzers dem multinomialen logistischen (MNL) Modell folgt
  2. Kontextinformationen: In jeder Runde kann der Agent Produktmerkmale und möglicherweise Nutzer-Kontextinformationen beobachten
  3. Theoretische Lücke: Bestehende Arbeiten weisen erhebliche Lücken zwischen oberen und unteren Schranken des Bedauerns auf, insbesondere bezüglich der Abhängigkeit von der Produktkombinationsgröße K

Forschungsmotivation

  1. Theoretische Vollständigkeit: Schließung von Lücken in der theoretischen Analyse von MNL-Bandits und Etablierung enger Bedauerns-Schranken
  2. Algorithmen-Effizienz: Entwurf rechnerisch effizienter Algorithmen, die exponentielle Zeitkomplexität bestehender Methoden vermeiden
  3. Praktische Anwendungen: Bereitstellung theoretischer Garantien und effizienter Algorithmen für praktische Anwendungen wie Empfehlungssysteme

Einschränkungen bestehender Methoden

  1. Theoretische Lücke: Lücke von √K zwischen Untergrenze Ω(d√T/K) und Obergrenze Õ(d√T)
  2. Rechenkomplexität: Bestehende Algorithmen erfordern Aufzählung aller möglichen Produktkombinationen, was zu exponentieller Zeitkomplexität führt
  3. Parameterabhängigkeit: Ungünstige Abhängigkeit von problemrelevanter Konstante κ, wobei 1/κ = O(K²)

Kernbeiträge

  1. Etablierung enger Bedauerns-Schranken:
    • Unter einheitlicher Belohnung: Untergrenze Ω(√(v₀K/(v₀+K))d√T), Obergrenze Õ(√(v₀K/(v₀+K))d√T)
    • Unter nicht-einheitlicher Belohnung: Untergrenze Ω(d√T), Obergrenze Õ(d√T)
  2. Vorschlag des effizienten Algorithmus OFU-MNL+:
    • Konstante Zeitkomplexität O(1), unabhängig von Rundenzahl t
    • Erster Algorithmus in MNL-Bandits, der nachweist, dass Bedauern mit zunehmendem K abnimmt
  3. Theoretische Innovationen:
    • Erstmalige explizite Darstellung der Auswirkung des Attraktivitätsparameters der externen Option v₀ auf das Bedauern
    • Bereitstellung instanzabhängiger Minimax-Bedauerns-Schranken
  4. Technische Verbesserungen:
    • Verbesserte elliptische Potenzial-Lemma, das Abhängigkeit von K eliminiert
    • Verlustfunktionsanalyse mit konstanter Selbstkonkordanz-Eigenschaft

Methodische Details

Aufgabendefinition

Eingabe:

  • In Runde t werden Merkmalsvektoren x_ ∈ ℝᵈ von N Produkten beobachtet
  • Maximale Produktkombinationsgröße K
  • Attraktivitätsparameter der externen Option v₀

Ausgabe:

  • Auswahl einer Produktkombination S_t ⊆ {1,...,N}, |S_t| ≤ K
  • Beobachtung der Nutzerauswahl c_t ∈ S_t ∪ {0}, folgt dem MNL-Modell

Ziel: Minimierung des kumulativen Bedauerns Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Modellarchitektur

MNL-Auswahlmodell

Die Wahrscheinlichkeit, dass der Nutzer Produkt i ∈ S_t auswählt, ist:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Die Wahrscheinlichkeit der externen Option (Auswahl keines Produkts) ist:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Kernkomponenten des OFU-MNL+-Algorithmus

  1. Online-Parameterschätzung:
    w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
    

    wobei H̃_t = H_t + ηG_t(w_t), G_t(w) ist die Hessian-Matrix des MNL-Verlusts
  2. Konstruktion des Konfidenzbereichs:
    C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
    

    wobei β_t(δ) = O(√(d log t log K))
  3. Berechnung des optimistischen Nutzens:
    α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
    
  4. Auswahl der Produktkombination:
    • Einheitliche Belohnung: Auswahl der K Produkte mit höchstem α_
    • Nicht-einheitliche Belohnung: Lösung eines kombinatorischen Optimierungsproblems in Polynomialzeit

Technische Innovationspunkte

  1. Verbesserte Selbstkonkordanz-Analyse: Nachweis, dass die MNL-Verlustfunktion 3√2-selbstkonkordant ist, eine Verbesserung um Faktor √K gegenüber dem bisherigen √(6K)
  2. K-unabhängiges elliptisches Potenzial-Lemma:
    Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
    
  3. Enge KL-Divergenz-Schranke: Etablierung einer engeren KL-Divergenz-Obergrenze, Verbesserung der Ergebnisse von Chen et al.

Experimentelle Einrichtung

Datensätze

  • Synthetische Datensätze, Parameter w* ∈ ℝᵈ gleichmäßig aus -1/√d, 1/√dᵈ abgetastet
  • Kontextmerkmale x_ aus multivariater Gaußverteilung N(0_d, I_d) abgetastet und auf -1/√d, 1/√dᵈ gekürzt
  • Konfiguration: N=100, K∈{5,10,15}, d=5, T=3000

Bewertungsmetriken

  • Kumulatives Bedauern: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
  • Rechenzeit pro Runde

Vergleichsmethoden

  • UCB-MNL: Methode basierend auf Konfidenz-Obergrenze
  • TS-MNL: Methode basierend auf Thompson-Sampling

Implementierungsdetails

  • Regularisierungsparameter λ = 84√(2d)η
  • Schrittweite η = (1/2)log(K+1) + 2
  • Konfidenzradius β_t(δ) = O(√(d log t log K))

Experimentelle Ergebnisse

Hauptergebnisse

  1. Bedauerns-Leistung:
    • Unter einheitlicher Belohnung nimmt das kumulative Bedauern aller Algorithmen mit zunehmendem K ab
    • Unter nicht-einheitlicher Belohnung garantiert eine Zunahme von K keine Bedauerns-Verbesserung
    • OFU-MNL+ übertrifft alle Baseline-Methoden in allen Einstellungen erheblich
  2. Rechnerische Effizienz:
    • OFU-MNL+ behält konstante Rechenkosten bei, unabhängig von Rundenzahl t
    • Rechenzeit von Baseline-Methoden wächst linear mit t
    • Laufzeit unter einheitlicher Belohnung etwa 1/10 der nicht-einheitlichen Einstellung

Theoretische Validierung

Experimentelle Ergebnisse validieren die theoretische Analyse:

  • Bei v₀ = Θ(1) nimmt Bedauern mit K ab
  • Bei v₀ = Θ(K) ist Bedauern unabhängig von K
  • Unter nicht-einheitlicher Belohnung ist Bedauern unabhängig von K

Verwandte Arbeiten

MNL-Bandit-Forschung

  1. Nicht-kontextuelle Einstellung: Agrawal et al. etablierten Untergrenze Ω(√(NT/K))
  2. Kontextuelle Einstellung: Chen et al. schlugen Untergrenze Ω(d√T/K) vor, aber Algorithmen-Komplexität ist exponentiell
  3. Rechnerische Effizienz: Oh und Iyengar schlugen Algorithmus in Polynomialzeit vor, aber Bedauerns-Schranke hat 1/κ-Abhängigkeit

Logistische Bandits

  • Binäre logistische Bandits haben bereits optimale Algorithmen
  • MNL-Bandits sind Multi-Choice-Erweiterung logistischer Bandits

Kombinatorische Bandits

  • Verwandt mit Top-k kombinatorischen Bandits, aber unterschiedliche Belohnungsstruktur
  • In MNL-Modell hängt Einzelprodukt-Belohnung von gesamter Kombination ab

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Vollständigkeit: Erstmalige Erreichung von Minimax-Optimalität in MNL-Bandits
  2. Algorithmen-Effizienz: Vorschlag des ersten Algorithmus mit konstanter Zeitkomplexität und Optimalität
  3. Parametereinfluss: Explizite Quantifizierung der Auswirkung von v₀ und K auf Bedauern

Einschränkungen

  1. Beschränktheitsannahme: Erfordert ||w*||₂ ≤ 1, Lockerung führt zu zusätzlichen exponentiellen Faktoren in Bedauerns-Schranken
  2. Instanzabhängige Schranken: Keine instanzabhängigen Schranken unter nicht-einheitlicher Belohnung etablierbar
  3. Konstante Faktoren: Logarithmische Faktoren in theoretischen Schranken könnten in der Praxis groß sein

Zukünftige Richtungen

  1. Lockerung von Annahmen: Untersuchung optimaler Algorithmen unter unbeschränkten Parametern
  2. Instanzadaption: Etablierung instanzabhängiger Schranken für nicht-einheitliche Belohnung
  3. Praktische Anwendungen: Validierung der Algorithmen-Leistung in echten Empfehlungssystemen

Tiefgreifende Bewertung

Stärken

  1. Bedeutende theoretische Beiträge: Erstmalige Lösung des Optimalitätsproblems in MNL-Bandits, Schließung wichtiger theoretischer Lücke
  2. Signifikante technische Innovationen: Verbesserte Selbstkonkordanz-Analyse und elliptisches Potenzial-Lemma haben eigenständigen Wert
  3. Hoher praktischer Wert: Konstante Zeitkomplexität macht Algorithmus für praktische Anwendungen geeignet
  4. Umfassende Analyse: Berücksichtigung sowohl einheitlicher als auch nicht-einheitlicher Belohnung, Bereitstellung vollständiger theoretischer Landschaft

Mängel

  1. Annahme-Einschränkungen: Beschränktheitsannahme könnte in der Praxis zu streng sein
  2. Konstanten-Optimierung: Konstante Faktoren in theoretischen Schranken könnten nicht ausreichend eng sein
  3. Experimentelle Skalierung: Experimente nur auf synthetischen Daten, fehlende Validierung auf echten Daten

Einflussfaktor

  1. Akademischer Wert: Etablierung solider Grundlagen für MNL-Bandit-Theorie, erwartete hohe Zitierrate
  2. Praktischer Wert: Bereitstellung theoretischer Anleitung für Empfehlungssysteme, Online-Werbung und andere Anwendungen
  3. Methodologischer Beitrag: Technische Methoden können auf andere verwandte Probleme verallgemeinert werden

Anwendungsszenarien

  1. Empfehlungssysteme: Online-Produktempfehlung, Inhaltsempfehlung
  2. Online-Werbung: Auswahl und Optimierung von Anzeigenkombinationen
  3. E-Commerce: Optimierung von Produktpräsentation und Förderungsstrategien

Literaturverzeichnis

Das Paper zitiert 52 verwandte Arbeiten, hauptsächlich einschließlich:

  • Grundlegende MNL-Bandit-Arbeiten: Agrawal et al., Chen et al.
  • Logistische Bandit-Theorie: Faury et al., Abeille et al.
  • Online-Lerngrundlagen: Lattimore & Szepesvári
  • Selbstkonkordante Funktionstheorie: Tran-Dinh et al.

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit herausragendem theoretischem Beitrag, das erfolgreich das zentrale offene Problem im MNL-Bandit-Bereich löst, signifikante technische Innovationen aufweist, ausreichende experimentelle Validierung bietet und wichtige Auswirkungen auf verwandte Bereiche hat.