In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
Nahezu Minimax-Optimales Bedauern für Multinomiales Logistisches Bandit Paper-ID : 2405.09831Titel : Nearly Minimax Optimal Regret for Multinomial Logistic BanditAutoren : Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)Klassifizierung : stat.ML cs.LGVeröffentlichungszeit/Konferenz : NeurIPS 2024 (38. Konferenz zu Neural Information Processing Systems)Paper-Link : https://arxiv.org/abs/2405.09831 Dieses Paper untersucht das kontextuelle multinomiale logistische (MNL) Bandit-Problem, bei dem ein lernender Agent basierend auf Kontextinformationen sequenziell Produktkombinationen auswählt und Nutzerfeedback dem MNL-Auswahlmodell folgt. Bestehende Arbeiten weisen erhebliche Lücken zwischen unteren und oberen Schranken auf, insbesondere bezüglich der maximalen Produktkombinationsgröße K. Unter einheitlicher Belohnungseinstellung wird eine Bedauerns-Untergrenze von Ω(d√T/K) etabliert und ein Algorithmus mit konstanter Zeit OFU-MNL+ vorgeschlagen, der die übereinstimmende obere Schranke Õ(d√T/K) erreicht. Unter nicht-einheitlicher Belohnungseinstellung werden eine Untergrenze von Ω(d√T) und eine obere Schranke von Õ(d√T) nachgewiesen. Dies ist die erste Arbeit, die Minimax-Optimalität in der kontextuellen MNL-Bandit-Literatur nachweist.
MNL-Bandit-Problem : In Anwendungen wie Empfehlungssystemen und Online-Einzelhandel muss ein Agent dem Nutzer eine Produktgruppe bereitstellen, wobei das Auswahlverhalten des Nutzers dem multinomialen logistischen (MNL) Modell folgtKontextinformationen : In jeder Runde kann der Agent Produktmerkmale und möglicherweise Nutzer-Kontextinformationen beobachtenTheoretische Lücke : Bestehende Arbeiten weisen erhebliche Lücken zwischen oberen und unteren Schranken des Bedauerns auf, insbesondere bezüglich der Abhängigkeit von der Produktkombinationsgröße KTheoretische Vollständigkeit : Schließung von Lücken in der theoretischen Analyse von MNL-Bandits und Etablierung enger Bedauerns-SchrankenAlgorithmen-Effizienz : Entwurf rechnerisch effizienter Algorithmen, die exponentielle Zeitkomplexität bestehender Methoden vermeidenPraktische Anwendungen : Bereitstellung theoretischer Garantien und effizienter Algorithmen für praktische Anwendungen wie EmpfehlungssystemeTheoretische Lücke : Lücke von √K zwischen Untergrenze Ω(d√T/K) und Obergrenze Õ(d√T)Rechenkomplexität : Bestehende Algorithmen erfordern Aufzählung aller möglichen Produktkombinationen, was zu exponentieller Zeitkomplexität führtParameterabhängigkeit : Ungünstige Abhängigkeit von problemrelevanter Konstante κ, wobei 1/κ = O(K²)Etablierung enger Bedauerns-Schranken :Unter einheitlicher Belohnung: Untergrenze Ω(√(v₀K/(v₀+K))d√T), Obergrenze Õ(√(v₀K/(v₀+K))d√T) Unter nicht-einheitlicher Belohnung: Untergrenze Ω(d√T), Obergrenze Õ(d√T) Vorschlag des effizienten Algorithmus OFU-MNL+ :Konstante Zeitkomplexität O(1), unabhängig von Rundenzahl t Erster Algorithmus in MNL-Bandits, der nachweist, dass Bedauern mit zunehmendem K abnimmt Theoretische Innovationen :Erstmalige explizite Darstellung der Auswirkung des Attraktivitätsparameters der externen Option v₀ auf das Bedauern Bereitstellung instanzabhängiger Minimax-Bedauerns-Schranken Technische Verbesserungen :Verbesserte elliptische Potenzial-Lemma, das Abhängigkeit von K eliminiert Verlustfunktionsanalyse mit konstanter Selbstkonkordanz-Eigenschaft Eingabe :
In Runde t werden Merkmalsvektoren x_ ∈ ℝᵈ von N Produkten beobachtet Maximale Produktkombinationsgröße K Attraktivitätsparameter der externen Option v₀ Ausgabe :
Auswahl einer Produktkombination S_t ⊆ {1,...,N}, |S_t| ≤ K Beobachtung der Nutzerauswahl c_t ∈ S_t ∪ {0}, folgt dem MNL-Modell Ziel : Minimierung des kumulativen Bedauerns Reg_T(w*) = Σ_^T R_t(S_t, w ) - R_t(S_t, w*)
Die Wahrscheinlichkeit, dass der Nutzer Produkt i ∈ S_t auswählt, ist:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
Die Wahrscheinlichkeit der externen Option (Auswahl keines Produkts) ist:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
Online-Parameterschätzung :w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
wobei H̃_t = H_t + ηG_t(w_t), G_t(w) ist die Hessian-Matrix des MNL-VerlustsKonstruktion des Konfidenzbereichs :C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
wobei β_t(δ) = O(√(d log t log K))Berechnung des optimistischen Nutzens :α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
Auswahl der Produktkombination :Einheitliche Belohnung: Auswahl der K Produkte mit höchstem α_ Nicht-einheitliche Belohnung: Lösung eines kombinatorischen Optimierungsproblems in Polynomialzeit Verbesserte Selbstkonkordanz-Analyse : Nachweis, dass die MNL-Verlustfunktion 3√2-selbstkonkordant ist, eine Verbesserung um Faktor √K gegenüber dem bisherigen √(6K)K-unabhängiges elliptisches Potenzial-Lemma :Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
Enge KL-Divergenz-Schranke : Etablierung einer engeren KL-Divergenz-Obergrenze, Verbesserung der Ergebnisse von Chen et al.Synthetische Datensätze, Parameter w* ∈ ℝᵈ gleichmäßig aus -1/√d, 1/√d ᵈ abgetastet Kontextmerkmale x_ aus multivariater Gaußverteilung N(0_d, I_d) abgetastet und auf -1/√d, 1/√d ᵈ gekürzt Konfiguration: N=100, K∈{5,10,15}, d=5, T=3000 Kumulatives Bedauern: Σ_^T R_t(S_t, w ) - R_t(S_t, w*) Rechenzeit pro Runde UCB-MNL: Methode basierend auf Konfidenz-Obergrenze TS-MNL: Methode basierend auf Thompson-Sampling Regularisierungsparameter λ = 84√(2d)η Schrittweite η = (1/2)log(K+1) + 2 Konfidenzradius β_t(δ) = O(√(d log t log K)) Bedauerns-Leistung :Unter einheitlicher Belohnung nimmt das kumulative Bedauern aller Algorithmen mit zunehmendem K ab Unter nicht-einheitlicher Belohnung garantiert eine Zunahme von K keine Bedauerns-Verbesserung OFU-MNL+ übertrifft alle Baseline-Methoden in allen Einstellungen erheblich Rechnerische Effizienz :OFU-MNL+ behält konstante Rechenkosten bei, unabhängig von Rundenzahl t Rechenzeit von Baseline-Methoden wächst linear mit t Laufzeit unter einheitlicher Belohnung etwa 1/10 der nicht-einheitlichen Einstellung Experimentelle Ergebnisse validieren die theoretische Analyse:
Bei v₀ = Θ(1) nimmt Bedauern mit K ab Bei v₀ = Θ(K) ist Bedauern unabhängig von K Unter nicht-einheitlicher Belohnung ist Bedauern unabhängig von K Nicht-kontextuelle Einstellung : Agrawal et al. etablierten Untergrenze Ω(√(NT/K))Kontextuelle Einstellung : Chen et al. schlugen Untergrenze Ω(d√T/K) vor, aber Algorithmen-Komplexität ist exponentiellRechnerische Effizienz : Oh und Iyengar schlugen Algorithmus in Polynomialzeit vor, aber Bedauerns-Schranke hat 1/κ-AbhängigkeitBinäre logistische Bandits haben bereits optimale Algorithmen MNL-Bandits sind Multi-Choice-Erweiterung logistischer Bandits Verwandt mit Top-k kombinatorischen Bandits, aber unterschiedliche Belohnungsstruktur In MNL-Modell hängt Einzelprodukt-Belohnung von gesamter Kombination ab Theoretische Vollständigkeit : Erstmalige Erreichung von Minimax-Optimalität in MNL-BanditsAlgorithmen-Effizienz : Vorschlag des ersten Algorithmus mit konstanter Zeitkomplexität und OptimalitätParametereinfluss : Explizite Quantifizierung der Auswirkung von v₀ und K auf BedauernBeschränktheitsannahme : Erfordert ||w*||₂ ≤ 1, Lockerung führt zu zusätzlichen exponentiellen Faktoren in Bedauerns-SchrankenInstanzabhängige Schranken : Keine instanzabhängigen Schranken unter nicht-einheitlicher Belohnung etablierbarKonstante Faktoren : Logarithmische Faktoren in theoretischen Schranken könnten in der Praxis groß seinLockerung von Annahmen : Untersuchung optimaler Algorithmen unter unbeschränkten ParameternInstanzadaption : Etablierung instanzabhängiger Schranken für nicht-einheitliche BelohnungPraktische Anwendungen : Validierung der Algorithmen-Leistung in echten EmpfehlungssystemenBedeutende theoretische Beiträge : Erstmalige Lösung des Optimalitätsproblems in MNL-Bandits, Schließung wichtiger theoretischer LückeSignifikante technische Innovationen : Verbesserte Selbstkonkordanz-Analyse und elliptisches Potenzial-Lemma haben eigenständigen WertHoher praktischer Wert : Konstante Zeitkomplexität macht Algorithmus für praktische Anwendungen geeignetUmfassende Analyse : Berücksichtigung sowohl einheitlicher als auch nicht-einheitlicher Belohnung, Bereitstellung vollständiger theoretischer LandschaftAnnahme-Einschränkungen : Beschränktheitsannahme könnte in der Praxis zu streng seinKonstanten-Optimierung : Konstante Faktoren in theoretischen Schranken könnten nicht ausreichend eng seinExperimentelle Skalierung : Experimente nur auf synthetischen Daten, fehlende Validierung auf echten DatenAkademischer Wert : Etablierung solider Grundlagen für MNL-Bandit-Theorie, erwartete hohe ZitierratePraktischer Wert : Bereitstellung theoretischer Anleitung für Empfehlungssysteme, Online-Werbung und andere AnwendungenMethodologischer Beitrag : Technische Methoden können auf andere verwandte Probleme verallgemeinert werdenEmpfehlungssysteme : Online-Produktempfehlung, InhaltsempfehlungOnline-Werbung : Auswahl und Optimierung von AnzeigenkombinationenE-Commerce : Optimierung von Produktpräsentation und FörderungsstrategienDas Paper zitiert 52 verwandte Arbeiten, hauptsächlich einschließlich:
Grundlegende MNL-Bandit-Arbeiten: Agrawal et al., Chen et al. Logistische Bandit-Theorie: Faury et al., Abeille et al. Online-Lerngrundlagen: Lattimore & Szepesvári Selbstkonkordante Funktionstheorie: Tran-Dinh et al. Gesamtbewertung : Dies ist ein hochqualitatives Paper mit herausragendem theoretischem Beitrag, das erfolgreich das zentrale offene Problem im MNL-Bandit-Bereich löst, signifikante technische Innovationen aufweist, ausreichende experimentelle Validierung bietet und wichtige Auswirkungen auf verwandte Bereiche hat.