In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
Regret Quasi-Minimax Ottimale per il Bandit Logistico Multinomiale ID Articolo : 2405.09831Titolo : Nearly Minimax Optimal Regret for Multinomial Logistic BanditAutori : Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)Classificazione : stat.ML cs.LGData di Pubblicazione/Conferenza : NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)Link Articolo : https://arxiv.org/abs/2405.09831 Questo articolo affronta il problema del bandit logistico multinomiale (MNL) contestuale, in cui un agente di apprendimento seleziona sequenzialmente insiemi di articoli sulla base di informazioni contestuali, mentre il feedback dell'utente segue il modello di scelta MNL. I lavori precedenti presentano un divario significativo tra i limiti inferiori e superiori, in particolare rispetto alla dimensione massima dell'insieme di articoli K. Nel contesto di ricompense uniformi, l'articolo stabilisce un limite inferiore di regret Ω(d√T/K) e propone l'algoritmo OFU-MNL+ a tempo costante, che raggiunge il limite superiore corrispondente Õ(d√T/K). Nel contesto di ricompense non uniformi, dimostra un limite inferiore di Ω(d√T) e un limite superiore di Õ(d√T). Questo è il primo lavoro che dimostra l'ottimalità minimax nella letteratura sui bandit MNL contestuali.
Problema del Bandit MNL : In applicazioni come i sistemi di raccomandazione e il commercio al dettaglio online, l'agente deve fornire un insieme di articoli all'utente, il cui comportamento di scelta segue il modello logistico multinomiale (MNL)Informazioni Contestuali : In ogni round, l'agente può osservare le caratteristiche degli articoli e le possibili informazioni contestuali dell'utenteLacuna Teorica : I lavori precedenti presentano un divario significativo tra i limiti superiori e inferiori del regret, in particolare riguardante la dipendenza dalla dimensione dell'insieme KCompletezza Teorica : Colmare le lacune nell'analisi teorica dei bandit MNL e stabilire limiti di regret strettiEfficienza Algoritmica : Progettare algoritmi computazionalmente efficienti, evitando la complessità temporale esponenziale dei metodi esistentiApplicazioni Pratiche : Fornire garanzie teoriche e algoritmi efficienti per applicazioni pratiche come i sistemi di raccomandazioneDivario Teorico : Esiste un divario di √K tra il limite inferiore Ω(d√T/K) e il limite superiore Õ(d√T)Complessità Computazionale : Gli algoritmi esistenti richiedono l'enumerazione di tutti i possibili insiemi di articoli, causando complessità temporale esponenzialeDipendenza dai Parametri : Dipendenza sfavorevole dalla costante κ relativa al problema, dove 1/κ = O(K²)Stabilimento di Limiti di Regret Stretti :Con ricompense uniformi: limite inferiore Ω(√(v₀K/(v₀+K))d√T), limite superiore Õ(√(v₀K/(v₀+K))d√T) Con ricompense non uniformi: limite inferiore Ω(d√T), limite superiore Õ(d√T) Proposta dell'Algoritmo Efficiente OFU-MNL+ :Complessità temporale costante O(1), indipendente dal numero di round t Primo algoritmo nei bandit MNL che dimostra la riduzione del regret all'aumentare di K Innovazioni Teoriche :Prima dimostrazione esplicita dell'impatto del parametro di attrazione dell'opzione esterna v₀ sul regret Limiti di regret minimax dipendenti dall'istanza Miglioramenti Tecnici :Lemma del potenziale ellittico migliorato, che elimina la dipendenza da K Analisi della funzione di perdita con proprietà di auto-concordanza costante Input :
Ad ogni round t, si osservano i vettori di caratteristiche x_ ∈ ℝᵈ di N articoli Dimensione massima dell'insieme di articoli K Parametro di attrazione dell'opzione esterna v₀ Output :
Selezione dell'insieme di articoli S_t ⊆ {1,...,N}, |S_t| ≤ K Osservazione della scelta dell'utente c_t ∈ S_t ∪ {0}, che segue il modello MNL Obiettivo : Minimizzare il regret cumulativo Reg_T(w*) = Σ_^T R_t(S_t, w ) - R_t(S_t, w*)
La probabilità che l'utente scelga l'articolo i ∈ S_t è:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
La probabilità dell'opzione esterna (non scegliere alcun articolo) è:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
Stima Parametrica Online :w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
dove H̃_t = H_t + ηG_t(w_t), e G_t(w) è la matrice Hessiana della perdita MNLCostruzione dell'Insieme di Confidenza :C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
dove β_t(δ) = O(√(d log t log K))Calcolo dell'Utilità Ottimistica :α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
Selezione dell'Insieme di Articoli :Ricompense uniformi: selezionare i K articoli con α_ più elevati Ricompense non uniformi: risolvere un problema di ottimizzazione combinatoria in tempo polinomiale Analisi di Auto-Concordanza Migliorata : Dimostra che la funzione di perdita MNL possiede una proprietà di auto-concordanza 3√2, migliorando di un fattore √K rispetto ai risultati precedenti di √(6K)Lemma del Potenziale Ellittico Indipendente da K :Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
Limite di Divergenza KL Stretto : Stabilisce un limite di divergenza KL più stretto, migliorando i risultati di Chen et al.Dataset sintetici, con parametri w* ∈ ℝᵈ campionati uniformemente da -1/√d, 1/√d ᵈ Caratteristiche contestuali x_ campionate da una distribuzione gaussiana multivariata N(0_d, I_d) e troncate a -1/√d, 1/√d ᵈ Configurazione: N=100, K∈{5,10,15}, d=5, T=3000 Regret cumulativo: Σ_^T R_t(S_t, w ) - R_t(S_t, w*) Tempo di calcolo per round UCB-MNL: metodo basato su limite di confidenza superiore TS-MNL: metodo basato su campionamento di Thompson Parametro di regolarizzazione λ = 84√(2d)η Passo di apprendimento η = (1/2)log(K+1) + 2 Raggio di confidenza β_t(δ) = O(√(d log t log K)) Prestazioni di Regret :Con ricompense uniformi, il regret cumulativo di tutti gli algoritmi diminuisce all'aumentare di K Con ricompense non uniformi, l'aumento di K non garantisce il miglioramento del regret OFU-MNL+ supera significativamente i metodi di base in tutte le configurazioni Efficienza Computazionale :OFU-MNL+ mantiene un costo computazionale costante, indipendente dal numero di round t Il tempo di calcolo dei metodi di base aumenta linearmente con t Il tempo di esecuzione nella configurazione di ricompense uniformi è circa 1/10 rispetto alla configurazione non uniforme I risultati sperimentali verificano l'analisi teorica:
Quando v₀ = Θ(1), il regret diminuisce con K Quando v₀ = Θ(K), il regret è indipendente da K Con ricompense non uniformi, il regret è indipendente da K Configurazione Non Contestuale : Agrawal et al. hanno stabilito un limite inferiore di Ω(√(NT/K))Configurazione Contestuale : Chen et al. hanno proposto un limite inferiore di Ω(d√T/K), ma la complessità dell'algoritmo è esponenzialeEfficienza Computazionale : Oh e Iyengar hanno proposto un algoritmo in tempo polinomiale, ma il limite di regret ha una dipendenza da 1/κAlgoritmi ottimali già esistono per bandit logistici binari Il bandit MNL è un'estensione multi-scelta del bandit logistico Correlati ai bandit combinatori top-k ma con struttura di ricompensa diversa Nel modello MNL, la ricompensa di un singolo articolo dipende dall'intero insieme Completezza Teorica : Prima realizzazione dell'ottimalità minimax nei bandit MNLEfficienza Algoritmica : Proposta del primo algoritmo ottimale con complessità temporale costanteImpatto dei Parametri : Quantificazione esplicita dell'impatto di v₀ e K sul regretIpotesi di Limitatezza : Richiede ||w*||₂ ≤ 1; l'allentamento comporterebbe fattori esponenziali aggiuntivi nei limiti di regretLimiti Dipendenti dall'Istanza : Impossibilità di stabilire limiti dipendenti dall'istanza nel caso di ricompense non uniformiFattori Costanti : I fattori logaritmici nei limiti teorici potrebbero essere significativi nella praticaAllentamento delle Ipotesi : Ricerca di algoritmi ottimali nel caso di parametri illimitatiAdattabilità all'Istanza : Stabilimento di limiti dipendenti dall'istanza per ricompense non uniformiApplicazioni Pratiche : Verifica delle prestazioni dell'algoritmo su sistemi di raccomandazione realiContributo Teorico Significativo : Primo articolo a risolvere il problema dell'ottimalità nei bandit MNL, colmando un'importante lacuna teoricaInnovazioni Tecniche Notevoli : L'analisi di auto-concordanza migliorata e il lemma del potenziale ellittico hanno valore indipendenteAlto Valore Pratico : La complessità temporale costante rende l'algoritmo potenzialmente applicabile in praticaAnalisi Completa : Considerazione sia di ricompense uniformi che non uniformi, fornendo un quadro teorico completoLimitazioni delle Ipotesi : L'ipotesi di parametri limitati potrebbe essere troppo restrittiva nella praticaOttimizzazione delle Costanti : I fattori costanti nei limiti teorici potrebbero non essere sufficientemente strettiScala Sperimentale : Gli esperimenti sono condotti solo su dati sintetici, mancando la verifica su dati realiValore Accademico : Pone fondamenta solide per la teoria dei bandit MNL, con previsione di alto numero di citazioniValore Pratico : Fornisce guida teorica per applicazioni come sistemi di raccomandazione e pubblicità onlineContributo Metodologico : Le tecniche sviluppate sono generalizzabili ad altri problemi correlatiSistemi di Raccomandazione : Raccomandazione online di prodotti, raccomandazione di contenutiPubblicità Online : Selezione e ottimizzazione della combinazione di annunciE-commerce : Ottimizzazione della disposizione dei prodotti e strategie promozionaliL'articolo cita 52 lavori correlati, principalmente includenti:
Lavori fondamentali sui bandit MNL: Agrawal et al., Chen et al. Teoria dei bandit logistici: Faury et al., Abeille et al. Fondamenti dell'apprendimento online: Lattimore & Szepesvári Teoria delle funzioni auto-concordanti: Tran-Dinh et al. Valutazione Complessiva : Questo è un articolo di alta qualità con contributi teorici eccezionali, che risolve con successo il problema aperto centrale nel campo dei bandit MNL, con innovazioni tecniche significative, verifica sperimentale adeguata e importante impatto sulla ricerca correlata.