2025-11-15T02:07:10.757818

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit

Lee, Oh

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Î©(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Î©(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.

academic

Regret Quasi-Minimax Ottimale per il Bandit Logistico Multinomiale

Informazioni Fondamentali

ID Articolo: 2405.09831
Titolo: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
Autori: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
Classificazione: stat.ML cs.LG
Data di Pubblicazione/Conferenza: NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2405.09831

Riassunto

Questo articolo affronta il problema del bandit logistico multinomiale (MNL) contestuale, in cui un agente di apprendimento seleziona sequenzialmente insiemi di articoli sulla base di informazioni contestuali, mentre il feedback dell'utente segue il modello di scelta MNL. I lavori precedenti presentano un divario significativo tra i limiti inferiori e superiori, in particolare rispetto alla dimensione massima dell'insieme di articoli K. Nel contesto di ricompense uniformi, l'articolo stabilisce un limite inferiore di regret Ω(d√T/K) e propone l'algoritmo OFU-MNL+ a tempo costante, che raggiunge il limite superiore corrispondente Õ(d√T/K). Nel contesto di ricompense non uniformi, dimostra un limite inferiore di Ω(d√T) e un limite superiore di Õ(d√T). Questo è il primo lavoro che dimostra l'ottimalità minimax nella letteratura sui bandit MNL contestuali.

Contesto di Ricerca e Motivazione

Contesto del Problema

Problema del Bandit MNL: In applicazioni come i sistemi di raccomandazione e il commercio al dettaglio online, l'agente deve fornire un insieme di articoli all'utente, il cui comportamento di scelta segue il modello logistico multinomiale (MNL)
Informazioni Contestuali: In ogni round, l'agente può osservare le caratteristiche degli articoli e le possibili informazioni contestuali dell'utente
Lacuna Teorica: I lavori precedenti presentano un divario significativo tra i limiti superiori e inferiori del regret, in particolare riguardante la dipendenza dalla dimensione dell'insieme K

Motivazione della Ricerca

Completezza Teorica: Colmare le lacune nell'analisi teorica dei bandit MNL e stabilire limiti di regret stretti
Efficienza Algoritmica: Progettare algoritmi computazionalmente efficienti, evitando la complessità temporale esponenziale dei metodi esistenti
Applicazioni Pratiche: Fornire garanzie teoriche e algoritmi efficienti per applicazioni pratiche come i sistemi di raccomandazione

Limitazioni dei Metodi Esistenti

Divario Teorico: Esiste un divario di √K tra il limite inferiore Ω(d√T/K) e il limite superiore Õ(d√T)
Complessità Computazionale: Gli algoritmi esistenti richiedono l'enumerazione di tutti i possibili insiemi di articoli, causando complessità temporale esponenziale
Dipendenza dai Parametri: Dipendenza sfavorevole dalla costante κ relativa al problema, dove 1/κ = O(K²)

Contributi Principali

Stabilimento di Limiti di Regret Stretti:
- Con ricompense uniformi: limite inferiore Ω(√(v₀K/(v₀+K))d√T), limite superiore Õ(√(v₀K/(v₀+K))d√T)
- Con ricompense non uniformi: limite inferiore Ω(d√T), limite superiore Õ(d√T)
Proposta dell'Algoritmo Efficiente OFU-MNL+:
- Complessità temporale costante O(1), indipendente dal numero di round t
- Primo algoritmo nei bandit MNL che dimostra la riduzione del regret all'aumentare di K
Innovazioni Teoriche:
- Prima dimostrazione esplicita dell'impatto del parametro di attrazione dell'opzione esterna v₀ sul regret
- Limiti di regret minimax dipendenti dall'istanza
Miglioramenti Tecnici:
- Lemma del potenziale ellittico migliorato, che elimina la dipendenza da K
- Analisi della funzione di perdita con proprietà di auto-concordanza costante

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

Ad ogni round t, si osservano i vettori di caratteristiche x_ ∈ ℝᵈ di N articoli
Dimensione massima dell'insieme di articoli K
Parametro di attrazione dell'opzione esterna v₀

Output:

Selezione dell'insieme di articoli S_t ⊆ {1,...,N}, |S_t| ≤ K
Osservazione della scelta dell'utente c_t ∈ S_t ∪ {0}, che segue il modello MNL

Obiettivo: Minimizzare il regret cumulativo Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)

Architettura del Modello

Modello di Scelta MNL

La probabilità che l'utente scelga l'articolo i ∈ S_t è:

p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

La probabilità dell'opzione esterna (non scegliere alcun articolo) è:

p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))

Componenti Principali dell'Algoritmo OFU-MNL+

Stima Parametrica Online:
```
w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
```
dove H̃_t = H_t + ηG_t(w_t), e G_t(w) è la matrice Hessiana della perdita MNL
Costruzione dell'Insieme di Confidenza:
```
C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
```
dove β_t(δ) = O(√(d log t log K))

Calcolo dell'Utilità Ottimistica:

α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}

Selezione dell'Insieme di Articoli:
- Ricompense uniformi: selezionare i K articoli con α_ più elevati
- Ricompense non uniformi: risolvere un problema di ottimizzazione combinatoria in tempo polinomiale

Punti di Innovazione Tecnica

Analisi di Auto-Concordanza Migliorata: Dimostra che la funzione di perdita MNL possiede una proprietà di auto-concordanza 3√2, migliorando di un fattore √K rispetto ai risultati precedenti di √(6K)

Lemma del Potenziale Ellittico Indipendente da K:

Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))

Limite di Divergenza KL Stretto: Stabilisce un limite di divergenza KL più stretto, migliorando i risultati di Chen et al.

Configurazione Sperimentale

Dataset

Dataset sintetici, con parametri w* ∈ ℝᵈ campionati uniformemente da -1/√d, 1/√dᵈ
Caratteristiche contestuali x_ campionate da una distribuzione gaussiana multivariata N(0_d, I_d) e troncate a -1/√d, 1/√dᵈ
Configurazione: N=100, K∈{5,10,15}, d=5, T=3000

Metriche di Valutazione

Regret cumulativo: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
Tempo di calcolo per round

Metodi di Confronto

UCB-MNL: metodo basato su limite di confidenza superiore
TS-MNL: metodo basato su campionamento di Thompson

Dettagli di Implementazione

Parametro di regolarizzazione λ = 84√(2d)η
Passo di apprendimento η = (1/2)log(K+1) + 2
Raggio di confidenza β_t(δ) = O(√(d log t log K))

Risultati Sperimentali

Risultati Principali

Prestazioni di Regret:
- Con ricompense uniformi, il regret cumulativo di tutti gli algoritmi diminuisce all'aumentare di K
- Con ricompense non uniformi, l'aumento di K non garantisce il miglioramento del regret
- OFU-MNL+ supera significativamente i metodi di base in tutte le configurazioni
Efficienza Computazionale:
- OFU-MNL+ mantiene un costo computazionale costante, indipendente dal numero di round t
- Il tempo di calcolo dei metodi di base aumenta linearmente con t
- Il tempo di esecuzione nella configurazione di ricompense uniformi è circa 1/10 rispetto alla configurazione non uniforme

Verifica Teorica

I risultati sperimentali verificano l'analisi teorica:

Quando v₀ = Θ(1), il regret diminuisce con K
Quando v₀ = Θ(K), il regret è indipendente da K
Con ricompense non uniformi, il regret è indipendente da K

Lavori Correlati

Ricerca sui Bandit MNL

Configurazione Non Contestuale: Agrawal et al. hanno stabilito un limite inferiore di Ω(√(NT/K))
Configurazione Contestuale: Chen et al. hanno proposto un limite inferiore di Ω(d√T/K), ma la complessità dell'algoritmo è esponenziale
Efficienza Computazionale: Oh e Iyengar hanno proposto un algoritmo in tempo polinomiale, ma il limite di regret ha una dipendenza da 1/κ

Bandit Logistici

Algoritmi ottimali già esistono per bandit logistici binari
Il bandit MNL è un'estensione multi-scelta del bandit logistico

Bandit Combinatori

Correlati ai bandit combinatori top-k ma con struttura di ricompensa diversa
Nel modello MNL, la ricompensa di un singolo articolo dipende dall'intero insieme

Conclusioni e Discussione

Conclusioni Principali

Completezza Teorica: Prima realizzazione dell'ottimalità minimax nei bandit MNL
Efficienza Algoritmica: Proposta del primo algoritmo ottimale con complessità temporale costante
Impatto dei Parametri: Quantificazione esplicita dell'impatto di v₀ e K sul regret

Limitazioni

Ipotesi di Limitatezza: Richiede ||w*||₂ ≤ 1; l'allentamento comporterebbe fattori esponenziali aggiuntivi nei limiti di regret
Limiti Dipendenti dall'Istanza: Impossibilità di stabilire limiti dipendenti dall'istanza nel caso di ricompense non uniformi
Fattori Costanti: I fattori logaritmici nei limiti teorici potrebbero essere significativi nella pratica

Direzioni Future

Allentamento delle Ipotesi: Ricerca di algoritmi ottimali nel caso di parametri illimitati
Adattabilità all'Istanza: Stabilimento di limiti dipendenti dall'istanza per ricompense non uniformi
Applicazioni Pratiche: Verifica delle prestazioni dell'algoritmo su sistemi di raccomandazione reali

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Primo articolo a risolvere il problema dell'ottimalità nei bandit MNL, colmando un'importante lacuna teorica
Innovazioni Tecniche Notevoli: L'analisi di auto-concordanza migliorata e il lemma del potenziale ellittico hanno valore indipendente
Alto Valore Pratico: La complessità temporale costante rende l'algoritmo potenzialmente applicabile in pratica
Analisi Completa: Considerazione sia di ricompense uniformi che non uniformi, fornendo un quadro teorico completo

Carenze

Limitazioni delle Ipotesi: L'ipotesi di parametri limitati potrebbe essere troppo restrittiva nella pratica
Ottimizzazione delle Costanti: I fattori costanti nei limiti teorici potrebbero non essere sufficientemente stretti
Scala Sperimentale: Gli esperimenti sono condotti solo su dati sintetici, mancando la verifica su dati reali

Impatto

Valore Accademico: Pone fondamenta solide per la teoria dei bandit MNL, con previsione di alto numero di citazioni
Valore Pratico: Fornisce guida teorica per applicazioni come sistemi di raccomandazione e pubblicità online
Contributo Metodologico: Le tecniche sviluppate sono generalizzabili ad altri problemi correlati

Scenari Applicabili

Sistemi di Raccomandazione: Raccomandazione online di prodotti, raccomandazione di contenuti
Pubblicità Online: Selezione e ottimizzazione della combinazione di annunci
E-commerce: Ottimizzazione della disposizione dei prodotti e strategie promozionali

Riferimenti Bibliografici

L'articolo cita 52 lavori correlati, principalmente includenti:

Lavori fondamentali sui bandit MNL: Agrawal et al., Chen et al.
Teoria dei bandit logistici: Faury et al., Abeille et al.
Fondamenti dell'apprendimento online: Lattimore & Szepesvári
Teoria delle funzioni auto-concordanti: Tran-Dinh et al.

Valutazione Complessiva: Questo è un articolo di alta qualità con contributi teorici eccezionali, che risolve con successo il problema aperto centrale nel campo dei bandit MNL, con innovazioni tecniche significative, verifica sperimentale adeguata e importante impatto sulla ricerca correlata.