In many modern applications, a system must dynamically choose between several adaptive learning algorithms that are trained online. Examples include model selection in streaming environments, switching between trading strategies in finance, and orchestrating multiple contextual bandit or reinforcement learning agents. At each round, a learner must select one predictor among $K$ adaptive experts to make a prediction, while being able to update at most $M \le K$ of them under a fixed training budget.
We address this problem in the \emph{stochastic setting} and introduce \algname{M-LCB}, a computationally efficient UCB-style meta-algorithm that provides \emph{anytime regret guarantees}. Its confidence intervals are built directly from realized losses, require no additional optimization, and seamlessly reflect the convergence properties of the underlying experts. If each expert achieves internal regret $\tilde O(T^α)$, then \algname{M-LCB} ensures overall regret bounded by $\tilde O\!\Bigl(\sqrt{\tfrac{KT}{M}} \;+\; (K/M)^{1-α}\,T^α\Bigr)$.
To our knowledge, this is the first result establishing regret guarantees when multiple adaptive experts are trained simultaneously under per-round budget constraints. We illustrate the framework with two representative cases: (i) parametric models trained online with stochastic losses, and (ii) experts that are themselves multi-armed bandit algorithms. These examples highlight how \algname{M-LCB} extends the classical bandit paradigm to the more realistic scenario of coordinating stateful, self-learning experts under limited resources.
- Papier-ID: 2510.22654
- Titel: UCB-type Algorithm for Budget-Constrained Expert Learning
- Autoren: Ilgam Latypov, Alexandra Suvorikova, Alexey Kroshnin, Alexander Gasnikov, Yuriy Dorn
- Klassifizierung: cs.LG (Machine Learning), cs.MA (Multiagent Systems)
- Veröffentlichungsdatum: 28. Oktober 2025 (Preprint)
- Papierlink: https://arxiv.org/abs/2510.22654
In vielen modernen Anwendungen muss ein System dynamisch zwischen mehreren online trainierten adaptiven Lernalgorithmen wählen. Beispiele sind Modellauswahl in Stream-Umgebungen, Handelsstrategiewechsel in der Finanzwirtschaft sowie die Koordination mehrerer kontextabhängiger Banditen oder Reinforcement-Learning-Agenten. In jeder Runde muss der Lernende einen Prädiktor aus K adaptiven Experten auswählen, während er unter einem festen Trainingsbudget höchstens M≤K Experten aktualisieren kann.
Dieser Artikel löst dieses Problem in stochastischen Einstellungen und schlägt den M-LCB-Algorithmus vor – einen rechnerisch effizienten UCB-Stil-Metaalgorithmus mit Bedauernisgarantien zu beliebigen Zeitpunkten. Seine Konfidenzintervalle werden direkt aus realisierten Verlusten konstruiert, ohne zusätzliche Optimierung, und spiegeln nahtlos die Konvergenzeigenschaften der zugrunde liegenden Experten wider. Wenn jeder Experte ein inneres Bedauern von Õ(T^α) erreicht, stellt M-LCB eine Gesamtbedauernisgrenze von Õ(√(KT/M) + (K/M)^(1-α)T^α) sicher.
Viele praktische Anwendungen erfordern dynamische Auswahl zwischen mehreren selbstlernenden Experten:
- Empfehlungssysteme: Paralleles Ausführen mehrerer Prädiktoren mit Aktualisierung basierend auf Benutzer-Feedback
- Finanzplattformen: Wechsel zwischen Handelsstrategien mit sich entwickelnden Marktmechanismen
- Großflächige Online-Dienste: Verwaltung von Kombinationen kontextabhängiger Banditen oder Reinforcement-Learning-Algorithmen
Einschränkungen traditioneller Ansätze:
- Klassische Multi-Armed Bandits (MAB): Gehen von statischen oder adversarialen Belohnungsverteilungen aus, berücksichtigen nicht die Lernfähigkeit der Arme
- Expertenalgorithmen: Erfordern typischerweise vollständiges Feedback, berücksichtigen nicht die Lernraten der Experten
- Bestehende Methoden: Adressieren nicht angemessen die Herausforderung der Verwaltung mehrerer gleichzeitig lernender Experten unter Trainingsbudgetbeschränkungen pro Runde
Dieser Artikel zielt darauf ab, diese Lücke zu schließen und ein einheitliches Verfahren für Vorhersage und selektives Training unter Berücksichtigung fester Rechenbudgetbeschränkungen pro Runde vorzuschlagen.
- Neuartiger UCB-Typ-Metaalgorithmus (M-LCB): Schlägt einen neuen Algorithmus zur Verwaltung eines Pools von K selbstlernenden Experten unter Berücksichtigung eines begrenzten Lernbudgets M pro Runde (M≤K) vor
- Rechnerische Effizienz: Bietet eine Methode zur direkten Konstruktion von Konfidenzgrenzen aus realisierten Verlusten, die rechnerisch effizient ist und teure Hilfsoptimierungen vermeidet
- Theoretische Analyse: Schätzt die Metaalgorithmus-Leistung basierend auf individuellen Konvergenzraten der Experten; wenn das Expertengedauern Õ(n^α) beträgt, beträgt das Gesamtbedauern Õ(√(KT/M) + (K/M)^(1-α)T^α)
- Erweiterung auf Multi-Play-Banditen: Zeigt, dass M-LCB auf Multi-Play-Bandit-Einstellungen skalierbar ist
- Entscheidungsraum U: Raum der Expertenempfehlungen
- Umgebungsraum E: Raum stochastischer Ergebnisse
- Verlustfunktion: ℓ : U×E → R₊
- Expertennorm: Jeder Experte k wird durch das Tupel (Wₖ,Hₖ,Aₖ,gₖ,υₖ) spezifiziert
- Wₖ: Zustands-/Parameterraum
- Hₖ: Verlaufsraum
- Aₖ: Online-Lernalgorithmus
- gₖ: Abbildung von Zustand zu Empfehlung
- υₖ: Generator für sichere Empfehlungen
Ausführungsablauf in jeder Runde t:
- Das Metaprogramm wählt einen Berater iₜ∈K und eine Trainingsuntermenge Sₜ⊆K mit |Sₜ|≤M und iₜ∈Sₜ
- Experte iₜ liefert sichere Empfehlung uₜ = υᵢₜ(Hᵢₜᵗ)∈U
- Die Umgebung sampelt ξᵗ~D, das Programm erleidet Verlust ℓ(uₜ,ξᵗ)
- Experte k∈Sₜ aktualisiert Verlauf und inneren Zustand
Für Experte k definieren wir:
- Normalisierter Laufverlust: LAₖ(t) = (1/nₖᵗ)∑_{τ∈Iₖ(t)} ℓₖᵗ(wₖᵗ)
- Untere Konfidenzgrenze: LCBₖ(t,δ) = LAₖ(t) - Uₖ(nₖᵗ,δₐᵣₘ)/nₖᵗ - G(nₖᵗ,δₙᵗ)
- Obere Konfidenzgrenze: UCBₖ(t,δ) = LAₖ(t) + H(nₖᵗ,δₙᵗ)
Wobei:
- δₐᵣₘ = δ/(2K), δₙ = δ/(7Kn²)
- G(n,δ) = √(2log(1/δ)/n) + 2log(1/δ)/(3n)
- H(n,δ) = √(2log(1/δ)/n)
- Trainingsmenge-Auswahl: Sₜ := argmin_{S⊆K,|S|≤M} ∑_{k∈S} LCBₖ(t,δ)
- Berater-Auswahl: iₜ := argmin_{k∈Sₜ} UCBₖ(t,δ)
- Direkte Konfidenzgrenzen-Konstruktion: Konstruktion direkt aus realisierten Verlusten ohne zusätzliche Optimierung
- Adaptive Expertenverwaltung: Berücksichtigung sowohl der Expertenauswahl als auch der Trainingsbudgetverteilung
- Garantien zu beliebigen Zeitpunkten: Bereitstellung von Bedauernsgrenzen für alle Zeitschritte T
- Flexibles Framework: Unterstützung verschiedener Arten von Lernalgorithmen als Experten
Das Papier führt hauptsächlich synthetische Experimente durch:
- Anzahl der Experten: K=10 generalisierte lineare Modelle
- Merkmalsdimension: Merkmalsvektoren gleichmäßig aus der Einheitssphäre Sᵈ⁻¹ gesampelt
- Herausfordernde Einstellung: Funktionen f₇,f₈,f₉ sind in datenreichen Regionen stark ähnlich, was die Explorationsschwierigkeit erhöht
- Kumulativer Verlust: ∑ᵗ₌₁ᵀ ℓ(uᵗ,ξᵗ)
- Arm-Auswahlverteilung: Endgültige Häufigkeit der Auswahl jedes Experten
- Rechenbudgetverteilung: Verteilung der Trainingsanzahl für jeden Experten
- ED2RB: Algorithmus mit lernbaren Arm-Garantien
- LimitedAdvice: Expertenalgorithmus, der mehrere Arm-Aktualisierungen pro Runde verarbeitet
- Aktualisierungsbeschränkung: M∈{1,2,3}
- Wiederholungen: 30 unabhängige Durchläufe für Durchschnittswertbildung
- Konfidenzintervalle: Anzeige von ±0,5 Standardabweichungen
- Hyperparameter-Tuning: ED2RB-Explorations-Parameter c=0,1, M-FLCB-Konzentrationstermskalierung 0,3
- Konvergenzleistung: M-LCB erreicht sublineares Bedauern, vergleichbar mit Baseline-Methoden
- Expertenidentifikation: Erfolgreiche Identifikation des optimalen Experten (k=9)
- Budgeteffizenz: Hauptsächliche Zuweisung von Aktualisierungen zu leistungsstarken Experten, während LimitedAdvice gleichmäßiger verteilt
Theorem 2: Seien α,δ∈(0,1), und nehmen Sie an, dass jeder Experte k Uₖ(t,δ)=O(t^α c(δ)) erfüllt, dann ist mit Wahrscheinlichkeit mindestens 1-δ das Bedauern von Algorithmus 1 für alle T≥1 begrenzt durch:
Reg(T) = O(√(KT/M)log(KT/δ) + (K/M)^(1-α)T^α c(δ))
Theorem 1: Es existieren Konstanten c₁,c₂>0, so dass für jeden Lernalgorithmus und jedes Metaprogramm:
sup EReg(T) ≥ c₁√(KT/M) + c₂T^α(K/M)^(1-α)
Dies zeigt, dass M-LCB innerhalb von Logarithmischen Faktoren optimal ist.
- 6: Führt selbstlernende Arme in MAB-Einstellungen ein, wobei jeder Arm eine parametrisierte Funktion ist, deren Parameter nach Auswahl aktualisiert werden
- CORRAL8: Verwaltet einen Pool von Bandit-Algorithmen durch wichtigkeitsgewichtetes Feedback unter log-barrier Online-Spiegeldescent
- Dynamische Ausbalancierung9: Metaalgorithmus basierend auf bekannten Bedauernisraten-Ausdrücken, aktualisiert pro Runde nur einen Lerner
- 10: Online-Schätzung von Koeffizienten pro Lerner, erhält hochwahrscheinliche datenabhängige Garantien für stochastische Banditen
- Begrenzte Beratung12: Abfrage von höchstens M Armen, erhält Õ(√(KT logK/M)) Bedauernisgrenze
- 13: Minimax-optimales Bedauern Õ(max{√(KT/M), √(T logK)})
- Erste Etablierung von Bedauernisgarantien für mehrere adaptive Experten unter Trainingsbudgetbeschränkungen pro Runde
- M-LCB-Algorithmus ist innerhalb von Logarithmischen Faktoren minimax-optimal
- Framework vereinheitlicht Online-Optimierung und stochastische Bandit-Einstellungen
- Bekannte Konfidenz-Skalierung: Analyse setzt voraus, dass die Konfidenz-Skalierungsfunktion c(δ) bekannt ist
- Annahme beschränkter Verluste: Konzentriert sich hauptsächlich auf Fälle mit beschränkten Verlusten
- Stochastische Einstellung: Hauptsächlich in stochastischen Umgebungen analysiert, adversariale Einstellungen erfordern weitere Forschung
- Unbekannte c(δ): Wie in Pacchiano et al.11 behandelt
- Erweiterung auf zusätzliche Beobachtungen: Erweiterung auf begrenzte Beratung und Multi-Play-Banditen
- Kontextabhängiges Regime: Erweiterung auf Fälle, in denen Experten basierend auf Beobachtungsmerkmalen spezialisiert sind
- Bedeutsame theoretische Beiträge: Erste theoretische Garantien für Multi-Experten-Lernen unter Budgetbeschränkungen
- Elegantes Algorithmus-Design: Konfidenzgrenzen werden direkt aus Verlusten konstruiert, rechnerisch effizient
- Starke Framework-Universalität: Anwendbar auf verschiedene Expertentypen (parametrische Modelle, Bandit-Algorithmen usw.)
- Rigorose theoretische Analyse: Bereitstellung von übereinstimmenden Ober- und Untergrenzen, Beweis der Algorithmus-Optimalität
- Begrenzte experimentelle Validierung: Hauptsächlich synthetische Experimente, fehlende Validierung in echten Anwendungsszenarien
- Starke Annahmebedingungen: Erfordert bekannte Form der Expertengedauernsgrenzen
- Konstanten-Faktor-Analyse: Konstanten in theoretischen Ergebnissen können groß sein, praktische Leistung erfordert Validierung
- Hoher theoretischer Wert: Bietet theoretische Grundlagen für Expertenlernens unter Budgetbeschränkungen
- Großes praktisches Potenzial: Anwendbar auf Empfehlungssysteme, Finanzhandel und andere Bereiche
- Starke Skalierbarkeit: Framework ist auf komplexere Lernszenarien erweiterbar
- Online-Modellauswahl: Dynamische Modellauswahl in Stream-Datenumgebungen
- Multi-Strategie-Systeme: Finanzhandel, Werbeplatzierung und andere Szenarien, die Strategiewechsel erfordern
- Ressourcenbeschränktes Lernen: Multi-Modell-Koordination bei begrenzten Rechenressourcen
Dieses Papier zitiert wichtige Literatur aus den Bereichen Multi-Armed Bandits, Online-Lernen und Expertenalgorithmen, insbesondere:
- Klassischer UCB-Algorithmus von Auer et al.1
- Expertenalgorithmus-Theorie von Cesa-Bianchi und Lugosi4
- Online-konvexe Optimierung von Hazan5
- Moderne Meta-Learning-Algorithmen wie CORRAL8
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier, das bedeutsame Beiträge zu einem wichtigen, aber bisher unterforschten Problem des budgetbeschränkten Expertenlernens leistet. Das Algorithmus-Design ist ausgeklügelt, die theoretische Analyse ist rigoros und legt eine solide Grundlage für weitere Entwicklungen in diesem Bereich.