2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann

Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.

academic

Myopische Bayessche Entscheidungstheorie für Batch-Active-Learning mit partieller Batch-Label-Stichprobennahme

Grundinformationen

Paper-ID: 2510.09877
Titel: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Autoren: Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
Klassifizierung: cs.LG cs.AI stat.ML
Veröffentlichungsdatum: 10. Oktober 2025 (Preprint)
Paper-Link: https://arxiv.org/abs/2510.09877v1

Zusammenfassung

In den letzten Jahrzehnten wurden zahlreiche Akquisitionsfunktionen für Active Learning vorgeschlagen, doch Praktiker haben häufig Schwierigkeiten, die geeignete Methode auszuwählen. Die Bayessche Entscheidungstheorie (BDT) bietet universelle Prinzipien zur Entscheidungsfindung. Diese Arbeit leitet BDT für (Bayessches) Active Learning im myopischen Rahmen ab, unter der Annahme, dass nur ein zusätzlicher Datenpunkt annotiert werden muss. Diese Herleitung führt zu effektiven Algorithmen wie Expected Error Reduction (EER) und Expected Predictive Information Gain (EPIG). Darüber hinaus zeigen die Autoren, dass BAIT durch BDT und asymptotische Approximation hergeleitet werden kann. Die Hauptherausforderung dieser Methoden besteht darin, dass sie sich nicht auf große Batch-Größen skalieren lassen, was zu Rechenproblemen (BatchBALD) oder drastischen Leistungseinbußen (Top-B-Auswahl) führt. Diese Arbeit leitet für den EPIG-Algorithmus durch eine spezifische Entscheidungsformulierung die Methode der partiellen Batch-Label-Stichprobennahme (ParBaLS) her. Experimente zeigen, dass ParBaLS EPIG unter festen Budgets und Bayesscher logistischer Regression auf neuronalen Einbettungen auf mehreren Datensätzen hervorragende Leistungen erbringt.

Forschungshintergrund und Motivation

Problemdefinition

Active Learning zielt darauf ab, die informativsten Datenpunkte aus großen Mengen ungelabelter Daten auszuwählen und zu annotieren, um die Modellleistung unter begrenztem Annotationsbudget zu maximieren. Bestehende Methoden umfassen heuristische und probabilistische Ansätze, es fehlt jedoch an expliziten Auswahlrichtlinien.

Bedeutung des Problems

Praktische Anforderungen: In modernem Machine Learning werden Daten typischerweise in Batches statt einzeln annotiert
Schwierigkeiten bei der Methodenauswahl: Bestehende Algorithmen mangelt es an Interpretierbarkeit, Praktiker haben Schwierigkeiten zu bestimmen, wann welcher Algorithmus wirksam ist
Skalierungsprobleme: Bestehende Methoden stoßen bei großen Batch-Größen auf Rechen- oder Leistungsprobleme

Einschränkungen bestehender Methoden

Top-B-Auswahl: Ignoriert Abhängigkeiten zwischen Batch-Labels, kann redundante Stichproben auswählen
Heuristische Diversität: Erfordert datensatzspezifische Hyperparameter-Anpassung, nicht durchführbar im Active Learning
Gierige Batch-Akquisition: Methoden wie BatchBALD haben exponentielle Rechenkomplexität in Bezug auf die Batch-Größe

Forschungsmotivation

Durch die Bayessche Entscheidungstheorie ein einheitliches theoretisches Rahmenwerk bereitstellen, das die Funktionsweise bestehender Algorithmen erklärt und neue Methoden zur effektiven Handhabung der Batch-Auswahl vorschlägt.

Kernbeiträge

Theoretische Vereinigung: Vereinigung mehrerer Algorithmen (EER, EPIG, BAIT usw.) als Herleitungsergebnisse der myopischen Bayesschen Entscheidungstheorie (MBDT)
Neue Methode: Einführung der partiellen Batch-Label-Stichprobennahme (ParBaLS) zur Lösung von Herausforderungen beim Batch-Active-Learning
Theoretische Analyse: Nachweis, dass der Monte-Carlo-Approximationsfehler von ParBaLS O(1/√m) beträgt und nicht von der Batch-Größe abhängt
Experimentelle Validierung: Überprüfung der überlegenen Leistung von ParBaLS EPIG in 10 verschiedenen Einstellungen

Methodische Details

Aufgabendefinition

Gegeben eine Eingabedomäne X, eine Ausgabedomäne Y und ein ungelabelter Pool-Datensatz D⊂X, besteht das Ziel darin, iterativ T Batches S⊂D mit jeweils |S|=B Größe zur Annotation auszuwählen, um den Testfehler nach dem Training auf dem annotierten Satz zu minimieren.

Myopische Bayessche Entscheidungstheorie (MBDT)

Herleitung der Einzelpunkt-Auswahl

Im myopischen Rahmen, unter der Annahme, dass nur ein zusätzlicher Datenpunkt x̂ ausgewählt wird, ist der nächste zu annotierende Punkt:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Für negative Log-Likelihood-Verlust vereinfacht sich der erwartete Verlust zur Entropie:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Dies ist äquivalent zu EPIG- und EER-Algorithmen.

Herausforderungen bei der Batch-Auswahl

Bestehende Batch-Strategien fallen in drei Kategorien:

Top-B: Auswahl der B Punkte mit den höchsten Scores, Ignorieren von Abhängigkeiten
Heuristische Diversität: Hinzufügen von Zufälligkeit oder Diversität, erfordert Hyperparameter-Anpassung
Gierige Batch-Akquisition: Optimierung des gesamten Batches, hohe Rechenkomplexität

ParBaLS-Methode

Kernidee

Einführung eines teilweise zugesagten, aber nicht beobachteten Batches S, wobei der nächste optimale Punkt:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Monte-Carlo-Schätzung

Verwendung von Monte-Carlo-Schätzung zur Handhabung exponentieller Summationen:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Algorithmus-Ablauf

Der ParBaLS-Algorithmus konstruiert den Batch schrittweise:

Initialisierung eines leeren Batches S=∅
Training des Bayesschen Modells M_L
Stichprobennahme von m Pseudo-Label-Versionen y^{(i)}~Y_D|L
Für jede Batch-Position:
- Berechnung der EPIG-Scores für jeden Kandidatenpunkt
- Auswahl des Punktes mit dem höchsten Score für den Batch
- Aktualisierung der m parallelen Modelle mit Pseudo-Labels
Rückgabe des vollständigen Batches

Herleitung von BAIT

Durch informelle asymptotische Approximation kann BAIT auch aus MBDT-Prinzipien hergeleitet werden:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Experimentelle Einrichtung

Datensätze

Experimente umfassen 6 Datensatz-Kategorien:

Tabellendaten: Airline Passenger Satisfaction, Credit Card Fraud
Standard-Bilddaten: CIFAR-10, CIFAR-100
Reale Bilddaten: iWildCam, fMoW (aus WILDS-Benchmark)
Eins-zu-Viele-Bilddaten: Umwandlung von Mehrklassen in unausgeglichene Binärszenarien
Subgruppen-Shift-Bilddaten: Drei-Klassen-Einstellung, nur auf den ersten zwei Klassen getestet

Modell-Einrichtung

Bilddaten: Verwendung von festen Einbettungsmodellen (CLIP-ViT-B/32 für WILDS, DINOv2-ViT-S/14 für CIFAR)
Tabellendaten: Direkte Anwendung von Bayesscher logistischer Regression
Bayessche Einstellung: k=400 posteriore Parameterproben, NUTS-Sampler

Bewertungsmetriken

Testgenauigkeit als primäre Bewertungsmetrik

Vergleichsmethoden

Bayessche Methoden: EPIG, BALD (mit Top-B oder Gumbel-Rauschen)
Baseline-Methoden: Random, Confidence, BatchBALD
Vorgeschlagene Methoden: ParBaLS-MAP EPIG, ParBaLS EPIG

Experimentelle Parameter

T=10 Iterationen, B=10 Stichproben pro Iteration
Initiale zufällige Stichprobennahme von 500 Stichproben
Für einige Einstellungen B=20, initiale 100 Stichproben zur Erhöhung der Unterscheidbarkeit
Jede Einstellung mit 5 verschiedenen Seeds durchgeführt

Experimentelle Ergebnisse

Hauptergebnisse

Nach den vollständigen Experimentergebnissen in Tabelle 1 zeigt ParBaLS EPIG in 9 von 10 Einstellungen die beste Leistung:

Algorithmus	Höchster Durchschnitt	Top-Platzierungen
ParBaLS EPIG	4	9
ParBaLS-MAP EPIG	2	7
SoftRankEPIG	0	4
EPIG	0	4
Confidence	3	5

Spezifische Leistungsergebnisse

Tabellendatensätze (hervorragende Leistung):

Airline Passenger Satisfaction: ParBaLS EPIG erreicht 89,42±0,41%
Credit Card Fraud: ParBaLS EPIG erreicht 93,55±0,23%

Subgruppen-Shift-Einstellungen (am anspruchsvollsten):

fMoW: ParBaLS EPIG erreicht 31,37±6,60%, deutlich besser als andere Methoden
iWildCam: ParBaLS EPIG erreicht 84,72±1,98%

Lernkurven-Analyse

Abbildung 2 zeigt, dass ParBaLS-Methoden auf Tabellendatensätzen während des gesamten Lernprozesses einen Vorteil behalten, besonders bei niedrigen Budgets.

Ablationsstudien

ParBaLS vs ParBaLS-MAP: Vollständiges ParBaLS ist typischerweise besser als nur MAP-Labels
Batch-Größen-Einfluss: Vorteil von ParBaLS ist bei größeren Batches (B=20) ausgeprägter
Einzelpunkt vs Batch: Anhang-Experimente zeigen, dass Einzelpunkt-Auswahl (B=1) bessere Leistung hat, aber Batch-Auswahl in praktischen Anwendungen effizienter ist

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Vereinigung: MBDT bietet eine einheitliche theoretische Grundlage für mehrere Active-Learning-Algorithmen
Batch-Lösung: ParBaLS löst effektiv das Skalierungsproblem beim Batch-Active-Learning
Experimentelle Validierung: ParBaLS EPIG zeigt hervorragende Leistung in verschiedenen Einstellungen, besonders in Szenarien mit hoher Unsicherheit

Einschränkungen

Rechenkomplexität: Die Zeitkomplexität von ParBaLS beträgt O(TBm), m parallele Modelle erhöhen die Rechenlast
Methodische Anwendbarkeit: Hauptsächlich auf Bayesscher logistischer Regression validiert, Erweiterung auf tiefe Netzwerke erfordert weitere Forschung
Theoretische Analyse: Die Herleitung von BAIT beruht auf informeller asymptotischer Approximation, theoretische Strenge kann verbessert werden

Zukünftige Richtungen

Rechnerische Effizienz: Entdeckung rechnerisch effizienter Approximationsmethoden, Erweiterung auf größere Datensätze und Modelle
Deep-Learning-Integration: Untersuchung der Erweiterung von ParBaLS auf vollständiges Deep-Neural-Network-Training
Theoretische Verbesserung: Bereitstellung strengerer theoretischer Analysen und Konvergenzgarantien

Tiefgreifende Bewertung

Stärken

Theoretischer Beitrag: Bietet ein einheitliches theoretisches Rahmenwerk für Active-Learning-Algorithmen, erhöht die Interpretierbarkeit
Praktischer Wert: ParBaLS löst praktische Batch-Auswahlprobleme
Umfangreiche Experimente: Abdeckung mehrerer Datentypen und anspruchsvoller Einstellungen, überzeugende Ergebnisse
Methodische Innovation: Neuartige Anwendung von Pseudo-Labels bei der Batch-Konstruktion

Mängel

Rechnerischer Overhead: Wartung von m parallelen Modellen erhöht Rechenlast
Theoretische Strenge: Einige Herleitungen (wie BAIT) beruhen auf informeller Approximation
Experimentelle Einschränkungen: Hauptsächlich auf relativ einfachen Modellen (logistische Regression) validiert
Hyperparameter-Sensitivität: Analyse der Auswirkungen der Wahl von m auf Leistungs- und Rechenkompromisse ist unzureichend

Auswirkungen

Theoretische Auswirkungen: Bietet neue theoretische Perspektive für Active Learning, könnte nachfolgende Forschung inspirieren
Praktischer Wert: ParBaLS-Methode hat direkten Anwendungswert, besonders in Batch-Annotationsszenarien
Reproduzierbarkeit: Bereitstellung von Open-Source-Code ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

Hochunsicherheits-Aufgaben: Tabellendaten und Subgruppen-Shift-Szenarien mit irreduziblen Unsicherheiten
Batch-Annotationsbedarf: Praktische Anwendungen, die Batch-Annotation statt Einzelannotation erfordern
Bayessche Einstellungen: Modelle und Aufgaben, die Bayessche Inferenz durchführen können

Literaturverzeichnis

Diese Arbeit zitiert wichtige Literatur im Active-Learning-Bereich, einschließlich:

Klassische Unsicherheits-Sampling-Methoden (Lewis, 1995)
Bayessche Active-Learning-Methoden (Houlsby et al., 2011; Gal et al., 2017)
Batch-Active-Learning-Methoden (Kirsch et al., 2019, 2023)
Expected-Error-Reduction-Methoden (Roy and McCallum, 2001; Mussmann et al., 2022)

Gesamtbewertung: Dies ist eine Arbeit mit bedeutenden theoretischen und praktischen Werten im Active-Learning-Bereich. Durch die Vereinigung bestehender Algorithmen mittels MBDT und die Einführung von ParBaLS zur Lösung des Batch-Auswahlproblems bietet sie neue Forschungsrichtungen für dieses Gebiet. Obwohl es Raum für Verbesserungen in Bezug auf Rechnerische Effizienz und theoretische Strenge gibt, sind die Beiträge erheblich.