2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

Myopische Bayessche Entscheidungstheorie für Batch-Active-Learning mit partieller Batch-Label-Stichprobennahme

Grundinformationen

  • Paper-ID: 2510.09877
  • Titel: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • Autoren: Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
  • Klassifizierung: cs.LG cs.AI stat.ML
  • Veröffentlichungsdatum: 10. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09877v1

Zusammenfassung

In den letzten Jahrzehnten wurden zahlreiche Akquisitionsfunktionen für Active Learning vorgeschlagen, doch Praktiker haben häufig Schwierigkeiten, die geeignete Methode auszuwählen. Die Bayessche Entscheidungstheorie (BDT) bietet universelle Prinzipien zur Entscheidungsfindung. Diese Arbeit leitet BDT für (Bayessches) Active Learning im myopischen Rahmen ab, unter der Annahme, dass nur ein zusätzlicher Datenpunkt annotiert werden muss. Diese Herleitung führt zu effektiven Algorithmen wie Expected Error Reduction (EER) und Expected Predictive Information Gain (EPIG). Darüber hinaus zeigen die Autoren, dass BAIT durch BDT und asymptotische Approximation hergeleitet werden kann. Die Hauptherausforderung dieser Methoden besteht darin, dass sie sich nicht auf große Batch-Größen skalieren lassen, was zu Rechenproblemen (BatchBALD) oder drastischen Leistungseinbußen (Top-B-Auswahl) führt. Diese Arbeit leitet für den EPIG-Algorithmus durch eine spezifische Entscheidungsformulierung die Methode der partiellen Batch-Label-Stichprobennahme (ParBaLS) her. Experimente zeigen, dass ParBaLS EPIG unter festen Budgets und Bayesscher logistischer Regression auf neuronalen Einbettungen auf mehreren Datensätzen hervorragende Leistungen erbringt.

Forschungshintergrund und Motivation

Problemdefinition

Active Learning zielt darauf ab, die informativsten Datenpunkte aus großen Mengen ungelabelter Daten auszuwählen und zu annotieren, um die Modellleistung unter begrenztem Annotationsbudget zu maximieren. Bestehende Methoden umfassen heuristische und probabilistische Ansätze, es fehlt jedoch an expliziten Auswahlrichtlinien.

Bedeutung des Problems

  1. Praktische Anforderungen: In modernem Machine Learning werden Daten typischerweise in Batches statt einzeln annotiert
  2. Schwierigkeiten bei der Methodenauswahl: Bestehende Algorithmen mangelt es an Interpretierbarkeit, Praktiker haben Schwierigkeiten zu bestimmen, wann welcher Algorithmus wirksam ist
  3. Skalierungsprobleme: Bestehende Methoden stoßen bei großen Batch-Größen auf Rechen- oder Leistungsprobleme

Einschränkungen bestehender Methoden

  1. Top-B-Auswahl: Ignoriert Abhängigkeiten zwischen Batch-Labels, kann redundante Stichproben auswählen
  2. Heuristische Diversität: Erfordert datensatzspezifische Hyperparameter-Anpassung, nicht durchführbar im Active Learning
  3. Gierige Batch-Akquisition: Methoden wie BatchBALD haben exponentielle Rechenkomplexität in Bezug auf die Batch-Größe

Forschungsmotivation

Durch die Bayessche Entscheidungstheorie ein einheitliches theoretisches Rahmenwerk bereitstellen, das die Funktionsweise bestehender Algorithmen erklärt und neue Methoden zur effektiven Handhabung der Batch-Auswahl vorschlägt.

Kernbeiträge

  1. Theoretische Vereinigung: Vereinigung mehrerer Algorithmen (EER, EPIG, BAIT usw.) als Herleitungsergebnisse der myopischen Bayesschen Entscheidungstheorie (MBDT)
  2. Neue Methode: Einführung der partiellen Batch-Label-Stichprobennahme (ParBaLS) zur Lösung von Herausforderungen beim Batch-Active-Learning
  3. Theoretische Analyse: Nachweis, dass der Monte-Carlo-Approximationsfehler von ParBaLS O(1/√m) beträgt und nicht von der Batch-Größe abhängt
  4. Experimentelle Validierung: Überprüfung der überlegenen Leistung von ParBaLS EPIG in 10 verschiedenen Einstellungen

Methodische Details

Aufgabendefinition

Gegeben eine Eingabedomäne X, eine Ausgabedomäne Y und ein ungelabelter Pool-Datensatz D⊂X, besteht das Ziel darin, iterativ T Batches S⊂D mit jeweils |S|=B Größe zur Annotation auszuwählen, um den Testfehler nach dem Training auf dem annotierten Satz zu minimieren.

Myopische Bayessche Entscheidungstheorie (MBDT)

Herleitung der Einzelpunkt-Auswahl

Im myopischen Rahmen, unter der Annahme, dass nur ein zusätzlicher Datenpunkt x̂ ausgewählt wird, ist der nächste zu annotierende Punkt:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Für negative Log-Likelihood-Verlust vereinfacht sich der erwartete Verlust zur Entropie:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Dies ist äquivalent zu EPIG- und EER-Algorithmen.

Herausforderungen bei der Batch-Auswahl

Bestehende Batch-Strategien fallen in drei Kategorien:

  1. Top-B: Auswahl der B Punkte mit den höchsten Scores, Ignorieren von Abhängigkeiten
  2. Heuristische Diversität: Hinzufügen von Zufälligkeit oder Diversität, erfordert Hyperparameter-Anpassung
  3. Gierige Batch-Akquisition: Optimierung des gesamten Batches, hohe Rechenkomplexität

ParBaLS-Methode

Kernidee

Einführung eines teilweise zugesagten, aber nicht beobachteten Batches S, wobei der nächste optimale Punkt:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Monte-Carlo-Schätzung

Verwendung von Monte-Carlo-Schätzung zur Handhabung exponentieller Summationen:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Algorithmus-Ablauf

Der ParBaLS-Algorithmus konstruiert den Batch schrittweise:

  1. Initialisierung eines leeren Batches S=∅
  2. Training des Bayesschen Modells M_L
  3. Stichprobennahme von m Pseudo-Label-Versionen y^{(i)}~Y_D|L
  4. Für jede Batch-Position:
    • Berechnung der EPIG-Scores für jeden Kandidatenpunkt
    • Auswahl des Punktes mit dem höchsten Score für den Batch
    • Aktualisierung der m parallelen Modelle mit Pseudo-Labels
  5. Rückgabe des vollständigen Batches

Herleitung von BAIT

Durch informelle asymptotische Approximation kann BAIT auch aus MBDT-Prinzipien hergeleitet werden:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Experimentelle Einrichtung

Datensätze

Experimente umfassen 6 Datensatz-Kategorien:

  1. Tabellendaten: Airline Passenger Satisfaction, Credit Card Fraud
  2. Standard-Bilddaten: CIFAR-10, CIFAR-100
  3. Reale Bilddaten: iWildCam, fMoW (aus WILDS-Benchmark)
  4. Eins-zu-Viele-Bilddaten: Umwandlung von Mehrklassen in unausgeglichene Binärszenarien
  5. Subgruppen-Shift-Bilddaten: Drei-Klassen-Einstellung, nur auf den ersten zwei Klassen getestet

Modell-Einrichtung

  • Bilddaten: Verwendung von festen Einbettungsmodellen (CLIP-ViT-B/32 für WILDS, DINOv2-ViT-S/14 für CIFAR)
  • Tabellendaten: Direkte Anwendung von Bayesscher logistischer Regression
  • Bayessche Einstellung: k=400 posteriore Parameterproben, NUTS-Sampler

Bewertungsmetriken

Testgenauigkeit als primäre Bewertungsmetrik

Vergleichsmethoden

  • Bayessche Methoden: EPIG, BALD (mit Top-B oder Gumbel-Rauschen)
  • Baseline-Methoden: Random, Confidence, BatchBALD
  • Vorgeschlagene Methoden: ParBaLS-MAP EPIG, ParBaLS EPIG

Experimentelle Parameter

  • T=10 Iterationen, B=10 Stichproben pro Iteration
  • Initiale zufällige Stichprobennahme von 500 Stichproben
  • Für einige Einstellungen B=20, initiale 100 Stichproben zur Erhöhung der Unterscheidbarkeit
  • Jede Einstellung mit 5 verschiedenen Seeds durchgeführt

Experimentelle Ergebnisse

Hauptergebnisse

Nach den vollständigen Experimentergebnissen in Tabelle 1 zeigt ParBaLS EPIG in 9 von 10 Einstellungen die beste Leistung:

AlgorithmusHöchster DurchschnittTop-Platzierungen
ParBaLS EPIG49
ParBaLS-MAP EPIG27
SoftRankEPIG04
EPIG04
Confidence35

Spezifische Leistungsergebnisse

Tabellendatensätze (hervorragende Leistung):

  • Airline Passenger Satisfaction: ParBaLS EPIG erreicht 89,42±0,41%
  • Credit Card Fraud: ParBaLS EPIG erreicht 93,55±0,23%

Subgruppen-Shift-Einstellungen (am anspruchsvollsten):

  • fMoW: ParBaLS EPIG erreicht 31,37±6,60%, deutlich besser als andere Methoden
  • iWildCam: ParBaLS EPIG erreicht 84,72±1,98%

Lernkurven-Analyse

Abbildung 2 zeigt, dass ParBaLS-Methoden auf Tabellendatensätzen während des gesamten Lernprozesses einen Vorteil behalten, besonders bei niedrigen Budgets.

Ablationsstudien

  • ParBaLS vs ParBaLS-MAP: Vollständiges ParBaLS ist typischerweise besser als nur MAP-Labels
  • Batch-Größen-Einfluss: Vorteil von ParBaLS ist bei größeren Batches (B=20) ausgeprägter
  • Einzelpunkt vs Batch: Anhang-Experimente zeigen, dass Einzelpunkt-Auswahl (B=1) bessere Leistung hat, aber Batch-Auswahl in praktischen Anwendungen effizienter ist

Verwandte Arbeiten

Klassifizierung von Active-Learning-Methoden

  1. Heuristische Methoden: Basierend auf Unsicherheit (Confidence, Margin, Entropy), Diversität (CORESET) oder beides (BADGE, GALAXY)
  2. Probabilistische Methoden: BALD, BatchBALD, BAIT basierend auf Informationstheorie oder Bayesschen Prinzipien

Expected Error Reduction (EER)

EER konzentriert sich direkt auf Leistungsmetriken wie Null-Eins-Verlust und Log-Likelihood-Verlust und bietet bessere Interpretierbarkeit. Verwandte Arbeiten umfassen Varianten, die heuristische Methoden kombinieren, und adaptive Methoden für niedrige Budgets.

Pseudo-Labels im Active Learning

Im Gegensatz zum Semi-Supervised Learning werden Pseudo-Labels im Active Learning hauptsächlich verwendet für:

  1. Trainings-Verbesserung: Kombination von echten und Pseudo-Labels beim Training
  2. Batch-Konstruktion: Die Innovation von ParBaLS besteht darin, Pseudo-Labels nur temporär zur Batch-Konstruktion zu verwenden, ohne die endgültigen Annotationsdaten zu verunreinigen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Vereinigung: MBDT bietet eine einheitliche theoretische Grundlage für mehrere Active-Learning-Algorithmen
  2. Batch-Lösung: ParBaLS löst effektiv das Skalierungsproblem beim Batch-Active-Learning
  3. Experimentelle Validierung: ParBaLS EPIG zeigt hervorragende Leistung in verschiedenen Einstellungen, besonders in Szenarien mit hoher Unsicherheit

Einschränkungen

  1. Rechenkomplexität: Die Zeitkomplexität von ParBaLS beträgt O(TBm), m parallele Modelle erhöhen die Rechenlast
  2. Methodische Anwendbarkeit: Hauptsächlich auf Bayesscher logistischer Regression validiert, Erweiterung auf tiefe Netzwerke erfordert weitere Forschung
  3. Theoretische Analyse: Die Herleitung von BAIT beruht auf informeller asymptotischer Approximation, theoretische Strenge kann verbessert werden

Zukünftige Richtungen

  1. Rechnerische Effizienz: Entdeckung rechnerisch effizienter Approximationsmethoden, Erweiterung auf größere Datensätze und Modelle
  2. Deep-Learning-Integration: Untersuchung der Erweiterung von ParBaLS auf vollständiges Deep-Neural-Network-Training
  3. Theoretische Verbesserung: Bereitstellung strengerer theoretischer Analysen und Konvergenzgarantien

Tiefgreifende Bewertung

Stärken

  1. Theoretischer Beitrag: Bietet ein einheitliches theoretisches Rahmenwerk für Active-Learning-Algorithmen, erhöht die Interpretierbarkeit
  2. Praktischer Wert: ParBaLS löst praktische Batch-Auswahlprobleme
  3. Umfangreiche Experimente: Abdeckung mehrerer Datentypen und anspruchsvoller Einstellungen, überzeugende Ergebnisse
  4. Methodische Innovation: Neuartige Anwendung von Pseudo-Labels bei der Batch-Konstruktion

Mängel

  1. Rechnerischer Overhead: Wartung von m parallelen Modellen erhöht Rechenlast
  2. Theoretische Strenge: Einige Herleitungen (wie BAIT) beruhen auf informeller Approximation
  3. Experimentelle Einschränkungen: Hauptsächlich auf relativ einfachen Modellen (logistische Regression) validiert
  4. Hyperparameter-Sensitivität: Analyse der Auswirkungen der Wahl von m auf Leistungs- und Rechenkompromisse ist unzureichend

Auswirkungen

  1. Theoretische Auswirkungen: Bietet neue theoretische Perspektive für Active Learning, könnte nachfolgende Forschung inspirieren
  2. Praktischer Wert: ParBaLS-Methode hat direkten Anwendungswert, besonders in Batch-Annotationsszenarien
  3. Reproduzierbarkeit: Bereitstellung von Open-Source-Code ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

  1. Hochunsicherheits-Aufgaben: Tabellendaten und Subgruppen-Shift-Szenarien mit irreduziblen Unsicherheiten
  2. Batch-Annotationsbedarf: Praktische Anwendungen, die Batch-Annotation statt Einzelannotation erfordern
  3. Bayessche Einstellungen: Modelle und Aufgaben, die Bayessche Inferenz durchführen können

Literaturverzeichnis

Diese Arbeit zitiert wichtige Literatur im Active-Learning-Bereich, einschließlich:

  • Klassische Unsicherheits-Sampling-Methoden (Lewis, 1995)
  • Bayessche Active-Learning-Methoden (Houlsby et al., 2011; Gal et al., 2017)
  • Batch-Active-Learning-Methoden (Kirsch et al., 2019, 2023)
  • Expected-Error-Reduction-Methoden (Roy and McCallum, 2001; Mussmann et al., 2022)

Gesamtbewertung: Dies ist eine Arbeit mit bedeutenden theoretischen und praktischen Werten im Active-Learning-Bereich. Durch die Vereinigung bestehender Algorithmen mittels MBDT und die Einführung von ParBaLS zur Lösung des Batch-Auswahlproblems bietet sie neue Forschungsrichtungen für dieses Gebiet. Obwohl es Raum für Verbesserungen in Bezug auf Rechnerische Effizienz und theoretische Strenge gibt, sind die Beiträge erheblich.