Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic
Myopische Bayessche Entscheidungstheorie für Batch-Active-Learning mit partieller Batch-Label-Stichprobennahme
In den letzten Jahrzehnten wurden zahlreiche Akquisitionsfunktionen für Active Learning vorgeschlagen, doch Praktiker haben häufig Schwierigkeiten, die geeignete Methode auszuwählen. Die Bayessche Entscheidungstheorie (BDT) bietet universelle Prinzipien zur Entscheidungsfindung. Diese Arbeit leitet BDT für (Bayessches) Active Learning im myopischen Rahmen ab, unter der Annahme, dass nur ein zusätzlicher Datenpunkt annotiert werden muss. Diese Herleitung führt zu effektiven Algorithmen wie Expected Error Reduction (EER) und Expected Predictive Information Gain (EPIG). Darüber hinaus zeigen die Autoren, dass BAIT durch BDT und asymptotische Approximation hergeleitet werden kann. Die Hauptherausforderung dieser Methoden besteht darin, dass sie sich nicht auf große Batch-Größen skalieren lassen, was zu Rechenproblemen (BatchBALD) oder drastischen Leistungseinbußen (Top-B-Auswahl) führt. Diese Arbeit leitet für den EPIG-Algorithmus durch eine spezifische Entscheidungsformulierung die Methode der partiellen Batch-Label-Stichprobennahme (ParBaLS) her. Experimente zeigen, dass ParBaLS EPIG unter festen Budgets und Bayesscher logistischer Regression auf neuronalen Einbettungen auf mehreren Datensätzen hervorragende Leistungen erbringt.
Active Learning zielt darauf ab, die informativsten Datenpunkte aus großen Mengen ungelabelter Daten auszuwählen und zu annotieren, um die Modellleistung unter begrenztem Annotationsbudget zu maximieren. Bestehende Methoden umfassen heuristische und probabilistische Ansätze, es fehlt jedoch an expliziten Auswahlrichtlinien.
Praktische Anforderungen: In modernem Machine Learning werden Daten typischerweise in Batches statt einzeln annotiert
Schwierigkeiten bei der Methodenauswahl: Bestehende Algorithmen mangelt es an Interpretierbarkeit, Praktiker haben Schwierigkeiten zu bestimmen, wann welcher Algorithmus wirksam ist
Skalierungsprobleme: Bestehende Methoden stoßen bei großen Batch-Größen auf Rechen- oder Leistungsprobleme
Durch die Bayessche Entscheidungstheorie ein einheitliches theoretisches Rahmenwerk bereitstellen, das die Funktionsweise bestehender Algorithmen erklärt und neue Methoden zur effektiven Handhabung der Batch-Auswahl vorschlägt.
Gegeben eine Eingabedomäne X, eine Ausgabedomäne Y und ein ungelabelter Pool-Datensatz D⊂X, besteht das Ziel darin, iterativ T Batches S⊂D mit jeweils |S|=B Größe zur Annotation auszuwählen, um den Testfehler nach dem Training auf dem annotierten Satz zu minimieren.
Abbildung 2 zeigt, dass ParBaLS-Methoden auf Tabellendatensätzen während des gesamten Lernprozesses einen Vorteil behalten, besonders bei niedrigen Budgets.
ParBaLS vs ParBaLS-MAP: Vollständiges ParBaLS ist typischerweise besser als nur MAP-Labels
Batch-Größen-Einfluss: Vorteil von ParBaLS ist bei größeren Batches (B=20) ausgeprägter
Einzelpunkt vs Batch: Anhang-Experimente zeigen, dass Einzelpunkt-Auswahl (B=1) bessere Leistung hat, aber Batch-Auswahl in praktischen Anwendungen effizienter ist
EER konzentriert sich direkt auf Leistungsmetriken wie Null-Eins-Verlust und Log-Likelihood-Verlust und bietet bessere Interpretierbarkeit. Verwandte Arbeiten umfassen Varianten, die heuristische Methoden kombinieren, und adaptive Methoden für niedrige Budgets.
Im Gegensatz zum Semi-Supervised Learning werden Pseudo-Labels im Active Learning hauptsächlich verwendet für:
Trainings-Verbesserung: Kombination von echten und Pseudo-Labels beim Training
Batch-Konstruktion: Die Innovation von ParBaLS besteht darin, Pseudo-Labels nur temporär zur Batch-Konstruktion zu verwenden, ohne die endgültigen Annotationsdaten zu verunreinigen
Bayessche Active-Learning-Methoden (Houlsby et al., 2011; Gal et al., 2017)
Batch-Active-Learning-Methoden (Kirsch et al., 2019, 2023)
Expected-Error-Reduction-Methoden (Roy and McCallum, 2001; Mussmann et al., 2022)
Gesamtbewertung: Dies ist eine Arbeit mit bedeutenden theoretischen und praktischen Werten im Active-Learning-Bereich. Durch die Vereinigung bestehender Algorithmen mittels MBDT und die Einführung von ParBaLS zur Lösung des Batch-Auswahlproblems bietet sie neue Forschungsrichtungen für dieses Gebiet. Obwohl es Raum für Verbesserungen in Bezug auf Rechnerische Effizienz und theoretische Strenge gibt, sind die Beiträge erheblich.