Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic
Teoria Decisionale Bayesiana Miope per l'Apprendimento Attivo in Batch con Campionamento Parziale di Etichette di Batch
Nel corso dei decenni passati, numerose funzioni di acquisizione per l'apprendimento attivo sono state proposte, ma i professionisti spesso faticano a selezionare il metodo appropriato. La teoria decisionale bayesiana (BDT) fornisce principi generali per guidare le decisioni. Questo articolo deriva la BDT per l'apprendimento attivo (bayesiano) nel quadro miope, assumendo che sia necessario annotare solo un punto dati aggiuntivo. Questa derivazione produce algoritmi efficaci, come la riduzione dell'errore attesa (EER) e il guadagno di informazione predittiva atteso (EPIG). Inoltre, gli autori dimostrano che BAIT può essere derivato attraverso BDT e approssimazioni asintotiche. La sfida chiave per questa classe di metodi è la difficoltà di scalare a dimensioni di batch elevate, causando sfide computazionali (BatchBALD) o cali drastici di prestazioni (selezione top-B). Questo articolo deriva il metodo di campionamento parziale di etichette di batch (ParBaLS) per l'algoritmo EPIG attraverso una formulazione decisionale specifica. Gli esperimenti dimostrano che, in un budget fisso e in impostazioni di regressione logistica bayesiana su embedding neurali, ParBaLS EPIG presenta prestazioni eccellenti su più dataset.
L'apprendimento attivo mira a selezionare i dati più informativi da una grande quantità di dati non etichettati per l'annotazione, al fine di massimizzare le prestazioni del modello con un budget di annotazione limitato. I metodi esistenti includono approcci euristici e probabilistici, ma mancano di principi guida espliciti per la selezione.
Necessità Pratica: Nel machine learning moderno, i dati vengono tipicamente annotati in batch piuttosto che individualmente
Difficoltà nella Scelta del Metodo: Gli algoritmi esistenti mancano di interpretabilità, rendendo difficile per i professionisti determinare quando e quale algoritmo sia efficace
Sfide di Scalabilità: I metodi esistenti affrontano problemi computazionali o di prestazioni con dimensioni di batch elevate
Fornire un quadro teorico unificato attraverso la teoria decisionale bayesiana, spiegare il funzionamento degli algoritmi esistenti e proporre nuovi metodi che gestiscano efficacemente la selezione di batch.
Unificazione Teorica: Unificazione di molteplici algoritmi (EER, EPIG, BAIT, ecc.) come risultati della derivazione della teoria decisionale bayesiana miope (MBDT)
Proposta di Nuovo Metodo: Introduzione del campionamento parziale di etichette di batch (ParBaLS) per affrontare le sfide dell'apprendimento attivo in batch
Analisi Teorica: Dimostrazione che l'errore di approssimazione Monte Carlo di ParBaLS è O(1/√m), indipendente dalla dimensione del batch
Verifica Sperimentale: Validazione delle prestazioni superiori di ParBaLS EPIG in 10 diverse impostazioni
Dato il dominio di input X, il dominio di output Y e il dataset del pool non etichettato D⊂X, l'obiettivo è selezionare iterativamente T batch S⊂D, ciascuno di dimensione |S|=B per l'annotazione, minimizzando la perdita di test dopo l'addestramento sul set annotato.
La Figura 2 mostra che sui dataset tabulari, il metodo ParBaLS mantiene un vantaggio costante durante l'intero processo di apprendimento, con prestazioni particolarmente superiori in impostazioni a budget ridotto.
ParBaLS vs ParBaLS-MAP: ParBaLS completo è generalmente superiore alla versione che utilizza solo etichette MAP
Impatto della Dimensione del Batch: Il vantaggio di ParBaLS è più evidente con batch più grandi (B=20)
Singolo Punto vs Batch: Gli esperimenti in appendice mostrano che sebbene la selezione di singoli punti (B=1) abbia prestazioni migliori, la selezione di batch è più efficiente nelle applicazioni pratiche
EER si concentra direttamente su metriche di prestazioni come perdita zero-uno e log-verosimiglianza, fornendo migliore interpretabilità. I lavori correlati includono varianti che combinano metodi euristici e metodi adattivi per scenari a budget ridotto.
A differenza dell'apprendimento semi-supervisionato, le pseudo-etichette nell'apprendimento attivo sono principalmente utilizzate per:
Potenziamento dell'Addestramento: Addestramento combinando etichette vere e pseudo-etichette
Costruzione di Batch: L'innovazione di ParBaLS consiste nell'utilizzo di pseudo-etichette solo per costruire temporaneamente il batch, senza contaminare i dati annotati finali
Complessità Computazionale: La complessità temporale di ParBaLS è O(TBm), con m modelli paralleli che aumentano il carico computazionale
Applicabilità del Metodo: Principalmente verificato su regressione logistica bayesiana, l'estensione a reti neurali profonde richiede ulteriori ricerche
Analisi Teorica: La derivazione di BAIT si basa su approssimazioni asintotiche informali, con rigore teorico da migliorare
Questo articolo cita importanti letterature nel campo dell'apprendimento attivo, incluse:
Metodi classici di campionamento per incertezza (Lewis, 1995)
Metodi di apprendimento attivo bayesiano (Houlsby et al., 2011; Gal et al., 2017)
Metodi di apprendimento attivo in batch (Kirsch et al., 2019, 2023)
Metodi di riduzione dell'errore attesa (Roy and McCallum, 2001; Mussmann et al., 2022)
Valutazione Complessiva: Questo è un articolo di importante valore teorico e pratico nel campo dell'apprendimento attivo. Attraverso l'unificazione degli algoritmi esistenti mediante MBDT e la proposta di ParBaLS per risolvere il problema della selezione di batch, fornisce nuove direzioni di ricerca per il settore. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e rigore teorico, i contributi sono significativi.