2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

Teoria Decisionale Bayesiana Miope per l'Apprendimento Attivo in Batch con Campionamento Parziale di Etichette di Batch

Informazioni Fondamentali

  • ID Articolo: 2510.09877
  • Titolo: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • Autori: Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
  • Classificazione: cs.LG cs.AI stat.ML
  • Data di Pubblicazione: 10 ottobre 2025 (Preprint)
  • Link Articolo: https://arxiv.org/abs/2510.09877v1

Riassunto

Nel corso dei decenni passati, numerose funzioni di acquisizione per l'apprendimento attivo sono state proposte, ma i professionisti spesso faticano a selezionare il metodo appropriato. La teoria decisionale bayesiana (BDT) fornisce principi generali per guidare le decisioni. Questo articolo deriva la BDT per l'apprendimento attivo (bayesiano) nel quadro miope, assumendo che sia necessario annotare solo un punto dati aggiuntivo. Questa derivazione produce algoritmi efficaci, come la riduzione dell'errore attesa (EER) e il guadagno di informazione predittiva atteso (EPIG). Inoltre, gli autori dimostrano che BAIT può essere derivato attraverso BDT e approssimazioni asintotiche. La sfida chiave per questa classe di metodi è la difficoltà di scalare a dimensioni di batch elevate, causando sfide computazionali (BatchBALD) o cali drastici di prestazioni (selezione top-B). Questo articolo deriva il metodo di campionamento parziale di etichette di batch (ParBaLS) per l'algoritmo EPIG attraverso una formulazione decisionale specifica. Gli esperimenti dimostrano che, in un budget fisso e in impostazioni di regressione logistica bayesiana su embedding neurali, ParBaLS EPIG presenta prestazioni eccellenti su più dataset.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'apprendimento attivo mira a selezionare i dati più informativi da una grande quantità di dati non etichettati per l'annotazione, al fine di massimizzare le prestazioni del modello con un budget di annotazione limitato. I metodi esistenti includono approcci euristici e probabilistici, ma mancano di principi guida espliciti per la selezione.

Importanza del Problema

  1. Necessità Pratica: Nel machine learning moderno, i dati vengono tipicamente annotati in batch piuttosto che individualmente
  2. Difficoltà nella Scelta del Metodo: Gli algoritmi esistenti mancano di interpretabilità, rendendo difficile per i professionisti determinare quando e quale algoritmo sia efficace
  3. Sfide di Scalabilità: I metodi esistenti affrontano problemi computazionali o di prestazioni con dimensioni di batch elevate

Limitazioni dei Metodi Esistenti

  1. Selezione Top-B: Ignora le dipendenze tra le etichette di batch, potendo selezionare campioni ridondanti
  2. Diversità Euristica: Richiede l'aggiustamento di iperparametri specifici del dataset, non fattibile nell'apprendimento attivo
  3. Acquisizione Greedy di Batch: Metodi come BatchBALD hanno complessità computazionale che cresce esponenzialmente con la dimensione del batch

Motivazione della Ricerca

Fornire un quadro teorico unificato attraverso la teoria decisionale bayesiana, spiegare il funzionamento degli algoritmi esistenti e proporre nuovi metodi che gestiscano efficacemente la selezione di batch.

Contributi Principali

  1. Unificazione Teorica: Unificazione di molteplici algoritmi (EER, EPIG, BAIT, ecc.) come risultati della derivazione della teoria decisionale bayesiana miope (MBDT)
  2. Proposta di Nuovo Metodo: Introduzione del campionamento parziale di etichette di batch (ParBaLS) per affrontare le sfide dell'apprendimento attivo in batch
  3. Analisi Teorica: Dimostrazione che l'errore di approssimazione Monte Carlo di ParBaLS è O(1/√m), indipendente dalla dimensione del batch
  4. Verifica Sperimentale: Validazione delle prestazioni superiori di ParBaLS EPIG in 10 diverse impostazioni

Dettagli del Metodo

Definizione del Compito

Dato il dominio di input X, il dominio di output Y e il dataset del pool non etichettato D⊂X, l'obiettivo è selezionare iterativamente T batch S⊂D, ciascuno di dimensione |S|=B per l'annotazione, minimizzando la perdita di test dopo l'addestramento sul set annotato.

Teoria Decisionale Bayesiana Miope (MBDT)

Derivazione della Selezione di Singoli Punti

Nel quadro miope, assumendo la selezione di un solo punto dati aggiuntivo x̂, il prossimo punto da annotare è:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Per la perdita di log-verosimiglianza negativa, la previsione ottimale è la distribuzione posteriore, e la perdita attesa si semplifica all'entropia:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Questo è equivalente agli algoritmi EPIG e EER.

Sfide della Selezione di Batch

Le strategie di batch esistenti si dividono in tre categorie:

  1. Top-B: Seleziona i B punti con i punteggi più alti, ignorando le relazioni di dipendenza
  2. Diversità Euristica: Aggiunge casualità o diversità, richiedendo l'aggiustamento di iperparametri
  3. Acquisizione Greedy di Batch: Ottimizza l'intero batch, con elevata complessità computazionale

Metodo ParBaLS

Idea Centrale

Introduzione di un batch parziale S già impegnato per l'annotazione ma con etichette non ancora osservate. Il prossimo punto ottimale è:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Stima Monte Carlo

Utilizzo della stima Monte Carlo per gestire le sommatorie di livello esponenziale:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Flusso dell'Algoritmo

L'algoritmo ParBaLS costruisce il batch in modo incrementale:

  1. Inizializzazione del batch vuoto S=∅
  2. Addestramento del modello bayesiano M_L
  3. Campionamento di m versioni di pseudo-etichette y^{(i)}~Y_D|L
  4. Per ogni posizione nel batch:
    • Calcolo del punteggio EPIG per ogni punto candidato
    • Selezione del punto con il punteggio più alto da aggiungere al batch
    • Aggiornamento dei m modelli paralleli con pseudo-etichette
  5. Restituzione del batch completo

Derivazione di BAIT

Attraverso approssimazione asintotica informale, BAIT può essere derivato anche dai principi MBDT:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Impostazione Sperimentale

Dataset

Gli esperimenti coprono 6 categorie di dataset:

  1. Dati Tabulari: Airline Passenger Satisfaction, Credit Card Fraud
  2. Dati di Immagini Standard: CIFAR-10, CIFAR-100
  3. Dati di Immagini del Mondo Reale: iWildCam, fMoW (dal benchmark WILDS)
  4. Dati di Immagini Uno-a-Molti: Conversione di multi-classe in scenari binari sbilanciati
  5. Dati di Immagini con Spostamento di Sottogruppi: Impostazione a tre classi, testata solo sulle prime due classi

Impostazione del Modello

  • Dati di Immagini: Utilizzo di modelli di embedding fissi (CLIP-ViT-B/32 per WILDS, DINOv2-ViT-S/14 per CIFAR)
  • Dati Tabulari: Applicazione diretta di regressione logistica bayesiana
  • Impostazione Bayesiana: k=400 campioni di parametri posteriori, utilizzo del campionatore NUTS

Metriche di Valutazione

Utilizzo dell'accuratezza di test come metrica di valutazione principale

Metodi di Confronto

  • Metodi Bayesiani: EPIG, BALD (con top-B o rumore di Gumbel)
  • Metodi di Base: Random, Confidence, BatchBALD
  • Metodo Proposto: ParBaLS-MAP EPIG, ParBaLS EPIG

Parametri Sperimentali

  • T=10 iterazioni, budget di B=10 campioni per iterazione
  • Campionamento casuale iniziale di 500 campioni
  • Per alcune impostazioni utilizzo di B=20, campioni iniziali 100 per aumentare la discriminabilità
  • Esecuzione di 5 volte per ogni impostazione con diversi seed

Risultati Sperimentali

Risultati Principali

Secondo i risultati sperimentali completi della Tabella 1, ParBaLS EPIG presenta le migliori prestazioni in 9 delle 10 impostazioni:

AlgoritmoMedia MassimaPrimi Posti
ParBaLS EPIG49
ParBaLS-MAP EPIG27
SoftRankEPIG04
EPIG04
Confidence35

Prestazioni Specifiche

Dataset Tabulari (Prestazioni più Notevoli):

  • Airline Passenger Satisfaction: ParBaLS EPIG raggiunge 89.42±0.41%
  • Credit Card Fraud: ParBaLS EPIG raggiunge 93.55±0.23%

Impostazione con Spostamento di Sottogruppi (Più Impegnativa):

  • fMoW: ParBaLS EPIG raggiunge 31.37±6.60%, significativamente superiore ad altri metodi
  • iWildCam: ParBaLS EPIG raggiunge 84.72±1.98%

Analisi delle Curve di Apprendimento

La Figura 2 mostra che sui dataset tabulari, il metodo ParBaLS mantiene un vantaggio costante durante l'intero processo di apprendimento, con prestazioni particolarmente superiori in impostazioni a budget ridotto.

Esperimenti di Ablazione

  • ParBaLS vs ParBaLS-MAP: ParBaLS completo è generalmente superiore alla versione che utilizza solo etichette MAP
  • Impatto della Dimensione del Batch: Il vantaggio di ParBaLS è più evidente con batch più grandi (B=20)
  • Singolo Punto vs Batch: Gli esperimenti in appendice mostrano che sebbene la selezione di singoli punti (B=1) abbia prestazioni migliori, la selezione di batch è più efficiente nelle applicazioni pratiche

Lavori Correlati

Classificazione dei Metodi di Apprendimento Attivo

  1. Metodi Euristici: Basati su incertezza (Confidence, Margin, Entropy), diversità (CORESET) o entrambi (BADGE, GALAXY)
  2. Metodi Probabilistici: BALD, BatchBALD, BAIT e altri basati su teoria dell'informazione o principi bayesiani

Riduzione dell'Errore Attesa (EER)

EER si concentra direttamente su metriche di prestazioni come perdita zero-uno e log-verosimiglianza, fornendo migliore interpretabilità. I lavori correlati includono varianti che combinano metodi euristici e metodi adattivi per scenari a budget ridotto.

Pseudo-Etichette nell'Apprendimento Attivo

A differenza dell'apprendimento semi-supervisionato, le pseudo-etichette nell'apprendimento attivo sono principalmente utilizzate per:

  1. Potenziamento dell'Addestramento: Addestramento combinando etichette vere e pseudo-etichette
  2. Costruzione di Batch: L'innovazione di ParBaLS consiste nell'utilizzo di pseudo-etichette solo per costruire temporaneamente il batch, senza contaminare i dati annotati finali

Conclusioni e Discussione

Conclusioni Principali

  1. Unificazione Teorica: MBDT fornisce una base teorica unificata per molteplici algoritmi di apprendimento attivo
  2. Soluzione per Batch: ParBaLS risolve efficacemente il problema di scalabilità dell'apprendimento attivo in batch
  3. Verifica Sperimentale: ParBaLS EPIG presenta prestazioni eccellenti in diverse impostazioni, particolarmente adatto per scenari ad alta incertezza

Limitazioni

  1. Complessità Computazionale: La complessità temporale di ParBaLS è O(TBm), con m modelli paralleli che aumentano il carico computazionale
  2. Applicabilità del Metodo: Principalmente verificato su regressione logistica bayesiana, l'estensione a reti neurali profonde richiede ulteriori ricerche
  3. Analisi Teorica: La derivazione di BAIT si basa su approssimazioni asintotiche informali, con rigore teorico da migliorare

Direzioni Future

  1. Efficienza Computazionale: Ricerca di metodi di approssimazione computazionalmente efficienti, estensione a dataset e modelli più grandi
  2. Integrazione con Deep Learning: Ricerca su come estendere ParBaLS all'addestramento completo di reti neurali profonde
  3. Perfezionamento Teorico: Fornire analisi teoriche più rigorose e garanzie di convergenza

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico: Fornisce un quadro teorico unificato per gli algoritmi di apprendimento attivo, aumentando l'interpretabilità
  2. Valore Pratico: ParBaLS risolve il problema della selezione di batch nelle applicazioni reali
  3. Esperimenti Completi: Coprono molteplici tipi di dati e impostazioni impegnative, con risultati convincenti
  4. Innovazione del Metodo: L'applicazione di pseudo-etichette nella costruzione di batch è innovativa

Insufficienze

  1. Sovraccarico Computazionale: La manutenzione di m modelli paralleli aumenta il costo computazionale
  2. Rigore Teorico: Alcune derivazioni (come BAIT) si basano su approssimazioni informali
  3. Limitazioni Sperimentali: Principalmente verificato su modelli relativamente semplici (regressione logistica)
  4. Sensibilità agli Iperparametri: L'analisi della scelta di m e del compromesso tra prestazioni e calcolo non è sufficientemente approfondita

Impatto

  1. Impatto Teorico: Fornisce una nuova prospettiva teorica per l'apprendimento attivo, potenzialmente ispirando ricerche successive
  2. Valore Pratico: Il metodo ParBaLS ha valore applicativo diretto, particolarmente in scenari di annotazione in batch
  3. Riproducibilità: Fornisce codice open source, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Compiti ad Alta Incertezza: Scenari con incertezza irriducibile come dati tabulari e spostamento di sottogruppi
  2. Necessità di Annotazione in Batch: Applicazioni pratiche che richiedono annotazione in massa piuttosto che individuale
  3. Impostazioni Bayesiane: Modelli e compiti in grado di eseguire inferenza bayesiana

Riferimenti Bibliografici

Questo articolo cita importanti letterature nel campo dell'apprendimento attivo, incluse:

  • Metodi classici di campionamento per incertezza (Lewis, 1995)
  • Metodi di apprendimento attivo bayesiano (Houlsby et al., 2011; Gal et al., 2017)
  • Metodi di apprendimento attivo in batch (Kirsch et al., 2019, 2023)
  • Metodi di riduzione dell'errore attesa (Roy and McCallum, 2001; Mussmann et al., 2022)

Valutazione Complessiva: Questo è un articolo di importante valore teorico e pratico nel campo dell'apprendimento attivo. Attraverso l'unificazione degli algoritmi esistenti mediante MBDT e la proposta di ParBaLS per risolvere il problema della selezione di batch, fornisce nuove direzioni di ricerca per il settore. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e rigore teorico, i contributi sono significativi.