2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme
Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
academic

Apprendimento Attivo Bayesiano Mediante Disaccordo Distributivo

Informazioni Fondamentali

  • ID Articolo: 2501.01248
  • Titolo: Bayesian Active Learning By Distribution Disagreement
  • Autori: Thorben Werner, Lars Schmidt-Thieme (Università di Hildesheim)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.01248

Riassunto

L'apprendimento attivo per compiti di regressione è stato poco studiato a causa della difficoltà nel quantificare l'incertezza dei modelli di regressione. Sebbene i flussi normalizzati forniscano distribuzioni predittive complete anziché previsioni puntuali, facilitando l'uso diretto di euristiche note come l'entropia o il campionamento meno fiducioso, questo articolo dimostra che tali euristiche funzionano male con i flussi normalizzati nell'apprendimento attivo basato su pool, richiedendo algoritmi più sofisticati per distinguere l'incertezza aleatoria da quella epistemica. L'articolo propone l'algoritmo BALSA, una versione migliorata dell'algoritmo BALD, specificamente progettata per compiti di regressione utilizzando flussi normalizzati. Questo lavoro estende la ricerca sulla quantificazione dell'incertezza dei flussi normalizzati a dati del mondo reale e a molteplici funzioni di acquisizione e dimensioni di query nell'apprendimento attivo basato su pool. Su 4 dataset diversi e 2 architetture differenti, BALSA raggiunge risultati SOTA.

Contesto e Motivazione della Ricerca

Definizione del Problema

  1. Problema Centrale: La ricerca sull'apprendimento attivo per compiti di regressione è gravemente insufficiente, principalmente perché la quantificazione dell'incertezza nei modelli di regressione è più difficile rispetto ai compiti di classificazione
  2. Importanza: L'apprendimento attivo può ridurre la quantità di dati annotati necessari per addestrare modelli robusti, ma la ricerca esistente si concentra principalmente su problemi di classificazione
  3. Limitazioni dei Metodi Esistenti:
    • I modelli di regressione tradizionali (ad eccezione dei processi gaussiani) hanno difficoltà a fornire direttamente la quantificazione dell'incertezza
    • Le euristiche di incertezza esistenti (come deviazione standard, minore fiducia, entropia di Shannon) funzionano male sui flussi normalizzati
    • Non riescono a distinguere efficacemente l'incertezza aleatoria (rumore dei dati) dall'incertezza epistemica (sottoapprendimento del modello)
  4. Motivazione della Ricerca: I flussi normalizzati e le reti neurali gaussiane rappresentano modelli emergenti che forniscono distribuzioni predittive complete, offrendo nuove opportunità per l'apprendimento attivo nei compiti di regressione

Contributi Principali

  1. Proposta dell'Algoritmo BALSA: Una versione migliorata dell'algoritmo BALD progettata per modelli con distribuzioni predittive, includendo due varianti (BALSA_KL e BALSA_EMD)
  2. Costruzione di un Benchmark Completo: Creazione di un benchmark comprensivo per l'apprendimento attivo di modelli con distribuzioni predittive, contenente 3 baseline euristiche e 3 versioni adattate di BALD
  3. Innovazione Tecnica: Due nuovi algoritmi di estensione di BALD che sfruttano direttamente le distribuzioni predittive senza dipendere da metodi di aggregazione
  4. Verifica Sperimentale: Confronti estesi su 4 dataset del mondo reale e 2 architetture di modelli, dimostrando l'efficacia del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Dataset di addestramento Dtrain:={(xi,yi)}i=1ND_{train} := \{(x_i, y_i)\}_{i=1}^N, dove xX,yYx \in \mathcal{X}, y \in \mathcal{Y}
  • Obiettivo: Selezionare i campioni più preziosi per l'annotazione attraverso una strategia di apprendimento attivo, minimizzando il costo di annotazione
  • Vincoli: Impostazione di apprendimento attivo basato su pool con budget di annotazione fisso B

Architettura del Modello

1. Modelli di Base

L'articolo utilizza due modelli di regressione con distribuzioni predittive:

  • Rete Neurale Gaussiana (GNN): Utilizza un encoder MLP per produrre parametri μ e σ, costruendo una distribuzione predittiva gaussiana
  • Flusso Normalizzato (NF): Utilizza trasformazioni invertibili per parametrizzare una distribuzione predittiva di forma libera, in grado di modellare distribuzioni target più complesse

2. Idea Centrale dell'Algoritmo BALSA

BALSA si basa sull'idea centrale dell'algoritmo BALD, ma con miglioramenti per le distribuzioni predittive:

Formula BALD Originale: BALD(x)=i=1k(H[yˉ(x)]H[y^θi(x)])BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])

Strategia Migliorata di BALSA: BALD(x)=i=1kϕ(y^θi(x),yˉ(x))BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))

dove φ è una funzione di misura che quantifica direttamente la distanza tra le distribuzioni predittive.

Punti di Innovazione Tecnica

1. Calcolo della Distribuzione Media

Metodo di Campionamento su Griglia:

  • Normalizzazione dei valori target a 0,1
  • Campionamento distribuito su 200 punti di griglia
  • Calcolo del vettore di verosimiglianza e media: pˉx=1kj=1kp^θjx\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x

Metodo di Confronto Accoppiato:

  • Evita il calcolo della distribuzione media
  • Utilizza k-1 coppie di campioni di parametri: i=1k1ϕ(p^θix,p^θi+1x)\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

2. Funzioni di Misura della Distanza

BALSA_KL (Divergenza di Kullback-Leibler):

  • Versione su griglia: BALSAKLGrid(x)=i=1kKL(p^θix,pˉx)BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)
  • Versione accoppiata: BALSAKLPair(x)=i=1k1KL(p^θix,p^θi+1x)BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

BALSA_EMD (Earth Mover's Distance): BALSAEMD(x)=i=1k1EMD(yθi,yθi+1)BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})

dove yθp^θxy'_\theta \sim \hat{p}_\theta|x

Impostazione Sperimentale

Dataset

Utilizzo di 4 dataset di regressione, coprendo diverse scale e complessità:

DatasetNumero CaratteristicheCampioni AddestramentoSet Annotato InizialeBudget
Parkinsons613.760200800
Superconductors8113.608200800
Sarcos2128.4702001.200
Diamonds2634.5222001.200

Metriche di Valutazione

  • Metrica Principale: Verosimiglianza Logaritmica Negativa (NLL)
  • Metriche Ausiliarie: Errore Assoluto Medio (MAE), Punteggio CRPS
  • Metodo Statistico: Test dei Ranghi con Segno di Wilcoxon, utilizzo di diagrammi CD per l'aggregazione dei risultati

Metodi di Confronto

  • Metodi Basati su Clustering: Coreset, CoreGCN, TypiClust
  • Metodi Euristici: Deviazione Standard (Std), Minore Fiducia (LC), Entropia di Shannon (Entropy)
  • Varianti BALD: BALD_σ, BALD_LC, BALD_H
  • Metodi Proposti: BALSA_KL Grid/Pair, BALSA_EMD

Dettagli di Implementazione

  • Architettura del Modello: Encoder MLP + Decoder di Distribuzione
  • Flusso Normalizzato: Flusso Neurale Autoregressivo con Trasformazioni Spline Razionali Quadratiche
  • Ottimizzatore: NAdam
  • Tasso di Dropout: 0,008-0,05 (ottimizzato per ogni dataset)
  • Ripetizioni Sperimentali: 30 ripetizioni per ogni esperimento

Risultati Sperimentali

Risultati Principali

Il diagramma di Differenza Critica basato sulla metrica NLL mostra:

  1. BALSA_KL Pairs: Ranking medio migliore, prestazioni ottimali
  2. BALSA_KL Grid: Subito dopo, secondo ranking
  3. BALD_H: Terzo ranking
  4. Coreset: Migliore tra i metodi geometrici

Scoperte Chiave:

  • I metodi euristici tradizionali (entropia, deviazione standard, minore fiducia) funzionano male sui flussi normalizzati
  • I metodi BALSA mostrano vantaggi evidenti sull'architettura dei flussi normalizzati
  • Coreset e CoreGCN funzionano meglio sull'architettura GNN

Esperimenti di Ablazione

1. Esperimento in Modalità Duale

Test dell'effetto dell'utilizzo di diversi tassi di dropout nelle fasi di addestramento e valutazione:

  • Risultati incoerenti: BALSA_EMD duale mostra prestazioni ridotte, BALSA_KL Grid duale mostra leggeri miglioramenti
  • Ipotesi: Il cambio del tasso di dropout potrebbe influenzare la qualità delle previsioni del modello

2. Esperimento di Rinormalizzazione

Test della versione normalizzata di BALSA_KL Grid:

  • La versione normalizzata mostra prestazioni leggermente inferiori alla versione non normalizzata
  • Scelta della formula più semplice non normalizzata

3. Esperimento sulla Dimensione della Query

Prestazioni su τ = {50, 200}:

  • I metodi di campionamento dell'incertezza mantengono le prestazioni con dimensioni di query più grandi
  • Gli algoritmi di clustering (Coreset, TypiClust) mostrano un calo di prestazioni più rapido
  • Contraddice le conoscenze comuni nei compiti di classificazione

Analisi di Casi

La traiettoria di apprendimento attivo sul dataset Diamonds mostra:

  • I metodi BALSA convergono più rapidamente
  • I metodi euristici tradizionali si avvicinano alle prestazioni di campionamento casuale
  • Prestazioni coerenti sulle metriche NLL e MAE

Lavori Correlati

Apprendimento Attivo per Regressione

  • Metodi Geometrici: Coreset, CoreGCN, TypiClust e altri basati su proprietà geometriche dei dati
  • Metodi di Incertezza: La maggior parte è legata a architetture di modelli specifiche, con scarsa generalità
  • Algoritmo BALD: Uno dei pochi metodi indipendenti dal modello

Lavori Più Correlati

Lavoro di Berry e Meger 1,2:

  • Propone ensemble di flussi normalizzati e approssimazione MC dropout
  • Verifica solo su dati sintetici
  • Questo articolo estende a dati reali e molteplici funzioni di acquisizione

Differenze e Miglioramenti

  1. Utilizzo dell'entropia di Shannon anziché semplice -∑logŷ_θ(x)
  2. Estensione a dataset del mondo reale
  3. Confronto con molteplici algoritmi di apprendimento attivo

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: BALSA mostra prestazioni eccellenti sui flussi normalizzati, in particolare la versione BALSA_KL Pairs
  2. Fallimento delle Euristiche: Le euristiche di incertezza tradizionali funzionano male sui flussi normalizzati
  3. Dipendenza dall'Architettura: Diversi algoritmi mostrano differenze significative di prestazioni su diverse architetture di modelli
  4. Impatto della Dimensione della Query: I metodi di incertezza sono più stabili con dimensioni di query più grandi

Limitazioni

  1. Analisi Teorica Insufficiente: Mancanza di analisi teorica sulla convergenza dell'algoritmo BALSA
  2. Overhead Computazionale: MC dropout e calcolo della distanza di distribuzione aumentano il costo computazionale
  3. Sensibilità agli Iperparametri: La scelta del tasso di dropout ha un impatto significativo sulle prestazioni
  4. Limitazioni dei Dataset: Verifica solo su 4 dataset, la generalizzabilità rimane da verificare

Direzioni Future

  1. Estensione ad altri metodi di campionamento dei parametri (Dinamica di Langevin, SVGD)
  2. Analisi teorica delle proprietà di convergenza di BALSA
  3. Ricerca di ulteriori misure di distanza di distribuzione
  4. Verifica su dataset di scala più grande

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta il problema trascurato ma importante dell'apprendimento attivo per regressione
  2. Innovazione del Metodo: Primo utilizzo diretto della distanza di distribuzione nell'apprendimento attivo, evitando la perdita di informazioni dei metodi di aggregazione
  3. Completezza Sperimentale: Valutazione completa su più dataset, architetture e metriche
  4. Valore Pratico: Fornisce codice riproducibile e impostazioni sperimentali dettagliate

Punti Deboli

  1. Fondamenti Teorici Deboli: Mancanza di analisi teorica per spiegare perché BALSA è più efficace
  2. Efficienza Computazionale: MC dropout e calcolo EMD potrebbero influenzare l'applicazione pratica
  3. Ottimizzazione degli Iperparametri: Mancanza di guida sistematica per la scelta del tasso di dropout
  4. Limitazioni della Valutazione: Principalmente basata su NLL, la coerenza con altre metriche di regressione rimane da verificare

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento attivo per regressione
  2. Valore Pratico: Particolarmente adatto per applicazioni di regressione che richiedono quantificazione dell'incertezza
  3. Riproducibilità: Fornisce codice completo e configurazione sperimentale, facilitando la ricerca successiva

Scenari Applicabili

  1. Calcolo Scientifico: Modellazione fisica/chimica che richiede quantificazione dell'incertezza
  2. Valutazione del Rischio: Settori finanziari e medici sensibili all'incertezza
  3. Ottimizzazione Ingegneristica: Problemi di ottimizzazione della progettazione che richiedono equilibrio tra esplorazione e sfruttamento
  4. Serie Temporali: Compiti di previsione con distribuzioni complesse

Riferimenti Bibliografici

L'articolo fa principalmente riferimento ai seguenti lavori chiave:

  1. Berry & Meger (2023): Modellazione dell'incertezza con ensemble di flussi normalizzati
  2. Gal et al. (2017): Proposta originale dell'algoritmo BALD
  3. Sener & Savarese (2017): Metodo di apprendimento attivo Coreset
  4. Durkan et al. (2019): Fondamenti tecnici dei flussi neurali spline

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta il problema importante ma trascurato dell'apprendimento attivo per regressione. La proposta dell'algoritmo BALSA colma il vuoto nell'applicazione dei flussi normalizzati all'apprendimento attivo, con un design sperimentale completo e risultati convincenti. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, l'articolo fornisce un contributo significativo allo sviluppo di questo campo.