2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme

Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.

academic

Apprendimento Attivo Bayesiano Mediante Disaccordo Distributivo

Informazioni Fondamentali

ID Articolo: 2501.01248
Titolo: Bayesian Active Learning By Distribution Disagreement
Autori: Thorben Werner, Lars Schmidt-Thieme (Università di Hildesheim)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.01248

Riassunto

L'apprendimento attivo per compiti di regressione è stato poco studiato a causa della difficoltà nel quantificare l'incertezza dei modelli di regressione. Sebbene i flussi normalizzati forniscano distribuzioni predittive complete anziché previsioni puntuali, facilitando l'uso diretto di euristiche note come l'entropia o il campionamento meno fiducioso, questo articolo dimostra che tali euristiche funzionano male con i flussi normalizzati nell'apprendimento attivo basato su pool, richiedendo algoritmi più sofisticati per distinguere l'incertezza aleatoria da quella epistemica. L'articolo propone l'algoritmo BALSA, una versione migliorata dell'algoritmo BALD, specificamente progettata per compiti di regressione utilizzando flussi normalizzati. Questo lavoro estende la ricerca sulla quantificazione dell'incertezza dei flussi normalizzati a dati del mondo reale e a molteplici funzioni di acquisizione e dimensioni di query nell'apprendimento attivo basato su pool. Su 4 dataset diversi e 2 architetture differenti, BALSA raggiunge risultati SOTA.

Contesto e Motivazione della Ricerca

Definizione del Problema

Problema Centrale: La ricerca sull'apprendimento attivo per compiti di regressione è gravemente insufficiente, principalmente perché la quantificazione dell'incertezza nei modelli di regressione è più difficile rispetto ai compiti di classificazione
Importanza: L'apprendimento attivo può ridurre la quantità di dati annotati necessari per addestrare modelli robusti, ma la ricerca esistente si concentra principalmente su problemi di classificazione
Limitazioni dei Metodi Esistenti:
- I modelli di regressione tradizionali (ad eccezione dei processi gaussiani) hanno difficoltà a fornire direttamente la quantificazione dell'incertezza
- Le euristiche di incertezza esistenti (come deviazione standard, minore fiducia, entropia di Shannon) funzionano male sui flussi normalizzati
- Non riescono a distinguere efficacemente l'incertezza aleatoria (rumore dei dati) dall'incertezza epistemica (sottoapprendimento del modello)
Motivazione della Ricerca: I flussi normalizzati e le reti neurali gaussiane rappresentano modelli emergenti che forniscono distribuzioni predittive complete, offrendo nuove opportunità per l'apprendimento attivo nei compiti di regressione

Contributi Principali

Proposta dell'Algoritmo BALSA: Una versione migliorata dell'algoritmo BALD progettata per modelli con distribuzioni predittive, includendo due varianti (BALSA_KL e BALSA_EMD)
Costruzione di un Benchmark Completo: Creazione di un benchmark comprensivo per l'apprendimento attivo di modelli con distribuzioni predittive, contenente 3 baseline euristiche e 3 versioni adattate di BALD
Innovazione Tecnica: Due nuovi algoritmi di estensione di BALD che sfruttano direttamente le distribuzioni predittive senza dipendere da metodi di aggregazione
Verifica Sperimentale: Confronti estesi su 4 dataset del mondo reale e 2 architetture di modelli, dimostrando l'efficacia del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Dataset di addestramento $D_{train} := \{(x_i, y_i)\}_{i=1}^N$ , dove $x \in \mathcal{X}, y \in \mathcal{Y}$
Obiettivo: Selezionare i campioni più preziosi per l'annotazione attraverso una strategia di apprendimento attivo, minimizzando il costo di annotazione
Vincoli: Impostazione di apprendimento attivo basato su pool con budget di annotazione fisso B

Architettura del Modello

1. Modelli di Base

L'articolo utilizza due modelli di regressione con distribuzioni predittive:

Rete Neurale Gaussiana (GNN): Utilizza un encoder MLP per produrre parametri μ e σ, costruendo una distribuzione predittiva gaussiana
Flusso Normalizzato (NF): Utilizza trasformazioni invertibili per parametrizzare una distribuzione predittiva di forma libera, in grado di modellare distribuzioni target più complesse

2. Idea Centrale dell'Algoritmo BALSA

BALSA si basa sull'idea centrale dell'algoritmo BALD, ma con miglioramenti per le distribuzioni predittive:

Formula BALD Originale: $BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])$

Strategia Migliorata di BALSA: $BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))$

dove φ è una funzione di misura che quantifica direttamente la distanza tra le distribuzioni predittive.

Punti di Innovazione Tecnica

1. Calcolo della Distribuzione Media

Metodo di Campionamento su Griglia:

Normalizzazione dei valori target a 0,1
Campionamento distribuito su 200 punti di griglia
Calcolo del vettore di verosimiglianza e media: $\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x$

Metodo di Confronto Accoppiato:

Evita il calcolo della distribuzione media
Utilizza k-1 coppie di campioni di parametri: $\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$

2. Funzioni di Misura della Distanza

BALSA_KL (Divergenza di Kullback-Leibler):

Versione su griglia: $BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)$
Versione accoppiata: $BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$

BALSA_EMD (Earth Mover's Distance): $BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})$

dove $y'_\theta \sim \hat{p}_\theta|x$

Impostazione Sperimentale

Dataset

Utilizzo di 4 dataset di regressione, coprendo diverse scale e complessità:

Dataset	Numero Caratteristiche	Campioni Addestramento	Set Annotato Iniziale	Budget
Parkinsons	61	3.760	200	800
Superconductors	81	13.608	200	800
Sarcos	21	28.470	200	1.200
Diamonds	26	34.522	200	1.200

Metriche di Valutazione

Metrica Principale: Verosimiglianza Logaritmica Negativa (NLL)
Metriche Ausiliarie: Errore Assoluto Medio (MAE), Punteggio CRPS
Metodo Statistico: Test dei Ranghi con Segno di Wilcoxon, utilizzo di diagrammi CD per l'aggregazione dei risultati

Metodi di Confronto

Metodi Basati su Clustering: Coreset, CoreGCN, TypiClust
Metodi Euristici: Deviazione Standard (Std), Minore Fiducia (LC), Entropia di Shannon (Entropy)
Varianti BALD: BALD_σ, BALD_LC, BALD_H
Metodi Proposti: BALSA_KL Grid/Pair, BALSA_EMD

Dettagli di Implementazione

Architettura del Modello: Encoder MLP + Decoder di Distribuzione
Flusso Normalizzato: Flusso Neurale Autoregressivo con Trasformazioni Spline Razionali Quadratiche
Ottimizzatore: NAdam
Tasso di Dropout: 0,008-0,05 (ottimizzato per ogni dataset)
Ripetizioni Sperimentali: 30 ripetizioni per ogni esperimento

Risultati Sperimentali

Risultati Principali

Il diagramma di Differenza Critica basato sulla metrica NLL mostra:

BALSA_KL Pairs: Ranking medio migliore, prestazioni ottimali
BALSA_KL Grid: Subito dopo, secondo ranking
BALD_H: Terzo ranking
Coreset: Migliore tra i metodi geometrici

Scoperte Chiave:

I metodi euristici tradizionali (entropia, deviazione standard, minore fiducia) funzionano male sui flussi normalizzati
I metodi BALSA mostrano vantaggi evidenti sull'architettura dei flussi normalizzati
Coreset e CoreGCN funzionano meglio sull'architettura GNN

Esperimenti di Ablazione

1. Esperimento in Modalità Duale

Test dell'effetto dell'utilizzo di diversi tassi di dropout nelle fasi di addestramento e valutazione:

Risultati incoerenti: BALSA_EMD duale mostra prestazioni ridotte, BALSA_KL Grid duale mostra leggeri miglioramenti
Ipotesi: Il cambio del tasso di dropout potrebbe influenzare la qualità delle previsioni del modello

2. Esperimento di Rinormalizzazione

Test della versione normalizzata di BALSA_KL Grid:

La versione normalizzata mostra prestazioni leggermente inferiori alla versione non normalizzata
Scelta della formula più semplice non normalizzata

3. Esperimento sulla Dimensione della Query

Prestazioni su τ = {50, 200}:

I metodi di campionamento dell'incertezza mantengono le prestazioni con dimensioni di query più grandi
Gli algoritmi di clustering (Coreset, TypiClust) mostrano un calo di prestazioni più rapido
Contraddice le conoscenze comuni nei compiti di classificazione

Analisi di Casi

La traiettoria di apprendimento attivo sul dataset Diamonds mostra:

I metodi BALSA convergono più rapidamente
I metodi euristici tradizionali si avvicinano alle prestazioni di campionamento casuale
Prestazioni coerenti sulle metriche NLL e MAE

Lavori Correlati

Apprendimento Attivo per Regressione

Metodi Geometrici: Coreset, CoreGCN, TypiClust e altri basati su proprietà geometriche dei dati
Metodi di Incertezza: La maggior parte è legata a architetture di modelli specifiche, con scarsa generalità
Algoritmo BALD: Uno dei pochi metodi indipendenti dal modello

Lavori Più Correlati

Lavoro di Berry e Meger 1,2:

Propone ensemble di flussi normalizzati e approssimazione MC dropout
Verifica solo su dati sintetici
Questo articolo estende a dati reali e molteplici funzioni di acquisizione

Differenze e Miglioramenti

Utilizzo dell'entropia di Shannon anziché semplice -∑logŷ_θ(x)
Estensione a dataset del mondo reale
Confronto con molteplici algoritmi di apprendimento attivo

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Metodo: BALSA mostra prestazioni eccellenti sui flussi normalizzati, in particolare la versione BALSA_KL Pairs
Fallimento delle Euristiche: Le euristiche di incertezza tradizionali funzionano male sui flussi normalizzati
Dipendenza dall'Architettura: Diversi algoritmi mostrano differenze significative di prestazioni su diverse architetture di modelli
Impatto della Dimensione della Query: I metodi di incertezza sono più stabili con dimensioni di query più grandi

Limitazioni

Analisi Teorica Insufficiente: Mancanza di analisi teorica sulla convergenza dell'algoritmo BALSA
Overhead Computazionale: MC dropout e calcolo della distanza di distribuzione aumentano il costo computazionale
Sensibilità agli Iperparametri: La scelta del tasso di dropout ha un impatto significativo sulle prestazioni
Limitazioni dei Dataset: Verifica solo su 4 dataset, la generalizzabilità rimane da verificare

Direzioni Future

Estensione ad altri metodi di campionamento dei parametri (Dinamica di Langevin, SVGD)
Analisi teorica delle proprietà di convergenza di BALSA
Ricerca di ulteriori misure di distanza di distribuzione
Verifica su dataset di scala più grande

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta il problema trascurato ma importante dell'apprendimento attivo per regressione
Innovazione del Metodo: Primo utilizzo diretto della distanza di distribuzione nell'apprendimento attivo, evitando la perdita di informazioni dei metodi di aggregazione
Completezza Sperimentale: Valutazione completa su più dataset, architetture e metriche
Valore Pratico: Fornisce codice riproducibile e impostazioni sperimentali dettagliate

Punti Deboli

Fondamenti Teorici Deboli: Mancanza di analisi teorica per spiegare perché BALSA è più efficace
Efficienza Computazionale: MC dropout e calcolo EMD potrebbero influenzare l'applicazione pratica
Ottimizzazione degli Iperparametri: Mancanza di guida sistematica per la scelta del tasso di dropout
Limitazioni della Valutazione: Principalmente basata su NLL, la coerenza con altre metriche di regressione rimane da verificare

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento attivo per regressione
Valore Pratico: Particolarmente adatto per applicazioni di regressione che richiedono quantificazione dell'incertezza
Riproducibilità: Fornisce codice completo e configurazione sperimentale, facilitando la ricerca successiva

Scenari Applicabili

Calcolo Scientifico: Modellazione fisica/chimica che richiede quantificazione dell'incertezza
Valutazione del Rischio: Settori finanziari e medici sensibili all'incertezza
Ottimizzazione Ingegneristica: Problemi di ottimizzazione della progettazione che richiedono equilibrio tra esplorazione e sfruttamento
Serie Temporali: Compiti di previsione con distribuzioni complesse

Riferimenti Bibliografici

L'articolo fa principalmente riferimento ai seguenti lavori chiave:

Berry & Meger (2023): Modellazione dell'incertezza con ensemble di flussi normalizzati
Gal et al. (2017): Proposta originale dell'algoritmo BALD
Sener & Savarese (2017): Metodo di apprendimento attivo Coreset
Durkan et al. (2019): Fondamenti tecnici dei flussi neurali spline

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta il problema importante ma trascurato dell'apprendimento attivo per regressione. La proposta dell'algoritmo BALSA colma il vuoto nell'applicazione dei flussi normalizzati all'apprendimento attivo, con un design sperimentale completo e risultati convincenti. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, l'articolo fornisce un contributo significativo allo sviluppo di questo campo.