Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
- ID Articolo: 2501.01248
- Titolo: Bayesian Active Learning By Distribution Disagreement
- Autori: Thorben Werner, Lars Schmidt-Thieme (Università di Hildesheim)
- Classificazione: cs.LG (Machine Learning)
- Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2501.01248
L'apprendimento attivo per compiti di regressione è stato poco studiato a causa della difficoltà nel quantificare l'incertezza dei modelli di regressione. Sebbene i flussi normalizzati forniscano distribuzioni predittive complete anziché previsioni puntuali, facilitando l'uso diretto di euristiche note come l'entropia o il campionamento meno fiducioso, questo articolo dimostra che tali euristiche funzionano male con i flussi normalizzati nell'apprendimento attivo basato su pool, richiedendo algoritmi più sofisticati per distinguere l'incertezza aleatoria da quella epistemica. L'articolo propone l'algoritmo BALSA, una versione migliorata dell'algoritmo BALD, specificamente progettata per compiti di regressione utilizzando flussi normalizzati. Questo lavoro estende la ricerca sulla quantificazione dell'incertezza dei flussi normalizzati a dati del mondo reale e a molteplici funzioni di acquisizione e dimensioni di query nell'apprendimento attivo basato su pool. Su 4 dataset diversi e 2 architetture differenti, BALSA raggiunge risultati SOTA.
- Problema Centrale: La ricerca sull'apprendimento attivo per compiti di regressione è gravemente insufficiente, principalmente perché la quantificazione dell'incertezza nei modelli di regressione è più difficile rispetto ai compiti di classificazione
- Importanza: L'apprendimento attivo può ridurre la quantità di dati annotati necessari per addestrare modelli robusti, ma la ricerca esistente si concentra principalmente su problemi di classificazione
- Limitazioni dei Metodi Esistenti:
- I modelli di regressione tradizionali (ad eccezione dei processi gaussiani) hanno difficoltà a fornire direttamente la quantificazione dell'incertezza
- Le euristiche di incertezza esistenti (come deviazione standard, minore fiducia, entropia di Shannon) funzionano male sui flussi normalizzati
- Non riescono a distinguere efficacemente l'incertezza aleatoria (rumore dei dati) dall'incertezza epistemica (sottoapprendimento del modello)
- Motivazione della Ricerca: I flussi normalizzati e le reti neurali gaussiane rappresentano modelli emergenti che forniscono distribuzioni predittive complete, offrendo nuove opportunità per l'apprendimento attivo nei compiti di regressione
- Proposta dell'Algoritmo BALSA: Una versione migliorata dell'algoritmo BALD progettata per modelli con distribuzioni predittive, includendo due varianti (BALSA_KL e BALSA_EMD)
- Costruzione di un Benchmark Completo: Creazione di un benchmark comprensivo per l'apprendimento attivo di modelli con distribuzioni predittive, contenente 3 baseline euristiche e 3 versioni adattate di BALD
- Innovazione Tecnica: Due nuovi algoritmi di estensione di BALD che sfruttano direttamente le distribuzioni predittive senza dipendere da metodi di aggregazione
- Verifica Sperimentale: Confronti estesi su 4 dataset del mondo reale e 2 architetture di modelli, dimostrando l'efficacia del metodo
- Input: Dataset di addestramento Dtrain:={(xi,yi)}i=1N, dove x∈X,y∈Y
- Obiettivo: Selezionare i campioni più preziosi per l'annotazione attraverso una strategia di apprendimento attivo, minimizzando il costo di annotazione
- Vincoli: Impostazione di apprendimento attivo basato su pool con budget di annotazione fisso B
L'articolo utilizza due modelli di regressione con distribuzioni predittive:
- Rete Neurale Gaussiana (GNN): Utilizza un encoder MLP per produrre parametri μ e σ, costruendo una distribuzione predittiva gaussiana
- Flusso Normalizzato (NF): Utilizza trasformazioni invertibili per parametrizzare una distribuzione predittiva di forma libera, in grado di modellare distribuzioni target più complesse
BALSA si basa sull'idea centrale dell'algoritmo BALD, ma con miglioramenti per le distribuzioni predittive:
Formula BALD Originale:
BALD(x)=∑i=1k(H[yˉ(x)]−H[y^θi(x)])
Strategia Migliorata di BALSA:
BALD(x)=∑i=1kϕ(y^θi(x),yˉ(x))
dove φ è una funzione di misura che quantifica direttamente la distanza tra le distribuzioni predittive.
Metodo di Campionamento su Griglia:
- Normalizzazione dei valori target a 0,1
- Campionamento distribuito su 200 punti di griglia
- Calcolo del vettore di verosimiglianza e media: pˉ∣x=k1∑j=1kp^θj⊣∣x
Metodo di Confronto Accoppiato:
- Evita il calcolo della distribuzione media
- Utilizza k-1 coppie di campioni di parametri: ∑i=1k−1ϕ(p^θi∣x,p^θi+1∣x)
BALSA_KL (Divergenza di Kullback-Leibler):
- Versione su griglia: BALSAKLGrid(x)=∑i=1kKL(p^θi⊣∣x,pˉ∣x)
- Versione accoppiata: BALSAKLPair(x)=∑i=1k−1KL(p^θi∣x,p^θi+1∣x)
BALSA_EMD (Earth Mover's Distance):
BALSAEMD(x)=∑i=1k−1EMD(yθi′,yθi+1′)
dove yθ′∼p^θ∣x
Utilizzo di 4 dataset di regressione, coprendo diverse scale e complessità:
| Dataset | Numero Caratteristiche | Campioni Addestramento | Set Annotato Iniziale | Budget |
|---|
| Parkinsons | 61 | 3.760 | 200 | 800 |
| Superconductors | 81 | 13.608 | 200 | 800 |
| Sarcos | 21 | 28.470 | 200 | 1.200 |
| Diamonds | 26 | 34.522 | 200 | 1.200 |
- Metrica Principale: Verosimiglianza Logaritmica Negativa (NLL)
- Metriche Ausiliarie: Errore Assoluto Medio (MAE), Punteggio CRPS
- Metodo Statistico: Test dei Ranghi con Segno di Wilcoxon, utilizzo di diagrammi CD per l'aggregazione dei risultati
- Metodi Basati su Clustering: Coreset, CoreGCN, TypiClust
- Metodi Euristici: Deviazione Standard (Std), Minore Fiducia (LC), Entropia di Shannon (Entropy)
- Varianti BALD: BALD_σ, BALD_LC, BALD_H
- Metodi Proposti: BALSA_KL Grid/Pair, BALSA_EMD
- Architettura del Modello: Encoder MLP + Decoder di Distribuzione
- Flusso Normalizzato: Flusso Neurale Autoregressivo con Trasformazioni Spline Razionali Quadratiche
- Ottimizzatore: NAdam
- Tasso di Dropout: 0,008-0,05 (ottimizzato per ogni dataset)
- Ripetizioni Sperimentali: 30 ripetizioni per ogni esperimento
Il diagramma di Differenza Critica basato sulla metrica NLL mostra:
- BALSA_KL Pairs: Ranking medio migliore, prestazioni ottimali
- BALSA_KL Grid: Subito dopo, secondo ranking
- BALD_H: Terzo ranking
- Coreset: Migliore tra i metodi geometrici
Scoperte Chiave:
- I metodi euristici tradizionali (entropia, deviazione standard, minore fiducia) funzionano male sui flussi normalizzati
- I metodi BALSA mostrano vantaggi evidenti sull'architettura dei flussi normalizzati
- Coreset e CoreGCN funzionano meglio sull'architettura GNN
Test dell'effetto dell'utilizzo di diversi tassi di dropout nelle fasi di addestramento e valutazione:
- Risultati incoerenti: BALSA_EMD duale mostra prestazioni ridotte, BALSA_KL Grid duale mostra leggeri miglioramenti
- Ipotesi: Il cambio del tasso di dropout potrebbe influenzare la qualità delle previsioni del modello
Test della versione normalizzata di BALSA_KL Grid:
- La versione normalizzata mostra prestazioni leggermente inferiori alla versione non normalizzata
- Scelta della formula più semplice non normalizzata
Prestazioni su τ = {50, 200}:
- I metodi di campionamento dell'incertezza mantengono le prestazioni con dimensioni di query più grandi
- Gli algoritmi di clustering (Coreset, TypiClust) mostrano un calo di prestazioni più rapido
- Contraddice le conoscenze comuni nei compiti di classificazione
La traiettoria di apprendimento attivo sul dataset Diamonds mostra:
- I metodi BALSA convergono più rapidamente
- I metodi euristici tradizionali si avvicinano alle prestazioni di campionamento casuale
- Prestazioni coerenti sulle metriche NLL e MAE
- Metodi Geometrici: Coreset, CoreGCN, TypiClust e altri basati su proprietà geometriche dei dati
- Metodi di Incertezza: La maggior parte è legata a architetture di modelli specifiche, con scarsa generalità
- Algoritmo BALD: Uno dei pochi metodi indipendenti dal modello
Lavoro di Berry e Meger 1,2:
- Propone ensemble di flussi normalizzati e approssimazione MC dropout
- Verifica solo su dati sintetici
- Questo articolo estende a dati reali e molteplici funzioni di acquisizione
- Utilizzo dell'entropia di Shannon anziché semplice -∑logŷ_θ(x)
- Estensione a dataset del mondo reale
- Confronto con molteplici algoritmi di apprendimento attivo
- Efficacia del Metodo: BALSA mostra prestazioni eccellenti sui flussi normalizzati, in particolare la versione BALSA_KL Pairs
- Fallimento delle Euristiche: Le euristiche di incertezza tradizionali funzionano male sui flussi normalizzati
- Dipendenza dall'Architettura: Diversi algoritmi mostrano differenze significative di prestazioni su diverse architetture di modelli
- Impatto della Dimensione della Query: I metodi di incertezza sono più stabili con dimensioni di query più grandi
- Analisi Teorica Insufficiente: Mancanza di analisi teorica sulla convergenza dell'algoritmo BALSA
- Overhead Computazionale: MC dropout e calcolo della distanza di distribuzione aumentano il costo computazionale
- Sensibilità agli Iperparametri: La scelta del tasso di dropout ha un impatto significativo sulle prestazioni
- Limitazioni dei Dataset: Verifica solo su 4 dataset, la generalizzabilità rimane da verificare
- Estensione ad altri metodi di campionamento dei parametri (Dinamica di Langevin, SVGD)
- Analisi teorica delle proprietà di convergenza di BALSA
- Ricerca di ulteriori misure di distanza di distribuzione
- Verifica su dataset di scala più grande
- Importanza del Problema: Affronta il problema trascurato ma importante dell'apprendimento attivo per regressione
- Innovazione del Metodo: Primo utilizzo diretto della distanza di distribuzione nell'apprendimento attivo, evitando la perdita di informazioni dei metodi di aggregazione
- Completezza Sperimentale: Valutazione completa su più dataset, architetture e metriche
- Valore Pratico: Fornisce codice riproducibile e impostazioni sperimentali dettagliate
- Fondamenti Teorici Deboli: Mancanza di analisi teorica per spiegare perché BALSA è più efficace
- Efficienza Computazionale: MC dropout e calcolo EMD potrebbero influenzare l'applicazione pratica
- Ottimizzazione degli Iperparametri: Mancanza di guida sistematica per la scelta del tasso di dropout
- Limitazioni della Valutazione: Principalmente basata su NLL, la coerenza con altre metriche di regressione rimane da verificare
- Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento attivo per regressione
- Valore Pratico: Particolarmente adatto per applicazioni di regressione che richiedono quantificazione dell'incertezza
- Riproducibilità: Fornisce codice completo e configurazione sperimentale, facilitando la ricerca successiva
- Calcolo Scientifico: Modellazione fisica/chimica che richiede quantificazione dell'incertezza
- Valutazione del Rischio: Settori finanziari e medici sensibili all'incertezza
- Ottimizzazione Ingegneristica: Problemi di ottimizzazione della progettazione che richiedono equilibrio tra esplorazione e sfruttamento
- Serie Temporali: Compiti di previsione con distribuzioni complesse
L'articolo fa principalmente riferimento ai seguenti lavori chiave:
- Berry & Meger (2023): Modellazione dell'incertezza con ensemble di flussi normalizzati
- Gal et al. (2017): Proposta originale dell'algoritmo BALD
- Sener & Savarese (2017): Metodo di apprendimento attivo Coreset
- Durkan et al. (2019): Fondamenti tecnici dei flussi neurali spline
Valutazione Complessiva: Questo è un articolo di alta qualità che affronta il problema importante ma trascurato dell'apprendimento attivo per regressione. La proposta dell'algoritmo BALSA colma il vuoto nell'applicazione dei flussi normalizzati all'apprendimento attivo, con un design sperimentale completo e risultati convincenti. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, l'articolo fornisce un contributo significativo allo sviluppo di questo campo.