2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme
Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
academic

Bayesianisches Aktives Lernen durch Verteilungsdisagreement

Grundinformationen

  • Paper-ID: 2501.01248
  • Titel: Bayesian Active Learning By Distribution Disagreement
  • Autoren: Thorben Werner, Lars Schmidt-Thieme (Universität Hildesheim)
  • Klassifikation: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.01248

Zusammenfassung

Das aktive Lernen für Regressionsprobleme ist untererforscht, da die Quantifizierung der Unsicherheit von Regressionsmodellen schwierig ist. Obwohl normalisierte Flüsse vollständige Vorhersageverteilungen statt Punktvorhersagen liefern und die direkte Verwendung bekannter Heuristiken wie Entropie oder Least Confidence Sampling ermöglichen, zeigt diese Arbeit, dass diese Heuristiken bei normalisierten Flüssen in Pool-basiertem aktivem Lernen schlecht funktionieren und komplexere Algorithmen zur Unterscheidung zwischen aleathorischer und epistemischer Unsicherheit erforderlich sind. Die Arbeit schlägt den BALSA-Algorithmus vor, eine verbesserte Version des BALD-Algorithmus, speziell für Regressionsprobleme mit normalisierten Flüssen. Diese Arbeit erweitert die Forschung zur Unsicherheitsquantifizierung normalisierter Flüsse auf reale Daten und Pool-basiertes aktives Lernen mit verschiedenen Akquisitionsfunktionen und Abfragegrößen. BALSA erreicht State-of-the-Art-Ergebnisse auf 4 verschiedenen Datensätzen und 2 verschiedenen Architekturen.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Das aktive Lernen für Regressionsprobleme ist stark untererforscht, hauptsächlich weil die Unsicherheitsquantifizierung von Regressionsmodellen schwieriger ist als bei Klassifikationsaufgaben
  2. Bedeutung: Aktives Lernen kann die Menge der annotierten Daten reduzieren, die zum Trainieren starker Modelle erforderlich ist, aber die bestehende Forschung konzentriert sich hauptsächlich auf Klassifikationsprobleme
  3. Einschränkungen bestehender Methoden:
    • Traditionelle Regressionsmodelle (außer Gaußschen Prozessen) können nicht direkt Unsicherheitsquantifizierung bereitstellen
    • Bestehende Unsicherheitsheuristiken (wie Standardabweichung, Least Confidence, Shannon-Entropie) funktionieren schlecht bei normalisierten Flüssen
    • Können nicht effektiv zwischen aleathorischer Unsicherheit (Datenlärm) und epistemischer Unsicherheit (Modellunterpassung) unterscheiden
  4. Forschungsmotivation: Neue Modelle wie normalisierte Flüsse und Gaußsche neuronale Netze bieten vollständige Vorhersageverteilungen und eröffnen neue Möglichkeiten für aktives Lernen bei Regressionsprobleme

Kernbeiträge

  1. Vorschlag des BALSA-Algorithmus: Eine verbesserte Version des BALD-Algorithmus, die für Modelle mit Vorhersageverteilungen konzipiert ist, mit zwei Varianten (BALSAKL und BALSAEMD)
  2. Aufbau einer umfassenden Benchmark: Erstellung einer umfassenden Benchmark für aktives Lernen mit Modellen mit Vorhersageverteilungen, einschließlich 3 Heuristik-Baselines und 3 BALD-Adaptationen
  3. Technische Innovation: Zwei neue BALD-Erweiterungsalgorithmen, die Vorhersageverteilungen direkt nutzen, anstatt sich auf Aggregationsmethoden zu verlassen
  4. Experimentelle Validierung: Umfangreiche Vergleiche auf 4 realen Datensätzen und 2 Modellarchitekturen, die die Wirksamkeit der Methode demonstrieren

Methodische Details

Aufgabendefinition

  • Eingabe: Trainingsdatensatz Dtrain:={(xi,yi)}i=1ND_{train} := \{(x_i, y_i)\}_{i=1}^N, wobei xX,yYx \in \mathcal{X}, y \in \mathcal{Y}
  • Ziel: Durch eine aktive Lernstrategie die wertvollsten Stichproben zur Annotation auswählen und die Annotationskosten minimieren
  • Einschränkung: Pool-basierte aktive Lerneinstellung mit festem Annotationsbudget B

Modellarchitektur

1. Basismodelle

Die Arbeit verwendet zwei Regressionsmodelle mit Vorhersageverteilungen:

  • Gaußsche neuronale Netze (GNN): Verwenden einen MLP-Encoder zur Erzeugung von μ- und σ-Parametern und konstruieren eine Gaußsche Vorhersageverteilung
  • Normalisierte Flüsse (NF): Verwenden invertierbare Transformationen zur Parametrisierung von freiformigen Vorhersageverteilungen und können komplexere Zielverteilungen modellieren

2. BALSA-Algorithmus Kernidee

BALSA basiert auf der Kernidee des BALD-Algorithmus, wurde aber für Vorhersageverteilungen verbessert:

Ursprüngliche BALD-Formel: BALD(x)=i=1k(H[yˉ(x)]H[y^θi(x)])BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])

BALSA-Verbesserungsstrategie: BALD(x)=i=1kϕ(y^θi(x),yˉ(x))BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))

wobei φ eine Maßfunktion ist, die direkt den Abstand zwischen Vorhersageverteilungen misst.

Technische Innovationen

1. Berechnung der Durchschnittsverteilung

Gitter-Sampling-Methode:

  • Normalisierung der Zielwerte auf 0,1
  • Sampling über 200 Gitterpunkte verteilt
  • Berechnung des Likelihood-Vektors und Mittelwertbildung: pˉx=1kj=1kp^θjx\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x

Paarweise Vergleichsmethode:

  • Vermeidung der Berechnung der Durchschnittsverteilung
  • Verwendung von k-1 Parameterpaaren: i=1k1ϕ(p^θix,p^θi+1x)\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

2. Distanzmaßfunktionen

BALSAKL (KL-Divergenz):

  • Gitter-Version: BALSAKLGrid(x)=i=1kKL(p^θix,pˉx)BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)
  • Paarweise Version: BALSAKLPair(x)=i=1k1KL(p^θix,p^θi+1x)BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

BALSAEMD (Earth Mover's Distance): BALSAEMD(x)=i=1k1EMD(yθi,yθi+1)BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})

wobei yθp^θxy'_\theta \sim \hat{p}_\theta|x

Experimentelle Einrichtung

Datensätze

Verwendung von 4 Regressionsdatensätzen mit unterschiedlichen Größen und Komplexitäten:

DatensatzMerkmaleTrainingsmusterInitiale AnnotationBudget
Parkinsons613.760200800
Superconductors8113.608200800
Sarcos2128.4702001.200
Diamonds2634.5222001.200

Bewertungsmetriken

  • Hauptmetrik: Negative Log-Likelihood (NLL)
  • Hilfsmetriken: Mittlerer absoluter Fehler (MAE), CRPS-Score
  • Statistische Methode: Wilcoxon-Vorzeichenrangtest, CD-Diagramme für Ergebnisaggregation

Vergleichsmethoden

  • Clustering-Methoden: Coreset, CoreGCN, TypiClust
  • Heuristik-Methoden: Standardabweichung (Std), Least Confidence (LC), Shannon-Entropie (Entropy)
  • BALD-Varianten: BALDσ, BALDLC, BALDH
  • Vorgeschlagene Methoden: BALSAKL Grid/Pair, BALSAEMD

Implementierungsdetails

  • Modellarchitektur: MLP-Encoder + Verteilungs-Decoder
  • Normalisierte Flüsse: Autoregressive neuronale Spline-Flüsse mit rationalen quadratischen Spline-Transformationen
  • Optimierer: NAdam
  • Dropout-Rate: 0,008-0,05 (für jeden Datensatz optimiert)
  • Experimentwiederholungen: Jedes Experiment 30-mal wiederholt

Experimentelle Ergebnisse

Hauptergebnisse

Critical Difference-Diagramm basierend auf NLL-Metrik zeigt:

  1. BALSAKL Pairs: Beste durchschnittliche Rangfolge, optimale Leistung
  2. BALSAKL Grid: Dicht dahinter, zweiter Platz
  3. BALDH: Dritter Platz
  4. Coreset: Beste Leistung unter geometrischen Methoden

Wichtigste Erkenntnisse:

  • Traditionelle Heuristiken (Entropie, Standardabweichung, Least Confidence) funktionieren schlecht bei normalisierten Flüssen
  • BALSA-Methoden zeigen deutliche Vorteile bei normalisierten Fluss-Architekturen
  • Coreset und CoreGCN funktionieren besser bei GNN-Architekturen

Ablationsstudien

1. Dual-Modus-Experiment

Test der Auswirkungen unterschiedlicher Dropout-Raten in Trainings- und Bewertungsphasen:

  • Inkonsistente Ergebnisse: BALSAEMD dual zeigt Leistungsabfall, BALSAKL Grid dual zeigt leichte Verbesserung
  • Hypothese: Dropout-Rate-Wechsel könnte die Modellvorhersagequalität beeinflussen

2. Renormalisierungsexperiment

Test der normalisierten Version von BALSAKL Grid:

  • Normalisierte Version zeigt etwas niedrigere Leistung als nicht normalisierte Version
  • Wahl der einfacheren nicht normalisierten Formel

3. Abfragegrößen-Experiment

Leistung bei τ = {50, 200}:

  • Unsicherheits-Sampling-Methoden behalten Leistung bei großen Abfragegrößen
  • Clustering-Algorithmen (Coreset, TypiClust) zeigen schnelleren Leistungsabfall
  • Widerspricht gängigen Erkenntnissen bei Klassifikationsaufgaben

Fallstudie

Aktive Lernverlauf des Diamonds-Datensatzes zeigt:

  • BALSA-Methoden konvergieren schneller
  • Traditionelle Heuristiken nähern sich zufälligem Sampling an
  • Konsistente Leistung bei NLL- und MAE-Metriken

Verwandte Arbeiten

Regressions-Aktives Lernen

  • Geometrische Methoden: Coreset, CoreGCN, TypiClust und andere basierend auf Datengeometrie-Eigenschaften
  • Unsicherheitsmethoden: Meisten an spezifische Modellarchitekturen gebunden, geringe Allgemeingültigkeit
  • BALD-Algorithmus: Einer der wenigen modellunabhängigen Ansätze

Direkteste verwandte Arbeiten

Berry und Meger 1,2:

  • Schlagen normalisierte Fluss-Ensembles und MC-Dropout-Approximation vor
  • Nur auf synthetischen Daten validiert
  • Diese Arbeit erweitert auf reale Daten und mehrere Akquisitionsfunktionen

Unterschiede und Verbesserungen

  1. Verwendung von Shannon-Entropie statt einfacher -∑logŷθ(x)
  2. Erweiterung auf reale Datensätze
  3. Vergleich mit mehreren aktiven Lernalgorithmen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Wirksamkeit: BALSA zeigt hervorragende Leistung bei normalisierten Flüssen, besonders die BALSAKL Pairs-Version
  2. Heuristik-Versagen: Traditionelle Unsicherheitsheuristiken funktionieren schlecht bei normalisierten Flüssen
  3. Architektur-Abhängigkeit: Verschiedene Algorithmen zeigen signifikante Leistungsunterschiede bei verschiedenen Modellarchitekturen
  4. Abfragegrößen-Einfluss: Unsicherheitsmethoden sind bei großen Abfragegrößen stabiler

Einschränkungen

  1. Unzureichende theoretische Analyse: Fehlende Konvergenzanalyse des BALSA-Algorithmus
  2. Rechenkomplexität: MC-Dropout und Verteilungsdistanzberechnung erhöhen Rechenkosten
  3. Hyperparameter-Sensitivität: Dropout-Rate-Wahl hat großen Einfluss auf Leistung
  4. Datensatz-Einschränkung: Validierung nur auf 4 Datensätzen, Verallgemeinerbarkeit unklar

Zukünftige Richtungen

  1. Erweiterung auf andere Parametersampling-Methoden (Langevin Dynamics, SVGD)
  2. Theoretische Analyse der Konvergenzeigenschaften von BALSA
  3. Untersuchung weiterer Verteilungsdistanzmaße
  4. Validierung auf größeren Datensätzen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst das vernachlässigte aber wichtige Problem des aktiven Lernens bei Regression
  2. Methodische Innovativität: Erste direkte Verwendung von Verteilungsdistanzen für aktives Lernen, vermeidet Informationsverlust durch Aggregationsmethoden
  3. Experimentelle Umfassendheit: Umfassende Bewertung über mehrere Datensätze, Architekturen und Metriken
  4. Praktischer Wert: Bereitstellung von reproduzierbarem Code und detaillierten Experimenteinstellungen

Mängel

  1. Schwache theoretische Grundlagen: Fehlende theoretische Analyse zur Erklärung der BALSA-Wirksamkeit
  2. Rechnerische Effizienz: MC-Dropout und EMD-Berechnung könnten praktische Anwendung beeinflussen
  3. Hyperparameter-Optimierung: Dropout-Rate-Wahl fehlt prinzipiengestützte Anleitung
  4. Bewertungsbeschränkungen: Hauptsächlich auf NLL basiert, Konsistenz mit anderen Regressions-Metriken unklar

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für Regressions-Aktives Lernen
  2. Praktischer Wert: Besonders geeignet für Regressionsanwendungen, die Unsicherheitsquantifizierung erfordern
  3. Reproduzierbarkeit: Vollständiger Code und Experimentkonfigurationen ermöglichen Folgeforschen

Anwendungsszenarien

  1. Wissenschaftliche Berechnung: Physik-/Chemie-Modellierung mit erforderlicher Unsicherheitsquantifizierung
  2. Risikobewertung: Finanz-, Medizin- und andere Bereiche mit Unsicherheitssensitivität
  3. Ingenieuroptimierung: Designoptimierungsprobleme, die Explorations-Exploitations-Abwägung erfordern
  4. Zeitreihen: Vorhersageaufgaben mit komplexen Verteilungen

Referenzen

Diese Arbeit bezieht sich hauptsächlich auf folgende Schlüsselarbeiten:

  1. Berry & Meger (2023): Unsicherheitsmodellierung mit normalisierten Fluss-Ensembles
  2. Gal et al. (2017): Ursprüngliche Einführung des BALD-Algorithmus
  3. Sener & Savarese (2017): Coreset-Methode für aktives Lernen
  4. Durkan et al. (2019): Technische Grundlagen neuronaler Spline-Flüsse

Gesamtbewertung: Dies ist eine hochwertige Forschungsarbeit zu dem wichtigen, aber vernachlässigten Problem des Regressions-Aktiven Lernens. Der Vorschlag des BALSA-Algorithmus füllt die Lücke bei der Anwendung normalisierter Flüsse im aktiven Lernen, das Experimentdesign ist umfassend und die Ergebnisse überzeugend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Rechnerischer Effizienz gibt, leistet diese Arbeit einen wichtigen Beitrag zur Entwicklung dieses Forschungsbereichs.