Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
- Paper-ID: 2505.23496
- Titel: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
- Autoren: Sabina J. Sloman, Michele Caprio, Samuel Kaski
- Klassifizierung: cs.LG stat.ML
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2505.23496
Dieses Papier bietet einen prinzipiengestützten Rahmen für unsicherheitsabhängige Maschinenlernmodelle (wie Bayessche neuronale Netze), um Fehler zu charakterisieren und zu beseitigen, die durch reduzierbare (epistemische) Unsicherheit verursacht werden. Das Papier führt eine prinzipiengestützte Definition epistemischer Fehler ein und bietet zerlegende epistemische Fehlerschranken in der sehr allgemeinen Einstellung des unvollkommenen Multitask-Lernens unter Verteilungsverschiebung. In dieser Einstellung können Trainings-(Quell-)Daten aus mehreren Aufgaben stammen, Test-(Ziel-)Daten können sich systematisch von Quellenaufgaben unterscheiden, und/oder der Lerner kann möglicherweise die Quelldaten nicht genau charakterisieren. Die Schranke ordnet epistemische Fehler mehreren Aspekten des Lernprozesses und der Umgebung zu.
Das Kernproblem dieser Forschung ist: Wie kann man einen theoretischen Rahmen für unsicherheitsabhängige Lerner bereitstellen, um epistemische Fehler zu charakterisieren und zu reduzieren? Konkret:
- Einschränkungen traditioneller Lerntheorie: Bestehende statistische Lerntheorie konzentriert sich hauptsächlich auf Generalisierungsfehler, aber für Lerner, die Ausgabeunsicherheit quantifizieren, ist Vorhersagefehler ein irrelevantes, unvollständiges oder uninformatives Leistungsmaß.
- Verwirrung bei Unsicherheitstypen: Traditionelle Methoden vermischen reduzierbare epistemische Unsicherheit und nicht reduzierbare stochastische Unsicherheit, können aber nicht effektiv zur Modellverbesserung führen.
- Mangel an theoretischer Unterstützung für komplexe Lernszenarien: In komplexen realen Szenarien wie Multitask-Lernen, Verteilungsverschiebung und unvollkommenem Lernen fehlt theoretische Anleitung.
- Praktischer Anwendungswert: In hochriskanten Bereichen wie der Medizin ist genaue Unsicherheitsquantifizierung entscheidend
- Theoretische Vervollständigung: Füllt Lücken in der Theorie des unsicherheitsabhängigen Lernens
- Praktische Anleitung: Bietet theoretische Grundlagen für Modellauswahl und Optimierung
- PAC-Lerntheorie und andere traditionelle Rahmen können epistemische und stochastische Fehler nicht unterscheiden
- Mangel an einheitlichem theoretischem Rahmen für Multitask-Lernen und Verteilungsverschiebungsszenarien
- Bestehende Schranken setzen typischerweise perfektes Lernen oder keine Verteilungsverschiebung voraus
- Einführung des Konzepts epistemischer Fehlerschranken: Präsentation eines neuen theoretischen Werkzeugs speziell für unsicherheitsabhängige Lerner
- Zerlegende epistemische Fehlerschranken: Bereitstellung von Schranken, die epistemische Fehler in drei Komponenten zerlegen, im allgemeinen Setting des unvollkommenen Multitask-Lernens und der Verteilungsverschiebung
- Korollare für Spezialfälle: Spezialisierte epistemische Fehlerschranken für Bayessches Transferlernen und Verteilungsverschiebung in ε-Nachbarschaften
- Neue Definition negativer Transferenz: Neue theoretische Charakterisierung des Phänomens negativer Transferenz basierend auf Termen in der Schranke
Epistemischer Fehler ist definiert als das Ausmaß, in dem der Lerner den Datenerzeugungsprozess (DGP) falsch versteht, formalisiert als:
e:=dTV(P^,Qt)
wobei P^ die Vorhersageverteilung des Lerners ist, Qt die Zielaufgabenverteilung ist, und dTV die Totalvariationsdistanz ist.
- Aufgabenverteilung: Aufgaben selbst werden aus einer Aufgabenverteilung zweiter Ordnung Q∈Δ(ΔX) gezogen
- Quellenaufgaben: Trainingsdaten stammen aus n Quellenaufgaben, jede Aufgabe Q∼QS
- Zielaufgabe: Test-Aufgabe Qt∼QT
- Verteilungsverschiebung: Tritt auf, wenn QS=QT
- Schwerpunkt der Aufgabenverteilung (Definition 1):
Qˉ(x):=∫ΔXQ(x)q(Q)dQ=EQ∼Q[Q(x)]
- Variabilität der Aufgabenverteilung (Definition 2):
V[Q]:=supx∈X∫ΔX[Q(x)−Qˉ(x)]2q(Q)dQ
- Approximationsfehler (Definition 7):
B:=dTV(P∗,QˉS)
wobei P∗=argminP∈πdTV(P,QˉS)
- Konvergenzdefizit (Definition 8):
C:=dTV(P^,P∗)
- Ausmaß der Verteilungsverschiebung (Definition 9):
D:=dTV(QˉS,QˉT)
Gegeben eine Modellklasse π, ein Prädiktor P^∈π, eine Quellenaufgabenverteilung QS und eine beschränkte Zielaufgabenverteilung zweiter Ordnung QT:
Pr(e≥α+B+C+D)≤α2V[QT]
Diese Schranke zerlegt den epistemischen Fehler in:
- B: Modellbeschränkung (Approximationsfehler)
- C: Datenmangel (Konvergenzdefizit)
- D: Verteilungsverschiebung
- V[QT]: Variabilität der Zielaufgaben
Verwendung der Dreiecksungleichung zur Konstruktion eines Pfads im metrischen Raum:
dTV(P^,Qt)≤dTV(P^,P∗)+dTV(P∗,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)
Kombination mit der Chebyshev-Ungleichung zur Kontrolle des Einflusses der Aufgabenvariabilität.
- Einheitlicher Rahmen: Erstmalige Behandlung von Multitask-Lernen, unvollkommenem Lernen und Verteilungsverschiebung in einem einzigen Rahmen
- Zerlegende Analyse: Zerlegung komplexer epistemischer Fehler in interpretierbare Komponenten
- Praktische Anleitung: Jede Komponente entspricht konkreten Verbesserungsstrategien
- Theoretische Strenge: Basierend auf rigoroser metrischer Raumanalyse und Wahrscheinlichkeitstheorie
Für Bayessche Lerner kann das Konvergenzdefizit als Konvergenz der Parameterposterior ausgedrückt werden:
CΘ:=dTV(P1Θ,P∗Θ)
Dies verbindet direkt die Posterior-Konvergenz mit epistemischem Fehler.
Unter ε-Nachbarschaftsbeschränkung:
Pr(e≥α+B+C+D)≤α2β(V[QS]+vol(QT))
wobei β=(1−bT)/bS, vol(QT)=(diam(QS)+ε)2.
- Modell: Bayessche lineare Regression
- Datenerzeugung: x∼N(β1Sξ1+β2Sξ2,σS)
- Prior: Normal-Inverse-Gamma-Modell
- Distanzapproximation: Verwendung der Pinsker-Ungleichung zur Approximation der Totalvariationsdistanz
- Posterior-Konvergenzeffekt (Abbildung 1a): Epistemischer Fehler nimmt ab, wenn die Posterior-Wahrscheinlichkeit für die Quellendatenerzeugungsparameter zunimmt
- Nachbarschaftsgrößeneffekt (Abbildung 1b): Epistemischer Fehler nimmt mit der Größe der ε-Nachbarschaft zu
- Phänomen negativer Transferenz (Abbildung 3): Schrankenstraffheit korreliert stark mit Phänomenen negativer Transferenz
- Theoretische Vorhersagen stimmen stark mit experimentellen Beobachtungen überein
- Schranken werden bei negativer Transferenz lockerer, was mit theoretischer Analyse übereinstimmt
- Die relative Bedeutung jeder Komponente variiert je nach Szenario
- Multitask-Domänengeneralisierung: Baxter (2000), Arbeiten von Maurer et al., berücksichtigen aber keine Verteilungsverschiebung
- Domänenadaptationstheorie: Redko et al. (2019), setzen aber voraus, dass der Lerner die Verteilungsverschiebung kennt
- Credal-Lerntheorie: Caprio et al. (2024), beschränkt auf spezifische Lerner
- Bayessche Tiefenlernverfahren: Papamarkou et al. (2024)
- Konforme Vorhersage: Angelopoulos und Bates (2023)
- Credal-Lernen: Caprio et al. (2024)
- Allgemeineres Setting: Behandelt gleichzeitig Multitask-Lernen, unvollkommenes Lernen und Verteilungsverschiebung
- Lerner-unabhängig: Hängt nicht von spezifischen Lernalgorithmen ab
- Zerlegende Analyse: Bietet umsetzbare Verbesserungsanleitungen
- Bereitstellung der ersten zerlegen epistemischen Fehlerschranke für unsicherheitsabhängige Lerner
- Funktioniert in sehr allgemeinen Settings, die viele praktische Szenarien abdecken
- Bietet theoretischen Orientierungsrahmen für Modellauswahl und Optimierung
- Rechenkomplexität: Totalvariationsdistanz ist typischerweise schwer exakt zu berechnen
- Annahmebedingungen: Erfordert technische Annahmen wie beschränkte Verteilungen zweiter Ordnung
- Konforme Vorhersage: Rahmen kann konforme Vorhersage-Settings nicht vollständig charakterisieren
- Experimentelle Validierung: Nur auf niedrigdimensionalen synthetischen Daten validiert
- Erweiterung auf zeitabhängige Aufgaben und Daten
- Vollständige Charakterisierung von konformen Vorhersage-Settings
- Experimentelle Validierung auf hochdimensionalen und echten Daten
- Entwicklung leichter zu berechnender Schrankenversionen
- Starke theoretische Innovation: Erstmalige systematische Bereitstellung eines theoretischen Rahmens für unsicherheitsabhängiges Lernen
- Hoher praktischer Wert: Zerlegende Analyse leitet praktische Verbesserungen direkt an
- Mathematische Strenge: Vollständige Beweise, solide theoretische Grundlagen
- Klare Darstellung: Angemessene Struktur, klare Konzeptdefinitionen
- Rechnerische Machbarkeit: Praktische Berechnung theoretischer Ergebnisse ist herausfordernd
- Experimentelle Einschränkungen: Begrenzte Experimentumfang und Komplexität
- Strikte Annahmen: Einige technische Annahmen können in der Praxis schwer erfüllbar sein
- Anwendungsbereich: Unvollständige Unterstützung für einige Unsicherheitsquantifizierungsmethoden (wie konforme Vorhersage)
- Theoretischer Beitrag: Legt Grundlagen für Theorie des unsicherheitsabhängigen Lernens
- Praktische Anleitung: Bietet Grundlagen für Modellauswahl in hochriskanten Anwendungen
- Forschungsinspiration: Eröffnet neue Forschungsrichtungen
- Medizinische Diagnostik: Klinische Vorhersagen, die genaue Unsicherheitsquantifizierung erfordern
- Finanzrisiko: Risikomodellierung in Multi-Markt-Umgebungen
- Autonomes Fahren: Sicherheitsentscheidungen bei Umgebungsveränderungen
- Wissenschaftliche Entdeckung: Wissenstransfer über Domänen hinweg
Dieses Papier zitiert wichtige Arbeiten aus den Bereichen statistische Lerntheorie, Bayessche Inferenz und Unsicherheitsquantifizierung, einschließlich:
- Shalev-Shwarz & Ben-David (2014): Grundlagen der statistischen Lerntheorie
- Papamarkou et al. (2024): Bayessche Tiefenlernverfahren
- Angelopoulos & Bates (2023): Konforme Vorhersage
- Redko et al. (2019): Domänenadaptationstheorie
Dies ist ein Papier mit wichtigen Beiträgen zur Theorie des unsicherheitsabhängigen Maschinenlernens, das solide theoretische Grundlagen und einen praktischen Analyserahmen für dieses Gebiet bietet. Obwohl es Raum für Verbesserungen in Bezug auf rechnerische Machbarkeit und experimentelle Validierung gibt, machen seine theoretische Innovation und sein praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.