2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski

Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $Îµ$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.

academic

Epistemische Fehler unvollkommener Multitask-Lerner bei Verteilungsverschiebungen

Grundinformationen

Paper-ID: 2505.23496
Titel: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
Autoren: Sabina J. Sloman, Michele Caprio, Samuel Kaski
Klassifizierung: cs.LG stat.ML
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2505.23496

Zusammenfassung

Dieses Papier bietet einen prinzipiengestützten Rahmen für unsicherheitsabhängige Maschinenlernmodelle (wie Bayessche neuronale Netze), um Fehler zu charakterisieren und zu beseitigen, die durch reduzierbare (epistemische) Unsicherheit verursacht werden. Das Papier führt eine prinzipiengestützte Definition epistemischer Fehler ein und bietet zerlegende epistemische Fehlerschranken in der sehr allgemeinen Einstellung des unvollkommenen Multitask-Lernens unter Verteilungsverschiebung. In dieser Einstellung können Trainings-(Quell-)Daten aus mehreren Aufgaben stammen, Test-(Ziel-)Daten können sich systematisch von Quellenaufgaben unterscheiden, und/oder der Lerner kann möglicherweise die Quelldaten nicht genau charakterisieren. Die Schranke ordnet epistemische Fehler mehreren Aspekten des Lernprozesses und der Umgebung zu.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann man einen theoretischen Rahmen für unsicherheitsabhängige Lerner bereitstellen, um epistemische Fehler zu charakterisieren und zu reduzieren? Konkret:

Einschränkungen traditioneller Lerntheorie: Bestehende statistische Lerntheorie konzentriert sich hauptsächlich auf Generalisierungsfehler, aber für Lerner, die Ausgabeunsicherheit quantifizieren, ist Vorhersagefehler ein irrelevantes, unvollständiges oder uninformatives Leistungsmaß.
Verwirrung bei Unsicherheitstypen: Traditionelle Methoden vermischen reduzierbare epistemische Unsicherheit und nicht reduzierbare stochastische Unsicherheit, können aber nicht effektiv zur Modellverbesserung führen.
Mangel an theoretischer Unterstützung für komplexe Lernszenarien: In komplexen realen Szenarien wie Multitask-Lernen, Verteilungsverschiebung und unvollkommenem Lernen fehlt theoretische Anleitung.

Forschungsbedeutung

Praktischer Anwendungswert: In hochriskanten Bereichen wie der Medizin ist genaue Unsicherheitsquantifizierung entscheidend
Theoretische Vervollständigung: Füllt Lücken in der Theorie des unsicherheitsabhängigen Lernens
Praktische Anleitung: Bietet theoretische Grundlagen für Modellauswahl und Optimierung

Einschränkungen bestehender Methoden

PAC-Lerntheorie und andere traditionelle Rahmen können epistemische und stochastische Fehler nicht unterscheiden
Mangel an einheitlichem theoretischem Rahmen für Multitask-Lernen und Verteilungsverschiebungsszenarien
Bestehende Schranken setzen typischerweise perfektes Lernen oder keine Verteilungsverschiebung voraus

Kernbeiträge

Einführung des Konzepts epistemischer Fehlerschranken: Präsentation eines neuen theoretischen Werkzeugs speziell für unsicherheitsabhängige Lerner
Zerlegende epistemische Fehlerschranken: Bereitstellung von Schranken, die epistemische Fehler in drei Komponenten zerlegen, im allgemeinen Setting des unvollkommenen Multitask-Lernens und der Verteilungsverschiebung
Korollare für Spezialfälle: Spezialisierte epistemische Fehlerschranken für Bayessches Transferlernen und Verteilungsverschiebung in ε-Nachbarschaften
Neue Definition negativer Transferenz: Neue theoretische Charakterisierung des Phänomens negativer Transferenz basierend auf Termen in der Schranke

Methodische Details

Aufgabendefinition

Epistemischer Fehler ist definiert als das Ausmaß, in dem der Lerner den Datenerzeugungsprozess (DGP) falsch versteht, formalisiert als: $e := d_{TV}(\hat{P}, Q^t)$

wobei $\hat{P}$ die Vorhersageverteilung des Lerners ist, $Q^t$ die Zielaufgabenverteilung ist, und $d_{TV}$ die Totalvariationsdistanz ist.

Theoretischer Kernrahmen

Multitask-Lern-Setting

Aufgabenverteilung: Aufgaben selbst werden aus einer Aufgabenverteilung zweiter Ordnung $\mathcal{Q} \in \Delta(\Delta_X)$ gezogen
Quellenaufgaben: Trainingsdaten stammen aus $n$ Quellenaufgaben, jede Aufgabe $Q \sim \mathcal{Q}^S$
Zielaufgabe: Test-Aufgabe $Q^t \sim \mathcal{Q}^T$
Verteilungsverschiebung: Tritt auf, wenn $\mathcal{Q}^S \neq \mathcal{Q}^T$

Schlüsseldefinitionen

Schwerpunkt der Aufgabenverteilung (Definition 1): $\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]$
Variabilität der Aufgabenverteilung (Definition 2): $V[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ$
Approximationsfehler (Definition 7): $B := d_{TV}(P^*, \bar{Q}^S)$ wobei $P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)$
Konvergenzdefizit (Definition 8): $C := d_{TV}(\hat{P}, P^*)$
Ausmaß der Verteilungsverschiebung (Definition 9): $D := d_{TV}(\bar{Q}^S, \bar{Q}^T)$

Haupttheoretische Ergebnisse

Theorem 1 (Hauptergebnis)

Gegeben eine Modellklasse $\pi$ , ein Prädiktor $\hat{P} \in \pi$ , eine Quellenaufgabenverteilung $\mathcal{Q}^S$ und eine beschränkte Zielaufgabenverteilung zweiter Ordnung $\mathcal{Q}^T$ :

$\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}$

Diese Schranke zerlegt den epistemischen Fehler in:

B: Modellbeschränkung (Approximationsfehler)
C: Datenmangel (Konvergenzdefizit)
D: Verteilungsverschiebung
$V[\mathcal{Q}^T]$ : Variabilität der Zielaufgaben

Beweisidee

Verwendung der Dreiecksungleichung zur Konstruktion eines Pfads im metrischen Raum: $d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)$

Kombination mit der Chebyshev-Ungleichung zur Kontrolle des Einflusses der Aufgabenvariabilität.

Technische Innovationen

Einheitlicher Rahmen: Erstmalige Behandlung von Multitask-Lernen, unvollkommenem Lernen und Verteilungsverschiebung in einem einzigen Rahmen
Zerlegende Analyse: Zerlegung komplexer epistemischer Fehler in interpretierbare Komponenten
Praktische Anleitung: Jede Komponente entspricht konkreten Verbesserungsstrategien
Theoretische Strenge: Basierend auf rigoroser metrischer Raumanalyse und Wahrscheinlichkeitstheorie

Analyse von Spezialfällen

Bayessches Transferlernen (Korollar 1)

Für Bayessche Lerner kann das Konvergenzdefizit als Konvergenz der Parameterposterior ausgedrückt werden: $C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)$

Dies verbindet direkt die Posterior-Konvergenz mit epistemischem Fehler.

Totalvariations-Nachbarschaft (Korollar 2)

Unter ε-Nachbarschaftsbeschränkung: $\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))$

wobei $\beta = (1-b_T)/b_S$ , $\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2$ .

Experimentelle Validierung

Experimentelles Setup

Modell: Bayessche lineare Regression
Datenerzeugung: $x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)$
Prior: Normal-Inverse-Gamma-Modell
Distanzapproximation: Verwendung der Pinsker-Ungleichung zur Approximation der Totalvariationsdistanz

Hauptexperimentelle Ergebnisse

Posterior-Konvergenzeffekt (Abbildung 1a): Epistemischer Fehler nimmt ab, wenn die Posterior-Wahrscheinlichkeit für die Quellendatenerzeugungsparameter zunimmt
Nachbarschaftsgrößeneffekt (Abbildung 1b): Epistemischer Fehler nimmt mit der Größe der ε-Nachbarschaft zu
Phänomen negativer Transferenz (Abbildung 3): Schrankenstraffheit korreliert stark mit Phänomenen negativer Transferenz

Experimentelle Erkenntnisse

Theoretische Vorhersagen stimmen stark mit experimentellen Beobachtungen überein
Schranken werden bei negativer Transferenz lockerer, was mit theoretischer Analyse übereinstimmt
Die relative Bedeutung jeder Komponente variiert je nach Szenario

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Bereitstellung der ersten zerlegen epistemischen Fehlerschranke für unsicherheitsabhängige Lerner
Funktioniert in sehr allgemeinen Settings, die viele praktische Szenarien abdecken
Bietet theoretischen Orientierungsrahmen für Modellauswahl und Optimierung

Einschränkungen

Rechenkomplexität: Totalvariationsdistanz ist typischerweise schwer exakt zu berechnen
Annahmebedingungen: Erfordert technische Annahmen wie beschränkte Verteilungen zweiter Ordnung
Konforme Vorhersage: Rahmen kann konforme Vorhersage-Settings nicht vollständig charakterisieren
Experimentelle Validierung: Nur auf niedrigdimensionalen synthetischen Daten validiert

Zukünftige Richtungen

Erweiterung auf zeitabhängige Aufgaben und Daten
Vollständige Charakterisierung von konformen Vorhersage-Settings
Experimentelle Validierung auf hochdimensionalen und echten Daten
Entwicklung leichter zu berechnender Schrankenversionen

Tiefgreifende Bewertung

Stärken

Starke theoretische Innovation: Erstmalige systematische Bereitstellung eines theoretischen Rahmens für unsicherheitsabhängiges Lernen
Hoher praktischer Wert: Zerlegende Analyse leitet praktische Verbesserungen direkt an
Mathematische Strenge: Vollständige Beweise, solide theoretische Grundlagen
Klare Darstellung: Angemessene Struktur, klare Konzeptdefinitionen

Mängel

Rechnerische Machbarkeit: Praktische Berechnung theoretischer Ergebnisse ist herausfordernd
Experimentelle Einschränkungen: Begrenzte Experimentumfang und Komplexität
Strikte Annahmen: Einige technische Annahmen können in der Praxis schwer erfüllbar sein
Anwendungsbereich: Unvollständige Unterstützung für einige Unsicherheitsquantifizierungsmethoden (wie konforme Vorhersage)

Auswirkungen

Theoretischer Beitrag: Legt Grundlagen für Theorie des unsicherheitsabhängigen Lernens
Praktische Anleitung: Bietet Grundlagen für Modellauswahl in hochriskanten Anwendungen
Forschungsinspiration: Eröffnet neue Forschungsrichtungen

Anwendungsszenarien

Medizinische Diagnostik: Klinische Vorhersagen, die genaue Unsicherheitsquantifizierung erfordern
Finanzrisiko: Risikomodellierung in Multi-Markt-Umgebungen
Autonomes Fahren: Sicherheitsentscheidungen bei Umgebungsveränderungen
Wissenschaftliche Entdeckung: Wissenstransfer über Domänen hinweg

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus den Bereichen statistische Lerntheorie, Bayessche Inferenz und Unsicherheitsquantifizierung, einschließlich:

Shalev-Shwarz & Ben-David (2014): Grundlagen der statistischen Lerntheorie
Papamarkou et al. (2024): Bayessche Tiefenlernverfahren
Angelopoulos & Bates (2023): Konforme Vorhersage
Redko et al. (2019): Domänenadaptationstheorie

Dies ist ein Papier mit wichtigen Beiträgen zur Theorie des unsicherheitsabhängigen Maschinenlernens, das solide theoretische Grundlagen und einen praktischen Analyserahmen für dieses Gebiet bietet. Obwohl es Raum für Verbesserungen in Bezug auf rechnerische Machbarkeit und experimentelle Validierung gibt, machen seine theoretische Innovation und sein praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.