2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski
Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
academic

Epistemische Fehler unvollkommener Multitask-Lerner bei Verteilungsverschiebungen

Grundinformationen

  • Paper-ID: 2505.23496
  • Titel: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
  • Autoren: Sabina J. Sloman, Michele Caprio, Samuel Kaski
  • Klassifizierung: cs.LG stat.ML
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2505.23496

Zusammenfassung

Dieses Papier bietet einen prinzipiengestützten Rahmen für unsicherheitsabhängige Maschinenlernmodelle (wie Bayessche neuronale Netze), um Fehler zu charakterisieren und zu beseitigen, die durch reduzierbare (epistemische) Unsicherheit verursacht werden. Das Papier führt eine prinzipiengestützte Definition epistemischer Fehler ein und bietet zerlegende epistemische Fehlerschranken in der sehr allgemeinen Einstellung des unvollkommenen Multitask-Lernens unter Verteilungsverschiebung. In dieser Einstellung können Trainings-(Quell-)Daten aus mehreren Aufgaben stammen, Test-(Ziel-)Daten können sich systematisch von Quellenaufgaben unterscheiden, und/oder der Lerner kann möglicherweise die Quelldaten nicht genau charakterisieren. Die Schranke ordnet epistemische Fehler mehreren Aspekten des Lernprozesses und der Umgebung zu.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie kann man einen theoretischen Rahmen für unsicherheitsabhängige Lerner bereitstellen, um epistemische Fehler zu charakterisieren und zu reduzieren? Konkret:

  1. Einschränkungen traditioneller Lerntheorie: Bestehende statistische Lerntheorie konzentriert sich hauptsächlich auf Generalisierungsfehler, aber für Lerner, die Ausgabeunsicherheit quantifizieren, ist Vorhersagefehler ein irrelevantes, unvollständiges oder uninformatives Leistungsmaß.
  2. Verwirrung bei Unsicherheitstypen: Traditionelle Methoden vermischen reduzierbare epistemische Unsicherheit und nicht reduzierbare stochastische Unsicherheit, können aber nicht effektiv zur Modellverbesserung führen.
  3. Mangel an theoretischer Unterstützung für komplexe Lernszenarien: In komplexen realen Szenarien wie Multitask-Lernen, Verteilungsverschiebung und unvollkommenem Lernen fehlt theoretische Anleitung.

Forschungsbedeutung

  1. Praktischer Anwendungswert: In hochriskanten Bereichen wie der Medizin ist genaue Unsicherheitsquantifizierung entscheidend
  2. Theoretische Vervollständigung: Füllt Lücken in der Theorie des unsicherheitsabhängigen Lernens
  3. Praktische Anleitung: Bietet theoretische Grundlagen für Modellauswahl und Optimierung

Einschränkungen bestehender Methoden

  • PAC-Lerntheorie und andere traditionelle Rahmen können epistemische und stochastische Fehler nicht unterscheiden
  • Mangel an einheitlichem theoretischem Rahmen für Multitask-Lernen und Verteilungsverschiebungsszenarien
  • Bestehende Schranken setzen typischerweise perfektes Lernen oder keine Verteilungsverschiebung voraus

Kernbeiträge

  1. Einführung des Konzepts epistemischer Fehlerschranken: Präsentation eines neuen theoretischen Werkzeugs speziell für unsicherheitsabhängige Lerner
  2. Zerlegende epistemische Fehlerschranken: Bereitstellung von Schranken, die epistemische Fehler in drei Komponenten zerlegen, im allgemeinen Setting des unvollkommenen Multitask-Lernens und der Verteilungsverschiebung
  3. Korollare für Spezialfälle: Spezialisierte epistemische Fehlerschranken für Bayessches Transferlernen und Verteilungsverschiebung in ε-Nachbarschaften
  4. Neue Definition negativer Transferenz: Neue theoretische Charakterisierung des Phänomens negativer Transferenz basierend auf Termen in der Schranke

Methodische Details

Aufgabendefinition

Epistemischer Fehler ist definiert als das Ausmaß, in dem der Lerner den Datenerzeugungsprozess (DGP) falsch versteht, formalisiert als: e:=dTV(P^,Qt)e := d_{TV}(\hat{P}, Q^t)

wobei P^\hat{P} die Vorhersageverteilung des Lerners ist, QtQ^t die Zielaufgabenverteilung ist, und dTVd_{TV} die Totalvariationsdistanz ist.

Theoretischer Kernrahmen

Multitask-Lern-Setting

  • Aufgabenverteilung: Aufgaben selbst werden aus einer Aufgabenverteilung zweiter Ordnung QΔ(ΔX)\mathcal{Q} \in \Delta(\Delta_X) gezogen
  • Quellenaufgaben: Trainingsdaten stammen aus nn Quellenaufgaben, jede Aufgabe QQSQ \sim \mathcal{Q}^S
  • Zielaufgabe: Test-Aufgabe QtQTQ^t \sim \mathcal{Q}^T
  • Verteilungsverschiebung: Tritt auf, wenn QSQT\mathcal{Q}^S \neq \mathcal{Q}^T

Schlüsseldefinitionen

  1. Schwerpunkt der Aufgabenverteilung (Definition 1): Qˉ(x):=ΔXQ(x)q(Q)dQ=EQQ[Q(x)]\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]
  2. Variabilität der Aufgabenverteilung (Definition 2): V[Q]:=supxXΔX[Q(x)Qˉ(x)]2q(Q)dQV[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ
  3. Approximationsfehler (Definition 7): B:=dTV(P,QˉS)B := d_{TV}(P^*, \bar{Q}^S) wobei P=argminPπdTV(P,QˉS)P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)
  4. Konvergenzdefizit (Definition 8): C:=dTV(P^,P)C := d_{TV}(\hat{P}, P^*)
  5. Ausmaß der Verteilungsverschiebung (Definition 9): D:=dTV(QˉS,QˉT)D := d_{TV}(\bar{Q}^S, \bar{Q}^T)

Haupttheoretische Ergebnisse

Theorem 1 (Hauptergebnis)

Gegeben eine Modellklasse π\pi, ein Prädiktor P^π\hat{P} \in \pi, eine Quellenaufgabenverteilung QS\mathcal{Q}^S und eine beschränkte Zielaufgabenverteilung zweiter Ordnung QT\mathcal{Q}^T:

Pr(eα+B+C+D)V[QT]α2\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}

Diese Schranke zerlegt den epistemischen Fehler in:

  • B: Modellbeschränkung (Approximationsfehler)
  • C: Datenmangel (Konvergenzdefizit)
  • D: Verteilungsverschiebung
  • V[QT]V[\mathcal{Q}^T]: Variabilität der Zielaufgaben

Beweisidee

Verwendung der Dreiecksungleichung zur Konstruktion eines Pfads im metrischen Raum: dTV(P^,Qt)dTV(P^,P)+dTV(P,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)

Kombination mit der Chebyshev-Ungleichung zur Kontrolle des Einflusses der Aufgabenvariabilität.

Technische Innovationen

  1. Einheitlicher Rahmen: Erstmalige Behandlung von Multitask-Lernen, unvollkommenem Lernen und Verteilungsverschiebung in einem einzigen Rahmen
  2. Zerlegende Analyse: Zerlegung komplexer epistemischer Fehler in interpretierbare Komponenten
  3. Praktische Anleitung: Jede Komponente entspricht konkreten Verbesserungsstrategien
  4. Theoretische Strenge: Basierend auf rigoroser metrischer Raumanalyse und Wahrscheinlichkeitstheorie

Analyse von Spezialfällen

Bayessches Transferlernen (Korollar 1)

Für Bayessche Lerner kann das Konvergenzdefizit als Konvergenz der Parameterposterior ausgedrückt werden: CΘ:=dTV(P1Θ,PΘ)C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)

Dies verbindet direkt die Posterior-Konvergenz mit epistemischem Fehler.

Totalvariations-Nachbarschaft (Korollar 2)

Unter ε-Nachbarschaftsbeschränkung: Pr(eα+B+C+D)βα2(V[QS]+vol(QT))\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))

wobei β=(1bT)/bS\beta = (1-b_T)/b_S, vol(QT)=(diam(QS)+ε)2\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2.

Experimentelle Validierung

Experimentelles Setup

  • Modell: Bayessche lineare Regression
  • Datenerzeugung: xN(β1Sξ1+β2Sξ2,σS)x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)
  • Prior: Normal-Inverse-Gamma-Modell
  • Distanzapproximation: Verwendung der Pinsker-Ungleichung zur Approximation der Totalvariationsdistanz

Hauptexperimentelle Ergebnisse

  1. Posterior-Konvergenzeffekt (Abbildung 1a): Epistemischer Fehler nimmt ab, wenn die Posterior-Wahrscheinlichkeit für die Quellendatenerzeugungsparameter zunimmt
  2. Nachbarschaftsgrößeneffekt (Abbildung 1b): Epistemischer Fehler nimmt mit der Größe der ε-Nachbarschaft zu
  3. Phänomen negativer Transferenz (Abbildung 3): Schrankenstraffheit korreliert stark mit Phänomenen negativer Transferenz

Experimentelle Erkenntnisse

  • Theoretische Vorhersagen stimmen stark mit experimentellen Beobachtungen überein
  • Schranken werden bei negativer Transferenz lockerer, was mit theoretischer Analyse übereinstimmt
  • Die relative Bedeutung jeder Komponente variiert je nach Szenario

Verwandte Arbeiten

Statistische Lerntheorie

  • Multitask-Domänengeneralisierung: Baxter (2000), Arbeiten von Maurer et al., berücksichtigen aber keine Verteilungsverschiebung
  • Domänenadaptationstheorie: Redko et al. (2019), setzen aber voraus, dass der Lerner die Verteilungsverschiebung kennt
  • Credal-Lerntheorie: Caprio et al. (2024), beschränkt auf spezifische Lerner

Unsicherheitsquantifizierung

  • Bayessche Tiefenlernverfahren: Papamarkou et al. (2024)
  • Konforme Vorhersage: Angelopoulos und Bates (2023)
  • Credal-Lernen: Caprio et al. (2024)

Vorteile dieses Papiers

  1. Allgemeineres Setting: Behandelt gleichzeitig Multitask-Lernen, unvollkommenes Lernen und Verteilungsverschiebung
  2. Lerner-unabhängig: Hängt nicht von spezifischen Lernalgorithmen ab
  3. Zerlegende Analyse: Bietet umsetzbare Verbesserungsanleitungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bereitstellung der ersten zerlegen epistemischen Fehlerschranke für unsicherheitsabhängige Lerner
  2. Funktioniert in sehr allgemeinen Settings, die viele praktische Szenarien abdecken
  3. Bietet theoretischen Orientierungsrahmen für Modellauswahl und Optimierung

Einschränkungen

  1. Rechenkomplexität: Totalvariationsdistanz ist typischerweise schwer exakt zu berechnen
  2. Annahmebedingungen: Erfordert technische Annahmen wie beschränkte Verteilungen zweiter Ordnung
  3. Konforme Vorhersage: Rahmen kann konforme Vorhersage-Settings nicht vollständig charakterisieren
  4. Experimentelle Validierung: Nur auf niedrigdimensionalen synthetischen Daten validiert

Zukünftige Richtungen

  1. Erweiterung auf zeitabhängige Aufgaben und Daten
  2. Vollständige Charakterisierung von konformen Vorhersage-Settings
  3. Experimentelle Validierung auf hochdimensionalen und echten Daten
  4. Entwicklung leichter zu berechnender Schrankenversionen

Tiefgreifende Bewertung

Stärken

  1. Starke theoretische Innovation: Erstmalige systematische Bereitstellung eines theoretischen Rahmens für unsicherheitsabhängiges Lernen
  2. Hoher praktischer Wert: Zerlegende Analyse leitet praktische Verbesserungen direkt an
  3. Mathematische Strenge: Vollständige Beweise, solide theoretische Grundlagen
  4. Klare Darstellung: Angemessene Struktur, klare Konzeptdefinitionen

Mängel

  1. Rechnerische Machbarkeit: Praktische Berechnung theoretischer Ergebnisse ist herausfordernd
  2. Experimentelle Einschränkungen: Begrenzte Experimentumfang und Komplexität
  3. Strikte Annahmen: Einige technische Annahmen können in der Praxis schwer erfüllbar sein
  4. Anwendungsbereich: Unvollständige Unterstützung für einige Unsicherheitsquantifizierungsmethoden (wie konforme Vorhersage)

Auswirkungen

  1. Theoretischer Beitrag: Legt Grundlagen für Theorie des unsicherheitsabhängigen Lernens
  2. Praktische Anleitung: Bietet Grundlagen für Modellauswahl in hochriskanten Anwendungen
  3. Forschungsinspiration: Eröffnet neue Forschungsrichtungen

Anwendungsszenarien

  1. Medizinische Diagnostik: Klinische Vorhersagen, die genaue Unsicherheitsquantifizierung erfordern
  2. Finanzrisiko: Risikomodellierung in Multi-Markt-Umgebungen
  3. Autonomes Fahren: Sicherheitsentscheidungen bei Umgebungsveränderungen
  4. Wissenschaftliche Entdeckung: Wissenstransfer über Domänen hinweg

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus den Bereichen statistische Lerntheorie, Bayessche Inferenz und Unsicherheitsquantifizierung, einschließlich:

  • Shalev-Shwarz & Ben-David (2014): Grundlagen der statistischen Lerntheorie
  • Papamarkou et al. (2024): Bayessche Tiefenlernverfahren
  • Angelopoulos & Bates (2023): Konforme Vorhersage
  • Redko et al. (2019): Domänenadaptationstheorie

Dies ist ein Papier mit wichtigen Beiträgen zur Theorie des unsicherheitsabhängigen Maschinenlernens, das solide theoretische Grundlagen und einen praktischen Analyserahmen für dieses Gebiet bietet. Obwohl es Raum für Verbesserungen in Bezug auf rechnerische Machbarkeit und experimentelle Validierung gibt, machen seine theoretische Innovation und sein praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.