2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski
Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
academic

Errori Epistemici di Apprendenti Multitask Imperfetti Quando le Distribuzioni si Spostano

Informazioni Fondamentali

  • ID Articolo: 2505.23496
  • Titolo: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
  • Autori: Sabina J. Sloman, Michele Caprio, Samuel Kaski
  • Classificazione: cs.LG stat.ML
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2505.23496

Riassunto

Questo articolo fornisce un quadro teorico rigoroso per i modelli di apprendimento automatico consapevoli dell'incertezza (come le reti neurali bayesiane) al fine di caratterizzare ed eliminare gli errori causati dall'incertezza riducibile (epistemica). L'articolo introduce una definizione rigorosa dell'errore epistemico e fornisce limiti decomponibili dell'errore epistemico nel contesto molto generale dell'apprendimento multitask imperfetto sotto spostamento di distribuzione. In questo contesto, i dati di addestramento (sorgente) possono provenire da più compiti, i dati di test (target) possono differire sistematicamente dai compiti sorgente, e/o l'apprendente potrebbe non essere in grado di caratterizzare accuratamente i dati sorgente. Il limite attribuisce l'errore epistemico a molteplici aspetti del processo di apprendimento e dell'ambiente.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come fornire un quadro teorico per gli apprendenti consapevoli dell'incertezza al fine di caratterizzare e ridurre l'errore epistemico? Nello specifico:

  1. Limitazioni della teoria dell'apprendimento tradizionale: La teoria dell'apprendimento statistico esistente si concentra principalmente sull'errore di generalizzazione, ma per gli apprendenti che quantificano l'incertezza dell'output, l'errore di predizione è una misura di prestazione irrilevante, incompleta o non informativa.
  2. Confusione tra tipi di incertezza: I metodi tradizionali confondono l'incertezza epistemica riducibile con l'incertezza aleatoria irriducibile, non riuscendo a guidare efficacemente il miglioramento del modello.
  3. Mancanza di supporto teorico in scenari di apprendimento complessi: In scenari reali complessi come l'apprendimento multitask, lo spostamento di distribuzione e l'apprendimento imperfetto, manca la guida teorica.

Importanza della Ricerca

  1. Valore pratico applicativo: In settori ad alto rischio come la medicina, la quantificazione accurata dell'incertezza è fondamentale
  2. Completamento teorico: Colma le lacune nella teoria dell'apprendimento consapevole dell'incertezza
  3. Guida pratica: Fornisce basi teoriche per la selezione e l'ottimizzazione dei modelli

Limitazioni dei Metodi Esistenti

  • La teoria PAC e altri quadri tradizionali non riescono a distinguere tra errore epistemico ed errore aleatorio
  • Mancanza di un quadro teorico unificato per scenari di apprendimento multitask e spostamento di distribuzione
  • I limiti esistenti generalmente assumono apprendimento perfetto o assenza di spostamento di distribuzione

Contributi Principali

  1. Introduzione del concetto di limite dell'errore epistemico: Propone il limite dell'errore epistemico come nuovo strumento teorico, specificamente per gli apprendenti consapevoli dell'incertezza
  2. Limite dell'errore epistemico decomponibile: Nel contesto generale dell'apprendimento multitask imperfetto e dello spostamento di distribuzione, fornisce un limite che decompone l'errore epistemico in tre componenti
  3. Corollari per casi speciali: Fornisce limiti specializzati dell'errore epistemico per l'apprendimento bayesiano per trasferimento e lo spostamento di distribuzione entro ε-vicinanze
  4. Nuova definizione del trasferimento negativo: Fornisce una nuova caratterizzazione teorica del fenomeno del trasferimento negativo basata sui termini nel limite

Dettagli del Metodo

Definizione del Compito

L'errore epistemico è definito come il grado di errore dell'apprendente nel comprendere il processo di generazione dei dati (DGP), formalizzato come: e:=dTV(P^,Qt)e := d_{TV}(\hat{P}, Q^t)

dove P^\hat{P} è la distribuzione predittiva dell'apprendente, QtQ^t è la distribuzione del compito target, e dTVd_{TV} è la distanza di variazione totale.

Quadro Teorico Principale

Impostazione dell'Apprendimento Multitask

  • Distribuzione dei compiti: I compiti stessi sono campionati da una distribuzione di compiti del secondo ordine QΔ(ΔX)\mathcal{Q} \in \Delta(\Delta_X)
  • Compiti sorgente: I dati di addestramento provengono da nn compiti sorgente, ciascun compito QQSQ \sim \mathcal{Q}^S
  • Compito target: Il compito di test QtQTQ^t \sim \mathcal{Q}^T
  • Spostamento di distribuzione: Si verifica quando QSQT\mathcal{Q}^S \neq \mathcal{Q}^T

Definizioni Chiave

  1. Baricentro della distribuzione dei compiti (Definizione 1): Qˉ(x):=ΔXQ(x)q(Q)dQ=EQQ[Q(x)]\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]
  2. Variabilità della distribuzione dei compiti (Definizione 2): V[Q]:=supxXΔX[Q(x)Qˉ(x)]2q(Q)dQV[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ
  3. Bias di approssimazione (Definizione 7): B:=dTV(P,QˉS)B := d_{TV}(P^*, \bar{Q}^S) dove P=argminPπdTV(P,QˉS)P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)
  4. Insufficienza di convergenza (Definizione 8): C:=dTV(P^,P)C := d_{TV}(\hat{P}, P^*)
  5. Grado di spostamento di distribuzione (Definizione 9): D:=dTV(QˉS,QˉT)D := d_{TV}(\bar{Q}^S, \bar{Q}^T)

Risultati Teorici Principali

Teorema 1 (Risultato Principale)

Data la classe di modelli π\pi, il predittore P^π\hat{P} \in \pi, la distribuzione dei compiti sorgente QS\mathcal{Q}^S, e la distribuzione del compito target limitata al secondo ordine QT\mathcal{Q}^T:

Pr(eα+B+C+D)V[QT]α2\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}

Questo limite decompone l'errore epistemico in:

  • B: Restrizione del modello (bias di approssimazione)
  • C: Scarsità di dati (insufficienza di convergenza)
  • D: Spostamento di distribuzione
  • V[QT]V[\mathcal{Q}^T]: Variabilità del compito target

Strategia di Dimostrazione

Utilizza la disuguaglianza triangolare per costruire un percorso nello spazio metrico: dTV(P^,Qt)dTV(P^,P)+dTV(P,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)

Combina la disuguaglianza di Chebyshev per controllare l'effetto della variabilità dei compiti.

Punti di Innovazione Tecnica

  1. Quadro unificato: Affronta per la prima volta l'apprendimento multitask, l'apprendimento imperfetto e lo spostamento di distribuzione in un unico quadro
  2. Analisi decomponibile: Decompone l'errore epistemico complesso in componenti interpretabili
  3. Guida pratica: Ogni componente corrisponde a strategie di miglioramento concrete
  4. Rigore teorico: Basato su analisi rigorosa dello spazio metrico e teoria della probabilità

Analisi di Casi Speciali

Apprendimento Bayesiano per Trasferimento (Corollario 1)

Per gli apprendenti bayesiani, il termine di insufficienza di convergenza può essere espresso come convergenza della posteriore parametrica: CΘ:=dTV(P1Θ,PΘ)C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)

Questo collega direttamente la convergenza della posteriore all'errore epistemico.

Vicinanza di Variazione Totale (Corollario 2)

Sotto vincolo di ε-vicinanza: Pr(eα+B+C+D)βα2(V[QS]+vol(QT))\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))

dove β=(1bT)/bS\beta = (1-b_T)/b_S, vol(QT)=(diam(QS)+ε)2\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2.

Verifica Sperimentale

Impostazione Sperimentale

  • Modello: Regressione lineare bayesiana
  • Generazione dati: xN(β1Sξ1+β2Sξ2,σS)x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)
  • Prior: Modello Normal-Inverse-Gamma
  • Approssimazione della metrica: Utilizza la disuguaglianza di Pinsker per approssimare la distanza di variazione totale

Risultati Sperimentali Principali

  1. Effetto della convergenza posteriore (Figura 1a): L'errore epistemico diminuisce all'aumentare della probabilità che la posteriore catturi i parametri che generano i dati sorgente
  2. Effetto della dimensione della vicinanza (Figura 1b): L'errore epistemico aumenta all'aumentare della dimensione della ε-vicinanza
  3. Fenomeno del trasferimento negativo (Figura 3): La stretta del limite è altamente correlata con il fenomeno del trasferimento negativo

Scoperte Sperimentali

  • Le previsioni teoriche sono altamente coerenti con le osservazioni sperimentali
  • Il limite diventa più lasco nei casi di trasferimento negativo, in accordo con l'analisi teorica
  • L'importanza relativa di ciascun componente varia a seconda dello scenario

Lavori Correlati

Teoria dell'Apprendimento Statistico

  • Generalizzazione di dominio multitask: Baxter (2000), lavori di Maurer et al., ma non considerano lo spostamento di distribuzione
  • Teoria dell'adattamento di dominio: Redko et al. (2019), ma assumono che l'apprendente conosca lo spostamento di distribuzione
  • Teoria dell'apprendimento credal: Caprio et al. (2024), ma limitata a apprendenti specifici

Quantificazione dell'Incertezza

  • Deep learning bayesiano: Papamarkou et al. (2024)
  • Predizione conforme: Angelopoulos e Bates (2023)
  • Apprendimento credal: Caprio et al. (2024)

Vantaggi di questo Articolo

  1. Impostazione più generale: Affronta simultaneamente l'apprendimento multitask, l'apprendimento imperfetto e lo spostamento di distribuzione
  2. Indipendenza dall'apprendente: Non dipende da algoritmi di apprendimento specifici
  3. Analisi decomponibile: Fornisce guida operativa per il miglioramento

Conclusioni e Discussione

Conclusioni Principali

  1. Fornisce il primo limite dell'errore epistemico decomponibile per gli apprendenti consapevoli dell'incertezza
  2. Funziona in un contesto molto generale, coprendo vari scenari pratici
  3. Fornisce un quadro teorico di guida per la selezione e l'ottimizzazione dei modelli

Limitazioni

  1. Complessità computazionale: La distanza di variazione totale è generalmente difficile da calcolare esattamente
  2. Condizioni di assunzione: Richiede distribuzioni limitate al secondo ordine e altre assunzioni tecniche
  3. Predizione conforme: Il quadro non caratterizza completamente l'impostazione della predizione conforme
  4. Verifica sperimentale: Verificato solo su dati sintetici a bassa dimensionalità

Direzioni Future

  1. Estensione a compiti e dati dipendenti dal tempo
  2. Caratterizzazione completa dell'impostazione della predizione conforme
  3. Verifica sperimentale su dati ad alta dimensionalità e reali
  4. Sviluppo di versioni del limite più facili da calcolare

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione teorica: Primo a fornire sistematicamente un quadro teorico per l'apprendimento consapevole dell'incertezza
  2. Alto valore pratico: L'analisi decomponibile guida direttamente il miglioramento pratico
  3. Rigore matematico: Dimostrazioni complete, fondamenti teorici solidi
  4. Chiarezza di scrittura: Struttura ragionevole, definizioni concettuali chiare

Insufficienze

  1. Fattibilità computazionale: I risultati teorici presentano sfide nel calcolo pratico
  2. Limitazioni sperimentali: Scala e complessità degli esperimenti limitate
  3. Assunzioni rigorose: Alcune assunzioni tecniche potrebbero essere difficili da soddisfare nella pratica
  4. Ambito di applicazione: Supporto incompleto per alcuni metodi di quantificazione dell'incertezza (come la predizione conforme)

Impatto

  1. Contributo teorico: Pone le basi per la teoria dell'apprendimento consapevole dell'incertezza
  2. Guida pratica: Fornisce basi teoriche per la selezione dei modelli in applicazioni ad alto rischio
  3. Ispirazione per la ricerca: Apre nuove direzioni di ricerca

Scenari Applicabili

  1. Diagnosi medica: Previsioni cliniche che richiedono quantificazione accurata dell'incertezza
  2. Rischio finanziario: Modellazione del rischio in ambienti multi-mercato
  3. Guida autonoma: Decisioni di sicurezza in ambienti mutevoli
  4. Scoperta scientifica: Trasferimento di conoscenze tra domini

Bibliografia

Questo articolo cita importanti lavori nei campi della teoria dell'apprendimento statistico, dell'inferenza bayesiana e della quantificazione dell'incertezza, inclusi:

  • Shalev-Shwarz & Ben-David (2014): Fondamenti della teoria dell'apprendimento statistico
  • Papamarkou et al. (2024): Deep learning bayesiano
  • Angelopoulos & Bates (2023): Predizione conforme
  • Redko et al. (2019): Teoria dell'adattamento di dominio

Questo è un articolo con importanti contributi nella teoria dell'apprendimento automatico consapevole dell'incertezza, fornendo solide basi teoriche e un quadro di analisi pratico per il campo. Sebbene vi sia spazio per miglioramenti nella fattibilità computazionale e nella verifica sperimentale, la sua innovazione teorica e il valore pratico lo rendono un lavoro importante nel campo.