2025-11-24T16:43:16.687108

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Wakayama, Suzuki

This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.

academic

L'Apprentissage en Contexte est Provablement une Inférence Bayésienne : Une Théorie de Généralisation pour l'Apprentissage Méta

Informations Fondamentales

ID de l'article : 2510.10981
Titre : In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
Auteurs : Tomoya Wakayama (RIKEN AIP), Taiji Suzuki (The University of Tokyo, RIKEN AIP)
Classification : stat.ML cs.LG
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10981v1

Résumé

Cet article établit une théorie statistique à échantillon fini pour l'apprentissage en contexte (ICL), analysée dans un cadre d'apprentissage méta accommodant des mélanges de types de tâches variés. L'article introduit une décomposition du risque principielle, décomposant le risque ICL total en deux composantes orthogonales : l'écart bayésien (Bayes Gap) et la variance postérieure (Posterior Variance). L'écart bayésien quantifie le degré d'approximation du modèle entraîné par rapport au prédicteur contextuel optimal au sens bayésien. Pour le Transformer à attention uniforme, l'article dérive une borne supérieure non-asymptotique de cet écart, clarifiant explicitement la dépendance au nombre de prompts d'entraînement et à la longueur du contexte. La variance postérieure représente le risque indépendant du modèle reflétant l'incertitude intrinsèque des tâches. La découverte clé est que ce terme est déterminé uniquement par la difficulté des véritables tâches latentes, tandis que l'incertitude provenant du mélange de tâches disparaît exponentiellement rapidement avec seulement quelques exemples contextuels.

Contexte et Motivation de la Recherche

Contexte du Problème

Depuis GPT-3, les grands modèles de langage ont démontré des capacités remarquables d'apprentissage en contexte, c'est-à-dire l'adaptation à de nouvelles tâches à partir de seulement quelques exemples entrée-sortie, sans mise à jour des paramètres. Ce phénomène est omniprésent dans diverses bases de données et formats de tâches, et constitue le cœur des flux de travail des LLM modernes.

Motivation de la Recherche

Lacune théorique : Bien que l'ICL soit largement reconnu comme une forme d'inférence bayésienne implicite, les théories existantes n'exploitent pas pleinement la relation théorique entre l'ICL et l'inférence bayésienne
Besoins pratiques : Le déploiement des LLM modernes fait face à des contraintes communes — des prompts courts au moment de l'inférence, une préformation en amont couvrant des types de tâches hétérogènes, nécessitant une analyse concrète de l'erreur de prédiction à échantillon fini
Vide théorique : Les théories existantes manquent d'une théorie statistique capable de (i) coupler conjointement l'échelle de préformation N et la longueur du prompt p, (ii) accommoder les mélanges de types de tâches hétérogènes

Limitations des Approches Existantes

Les théories précoces se concentraient principalement sur l'analyse informationnelle ou les taux non-paramétriques dans des architectures et configurations spécifiques
Elles ne capturaient pas complètement les effets conjoints de p et N
Elles manquaient d'explications théoriques du comportement de l'ICL dans les configurations de tâches mixtes

Contributions Principales

Décomposition du risque principielle : Propose une décomposition orthogonale du risque ICL : risque ICL = Écart Bayésien + Variance Postérieure
Bornes non-asymptotiques : Fournit une borne supérieure non-asymptotique de l'écart bayésien pour le Transformer à attention uniforme, clarifiant la dépendance couplée entre le nombre de prompts de préformation N et la longueur du contexte p : $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN} + \frac{1}{N}$
Théorie de l'identification des tâches : Prouve que dans les mélanges de tâches, la distribution postérieure se concentre exponentiellement rapidement sur l'indice de la vraie tâche, et l'ICL converge rapidement vers l'algorithme optimal de la vraie tâche
Stabilité sous décalage de distribution : Caractérise la stabilité sous décalage de distribution d'entrée, prouvant que l'écart bayésien augmente proportionnellement à la distance de Wasserstein entre distributions

Détails de la Méthode

Définition des Tâches

L'article considère un cadre d'apprentissage méta accommodant un mélange fini de T types de tâches distincts :

Processus de génération de prompts :

Échantillonner le type de tâche : $I \sim \text{Categorical}(\alpha)$
Étant donné $I=i$ , échantillonner la fonction de tâche : $f \sim P_{F_i}$
Pour $k=1,\ldots,p+1$ $k = 1, \dots, p + 1$ :
- Échantillonner l'entrée : $x_k \overset{i.i.d.}{\sim} P_X$
- Générer la sortie : $y_k = f(x_k) + \varepsilon_k$
Former un prompt de longueur p : $P = (x_1,y_1,\ldots,x_p,y_p,x_{p+1})$

Architecture du Modèle

Transformer à Attention Uniforme : $M_\theta(P^k) := \rho_\theta\left(\frac{1}{k}\sum_{i=1}^k \phi_\theta(x_i,y_i), x_{k+1}\right)$

Où :

Encodeur de caractéristiques $\phi_\theta: U \to \Delta_{m-1}$ : réseau ReLU feedforward de profondeur $D_\phi$ , suivi d'une couche de renormalisation
Décodeur $\rho_\theta: \Delta_{m-1} \times C \to \mathbb{R}$ : réseau ReLU feedforward de profondeur $D_\rho$

Prédicteur Bayésien Optimal

La minimisation du risque ICL est équivalente à la minimisation du risque bayésien, le prédicteur optimal étant la moyenne postérieure : $M_{\text{Bayes}}(P^k) := E_{I\sim P_{I|D^k}} E_{f\sim P_{F_I|D^k}}[f(x_{k+1})]$

Points d'Innovation Technique

Fondations théoriques d'invariance par permutation : Prouve l'invariance par permutation du prédicteur bayésien, fournissant un support théorique pour l'architecture à attention uniforme
Application de la théorie de l'apprentissage séquentiel : Utilise la théorie de l'apprentissage séquentiel pour traiter les p exemples contextuels dans le prompt, combinée avec la théorie d'apprentissage traditionnelle pour traiter les N prompts de méta-entraînement
Théorie d'approximation par transport optimal : Construit des unités de partition basées sur des histogrammes souples pour encoder les prompts, approximant le prédicteur bayésien via l'extension de McShane sur la métrique de Wasserstein 1-discrète

Configuration Expérimentale

Cadre d'Analyse Théorique

L'article fournit principalement une analyse théorique, adoptant les configurations suivantes :

Conditions d'hypothèse :

Hypothèse 1 : Fonctions de tâche bornées $|f(x)| \leq B_f$
Hypothèse 2 : Entrées bornées et indépendance conditionnelle $\|x\|_2 \leq B_X$

Taille du réseau :

Encodeur de caractéristiques : $S(\phi_\theta) \leq C_\phi m^{1/d_{eff}}$
Décodeur : $S(\rho_\theta) \leq C_\rho m^{1/2}$

Métriques d'Évaluation

Le risque ICL est défini comme : $R(M) = \frac{1}{p}\sum_{k=1}^p E_{I,f,D^k,x_{k+1}}\left[(f(x_{k+1}) - M(P^k))^2\right]$

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 1 (Décomposition du Risque) : $R(M) = R_{BG}(M) + R_{PV}$ Où :

Écart bayésien : $R_{BG}(M) := \frac{1}{p}\sum_{k=1}^p E[(M(P^k) - M_{\text{Bayes}}(P^k))^2]$
Variance postérieure : $R_{PV} := \frac{1}{p}\sum_{k=1}^p E[\text{Var}_{f\sim P(f|D^k)}(f(x_{k+1}))]$

Théorème 2 (Borne de l'Écart Bayésien) : Sous la condition de Hölder, pour le Transformer à attention uniforme : $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN}\text{polylog}(pN) + \frac{1}{N}\text{polylog}(pN)$

En choisissant $m^* \asymp (pN)^{d_{eff}/(d_{eff}+2\alpha)}$ , on obtient : $E[R_{BG}(M_{\hat{\theta}})] \lesssim (pN)^{-2\alpha/(d_{eff}+2\alpha)} + N^{-1}$

Théorème 3 (Analyse de la Variance Postérieure) : Sous la condition du rapport de vraisemblance logarithmique : $E_{D^k,x|I=i^*}[\text{Var}_{f|D^k}\{f(x)\}] \leq \inf_M \sup_{f\in F_{i^*}} E[(f(x_{k+1}) - M(P^k))^2|f] + 5B_f^2\left(\frac{1-\alpha_{i^*}}{\alpha_{i^*}}e^{-D_{\min}k/2} + (T-1)e^{-Ck}\right)$

Découvertes Clés

Sélection optimale de l'algorithme méta : Le Transformer sélectionne l'algorithme méta optimal pendant la préformation, avec un taux $\propto m/(pN)$ clarifiant l'effet conjoint de p et N
Identification exponentielle des tâches : Dans les configurations de tâches mixtes, la postérieure des tâches se concentre exponentiellement rapidement sur l'indice de la vraie tâche, l'erreur irréductible convergeant vers le risque minimax de la vraie tâche
Stabilité sous décalage de distribution : Sous décalage de distribution d'entrée, l'écart bayésien augmente proportionnellement à la distance de Wasserstein, tandis que la variance postérieure conserve ses propriétés intrinsèques au domaine cible

Travaux Connexes

ICL comme Inférence Bayésienne

Xie et al. (2022) : Les mélanges de documents de style modèle de Markov caché permettent au Transformer d'effectuer une prédiction postérieure
Panwar et al. (2024) : Le Transformer simule l'inférence bayésienne dans les mélanges de tâches
Wang et al. (2023) : Considère les LLM comme des prédicteurs à variables latentes

ICL comme Apprentissage Méta

von Oswald et al. (2023) : Le Transformer implémente des mises à jour de style descente de gradient dans le passage avant
Kirsch et al. (2022) : Le modèle peut être méta-entraîné pour exécuter un algorithme contextuel universel entre tâches

Conclusion et Discussion

Conclusions Principales

L'ICL peut être rigoureusement considéré comme une inférence bayésienne, fournissant une perspective théorique unifiée
La décomposition orthogonale de l'écart bayésien et de la variance postérieure révèle les différentes sources d'erreur de l'ICL
Le Transformer peut apprendre l'algorithme méta optimal et s'adapter rapidement à la vraie tâche

Limitations

Limitations architecturales : L'analyse se concentre sur le Transformer à attention uniforme, motivée par l'invariance par permutation
Conditions d'hypothèse : Nécessite des conditions de Hölder et des hypothèses de bornitude
Types de tâches : Considère principalement les mélanges de tâches de régression

Directions Futures

Extension à des mécanismes d'attention plus complexes
Considération de configurations où la dépendance séquentielle est significative
Étude des garanties théoriques sous architectures d'attention non-uniforme

Évaluation Approfondie

Avantages

Rigueur théorique : Fournit la première analyse théorique bayésienne rigoureuse de l'ICL, comblant une lacune théorique importante
Intuitions pratiques : La décomposition du risque fournit un cadre clair pour comprendre les goulots d'étranglement de performance de l'ICL
Innovation technique : Combine ingénieusement la théorie de l'apprentissage séquentiel et la théorie du transport optimal
Perspective unifiée : Unifie le comportement de préformation et d'inférence dans un cadre bayésien

Insuffisances

Limitations architecturales : Analyse uniquement le Transformer à attention uniforme, avec un écart par rapport aux architectures réellement utilisées
Absence de validation expérimentale : Travail purement théorique, manquant de vérification empirique
Hypothèses strictes : Les hypothèses comme la condition de Hölder peuvent ne pas être satisfaites en pratique
Portée des tâches : Se concentre principalement sur les tâches de régression, applicabilité incertaine à d'autres tâches comme la classification

Impact

Contribution théorique : Établit une base importante pour la recherche théorique sur l'ICL
Valeur directrice : Fournit des orientations théoriques pour la conception de systèmes pratiques
Inspiration pour la recherche : Ouvre de nouvelles directions pour la recherche théorique et empirique ultérieure

Scénarios d'Application

Recherche théorique : Fournit une base mathématique pour la compréhension des mécanismes de l'ICL
Conception de systèmes : Guide le choix de l'échelle des données de préformation et de la longueur du contexte
Analyse de performance : Aide à analyser les goulots d'étranglement de performance des systèmes ICL

Références

L'article cite un grand nombre de travaux connexes, notamment :

Brown et al. (2020) : Travail fondateur de GPT-3
Xie et al. (2022) : ICL comme inférence bayésienne implicite
von Oswald et al. (2023) : Transformer apprenant la descente de gradient contextuelle
Rakhlin et al. (2010, 2015) : Fondations de la théorie de l'apprentissage séquentiel

Évaluation globale : Ceci est un article théorique de haute qualité qui fournit une base mathématique importante pour la compréhension des mécanismes de l'ICL. Malgré les limitations en termes d'architecture et d'expérimentation, ses contributions théoriques et ses intuitions ont une valeur importante pour le domaine. La rigueur et l'innovation de l'article en font un jalon important dans la recherche théorique sur l'ICL.