This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.
- ID de l'article : 2510.10981
- Titre : In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
- Auteurs : Tomoya Wakayama (RIKEN AIP), Taiji Suzuki (The University of Tokyo, RIKEN AIP)
- Classification : stat.ML cs.LG
- Date de publication : 13 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.10981v1
Cet article établit une théorie statistique à échantillon fini pour l'apprentissage en contexte (ICL), analysée dans un cadre d'apprentissage méta accommodant des mélanges de types de tâches variés. L'article introduit une décomposition du risque principielle, décomposant le risque ICL total en deux composantes orthogonales : l'écart bayésien (Bayes Gap) et la variance postérieure (Posterior Variance). L'écart bayésien quantifie le degré d'approximation du modèle entraîné par rapport au prédicteur contextuel optimal au sens bayésien. Pour le Transformer à attention uniforme, l'article dérive une borne supérieure non-asymptotique de cet écart, clarifiant explicitement la dépendance au nombre de prompts d'entraînement et à la longueur du contexte. La variance postérieure représente le risque indépendant du modèle reflétant l'incertitude intrinsèque des tâches. La découverte clé est que ce terme est déterminé uniquement par la difficulté des véritables tâches latentes, tandis que l'incertitude provenant du mélange de tâches disparaît exponentiellement rapidement avec seulement quelques exemples contextuels.
Depuis GPT-3, les grands modèles de langage ont démontré des capacités remarquables d'apprentissage en contexte, c'est-à-dire l'adaptation à de nouvelles tâches à partir de seulement quelques exemples entrée-sortie, sans mise à jour des paramètres. Ce phénomène est omniprésent dans diverses bases de données et formats de tâches, et constitue le cœur des flux de travail des LLM modernes.
- Lacune théorique : Bien que l'ICL soit largement reconnu comme une forme d'inférence bayésienne implicite, les théories existantes n'exploitent pas pleinement la relation théorique entre l'ICL et l'inférence bayésienne
- Besoins pratiques : Le déploiement des LLM modernes fait face à des contraintes communes — des prompts courts au moment de l'inférence, une préformation en amont couvrant des types de tâches hétérogènes, nécessitant une analyse concrète de l'erreur de prédiction à échantillon fini
- Vide théorique : Les théories existantes manquent d'une théorie statistique capable de (i) coupler conjointement l'échelle de préformation N et la longueur du prompt p, (ii) accommoder les mélanges de types de tâches hétérogènes
- Les théories précoces se concentraient principalement sur l'analyse informationnelle ou les taux non-paramétriques dans des architectures et configurations spécifiques
- Elles ne capturaient pas complètement les effets conjoints de p et N
- Elles manquaient d'explications théoriques du comportement de l'ICL dans les configurations de tâches mixtes
- Décomposition du risque principielle : Propose une décomposition orthogonale du risque ICL : risque ICL = Écart Bayésien + Variance Postérieure
- Bornes non-asymptotiques : Fournit une borne supérieure non-asymptotique de l'écart bayésien pour le Transformer à attention uniforme, clarifiant la dépendance couplée entre le nombre de prompts de préformation N et la longueur du contexte p :
E[RBG(Mθ^)]≲m−2α/deff+pNm+N1
- Théorie de l'identification des tâches : Prouve que dans les mélanges de tâches, la distribution postérieure se concentre exponentiellement rapidement sur l'indice de la vraie tâche, et l'ICL converge rapidement vers l'algorithme optimal de la vraie tâche
- Stabilité sous décalage de distribution : Caractérise la stabilité sous décalage de distribution d'entrée, prouvant que l'écart bayésien augmente proportionnellement à la distance de Wasserstein entre distributions
L'article considère un cadre d'apprentissage méta accommodant un mélange fini de T types de tâches distincts :
Processus de génération de prompts :
- Échantillonner le type de tâche : I∼Categorical(α)
- Étant donné I=i, échantillonner la fonction de tâche : f∼PFi
- Pour k=1,…,p+1 :
- Échantillonner l'entrée : xk∼i.i.d.PX
- Générer la sortie : yk=f(xk)+εk
- Former un prompt de longueur p : P=(x1,y1,…,xp,yp,xp+1)
Transformer à Attention Uniforme :
Mθ(Pk):=ρθ(k1∑i=1kϕθ(xi,yi),xk+1)
Où :
- Encodeur de caractéristiques ϕθ:U→Δm−1 : réseau ReLU feedforward de profondeur Dϕ, suivi d'une couche de renormalisation
- Décodeur ρθ:Δm−1×C→R : réseau ReLU feedforward de profondeur Dρ
La minimisation du risque ICL est équivalente à la minimisation du risque bayésien, le prédicteur optimal étant la moyenne postérieure :
MBayes(Pk):=EI∼PI∣DkEf∼PFI∣Dk[f(xk+1)]
- Fondations théoriques d'invariance par permutation : Prouve l'invariance par permutation du prédicteur bayésien, fournissant un support théorique pour l'architecture à attention uniforme
- Application de la théorie de l'apprentissage séquentiel : Utilise la théorie de l'apprentissage séquentiel pour traiter les p exemples contextuels dans le prompt, combinée avec la théorie d'apprentissage traditionnelle pour traiter les N prompts de méta-entraînement
- Théorie d'approximation par transport optimal : Construit des unités de partition basées sur des histogrammes souples pour encoder les prompts, approximant le prédicteur bayésien via l'extension de McShane sur la métrique de Wasserstein 1-discrète
L'article fournit principalement une analyse théorique, adoptant les configurations suivantes :
Conditions d'hypothèse :
- Hypothèse 1 : Fonctions de tâche bornées ∣f(x)∣≤Bf
- Hypothèse 2 : Entrées bornées et indépendance conditionnelle ∥x∥2≤BX
Taille du réseau :
- Encodeur de caractéristiques : S(ϕθ)≤Cϕm1/deff
- Décodeur : S(ρθ)≤Cρm1/2
Le risque ICL est défini comme :
R(M)=p1∑k=1pEI,f,Dk,xk+1[(f(xk+1)−M(Pk))2]
Théorème 1 (Décomposition du Risque) :
R(M)=RBG(M)+RPV
Où :
- Écart bayésien : RBG(M):=p1∑k=1pE[(M(Pk)−MBayes(Pk))2]
- Variance postérieure : RPV:=p1∑k=1pE[Varf∼P(f∣Dk)(f(xk+1))]
Théorème 2 (Borne de l'Écart Bayésien) :
Sous la condition de Hölder, pour le Transformer à attention uniforme :
E[RBG(Mθ^)]≲m−2α/deff+pNmpolylog(pN)+N1polylog(pN)
En choisissant m∗≍(pN)deff/(deff+2α), on obtient :
E[RBG(Mθ^)]≲(pN)−2α/(deff+2α)+N−1
Théorème 3 (Analyse de la Variance Postérieure) :
Sous la condition du rapport de vraisemblance logarithmique :
EDk,x∣I=i∗[Varf∣Dk{f(x)}]≤infMsupf∈Fi∗E[(f(xk+1)−M(Pk))2∣f]+5Bf2(αi∗1−αi∗e−Dmink/2+(T−1)e−Ck)
- Sélection optimale de l'algorithme méta : Le Transformer sélectionne l'algorithme méta optimal pendant la préformation, avec un taux ∝m/(pN) clarifiant l'effet conjoint de p et N
- Identification exponentielle des tâches : Dans les configurations de tâches mixtes, la postérieure des tâches se concentre exponentiellement rapidement sur l'indice de la vraie tâche, l'erreur irréductible convergeant vers le risque minimax de la vraie tâche
- Stabilité sous décalage de distribution : Sous décalage de distribution d'entrée, l'écart bayésien augmente proportionnellement à la distance de Wasserstein, tandis que la variance postérieure conserve ses propriétés intrinsèques au domaine cible
- Xie et al. (2022) : Les mélanges de documents de style modèle de Markov caché permettent au Transformer d'effectuer une prédiction postérieure
- Panwar et al. (2024) : Le Transformer simule l'inférence bayésienne dans les mélanges de tâches
- Wang et al. (2023) : Considère les LLM comme des prédicteurs à variables latentes
- von Oswald et al. (2023) : Le Transformer implémente des mises à jour de style descente de gradient dans le passage avant
- Kirsch et al. (2022) : Le modèle peut être méta-entraîné pour exécuter un algorithme contextuel universel entre tâches
- L'ICL peut être rigoureusement considéré comme une inférence bayésienne, fournissant une perspective théorique unifiée
- La décomposition orthogonale de l'écart bayésien et de la variance postérieure révèle les différentes sources d'erreur de l'ICL
- Le Transformer peut apprendre l'algorithme méta optimal et s'adapter rapidement à la vraie tâche
- Limitations architecturales : L'analyse se concentre sur le Transformer à attention uniforme, motivée par l'invariance par permutation
- Conditions d'hypothèse : Nécessite des conditions de Hölder et des hypothèses de bornitude
- Types de tâches : Considère principalement les mélanges de tâches de régression
- Extension à des mécanismes d'attention plus complexes
- Considération de configurations où la dépendance séquentielle est significative
- Étude des garanties théoriques sous architectures d'attention non-uniforme
- Rigueur théorique : Fournit la première analyse théorique bayésienne rigoureuse de l'ICL, comblant une lacune théorique importante
- Intuitions pratiques : La décomposition du risque fournit un cadre clair pour comprendre les goulots d'étranglement de performance de l'ICL
- Innovation technique : Combine ingénieusement la théorie de l'apprentissage séquentiel et la théorie du transport optimal
- Perspective unifiée : Unifie le comportement de préformation et d'inférence dans un cadre bayésien
- Limitations architecturales : Analyse uniquement le Transformer à attention uniforme, avec un écart par rapport aux architectures réellement utilisées
- Absence de validation expérimentale : Travail purement théorique, manquant de vérification empirique
- Hypothèses strictes : Les hypothèses comme la condition de Hölder peuvent ne pas être satisfaites en pratique
- Portée des tâches : Se concentre principalement sur les tâches de régression, applicabilité incertaine à d'autres tâches comme la classification
- Contribution théorique : Établit une base importante pour la recherche théorique sur l'ICL
- Valeur directrice : Fournit des orientations théoriques pour la conception de systèmes pratiques
- Inspiration pour la recherche : Ouvre de nouvelles directions pour la recherche théorique et empirique ultérieure
- Recherche théorique : Fournit une base mathématique pour la compréhension des mécanismes de l'ICL
- Conception de systèmes : Guide le choix de l'échelle des données de préformation et de la longueur du contexte
- Analyse de performance : Aide à analyser les goulots d'étranglement de performance des systèmes ICL
L'article cite un grand nombre de travaux connexes, notamment :
- Brown et al. (2020) : Travail fondateur de GPT-3
- Xie et al. (2022) : ICL comme inférence bayésienne implicite
- von Oswald et al. (2023) : Transformer apprenant la descente de gradient contextuelle
- Rakhlin et al. (2010, 2015) : Fondations de la théorie de l'apprentissage séquentiel
Évaluation globale : Ceci est un article théorique de haute qualité qui fournit une base mathématique importante pour la compréhension des mécanismes de l'ICL. Malgré les limitations en termes d'architecture et d'expérimentation, ses contributions théoriques et ses intuitions ont une valeur importante pour le domaine. La rigueur et l'innovation de l'article en font un jalon important dans la recherche théorique sur l'ICL.