This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.
- पेपर ID: 2510.10981
- शीर्षक: In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
- लेखक: Tomoya Wakayama (RIKEN AIP), Taiji Suzuki (The University of Tokyo, RIKEN AIP)
- वर्गीकरण: stat.ML cs.LG
- प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10981v1
यह पेपर इन-कॉन्टेक्स्ट लर्निंग (ICL) के लिए एक सीमित नमूना सांख्यिकीय सिद्धांत स्थापित करता है, जो विभिन्न कार्य प्रकारों के मिश्रण को समायोजित करने वाली मेटा-लर्निंग फ्रेमवर्क के भीतर विश्लेषण करता है। पेपर एक सिद्धांतपूर्ण जोखिम अपघटन प्रस्तुत करता है, जो कुल ICL जोखिम को दो ऑर्थोगोनल घटकों में विभाजित करता है: बेयेस गैप (Bayes Gap) और पश्च विचरण (Posterior Variance)। बेयेस गैप प्रशिक्षित मॉडल द्वारा बेयेसियन इष्टतम कॉन्टेक्स्ट भविष्यवक्ता के सन्निकटन की मात्रा निर्धारित करता है। समान ध्यान Transformer के लिए, पेपर इस गैप के लिए एक गैर-स्पर्शोन्मुख ऊपरी सीमा प्राप्त करता है, जो पूर्वप्रशिक्षण संकेत संख्या और कॉन्टेक्स्ट लंबाई पर निर्भरता को स्पष्ट करता है। पश्च विचरण आंतरिक कार्य अनिश्चितता का प्रतिनिधित्व करने वाला मॉडल-अज्ञेयवादी जोखिम है। मुख्य खोज यह है कि यह पद केवल वास्तविक अंतर्निहित कार्य की कठिनाई द्वारा निर्धारित किया जाता है, जबकि कार्य मिश्रण से आने वाली अनिश्चितता केवल कुछ कॉन्टेक्स्ट नमूनों के साथ घातीय रूप से तेजी से गायब हो जाती है।
GPT-3 के बाद से, बड़े भाषा मॉडल ने उल्लेखनीय इन-कॉन्टेक्स्ट लर्निंग क्षमता प्रदर्शित की है, अर्थात् केवल कुछ इनपुट-आउटपुट उदाहरणों से नए कार्यों को अनुकूलित करने की क्षमता, बिना पैरामीटर अपडेट के। यह घटना विभिन्न डेटासेट और कार्य प्रारूपों में व्यापक है, और आधुनिक LLM वर्कफ़्लो का मूल है।
- सैद्धांतिक अंतराल: हालांकि ICL को व्यापक रूप से एक निहित बेयेसियन अनुमान के रूप में माना जाता है, मौजूदा सिद्धांत ICL और बेयेसियन अनुमान के बीच सैद्धांतिक संबंध का पूरी तरह से उपयोग नहीं करता है
- व्यावहारिक आवश्यकता: आधुनिक LLM परिनियोजन सामान्य बाधाओं का सामना करता है - अनुमान समय पर छोटे संकेत, विषम कार्य प्रकारों को कवर करने वाली अपस्ट्रीम पूर्वप्रशिक्षण, सीमित नमूना भविष्यवाणी त्रुटि के विशिष्ट विश्लेषण की आवश्यकता है
- सैद्धांतिक रिक्तता: मौजूदा सिद्धांत में ऐसा सिद्धांत नहीं है जो (i) पूर्वप्रशिक्षण स्केल N और संकेत लंबाई p को संयुक्त रूप से युग्मित करे, (ii) विषम कार्य प्रकारों के मिश्रण को समायोजित करे
- प्रारंभिक सिद्धांत मुख्य रूप से विशिष्ट आर्किटेक्चर और सेटिंग्स में सूचना-सैद्धांतिक विश्लेषण या गैर-पैरामीट्रिक दरों पर केंद्रित थे
- p और N के संयुक्त प्रभाव को पूरी तरह से कैप्चर नहीं किया
- मिश्रित कार्य सेटिंग में ICL व्यवहार के सैद्धांतिक स्पष्टीकरण की कमी
- सिद्धांतपूर्ण जोखिम अपघटन: ICL जोखिम का ऑर्थोगोनल अपघटन प्रस्तावित करता है: ICL risk = Bayes Gap + Posterior Variance
- गैर-स्पर्शोन्मुख ऊपरी सीमा: समान ध्यान Transformer के लिए बेयेस गैप की गैर-स्पर्शोन्मुख ऊपरी सीमा प्रदान करता है, पूर्वप्रशिक्षण संकेत संख्या N और कॉन्टेक्स्ट लंबाई p के युग्मित निर्भरता को स्पष्ट करता है:
E[RBG(Mθ^)]≲m−2α/deff+pNm+N1
- कार्य पहचान सिद्धांत: साबित करता है कि कार्य मिश्रण में, पश्च वितरण कार्य सूचकांक पर घातीय रूप से तेजी से केंद्रित होता है, ICL वास्तविक कार्य के इष्टतम एल्गोरिथ्म में तेजी से परिवर्तित होता है
- वितरण बदलाव स्थिरता: इनपुट वितरण बदलाव के तहत स्थिरता को चिह्नित करता है, साबित करता है कि बेयेस गैप वितरण के बीच Wasserstein दूरी के अनुपात में बढ़ता है
पेपर एक मेटा-लर्निंग फ्रेमवर्क पर विचार करता है जो T विभिन्न कार्य प्रकारों के सीमित मिश्रण को समायोजित करता है:
संकेत जनरेशन प्रक्रिया:
- कार्य प्रकार नमूना: I∼Categorical(α)
- I=i दिया गया, कार्य फ़ंक्शन नमूना: f∼PFi
- k=1,…,p+1 के लिए:
- इनपुट नमूना: xk∼i.i.d.PX
- आउटपुट जनरेट करें: yk=f(xk)+εk
- लंबाई p का संकेत बनाएं: P=(x1,y1,…,xp,yp,xp+1)
समान ध्यान Transformer:
Mθ(Pk):=ρθ(k1∑i=1kϕθ(xi,yi),xk+1)
जहां:
- विशेषता एनकोडर ϕθ:U→Δm−1: गहराई Dϕ का फीडफॉरवर्ड ReLU नेटवर्क, पुनः-सामान्यीकरण परत के साथ
- डिकोडर ρθ:Δm−1×C→R: गहराई Dρ का फीडफॉरवर्ड ReLU नेटवर्क
ICL जोखिम न्यूनीकरण बेयेसियन जोखिम न्यूनीकरण के बराबर है, इष्टतम भविष्यवक्ता पश्च माध्य है:
MBayes(Pk):=EI∼PI∣DkEf∼PFI∣Dk[f(xk+1)]
- क्रमपरिवर्तन अपरिवर्तनीयता सैद्धांतिक आधार: बेयेसियन भविष्यवक्ता की क्रमपरिवर्तन अपरिवर्तनीयता साबित करता है, समान ध्यान आर्किटेक्चर के लिए सैद्धांतिक समर्थन प्रदान करता है
- अनुक्रमिक लर्निंग सिद्धांत अनुप्रयोग: संकेत के भीतर p कॉन्टेक्स्ट नमूनों को संभालने के लिए अनुक्रमिक लर्निंग सिद्धांत का उपयोग करता है, N मेटा-प्रशिक्षण संकेतों को संभालने के लिए पारंपरिक लर्निंग सिद्धांत के साथ संयुक्त
- इष्टतम परिवहन सन्निकटन सिद्धांत: नरम हिस्टोग्राम पर आधारित विभाजन इकाइयों का निर्माण करता है संकेत को एनकोड करने के लिए, असतत 1-Wasserstein मेट्रिक पर McShane विस्तार के माध्यम से बेयेसियन भविष्यवक्ता को अनुमानित करता है
पेपर मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, निम्नलिखित सेटअप का उपयोग करता है:
धारणा शर्तें:
- धारणा 1: बंधे हुए कार्य फ़ंक्शन ∣f(x)∣≤Bf
- धारणा 2: बंधे हुए इनपुट और सशर्त स्वतंत्रता ∥x∥2≤BX
नेटवर्क स्केल:
- विशेषता एनकोडर: S(ϕθ)≤Cϕm1/deff
- डिकोडर: S(ρθ)≤Cρm1/2
ICL जोखिम को परिभाषित किया गया है:
R(M)=p1∑k=1pEI,f,Dk,xk+1[(f(xk+1)−M(Pk))2]
प्रमेय 1 (जोखिम अपघटन):
R(M)=RBG(M)+RPV
जहां:
- बेयेस गैप: RBG(M):=p1∑k=1pE[(M(Pk)−MBayes(Pk))2]
- पश्च विचरण: RPV:=p1∑k=1pE[Varf∼P(f∣Dk)(f(xk+1))]
प्रमेय 2 (बेयेस गैप ऊपरी सीमा):
Hölder शर्त के तहत, समान ध्यान Transformer के लिए:
E[RBG(Mθ^)]≲m−2α/deff+pNmpolylog(pN)+N1polylog(pN)
m∗≍(pN)deff/(deff+2α) चुनने से:
E[RBG(Mθ^)]≲(pN)−2α/(deff+2α)+N−1
प्रमेय 3 (पश्च विचरण विश्लेषण):
लॉग संभावना अनुपात शर्त के तहत:
EDk,x∣I=i∗[Varf∣Dk{f(x)}]≤infMsupf∈Fi∗E[(f(xk+1)−M(Pk))2∣f]+5Bf2(αi∗1−αi∗e−Dmink/2+(T−1)e−Ck)
- इष्टतम मेटा-एल्गोरिथ्म चयन: Transformer पूर्वप्रशिक्षण के दौरान इष्टतम मेटा-एल्गोरिथ्म चुनता है, दर ∝m/(pN) p और N के संयुक्त प्रभाव को स्पष्ट करता है
- घातीय कार्य पहचान: मिश्रित कार्य सेटिंग में, कार्य पश्च वास्तविक कार्य सूचकांक पर घातीय रूप से तेजी से केंद्रित होता है, अपरिवर्तनीय त्रुटि वास्तविक कार्य के मिनिमैक्स जोखिम में परिवर्तित होती है
- वितरण बदलाव स्थिरता: इनपुट वितरण बदलाव के तहत, बेयेस गैप Wasserstein दूरी के अनुपात में बढ़ता है, जबकि पश्च विचरण लक्ष्य डोमेन में आंतरिक गुण बनाए रखता है
- Xie et al. (2022): छिपा हुआ मार्कोव मॉडल शैली दस्तावेज़ मिश्रण Transformer को पश्च भविष्यवाणी करने के लिए सक्षम बनाता है
- Panwar et al. (2024): Transformer कार्य मिश्रण में बेयेसियन अनुमान की नकल करता है
- Wang et al. (2023): LLM को अव्यक्त चर भविष्यवक्ता के रूप में देखता है
- von Oswald et al. (2023): Transformer आगे पास में ढाल वंश शैली अपडेट लागू करता है
- Kirsch et al. (2022): मॉडल को कार्य-भर में सामान्य कॉन्टेक्स्ट एल्गोरिथ्म निष्पादित करने के लिए मेटा-प्रशिक्षित किया जा सकता है
- ICL को कड़ाई से बेयेसियन अनुमान के रूप में देखा जा सकता है, एक एकीकृत सैद्धांतिक दृष्टिकोण प्रदान करता है
- बेयेस गैप और पश्च विचरण का ऑर्थोगोनल अपघटन ICL त्रुटि के विभिन्न स्रोतों को प्रकट करता है
- Transformer इष्टतम मेटा-एल्गोरिथ्म सीखने और वास्तविक कार्य के लिए तेजी से अनुकूलित करने में सक्षम है
- आर्किटेक्चर सीमा: विश्लेषण क्रमपरिवर्तन अपरिवर्तनीयता द्वारा प्रेरित समान ध्यान Transformer पर केंद्रित है
- धारणा शर्तें: Hölder शर्त और बंधापन धारणा की आवश्यकता है
- कार्य प्रकार: मुख्य रूप से प्रतिगमन कार्यों के मिश्रण पर विचार करता है
- अधिक जटिल ध्यान तंत्र तक विस्तार
- अनुक्रमिक निर्भरता महत्वपूर्ण सेटिंग्स पर विचार
- गैर-समान ध्यान आर्किटेक्चर के तहत सैद्धांतिक गारंटी का अनुसंधान
- सैद्धांतिक कठोरता: ICL का पहला कड़ा बेयेसियन सैद्धांतिक विश्लेषण प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है
- व्यावहारिक अंतर्दृष्टि: जोखिम अपघटन ICL प्रदर्शन की बाधाओं को समझने के लिए स्पष्ट फ्रेमवर्क प्रदान करता है
- तकनीकी नवाचार: अनुक्रमिक लर्निंग सिद्धांत और इष्टतम परिवहन सिद्धांत को चतुराई से जोड़ता है
- एकीकृत दृष्टिकोण: पूर्वप्रशिक्षण और अनुमान समय व्यवहार को बेयेसियन फ्रेमवर्क के तहत एकीकृत करता है
- आर्किटेक्चर सीमा: केवल समान ध्यान Transformer का विश्लेषण करता है, वास्तविक उपयोग किए जाने वाले आर्किटेक्चर से अंतर है
- प्रायोगिक सत्यापन अनुपस्थित: शुद्ध सैद्धांतिक कार्य, अनुभवजन्य सत्यापन की कमी
- कठोर धारणाएं: Hölder शर्त आदि धारणाएं व्यवहार में संतुष्ट नहीं हो सकती हैं
- कार्य सीमा: मुख्य रूप से प्रतिगमन कार्यों पर केंद्रित, वर्गीकरण आदि अन्य कार्यों पर प्रयोज्यता अस्पष्ट है
- सैद्धांतिक योगदान: ICL सैद्धांतिक अनुसंधान के लिए महत्वपूर्ण आधार स्थापित करता है
- निर्देशक महत्व: व्यावहारिक प्रणाली डिजाइन के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है
- अनुसंधान प्रेरणा: बाद के सैद्धांतिक और अनुभवजन्य अनुसंधान के लिए नई दिशाएं खोलता है
- सैद्धांतिक अनुसंधान: ICL तंत्र समझ के लिए गणितीय आधार प्रदान करता है
- प्रणाली डिजाइन: पूर्वप्रशिक्षण डेटा स्केल और कॉन्टेक्स्ट लंबाई चयन को निर्देशित करता है
- प्रदर्शन विश्लेषण: ICL प्रणाली के प्रदर्शन की बाधाओं का विश्लेषण करने में सहायता करता है
पेपर संबंधित कार्यों के बड़े संदर्भ उद्धृत करता है, जिसमें शामिल हैं:
- Brown et al. (2020): GPT-3 का अग्रणी कार्य
- Xie et al. (2022): ICL निहित बेयेसियन अनुमान के रूप में
- von Oswald et al. (2023): Transformer संदर्भ ढाल वंश सीखता है
- Rakhlin et al. (2010,2015): अनुक्रमिक लर्निंग सिद्धांत आधार
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का सैद्धांतिक पेपर है जो ICL तंत्र को समझने के लिए महत्वपूर्ण गणितीय आधार प्रदान करता है। आर्किटेक्चर और प्रायोगिक पहलुओं में सीमाओं के बावजूद, इसका सैद्धांतिक योगदान और अंतर्दृष्टि इस क्षेत्र के लिए महत्वपूर्ण मूल्य रखते हैं। पेपर की कठोरता और नवाचार इसे ICL सैद्धांतिक अनुसंधान का एक महत्वपूर्ण मील का पत्थर बनाते हैं।