2025-11-24T16:43:16.687108

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Wakayama, Suzuki

This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.

academic

इन-कॉन्टेक्स्ट लर्निंग प्रमाणित रूप से बेयेसियन अनुमान है: मेटा-लर्निंग के लिए एक सामान्यीकरण सिद्धांत

मूल जानकारी

पेपर ID: 2510.10981
शीर्षक: In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
लेखक: Tomoya Wakayama (RIKEN AIP), Taiji Suzuki (The University of Tokyo, RIKEN AIP)
वर्गीकरण: stat.ML cs.LG
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10981v1

सारांश

यह पेपर इन-कॉन्टेक्स्ट लर्निंग (ICL) के लिए एक सीमित नमूना सांख्यिकीय सिद्धांत स्थापित करता है, जो विभिन्न कार्य प्रकारों के मिश्रण को समायोजित करने वाली मेटा-लर्निंग फ्रेमवर्क के भीतर विश्लेषण करता है। पेपर एक सिद्धांतपूर्ण जोखिम अपघटन प्रस्तुत करता है, जो कुल ICL जोखिम को दो ऑर्थोगोनल घटकों में विभाजित करता है: बेयेस गैप (Bayes Gap) और पश्च विचरण (Posterior Variance)। बेयेस गैप प्रशिक्षित मॉडल द्वारा बेयेसियन इष्टतम कॉन्टेक्स्ट भविष्यवक्ता के सन्निकटन की मात्रा निर्धारित करता है। समान ध्यान Transformer के लिए, पेपर इस गैप के लिए एक गैर-स्पर्शोन्मुख ऊपरी सीमा प्राप्त करता है, जो पूर्वप्रशिक्षण संकेत संख्या और कॉन्टेक्स्ट लंबाई पर निर्भरता को स्पष्ट करता है। पश्च विचरण आंतरिक कार्य अनिश्चितता का प्रतिनिधित्व करने वाला मॉडल-अज्ञेयवादी जोखिम है। मुख्य खोज यह है कि यह पद केवल वास्तविक अंतर्निहित कार्य की कठिनाई द्वारा निर्धारित किया जाता है, जबकि कार्य मिश्रण से आने वाली अनिश्चितता केवल कुछ कॉन्टेक्स्ट नमूनों के साथ घातीय रूप से तेजी से गायब हो जाती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

GPT-3 के बाद से, बड़े भाषा मॉडल ने उल्लेखनीय इन-कॉन्टेक्स्ट लर्निंग क्षमता प्रदर्शित की है, अर्थात् केवल कुछ इनपुट-आउटपुट उदाहरणों से नए कार्यों को अनुकूलित करने की क्षमता, बिना पैरामीटर अपडेट के। यह घटना विभिन्न डेटासेट और कार्य प्रारूपों में व्यापक है, और आधुनिक LLM वर्कफ़्लो का मूल है।

अनुसंधान प्रेरणा

सैद्धांतिक अंतराल: हालांकि ICL को व्यापक रूप से एक निहित बेयेसियन अनुमान के रूप में माना जाता है, मौजूदा सिद्धांत ICL और बेयेसियन अनुमान के बीच सैद्धांतिक संबंध का पूरी तरह से उपयोग नहीं करता है
व्यावहारिक आवश्यकता: आधुनिक LLM परिनियोजन सामान्य बाधाओं का सामना करता है - अनुमान समय पर छोटे संकेत, विषम कार्य प्रकारों को कवर करने वाली अपस्ट्रीम पूर्वप्रशिक्षण, सीमित नमूना भविष्यवाणी त्रुटि के विशिष्ट विश्लेषण की आवश्यकता है
सैद्धांतिक रिक्तता: मौजूदा सिद्धांत में ऐसा सिद्धांत नहीं है जो (i) पूर्वप्रशिक्षण स्केल N और संकेत लंबाई p को संयुक्त रूप से युग्मित करे, (ii) विषम कार्य प्रकारों के मिश्रण को समायोजित करे

मौजूदा विधियों की सीमाएं

प्रारंभिक सिद्धांत मुख्य रूप से विशिष्ट आर्किटेक्चर और सेटिंग्स में सूचना-सैद्धांतिक विश्लेषण या गैर-पैरामीट्रिक दरों पर केंद्रित थे
p और N के संयुक्त प्रभाव को पूरी तरह से कैप्चर नहीं किया
मिश्रित कार्य सेटिंग में ICL व्यवहार के सैद्धांतिक स्पष्टीकरण की कमी

मुख्य योगदान

सिद्धांतपूर्ण जोखिम अपघटन: ICL जोखिम का ऑर्थोगोनल अपघटन प्रस्तावित करता है: ICL risk = Bayes Gap + Posterior Variance
गैर-स्पर्शोन्मुख ऊपरी सीमा: समान ध्यान Transformer के लिए बेयेस गैप की गैर-स्पर्शोन्मुख ऊपरी सीमा प्रदान करता है, पूर्वप्रशिक्षण संकेत संख्या N और कॉन्टेक्स्ट लंबाई p के युग्मित निर्भरता को स्पष्ट करता है: $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN} + \frac{1}{N}$
कार्य पहचान सिद्धांत: साबित करता है कि कार्य मिश्रण में, पश्च वितरण कार्य सूचकांक पर घातीय रूप से तेजी से केंद्रित होता है, ICL वास्तविक कार्य के इष्टतम एल्गोरिथ्म में तेजी से परिवर्तित होता है
वितरण बदलाव स्थिरता: इनपुट वितरण बदलाव के तहत स्थिरता को चिह्नित करता है, साबित करता है कि बेयेस गैप वितरण के बीच Wasserstein दूरी के अनुपात में बढ़ता है

विधि विवरण

कार्य परिभाषा

पेपर एक मेटा-लर्निंग फ्रेमवर्क पर विचार करता है जो T विभिन्न कार्य प्रकारों के सीमित मिश्रण को समायोजित करता है:

संकेत जनरेशन प्रक्रिया:

कार्य प्रकार नमूना: $I \sim \text{Categorical}(\alpha)$
$I=i$ दिया गया, कार्य फ़ंक्शन नमूना: $f \sim P_{F_i}$
$k=1,\ldots,p+1$ $k = 1, \dots, p + 1$ के लिए:
- इनपुट नमूना: $x_k \overset{i.i.d.}{\sim} P_X$
- आउटपुट जनरेट करें: $y_k = f(x_k) + \varepsilon_k$
लंबाई p का संकेत बनाएं: $P = (x_1,y_1,\ldots,x_p,y_p,x_{p+1})$

मॉडल आर्किटेक्चर

समान ध्यान Transformer: $M_\theta(P^k) := \rho_\theta\left(\frac{1}{k}\sum_{i=1}^k \phi_\theta(x_i,y_i), x_{k+1}\right)$

जहां:

विशेषता एनकोडर $\phi_\theta: U \to \Delta_{m-1}$ : गहराई $D_\phi$ का फीडफॉरवर्ड ReLU नेटवर्क, पुनः-सामान्यीकरण परत के साथ
डिकोडर $\rho_\theta: \Delta_{m-1} \times C \to \mathbb{R}$ : गहराई $D_\rho$ का फीडफॉरवर्ड ReLU नेटवर्क

बेयेसियन इष्टतम भविष्यवक्ता

ICL जोखिम न्यूनीकरण बेयेसियन जोखिम न्यूनीकरण के बराबर है, इष्टतम भविष्यवक्ता पश्च माध्य है: $M_{\text{Bayes}}(P^k) := E_{I\sim P_{I|D^k}} E_{f\sim P_{F_I|D^k}}[f(x_{k+1})]$

तकनीकी नवाचार बिंदु

क्रमपरिवर्तन अपरिवर्तनीयता सैद्धांतिक आधार: बेयेसियन भविष्यवक्ता की क्रमपरिवर्तन अपरिवर्तनीयता साबित करता है, समान ध्यान आर्किटेक्चर के लिए सैद्धांतिक समर्थन प्रदान करता है
अनुक्रमिक लर्निंग सिद्धांत अनुप्रयोग: संकेत के भीतर p कॉन्टेक्स्ट नमूनों को संभालने के लिए अनुक्रमिक लर्निंग सिद्धांत का उपयोग करता है, N मेटा-प्रशिक्षण संकेतों को संभालने के लिए पारंपरिक लर्निंग सिद्धांत के साथ संयुक्त
इष्टतम परिवहन सन्निकटन सिद्धांत: नरम हिस्टोग्राम पर आधारित विभाजन इकाइयों का निर्माण करता है संकेत को एनकोड करने के लिए, असतत 1-Wasserstein मेट्रिक पर McShane विस्तार के माध्यम से बेयेसियन भविष्यवक्ता को अनुमानित करता है

प्रायोगिक सेटअप

सैद्धांतिक विश्लेषण फ्रेमवर्क

पेपर मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, निम्नलिखित सेटअप का उपयोग करता है:

धारणा शर्तें:

धारणा 1: बंधे हुए कार्य फ़ंक्शन $|f(x)| \leq B_f$
धारणा 2: बंधे हुए इनपुट और सशर्त स्वतंत्रता $\|x\|_2 \leq B_X$

नेटवर्क स्केल:

विशेषता एनकोडर: $S(\phi_\theta) \leq C_\phi m^{1/d_{eff}}$
डिकोडर: $S(\rho_\theta) \leq C_\rho m^{1/2}$

मूल्यांकन मेट्रिक्स

ICL जोखिम को परिभाषित किया गया है: $R(M) = \frac{1}{p}\sum_{k=1}^p E_{I,f,D^k,x_{k+1}}\left[(f(x_{k+1}) - M(P^k))^2\right]$

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

प्रमेय 1 (जोखिम अपघटन): $R(M) = R_{BG}(M) + R_{PV}$ जहां:

बेयेस गैप: $R_{BG}(M) := \frac{1}{p}\sum_{k=1}^p E[(M(P^k) - M_{\text{Bayes}}(P^k))^2]$
पश्च विचरण: $R_{PV} := \frac{1}{p}\sum_{k=1}^p E[\text{Var}_{f\sim P(f|D^k)}(f(x_{k+1}))]$

प्रमेय 2 (बेयेस गैप ऊपरी सीमा): Hölder शर्त के तहत, समान ध्यान Transformer के लिए: $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN}\text{polylog}(pN) + \frac{1}{N}\text{polylog}(pN)$

$m^* \asymp (pN)^{d_{eff}/(d_{eff}+2\alpha)}$ चुनने से: $E[R_{BG}(M_{\hat{\theta}})] \lesssim (pN)^{-2\alpha/(d_{eff}+2\alpha)} + N^{-1}$

प्रमेय 3 (पश्च विचरण विश्लेषण): लॉग संभावना अनुपात शर्त के तहत: $E_{D^k,x|I=i^*}[\text{Var}_{f|D^k}\{f(x)\}] \leq \inf_M \sup_{f\in F_{i^*}} E[(f(x_{k+1}) - M(P^k))^2|f] + 5B_f^2\left(\frac{1-\alpha_{i^*}}{\alpha_{i^*}}e^{-D_{\min}k/2} + (T-1)e^{-Ck}\right)$

मुख्य निष्कर्ष

इष्टतम मेटा-एल्गोरिथ्म चयन: Transformer पूर्वप्रशिक्षण के दौरान इष्टतम मेटा-एल्गोरिथ्म चुनता है, दर $\propto m/(pN)$ p और N के संयुक्त प्रभाव को स्पष्ट करता है
घातीय कार्य पहचान: मिश्रित कार्य सेटिंग में, कार्य पश्च वास्तविक कार्य सूचकांक पर घातीय रूप से तेजी से केंद्रित होता है, अपरिवर्तनीय त्रुटि वास्तविक कार्य के मिनिमैक्स जोखिम में परिवर्तित होती है
वितरण बदलाव स्थिरता: इनपुट वितरण बदलाव के तहत, बेयेस गैप Wasserstein दूरी के अनुपात में बढ़ता है, जबकि पश्च विचरण लक्ष्य डोमेन में आंतरिक गुण बनाए रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ICL को कड़ाई से बेयेसियन अनुमान के रूप में देखा जा सकता है, एक एकीकृत सैद्धांतिक दृष्टिकोण प्रदान करता है
बेयेस गैप और पश्च विचरण का ऑर्थोगोनल अपघटन ICL त्रुटि के विभिन्न स्रोतों को प्रकट करता है
Transformer इष्टतम मेटा-एल्गोरिथ्म सीखने और वास्तविक कार्य के लिए तेजी से अनुकूलित करने में सक्षम है

सीमाएं

आर्किटेक्चर सीमा: विश्लेषण क्रमपरिवर्तन अपरिवर्तनीयता द्वारा प्रेरित समान ध्यान Transformer पर केंद्रित है
धारणा शर्तें: Hölder शर्त और बंधापन धारणा की आवश्यकता है
कार्य प्रकार: मुख्य रूप से प्रतिगमन कार्यों के मिश्रण पर विचार करता है

भविष्य की दिशाएं

अधिक जटिल ध्यान तंत्र तक विस्तार
अनुक्रमिक निर्भरता महत्वपूर्ण सेटिंग्स पर विचार
गैर-समान ध्यान आर्किटेक्चर के तहत सैद्धांतिक गारंटी का अनुसंधान

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: ICL का पहला कड़ा बेयेसियन सैद्धांतिक विश्लेषण प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है
व्यावहारिक अंतर्दृष्टि: जोखिम अपघटन ICL प्रदर्शन की बाधाओं को समझने के लिए स्पष्ट फ्रेमवर्क प्रदान करता है
तकनीकी नवाचार: अनुक्रमिक लर्निंग सिद्धांत और इष्टतम परिवहन सिद्धांत को चतुराई से जोड़ता है
एकीकृत दृष्टिकोण: पूर्वप्रशिक्षण और अनुमान समय व्यवहार को बेयेसियन फ्रेमवर्क के तहत एकीकृत करता है

कमियां

आर्किटेक्चर सीमा: केवल समान ध्यान Transformer का विश्लेषण करता है, वास्तविक उपयोग किए जाने वाले आर्किटेक्चर से अंतर है
प्रायोगिक सत्यापन अनुपस्थित: शुद्ध सैद्धांतिक कार्य, अनुभवजन्य सत्यापन की कमी
कठोर धारणाएं: Hölder शर्त आदि धारणाएं व्यवहार में संतुष्ट नहीं हो सकती हैं
कार्य सीमा: मुख्य रूप से प्रतिगमन कार्यों पर केंद्रित, वर्गीकरण आदि अन्य कार्यों पर प्रयोज्यता अस्पष्ट है

प्रभाव

सैद्धांतिक योगदान: ICL सैद्धांतिक अनुसंधान के लिए महत्वपूर्ण आधार स्थापित करता है
निर्देशक महत्व: व्यावहारिक प्रणाली डिजाइन के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है
अनुसंधान प्रेरणा: बाद के सैद्धांतिक और अनुभवजन्य अनुसंधान के लिए नई दिशाएं खोलता है

प्रयोज्य परिदृश्य

सैद्धांतिक अनुसंधान: ICL तंत्र समझ के लिए गणितीय आधार प्रदान करता है
प्रणाली डिजाइन: पूर्वप्रशिक्षण डेटा स्केल और कॉन्टेक्स्ट लंबाई चयन को निर्देशित करता है
प्रदर्शन विश्लेषण: ICL प्रणाली के प्रदर्शन की बाधाओं का विश्लेषण करने में सहायता करता है

संदर्भ

पेपर संबंधित कार्यों के बड़े संदर्भ उद्धृत करता है, जिसमें शामिल हैं:

Brown et al. (2020): GPT-3 का अग्रणी कार्य
Xie et al. (2022): ICL निहित बेयेसियन अनुमान के रूप में
von Oswald et al. (2023): Transformer संदर्भ ढाल वंश सीखता है
Rakhlin et al. (2010,2015): अनुक्रमिक लर्निंग सिद्धांत आधार

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का सैद्धांतिक पेपर है जो ICL तंत्र को समझने के लिए महत्वपूर्ण गणितीय आधार प्रदान करता है। आर्किटेक्चर और प्रायोगिक पहलुओं में सीमाओं के बावजूद, इसका सैद्धांतिक योगदान और अंतर्दृष्टि इस क्षेत्र के लिए महत्वपूर्ण मूल्य रखते हैं। पेपर की कठोरता और नवाचार इसे ICL सैद्धांतिक अनुसंधान का एक महत्वपूर्ण मील का पत्थर बनाते हैं।

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

इन-कॉन्टेक्स्ट लर्निंग प्रमाणित रूप से बेयेसियन अनुमान है: मेटा-लर्निंग के लिए एक सामान्यीकरण सिद्धांत

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

अनुसंधान प्रेरणा

मौजूदा विधियों की सीमाएं

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

बेयेसियन इष्टतम भविष्यवक्ता

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

सैद्धांतिक विश्लेषण फ्रेमवर्क

मूल्यांकन मेट्रिक्स

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

मुख्य निष्कर्ष

संबंधित कार्य

ICL बेयेसियन अनुमान के रूप में

ICL मेटा-लर्निंग के रूप में

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

प्रयोज्य परिदृश्य

संदर्भ