2025-11-24T16:43:16.687108

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Wakayama, Suzuki

This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.

academic

التعلم في السياق هو استدلال بايزي قابل للإثبات: نظرية التعميم للتعلم الفوقي

المعلومات الأساسية

معرّف الورقة: 2510.10981
العنوان: In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
المؤلفون: Tomoya Wakayama (RIKEN AIP)، Taiji Suzuki (جامعة طوكيو، RIKEN AIP)
التصنيف: stat.ML cs.LG
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10981v1

الملخص

تؤسس هذه الورقة نظرية إحصائية ذات عينة محدودة للتعلم في السياق (ICL)، محللة ضمن إطار التعلم الفوقي الذي يستوعب مزيجاً من أنواع المهام المتعددة. تقدم الورقة تحللاً للمخاطر منطقياً، حيث تقسم إجمالي مخاطر ICL إلى مكونين متعامدين: فجوة بايز (Bayes Gap) والتباين اللاحق (Posterior Variance). تحدد فجوة بايز مدى تقريب النموذج المدرب للمتنبئ الأمثل في السياق بايزياً. بالنسبة لمحول الانتباه الموحد، تشتق الورقة حداً أعلى غير متقارب لهذه الفجوة، موضحة بوضوح الاعتماد على عدد الأمثلة المدربة مسبقاً وطول السياق. التباين اللاحق هو مخاطر مستقلة عن النموذج تمثل عدم اليقين الكامن في المهمة. الاكتشاف الرئيسي هو أن هذا الحد يتحدد فقط بصعوبة المهام الكامنة الحقيقية، بينما يتلاشى عدم اليقين الناشئ من مزيج المهام بسرعة أسية مع عدد قليل من عينات السياق.

الخلفية البحثية والدافع

خلفية المشكلة

منذ GPT-3، أظهرت نماذج اللغة الكبيرة قدرات ملحوظة على التعلم في السياق، أي التكيف مع مهام جديدة من خلال عدد قليل من أمثلة الإدخال والإخراج فقط، دون تحديثات المعاملات. تظهر هذه الظاهرة على نطاق واسع عبر مجموعات البيانات وتنسيقات المهام المختلفة، وهي أساسية لسير عمل نماذج اللغة الحديثة.

الدافع البحثي

النقص النظري: على الرغم من الاعتراف الواسع بـ ICL كشكل من أشكال الاستدلال البايزي الضمني، فإن النظرية الحالية لا تستفيد بشكل كامل من العلاقة النظرية بين ICL والاستدلال البايزي
الاحتياجات العملية: يواجه نشر نماذج اللغة الحديثة قيوداً مشتركة - أمثلة قصيرة في وقت الاستدلال، وتغطية ما قبل التدريب للأنواع المختلفة من المهام، مما يتطلب تحليلاً محدداً لخطأ التنبؤ ذي العينة المحدودة
الفراغ النظري: تفتقر النظرية الحالية إلى نظرية إحصائية قادرة على (i) ربط حجم ما قبل التدريب N وطول الأمثلة p بشكل مشترك، (ii) استيعاب مزيج من أنواع المهام غير المتجانسة

قيود الطرق الموجودة

ركزت النظريات المبكرة في الغالب على التحليل النظري للمعلومات أو المعدلات غير البارامترية في إعدادات وهياكل معينة
فشلت في التقاط التأثير المشترك الكامل لـ p و N
تفتقر إلى شرح نظري لسلوك ICL في إعدادات المهام المختلطة

المساهمات الأساسية

تحليل المخاطر المنطقي: اقتراح تحليل متعامد لمخاطر ICL: مخاطر ICL = فجوة بايز + التباين اللاحق
حدود غير متقاربة: توفير حد أعلى غير متقارب لفجوة بايز لمحول الانتباه الموحد، مع توضيح العلاقة المشتركة بين عدد الأمثلة المدربة مسبقاً N وطول السياق p: $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN} + \frac{1}{N}$
نظرية تحديد المهام: إثبات أنه في مزيج المهام، يتركز التوزيع اللاحق على فهرس المهمة بسرعة أسية على المهمة الحقيقية، ويتقارب ICL بسرعة إلى الخوارزمية المثلى للمهمة الحقيقية
استقرار التحول التوزيعي: توصيف الاستقرار تحت تحول توزيع الإدخال، مع إثبات أن فجوة بايز تزداد بما يتناسب مع مسافة Wasserstein بين التوزيعات

شرح الطريقة

تعريف المهام

تنظر الورقة في إطار التعلم الفوقي يستوعب مزيجاً محدوداً من T نوع مهمة مختلف:

عملية توليد الأمثلة:

أخذ عينة من نوع المهمة: $I \sim \text{Categorical}(\alpha)$
بالنظر إلى $I=i$ ، أخذ عينة من دالة المهمة: $f \sim P_{F_i}$
لـ $k=1,\ldots,p+1$ $k = 1, \dots, p + 1$ :
- أخذ عينة من الإدخال: $x_k \overset{i.i.d.}{\sim} P_X$
- توليد الإخراج: $y_k = f(x_k) + \varepsilon_k$
تشكيل مثال بطول p: $P = (x_1,y_1,\ldots,x_p,y_p,x_{p+1})$

معمارية النموذج

محول الانتباه الموحد: $M_\theta(P^k) := \rho_\theta\left(\frac{1}{k}\sum_{i=1}^k \phi_\theta(x_i,y_i), x_{k+1}\right)$

حيث:

مشفر الميزات $\phi_\theta: U \to \Delta_{m-1}$ : شبكة ReLU تغذية أمامية بعمق $D_\phi$ ، متبوعة بطبقة إعادة تطبيع
فك التشفير $\rho_\theta: \Delta_{m-1} \times C \to \mathbb{R}$ : شبكة ReLU تغذية أمامية بعمق $D_\rho$

المتنبئ الأمثل بايزياً

تقليل مخاطر ICL يعادل تقليل المخاطر البايزية، والمتنبئ الأمثل هو المتوسط اللاحق: $M_{\text{Bayes}}(P^k) := E_{I\sim P_{I|D^k}} E_{f\sim P_{F_I|D^k}}[f(x_{k+1})]$

نقاط الابتكار التقني

أساس نظرية الثبات تحت التبديل: إثبات ثبات المتنبئ البايزي تحت التبديل، مما يوفر دعماً نظرياً لمعمارية الانتباه الموحد
تطبيق نظرية التعلم المتسلسل: استخدام نظرية التعلم المتسلسل للتعامل مع p عينة سياق ضمن الأمثلة، مع دمج نظرية التعلم التقليدية للتعامل مع N مثال تدريب فوقي
نظرية التقريب بالنقل الأمثل: بناء وحدات تقسيم قائمة على الرسم البياني الناعم لترميز الأمثلة، مع تقريب المتنبئ البايزي من خلال امتداد McShane على مقياس Wasserstein 1 المنفصل

إعداد التجارب

إطار التحليل النظري

توفر الورقة في المقام الأول تحليلاً نظرياً، مع اعتماد الإعدادات التالية:

الافتراضات:

الافتراض 1: دوال مهام محدودة $|f(x)| \leq B_f$
الافتراض 2: إدخالات محدودة واستقلالية شرطية $\|x\|_2 \leq B_X$

حجم الشبكة:

مشفر الميزات: $S(\phi_\theta) \leq C_\phi m^{1/d_{eff}}$
فك التشفير: $S(\rho_\theta) \leq C_\rho m^{1/2}$

مؤشرات التقييم

يُعرّف مخاطر ICL على النحو التالي: $R(M) = \frac{1}{p}\sum_{k=1}^p E_{I,f,D^k,x_{k+1}}\left[(f(x_{k+1}) - M(P^k))^2\right]$

نتائج التجارب

النتائج النظرية الرئيسية

النظرية 1 (تحليل المخاطر): $R(M) = R_{BG}(M) + R_{PV}$ حيث:

فجوة بايز: $R_{BG}(M) := \frac{1}{p}\sum_{k=1}^p E[(M(P^k) - M_{\text{Bayes}}(P^k))^2]$
التباين اللاحق: $R_{PV} := \frac{1}{p}\sum_{k=1}^p E[\text{Var}_{f\sim P(f|D^k)}(f(x_{k+1}))]$

النظرية 2 (حد فجوة بايز): تحت شروط Hölder، لمحول الانتباه الموحد: $E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN}\text{polylog}(pN) + \frac{1}{N}\text{polylog}(pN)$

باختيار $m^* \asymp (pN)^{d_{eff}/(d_{eff}+2\alpha)}$ نحصل على: $E[R_{BG}(M_{\hat{\theta}})] \lesssim (pN)^{-2\alpha/(d_{eff}+2\alpha)} + N^{-1}$

النظرية 3 (تحليل التباين اللاحق): تحت شروط نسبة الاحتمالية اللوغاريتمية: $E_{D^k,x|I=i^*}[\text{Var}_{f|D^k}\{f(x)\}] \leq \inf_M \sup_{f\in F_{i^*}} E[(f(x_{k+1}) - M(P^k))^2|f] + 5B_f^2\left(\frac{1-\alpha_{i^*}}{\alpha_{i^*}}e^{-D_{\min}k/2} + (T-1)e^{-Ck}\right)$

الاكتشافات الرئيسية

اختيار الخوارزمية الفوقية الأمثل: يختار محول الانتباه الخوارزمية الفوقية الأمثل أثناء ما قبل التدريب، حيث يوضح المعدل $\propto m/(pN)$ التأثير المشترك لـ p و N
تحديد المهام بسرعة أسية: في إعداد المهام المختلطة، يتركز التوزيع اللاحق على فهرس المهمة الحقيقية بسرعة أسية، ويتقارب الخطأ غير القابل للاختزال إلى مخاطر minimax للمهمة الحقيقية
استقرار التحول التوزيعي: تحت تحول توزيع الإدخال، تزداد فجوة بايز بما يتناسب مع مسافة Wasserstein، بينما يحافظ التباين اللاحق على خصائصه الكامنة في المجال الهدف

الأعمال ذات الصلة

ICL كاستدلال بايزي

Xie وآخرون (2022): مزيج نماذج ماركوف المخفية يجعل محول الانتباه ينفذ التنبؤ اللاحق
Panwar وآخرون (2024): محول الانتباه يحاكي الاستدلال البايزي في مزيج المهام
Wang وآخرون (2023): النظر إلى نماذج اللغة الكبيرة كمتنبئات متغيرة كامنة

ICL كتعلم فوقي

von Oswald وآخرون (2023): محول الانتباه ينفذ تحديثات تشبه الانحدار في المسار الأمامي
Kirsch وآخرون (2022): يمكن للنموذج أن يتدرب فوقياً لتنفيذ خوارزمية سياق عامة عبر المهام

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يمكن النظر إلى ICL بصرامة كاستدلال بايزي، مما يوفر منظوراً نظرياً موحداً
يكشف التحليل المتعامد لفجوة بايز والتباين اللاحق عن مصادر مختلفة لخطأ ICL
يمكن لمحول الانتباه أن يتعلم الخوارزمية الفوقية الأمثل والتكيف بسرعة مع المهمة الحقيقية

القيود

قيود المعمارية: يركز التحليل على محول الانتباه الموحد، مدفوعاً بثبات التبديل
شروط الافتراضات: تتطلب شروط Hölder والافتراضات المحدودة
أنواع المهام: تركز بشكل أساسي على مزيج مهام الانحدار

الاتجاهات المستقبلية

التوسع إلى آليات انتباه أكثر تعقيداً
النظر في الإعدادات حيث تكون الاعتماديات المتسلسلة كبيرة
دراسة الضمانات النظرية تحت معماريات الانتباه غير الموحد

التقييم المتعمق

المميزات

الصرامة النظرية: توفير أول تحليل نظري بايزي صارم لـ ICL، ملء فراغ نظري مهم
الرؤى العملية: يوفر تحليل المخاطر إطاراً واضحاً لفهم اختناقات أداء ICL
الابتكار التقني: دمج ماهر لنظرية التعلم المتسلسل ونظرية النقل الأمثل
المنظور الموحد: توحيد سلوك ما قبل التدريب والاستدلال تحت الإطار البايزي

أوجه القصور

قيود المعمارية: تحليل محول الانتباه الموحد فقط، مع فجوة عن المعماريات المستخدمة فعلياً
غياب التحقق التجريبي: عمل نظري بحت، يفتقر إلى التحقق التجريبي
افتراضات صارمة: قد لا تكون شروط Hölder وغيرها مرضية عملياً
نطاق المهام: التركيز الأساسي على مهام الانحدار، مع عدم وضوح الانطباق على المهام الأخرى مثل التصنيف

التأثير

المساهمة النظرية: وضع أساس مهم لبحث نظرية ICL
القيمة الإرشادية: توفير إرشادات نظرية لتصميم الأنظمة العملية
الإلهام البحثي: فتح اتجاهات جديدة للبحث النظري والتجريبي اللاحق

السيناريوهات المطبقة

البحث النظري: توفير أساس رياضي لفهم آليات ICL
تصميم الأنظمة: إرشاد اختيار حجم بيانات ما قبل التدريب وطول السياق
تحليل الأداء: المساعدة في تحليل اختناقات أداء أنظمة ICL

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

Brown وآخرون (2020): العمل الرائد لـ GPT-3
Xie وآخرون (2022): ICL كاستدلال بايزي ضمني
von Oswald وآخرون (2023): محول الانتباه يتعلم الانحدار السياقي
Rakhlin وآخرون (2010، 2015): أساس نظرية التعلم المتسلسل

التقييم الإجمالي: هذه ورقة نظرية عالية الجودة توفر أساساً رياضياً مهماً لفهم آليات ICL. على الرغم من القيود في جوانب المعمارية والتجارب، فإن مساهماتها النظرية والرؤى لها قيمة مهمة للمجال. تجعل صرامة الورقة وابتكارها علامة فارقة مهمة في بحث نظرية ICL.