2025-11-24T16:43:16.687108

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Wakayama, Suzuki
This paper develops a finite-sample statistical theory for in-context learning (ICL), analyzed within a meta-learning framework that accommodates mixtures of diverse task types. We introduce a principled risk decomposition that separates the total ICL risk into two orthogonal components: Bayes Gap and Posterior Variance. The Bayes Gap quantifies how well the trained model approximates the Bayes-optimal in-context predictor. For a uniform-attention Transformer, we derive a non-asymptotic upper bound on this gap, which explicitly clarifies the dependence on the number of pretraining prompts and their context length. The Posterior Variance is a model-independent risk representing the intrinsic task uncertainty. Our key finding is that this term is determined solely by the difficulty of the true underlying task, while the uncertainty arising from the task mixture vanishes exponentially fast with only a few in-context examples. Together, these results provide a unified view of ICL: the Transformer selects the optimal meta-algorithm during pretraining and rapidly converges to the optimal algorithm for the true task at test time.
academic

Внутриконтекстное обучение — доказуемо байесовский вывод: теория обобщения для мета-обучения

Основная информация

  • ID статьи: 2510.10981
  • Название: In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning
  • Авторы: Tomoya Wakayama (RIKEN AIP), Taiji Suzuki (The University of Tokyo, RIKEN AIP)
  • Классификация: stat.ML cs.LG
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10981v1

Аннотация

В данной работе устанавливается конечно-выборочная статистическая теория для внутриконтекстного обучения (ICL) в рамках мета-обучения, допускающего смешивание различных типов задач. Авторы вводят принципиальное разложение риска, разделяя общий риск ICL на два ортогональных компонента: байесовский разрыв (Bayes Gap) и апостериорную дисперсию (Posterior Variance). Байесовский разрыв количественно определяет, насколько хорошо обученная модель аппроксимирует байесовский оптимальный контекстный предиктор. Для трансформатора с равномерным вниманием авторы выводят неасимптотическую верхнюю границу этого разрыва, явно уточняя зависимость от количества предварительно обученных подсказок и длины контекста. Апостериорная дисперсия представляет независимый от модели риск, отражающий внутреннюю неопределённость задачи. Ключевое открытие состоит в том, что этот компонент определяется только сложностью истинной скрытой задачи, тогда как неопределённость из смешивания задач экспоненциально быстро исчезает с небольшим количеством контекстных примеров.

Исследовательский контекст и мотивация

Проблемный контекст

Со времён GPT-3 большие языковые модели продемонстрировали замечательные способности к внутриконтекстному обучению — адаптации к новым задачам на основе лишь нескольких примеров ввода-вывода без обновления параметров. Это явление широко распространено в различных наборах данных и форматах задач и является ключевым компонентом современных рабочих процессов LLM.

Исследовательская мотивация

  1. Теоретический пробел: Хотя ICL широко признаётся формой неявного байесовского вывода, существующая теория не полностью использует теоретическую связь между ICL и байесовским выводом
  2. Практические требования: Развёртывание современных LLM сталкивается с общими ограничениями — короткие подсказки во время вывода, разнородные типы задач в предварительном обучении, необходимость анализа ошибок предсказания с конечной выборкой
  3. Теоретический пробел: Отсутствует статистическая теория, которая (i) совместно связывает масштаб предварительного обучения N и длину подсказки p, (ii) допускает смешивание разнородных типов задач

Ограничения существующих подходов

  • Ранние теории сосредоточены на информационно-теоретическом анализе или непараметрических скоростях в конкретных архитектурах и установках
  • Не полностью захватывают совместный эффект p и N
  • Не хватает теоретического объяснения поведения ICL в условиях смешанных задач

Основные вклады

  1. Принципиальное разложение риска: Предложено ортогональное разложение риска ICL: ICL risk = Bayes Gap + Posterior Variance
  2. Неасимптотические верхние границы: Получены неасимптотические верхние границы байесовского разрыва для трансформатора с равномерным вниманием, явно уточняющие совместную зависимость от количества предварительно обученных подсказок N и длины контекста p: E[RBG(Mθ^)]m2α/deff+mpN+1NE[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN} + \frac{1}{N}
  3. Теория идентификации задач: Доказано, что при смешивании задач апостериорное распределение экспоненциально быстро концентрируется на индексе истинной задачи, ICL быстро сходится к оптимальному алгоритму для истинной задачи
  4. Устойчивость к сдвигу распределения: Охарактеризована устойчивость при сдвиге входного распределения, доказано, что байесовский разрыв возрастает пропорционально расстоянию Вассерштейна между распределениями

Детальное описание методологии

Определение задачи

Авторы рассматривают мета-обучающую схему с конечной смесью T различных типов задач:

Процесс генерации подсказки:

  1. Выборка типа задачи: ICategorical(α)I \sim \text{Categorical}(\alpha)
  2. При I=iI=i, выборка функции задачи: fPFif \sim P_{F_i}
  3. Для k=1,,p+1k=1,\ldots,p+1:
    • Выборка входа: xki.i.d.PXx_k \overset{i.i.d.}{\sim} P_X
    • Генерация выхода: yk=f(xk)+εky_k = f(x_k) + \varepsilon_k
  4. Формирование подсказки длины p: P=(x1,y1,,xp,yp,xp+1)P = (x_1,y_1,\ldots,x_p,y_p,x_{p+1})

Архитектура модели

Трансформатор с равномерным вниманием: Mθ(Pk):=ρθ(1ki=1kϕθ(xi,yi),xk+1)M_\theta(P^k) := \rho_\theta\left(\frac{1}{k}\sum_{i=1}^k \phi_\theta(x_i,y_i), x_{k+1}\right)

где:

  • Кодировщик признаков ϕθ:UΔm1\phi_\theta: U \to \Delta_{m-1}: сеть прямого распространения ReLU глубины DϕD_\phi с последующим слоем переормализации
  • Декодер ρθ:Δm1×CR\rho_\theta: \Delta_{m-1} \times C \to \mathbb{R}: сеть прямого распространения ReLU глубины DρD_\rho

Байесовский оптимальный предиктор

Минимизация риска ICL эквивалентна минимизации байесовского риска, оптимальный предиктор — апостериорное среднее: MBayes(Pk):=EIPIDkEfPFIDk[f(xk+1)]M_{\text{Bayes}}(P^k) := E_{I\sim P_{I|D^k}} E_{f\sim P_{F_I|D^k}}[f(x_{k+1})]

Технические инновации

  1. Теоретическая база перестановочной инвариантности: Доказана перестановочная инвариантность байесовского предиктора, обосновывающая архитектуру с равномерным вниманием
  2. Применение теории последовательного обучения: Использована теория последовательного обучения для обработки p контекстных примеров в подсказке в сочетании с классической теорией обучения для N мета-обучающих подсказок
  3. Теория аппроксимации оптимального транспорта: Построены разбиения на основе мягких гистограмм для кодирования подсказок, аппроксимирующие байесовский предиктор через расширение МакШейна на дискретной метрике 1-Вассерштейна

Экспериментальная установка

Теоретическая аналитическая схема

Статья предоставляет в основном теоретический анализ со следующей установкой:

Предположения:

  • Предположение 1: Ограниченные функции задач f(x)Bf|f(x)| \leq B_f
  • Предположение 2: Ограниченные входы и условная независимость x2BX\|x\|_2 \leq B_X

Размеры сети:

  • Кодировщик признаков: S(ϕθ)Cϕm1/deffS(\phi_\theta) \leq C_\phi m^{1/d_{eff}}
  • Декодер: S(ρθ)Cρm1/2S(\rho_\theta) \leq C_\rho m^{1/2}

Метрики оценки

Риск ICL определяется как: R(M)=1pk=1pEI,f,Dk,xk+1[(f(xk+1)M(Pk))2]R(M) = \frac{1}{p}\sum_{k=1}^p E_{I,f,D^k,x_{k+1}}\left[(f(x_{k+1}) - M(P^k))^2\right]

Экспериментальные результаты

Основные теоретические результаты

Теорема 1 (Разложение риска): R(M)=RBG(M)+RPVR(M) = R_{BG}(M) + R_{PV} где:

  • Байесовский разрыв: RBG(M):=1pk=1pE[(M(Pk)MBayes(Pk))2]R_{BG}(M) := \frac{1}{p}\sum_{k=1}^p E[(M(P^k) - M_{\text{Bayes}}(P^k))^2]
  • Апостериорная дисперсия: RPV:=1pk=1pE[VarfP(fDk)(f(xk+1))]R_{PV} := \frac{1}{p}\sum_{k=1}^p E[\text{Var}_{f\sim P(f|D^k)}(f(x_{k+1}))]

Теорема 2 (Верхняя граница байесовского разрыва): При условии Гёльдера для трансформатора с равномерным вниманием: E[RBG(Mθ^)]m2α/deff+mpNpolylog(pN)+1Npolylog(pN)E[R_{BG}(M_{\hat{\theta}})] \lesssim m^{-2\alpha/d_{eff}} + \frac{m}{pN}\text{polylog}(pN) + \frac{1}{N}\text{polylog}(pN)

При выборе m(pN)deff/(deff+2α)m^* \asymp (pN)^{d_{eff}/(d_{eff}+2\alpha)} получаем: E[RBG(Mθ^)](pN)2α/(deff+2α)+N1E[R_{BG}(M_{\hat{\theta}})] \lesssim (pN)^{-2\alpha/(d_{eff}+2\alpha)} + N^{-1}

Теорема 3 (Анализ апостериорной дисперсии): При условии логарифмического отношения правдоподобия: EDk,xI=i[VarfDk{f(x)}]infMsupfFiE[(f(xk+1)M(Pk))2f]+5Bf2(1αiαieDmink/2+(T1)eCk)E_{D^k,x|I=i^*}[\text{Var}_{f|D^k}\{f(x)\}] \leq \inf_M \sup_{f\in F_{i^*}} E[(f(x_{k+1}) - M(P^k))^2|f] + 5B_f^2\left(\frac{1-\alpha_{i^*}}{\alpha_{i^*}}e^{-D_{\min}k/2} + (T-1)e^{-Ck}\right)

Ключевые находки

  1. Оптимальный выбор мета-алгоритма: Трансформатор выбирает оптимальный мета-алгоритм во время предварительного обучения, скорость m/(pN)\propto m/(pN) явно уточняет совместный эффект p и N
  2. Экспоненциальная идентификация задач: При смешивании задач апостериорное распределение экспоненциально быстро концентрируется на индексе истинной задачи, неприводимая ошибка сходится к минимаксному риску истинной задачи
  3. Устойчивость к сдвигу распределения: При сдвиге входного распределения байесовский разрыв возрастает пропорционально расстоянию Вассерштейна, тогда как апостериорная дисперсия сохраняет внутренние свойства целевого домена

Связанные работы

ICL как байесовский вывод

  • Xie и др. (2022): Смешивание скрытых марковских моделей позволяет трансформатору выполнять апостериорное предсказание
  • Panwar и др. (2024): Трансформатор моделирует байесовский вывод при смешивании задач
  • Wang и др. (2023): LLM как предиктор со скрытыми переменными

ICL как мета-обучение

  • von Oswald и др. (2023): Трансформатор реализует обновления в стиле градиентного спуска в прямом проходе
  • Kirsch и др. (2022): Модель может быть мета-обучена выполнять универсальный контекстный алгоритм для задач

Заключение и обсуждение

Основные выводы

  1. ICL может быть строго рассмотрен как байесовский вывод, обеспечивая унифицированную теоретическую перспективу
  2. Ортогональное разложение байесовского разрыва и апостериорной дисперсии раскрывает различные источники ошибок ICL
  3. Трансформатор способен изучить оптимальный мета-алгоритм и быстро адаптироваться к истинной задаче

Ограничения

  1. Ограничения архитектуры: Анализ сосредоточен на трансформаторе с равномерным вниманием, мотивированном перестановочной инвариантностью
  2. Условия предположений: Требуются условие Гёльдера и предположения об ограниченности
  3. Типы задач: Рассматривается в основном смешивание задач регрессии

Будущие направления

  1. Расширение на более сложные механизмы внимания
  2. Рассмотрение установок с выраженной последовательной зависимостью
  3. Исследование теоретических гарантий для архитектур с неравномерным вниманием

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Обеспечивает первый строгий байесовский теоретический анализ ICL, заполняя важный теоретический пробел
  2. Практические инсайты: Разложение риска обеспечивает ясную схему для понимания узких мест производительности ICL
  3. Технические инновации: Искусно объединяет теорию последовательного обучения и теорию оптимального транспорта
  4. Унифицированная перспектива: Объединяет поведение предварительного обучения и вывода в байесовской схеме

Недостатки

  1. Ограничения архитектуры: Анализирует только трансформатор с равномерным вниманием, отличающийся от фактически используемых архитектур
  2. Отсутствие экспериментальной проверки: Чисто теоретическая работа, не содержит эмпирической проверки
  3. Строгие предположения: Условия типа Гёльдера могут не выполняться на практике
  4. Ограниченный диапазон задач: Сосредоточена в основном на задачах регрессии, применимость к классификации и другим задачам неясна

Влияние

  1. Теоретический вклад: Закладывает важную основу для теоретических исследований ICL
  2. Руководящее значение: Обеспечивает теоретическое руководство для проектирования практических систем
  3. Исследовательское вдохновение: Открывает новые направления для последующих теоретических и эмпирических исследований

Применимые сценарии

  1. Теоретические исследования: Обеспечивает математическую основу для понимания механизма ICL
  2. Проектирование систем: Направляет выбор масштаба данных предварительного обучения и длины контекста
  3. Анализ производительности: Помогает анализировать узкие места производительности систем ICL

Библиография

Статья цитирует большое количество связанных работ, включая:

  • Brown и др. (2020): Основополагающая работа GPT-3
  • Xie и др. (2022): ICL как неявный байесовский вывод
  • von Oswald и др. (2023): Трансформатор изучает контекстный градиентный спуск
  • Rakhlin и др. (2010, 2015): Теоретические основы последовательного обучения

Общая оценка: Это высококачественная теоретическая работа, обеспечивающая важную математическую основу для понимания механизма ICL. Несмотря на ограничения в архитектуре и экспериментах, её теоретический вклад и инсайты имеют значительную ценность для этой области. Строгость и инновационность работы делают её важной вехой в теоретических исследованиях ICL.