2025-11-20T09:19:22.153634

Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis

Sangha
We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
academic

Функторы Джетов и Алгебры Вейля в Автоматическом Дифференцировании: Геометрический Анализ

Основная информация

  • ID статьи: 2510.14342
  • Название: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
  • Автор: Amandip Sangha (Норвежский институт климата и окружающей среды NILU, Норвегия)
  • Классификация: cs.LG math.DG stat.ML
  • Дата публикации: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.14342

Аннотация

В данной работе предложена геометрическая формулировка автоматического дифференцирования (АД), основанная на расслоениях джетов (jet bundles) и алгебрах Вейля. Обратный режим АД представлен как кокасательное отображение (cotangent-pullback), а режим Тейлора соответствует вычислению в алгебрах Вейля. На основе этих принципов автор выводит лаконичные утверждения о корректности, устойчивости и сложности: функториальные тождества для обратного режима, алгебраическую точность высших производных и явные границы ошибок усечения. Автор далее доказывает, что тензоризованные алгебры Вейля позволяют вычислять все смешанные производные за один проход с линейной по размерности алгебры стоимостью, избегая комбинаторного взрыва при вложенных JVP/VJP расписаниях. Данная структура интерпретирует теорию АД через призму дифференциальной геометрии, обеспечивая основу для разработки методов дифференцирования, сохраняющих структуру, в глубоком обучении и научных вычислениях.

Исследовательский контекст и мотивация

Основные проблемы

Автоматическое дифференцирование (Automatic Differentiation, АД) является фундаментальной технологией современного машинного обучения и научных вычислений, однако существующая теория АД страдает от отсутствия единой геометрической теоретической базы, что приводит к:

  1. Фрагментированности теории: Теоретические основы обратного режима АД (backpropagation) и высших порядков АД разбросаны по различным математическим структурам
  2. Комбинаторному взрыву сложности: Вычисление высших смешанных производных сталкивается с проблемой комбинаторного взрыва сложности
  3. Отсутствию инвариантности: Существующие методы лишены координатно-независимого геометрического объяснения, что влияет на анализ устойчивости

Значимость исследования

Данное исследование имеет важное значение:

  • Теоретическое объединение: Обеспечивает единую дифференциально-геометрическую теоретическую базу для АД
  • Вычислительная эффективность: Решает проблему эффективности вычисления высших производных
  • Перспективы применения: Обеспечивает теоретическую поддержку геометрически-осведомленных методов в глубоком обучении

Ограничения существующих методов

  1. Традиционные методы АД: Зависят от координатного представления, лишены геометрической инвариантности
  2. Вычисление высших производных: Вложенные методы JVP/VJP имеют экспоненциальную сложность
  3. Анализ устойчивости: Отсутствует систематическая теория распространения ошибок

Основные вклады

  1. Установлена геометрическая теория обратного распространения: Доказано, что обратный режим АД эквивалентен операции кокасательного отображения, обеспечивая координатно-независимую формулировку
  2. Предложена структура алгебр Вейля: Режим Тейлора АД сформулирован как точное вычисление в алгебрах Вейля, гарантирующее алгебраическую точность
  3. Разработан метод тензоризованных алгебр Вейля: Реализовано одноразовое вычисление всех смешанных производных с линейной по размерности алгебры сложностью
  4. Обеспечен полный теоретический анализ: Включая доказательства корректности, границы устойчивости и анализ сложности

Подробное описание методов

Определение задачи

Дана гладкая отображение f:MNf: M \to N (где M,NM, N — гладкие многообразия) и скалярная функция :NR\ell: N \to \mathbb{R}. Цель состоит в:

  1. Вычислении градиента композитной функции f\ell \circ f
  2. Вычислении высших производных ff
  3. Реализации указанных вычислений геометрически инвариантным способом

Основная теоретическая структура

1. Геометрическая формулировка обратного режима АД

Теорема 1 (Обратное распространение как кокасательное отображение): Для гладкого отображения f:MNf: M \to N и :NR\ell: N \to \mathbb{R} имеет место: x(f)=(dfx)(df(x))\nabla_x(\ell \circ f) = (df_x)^*(d\ell_{f(x)})

Эквивалентно, на уровне джетов: (j1f)(j1)=j1(f)(j^1f)^*(j^1\ell) = j^1(\ell \circ f)

Данная теорема переформулирует обратное распространение как операцию отображения в кокасательном пространстве со следующим геометрическим смыслом:

  • Координатная независимость: Результат не зависит от выбора конкретной системы координат
  • Функториальность: Удовлетворяет (d(gf)x)=(dfx)(dgf(x))(d(g \circ f)_x)^* = (df_x)^* \circ (dg_{f(x)})^*
  • Естественность: Совместимо с гладкой переметризацией

2. Режим Тейлора в алгебрах Вейля

Теорема 2 (Точность вычисления в режиме Вейля): Пусть WW — алгебра Вейля, удовлетворяющая mk+1=0m^{k+1} = 0. Тогда поднятое отображение TWf:TWUTWRmT_W f: T_W U \to T_W \mathbb{R}^m точно вычисляет все производные ff порядка kk в точке xx как коэффициенты усеченного разложения Тейлора.

Конструкция алгебры Вейля:

  • Имеет форму W=R[ε]/(εk+1)W = \mathbb{R}[\varepsilon]/(\varepsilon^{k+1}) или тензорное произведение
  • Нильпотентность εk+1=0\varepsilon^{k+1} = 0 автоматически реализует усечение
  • Алгебраические операции прямо соответствуют правилам распространения производных

3. Тензоризованные алгебры Вейля

Теорема 3 (Сложность тензоризованных алгебр Вейля): Рассмотрим тензоризованную алгебру Вейля: Wj=1pR[εj]/(εjρj+1),dimW=j=1p(ρj+1)W \cong \bigotimes_{j=1}^p \mathbb{R}[\varepsilon_j]/(\varepsilon_j^{\rho_j+1}), \quad \dim W = \prod_{j=1}^p (\rho_j + 1)

Одноразовое вычисление ff в WW-точке xW:=x+j=1pεjv(j)x_W := x + \sum_{j=1}^p \varepsilon_j v^{(j)} дает все смешанные производные по направлениям с временной сложностью O(dimWQ)O(\dim W \cdot Q), где QQ — количество скалярных операций исходной программы.

Технические инновации

  1. Геометрическое объединение: Впервые все режимы АД объединены в единую структуру дифференциальной геометрии
  2. Алгебраическая точность: Через нильпотентность достигнута алгебраическая точность усечения, исключающая числовые ошибки
  3. Линейная сложность: Тензорный метод избегает комбинаторного взрыва традиционных вложенных методов
  4. Отсутствие обратной ленты: Режим Вейля требует только хранения массива коэффициентов, без сохранения графика вычислений

Экспериментальная установка

Теоретическая верификация

Автор в основном использует теоретический анализ для верификации эффективности метода, включая:

  1. Верификацию корректности: Через доказательство функториальных свойств
  2. Анализ устойчивости: Обеспечение явных границ ошибок
  3. Анализ сложности: Теоретическое сравнение с традиционными методами

Анализ устойчивости

Лемма 1 (Обратная устойчивость обратного сканирования): Для прямолинейной программы с примитивами {ϕi}i=1L\{\phi_i\}_{i=1}^L, если каждое сопряженное ϕi\phi_i^* удовлетворяет: ϕi(v)Liv,ϕ^i(v)ϕi(v)δiϕi(v)\|\phi_i^*(v)\| \leq L_i\|v\|, \quad \|\hat{\phi}_i^*(v) - \phi_i^*(v)\| \leq \delta_i\|\phi_i^*(v)\|

то вычисленное отображение удовлетворяет: f^(yˉ)(i=1L(1+δi)Li)yˉ\|\hat{f}^*(\bar{y})\| \leq \left(\prod_{i=1}^L (1+\delta_i)L_i\right)\|\bar{y}\|

Сравнение сложности

МетодВременная сложностьПространственная сложностьТребование ленты
Вложенные JVP/VJPO((p+kk)Q)O(\binom{p+k}{k} \cdot Q)O(L)O(L) (лента)Да
Тензоризованный ВейльO(j=1p(ρj+1)Q)O(\prod_{j=1}^p(\rho_j+1) \cdot Q)O(dimW)O(\dim W)Нет

Результаты экспериментов

Верификация теоретических результатов

Огибающая роста коэффициентов

Следствие 1: Предположим, что fCk+1(Br(x),Rm)f \in C^{k+1}(B_r(x), \mathbb{R}^m) и его производные удовлетворяют Df(z)M\|D^\ell f(z)\| \leq M_\ell. Тогда коэффициенты Тейлора удовлетворяют: fα(x)Mαα!\|f_\alpha(x)\| \leq \frac{M_{|\alpha|}}{\alpha!}

Устойчивость усечения

Для размера шага ρ<r\rho < r остаток удовлетворяет стандартной оценке Коши: Rk+1(z)Mk+1(k+1)!ρk+1\|R_{k+1}(z)\| \leq \frac{M_{k+1}}{(k+1)!}\rho^{k+1}

Анализ практической производительности

Хотя работа в основном сосредоточена на теоретическом анализе, она обеспечивает ключевые практические выводы:

  1. Эффективность памяти: Режим Вейля исключает хранение обратной ленты
  2. Дружественность параллелизму: Операции с коэффициентами естественно поддерживают векторизацию
  3. Числовая устойчивость: Ошибки усечения могут быть явно контролируемы

Связанные работы

Основные направления исследований

  1. Категорный подход к АД: Elliott (2018), Fong и др. (2019) предложили функториальную формулировку АД
  2. Геометрическая теория АД: Betancourt (2018) исследовал применение геометрии джетов в АД
  3. Алгоритмы высших порядков АД: Giles (2008), Fike и Alonso (2012) анализировали числовую устойчивость

Преимущества данной работы

  1. Полнота теории: Впервые обеспечена полная геометрическая теоретическая структура АД
  2. Практичность: Метод тензоризованных алгебр Вейля имеет практическую ценность применения
  3. Объединение: Объединены обратный, прямой и высших порядков режимы АД в единую структуру

Заключение и обсуждение

Основные выводы

  1. Геометрическое объединение: Все режимы АД могут быть поняты в единой структуре дифференциальной геометрии
  2. Вычислительные преимущества: Тензоризованные алгебры Вейля обеспечивают эффективный метод вычисления высших производных
  3. Теоретическая полнота: Обеспечена полная теоретическая верификация корректности, устойчивости и сложности

Ограничения

  1. Сложность реализации: Практическая реализация алгебр Вейля требует тщательного проектирования структур данных
  2. Область применения: Главным образом применимо к сценариям, требующим плотных смешанных производных
  3. Числовая точность: Вычисления высших порядков могут столкнуться с проблемами числовой точности

Будущие направления

  1. Внутреннее АД на многообразиях: Расширение на общие римановы многообразия
  2. Оптимизация с ограничениями ПДУ: Применение к вариационным и задачам с ограничениями ПДУ
  3. Сжатие высших тензоров: Разработка методов сжатия массивов коэффициентов
  4. Поднятие примитивных правил: Систематизация поднятия линейной алгебры и специальных функций в алгебры Вейля

Глубокая оценка

Достоинства

  1. Высокая теоретическая новизна: Впервые установлена полная геометрическая теоретическая структура АД
  2. Математическая строгость: Все теоремы имеют полные математические доказательства
  3. Высокая практическая ценность: Метод тензоризованных алгебр Вейля решает реальные вычислительные проблемы
  4. Ясность изложения: Сложные математические концепции объяснены относительно доступно

Недостатки

  1. Отсутствие экспериментальной верификации: Работа в основном теоретическая, не хватает реальной реализации алгоритмов и тестирования производительности
  2. Ограничение сценариев применения: Главным образом применимо к специфическим сценариям, требующим высших производных
  3. Недостаточность деталей реализации: Ограниченное руководство по практической системной реализации

Влияние

  1. Академическая ценность: Обеспечивает новую математическую базу для теории АД
  2. Потенциал применения: Имеет важные перспективы применения в научных вычислениях и геометрическом глубоком обучении
  3. Вдохновляющее значение: Предоставляет новые идеи для исследований в смежных областях

Применимые сценарии

  1. Научные вычисления: Физическое моделирование, требующее высокой точности и высших производных
  2. Алгоритмы оптимизации: Эффективная реализация методов оптимизации второго порядка
  3. Геометрическое глубокое обучение: Обучение нейронных сетей на многообразиях
  4. Метаобучение: Адаптивные алгоритмы, требующие высших градиентов

Библиография

Статья цитирует 18 важных источников, включая:

  • Elliott (2018): Функциональная формулировка АД
  • Fong и др. (2019): Категорный подход к обратному распространению
  • Betancourt (2018): Геометрическая теория высших порядков АД
  • Baydin и др. (2018): Обзор АД
  • Kolář и др. (1993): Естественные операции в дифференциальной геометрии

Общая оценка: Это высококачественная теоретическая работа, обеспечивающая принципиально новую геометрическую теоретическую структуру для автоматического дифференцирования. Хотя ей не хватает экспериментальной верификации, её теоретический вклад значителен и обеспечивает важную математическую базу для развития смежных областей. Главная ценность данной работы заключается в теоретическом объединении и методологических инновациях, что имеет важное значение для продвижения развития теории АД.