We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
- ID статьи: 2510.14342
- Название: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
- Автор: Amandip Sangha (Норвежский институт климата и окружающей среды NILU, Норвегия)
- Классификация: cs.LG math.DG stat.ML
- Дата публикации: 16 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.14342
В данной работе предложена геометрическая формулировка автоматического дифференцирования (АД), основанная на расслоениях джетов (jet bundles) и алгебрах Вейля. Обратный режим АД представлен как кокасательное отображение (cotangent-pullback), а режим Тейлора соответствует вычислению в алгебрах Вейля. На основе этих принципов автор выводит лаконичные утверждения о корректности, устойчивости и сложности: функториальные тождества для обратного режима, алгебраическую точность высших производных и явные границы ошибок усечения. Автор далее доказывает, что тензоризованные алгебры Вейля позволяют вычислять все смешанные производные за один проход с линейной по размерности алгебры стоимостью, избегая комбинаторного взрыва при вложенных JVP/VJP расписаниях. Данная структура интерпретирует теорию АД через призму дифференциальной геометрии, обеспечивая основу для разработки методов дифференцирования, сохраняющих структуру, в глубоком обучении и научных вычислениях.
Автоматическое дифференцирование (Automatic Differentiation, АД) является фундаментальной технологией современного машинного обучения и научных вычислений, однако существующая теория АД страдает от отсутствия единой геометрической теоретической базы, что приводит к:
- Фрагментированности теории: Теоретические основы обратного режима АД (backpropagation) и высших порядков АД разбросаны по различным математическим структурам
- Комбинаторному взрыву сложности: Вычисление высших смешанных производных сталкивается с проблемой комбинаторного взрыва сложности
- Отсутствию инвариантности: Существующие методы лишены координатно-независимого геометрического объяснения, что влияет на анализ устойчивости
Данное исследование имеет важное значение:
- Теоретическое объединение: Обеспечивает единую дифференциально-геометрическую теоретическую базу для АД
- Вычислительная эффективность: Решает проблему эффективности вычисления высших производных
- Перспективы применения: Обеспечивает теоретическую поддержку геометрически-осведомленных методов в глубоком обучении
- Традиционные методы АД: Зависят от координатного представления, лишены геометрической инвариантности
- Вычисление высших производных: Вложенные методы JVP/VJP имеют экспоненциальную сложность
- Анализ устойчивости: Отсутствует систематическая теория распространения ошибок
- Установлена геометрическая теория обратного распространения: Доказано, что обратный режим АД эквивалентен операции кокасательного отображения, обеспечивая координатно-независимую формулировку
- Предложена структура алгебр Вейля: Режим Тейлора АД сформулирован как точное вычисление в алгебрах Вейля, гарантирующее алгебраическую точность
- Разработан метод тензоризованных алгебр Вейля: Реализовано одноразовое вычисление всех смешанных производных с линейной по размерности алгебры сложностью
- Обеспечен полный теоретический анализ: Включая доказательства корректности, границы устойчивости и анализ сложности
Дана гладкая отображение f:M→N (где M,N — гладкие многообразия) и скалярная функция ℓ:N→R. Цель состоит в:
- Вычислении градиента композитной функции ℓ∘f
- Вычислении высших производных f
- Реализации указанных вычислений геометрически инвариантным способом
Теорема 1 (Обратное распространение как кокасательное отображение): Для гладкого отображения f:M→N и ℓ:N→R имеет место:
∇x(ℓ∘f)=(dfx)∗(dℓf(x))
Эквивалентно, на уровне джетов: (j1f)∗(j1ℓ)=j1(ℓ∘f)
Данная теорема переформулирует обратное распространение как операцию отображения в кокасательном пространстве со следующим геометрическим смыслом:
- Координатная независимость: Результат не зависит от выбора конкретной системы координат
- Функториальность: Удовлетворяет (d(g∘f)x)∗=(dfx)∗∘(dgf(x))∗
- Естественность: Совместимо с гладкой переметризацией
Теорема 2 (Точность вычисления в режиме Вейля): Пусть W — алгебра Вейля, удовлетворяющая mk+1=0. Тогда поднятое отображение TWf:TWU→TWRm точно вычисляет все производные f порядка k в точке x как коэффициенты усеченного разложения Тейлора.
Конструкция алгебры Вейля:
- Имеет форму W=R[ε]/(εk+1) или тензорное произведение
- Нильпотентность εk+1=0 автоматически реализует усечение
- Алгебраические операции прямо соответствуют правилам распространения производных
Теорема 3 (Сложность тензоризованных алгебр Вейля): Рассмотрим тензоризованную алгебру Вейля:
W≅⨂j=1pR[εj]/(εjρj+1),dimW=∏j=1p(ρj+1)
Одноразовое вычисление f в W-точке xW:=x+∑j=1pεjv(j) дает все смешанные производные по направлениям с временной сложностью O(dimW⋅Q), где Q — количество скалярных операций исходной программы.
- Геометрическое объединение: Впервые все режимы АД объединены в единую структуру дифференциальной геометрии
- Алгебраическая точность: Через нильпотентность достигнута алгебраическая точность усечения, исключающая числовые ошибки
- Линейная сложность: Тензорный метод избегает комбинаторного взрыва традиционных вложенных методов
- Отсутствие обратной ленты: Режим Вейля требует только хранения массива коэффициентов, без сохранения графика вычислений
Автор в основном использует теоретический анализ для верификации эффективности метода, включая:
- Верификацию корректности: Через доказательство функториальных свойств
- Анализ устойчивости: Обеспечение явных границ ошибок
- Анализ сложности: Теоретическое сравнение с традиционными методами
Лемма 1 (Обратная устойчивость обратного сканирования): Для прямолинейной программы с примитивами {ϕi}i=1L, если каждое сопряженное ϕi∗ удовлетворяет:
∥ϕi∗(v)∥≤Li∥v∥,∥ϕ^i∗(v)−ϕi∗(v)∥≤δi∥ϕi∗(v)∥
то вычисленное отображение удовлетворяет:
∥f^∗(yˉ)∥≤(∏i=1L(1+δi)Li)∥yˉ∥
| Метод | Временная сложность | Пространственная сложность | Требование ленты |
|---|
| Вложенные JVP/VJP | O((kp+k)⋅Q) | O(L) (лента) | Да |
| Тензоризованный Вейль | O(∏j=1p(ρj+1)⋅Q) | O(dimW) | Нет |
Следствие 1: Предположим, что f∈Ck+1(Br(x),Rm) и его производные удовлетворяют ∥Dℓf(z)∥≤Mℓ. Тогда коэффициенты Тейлора удовлетворяют:
∥fα(x)∥≤α!M∣α∣
Для размера шага ρ<r остаток удовлетворяет стандартной оценке Коши:
∥Rk+1(z)∥≤(k+1)!Mk+1ρk+1
Хотя работа в основном сосредоточена на теоретическом анализе, она обеспечивает ключевые практические выводы:
- Эффективность памяти: Режим Вейля исключает хранение обратной ленты
- Дружественность параллелизму: Операции с коэффициентами естественно поддерживают векторизацию
- Числовая устойчивость: Ошибки усечения могут быть явно контролируемы
- Категорный подход к АД: Elliott (2018), Fong и др. (2019) предложили функториальную формулировку АД
- Геометрическая теория АД: Betancourt (2018) исследовал применение геометрии джетов в АД
- Алгоритмы высших порядков АД: Giles (2008), Fike и Alonso (2012) анализировали числовую устойчивость
- Полнота теории: Впервые обеспечена полная геометрическая теоретическая структура АД
- Практичность: Метод тензоризованных алгебр Вейля имеет практическую ценность применения
- Объединение: Объединены обратный, прямой и высших порядков режимы АД в единую структуру
- Геометрическое объединение: Все режимы АД могут быть поняты в единой структуре дифференциальной геометрии
- Вычислительные преимущества: Тензоризованные алгебры Вейля обеспечивают эффективный метод вычисления высших производных
- Теоретическая полнота: Обеспечена полная теоретическая верификация корректности, устойчивости и сложности
- Сложность реализации: Практическая реализация алгебр Вейля требует тщательного проектирования структур данных
- Область применения: Главным образом применимо к сценариям, требующим плотных смешанных производных
- Числовая точность: Вычисления высших порядков могут столкнуться с проблемами числовой точности
- Внутреннее АД на многообразиях: Расширение на общие римановы многообразия
- Оптимизация с ограничениями ПДУ: Применение к вариационным и задачам с ограничениями ПДУ
- Сжатие высших тензоров: Разработка методов сжатия массивов коэффициентов
- Поднятие примитивных правил: Систематизация поднятия линейной алгебры и специальных функций в алгебры Вейля
- Высокая теоретическая новизна: Впервые установлена полная геометрическая теоретическая структура АД
- Математическая строгость: Все теоремы имеют полные математические доказательства
- Высокая практическая ценность: Метод тензоризованных алгебр Вейля решает реальные вычислительные проблемы
- Ясность изложения: Сложные математические концепции объяснены относительно доступно
- Отсутствие экспериментальной верификации: Работа в основном теоретическая, не хватает реальной реализации алгоритмов и тестирования производительности
- Ограничение сценариев применения: Главным образом применимо к специфическим сценариям, требующим высших производных
- Недостаточность деталей реализации: Ограниченное руководство по практической системной реализации
- Академическая ценность: Обеспечивает новую математическую базу для теории АД
- Потенциал применения: Имеет важные перспективы применения в научных вычислениях и геометрическом глубоком обучении
- Вдохновляющее значение: Предоставляет новые идеи для исследований в смежных областях
- Научные вычисления: Физическое моделирование, требующее высокой точности и высших производных
- Алгоритмы оптимизации: Эффективная реализация методов оптимизации второго порядка
- Геометрическое глубокое обучение: Обучение нейронных сетей на многообразиях
- Метаобучение: Адаптивные алгоритмы, требующие высших градиентов
Статья цитирует 18 важных источников, включая:
- Elliott (2018): Функциональная формулировка АД
- Fong и др. (2019): Категорный подход к обратному распространению
- Betancourt (2018): Геометрическая теория высших порядков АД
- Baydin и др. (2018): Обзор АД
- Kolář и др. (1993): Естественные операции в дифференциальной геометрии
Общая оценка: Это высококачественная теоретическая работа, обеспечивающая принципиально новую геометрическую теоретическую структуру для автоматического дифференцирования. Хотя ей не хватает экспериментальной верификации, её теоретический вклад значителен и обеспечивает важную математическую базу для развития смежных областей. Главная ценность данной работы заключается в теоретическом объединении и методологических инновациях, что имеет важное значение для продвижения развития теории АД.