We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
- ID del Artículo: 2510.14342
- Título: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
- Autor: Amandip Sangha (The Climate and Environmental Research Institute NILU, Noruega)
- Clasificación: cs.LG math.DG stat.ML
- Fecha de Publicación: 16 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.14342
Este artículo propone una formulación geométrica de la diferenciación automática (DA) basada en haces de chorros (jet bundles) y álgebras de Weil. El modo inverso de DA se presenta como un retroceso cotangente (cotangent-pullback), mientras que el modo Taylor corresponde a la evaluación en álgebras de Weil. Basándose en estos principios, el autor deriva enunciados concisos sobre corrección, estabilidad y complejidad: identidades funtoriales para el modo inverso, precisión algebraica para derivadas de orden superior, y límites explícitos para errores de truncamiento. El autor demuestra además que los álgebras de Weil tensorializadas permiten calcular todas las derivadas mixtas de una sola vez con costo lineal en la dimensión del álgebra, evitando la explosión combinatoria de los esquemas anidados JVP/VJP. Este marco interpreta la teoría de DA desde la perspectiva de la geometría diferencial, proporcionando una base para el desarrollo de métodos de diferenciación que preservan la estructura en aprendizaje profundo y computación científica.
La diferenciación automática (Automatic Differentiation, DA) es una técnica fundamental en el aprendizaje automático moderno y la computación científica, pero la teoría existente de DA carece de un marco teórico geométrico unificado, lo que genera:
- Dispersión Teórica: Los fundamentos teóricos del modo inverso de DA (retropropagación) y la DA de orden superior se encuentran dispersos en diferentes marcos matemáticos
- Explosión de Complejidad: El cálculo de derivadas mixtas de orden superior enfrenta problemas de explosión de complejidad combinatoria
- Falta de Invariancia: Los métodos existentes carecen de una interpretación geométrica independiente de coordenadas, afectando el análisis de estabilidad
Esta investigación tiene una importancia significativa:
- Unificación Teórica: Proporciona una base teórica de geometría diferencial unificada para DA
- Eficiencia Computacional: Resuelve el problema de eficiencia en el cálculo de derivadas de orden superior
- Perspectivas de Aplicación: Proporciona apoyo teórico para métodos conscientes de la geometría en aprendizaje profundo
- Métodos DA Tradicionales: Dependen de representación en coordenadas, carecen de invariancia geométrica
- Cálculo de Derivadas de Orden Superior: Los métodos JVP/VJP anidados presentan complejidad exponencial
- Análisis de Estabilidad: Carecen de una teoría sistemática de propagación de errores
- Establecimiento de la teoría geométrica de retropropagación: Demuestra que el modo inverso de DA es equivalente a la operación de retroceso cotangente, proporcionando una formulación independiente de coordenadas
- Propuesta del marco de álgebras de Weil: Expresa el modo Taylor de DA como evaluación precisa en álgebras de Weil, garantizando precisión algebraica
- Desarrollo del método de álgebras de Weil tensorializadas: Realiza el cálculo de todas las derivadas mixtas de una sola vez, con complejidad lineal en la dimensión del álgebra
- Provisión de análisis teórico completo: Incluye pruebas de corrección, límites de estabilidad y análisis de complejidad
Dada una aplicación suave f:M→N (donde M,N son variedades suaves) y una función escalar ℓ:N→R, los objetivos son:
- Calcular el gradiente de la función compuesta ℓ∘f
- Calcular derivadas de orden superior de f
- Implementar los cálculos anteriores de manera geométricamente invariante
Teorema 1 (Retropropagación como Retroceso Cotangente): Para una aplicación suave f:M→N y ℓ:N→R, se tiene:
∇x(ℓ∘f)=(dfx)∗(dℓf(x))
Equivalentemente, a nivel de chorros: (j1f)∗(j1ℓ)=j1(ℓ∘f)
Este teorema reformula la retropropagación como una operación de retroceso en espacios cotangentes, con los siguientes significados geométricos:
- Independencia de Coordenadas: El resultado no depende de la elección de sistema de coordenadas específico
- Propiedad Funtorial: Satisface (d(g∘f)x)∗=(dfx)∗∘(dgf(x))∗
- Naturalidad: Es compatible con reparametrizaciones suaves
Teorema 2 (Precisión de la Evaluación en Modo Weil): Sea W un álgebra de Weil que satisface mk+1=0, entonces la aplicación elevada TWf:TWU→TWRm calcula con precisión todas las derivadas de orden k de f en x como coeficientes de la expansión de Taylor truncada.
Construcción del álgebra de Weil:
- Forma W=R[ε]/(εk+1) o forma de producto tensorial
- La nilpotencia εk+1=0 implementa automáticamente el truncamiento
- Las operaciones algebraicas corresponden directamente a reglas de propagación de derivadas
Teorema 3 (Complejidad de Álgebras de Weil Tensorializadas): Considérese el álgebra de Weil tensorializada:
W≅⨂j=1pR[εj]/(εjρj+1),dimW=∏j=1p(ρj+1)
Una única evaluación de f en el punto W-ádico xW:=x+∑j=1pεjv(j) produce todas las derivadas direccionales mixtas, con complejidad temporal O(dimW⋅Q), donde Q es el número de operaciones escalares del programa original.
- Unidad Geométrica: Primera unificación de todos los modos de DA bajo el marco de geometría diferencial
- Precisión Algebraica: Realiza precisión algebraica del truncamiento mediante nilpotencia, evitando errores numéricos
- Complejidad Lineal: El método tensorializado evita la explosión combinatoria de métodos anidados tradicionales
- Sin Cinta Inversa: El modo Weil solo requiere almacenar matrices de coeficientes, sin necesidad de almacenar gráficos de computación
El autor verifica principalmente la efectividad del método mediante análisis teórico, incluyendo:
- Verificación de Corrección: Mediante propiedades funtoriales
- Análisis de Estabilidad: Proporciona límites de error explícitos
- Análisis de Complejidad: Comparación teórica con métodos tradicionales
Lema 1 (Estabilidad Hacia Atrás del Escaneo Inverso): Para un programa lineal con primitivas {ϕi}i=1L, si cada adjunto ϕi∗ satisface:
∥ϕi∗(v)∥≤Li∥v∥,∥ϕ^i∗(v)−ϕi∗(v)∥≤δi∥ϕi∗(v)∥
entonces el retroceso calculado satisface:
∥f^∗(yˉ)∥≤(∏i=1L(1+δi)Li)∥yˉ∥
| Método | Complejidad Temporal | Complejidad Espacial | Requisito de Cinta |
|---|
| JVP/VJP Anidado | O((kp+k)⋅Q) | O(L) (cinta) | Sí |
| Weil Tensorializado | O(∏j=1p(ρj+1)⋅Q) | O(dimW) | No |
Corolario 1: Supóngase que f∈Ck+1(Br(x),Rm) y sus derivadas satisfacen ∥Dℓf(z)∥≤Mℓ, entonces los coeficientes de Taylor satisfacen:
∥fα(x)∥≤α!M∣α∣
Para tamaño de paso ρ<r, el término residual satisface la estimación de Cauchy estándar:
∥Rk+1(z)∥≤(k+1)!Mk+1ρk+1
Aunque el artículo se enfoca principalmente en análisis teórico, proporciona perspectivas clave sobre rendimiento:
- Eficiencia de Memoria: El modo Weil evita el almacenamiento de cinta inversa
- Amigable con Paralelización: Las operaciones de coeficientes soportan naturalmente vectorización
- Estabilidad Numérica: El error de truncamiento puede controlarse explícitamente
- Perspectiva de Teoría de Categorías en DA: Elliott (2018), Fong et al. (2019) propusieron formulaciones funtoriales de DA
- Teoría Geométrica de DA: Betancourt (2018) exploró la aplicación de geometría de chorros en DA
- Algoritmos de DA de Orden Superior: Giles (2008), Fike y Alonso (2012) analizaron estabilidad numérica
- Completitud Teórica: Primera provisión de un marco teórico geométrico completo para DA
- Practicidad: El método de álgebra de Weil tensorializada tiene valor de aplicación práctica
- Unidad: Unifica los modos inverso, directo y de orden superior de DA bajo el mismo marco
- Unificación Geométrica: Todos los modos de DA pueden entenderse de manera unificada bajo el marco de geometría diferencial
- Ventajas Computacionales: El álgebra de Weil tensorializada proporciona un método eficiente para el cálculo de derivadas de orden superior
- Análisis Teórico Completo: Proporciona análisis teórico completo de corrección, estabilidad y complejidad
- Complejidad de Implementación: La implementación práctica del álgebra de Weil requiere estructuras de datos cuidadosamente diseñadas
- Rango de Aplicabilidad: Principalmente aplicable a escenarios que requieren derivadas mixtas densas
- Precisión Numérica: El cálculo de orden superior puede enfrentar problemas de precisión numérica
- DA Intrínseca en Variedades: Extensión a variedades riemannianas generales
- Optimización Restringida por EDPs: Aplicación a problemas variacionales y restringidos por EDPs
- Compresión de Tensores de Orden Superior: Desarrollo de técnicas de compresión para matrices de coeficientes
- Elevación de Reglas Primitivas: Sistematización de la elevación de álgebra lineal y funciones especiales a álgebras de Weil
- Fuerte Innovación Teórica: Primera construcción de un marco teórico geométrico completo para DA
- Rigor Matemático: Todos los teoremas cuentan con pruebas matemáticas completas
- Alto Valor Práctico: El método de álgebra de Weil tensorializada resuelve problemas computacionales reales
- Claridad de Expresión: Los conceptos matemáticos complejos se explican de manera relativamente clara
- Falta de Verificación Experimental: Principalmente trabajo teórico, carece de implementación de algoritmos reales y pruebas de rendimiento
- Limitación de Escenarios de Aplicación: Principalmente aplicable a escenarios específicos que requieren derivadas de orden superior
- Detalles de Implementación Insuficientes: Orientación limitada para la implementación de sistemas reales
- Valor Académico: Proporciona nuevas bases matemáticas para la teoría de DA
- Potencial de Aplicación: Tiene perspectivas de aplicación importante en computación científica y aprendizaje profundo geométrico
- Inspiración: Proporciona nuevas ideas para investigación en campos relacionados
- Computación Científica: Simulaciones físicas que requieren derivadas de alto orden y alta precisión
- Algoritmos de Optimización: Implementación eficiente de métodos de optimización de segundo orden
- Aprendizaje Profundo Geométrico: Entrenamiento de redes neuronales en variedades
- Metaaprendizaje: Algoritmos adaptativos que requieren gradientes de orden superior
El artículo cita 18 referencias importantes, principalmente incluyendo:
- Elliott (2018): Formulación funcional de DA
- Fong et al. (2019): Perspectiva de teoría de categorías de retropropagación
- Betancourt (2018): Teoría geométrica de DA de orden superior
- Baydin et al. (2018): Revisión de DA
- Kolář et al. (1993): Operaciones naturales en geometría diferencial
Evaluación General: Este es un artículo teórico de alta calidad que proporciona un nuevo marco teórico geométrico para la diferenciación automática. Aunque carece de verificación experimental, sus contribuciones teóricas son significativas y proporcionan una base matemática importante para el desarrollo de campos relacionados. El valor principal de este trabajo radica en la unificación teórica e innovación metodológica, teniendo importancia significativa para impulsar el desarrollo de la teoría de DA.