2025-11-20T09:19:22.153634

Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis

Sangha
We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
academic

Funtores de Chorro y Álgebras de Weil en Diferenciación Automática: Un Análisis Geométrico

Información Básica

  • ID del Artículo: 2510.14342
  • Título: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
  • Autor: Amandip Sangha (The Climate and Environmental Research Institute NILU, Noruega)
  • Clasificación: cs.LG math.DG stat.ML
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.14342

Resumen

Este artículo propone una formulación geométrica de la diferenciación automática (DA) basada en haces de chorros (jet bundles) y álgebras de Weil. El modo inverso de DA se presenta como un retroceso cotangente (cotangent-pullback), mientras que el modo Taylor corresponde a la evaluación en álgebras de Weil. Basándose en estos principios, el autor deriva enunciados concisos sobre corrección, estabilidad y complejidad: identidades funtoriales para el modo inverso, precisión algebraica para derivadas de orden superior, y límites explícitos para errores de truncamiento. El autor demuestra además que los álgebras de Weil tensorializadas permiten calcular todas las derivadas mixtas de una sola vez con costo lineal en la dimensión del álgebra, evitando la explosión combinatoria de los esquemas anidados JVP/VJP. Este marco interpreta la teoría de DA desde la perspectiva de la geometría diferencial, proporcionando una base para el desarrollo de métodos de diferenciación que preservan la estructura en aprendizaje profundo y computación científica.

Antecedentes de Investigación y Motivación

Problemas Fundamentales

La diferenciación automática (Automatic Differentiation, DA) es una técnica fundamental en el aprendizaje automático moderno y la computación científica, pero la teoría existente de DA carece de un marco teórico geométrico unificado, lo que genera:

  1. Dispersión Teórica: Los fundamentos teóricos del modo inverso de DA (retropropagación) y la DA de orden superior se encuentran dispersos en diferentes marcos matemáticos
  2. Explosión de Complejidad: El cálculo de derivadas mixtas de orden superior enfrenta problemas de explosión de complejidad combinatoria
  3. Falta de Invariancia: Los métodos existentes carecen de una interpretación geométrica independiente de coordenadas, afectando el análisis de estabilidad

Importancia de la Investigación

Esta investigación tiene una importancia significativa:

  • Unificación Teórica: Proporciona una base teórica de geometría diferencial unificada para DA
  • Eficiencia Computacional: Resuelve el problema de eficiencia en el cálculo de derivadas de orden superior
  • Perspectivas de Aplicación: Proporciona apoyo teórico para métodos conscientes de la geometría en aprendizaje profundo

Limitaciones de Métodos Existentes

  1. Métodos DA Tradicionales: Dependen de representación en coordenadas, carecen de invariancia geométrica
  2. Cálculo de Derivadas de Orden Superior: Los métodos JVP/VJP anidados presentan complejidad exponencial
  3. Análisis de Estabilidad: Carecen de una teoría sistemática de propagación de errores

Contribuciones Principales

  1. Establecimiento de la teoría geométrica de retropropagación: Demuestra que el modo inverso de DA es equivalente a la operación de retroceso cotangente, proporcionando una formulación independiente de coordenadas
  2. Propuesta del marco de álgebras de Weil: Expresa el modo Taylor de DA como evaluación precisa en álgebras de Weil, garantizando precisión algebraica
  3. Desarrollo del método de álgebras de Weil tensorializadas: Realiza el cálculo de todas las derivadas mixtas de una sola vez, con complejidad lineal en la dimensión del álgebra
  4. Provisión de análisis teórico completo: Incluye pruebas de corrección, límites de estabilidad y análisis de complejidad

Explicación Detallada de Métodos

Definición de Tareas

Dada una aplicación suave f:MNf: M \to N (donde M,NM, N son variedades suaves) y una función escalar :NR\ell: N \to \mathbb{R}, los objetivos son:

  1. Calcular el gradiente de la función compuesta f\ell \circ f
  2. Calcular derivadas de orden superior de ff
  3. Implementar los cálculos anteriores de manera geométricamente invariante

Marco Teórico Principal

1. Formulación Geométrica del Modo Inverso de DA

Teorema 1 (Retropropagación como Retroceso Cotangente): Para una aplicación suave f:MNf: M \to N y :NR\ell: N \to \mathbb{R}, se tiene: x(f)=(dfx)(df(x))\nabla_x(\ell \circ f) = (df_x)^*(d\ell_{f(x)})

Equivalentemente, a nivel de chorros: (j1f)(j1)=j1(f)(j^1f)^*(j^1\ell) = j^1(\ell \circ f)

Este teorema reformula la retropropagación como una operación de retroceso en espacios cotangentes, con los siguientes significados geométricos:

  • Independencia de Coordenadas: El resultado no depende de la elección de sistema de coordenadas específico
  • Propiedad Funtorial: Satisface (d(gf)x)=(dfx)(dgf(x))(d(g \circ f)_x)^* = (df_x)^* \circ (dg_{f(x)})^*
  • Naturalidad: Es compatible con reparametrizaciones suaves

2. Modo Taylor en Álgebras de Weil

Teorema 2 (Precisión de la Evaluación en Modo Weil): Sea WW un álgebra de Weil que satisface mk+1=0m^{k+1} = 0, entonces la aplicación elevada TWf:TWUTWRmT_W f: T_W U \to T_W \mathbb{R}^m calcula con precisión todas las derivadas de orden kk de ff en xx como coeficientes de la expansión de Taylor truncada.

Construcción del álgebra de Weil:

  • Forma W=R[ε]/(εk+1)W = \mathbb{R}[\varepsilon]/(\varepsilon^{k+1}) o forma de producto tensorial
  • La nilpotencia εk+1=0\varepsilon^{k+1} = 0 implementa automáticamente el truncamiento
  • Las operaciones algebraicas corresponden directamente a reglas de propagación de derivadas

3. Álgebras de Weil Tensorializadas

Teorema 3 (Complejidad de Álgebras de Weil Tensorializadas): Considérese el álgebra de Weil tensorializada: Wj=1pR[εj]/(εjρj+1),dimW=j=1p(ρj+1)W \cong \bigotimes_{j=1}^p \mathbb{R}[\varepsilon_j]/(\varepsilon_j^{\rho_j+1}), \quad \dim W = \prod_{j=1}^p (\rho_j + 1)

Una única evaluación de ff en el punto WW-ádico xW:=x+j=1pεjv(j)x_W := x + \sum_{j=1}^p \varepsilon_j v^{(j)} produce todas las derivadas direccionales mixtas, con complejidad temporal O(dimWQ)O(\dim W \cdot Q), donde QQ es el número de operaciones escalares del programa original.

Puntos de Innovación Técnica

  1. Unidad Geométrica: Primera unificación de todos los modos de DA bajo el marco de geometría diferencial
  2. Precisión Algebraica: Realiza precisión algebraica del truncamiento mediante nilpotencia, evitando errores numéricos
  3. Complejidad Lineal: El método tensorializado evita la explosión combinatoria de métodos anidados tradicionales
  4. Sin Cinta Inversa: El modo Weil solo requiere almacenar matrices de coeficientes, sin necesidad de almacenar gráficos de computación

Configuración Experimental

Verificación Teórica

El autor verifica principalmente la efectividad del método mediante análisis teórico, incluyendo:

  1. Verificación de Corrección: Mediante propiedades funtoriales
  2. Análisis de Estabilidad: Proporciona límites de error explícitos
  3. Análisis de Complejidad: Comparación teórica con métodos tradicionales

Análisis de Estabilidad

Lema 1 (Estabilidad Hacia Atrás del Escaneo Inverso): Para un programa lineal con primitivas {ϕi}i=1L\{\phi_i\}_{i=1}^L, si cada adjunto ϕi\phi_i^* satisface: ϕi(v)Liv,ϕ^i(v)ϕi(v)δiϕi(v)\|\phi_i^*(v)\| \leq L_i\|v\|, \quad \|\hat{\phi}_i^*(v) - \phi_i^*(v)\| \leq \delta_i\|\phi_i^*(v)\|

entonces el retroceso calculado satisface: f^(yˉ)(i=1L(1+δi)Li)yˉ\|\hat{f}^*(\bar{y})\| \leq \left(\prod_{i=1}^L (1+\delta_i)L_i\right)\|\bar{y}\|

Comparación de Complejidad

MétodoComplejidad TemporalComplejidad EspacialRequisito de Cinta
JVP/VJP AnidadoO((p+kk)Q)O(\binom{p+k}{k} \cdot Q)O(L)O(L) (cinta)
Weil TensorializadoO(j=1p(ρj+1)Q)O(\prod_{j=1}^p(\rho_j+1) \cdot Q)O(dimW)O(\dim W)No

Resultados Experimentales

Verificación de Resultados Teóricos

Envolvente de Crecimiento de Coeficientes

Corolario 1: Supóngase que fCk+1(Br(x),Rm)f \in C^{k+1}(B_r(x), \mathbb{R}^m) y sus derivadas satisfacen Df(z)M\|D^\ell f(z)\| \leq M_\ell, entonces los coeficientes de Taylor satisfacen: fα(x)Mαα!\|f_\alpha(x)\| \leq \frac{M_{|\alpha|}}{\alpha!}

Estabilidad de Truncamiento

Para tamaño de paso ρ<r\rho < r, el término residual satisface la estimación de Cauchy estándar: Rk+1(z)Mk+1(k+1)!ρk+1\|R_{k+1}(z)\| \leq \frac{M_{k+1}}{(k+1)!}\rho^{k+1}

Análisis de Rendimiento Práctico

Aunque el artículo se enfoca principalmente en análisis teórico, proporciona perspectivas clave sobre rendimiento:

  1. Eficiencia de Memoria: El modo Weil evita el almacenamiento de cinta inversa
  2. Amigable con Paralelización: Las operaciones de coeficientes soportan naturalmente vectorización
  3. Estabilidad Numérica: El error de truncamiento puede controlarse explícitamente

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Perspectiva de Teoría de Categorías en DA: Elliott (2018), Fong et al. (2019) propusieron formulaciones funtoriales de DA
  2. Teoría Geométrica de DA: Betancourt (2018) exploró la aplicación de geometría de chorros en DA
  3. Algoritmos de DA de Orden Superior: Giles (2008), Fike y Alonso (2012) analizaron estabilidad numérica

Ventajas Relativas de Este Artículo

  1. Completitud Teórica: Primera provisión de un marco teórico geométrico completo para DA
  2. Practicidad: El método de álgebra de Weil tensorializada tiene valor de aplicación práctica
  3. Unidad: Unifica los modos inverso, directo y de orden superior de DA bajo el mismo marco

Conclusiones y Discusión

Conclusiones Principales

  1. Unificación Geométrica: Todos los modos de DA pueden entenderse de manera unificada bajo el marco de geometría diferencial
  2. Ventajas Computacionales: El álgebra de Weil tensorializada proporciona un método eficiente para el cálculo de derivadas de orden superior
  3. Análisis Teórico Completo: Proporciona análisis teórico completo de corrección, estabilidad y complejidad

Limitaciones

  1. Complejidad de Implementación: La implementación práctica del álgebra de Weil requiere estructuras de datos cuidadosamente diseñadas
  2. Rango de Aplicabilidad: Principalmente aplicable a escenarios que requieren derivadas mixtas densas
  3. Precisión Numérica: El cálculo de orden superior puede enfrentar problemas de precisión numérica

Direcciones Futuras

  1. DA Intrínseca en Variedades: Extensión a variedades riemannianas generales
  2. Optimización Restringida por EDPs: Aplicación a problemas variacionales y restringidos por EDPs
  3. Compresión de Tensores de Orden Superior: Desarrollo de técnicas de compresión para matrices de coeficientes
  4. Elevación de Reglas Primitivas: Sistematización de la elevación de álgebra lineal y funciones especiales a álgebras de Weil

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Teórica: Primera construcción de un marco teórico geométrico completo para DA
  2. Rigor Matemático: Todos los teoremas cuentan con pruebas matemáticas completas
  3. Alto Valor Práctico: El método de álgebra de Weil tensorializada resuelve problemas computacionales reales
  4. Claridad de Expresión: Los conceptos matemáticos complejos se explican de manera relativamente clara

Insuficiencias

  1. Falta de Verificación Experimental: Principalmente trabajo teórico, carece de implementación de algoritmos reales y pruebas de rendimiento
  2. Limitación de Escenarios de Aplicación: Principalmente aplicable a escenarios específicos que requieren derivadas de orden superior
  3. Detalles de Implementación Insuficientes: Orientación limitada para la implementación de sistemas reales

Influencia

  1. Valor Académico: Proporciona nuevas bases matemáticas para la teoría de DA
  2. Potencial de Aplicación: Tiene perspectivas de aplicación importante en computación científica y aprendizaje profundo geométrico
  3. Inspiración: Proporciona nuevas ideas para investigación en campos relacionados

Escenarios Aplicables

  1. Computación Científica: Simulaciones físicas que requieren derivadas de alto orden y alta precisión
  2. Algoritmos de Optimización: Implementación eficiente de métodos de optimización de segundo orden
  3. Aprendizaje Profundo Geométrico: Entrenamiento de redes neuronales en variedades
  4. Metaaprendizaje: Algoritmos adaptativos que requieren gradientes de orden superior

Referencias

El artículo cita 18 referencias importantes, principalmente incluyendo:

  • Elliott (2018): Formulación funcional de DA
  • Fong et al. (2019): Perspectiva de teoría de categorías de retropropagación
  • Betancourt (2018): Teoría geométrica de DA de orden superior
  • Baydin et al. (2018): Revisión de DA
  • Kolář et al. (1993): Operaciones naturales en geometría diferencial

Evaluación General: Este es un artículo teórico de alta calidad que proporciona un nuevo marco teórico geométrico para la diferenciación automática. Aunque carece de verificación experimental, sus contribuciones teóricas son significativas y proporcionan una base matemática importante para el desarrollo de campos relacionados. El valor principal de este trabajo radica en la unificación teórica e innovación metodológica, teniendo importancia significativa para impulsar el desarrollo de la teoría de DA.