We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
- ID Articolo: 2510.14342
- Titolo: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
- Autore: Amandip Sangha (The Climate and Environmental Research Institute NILU, Norvegia)
- Classificazione: cs.LG math.DG stat.ML
- Data di Pubblicazione: 16 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.14342
Questo articolo propone una formulazione geometrica della differenziazione automatica (AD) basata su fasci jet (jet bundles) e algebre di Weil. La modalità inversa AD si manifesta come ritiro cotangente (cotangent-pullback), mentre la modalità Taylor corrisponde alla valutazione nelle algebre di Weil. Sulla base di questi principi, l'autore deriva affermazioni concise riguardanti la correttezza, la stabilità e la complessità: l'identità funtoriale della modalità inversa, la precisione algebrica per le derivate di ordine superiore e i limiti espliciti dell'errore di troncamento. L'autore dimostra inoltre che le algebre di Weil tensorizzate consentono il calcolo di tutte le derivate miste in una singola passata con costo lineare rispetto alla dimensione algebrica, evitando l'esplosione combinatoria della pianificazione JVP/VJP annidati. Questo framework interpreta la teoria AD attraverso la prospettiva della geometria differenziale, fornendo le basi per lo sviluppo di metodi di differenziazione che preservano la struttura nell'apprendimento profondo e nel calcolo scientifico.
La differenziazione automatica (Automatic Differentiation, AD) è una tecnologia fondamentale nel machine learning moderno e nel calcolo scientifico, ma la teoria AD esistente manca di un framework teorico geometrico unificato, causando:
- Frammentazione Teorica: Le basi teoriche della modalità inversa AD (backpropagation) e dell'AD di ordine superiore sono disperse in diversi framework matematici
- Esplosione di Complessità: Il calcolo di derivate miste di ordine superiore affronta problemi di esplosione combinatoria della complessità
- Mancanza di Invarianza: I metodi esistenti mancano di interpretazioni geometriche indipendenti dalle coordinate, influenzando l'analisi di stabilità
Questa ricerca ha un'importanza significativa:
- Unificazione Teorica: Fornisce una base teorica di geometria differenziale unificata per AD
- Efficienza Computazionale: Risolve il problema dell'efficienza nel calcolo di derivate di ordine superiore
- Prospettive Applicative: Fornisce supporto teorico per metodi consapevoli della geometria nell'apprendimento profondo
- Metodi AD Tradizionali: Dipendono dalla rappresentazione in coordinate, mancano di invarianza geometrica
- Calcolo di Derivate di Ordine Superiore: I metodi JVP/VJP annidati presentano complessità esponenziale
- Analisi di Stabilità: Manca una teoria sistematica della propagazione degli errori
- Stabilimento della teoria geometrica della retropropagazione: Dimostra che la modalità inversa AD è equivalente all'operazione di ritiro cotangente, fornendo una formulazione indipendente dalle coordinate
- Proposta del framework delle algebre di Weil: Esprime la modalità Taylor AD come valutazione precisa nelle algebre di Weil, garantendo la precisione algebrica
- Sviluppo del metodo delle algebre di Weil tensorizzate: Realizza il calcolo di tutte le derivate miste in una singola passata, con complessità lineare rispetto alla dimensione algebrica
- Fornitura di analisi teorica completa: Include prove di correttezza, limiti di stabilità e analisi di complessità
Dato un'applicazione liscia f:M→N (dove M,N sono varietà lisce) e una funzione scalare ℓ:N→R, l'obiettivo è:
- Calcolare il gradiente della funzione composta ℓ∘f
- Calcolare le derivate di ordine superiore di f
- Implementare i calcoli precedenti in modo geometricamente invariante
Teorema 1 (Retropropagazione come Ritiro Cotangente): Per un'applicazione liscia f:M→N e ℓ:N→R, vale:
∇x(ℓ∘f)=(dfx)∗(dℓf(x))
Equivalentemente, a livello jet: (j1f)∗(j1ℓ)=j1(ℓ∘f)
Questo teorema riformula la retropropagazione come operazione di ritiro sullo spazio cotangente, con i seguenti significati geometrici:
- Indipendenza dalle Coordinate: Il risultato non dipende dalla scelta di un sistema di coordinate specifico
- Proprietà Funtoriale: Soddisfa (d(g∘f)x)∗=(dfx)∗∘(dgf(x))∗
- Naturalità: È compatibile con riparametrizzazioni lisce
Teorema 2 (Precisione della Valutazione in Modalità Weil): Sia W un'algebra di Weil che soddisfa mk+1=0, allora l'applicazione di sollevamento TWf:TWU→TWRm calcola precisamente tutte le derivate di ordine k di f in x come coefficienti dell'espansione di Taylor troncata.
Costruzione dell'algebra di Weil:
- Forma W=R[ε]/(εk+1) o forma di prodotto tensoriale
- La nilpotenza εk+1=0 realizza automaticamente il troncamento
- Le operazioni algebriche corrispondono direttamente alle regole di propagazione delle derivate
Teorema 3 (Complessità delle Algebre di Weil Tensorizzate): Considerando l'algebra di Weil tensorizzata:
W≅⨂j=1pR[εj]/(εjρj+1),dimW=∏j=1p(ρj+1)
Una singola valutazione di f nel punto W-valued xW:=x+∑j=1pεjv(j) produce tutte le derivate direzionali miste, con complessità temporale O(dimW⋅Q), dove Q è il numero di operazioni scalari del programma originale.
- Unità Geometrica: Unifica per la prima volta tutte le modalità AD sotto il framework della geometria differenziale
- Precisione Algebrica: Realizza la precisione algebrica del troncamento attraverso la nilpotenza, evitando errori numerici
- Complessità Lineare: Il metodo tensorizzato evita l'esplosione combinatoria dei metodi annidati tradizionali
- Nessun Nastro Inverso Necessario: La modalità Weil richiede solo l'archiviazione di array di coefficienti, non richiede l'archiviazione del grafo computazionale
L'autore verifica principalmente l'efficacia del metodo attraverso l'analisi teorica, inclusa:
- Verifica di Correttezza: Attraverso proprietà funtoriali
- Analisi di Stabilità: Fornisce limiti di errore espliciti
- Analisi di Complessità: Confronto teorico con metodi tradizionali
Lemma 1 (Stabilità Retrograda della Scansione Inversa): Per un programma lineare con primitivi {ϕi}i=1L, se ogni aggiunto ϕi∗ soddisfa:
∥ϕi∗(v)∥≤Li∥v∥,∥ϕ^i∗(v)−ϕi∗(v)∥≤δi∥ϕi∗(v)∥
allora il ritiro calcolato soddisfa:
∥f^∗(yˉ)∥≤(∏i=1L(1+δi)Li)∥yˉ∥
| Metodo | Complessità Temporale | Complessità Spaziale | Richiesta Nastro |
|---|
| JVP/VJP Annidati | O((kp+k)⋅Q) | O(L) (nastro) | Sì |
| Weil Tensorizzato | O(∏j=1p(ρj+1)⋅Q) | O(dimW) | No |
Corollario 1: Assumendo f∈Ck+1(Br(x),Rm) e le sue derivate soddisfano ∥Dℓf(z)∥≤Mℓ, i coefficienti di Taylor soddisfano:
∥fα(x)∥≤α!M∣α∣
Per il passo ρ<r, il resto soddisfa la stima di Cauchy standard:
∥Rk+1(z)∥≤(k+1)!Mk+1ρk+1
Sebbene l'articolo si concentri principalmente sull'analisi teorica, fornisce intuizioni critiche sulle prestazioni:
- Efficienza di Memoria: La modalità Weil evita l'archiviazione del nastro inverso
- Compatibilità con Parallelizzazione: Le operazioni sui coefficienti supportano naturalmente la vettorizzazione
- Stabilità Numerica: L'errore di troncamento può essere controllato esplicitamente
- Prospettiva della Teoria delle Categorie su AD: Elliott (2018), Fong et al. (2019) hanno proposto formulazioni funtoriali di AD
- Teoria Geometrica di AD: Betancourt (2018) ha esplorato l'applicazione della geometria jet in AD
- Algoritmi AD di Ordine Superiore: Giles (2008), Fike e Alonso (2012) hanno analizzato la stabilità numerica
- Completezza Teorica: Fornisce per la prima volta un framework teorico geometrico completo per AD
- Praticità: Il metodo dell'algebra di Weil tensorizzata ha valore di applicazione pratica
- Unità: Unifica le modalità inversa, diretta e AD di ordine superiore nello stesso framework
- Unità Geometrica: Tutte le modalità di AD possono essere comprese uniformemente nel framework della geometria differenziale
- Vantaggi Computazionali: L'algebra di Weil tensorizzata fornisce un metodo efficiente per il calcolo di derivate di ordine superiore
- Completezza Teorica: Fornisce un'analisi teorica completa di correttezza, stabilità e complessità
- Complessità di Implementazione: L'implementazione pratica dell'algebra di Weil richiede strutture dati progettate con cura
- Ambito di Applicabilità: Principalmente applicabile a scenari che richiedono derivate miste dense
- Precisione Numerica: I calcoli di ordine superiore potrebbero affrontare problemi di precisione numerica
- AD Intrinseca su Varietà: Estensione a varietà riemanniane generali
- Ottimizzazione Vincolata da PDE: Applicazione a problemi variazionali e vincolati da PDE
- Compressione Tensoriale di Ordine Superiore: Sviluppo di tecniche di compressione per array di coefficienti
- Sollevamento Sistematico di Primitive: Sistematizzazione del sollevamento di algebra lineare e funzioni speciali alle algebre di Weil
- Forte Innovazione Teorica: Stabilisce per la prima volta un framework teorico geometrico completo per AD
- Rigore Matematico: Tutti i teoremi hanno prove matematiche complete
- Alto Valore Pratico: Il metodo dell'algebra di Weil tensorizzata risolve problemi computazionali reali
- Chiarezza di Esposizione: I concetti matematici complessi sono spiegati in modo relativamente chiaro
- Mancanza di Verifica Sperimentale: Principalmente lavoro teorico, mancano implementazioni di algoritmi effettivi e test di prestazioni
- Limitazione degli Scenari Applicativi: Principalmente applicabile a scenari specifici che richiedono derivate di ordine superiore
- Insufficienza di Dettagli di Implementazione: Guida limitata per l'implementazione pratica del sistema
- Valore Accademico: Fornisce nuove basi matematiche per la teoria di AD
- Potenziale Applicativo: Ha importanti prospettive di applicazione nel calcolo scientifico e nell'apprendimento profondo geometrico
- Natura Ispirativa: Fornisce nuove prospettive per la ricerca in campi correlati
- Calcolo Scientifico: Simulazioni fisiche che richiedono derivate di ordine superiore ad alta precisione
- Algoritmi di Ottimizzazione: Implementazione efficiente di metodi di ottimizzazione del secondo ordine
- Apprendimento Profondo Geometrico: Addestramento di reti neurali su varietà
- Meta-apprendimento: Algoritmi adattivi che richiedono gradienti di ordine superiore
L'articolo cita 18 importanti riferimenti, principalmente includenti:
- Elliott (2018): Formulazione funzionale di AD
- Fong et al. (2019): Prospettiva della teoria delle categorie sulla retropropagazione
- Betancourt (2018): Teoria geometrica di AD di ordine superiore
- Baydin et al. (2018): Rassegna di AD
- Kolář et al. (1993): Operazioni naturali in geometria differenziale
Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce un nuovo framework teorico geometrico per la differenziazione automatica. Sebbene manchi di verifica sperimentale, i suoi contributi teorici sono significativi e fornisce basi matematiche importanti per lo sviluppo di campi correlati. Il valore principale di questo lavoro risiede nell'unificazione teorica e nell'innovazione metodologica, ed è di importanza significativa per promuovere lo sviluppo della teoria di AD.