We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
- Paper-ID: 2510.14342
- Titel: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
- Autor: Amandip Sangha (The Climate and Environmental Research Institute NILU, Norwegen)
- Klassifizierung: cs.LG math.DG stat.ML
- Veröffentlichungsdatum: 16. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.14342
Diese Arbeit präsentiert eine geometrische Formulierung der automatischen Differentiation (AD) basierend auf Jet-Bündeln (jet bundles) und Weil-Algebren. Der Rückwärtsmodus-AD wird als Kotangenten-Pullback (cotangent-pullback) dargestellt, während der Taylor-Modus der Auswertung in Weil-Algebren entspricht. Basierend auf diesen Prinzipien leitet der Autor prägnante Aussagen über Korrektheit, Stabilität und Komplexität ab: Funktorialidentitäten für den Rückwärtsmodus, algebraische Exaktheit für höhere Ableitungen sowie explizite Fehlerschranken für Abbruchfehler. Der Autor zeigt weiterhin, dass tensorisierte Weil-Algebren die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearen Kosten bezüglich der Algebradimension ermöglichen und so die kombinatorische Explosion verschachtelter JVP/VJP-Planung vermeiden. Das Framework interpretiert die AD-Theorie aus der Perspektive der Differentialgeometrie und bietet eine Grundlage für die Entwicklung strukturerhaltender Differentiationsmethoden in Deep Learning und wissenschaftlichem Rechnen.
Automatische Differentiation (Automatic Differentiation, AD) ist eine grundlegende Technik des modernen Machine Learning und wissenschaftlichen Rechnens, doch der bestehenden AD-Theorie fehlt ein einheitlicher geometrischer Theorierahmen, was zu folgenden Problemen führt:
- Theoretische Fragmentierung: Die theoretischen Grundlagen des Rückwärtsmodus-AD (Backpropagation) und höherer AD sind über verschiedene mathematische Frameworks verteilt
- Komplexitätsexplosion: Die Berechnung höherer gemischter Ableitungen sieht sich mit kombinatorischer Komplexitätsexplosion konfrontiert
- Fehlende Invarianz: Bestehende Methoden ermangeln einer koordinatenunabhängigen geometrischen Interpretation, was die Stabilitätsanalyse beeinträchtigt
Diese Forschung hat erhebliche Bedeutung:
- Theoretische Vereinigung: Bietet eine einheitliche differentialgeometrische Grundlage für AD
- Rechnerische Effizienz: Löst das Effizienzbroblem bei der Berechnung höherer Ableitungen
- Anwendungsperspektiven: Bietet theoretische Unterstützung für geometrisch bewusste Methoden im Deep Learning
- Traditionelle AD-Methoden: Basieren auf Koordinatendarstellung und ermangeln geometrischer Invarianz
- Berechnung höherer Ableitungen: Verschachtelte JVP/VJP-Methoden weisen exponentielle Komplexität auf
- Stabilitätsanalyse: Ermangeln einer systematischen Fehlerausbreitungstheorie
- Etablierung einer geometrischen Theorie der Rückwärtspropagation: Beweis, dass der Rückwärtsmodus-AD äquivalent zur Kotangenten-Pullback-Operation ist, mit koordinatenunabhängiger Formulierung
- Vorschlag eines Weil-Algebra-Frameworks: Formulierung des Taylor-Modus-AD als exakte Auswertung in Weil-Algebren, garantiert algebraische Exaktheit
- Entwicklung der tensorisierten Weil-Algebra-Methode: Ermöglicht die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearer Komplexität bezüglich der Algebradimension
- Bereitstellung einer vollständigen theoretischen Analyse: Einschließlich Korrektheitsbeweis, Stabilitätsschranken und Komplexitätsanalyse
Gegeben eine glatte Abbildung f:M→N (wobei M,N glatte Mannigfaltigkeiten sind) und eine Skalarfunktion ℓ:N→R, ist das Ziel:
- Den Gradienten der zusammengesetzten Funktion ℓ∘f zu berechnen
- Höhere Ableitungen von f zu berechnen
- Die obigen Berechnungen auf geometrisch invariante Weise zu implementieren
Satz 1 (Rückwärtspropagation als Kotangenten-Pullback): Für glatte Abbildungen f:M→N und ℓ:N→R gilt:
∇x(ℓ∘f)=(dfx)∗(dℓf(x))
Äquivalent auf der Jet-Ebene: (j1f)∗(j1ℓ)=j1(ℓ∘f)
Dieser Satz formuliert die Rückwärtspropagation als Pullback-Operation auf dem Kotangentialraum neu und hat folgende geometrische Bedeutung:
- Koordinatenunabhängigkeit: Das Ergebnis hängt nicht von der Wahl eines bestimmten Koordinatensystems ab
- Funktorialität: Erfüllt (d(g∘f)x)∗=(dfx)∗∘(dgf(x))∗
- Natürlichkeit: Kompatibel mit glatten Umparametrisierungen
Satz 2 (Exaktheit der Weil-Modus-Auswertung): Sei W eine Weil-Algebra mit mk+1=0, dann berechnet die Liftungsabbildung TWf:TWU→TWRm alle k-ten Ableitungen von f in x als Koeffizienten der abgebrochenen Taylor-Entwicklung exakt.
Konstruktion von Weil-Algebren:
- Form W=R[ε]/(εk+1) oder Tensorproduktform
- Nilpotenz εk+1=0 realisiert automatisch den Abbruch
- Algebraische Operationen entsprechen direkt den Ableitungsausbreitungsregeln
Satz 3 (Komplexität tensorisierter Weil-Algebren): Betrachten Sie die tensorisierte Weil-Algebra:
W≅⨂j=1pR[εj]/(εjρj+1),dimW=∏j=1p(ρj+1)
Eine einzelne Auswertung von f am W-Punkt xW:=x+∑j=1pεjv(j) erzeugt alle gemischten Richtungsableitungen mit Zeitkomplexität O(dimW⋅Q), wobei Q die Anzahl der Skalaroperationen des ursprünglichen Programms ist.
- Geometrische Vereinheitlichung: Erstmalige Vereinigung aller AD-Modi unter einem differentialgeometrischen Framework
- Algebraische Exaktheit: Realisierung algebraischer Exaktheit des Abbruchs durch Nilpotenz, Vermeidung numerischer Fehler
- Lineare Komplexität: Tensorisierte Methode vermeidet kombinatorische Explosion traditioneller verschachtelter Methoden
- Kein Rückwärtsband erforderlich: Der Weil-Modus erfordert nur Speicherung von Koeffizientenarrays, keine Speicherung des Berechnungsgraphen
Der Autor verifiziert die Wirksamkeit der Methode hauptsächlich durch theoretische Analyse, einschließlich:
- Korrektheitsprüfung: Durch Funktorialitätseigenschaften
- Stabilitätsanalyse: Bereitstellung expliziter Fehlerschranken
- Komplexitätsanalyse: Theoretischer Vergleich mit traditionellen Methoden
Lemma 1 (Rückwärtsstabilität des Rückwärtsdurchlaufs): Für ein lineares Programm mit Primitiven {ϕi}i=1L, wenn jedes adjungierte ϕi∗ erfüllt:
∥ϕi∗(v)∥≤Li∥v∥,∥ϕ^i∗(v)−ϕi∗(v)∥≤δi∥ϕi∗(v)∥
dann erfüllt der berechnete Pullback:
∥f^∗(yˉ)∥≤(∏i=1L(1+δi)Li)∥yˉ∥
| Methode | Zeitkomplexität | Speicherkomplexität | Bandanforderung |
|---|
| Verschachteltes JVP/VJP | O((kp+k)⋅Q) | O(L) (Band) | Ja |
| Tensorisierte Weil | O(∏j=1p(ρj+1)⋅Q) | O(dimW) | Nein |
Korollar 1: Angenommen f∈Ck+1(Br(x),Rm) und ihre Ableitungen erfüllen ∥Dℓf(z)∥≤Mℓ, dann erfüllen die Taylor-Koeffizienten:
∥fα(x)∥≤α!M∣α∣
Für Schrittweite ρ<r erfüllt der Restterm die standardmäßige Cauchy-Schätzung:
∥Rk+1(z)∥≤(k+1)!Mk+1ρk+1
Obwohl die Arbeit hauptsächlich auf theoretische Analyse fokussiert, bietet sie wichtige Leistungseinsichten:
- Speichereffizienz: Der Weil-Modus vermeidet Rückwärtsband-Speicherung
- Parallelisierungsfreundlich: Koeffizientenoperationen unterstützen natürlich Vektorisierung
- Numerische Stabilität: Abbruchfehler können explizit kontrolliert werden
- Kategorientheoretische Perspektive auf AD: Elliott (2018), Fong et al. (2019) präsentierten funktoriale Formulierungen von AD
- Geometrische AD-Theorie: Betancourt (2018) erkundete Jet-Geometrie in AD
- Algorithmen für höhere AD: Giles (2008), Fike und Alonso (2012) analysierten numerische Stabilität
- Theoretische Vollständigkeit: Erstmalige Bereitstellung eines vollständigen geometrischen Theorierahmens für AD
- Praktikalität: Die tensorisierte Weil-Algebra-Methode hat praktischen Anwendungswert
- Vereinheitlichung: Vereinigung von Rückwärts-, Vorwärts- und höherer AD im gleichen Framework
- Geometrische Vereinigung: Alle AD-Modi können unter einem differentialgeometrischen Framework einheitlich verstanden werden
- Rechnerische Vorteile: Tensorisierte Weil-Algebren bieten eine effiziente Methode zur Berechnung höherer Ableitungen
- Theoretische Vollständigkeit: Bietet vollständige theoretische Analyse von Korrektheit, Stabilität und Komplexität
- Implementierungskomplexität: Die praktische Implementierung von Weil-Algebren erfordert sorgfältig gestaltete Datenstrukturen
- Anwendungsbereich: Hauptsächlich anwendbar auf Szenarien, die dichte gemischte Ableitungen erfordern
- Numerische Genauigkeit: Höhere Berechnungen können mit Genauigkeitsproblemen konfrontiert sein
- Intrinsische AD auf Mannigfaltigkeiten: Erweiterung auf allgemeine Riemannsche Mannigfaltigkeiten
- PDE-beschränkte Optimierung: Anwendung auf Variations- und PDE-beschränkte Probleme
- Kompression höherer Tensoren: Entwicklung von Kompressionstechniken für Koeffizientenarrays
- Systematische Primitive-Liftung: Systematische Liftung von linearer Algebra und speziellen Funktionen zu Weil-Algebren
- Starke theoretische Innovation: Erstmalige Etablierung eines vollständigen geometrischen Theorierahmens für AD
- Mathematische Strenge: Alle Sätze haben vollständige mathematische Beweise
- Hoher praktischer Wert: Die tensorisierte Weil-Algebra-Methode löst praktische Rechnerprobleme
- Klare Darstellung: Komplexe mathematische Konzepte sind relativ verständlich erklärt
- Fehlende experimentelle Verifikation: Hauptsächlich theoretische Arbeit, mangelnde praktische Algorithmusimplementierung und Leistungstests
- Begrenzte Anwendungsszenarien: Hauptsächlich anwendbar auf spezifische Szenarien, die höhere Ableitungen erfordern
- Unzureichende Implementierungsdetails: Begrenzte Anleitung für praktische Systemimplementierung
- Akademischer Wert: Bietet neue mathematische Grundlagen für die AD-Theorie
- Anwendungspotential: Wichtige Anwendungsperspektiven in wissenschaftlichem Rechnen und geometrischem Deep Learning
- Inspirationskraft: Bietet neue Perspektiven für verwandte Forschungsbereiche
- Wissenschaftliches Rechnen: Physikalische Simulationen, die hochpräzise höhere Ableitungen erfordern
- Optimierungsalgorithmen: Effiziente Implementierung von Optimierungsmethoden zweiter Ordnung
- Geometrisches Deep Learning: Neuronale Netzwerk-Training auf Mannigfaltigkeiten
- Meta-Learning: Adaptive Algorithmen, die höhere Gradienten erfordern
Die Arbeit zitiert 18 wichtige Referenzen, hauptsächlich einschließlich:
- Elliott (2018): Funktionale Formulierung von AD
- Fong et al. (2019): Kategorientheoretische Perspektive auf Rückwärtspropagation
- Betancourt (2018): Geometrische Theorie höherer AD
- Baydin et al. (2018): AD-Übersicht
- Kolář et al. (1993): Natürliche Operationen in Differentialgeometrie
Gesamtbewertung: Dies ist eine hochwertige theoretische Arbeit, die einen völlig neuen geometrischen Theorierahmen für automatische Differentiation bietet. Obwohl experimentelle Verifikation fehlt, sind ihre theoretischen Beiträge erheblich und bieten wichtige mathematische Grundlagen für die Entwicklung verwandter Bereiche. Der Hauptwert dieser Arbeit liegt in theoretischer Vereinigung und methodischer Innovation und hat wichtige Bedeutung für die Förderung der AD-Theorieentwicklung.