2025-11-20T09:19:22.153634

Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis

Sangha

We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.

academic

Jet-Funktoren und Weil-Algebren in Automatischer Differentiation: Eine Geometrische Analyse

Grundinformationen

Paper-ID: 2510.14342
Titel: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
Autor: Amandip Sangha (The Climate and Environmental Research Institute NILU, Norwegen)
Klassifizierung: cs.LG math.DG stat.ML
Veröffentlichungsdatum: 16. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.14342

Zusammenfassung

Diese Arbeit präsentiert eine geometrische Formulierung der automatischen Differentiation (AD) basierend auf Jet-Bündeln (jet bundles) und Weil-Algebren. Der Rückwärtsmodus-AD wird als Kotangenten-Pullback (cotangent-pullback) dargestellt, während der Taylor-Modus der Auswertung in Weil-Algebren entspricht. Basierend auf diesen Prinzipien leitet der Autor prägnante Aussagen über Korrektheit, Stabilität und Komplexität ab: Funktorialidentitäten für den Rückwärtsmodus, algebraische Exaktheit für höhere Ableitungen sowie explizite Fehlerschranken für Abbruchfehler. Der Autor zeigt weiterhin, dass tensorisierte Weil-Algebren die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearen Kosten bezüglich der Algebradimension ermöglichen und so die kombinatorische Explosion verschachtelter JVP/VJP-Planung vermeiden. Das Framework interpretiert die AD-Theorie aus der Perspektive der Differentialgeometrie und bietet eine Grundlage für die Entwicklung strukturerhaltender Differentiationsmethoden in Deep Learning und wissenschaftlichem Rechnen.

Forschungshintergrund und Motivation

Kernprobleme

Automatische Differentiation (Automatic Differentiation, AD) ist eine grundlegende Technik des modernen Machine Learning und wissenschaftlichen Rechnens, doch der bestehenden AD-Theorie fehlt ein einheitlicher geometrischer Theorierahmen, was zu folgenden Problemen führt:

Theoretische Fragmentierung: Die theoretischen Grundlagen des Rückwärtsmodus-AD (Backpropagation) und höherer AD sind über verschiedene mathematische Frameworks verteilt
Komplexitätsexplosion: Die Berechnung höherer gemischter Ableitungen sieht sich mit kombinatorischer Komplexitätsexplosion konfrontiert
Fehlende Invarianz: Bestehende Methoden ermangeln einer koordinatenunabhängigen geometrischen Interpretation, was die Stabilitätsanalyse beeinträchtigt

Forschungsbedeutung

Diese Forschung hat erhebliche Bedeutung:

Theoretische Vereinigung: Bietet eine einheitliche differentialgeometrische Grundlage für AD
Rechnerische Effizienz: Löst das Effizienzbroblem bei der Berechnung höherer Ableitungen
Anwendungsperspektiven: Bietet theoretische Unterstützung für geometrisch bewusste Methoden im Deep Learning

Einschränkungen bestehender Methoden

Traditionelle AD-Methoden: Basieren auf Koordinatendarstellung und ermangeln geometrischer Invarianz
Berechnung höherer Ableitungen: Verschachtelte JVP/VJP-Methoden weisen exponentielle Komplexität auf
Stabilitätsanalyse: Ermangeln einer systematischen Fehlerausbreitungstheorie

Kernbeiträge

Etablierung einer geometrischen Theorie der Rückwärtspropagation: Beweis, dass der Rückwärtsmodus-AD äquivalent zur Kotangenten-Pullback-Operation ist, mit koordinatenunabhängiger Formulierung
Vorschlag eines Weil-Algebra-Frameworks: Formulierung des Taylor-Modus-AD als exakte Auswertung in Weil-Algebren, garantiert algebraische Exaktheit
Entwicklung der tensorisierten Weil-Algebra-Methode: Ermöglicht die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearer Komplexität bezüglich der Algebradimension
Bereitstellung einer vollständigen theoretischen Analyse: Einschließlich Korrektheitsbeweis, Stabilitätsschranken und Komplexitätsanalyse

Methodische Details

Aufgabendefinition

Gegeben eine glatte Abbildung $f: M \to N$ (wobei $M, N$ glatte Mannigfaltigkeiten sind) und eine Skalarfunktion $\ell: N \to \mathbb{R}$ , ist das Ziel:

Den Gradienten der zusammengesetzten Funktion $\ell \circ f$ zu berechnen
Höhere Ableitungen von $f$ zu berechnen
Die obigen Berechnungen auf geometrisch invariante Weise zu implementieren

Zentraler Theorierahmen

1. Geometrische Formulierung des Rückwärtsmodus-AD

Satz 1 (Rückwärtspropagation als Kotangenten-Pullback): Für glatte Abbildungen $f: M \to N$ und $\ell: N \to \mathbb{R}$ gilt: $\nabla_x(\ell \circ f) = (df_x)^*(d\ell_{f(x)})$

Äquivalent auf der Jet-Ebene: $(j^1f)^*(j^1\ell) = j^1(\ell \circ f)$

Dieser Satz formuliert die Rückwärtspropagation als Pullback-Operation auf dem Kotangentialraum neu und hat folgende geometrische Bedeutung:

Koordinatenunabhängigkeit: Das Ergebnis hängt nicht von der Wahl eines bestimmten Koordinatensystems ab
Funktorialität: Erfüllt $(d(g \circ f)_x)^* = (df_x)^* \circ (dg_{f(x)})^*$
Natürlichkeit: Kompatibel mit glatten Umparametrisierungen

2. Taylor-Modus in Weil-Algebren

Satz 2 (Exaktheit der Weil-Modus-Auswertung): Sei $W$ eine Weil-Algebra mit $m^{k+1} = 0$ , dann berechnet die Liftungsabbildung $T_W f: T_W U \to T_W \mathbb{R}^m$ alle $k$ -ten Ableitungen von $f$ in $x$ als Koeffizienten der abgebrochenen Taylor-Entwicklung exakt.

Konstruktion von Weil-Algebren:

Form $W = \mathbb{R}[\varepsilon]/(\varepsilon^{k+1})$ oder Tensorproduktform
Nilpotenz $\varepsilon^{k+1} = 0$ realisiert automatisch den Abbruch
Algebraische Operationen entsprechen direkt den Ableitungsausbreitungsregeln

3. Tensorisierte Weil-Algebren

Satz 3 (Komplexität tensorisierter Weil-Algebren): Betrachten Sie die tensorisierte Weil-Algebra: $W \cong \bigotimes_{j=1}^p \mathbb{R}[\varepsilon_j]/(\varepsilon_j^{\rho_j+1}), \quad \dim W = \prod_{j=1}^p (\rho_j + 1)$

Eine einzelne Auswertung von $f$ am $W$ -Punkt $x_W := x + \sum_{j=1}^p \varepsilon_j v^{(j)}$ erzeugt alle gemischten Richtungsableitungen mit Zeitkomplexität $O(\dim W \cdot Q)$ , wobei $Q$ die Anzahl der Skalaroperationen des ursprünglichen Programms ist.

Technische Innovationen

Geometrische Vereinheitlichung: Erstmalige Vereinigung aller AD-Modi unter einem differentialgeometrischen Framework
Algebraische Exaktheit: Realisierung algebraischer Exaktheit des Abbruchs durch Nilpotenz, Vermeidung numerischer Fehler
Lineare Komplexität: Tensorisierte Methode vermeidet kombinatorische Explosion traditioneller verschachtelter Methoden
Kein Rückwärtsband erforderlich: Der Weil-Modus erfordert nur Speicherung von Koeffizientenarrays, keine Speicherung des Berechnungsgraphen

Experimentelle Einrichtung

Theoretische Verifikation

Der Autor verifiziert die Wirksamkeit der Methode hauptsächlich durch theoretische Analyse, einschließlich:

Korrektheitsprüfung: Durch Funktorialitätseigenschaften
Stabilitätsanalyse: Bereitstellung expliziter Fehlerschranken
Komplexitätsanalyse: Theoretischer Vergleich mit traditionellen Methoden

Stabilitätsanalyse

Lemma 1 (Rückwärtsstabilität des Rückwärtsdurchlaufs): Für ein lineares Programm mit Primitiven $\{\phi_i\}_{i=1}^L$ , wenn jedes adjungierte $\phi_i^*$ erfüllt: $\|\phi_i^*(v)\| \leq L_i\|v\|, \quad \|\hat{\phi}_i^*(v) - \phi_i^*(v)\| \leq \delta_i\|\phi_i^*(v)\|$

dann erfüllt der berechnete Pullback: $\|\hat{f}^*(\bar{y})\| \leq \left(\prod_{i=1}^L (1+\delta_i)L_i\right)\|\bar{y}\|$

Komplexitätsvergleich

Methode	Zeitkomplexität	Speicherkomplexität	Bandanforderung
Verschachteltes JVP/VJP	$O(\binom{p+k}{k} \cdot Q)$	$O(L)$ (Band)	Ja
Tensorisierte Weil	$O(\prod_{j=1}^p(\rho_j+1) \cdot Q)$	$O(\dim W)$	Nein

Experimentelle Ergebnisse

Verifikation theoretischer Ergebnisse

Koeffizientenwachstums-Einhüllende

Korollar 1: Angenommen $f \in C^{k+1}(B_r(x), \mathbb{R}^m)$ und ihre Ableitungen erfüllen $\|D^\ell f(z)\| \leq M_\ell$ , dann erfüllen die Taylor-Koeffizienten: $\|f_\alpha(x)\| \leq \frac{M_{|\alpha|}}{\alpha!}$

Abbruchstabilität

Für Schrittweite $\rho < r$ erfüllt der Restterm die standardmäßige Cauchy-Schätzung: $\|R_{k+1}(z)\| \leq \frac{M_{k+1}}{(k+1)!}\rho^{k+1}$

Praktische Leistungsanalyse

Obwohl die Arbeit hauptsächlich auf theoretische Analyse fokussiert, bietet sie wichtige Leistungseinsichten:

Speichereffizienz: Der Weil-Modus vermeidet Rückwärtsband-Speicherung
Parallelisierungsfreundlich: Koeffizientenoperationen unterstützen natürlich Vektorisierung
Numerische Stabilität: Abbruchfehler können explizit kontrolliert werden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Geometrische Vereinigung: Alle AD-Modi können unter einem differentialgeometrischen Framework einheitlich verstanden werden
Rechnerische Vorteile: Tensorisierte Weil-Algebren bieten eine effiziente Methode zur Berechnung höherer Ableitungen
Theoretische Vollständigkeit: Bietet vollständige theoretische Analyse von Korrektheit, Stabilität und Komplexität

Einschränkungen

Implementierungskomplexität: Die praktische Implementierung von Weil-Algebren erfordert sorgfältig gestaltete Datenstrukturen
Anwendungsbereich: Hauptsächlich anwendbar auf Szenarien, die dichte gemischte Ableitungen erfordern
Numerische Genauigkeit: Höhere Berechnungen können mit Genauigkeitsproblemen konfrontiert sein

Zukünftige Richtungen

Intrinsische AD auf Mannigfaltigkeiten: Erweiterung auf allgemeine Riemannsche Mannigfaltigkeiten
PDE-beschränkte Optimierung: Anwendung auf Variations- und PDE-beschränkte Probleme
Kompression höherer Tensoren: Entwicklung von Kompressionstechniken für Koeffizientenarrays
Systematische Primitive-Liftung: Systematische Liftung von linearer Algebra und speziellen Funktionen zu Weil-Algebren

Tiefgehende Bewertung

Stärken

Starke theoretische Innovation: Erstmalige Etablierung eines vollständigen geometrischen Theorierahmens für AD
Mathematische Strenge: Alle Sätze haben vollständige mathematische Beweise
Hoher praktischer Wert: Die tensorisierte Weil-Algebra-Methode löst praktische Rechnerprobleme
Klare Darstellung: Komplexe mathematische Konzepte sind relativ verständlich erklärt

Mängel

Fehlende experimentelle Verifikation: Hauptsächlich theoretische Arbeit, mangelnde praktische Algorithmusimplementierung und Leistungstests
Begrenzte Anwendungsszenarien: Hauptsächlich anwendbar auf spezifische Szenarien, die höhere Ableitungen erfordern
Unzureichende Implementierungsdetails: Begrenzte Anleitung für praktische Systemimplementierung

Einflussfähigkeit

Akademischer Wert: Bietet neue mathematische Grundlagen für die AD-Theorie
Anwendungspotential: Wichtige Anwendungsperspektiven in wissenschaftlichem Rechnen und geometrischem Deep Learning
Inspirationskraft: Bietet neue Perspektiven für verwandte Forschungsbereiche

Anwendungsszenarien

Wissenschaftliches Rechnen: Physikalische Simulationen, die hochpräzise höhere Ableitungen erfordern
Optimierungsalgorithmen: Effiziente Implementierung von Optimierungsmethoden zweiter Ordnung
Geometrisches Deep Learning: Neuronale Netzwerk-Training auf Mannigfaltigkeiten
Meta-Learning: Adaptive Algorithmen, die höhere Gradienten erfordern

Literaturverzeichnis

Die Arbeit zitiert 18 wichtige Referenzen, hauptsächlich einschließlich:

Elliott (2018): Funktionale Formulierung von AD
Fong et al. (2019): Kategorientheoretische Perspektive auf Rückwärtspropagation
Betancourt (2018): Geometrische Theorie höherer AD
Baydin et al. (2018): AD-Übersicht
Kolář et al. (1993): Natürliche Operationen in Differentialgeometrie

Gesamtbewertung: Dies ist eine hochwertige theoretische Arbeit, die einen völlig neuen geometrischen Theorierahmen für automatische Differentiation bietet. Obwohl experimentelle Verifikation fehlt, sind ihre theoretischen Beiträge erheblich und bieten wichtige mathematische Grundlagen für die Entwicklung verwandter Bereiche. Der Hauptwert dieser Arbeit liegt in theoretischer Vereinigung und methodischer Innovation und hat wichtige Bedeutung für die Förderung der AD-Theorieentwicklung.