2025-11-20T09:19:22.153634

Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis

Sangha
We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
academic

Jet-Funktoren und Weil-Algebren in Automatischer Differentiation: Eine Geometrische Analyse

Grundinformationen

  • Paper-ID: 2510.14342
  • Titel: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
  • Autor: Amandip Sangha (The Climate and Environmental Research Institute NILU, Norwegen)
  • Klassifizierung: cs.LG math.DG stat.ML
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.14342

Zusammenfassung

Diese Arbeit präsentiert eine geometrische Formulierung der automatischen Differentiation (AD) basierend auf Jet-Bündeln (jet bundles) und Weil-Algebren. Der Rückwärtsmodus-AD wird als Kotangenten-Pullback (cotangent-pullback) dargestellt, während der Taylor-Modus der Auswertung in Weil-Algebren entspricht. Basierend auf diesen Prinzipien leitet der Autor prägnante Aussagen über Korrektheit, Stabilität und Komplexität ab: Funktorialidentitäten für den Rückwärtsmodus, algebraische Exaktheit für höhere Ableitungen sowie explizite Fehlerschranken für Abbruchfehler. Der Autor zeigt weiterhin, dass tensorisierte Weil-Algebren die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearen Kosten bezüglich der Algebradimension ermöglichen und so die kombinatorische Explosion verschachtelter JVP/VJP-Planung vermeiden. Das Framework interpretiert die AD-Theorie aus der Perspektive der Differentialgeometrie und bietet eine Grundlage für die Entwicklung strukturerhaltender Differentiationsmethoden in Deep Learning und wissenschaftlichem Rechnen.

Forschungshintergrund und Motivation

Kernprobleme

Automatische Differentiation (Automatic Differentiation, AD) ist eine grundlegende Technik des modernen Machine Learning und wissenschaftlichen Rechnens, doch der bestehenden AD-Theorie fehlt ein einheitlicher geometrischer Theorierahmen, was zu folgenden Problemen führt:

  1. Theoretische Fragmentierung: Die theoretischen Grundlagen des Rückwärtsmodus-AD (Backpropagation) und höherer AD sind über verschiedene mathematische Frameworks verteilt
  2. Komplexitätsexplosion: Die Berechnung höherer gemischter Ableitungen sieht sich mit kombinatorischer Komplexitätsexplosion konfrontiert
  3. Fehlende Invarianz: Bestehende Methoden ermangeln einer koordinatenunabhängigen geometrischen Interpretation, was die Stabilitätsanalyse beeinträchtigt

Forschungsbedeutung

Diese Forschung hat erhebliche Bedeutung:

  • Theoretische Vereinigung: Bietet eine einheitliche differentialgeometrische Grundlage für AD
  • Rechnerische Effizienz: Löst das Effizienzbroblem bei der Berechnung höherer Ableitungen
  • Anwendungsperspektiven: Bietet theoretische Unterstützung für geometrisch bewusste Methoden im Deep Learning

Einschränkungen bestehender Methoden

  1. Traditionelle AD-Methoden: Basieren auf Koordinatendarstellung und ermangeln geometrischer Invarianz
  2. Berechnung höherer Ableitungen: Verschachtelte JVP/VJP-Methoden weisen exponentielle Komplexität auf
  3. Stabilitätsanalyse: Ermangeln einer systematischen Fehlerausbreitungstheorie

Kernbeiträge

  1. Etablierung einer geometrischen Theorie der Rückwärtspropagation: Beweis, dass der Rückwärtsmodus-AD äquivalent zur Kotangenten-Pullback-Operation ist, mit koordinatenunabhängiger Formulierung
  2. Vorschlag eines Weil-Algebra-Frameworks: Formulierung des Taylor-Modus-AD als exakte Auswertung in Weil-Algebren, garantiert algebraische Exaktheit
  3. Entwicklung der tensorisierten Weil-Algebra-Methode: Ermöglicht die Berechnung aller gemischten Ableitungen in einem Durchgang mit linearer Komplexität bezüglich der Algebradimension
  4. Bereitstellung einer vollständigen theoretischen Analyse: Einschließlich Korrektheitsbeweis, Stabilitätsschranken und Komplexitätsanalyse

Methodische Details

Aufgabendefinition

Gegeben eine glatte Abbildung f:MNf: M \to N (wobei M,NM, N glatte Mannigfaltigkeiten sind) und eine Skalarfunktion :NR\ell: N \to \mathbb{R}, ist das Ziel:

  1. Den Gradienten der zusammengesetzten Funktion f\ell \circ f zu berechnen
  2. Höhere Ableitungen von ff zu berechnen
  3. Die obigen Berechnungen auf geometrisch invariante Weise zu implementieren

Zentraler Theorierahmen

1. Geometrische Formulierung des Rückwärtsmodus-AD

Satz 1 (Rückwärtspropagation als Kotangenten-Pullback): Für glatte Abbildungen f:MNf: M \to N und :NR\ell: N \to \mathbb{R} gilt: x(f)=(dfx)(df(x))\nabla_x(\ell \circ f) = (df_x)^*(d\ell_{f(x)})

Äquivalent auf der Jet-Ebene: (j1f)(j1)=j1(f)(j^1f)^*(j^1\ell) = j^1(\ell \circ f)

Dieser Satz formuliert die Rückwärtspropagation als Pullback-Operation auf dem Kotangentialraum neu und hat folgende geometrische Bedeutung:

  • Koordinatenunabhängigkeit: Das Ergebnis hängt nicht von der Wahl eines bestimmten Koordinatensystems ab
  • Funktorialität: Erfüllt (d(gf)x)=(dfx)(dgf(x))(d(g \circ f)_x)^* = (df_x)^* \circ (dg_{f(x)})^*
  • Natürlichkeit: Kompatibel mit glatten Umparametrisierungen

2. Taylor-Modus in Weil-Algebren

Satz 2 (Exaktheit der Weil-Modus-Auswertung): Sei WW eine Weil-Algebra mit mk+1=0m^{k+1} = 0, dann berechnet die Liftungsabbildung TWf:TWUTWRmT_W f: T_W U \to T_W \mathbb{R}^m alle kk-ten Ableitungen von ff in xx als Koeffizienten der abgebrochenen Taylor-Entwicklung exakt.

Konstruktion von Weil-Algebren:

  • Form W=R[ε]/(εk+1)W = \mathbb{R}[\varepsilon]/(\varepsilon^{k+1}) oder Tensorproduktform
  • Nilpotenz εk+1=0\varepsilon^{k+1} = 0 realisiert automatisch den Abbruch
  • Algebraische Operationen entsprechen direkt den Ableitungsausbreitungsregeln

3. Tensorisierte Weil-Algebren

Satz 3 (Komplexität tensorisierter Weil-Algebren): Betrachten Sie die tensorisierte Weil-Algebra: Wj=1pR[εj]/(εjρj+1),dimW=j=1p(ρj+1)W \cong \bigotimes_{j=1}^p \mathbb{R}[\varepsilon_j]/(\varepsilon_j^{\rho_j+1}), \quad \dim W = \prod_{j=1}^p (\rho_j + 1)

Eine einzelne Auswertung von ff am WW-Punkt xW:=x+j=1pεjv(j)x_W := x + \sum_{j=1}^p \varepsilon_j v^{(j)} erzeugt alle gemischten Richtungsableitungen mit Zeitkomplexität O(dimWQ)O(\dim W \cdot Q), wobei QQ die Anzahl der Skalaroperationen des ursprünglichen Programms ist.

Technische Innovationen

  1. Geometrische Vereinheitlichung: Erstmalige Vereinigung aller AD-Modi unter einem differentialgeometrischen Framework
  2. Algebraische Exaktheit: Realisierung algebraischer Exaktheit des Abbruchs durch Nilpotenz, Vermeidung numerischer Fehler
  3. Lineare Komplexität: Tensorisierte Methode vermeidet kombinatorische Explosion traditioneller verschachtelter Methoden
  4. Kein Rückwärtsband erforderlich: Der Weil-Modus erfordert nur Speicherung von Koeffizientenarrays, keine Speicherung des Berechnungsgraphen

Experimentelle Einrichtung

Theoretische Verifikation

Der Autor verifiziert die Wirksamkeit der Methode hauptsächlich durch theoretische Analyse, einschließlich:

  1. Korrektheitsprüfung: Durch Funktorialitätseigenschaften
  2. Stabilitätsanalyse: Bereitstellung expliziter Fehlerschranken
  3. Komplexitätsanalyse: Theoretischer Vergleich mit traditionellen Methoden

Stabilitätsanalyse

Lemma 1 (Rückwärtsstabilität des Rückwärtsdurchlaufs): Für ein lineares Programm mit Primitiven {ϕi}i=1L\{\phi_i\}_{i=1}^L, wenn jedes adjungierte ϕi\phi_i^* erfüllt: ϕi(v)Liv,ϕ^i(v)ϕi(v)δiϕi(v)\|\phi_i^*(v)\| \leq L_i\|v\|, \quad \|\hat{\phi}_i^*(v) - \phi_i^*(v)\| \leq \delta_i\|\phi_i^*(v)\|

dann erfüllt der berechnete Pullback: f^(yˉ)(i=1L(1+δi)Li)yˉ\|\hat{f}^*(\bar{y})\| \leq \left(\prod_{i=1}^L (1+\delta_i)L_i\right)\|\bar{y}\|

Komplexitätsvergleich

MethodeZeitkomplexitätSpeicherkomplexitätBandanforderung
Verschachteltes JVP/VJPO((p+kk)Q)O(\binom{p+k}{k} \cdot Q)O(L)O(L) (Band)Ja
Tensorisierte WeilO(j=1p(ρj+1)Q)O(\prod_{j=1}^p(\rho_j+1) \cdot Q)O(dimW)O(\dim W)Nein

Experimentelle Ergebnisse

Verifikation theoretischer Ergebnisse

Koeffizientenwachstums-Einhüllende

Korollar 1: Angenommen fCk+1(Br(x),Rm)f \in C^{k+1}(B_r(x), \mathbb{R}^m) und ihre Ableitungen erfüllen Df(z)M\|D^\ell f(z)\| \leq M_\ell, dann erfüllen die Taylor-Koeffizienten: fα(x)Mαα!\|f_\alpha(x)\| \leq \frac{M_{|\alpha|}}{\alpha!}

Abbruchstabilität

Für Schrittweite ρ<r\rho < r erfüllt der Restterm die standardmäßige Cauchy-Schätzung: Rk+1(z)Mk+1(k+1)!ρk+1\|R_{k+1}(z)\| \leq \frac{M_{k+1}}{(k+1)!}\rho^{k+1}

Praktische Leistungsanalyse

Obwohl die Arbeit hauptsächlich auf theoretische Analyse fokussiert, bietet sie wichtige Leistungseinsichten:

  1. Speichereffizienz: Der Weil-Modus vermeidet Rückwärtsband-Speicherung
  2. Parallelisierungsfreundlich: Koeffizientenoperationen unterstützen natürlich Vektorisierung
  3. Numerische Stabilität: Abbruchfehler können explizit kontrolliert werden

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Kategorientheoretische Perspektive auf AD: Elliott (2018), Fong et al. (2019) präsentierten funktoriale Formulierungen von AD
  2. Geometrische AD-Theorie: Betancourt (2018) erkundete Jet-Geometrie in AD
  3. Algorithmen für höhere AD: Giles (2008), Fike und Alonso (2012) analysierten numerische Stabilität

Relative Vorteile dieser Arbeit

  1. Theoretische Vollständigkeit: Erstmalige Bereitstellung eines vollständigen geometrischen Theorierahmens für AD
  2. Praktikalität: Die tensorisierte Weil-Algebra-Methode hat praktischen Anwendungswert
  3. Vereinheitlichung: Vereinigung von Rückwärts-, Vorwärts- und höherer AD im gleichen Framework

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Geometrische Vereinigung: Alle AD-Modi können unter einem differentialgeometrischen Framework einheitlich verstanden werden
  2. Rechnerische Vorteile: Tensorisierte Weil-Algebren bieten eine effiziente Methode zur Berechnung höherer Ableitungen
  3. Theoretische Vollständigkeit: Bietet vollständige theoretische Analyse von Korrektheit, Stabilität und Komplexität

Einschränkungen

  1. Implementierungskomplexität: Die praktische Implementierung von Weil-Algebren erfordert sorgfältig gestaltete Datenstrukturen
  2. Anwendungsbereich: Hauptsächlich anwendbar auf Szenarien, die dichte gemischte Ableitungen erfordern
  3. Numerische Genauigkeit: Höhere Berechnungen können mit Genauigkeitsproblemen konfrontiert sein

Zukünftige Richtungen

  1. Intrinsische AD auf Mannigfaltigkeiten: Erweiterung auf allgemeine Riemannsche Mannigfaltigkeiten
  2. PDE-beschränkte Optimierung: Anwendung auf Variations- und PDE-beschränkte Probleme
  3. Kompression höherer Tensoren: Entwicklung von Kompressionstechniken für Koeffizientenarrays
  4. Systematische Primitive-Liftung: Systematische Liftung von linearer Algebra und speziellen Funktionen zu Weil-Algebren

Tiefgehende Bewertung

Stärken

  1. Starke theoretische Innovation: Erstmalige Etablierung eines vollständigen geometrischen Theorierahmens für AD
  2. Mathematische Strenge: Alle Sätze haben vollständige mathematische Beweise
  3. Hoher praktischer Wert: Die tensorisierte Weil-Algebra-Methode löst praktische Rechnerprobleme
  4. Klare Darstellung: Komplexe mathematische Konzepte sind relativ verständlich erklärt

Mängel

  1. Fehlende experimentelle Verifikation: Hauptsächlich theoretische Arbeit, mangelnde praktische Algorithmusimplementierung und Leistungstests
  2. Begrenzte Anwendungsszenarien: Hauptsächlich anwendbar auf spezifische Szenarien, die höhere Ableitungen erfordern
  3. Unzureichende Implementierungsdetails: Begrenzte Anleitung für praktische Systemimplementierung

Einflussfähigkeit

  1. Akademischer Wert: Bietet neue mathematische Grundlagen für die AD-Theorie
  2. Anwendungspotential: Wichtige Anwendungsperspektiven in wissenschaftlichem Rechnen und geometrischem Deep Learning
  3. Inspirationskraft: Bietet neue Perspektiven für verwandte Forschungsbereiche

Anwendungsszenarien

  1. Wissenschaftliches Rechnen: Physikalische Simulationen, die hochpräzise höhere Ableitungen erfordern
  2. Optimierungsalgorithmen: Effiziente Implementierung von Optimierungsmethoden zweiter Ordnung
  3. Geometrisches Deep Learning: Neuronale Netzwerk-Training auf Mannigfaltigkeiten
  4. Meta-Learning: Adaptive Algorithmen, die höhere Gradienten erfordern

Literaturverzeichnis

Die Arbeit zitiert 18 wichtige Referenzen, hauptsächlich einschließlich:

  • Elliott (2018): Funktionale Formulierung von AD
  • Fong et al. (2019): Kategorientheoretische Perspektive auf Rückwärtspropagation
  • Betancourt (2018): Geometrische Theorie höherer AD
  • Baydin et al. (2018): AD-Übersicht
  • Kolář et al. (1993): Natürliche Operationen in Differentialgeometrie

Gesamtbewertung: Dies ist eine hochwertige theoretische Arbeit, die einen völlig neuen geometrischen Theorierahmen für automatische Differentiation bietet. Obwohl experimentelle Verifikation fehlt, sind ihre theoretischen Beiträge erheblich und bieten wichtige mathematische Grundlagen für die Entwicklung verwandter Bereiche. Der Hauptwert dieser Arbeit liegt in theoretischer Vereinigung und methodischer Innovation und hat wichtige Bedeutung für die Förderung der AD-Theorieentwicklung.