We present a geometric formulation of automatic differentiation (AD) using jet bundles and Weil algebras. Reverse-mode AD emerges as cotangent-pullback, while Taylor-mode corresponds to evaluation in a Weil algebra. From these principles, we derive concise statements on correctness, stability, and complexity: a functorial identity for reverse-mode, algebraic exactness of higher-order derivatives, and explicit bounds on truncation error. We further show that tensorized Weil algebras permit one-pass computation of all mixed derivatives with cost linear in the algebra dimension, avoiding the combinatorial blow-up of nested JVP/VJP schedules. This framework interprets AD theory through the lens of differential geometry and offers a foundation for developing structure-preserving differentiation methods in deep learning and scientific computing. Code and examples are available at https://git.nilu.no/geometric-ad/jet-weil-ad.
- معرّف الورقة: 2510.14342
- العنوان: Jet Functors and Weil Algebras in Automatic Differentiation: A Geometric Analysis
- المؤلف: أماندب سانغا (معهد المناخ والبحوث البيئية NILU، النرويج)
- التصنيف: cs.LG math.DG stat.ML
- تاريخ النشر: 16 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.14342
تقترح هذه الورقة صياغة هندسية للتفاضل الآلي (AD) بناءً على حزم النفاثات (jet bundles) وجبور ويل (Weil algebras). يظهر التفاضل الآلي بالوضع العكسي كعملية سحب ظل عكسي (cotangent-pullback)، بينما يتوافق الوضع تايلور مع التقييم في جبور ويل. بناءً على هذه المبادئ، يشتق المؤلف عبارات موجزة بشأن الصحة والاستقرار والتعقيد: متطابقات الدوال للوضع العكسي، والدقة الجبرية للمشتقات من الرتبة الأعلى، والحدود الصريحة لأخطاء القطع. يثبت المؤلف كذلك أن جبور ويل الموتّرة تسمح بحساب جميع المشتقات المختلطة مرة واحدة بتكلفة خطية بالنسبة لبعد الجبر، مما يتجنب الانفجار التوافقي لجدولة JVP/VJP المتداخلة. يفسر هذا الإطار نظرية AD من منظور الهندسة التفاضلية، مما يوفر أساساً لتطوير طرق الحفاظ على البنية التفاضلية في التعلم العميق والحساب العلمي.
التفاضل الآلي (Automatic Differentiation, AD) هو تقنية أساسية في التعلم الآلي الحديث والحساب العلمي، لكن النظرية الحالية للـ AD تفتقر إلى إطار نظري هندسي موحد، مما يؤدي إلى:
- تشتت النظرية: تتشتت الأسس النظرية للتفاضل الآلي بالوضع العكسي (backpropagation) والـ AD من الرتبة الأعلى عبر أطر رياضية مختلفة
- انفجار التعقيد: يواجه حساب المشتقات المختلطة من الرتبة الأعلى مشكلة انفجار التعقيد التوافقي
- غياب الثبات: تفتقر الطرق الحالية إلى تفسير هندسي خالٍ من الإحداثيات، مما يؤثر على تحليل الاستقرار
يتمتع هذا البحث بأهمية كبيرة:
- التوحيد النظري: توفير أساس نظري هندسي تفاضلي موحد للـ AD
- الكفاءة الحسابية: حل مشكلة الكفاءة في حساب المشتقات من الرتبة الأعلى
- الآفاق التطبيقية: توفير دعم نظري للطرق الهندسية الواعية في التعلم العميق
- طرق AD التقليدية: تعتمد على التمثيل الإحداثي، وتفتقر إلى الثبات الهندسي
- حساب المشتقات من الرتبة الأعلى: تعاني طرق JVP/VJP المتداخلة من تعقيد أسي
- تحليل الاستقرار: غياب نظرية منهجية لانتشار الأخطاء
- إنشاء نظرية هندسية للانتشار العكسي: إثبات أن التفاضل الآلي بالوضع العكسي يعادل عملية سحب الظل العكسي، مما يوفر صياغة خالية من الإحداثيات
- اقتراح إطار جبور ويل: صياغة التفاضل الآلي بوضع تايلور كتقييم دقيق في جبور ويل، مما يضمن الدقة الجبرية
- تطوير طريقة جبور ويل الموتّرة: تحقيق حساب جميع المشتقات المختلطة مرة واحدة بتعقيد خطي بالنسبة لبعد الجبر
- توفير تحليل نظري شامل: يشمل إثبات الصحة وحدود الاستقرار وتحليل التعقيد
بالنظر إلى تطبيق سلس f:M→N (حيث M,N متعددات سلسة) ودالة قياسية ℓ:N→R، الهدف هو:
- حساب تدرج الدالة المركبة ℓ∘f
- حساب المشتقات من الرتبة الأعلى لـ f
- تنفيذ الحسابات أعلاه بطريقة ثابتة هندسياً
النظرية 1 (الانتشار العكسي كسحب ظل عكسي): لتطبيق سلس f:M→N و ℓ:N→R، لدينا:
∇x(ℓ∘f)=(dfx)∗(dℓf(x))
بشكل مكافئ، على مستوى النفاثات: (j1f)∗(j1ℓ)=j1(ℓ∘f)
تعيد هذه النظرية صياغة الانتشار العكسي كعملية سحب على فضاء الظل العكسي، بالمعاني الهندسية التالية:
- الاستقلال عن الإحداثيات: النتيجة لا تعتمد على اختيار نظام إحداثيات معين
- خصائص الدوال: تحقق (d(g∘f)x)∗=(dfx)∗∘(dgf(x))∗
- الطبيعية: متوافقة مع إعادة البارامترة السلسة
النظرية 2 (دقة تقييم وضع ويل): إذا كان W جبر ويل يحقق mk+1=0، فإن تطبيق الرفع TWf:TWU→TWRm يحسب بدقة جميع مشتقات f من الرتبة k عند x كمعاملات في تطور تايلور المقطوع.
بناء جبور ويل:
- الشكل W=R[ε]/(εk+1) أو أشكال الضرب الموتّر
- الخاصية الفراغية εk+1=0 تحقق القطع تلقائياً
- العمليات الجبرية تتوافق مباشرة مع قواعد انتشار المشتقات
النظرية 3 (تعقيد جبور ويل الموتّرة): ضع في الاعتبار جبر ويل الموتّر:
W≅⨂j=1pR[εj]/(εjρj+1),dimW=∏j=1p(ρj+1)
التقييم الفردي لـ f عند نقطة W من الشكل xW:=x+∑j=1pεjv(j) ينتج جميع مشتقات الاتجاه المختلط، بتعقيد زمني O(dimW⋅Q)، حيث Q هو عدد العمليات القياسية في البرنامج الأصلي.
- التوحيد الهندسي: أول مرة يتم توحيد جميع أوضاع AD تحت إطار الهندسة التفاضلية
- الدقة الجبرية: تحقيق الدقة الجبرية للقطع من خلال الخاصية الفراغية، مما يتجنب الأخطاء العددية
- التعقيد الخطي: تتجنب طريقة الموتّرة الانفجار التوافقي للطرق المتداخلة التقليدية
- عدم الحاجة إلى شريط عكسي: وضع ويل يتطلب فقط تخزين مصفوفة المعاملات، بدون الحاجة إلى تخزين الرسم البياني الحسابي
يتحقق المؤلف من فعالية الطريقة بشكل أساسي من خلال التحليل النظري، بما في ذلك:
- التحقق من الصحة: من خلال إثبات خصائص الدوال
- تحليل الاستقرار: توفير حدود أخطاء صريحة
- تحليل التعقيد: المقارنة النظرية مع الطرق التقليدية
اللمة 1 (الاستقرار العكسي للمسح العكسي): لبرنامج خطي مع عناصر أولية {ϕi}i=1L، إذا كان كل مرافق ϕi∗ يحقق:
∥ϕi∗(v)∥≤Li∥v∥,∥ϕ^i∗(v)−ϕi∗(v)∥≤δi∥ϕi∗(v)∥
فإن السحب المحسوب يحقق:
∥f^∗(yˉ)∥≤(∏i=1L(1+δi)Li)∥yˉ∥
| الطريقة | التعقيد الزمني | التعقيد المكاني | متطلبات الشريط |
|---|
| JVP/VJP المتداخل | O((kp+k)⋅Q) | O(L) (شريط) | نعم |
| جبور ويل الموتّرة | O(∏j=1p(ρj+1)⋅Q) | O(dimW) | لا |
النتيجة 1: افترض أن f∈Ck+1(Br(x),Rm) ومشتقاتها تحقق ∥Dℓf(z)∥≤Mℓ، فإن معاملات تايلور تحقق:
∥fα(x)∥≤α!M∣α∣
لطول الخطوة ρ<r، يحقق الحد المتبقي تقدير كوشي المعياري:
∥Rk+1(z)∥≤(k+1)!Mk+1ρk+1
على الرغم من أن الورقة تركز بشكل أساسي على التحليل النظري، فإنها توفر رؤى أداء حاسمة:
- الكفاءة الذاكرية: يتجنب وضع ويل تخزين شريط الانتشار العكسي
- الملاءمة للمعالجة المتوازية: العمليات على المعاملات تدعم التوجيه بشكل طبيعي
- الاستقرار العددي: يمكن التحكم في أخطاء القطع بشكل صريح
- منظور النظرية الفئوية للـ AD: اقترح Elliott (2018) و Fong وآخرون (2019) صياغة دوالية للـ AD
- نظرية AD الهندسية: استكشف Betancourt (2018) تطبيق هندسة النفاثات في الـ AD
- خوارزميات AD من الرتبة الأعلى: حلل Giles (2008) و Fike و Alonso (2012) الاستقرار العددي
- اكتمال النظرية: توفير إطار نظري هندسي شامل للـ AD لأول مرة
- الفائدة العملية: طريقة جبور ويل الموتّرة لها قيمة تطبيقية عملية
- التوحيد: توحيد الأوضاع العكسية والأمامية والـ AD من الرتبة الأعلى تحت إطار واحد
- التوحيد الهندسي: يمكن فهم جميع أوضاع الـ AD بشكل موحد تحت إطار الهندسة التفاضلية
- المزايا الحسابية: توفر جبور ويل الموتّرة طريقة فعالة لحساب المشتقات من الرتبة الأعلى
- اكتمال النظرية: توفير تحليل نظري شامل للصحة والاستقرار والتعقيد
- تعقيد التنفيذ: يتطلب التنفيذ العملي لجبور ويل تصميم هياكل بيانات دقيقة
- نطاق التطبيق: ينطبق بشكل أساسي على السيناريوهات التي تتطلب مشتقات مختلطة كثيفة
- الدقة العددية: قد تواجه الحسابات من الرتبة الأعلى مشاكل دقة عددية
- الـ AD الجوهري على متعددات التنوع: التوسع إلى متعددات ريمان العامة
- تحسين PDE المقيد: التطبيق على المسائل المتغيرة والمقيدة بـ PDE
- ضغط الموتّر من الرتبة الأعلى: تطوير تقنيات ضغط لمصفوفات المعاملات
- رفع قواعد العناصر الأولية: تنظيم رفع الجبر الخطي والدوال الخاصة إلى جبور ويل
- قوة الابتكار النظري: إنشاء إطار نظري هندسي شامل للـ AD لأول مرة
- الدقة الرياضية: جميع النظريات لها إثباتات رياضية كاملة
- قيمة عملية عالية: توفر طريقة جبور ويل الموتّرة حلاً لمشكلة حسابية عملية
- وضوح التعبير: شرح المفاهيم الرياضية المعقدة بشكل واضح نسبياً
- غياب التحقق التجريبي: العمل نظري بشكل أساسي، يفتقر إلى تنفيذ خوارزمية فعلية واختبارات الأداء
- تقييد سيناريوهات التطبيق: ينطبق بشكل أساسي على سيناريوهات محددة تتطلب مشتقات من الرتبة الأعلى
- عدم كفاية تفاصيل التنفيذ: توجيه محدود لتنفيذ النظام الفعلي
- القيمة الأكاديمية: توفير أساس رياضي جديد لنظرية الـ AD
- الإمكانات التطبيقية: آفاق تطبيق مهمة في الحساب العلمي والتعلم العميق الهندسي
- الإلهام: توفير أفكار جديدة للبحث في المجالات ذات الصلة
- الحساب العلمي: محاكاة فيزيائية تتطلب مشتقات عالية الدقة من الرتبة الأعلى
- خوارزميات التحسين: التنفيذ الفعال لطرق التحسين من الرتبة الثانية
- التعلم العميق الهندسي: تدريب الشبكات العصبية على متعددات التنوع
- التعلم الفوقي: الخوارزميات التكيفية التي تتطلب تدرجات من الرتبة الأعلى
تستشهد الورقة بـ 18 مرجعاً مهماً، تشمل بشكل أساسي:
- Elliott (2018): الصياغة الدالية للـ AD
- Fong وآخرون (2019): منظور النظرية الفئوية للانتشار العكسي
- Betancourt (2018): النظرية الهندسية للـ AD من الرتبة الأعلى
- Baydin وآخرون (2018): مسح شامل للـ AD
- Kolář وآخرون (1993): العمليات الطبيعية في الهندسة التفاضلية
التقييم الإجمالي: هذه ورقة نظرية عالية الجودة توفر إطاراً نظرياً هندسياً جديداً تماماً للتفاضل الآلي. على الرغم من افتقارها إلى التحقق التجريبي، فإن مساهماتها النظرية كبيرة، وتوفر أساساً رياضياً مهماً لتطوير المجالات ذات الصلة. تكمن القيمة الرئيسية لهذا العمل في التوحيد النظري والابتكار الطريقة، وهو ذو أهمية كبيرة لدفع تطور نظرية الـ AD.