2025-11-21T05:43:14.438076

An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds

Shi, Xiao, Jiang
Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
academic

خوارزمية تكيفية لتحسين ثنائي المستوى على متعددات ريمان

المعلومات الأساسية

  • معرّف الورقة: 2504.06042
  • العنوان: خوارزمية تكيفية لتحسين ثنائي المستوى على متعددات ريمان
  • المؤلفون: Xu Shi, Rufeng Xiao, Rujun Jiang (كلية علوم البيانات، جامعة فودان)
  • التصنيف: math.OC (التحسين والتحكم)
  • المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
  • رابط الورقة: https://arxiv.org/abs/2504.06042

الملخص

الطرق الموجودة لحل مشاكل التحسين الثنائي على ريمان (RBO) تتطلب معرفة مسبقة بمعلومات الدرجة الأولى والثانية وكذلك معاملات الانحناء لمتعددات ريمان لتحديد حجم الخطوة، مما يفرض قيوداً عملية عندما تكون هذه المعاملات غير معروفة أو غير قابلة للحساب. تقترح هذه الورقة خوارزمية النزول الفوق-تدرجي الريماني التكيفي (AdaRHD) لحل مشاكل RBO. بحسب معرفتنا، AdaRHD هي أول طريقة تعتمد استراتيجية حجم خطوة تكيفية بالكامل في RBO، مما يلغي الحاجة إلى معاملات خاصة بالمشكلة. نثبت أن AdaRHD تحقق تعقيد تكراري بقيمة O(1/ε) للعثور على نقطة ε-ثابتة، وهو ما يطابق تعقيد الطرق غير التكيفية الموجودة. علاوة على ذلك، نثبت أن استبدال الخريطة الأسية بخريطة الانكماش يحافظ على نفس حدود التعقيد. تُظهر التجارب أن AdaRHD تحقق أداءً مماثلاً للطرق غير التكيفية الموجودة مع إظهار متانة أقوى.

الخلفية البحثية والدافع

خلفية المشكلة

مشاكل التحسين ثنائي المستوى لها تطبيقات واسعة في مجال التعلم الآلي، بما في ذلك التعلم المعزز والتعلم الفوقي وتحسين المعاملات الفائقة والتعلم الخصومي. التحسين الثنائي على ريمان (RBO) هو امتداد للتحسين ثنائي المستوى على متعددات ريمان، وصيغته العامة هي:

minxMxF(x):=f(x,y(x))\min_{x \in \mathcal{M}_x} F(x) := f(x, y^*(x))s.t. y(x)=argminyMyg(x,y)\text{s.t. } y^*(x) = \arg\min_{y \in \mathcal{M}_y} g(x,y)

حيث Mx,My\mathcal{M}_x, \mathcal{M}_y هي متعددات ريمان، و f,gf,g دوال ملساء، و g(x,y)g(x,y) قوية محدبة جيوديسياً بالنسبة إلى yy.

حدود الطرق الموجودة

  1. الاعتماد على المعاملات: طرق RBO الموجودة (مثل RHGD و RieBO) تتطلب معرفة مسبقة بمعاملات القوة المحدبة وثوابت ليبشيتز ومعاملات الانحناء لتحديد حجم الخطوة
  2. قيود عملية: هذه المعاملات يصعب تقديرها في التطبيقات العملية أو تكون تكاليف حسابها مرتفعة جداً
  3. متانة غير كافية: استراتيجيات حجم الخطوة الثابتة حساسة للتهيئة الأولية وشروط المشكلة

الدافع البحثي

الدافع الأساسي لهذه الورقة هو تصميم خوارزمية RBO تكيفية بالكامل، قادرة على:

  • العمل بدون معرفة مسبقة بمعاملات خاصة بالمشكلة
  • تعديل حجم الخطوة تلقائياً للتكيف مع خصائص المشكلة
  • الحفاظ على تعقيد نظري مماثل للطرق غير التكيفية
  • توفير متانة عملية أقوى

المساهمات الأساسية

  1. أول خوارزمية RBO تكيفية: تقديم AdaRHD، وهي أول خوارزمية تحسين ثنائي على ريمان تعتمد استراتيجية حجم خطوة تكيفية بالكامل، مما يلغي الاعتماد على القوة المحدبة وثوابت ليبشيتز ومعاملات الانحناء
  2. مطابقة التعقيد النظري: إثبات أن AdaRHD تحقق تعقيد تكراري بقيمة O(1/ε) للعثور على نقطة ε-ثابتة، وهو ما يطابق تعقيد الطرق غير التكيفية الموجودة
  3. امتداد خريطة الانكماش: إثبات أن استبدال الخريطة الأسية بخريطة الانكماش الأكثر كفاءة حسابياً يحافظ على نفس ضمانات التعقيد
  4. التحقق التجريبي: التحقق من فعالية الخوارزمية ومتانتها على مشاكل RBO متعددة، بما في ذلك التعلم الفوق-تمثيلي الريماني ومشاكل التحسين القوي

شرح الطريقة

تعريف المهمة

النظر في مشكلة التحسين الثنائي على ريمان:

  • المشكلة العليا: تقليل F(x)=f(x,y(x))F(x) = f(x, y^*(x)) على المتعددة Mx\mathcal{M}_x
  • المشكلة السفلى: لـ xx معطاة، حل y(x)=argminyg(x,y)y^*(x) = \arg\min_y g(x,y) على المتعددة My\mathcal{M}_y
  • القيود: g(x,y)g(x,y) قوية محدبة جيوديسياً بالنسبة إلى yy، و ff لا تتطلب أن تكون محدبة

التقنية الأساسية: الفوق-تدرج الريماني

يُعرّف الفوق-تدرج الريماني كما يلي: GF(x)=Gxf(x,y(x))Gxy2g(x,y(x))[Hy1g(x,y(x))[Gyf(x,y(x))]]G_F(x) = G_x f(x, y^*(x)) - G^2_{xy}g(x, y^*(x))[H^{-1}_y g(x, y^*(x))[G_y f(x, y^*(x))]]

نظراً لصعوبة الحساب الدقيق، يتم استخدام فوق-تدرج ريماني تقريبي: G^F(x,y^,v^)=Gxf(x,y^)Gxy2g(x,y^)[v^]\hat{G}_F(x, \hat{y}, \hat{v}) = G_x f(x, \hat{y}) - G^2_{xy}g(x, \hat{y})[\hat{v}]

حيث y^\hat{y} هو حل تقريبي للمشكلة السفلى، و v^\hat{v} هو حل تقريبي للنظام الخطي.

معمارية خوارزمية AdaRHD

الخوارزمية 1: الخطوات الرئيسية لـ AdaRHD

  1. حل المشكلة السفلى: استخدام النزول التدرجي التكيفي
    • تحديث حجم الخطوة: bk+12=bk2+Gyg(xt,ytk)2b^2_{k+1} = b^2_k + \|G_y g(x_t, y^k_t)\|^2
    • تحديث التكرار: ytk+1=Expytk(1bk+1Gyg(xt,ytk))y^{k+1}_t = \text{Exp}_{y^k_t}(-\frac{1}{b_{k+1}} G_y g(x_t, y^k_t))
  2. حل النظام الخطي: استراتيجيتان
    • النزول التدرجي: حجم خطوة تكيفي مشابه للمشكلة السفلى
    • التدرج المترافق: استخدام طريقة التدرج المترافق في الفضاء المماسي
  3. التحديث العلوي: النزول الفوق-تدرجي التكيفي
    • تحديث حجم الخطوة: at+12=at2+G^F(xt,ytKt,vtNt)2a^2_{t+1} = a^2_t + \|\hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t)\|^2
    • تحديث التكرار: xt+1=Expxt(1at+1G^F(xt,ytKt,vtNt))x_{t+1} = \text{Exp}_{x_t}(-\frac{1}{a_{t+1}} \hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t))

نقاط الابتكار التقني

  1. استراتيجية معايير التدرج المتراكمة: استخدام "مقلوب معايير التدرج الريماني المتراكمة" كحجم خطوة تكيفي، بدون الحاجة لمعرفة معاملات المشكلة
  2. التكيف ثلاثي المستويات: تطبيق حجم خطوة تكيفي على المستوى العلوي والسفلي والنظام الخطي، مما يشكل إطار عمل تكيفي كامل
  3. تحسين خريطة الانكماش: توفير نسخة تستخدم خريطة الانكماش بدلاً من الخريطة الأسية، مما يقلل التعقيد الحسابي
  4. الضمانات النظرية: تحليل تقارب صارم، يتعامل مع التحديات التقنية الناشئة عن البنية الهندسية لمتعددات ريمان

إعداد التجارب

مجموعات البيانات والمشاكل

  1. مشاكل التشابه المصفوفي البسيطة: التحسين على متعددات Stiefel و SPD
    • حجم البيانات: n=100 و n=1000
    • إعدادات المعاملات: d=50, r=20, λ=0.01
  2. التعلم الفوق-تمثيلي العميق: مجموعة بيانات AFEW للتعرف على المشاعر
    • معمارية شبكة SPD ثلاثية الطبقات
    • 7 فئات عاطفية، 1747 عينة تدريب
    • توزيع فئات غير متوازن
  3. مشاكل التحسين القوي:
    • مشكلة Karcher المتوسطة القوية
    • مشكلة تقدير الاحتمالية الأعظمى القوية

طرق المقارنة

  • RHGD-20/50: النزول الفوق-تدرجي الريماني، بحد أقصى 20/50 تكرار للمشكلة السفلى
  • AdaRHD-GD: AdaRHD باستخدام النزول التدرجي لحل النظام الخطي
  • AdaRHD-CG: AdaRHD باستخدام التدرج المترافق لحل النظام الخطي

مؤشرات التقييم

  • قيمة دالة الهدف العليا
  • خطأ تقدير الفوق-تدرج
  • دقة التحقق
  • وقت التقارب وعدد التكرارات

نتائج التجارب

النتائج الرئيسية

تجارب المشاكل البسيطة:

  • AdaRHD تظهر سرعة تقارب أسرع في كلا حجمي البيانات
  • خطأ تقدير الفوق-تدرج أقل، خاصة مع AdaRHD-CG
  • مزايا في وقت الحساب، خاصة في المشاكل الكبيرة الحجم

تحليل المتانة:

  • AdaRHD تظهر متانة ملحوظة تحت إعدادات حجم خطوة أولية مختلفة
  • RHGD تفشل عند أحجام خطوة كبيرة (5, 1, 0.5)، بينما AdaRHD تستمر في التقارب المستقر
  • AdaRHD-CG هي الأسرع في تحقيق 85% دقة تحقق

الاكتشافات الرئيسية

  1. مزايا المتانة: AdaRHD غير حساسة لاختيار حجم الخطوة الأولي، بينما RHGD تفشل تماماً عند أحجام خطوة غير مناسبة
  2. تحسن الكفاءة: على الرغم من أن AdaRHD تتطلب تكرارات خارجية أكثر، إلا أن الاستراتيجية التكيفية تجعل إجمالي وقت الحساب لا يزال تنافسياً
  3. اختيار الطريقة: AdaRHD-CG تتفوق على AdaRHD-GD من حيث الدقة والمتانة، لكن الأخيرة تتقارب أسرع في المراحل الأولى

التحليل النظري

نتائج التعقيد

النظرية 3.1: تحت الافتراضات القياسية، AdaRHD تحقق: 1Tt=0T1GF(xt)xt2CT=O(1T)\frac{1}{T}\sum_{t=0}^{T-1} \|G_F(x_t)\|^2_{x_t} \leq \frac{C}{T} = O\left(\frac{1}{T}\right)

النتيجة 3.1: تعقيد الوصول إلى نقطة ε-ثابتة:

  • عدد التكرارات الكلي: T = O(1/ε)
  • تعقيد التدرج: Gf=O(1/ε)G_f = O(1/ε), Gg=O(1/ε2)G_g = O(1/ε^2)
  • تعقيد حاصل الضرب Hessian-متجه: AdaRHD-GD بقيمة O(1/ε²)، AdaRHD-CG بقيمة Õ(1/ε)

التحديات التقنية

  1. البنية الهندسية: انحناء متعددات ريمان يدخل تعقيداً تحليلياً إضافياً
  2. حدود المسافة الثلاثية: الحاجة لاستخدام حدود المسافة الثلاثية الخاصة بمتعددات ريمان بدلاً من نظيراتها الإقليدية
  3. تحليل حجم الخطوة التكيفي: قد تؤدي الاستراتيجية التكيفية إلى سلوك متباعد في المراحل الأولى، مما يتطلب معالجة نظرية صارمة

الأعمال ذات الصلة

التحسين ثنائي المستوى

  • التحسين ثنائي المستوى الإقليدي: AID و ITD وسلسلة Neumann والتدرج المترافق وغيرها
  • الطرق التكيفية الحديثة: D-TFBO وغيرها

التحسين الريماني

  • الطرق الكلاسيكية: النزول التدرجي الريماني والتدرج المترافق غير الخطي وتقليل التباين للتدرج العشوائي وغيرها
  • الطرق التكيفية: RASA و RAMSGrad و Riemannian SAM وغيرها

التحسين الثنائي على ريمان

  • RieBO/RieSBO: التحسين الثنائي الحتمي والعشوائي على ريمان
  • RHGD: إطار عمل النزول الفوق-تدرجي الريماني
  • RF2SA: طريقة الدرجة الأولى العشوائية الكاملة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. AdaRHD هي أول خوارزمية تحسين ثنائي على ريمان تكيفية بالكامل، مما يلغي الاعتماد على معاملات خاصة بالمشكلة
  2. نظرياً تحقق تعقيد O(1/ε) مماثل للطرق غير التكيفية
  3. التجارب تتحقق من فعالية الخوارزمية ومزايا المتانة الملحوظة

القيود

  1. فجوة التعقيد: تعقيد التدرج وحاصل الضرب Hessian-متجه أعلى بـ 1/ε مرة من الطرق غير التكيفية
  2. شروط الافتراض: لا تزال تتطلب القوة المحدبة الجيوديسية للمشكلة السفلى
  3. حلقة واحدة مقابل حلقتين: حالياً تعتبر فقط الخوارزميات ذات الحلقتين

الاتجاهات المستقبلية

  1. خوارزميات الحلقة الواحدة: تصميم خوارزميات تحسين ثنائي على ريمان تكيفية بحلقة واحدة
  2. الإعدادات العشوائية: التوسع إلى التحسين الثنائي العشوائي على ريمان
  3. الضعف المحدب: التعامل مع الأهداف السفلى المحدبة جيوديسياً (غير قوية المحدبة)
  4. تحسين التعقيد: استكشاف استراتيجيات تكيفية لإزالة فجوة 1/ε

التقييم المتعمق

المزايا

  1. الابتكار النظري: أول تحقيق للتكيف الكامل في RBO مع تحليل نظري صارم
  2. القيمة العملية: تحسن ملحوظ في متانة الخوارزمية وسهولة استخدامها
  3. العمق التقني: معالجة ناجحة للتحديات التقنية الناشئة عن الهندسة الريمانية
  4. التحقق التجريبي: التحقق الشامل على سيناريوهات تطبيقية متعددة

أوجه القصور

  1. تكلفة التعقيد: التكيف يأتي بتكلفة تعقيد حسابي إضافي
  2. قيود الافتراض: لا تزال تتطلب شروط افتراض قوية نسبياً
  3. نطاق التطبيق: تركز بشكل أساسي على متعددات ريمان محددة

التأثير

  • المساهمة الأكاديمية: تقدم مهم لمجال التقاطع بين التحسين الريماني والتحسين ثنائي المستوى
  • القيمة العملية: توفير أداة أكثر متانة للتحسين الثنائي على ريمان في التطبيقات العملية
  • الأبحاث اللاحقة: وضع الأساس لأبحاث إضافية في التحسين الريماني التكيفي

السيناريوهات المناسبة

  • التعلم الفوقي الريماني والبحث عن معمارية الشبكات العصبية
  • تقسيم الصور والتكيف منخفض الرتبة
  • الإحصائيات القوية والتعلم الآلي الهندسي
  • أي تطبيق يتطلب تحسيناً ثنائي المستوى تحت قيود متعددات

تقدم هذه الورقة مساهمة مهمة في مجال التحسين الثنائي على ريمان، حيث تحقق أول تصميم خوارزمية تكيفية بالكامل، مما يحسن الاستخدام العملي والمتانة بشكل كبير مع الحفاظ على التعقيد النظري. على الرغم من وجود تكلفة تعقيد معينة، فإن الابتكار النظري والقيمة العملية تجعلها تقدماً مهماً في هذا المجال.