Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
- पेपर ID: 2504.06042
- शीर्षक: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
- लेखक: Xu Shi, Rufeng Xiao, Rujun Jiang (फुडान विश्वविद्यालय डेटा विज्ञान संस्थान)
- वर्गीकरण: math.OC (अनुकूलन और नियंत्रण)
- प्रकाशन सम्मेलन: NeurIPS 2025 (39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन)
- पेपर लिंक: https://arxiv.org/abs/2504.06042
रीमैनियन द्विस्तरीय अनुकूलन (RBO) समस्याओं को हल करने के लिए मौजूदा विधियों को समस्या की प्रथम-क्रम, द्वितीय-क्रम जानकारी और रीमैनियन मैनिफोल्ड की वक्रता मापदंडों को पहले से जानने की आवश्यकता होती है ताकि चरण आकार निर्धारित किया जा सके। यह व्यावहारिक सीमाएं लाता है जब मापदंड अज्ञात या गणना योग्य नहीं होते हैं। यह पेपर RBO समस्याओं को हल करने के लिए अनुकूली रीमैनियन हाइपरग्रेडिएंट डिसेंट (AdaRHD) एल्गोरिदम प्रस्तावित करता है। हमारे ज्ञान के अनुसार, AdaRHD RBO में पूरी तरह से अनुकूली चरण आकार रणनीति अपनाने वाली पहली विधि है, जो समस्या-विशिष्ट मापदंडों की आवश्यकता को समाप्त करती है। हम सिद्ध करते हैं कि AdaRHD ε-स्थिर बिंदु खोजने के लिए O(1/ε) पुनरावृत्ति जटिलता प्राप्त करता है, जो मौजूदा गैर-अनुकूली विधियों की जटिलता से मेल खाता है। इसके अलावा, हम सिद्ध करते हैं कि घातीय मानचित्र को संकुचन मानचित्र से बदलने से भी समान जटिलता सीमा बनी रहती है। प्रयोग दिखाते हैं कि AdaRHD मौजूदा गैर-अनुकूली विधियों के समान प्रदर्शन प्राप्त करते हुए अधिक मजबूतता प्रदर्शित करता है।
द्विस्तरीय अनुकूलन समस्याओं का मशीन लर्निंग क्षेत्र में व्यापक अनुप्रयोग है, जिसमें सुदृढ़ीकरण सीखना, मेटा-लर्निंग, हाइपरपैरामीटर अनुकूलन, प्रतिकूल सीखना आदि शामिल हैं। रीमैनियन द्विस्तरीय अनुकूलन (RBO) रीमैनियन मैनिफोल्ड्स पर द्विस्तरीय अनुकूलन का विस्तार है, जिसका सामान्य रूप है:
minx∈MxF(x):=f(x,y∗(x))s.t. y∗(x)=argminy∈Myg(x,y)
जहां Mx,My रीमैनियन मैनिफोल्ड्स हैं, f,g सुचिक्ण फलन हैं, और g(x,y) y के संबंध में भूगणितीय रूप से दृढ़ता से उत्तल है।
- मापदंड निर्भरता: मौजूदा RBO विधियां (जैसे RHGD, RieBO आदि) को दृढ़ता से उत्तल मापदंड, Lipschitz स्थिरांक, वक्रता मापदंड आदि को पहले से जानने की आवश्यकता होती है
- व्यावहारिक सीमाएं: ये मापदंड वास्तविक अनुप्रयोगों में अक्सर अनुमान लगाना कठिन या गणना करना महंगा होता है
- अपर्याप्त मजबूतता: निश्चित चरण आकार रणनीति प्रारंभिकीकरण और समस्या स्थितियों के प्रति संवेदनशील होती है
इस पेपर की मूल प्रेरणा एक पूरी तरह से अनुकूली RBO एल्गोरिदम डिजाइन करना है जो:
- समस्या-विशिष्ट मापदंडों को पहले से जानने की आवश्यकता नहीं है
- समस्या की विशेषताओं के अनुकूल चरण आकार को स्वचालित रूप से समायोजित करता है
- गैर-अनुकूली विधियों के समान सैद्धांतिक जटिलता बनाए रखता है
- अधिक मजबूत व्यावहारिक उपयोगिता प्रदान करता है
- पहला अनुकूली RBO एल्गोरिदम: AdaRHD प्रस्तावित करता है, जो पूरी तरह से अनुकूली चरण आकार रणनीति अपनाने वाली पहली रीमैनियन द्विस्तरीय अनुकूलन एल्गोरिदम है, जो दृढ़ता से उत्तलता, Lipschitz स्थिरांक और वक्रता मापदंडों की निर्भरता को समाप्त करती है
- सैद्धांतिक जटिलता मिलान: सिद्ध करता है कि AdaRHD ε-स्थिर बिंदु खोजने के लिए O(1/ε) पुनरावृत्ति जटिलता प्राप्त करता है, जो मौजूदा गैर-अनुकूली विधियों की जटिलता से मेल खाता है
- संकुचन मानचित्र विस्तार: सिद्ध करता है कि घातीय मानचित्र को अधिक कुशल संकुचन मानचित्र से बदलने से भी समान जटिलता गारंटी बनी रहती है
- प्रायोगिक सत्यापन: कई RBO समस्याओं पर एल्गोरिदम की प्रभावशीलता और मजबूतता को सत्यापित करता है, जिसमें रीमैनियन हाइपर-प्रतिनिधित्व सीखना और मजबूत अनुकूलन समस्याएं शामिल हैं
रीमैनियन द्विस्तरीय अनुकूलन समस्या पर विचार करें:
- ऊपरी-स्तर की समस्या: मैनिफोल्ड Mx पर F(x)=f(x,y∗(x)) को न्यूनतम करना
- निचली-स्तर की समस्या: दिए गए x के लिए, मैनिफोल्ड My पर y∗(x)=argminyg(x,y) को हल करना
- बाधाएं: g(x,y) y के संबंध में भूगणितीय रूप से दृढ़ता से उत्तल है, f को उत्तलता की आवश्यकता नहीं है
रीमैनियन हाइपरग्रेडिएंट को इस प्रकार परिभाषित किया गया है:
GF(x)=Gxf(x,y∗(x))−Gxy2g(x,y∗(x))[Hy−1g(x,y∗(x))[Gyf(x,y∗(x))]]
सटीक गणना कठिन होने के कारण, अनुमानित रीमैनियन हाइपरग्रेडिएंट का उपयोग किया जाता है:
G^F(x,y^,v^)=Gxf(x,y^)−Gxy2g(x,y^)[v^]
जहां y^ निचली-स्तर की समस्या का अनुमानित समाधान है, v^ रैखिक प्रणाली का अनुमानित समाधान है।
एल्गोरिदम 1: AdaRHD मुख्य चरण
- निचली-स्तर की समस्या का समाधान: अनुकूली ग्रेडिएंट डिसेंट का उपयोग
- चरण आकार अपडेट: bk+12=bk2+∥Gyg(xt,ytk)∥2
- पुनरावृत्ति अपडेट: ytk+1=Expytk(−bk+11Gyg(xt,ytk))
- रैखिक प्रणाली का समाधान: दो रणनीतियां
- ग्रेडिएंट डिसेंट: निचली-स्तर की समस्या के समान अनुकूली चरण आकार
- संयुग्मित ग्रेडिएंट: स्पर्शरेखा स्थान संयुग्मित ग्रेडिएंट विधि का उपयोग
- ऊपरी-स्तर का अपडेट: अनुकूली हाइपरग्रेडिएंट डिसेंट
- चरण आकार अपडेट: at+12=at2+∥G^F(xt,ytKt,vtNt)∥2
- पुनरावृत्ति अपडेट: xt+1=Expxt(−at+11G^F(xt,ytKt,vtNt))
- संचयी ग्रेडिएंट मानदंड रणनीति: "संचयी रीमैनियन ग्रेडिएंट मानदंड के व्युत्क्रम" को अनुकूली चरण आकार के रूप में अपनाता है, समस्या मापदंडों को पहले से जानने की आवश्यकता नहीं है
- तीन-स्तरीय अनुकूलन: ऊपरी-स्तर, निचली-स्तर और रैखिक प्रणाली सभी के लिए अनुकूली चरण आकार, एक पूर्ण अनुकूली ढांचा बनाता है
- संकुचन मानचित्र अनुकूलन: घातीय मानचित्र को संकुचन मानचित्र से बदलने का संस्करण प्रदान करता है, गणना जटिलता को कम करता है
- सैद्धांतिक गारंटी: कठोर अभिसरण विश्लेषण, रीमैनियन मैनिफोल्ड्स की ज्यामिति द्वारा लाई गई तकनीकी चुनौतियों को संभालता है
- सरल मैट्रिक्स समानता समस्या: Stiefel मैनिफोल्ड और SPD मैनिफोल्ड पर अनुकूलन
- डेटा आकार: n=100 और n=1000
- मापदंड सेटिंग: d=50, r=20, λ=0.01
- गहन हाइपर-प्रतिनिधित्व सीखना: AFEW भावना पहचान डेटासेट
- 3-स्तरीय SPD नेटवर्क आर्किटेक्चर
- 7 भावना श्रेणियां, 1747 प्रशिक्षण नमूने
- असंतुलित वर्ग वितरण
- मजबूत अनुकूलन समस्याएं:
- मजबूत Karcher माध्य समस्या
- मजबूत अधिकतम संभावना अनुमान समस्या
- RHGD-20/50: रीमैनियन हाइपरग्रेडिएंट डिसेंट, निचली-स्तर की समस्या के लिए अधिकतम 20/50 पुनरावृत्तियां
- AdaRHD-GD: रैखिक प्रणाली को हल करने के लिए ग्रेडिएंट डिसेंट का उपयोग करने वाला AdaRHD
- AdaRHD-CG: रैखिक प्रणाली को हल करने के लिए संयुग्मित ग्रेडिएंट का उपयोग करने वाला AdaRHD
- ऊपरी-स्तर का उद्देश्य फलन मान
- हाइपरग्रेडिएंट अनुमान त्रुटि
- सत्यापन सटीकता
- अभिसरण समय और पुनरावृत्ति संख्या
सरल समस्या प्रयोग:
- AdaRHD दोनों डेटा आकारों पर तेजी से अभिसरण प्रदर्शित करता है
- हाइपरग्रेडिएंट अनुमान त्रुटि कम है, विशेष रूप से AdaRHD-CG
- गणना समय में लाभ है, विशेष रूप से बड़ी समस्याओं पर
मजबूतता विश्लेषण:
- विभिन्न प्रारंभिक चरण आकार सेटिंग्स के तहत, AdaRHD उल्लेखनीय मजबूतता प्रदर्शित करता है
- RHGD बड़े चरण आकार (5, 1, 0.5) पर विफल होता है, जबकि AdaRHD स्थिर रूप से अभिसरित होता है
- AdaRHD-CG 85% सत्यापन सटीकता तक पहुंचने में सबसे तेज है
- मजबूतता लाभ: AdaRHD प्रारंभिक चरण आकार चयन के प्रति असंवेदनशील है, जबकि RHGD अनुपयुक्त चरण आकार पर पूरी तरह विफल होता है
- दक्षता सुधार: हालांकि AdaRHD को अधिक बाहरी पुनरावृत्तियों की आवश्यकता होती है, अनुकूली रणनीति के कारण कुल गणना समय अभी भी प्रतिस्पर्धी है
- विधि चयन: AdaRHD-CG सटीकता और मजबूतता दोनों में AdaRHD-GD से बेहतर है, लेकिन बाद वाला प्रारंभिक अभिसरण में तेजी से है
प्रमेय 3.1: मानक मान्यताओं के तहत, AdaRHD संतुष्ट करता है:
T1∑t=0T−1∥GF(xt)∥xt2≤TC=O(T1)
परिणाम 3.1: ε-स्थिर बिंदु तक पहुंचने की जटिलता:
- कुल पुनरावृत्तियां: T = O(1/ε)
- ग्रेडिएंट जटिलता: Gf=O(1/ε), Gg=O(1/ε2)
- Hessian-वेक्टर उत्पाद जटिलता: AdaRHD-GD के लिए O(1/ε²), AdaRHD-CG के लिए Õ(1/ε)
- ज्यामितीय संरचना: रीमैनियन मैनिफोल्ड्स की वक्रता अतिरिक्त विश्लेषण जटिलता लाती है
- त्रिकोण दूरी सीमाएं: यूक्लिडियन समकक्षों के बजाय रीमैनियन मैनिफोल्ड्स के लिए विशिष्ट त्रिकोण दूरी सीमाओं का उपयोग करना आवश्यक है
- अनुकूली चरण आकार विश्लेषण: अनुकूली रणनीति प्रारंभ में विचलन व्यवहार का कारण बन सकती है, कठोर सैद्धांतिक उपचार की आवश्यकता है
- यूक्लिडियन द्विस्तरीय अनुकूलन: AID, ITD, Neumann श्रृंखला, संयुग्मित ग्रेडिएंट आदि विधियां
- हाल की अनुकूली विधियां: D-TFBO आदि
- शास्त्रीय विधियां: रीमैनियन ग्रेडिएंट डिसेंट, गैर-रैखिक संयुग्मित ग्रेडिएंट, विचरण-कम यादृच्छिक ग्रेडिएंट आदि
- अनुकूली विधियां: RASA, RAMSGrad, Riemannian SAM आदि
- RieBO/RieSBO: निर्धारक और यादृच्छिक रीमैनियन द्विस्तरीय अनुकूलन
- RHGD: रीमैनियन हाइपरग्रेडिएंट डिसेंट ढांचा
- RF2SA: पूरी तरह यादृच्छिक प्रथम-क्रम विधि
- AdaRHD पहली पूरी तरह से अनुकूली रीमैनियन द्विस्तरीय अनुकूलन एल्गोरिदम है, जो समस्या-विशिष्ट मापदंडों की निर्भरता को समाप्त करती है
- सैद्धांतिक रूप से गैर-अनुकूली विधियों के समान O(1/ε) जटिलता प्राप्त करता है
- प्रयोग एल्गोरिदम की प्रभावशीलता और उल्लेखनीय मजबूतता लाभों को सत्यापित करते हैं
- जटिलता अंतर: ग्रेडिएंट और Hessian-वेक्टर उत्पाद जटिलता में गैर-अनुकूली विधियों से 1/ε गुना अधिक
- मान्यता शर्तें: अभी भी निचली-स्तर की समस्या की भूगणितीय दृढ़ता से उत्तलता की आवश्यकता है
- एकल-लूप बनाम दोहरा-लूप: वर्तमान में केवल दोहरे-लूप एल्गोरिदम पर विचार किया गया है
- एकल-लूप एल्गोरिदम: अनुकूली एकल-लूप रीमैनियन द्विस्तरीय अनुकूलन एल्गोरिदम डिजाइन करना
- यादृच्छिक सेटिंग: यादृच्छिक रीमैनियन द्विस्तरीय अनुकूलन तक विस्तार करना
- कमजोर उत्तलता: भूगणितीय उत्तलता (गैर-दृढ़ता से उत्तल) निचली-स्तर के उद्देश्य को संभालना
- जटिलता अनुकूलन: 1/ε अंतर को समाप्त करने वाली अनुकूली रणनीतियों की खोज करना
- सैद्धांतिक नवाचार: RBO में पहली बार पूरी तरह से अनुकूली प्राप्त करना, कठोर सैद्धांतिक विश्लेषण
- व्यावहारिक मूल्य: एल्गोरिदम की मजबूतता और उपयोग में आसानी में उल्लेखनीय सुधार
- तकनीकी गहराई: रीमैनियन ज्यामिति द्वारा लाई गई तकनीकी चुनौतियों को सफलतापूर्वक संभालना
- पर्याप्त प्रयोग: कई अनुप्रयोग परिदृश्यों का व्यापक सत्यापन
- जटिलता लागत: अनुकूलन अतिरिक्त गणना जटिलता की कीमत पर आता है
- मान्यता सीमाएं: अभी भी मजबूत मान्यता शर्तों की आवश्यकता है
- अनुप्रयोग सीमा: मुख्य रूप से विशिष्ट रीमैनियन मैनिफोल्ड्स पर केंद्रित
- शैक्षणिक योगदान: रीमैनियन अनुकूलन और द्विस्तरीय अनुकूलन के अंतर-अनुशासनात्मक क्षेत्र में महत्वपूर्ण प्रगति
- व्यावहारिक मूल्य: वास्तविक अनुप्रयोगों में रीमैनियन द्विस्तरीय अनुकूलन के लिए अधिक मजबूत उपकरण प्रदान करता है
- अनुवर्ती अनुसंधान: आगे की अनुकूली रीमैनियन अनुकूलन अनुसंधान के लिए आधार स्थापित करता है
- रीमैनियन मेटा-लर्निंग और तंत्रिका आर्किटेक्चर खोज
- छवि विभाजन और निम्न-रैंक अनुकूलन
- मजबूत सांख्यिकी और ज्यामितीय मशीन लर्निंग
- कोई भी अनुप्रयोग जिसमें मैनिफोल्ड बाधाओं के तहत द्विस्तरीय अनुकूलन की आवश्यकता होती है
यह पेपर रीमैनियन द्विस्तरीय अनुकूलन क्षेत्र में महत्वपूर्ण योगदान देता है, पहली बार पूरी तरह से अनुकूली एल्गोरिदम डिजाइन को लागू करता है, सैद्धांतिक जटिलता को बनाए रखते हुए व्यावहारिकता और मजबूतता में उल्लेखनीय सुधार करता है। हालांकि कुछ जटिलता लागत है, लेकिन इसका सैद्धांतिक नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।