2025-11-21T07:10:15.718224

CKANIO: Learnable Chebyshev Polynomials for Inertial Odometry

Zhang, Wang, Wen et al.
Inertial odometry (IO) relies exclusively on signals from an inertial measurement unit (IMU) for localization and offers a promising avenue for consumer grade positioning. However, accurate modeling of the nonlinear motion patterns present in IMU signals remains the principal limitation on IO accuracy. To address this challenge, we propose CKANIO, an IO framework that integrates Chebyshev based Kolmogorov-Arnold Networks (Chebyshev KAN). Specifically, we design a novel residual architecture that leverages the nonlinear approximation capabilities of Chebyshev polynomials within the KAN framework to more effectively model the complex motion characteristics inherent in IMU signals. To the best of our knowledge, this work represents the first application of an interpretable KAN model to IO. Experimental results on five publicly available datasets demonstrate the effectiveness of CKANIO.
academic

CKANIO: जड़त्वीय ओडोमेट्री के लिए सीखने योग्य चेबिशेव बहुपद

मूल जानकारी

  • पेपर ID: 2507.16865
  • शीर्षक: CKANIO: Learnable Chebyshev Polynomials for Inertial Odometry
  • लेखक: Shanshan Zhang, Siyue Wang, Tianshui Wen, Liqin Wu, Qi Zhang, Ziheng Zhou, Ao Peng, Xuemin Hong, Lingxiang Zheng, Yu Yang
  • वर्गीकरण: cs.RO (रोबोटिक्स)
  • प्रकाशन तिथि: 16 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2507.16865

सारांश

जड़त्वीय ओडोमेट्री (IO) केवल जड़त्वीय मापन इकाई (IMU) संकेतों पर निर्भर करके स्थिति निर्धारण करता है, जो उपभोक्ता-स्तरीय स्थिति निर्धारण के लिए एक आशाजनक मार्ग प्रदान करता है। हालांकि, IMU संकेतों में मौजूद गैर-रैखिक गति पैटर्न को सटीक रूप से मॉडल करना IO सटीकता का मुख्य सीमांकन बना हुआ है। इस चुनौती का सामना करने के लिए, लेखकों ने CKANIO प्रस्तावित किया है, जो चेबिशेव-आधारित Kolmogorov-Arnold नेटवर्क (Chebyshev KAN) को एकीकृत करता है। विशेष रूप से, एक नवीन अवशिष्ट आर्किटेक्चर डिज़ाइन किया गया है जो KAN फ्रेमवर्क के भीतर चेबिशेव बहुपदों की गैर-रैखिक सन्निकटन क्षमता का उपयोग करके IMU संकेतों में निहित जटिल गति विशेषताओं को अधिक प्रभावी ढंग से मॉडल करता है। लेखकों के ज्ञान के अनुसार, यह IO के लिए व्याख्यायोग्य KAN मॉडल को लागू करने का पहला कार्य है। पाँच सार्वजनिक डेटासेट पर प्रायोगिक परिणाम CKANIO की प्रभावशीलता को प्रमाणित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

जड़त्वीय ओडोमेट्री (IO) केवल IMU सेंसर का उपयोग करके स्थिति और अभिविन्यास अनुमान लगाने की एक तकनीक है, जिसका स्वचालित ड्राइविंग, रोबोट नेविगेशन आदि क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य है। जब GPS संकेत उपलब्ध नहीं होते हैं या बाहरी सेंसर सीमित होते हैं, तो IO पूरक या वैकल्पिक स्थिति निर्धारण समाधान के रूप में कार्य कर सकता है।

मुख्य समस्याएँ

  1. त्रुटि संचय समस्या: न्यूटोनियन यांत्रिकी पर आधारित पारंपरिक IO विधियाँ IMU की अंतर्निहित माप शोर के कारण समय के साथ त्रुटि संचय करती हैं, जो लंबी दूरी की स्थिति निर्धारण सटीकता को गंभीर रूप से प्रभावित करती हैं
  2. गैर-रैखिक गति मॉडलिंग कठिनाई: IMU संकेतों में जटिल गैर-रैखिक गति पैटर्न (जैसे घूर्णन) को सटीक रूप से मॉडल करना कठिन है
  3. निश्चित सक्रियण फलन की सीमाएँ: मौजूदा डेटा-संचालित विधियाँ निश्चित सक्रियण फलन पर निर्भर करती हैं, जो IMU संकेतों की जटिल गतिशीलता को पूरी तरह से कैप्चर नहीं कर सकती हैं

अनुसंधान प्रेरणा

Kolmogorov-Arnold नेटवर्क (KAN) की गैर-रैखिक फलन सन्निकटन में उत्कृष्ट कार्यक्षमता से प्रेरित होकर, लेखकों ने चेबिशेव बहुपद-आधारित KAN का उपयोग करके पारंपरिक निश्चित सक्रियण फलन को प्रतिस्थापित करने का प्रस्ताव दिया है, ताकि IMU संकेतों में जटिल गैर-रैखिक विशेषताओं को बेहतर तरीके से मॉडल किया जा सके।

मुख्य योगदान

  1. Chebyshev KAN को पहली बार IO क्षेत्र में प्रस्तुत करना: एक अवशिष्ट नेटवर्क आर्किटेक्चर डिज़ाइन किया गया है जो चेबिशेव बहुपदों की गैर-रैखिक सन्निकटन क्षमता का उपयोग करके गैर-रैखिक गतिशीलता के प्रति मॉडल की प्रतिनिधित्व क्षमता को बढ़ाता है
  2. कुशल कर्नेल-आधारित स्व-ध्यान मॉड्यूल (EKSA) विकसित करना: संदर्भ गति मॉडलिंग को बढ़ाता है, IMU संकेतों का अधिक व्यापक उपयोग प्राप्त करता है, साथ ही कम्प्यूटेशनल जटिलता को O(L²) से O(L) तक कम करता है
  3. गुरुत्वाकर्षण के IO सटीकता पर प्रभाव का पहला मात्रात्मक विश्लेषण प्रदान करना: वैश्विक निर्देशांक प्रणाली में गुरुत्वाकर्षण के IO कार्यक्षमता पर विशिष्ट प्रभाव का मात्रात्मक विश्लेषण करता है

विधि विवरण

कार्य परिभाषा

समय विंडो के भीतर IMU संकेत X ∈ R^(C×L) दिए गए (जहाँ C=6 तीन-अक्ष त्वरण और तीन-अक्ष कोणीय वेग को दर्शाता है, L नमूना बिंदुओं की संख्या है), वेग वेक्टर v̂ की भविष्यवाणी करें, वास्तविक वेग v के साथ माध्य वर्ग त्रुटि को कम करें।

मॉडल आर्किटेक्चर

1. अवशिष्ट चेबिशेव KAN (ResCKAN)

इनपुट पूर्व-प्रसंस्करण:

X' = arccos(tanh(X)) ∈ (0,π)^(C×L)

tanh फलन के माध्यम से इनपुट को (-1,1) श्रेणी में सीमित करें, फिर संख्यात्मक रूप से स्थिर चरण प्रतिनिधित्व प्राप्त करने के लिए arccos का उपयोग करें।

चेबिशेव बहुपद परिभाषा:

T_n(x) = cos(n·arccos(x))  (x ∈ [-1,1])

सीखने योग्य सक्रियण फलन:

Y = Σ(i=0 to n) W_i × T_i(tanh(X))

जहाँ W_i सीखने योग्य पैरामीटर टेंसर हैं, n=4 बहुपद क्रम है। यह डिज़ाइन सक्रियण फलन को IMU संकेत विशेषताओं के अनुकूल बनाने में सक्षम बनाता है।

2. कुशल कर्नेल-आधारित स्व-ध्यान (EKSA)

मुख्य विचार: पूर्ण ध्यान मैट्रिक्स की स्पष्ट गणना से बचने के लिए कर्नेल फलन का उपयोग करके ध्यान मैट्रिक्स का अनुमान लगाएँ।

पियर्सन सहसंबंध गुणांक समानता:

ρ(q,k)² = (q̄ᵀk̄ / (||q̄|| ||k̄||))²

जहाँ q̄ = q - μ(q), k̄ = k - μ(k), यह माप IMU संकेतों में सामान्य ऑफसेट और लाभ शोर के प्रति मजबूत है।

घातीय कर्नेल फलन:

K_F(q,k) = exp(ρ(q,k)²)

टेलर विस्तार सन्निकटन:

K_F(q,k) = Σ(n=0 to ∞) (q̃²ⁿ/√n!) · (k̃²ⁿ/√n!)ᵀ

EKSA गणना:

EKSA(Q,K,V) = f_Q(f_K^T V)

जटिलता को O(C_R L_R²) से O(L_R C_R²) तक कम करता है।

तकनीकी नवाचार बिंदु

  1. अनुकूली गैर-रैखिक मॉडलिंग: चेबिशेव बहुपदों का सीखने योग्य संयोजन विभिन्न IMU संकेत विशेषताओं के अनुकूल हो सकता है
  2. कम्प्यूटेशनल दक्षता अनुकूलन: EKSA मॉड्यूल वैश्विक निर्भरता मॉडलिंग की रैखिक समय जटिलता को प्राप्त करता है
  3. शोर मजबूती: पियर्सन सहसंबंध गुणांक की ऑफसेट और लाभ शोर के प्रति अपरिवर्तनीयता प्रणाली की मजबूती को बढ़ाती है

प्रायोगिक सेटअप

डेटासेट

पाँच सार्वजनिक जड़त्वीय डेटासेट का उपयोग किया गया:

  • IMUNet, RoNIN, RIDI, RNIN, TLIO
  • डेटासेट को 8:1:1 अनुपात में प्रशिक्षण, सत्यापन और परीक्षण सेट में यादृच्छिक रूप से विभाजित किया गया
  • गुरुत्वाकर्षण प्रभाव विश्लेषण के लिए TLIO (w/o gravity) डेटासेट विशेष रूप से निर्मित किया गया

मूल्यांकन मेट्रिक्स

  1. Position Drift Error (PDE): अंतिम बिंदु漂drift त्रुटि
  2. Relative Trajectory Error (RTE): स्थानीय प्रक्षेपवक्र सटीकता
  3. Absolute Trajectory Error (ATE): वैश्विक स्थिति निर्धारण सटीकता

तुलनात्मक विधियाँ

  • RoNIN (ResNet, TCN, LSTM वेरिएंट)
  • IMUNet
  • TLIO नेटवर्क
  • RNIN नेटवर्क

कार्यान्वयन विवरण

  • GPU: NVIDIA RTX A40 (48 GB)
  • सीखने की दर: 10⁻⁴
  • बैच आकार: 512
  • प्रशिक्षण युग: 100
  • CUDA संस्करण: 11.3
  • PyTorch संस्करण: 1.11

प्रायोगिक परिणाम

मुख्य परिणाम

पाँच डेटासेट पर क्रॉस-डेटासेट कार्यक्षमता तुलना से पता चलता है कि CKANIO अधिकांश डेटासेट पर तुलनात्मक विधियों से लगातार बेहतर है:

RoNIN डेटासेट कार्यक्षमता:

  • ATE: 5.365m → 3.814m (RoNIN ResNet की तुलना में)
  • RTE: 3.390m → 3.272m

समग्र कार्यक्षमता: CKANIO सभी परीक्षण डेटासेट पर ATE और RTE में सर्वोत्तम या निकट-सर्वोत्तम मान प्राप्त करता है।

गुरुत्वाकर्षण प्रभाव विश्लेषण

प्रयोग से पता चलता है कि वैश्विक निर्देशांक प्रणाली में गुरुत्वाकर्षण त्वरण को हटाने से लगभग सभी एल्गोरिदम की त्रुटि में उल्लेखनीय कमी आती है:

  • गुरुत्वाकर्षण वैश्विक संरेखित निर्देशांक प्रणाली में एक स्थिर पूर्वाग्रह के रूप में कार्य करता है
  • गुरुत्वाकर्षण घटक को हटाने से त्वरणमापी माप वाहक के अनुवादात्मक गति को बेहतर ढंग से प्रतिबिंबित करता है
  • सीखने की प्रभावशीलता और संख्यात्मक स्थिरता में सुधार करता है

विलोपन प्रयोग

  • CKANIO (w/o EKSA): केवल ResCKAN का उपयोग करके पहले से ही RoNIN ResNet से बेहतर है
  • पूर्ण CKANIO: EKSA जोड़ने के बाद ATE और RTE में और कमी आती है, वेग भविष्यवाणी सटीकता में सुधार होता है

दृश्य विश्लेषण

प्रक्षेपवक्र तुलना से पता चलता है:

  1. सरल परिदृश्यों में, RoNIN ResNet संचयी शीर्षक त्रुटि के कारण धीरे-धीरे विचलित होता है, जबकि CKANIO अधिक मजबूत शोर सहनशीलता प्रदर्शित करता है
  2. जटिल परिदृश्यों में, RoNIN ResNet घूर्णन जैसी गैर-रैखिक युद्धाभ्यास के बाद स्पष्ट漂drift दिखाता है, CKANIO इन गतिशील विशेषताओं को बेहतर तरीके से कैप्चर कर सकता है

संबंधित कार्य

पारंपरिक IO विधियाँ

मुख्य रूप से स्थिति और अभिविन्यास अनुमान के लिए न्यूटोनियन यांत्रिकी पर निर्भर करती हैं, लेकिन IMU शोर के प्रभाव से त्रुटि संचय से प्रभावित होती हैं।

डेटा-संचालित IO विधियाँ

बड़े पैमाने पर IMU डेटा से गति पैटर्न सीखते हैं, सटीकता और प्रयोज्यता के संदर्भ में पारंपरिक विधियों से बेहतर हैं, लेकिन जटिल गैर-रैखिक गति मॉडलिंग में अभी भी सीमाएँ हैं।

KAN नेटवर्क

Kolmogorov-Arnold नेटवर्क पारंपरिक निश्चित सक्रियण फलन को सीखने योग्य सक्रियण फलन से प्रतिस्थापित करते हैं, विभिन्न क्षेत्रों में उत्कृष्ट गैर-रैखिक सन्निकटन क्षमता प्रदर्शित करते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. CKANIO ने सफलतापूर्वक चेबिशेव KAN को IO क्षेत्र में प्रस्तुत किया है, गैर-रैखिक गति मॉडलिंग क्षमता में उल्लेखनीय सुधार किया है
  2. EKSA मॉड्यूल कार्यक्षमता और कम्प्यूटेशनल दक्षता को प्रभावी ढंग से संतुलित करता है
  3. गुरुत्वाकर्षण हटाने का IO कार्यक्षमता पर महत्वपूर्ण सकारात्मक प्रभाव है

सीमाएँ

  1. केवल पैदल चलने वाले IMU संकेतों पर सत्यापित किया गया है, अन्य वाहन प्रकारों के मूल्यांकन की कमी है
  2. कम्प्यूटेशनल जटिलता में सुधार हुआ है, लेकिन पारंपरिक विधियों की तुलना में अभी भी अधिक है
  3. चरम गति पैटर्न को संभालने की क्षमता को आगे सत्यापित करने की आवश्यकता है

भविष्य की दिशाएँ

लेखकों ने गैर-पैदल चलने वाले IMU संकेतों के लिए मूल्यांकन का विस्तार करना एक आशाजनक अनुसंधान दिशा के रूप में प्रस्तावित किया है।

गहन मूल्यांकन

लाभ

  1. तकनीकी नवाचार मजबूत: पहली बार KAN को IO क्षेत्र में प्रस्तुत करना, ऐतिहासिक महत्व रखता है
  2. सैद्धांतिक आधार मजबूत: चेबिशेव बहुपदों की गैर-रैखिक सन्निकटन सिद्धांत विधि के लिए ठोस आधार प्रदान करता है
  3. प्रायोगिक डिज़ाइन व्यापक: पाँच डेटासेट की तुलना और विस्तृत विलोपन अध्ययन
  4. व्यावहारिक मूल्य उच्च: कम्प्यूटेशनल दक्षता बनाए रखते हुए सटीकता में उल्लेखनीय सुधार

कमियाँ

  1. प्रयोज्य श्रेणी सीमित: केवल पैदल चलने वाले परिदृश्य में सत्यापित, औद्योगिक अनुप्रयोग की सामान्यीकरण क्षमता अभी भी सत्यापित होनी बाकी है
  2. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए सैद्धांतिक विश्लेषण की कमी है कि चेबिशेव बहुपद IMU संकेतों के लिए विशेष रूप से उपयुक्त क्यों हैं
  3. कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त: जटिलता में कमी आई है, लेकिन वास्तविक चलने का समय तुलना की कमी है

प्रभाव

  1. शैक्षणिक प्रभाव: IO क्षेत्र में नए नेटवर्क आर्किटेक्चर प्रतिमान प्रस्तुत करता है
  2. व्यावहारिक मूल्य: उपभोक्ता-स्तरीय स्थिति निर्धारण उपकरणों के लिए नया तकनीकी मार्ग प्रदान करता है
  3. पुनरुत्पादनीयता: प्रायोगिक सेटअप विस्तृत है, बाद के अनुसंधान में सहायता करता है

प्रयोज्य परिदृश्य

  1. उपभोक्ता-स्तरीय मोबाइल उपकरणों का इनडोर स्थिति निर्धारण
  2. GPS अस्वीकृत वातावरण में नेविगेशन प्रणाली
  3. उच्च-सटीकता जड़त्वीय नेविगेशन की आवश्यकता वाली रोबोट प्रणाली

संदर्भ

पेपर में 26 संबंधित संदर्भों का हवाला दिया गया है, जो जड़त्वीय नेविगेशन, गहन शिक्षा, KAN नेटवर्क आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो इस अनुसंधान के लिए समृद्ध सैद्धांतिक आधार और तुलनात्मक बेंचमार्क प्रदान करते हैं।