Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
- पेपर ID: 2511.08809
- शीर्षक: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
- लेखक: Abu Taib Mohammed Shahjahan और A. Ben Hamza (कॉनकॉर्डिया विश्वविद्यालय, मॉन्ट्रियल, कनाडा)
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन तिथि: 11 नवंबर 2025 को arXiv पर प्रस्तुत
- पेपर लिंक: https://arxiv.org/abs/2511.08809
- कोड लिंक: https://github.com/shahjahan0275/PoseKAN
यह पेपर 3D मानव मुद्रा अनुमान कार्य के लिए PoseKAN प्रस्तावित करता है—एक अनुकूली ग्राफ कोलमोगोरोव-अर्नोल्ड नेटवर्क ढांचा। यह विधि पारंपरिक ग्राफ कनवोल्यूशनल नेटवर्क (GCN) की तीन मुख्य सीमाओं को संबोधित करती है: स्थानीय ग्रहणशील क्षेत्र की सीमा, वर्णक्रमीय पूर्वाग्रह (spectral bias) और निश्चित सक्रियण कार्यों की अपर्याप्त अभिव्यक्ति क्षमता। PoseKAN ग्राफ किनारों पर सीखने योग्य कार्य परिवर्तनों का उपयोग करके निश्चित सक्रियण कार्यों को प्रतिस्थापित करता है, बहु-हॉप विशेषता एकत्रीकरण तंत्र के साथ मिलकर, स्थानीय और दूरस्थ संयुक्त निर्भरताओं का प्रभावी मॉडलिंग प्राप्त करता है। Human3.6M और MPI-INF-3DHP बेंचमार्क डेटासेट पर प्रयोग अत्याधुनिक विधियों के समान प्रदर्शन प्रदर्शित करते हैं।
3D मानव मुद्रा अनुमान का लक्ष्य 2D छवियों या वीडियो से शरीर के संयुक्त बिंदुओं के 3D निर्देशांक का अनुमान लगाना है, जो मानव गति को समझने के लिए महत्वपूर्ण है, लेकिन इनपुट डेटा में निहित गहराई की अस्पष्टता और अवरोध समस्याओं के कारण अत्यंत चुनौतीपूर्ण है।
- व्यापक अनुप्रयोग: मानव-कंप्यूटर इंटरैक्शन, क्रिया पहचान, खेल विश्लेषण, चिकित्सा पुनर्वास आदि क्षेत्र
- तकनीकी चुनौतियाँ: एकल छवि में गहराई की जानकारी की कमी, स्व-अवरोध, जटिल मुद्रा परिवर्तन
GCN विधि की तीन प्रमुख सीमाएं:
- स्थानीय ग्रहणशील क्षेत्र की सीमा: मुख्य रूप से एक-हॉप पड़ोसी एकत्रीकरण पर निर्भर, दूरस्थ संयुक्त बिंदुओं के बीच दीर्घकालीन निर्भरताओं को पकड़ना कठिन
- वर्णक्रमीय पूर्वाग्रह समस्या: MLP को मुख्य घटक के रूप में उपयोग करने के कारण, निम्न आवृत्ति घटकों को सीखने की प्रवृत्ति जबकि उच्च आवृत्ति विवरण (जैसे तीव्र गति, सूक्ष्म संयुक्त इंटरैक्शन) को पकड़ना कठिन
- अभिव्यक्ति क्षमता अपर्याप्त: पूर्वनिर्धारित निश्चित सक्रियण कार्यों और प्रशिक्षणीय वजन मैट्रिक्स का उपयोग, गतिशील अनुकूलन और व्याख्यात्मकता की कमी
कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय से प्रेरित, KAN नेटवर्क निश्चित सक्रियण कार्यों को सीखने योग्य एकल-चर कार्यों से प्रतिस्थापित करके, मजबूत कार्य सन्निकटन क्षमता और व्याख्यात्मकता प्रदान करता है। यह पेपर KAN को ग्राफ सीखने के क्षेत्र में विस्तारित करता है, विशेष रूप से 3D मुद्रा अनुमान के 2D-से-3D उत्थान कार्य के लिए।
- PoseKAN ढांचा प्रस्तावित करना: पहली बार कोलमोगोरोव-अर्नोल्ड नेटवर्क को ग्राफ संरचित डेटा तक विस्तारित करना, 3D मानव मुद्रा अनुमान के लिए, सीखने योग्य कार्य-आधारित परिवर्तनों के माध्यम से मॉडल अनुकूलन और सामान्यीकरण क्षमता में सुधार
- बहु-हॉप विशेषता प्रसार तंत्र डिजाइन करना: स्केलिंग पैरामीटर s परिचय करना जो स्थानीय और वैश्विक विशेषता एकत्रीकरण के संतुलन को नियंत्रित करता है, प्रसार मैट्रिक्स P = (1-s) + s² एक-हॉप और दो-हॉप पड़ोसियों दोनों पर विचार करता है, अवरोध और गहराई अस्पष्टता के प्रति मजबूती में सुधार
- नवीन आर्किटेक्चर डिजाइन:
- गहरी विशेषता परिशोधन के लिए अवशिष्ट PoseKAN ब्लॉक
- विशेषता चयनशीलता और विपरीतता में सुधार के लिए वैश्विक प्रतिक्रिया सामान्यीकरण (GRN)
- अभिव्यक्ति क्षमता बढ़ाने के लिए GELU अरैखिकता के साथ संयोजन
- व्यापक प्रायोगिक सत्यापन: Human3.6M और MPI-INF-3DHP डेटासेट पर विस्तृत तुलनात्मक प्रयोग और विलोपन अध्ययन, विधि की प्रभावशीलता प्रदर्शित करना
प्रशिक्षण सेट D = {(xᵢ, yᵢ)}ᴺᵢ₌₁ दिया गया, जहाँ:
- इनपुट: xᵢ ∈ ℝ² 2D संयुक्त स्थिति (तैयार 2D मुद्रा संसूचक द्वारा प्रदान)
- आउटपुट: yᵢ ∈ ℝ³ संबंधित वास्तविक 3D संयुक्त स्थिति
- उद्देश्य: प्रतिगमन मॉडल fω: X → Y के पैरामीटर ω सीखना
मानव कंकाल को ग्राफ G = (V, E, X) के रूप में प्रदर्शित किया जाता है:
- V = {1,...,J} J नोड्स (संयुक्त बिंदु)
- E ⊆ V × V किनारों का समुच्चय
- X ∈ ℝᴶˣᶠ नोड विशेषता मैट्रिक्स
- A आसन्न मैट्रिक्स, Â = D⁻¹/²AD⁻¹/² सामान्यीकृत आसन्न मैट्रिक्स
KAN परत का मुख्य भाग सीखने योग्य सक्रियण कार्य है, जिसे इस प्रकार परिभाषित किया गया है:
ϕ(x) = wᵦb(x) + wₛspline(x)
जहाँ:
- b(x) = SiLU(x) = x/(1+e⁻ˣ) सिग्मॉइड रैखिक इकाई
- spline(x) = Σᵢ cᵢBᵢ(x) B-स्प्लाइन आधार कार्यों का भारित योग
- wᵦ, wₛ, cᵢ सीखने योग्य पैरामीटर
इस पेपर द्वारा प्रस्तावित नवीन वर्णक्रमीय मॉड्यूलेशन फिल्टर:
hₛ(λ) = 1/((1+s)λ - sλ²)
जहाँ s ∈ (0,1) स्केलिंग पैरामीटर है, विभिन्न आवृत्ति घटकों के प्रति फिल्टर के क्षीणन व्यवहार को नियंत्रित करता है। यह फिल्टर स्व-अनुकूली निम्न-पास विशेषता रखता है।
निश्चित बिंदु पुनरावृत्ति के माध्यम से समाधान:
H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X
मुख्य परत-दर-परत अद्यतन सूत्र:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)
दो संचालनों में विघटित किया जा सकता है:
विशेषता प्रसार:
G⁽ˡ⁾ = PH⁽ˡ⁾ + X
जहाँ P = (1-s) + s² प्रसार मैट्रिक्स है, एक-हॉप और दो-हॉप पड़ोसी जानकारी को संतुलित करता है
विशेषता एम्बेडिंग:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)
प्रत्येक ग्राफ किनारे से एक सीखने योग्य एकल-चर कार्य जुड़ा होता है
- प्रारंभिक PoseKAN परत: 2D इनपुट को अव्यक्त स्थान में मैप करना
- 4 अवशिष्ट PoseKAN ब्लॉक: प्रत्येक ब्लॉक में शामिल है
- स्तरीय विशेषता सीखने के लिए 5 PoseKAN परतें
- प्रशिक्षण को स्थिर करने के लिए परत सामान्यीकरण
- अतिरिक्त PoseKAN परत + GELU अरैखिकता
- प्रवणता लुप्त होने को रोकने के लिए अवशिष्ट कनेक्शन
- वैश्विक प्रतिक्रिया सामान्यीकरण (GRN): भविष्यवाणी से पहले विशेषता आयाम को कैलिब्रेट करना
- समाप्ति PoseKAN परत: 3D मुद्रा स्थान में वापस प्रक्षेपण
मिश्रित हानि कार्य (लोचदार नेट से प्रेरित):
L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁
जहाँ α ∈ 0,1 MSE और MAE के वजन संतुलन को नियंत्रित करता है
- GCN: निश्चित सक्रियण कार्य (जैसे ReLU) और प्रशिक्षणीय वजन मैट्रिक्स का उपयोग, अनिवार्य रूप से नोड-स्तर की रैखिक मैपिंग
- PoseKAN: किनारों पर सीखने योग्य एकल-चर कार्य, डेटा-संचालित अनुकूली विशेषता परिवर्तन प्रदान करता है, मजबूत अभिव्यक्ति क्षमता
प्रसार मैट्रिक्स P = (1-s) + s² के माध्यम से:
- स्पष्ट रूप से एक-हॉप और दो-हॉप पड़ोसी जानकारी को संयोजित करता है
- पैरामीटर s स्थानीय बनाम वैश्विक जानकारी के संतुलन को समायोजित कर सकता है
- ² की स्पष्ट गणना से बचता है (दाएं से बाएं गुणन रणनीति का उपयोग)
KAN के कार्य आधार परिवर्तन निम्न और उच्च दोनों आवृत्ति घटकों को पकड़ने में सक्षम हैं:
- निम्न आवृत्ति: चिकनी, क्रमिक संयुक्त स्थिति परिवर्तन (जैसे चलना, खाना)
- उच्च आवृत्ति: तीव्र, अचानक गति (जैसे अभिवादन में अचानक क्रिया)
- समय जटिलता: O(L||Â||₀F + LGF²)
- पहला पद: विशेषता प्रसार (ग्राफ किनारों की संख्या पर निर्भर)
- दूसरा पद: KAN परिवर्तन (G ग्रिड आकार है)
- स्थान जटिलता: O(LJF + 2kGLF²)
- 2k k-क्रम स्प्लाइन की पुनरावर्ती गणना से आता है
चूंकि k और G आमतौर पर छोटे होते हैं, अतिरिक्त ओवरहेड नियंत्रणीय है
- आकार: 11 अभिनेता (6 पुरुष 5 महिला), 15 प्रकार की इनडोर गतिविधियाँ
- संग्रह: 50Hz, 4 सिंक्रोनाइज़्ड कैमरे
- एनोटेशन: गति कैप्चर के माध्यम से सटीक 3D संयुक्त निर्देशांक
- विभाजन:
- प्रशिक्षण सेट: 5 अभिनेता (S1, S5, S6, S7, S8)
- परीक्षण सेट: 2 अभिनेता (S9, S11)
- पूर्व-प्रसंस्करण: सामान्यीकरण, कूल्हे के जोड़ को रूट जोड़ के रूप में शून्य-केंद्रित करना
- आकार: 8 अभिनेता (4 पुरुष 4 महिला), 8 गतिविधि अनुक्रम
- संग्रह: 14 विभिन्न कोण, इनडोर-आउटडोर दृश्य
- विशेषता: Human3.6M की तुलना में अधिक विविध, मूल क्रियाओं से गतिशील उच्च-तीव्रता क्रियाओं तक
- प्रोटोकॉल #1: MPJPE (माध्य प्रति-संयुक्त स्थिति त्रुटि) - मिलीमीटर में औसत प्रति-संयुक्त स्थिति त्रुटि
- प्रोटोकॉल #2: PA-MPJPE (प्रोक्रस्टेस-संरेखित MPJPE) - प्रोक्रस्टेस संरेखण के बाद की त्रुटि
- PCK (सही कीपॉइंट का प्रतिशत): सही कीपॉइंट प्रतिशत
- AUC (वक्र के नीचे का क्षेत्र): वक्र के नीचे का क्षेत्र
- GCN श्रृंखला: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
- मिश्रित विधियाँ: GraphMLP (MLP और GCN का संयोजन)
- अन्य: HOIF-Net, PoseGraphNet, WSGN आदि
- हार्डवेयर: एकल NVIDIA RTX A4500 GPU (20GB)
- ढांचा: PyTorch
- अनुकूलक: AMSGrad
- प्रशिक्षण युग: 30 epochs
- सीखने की दर: प्रारंभिक 0.001, प्रत्येक 4 epochs में 0.99 क्षय
- बैच आकार: 64
- एम्बेडिंग आयाम: F = 240
- मुख्य हाइपरपैरामीटर: s = 0.2, α = 0.03 (ग्रिड खोज के माध्यम से निर्धारित)
- नियमितीकरण: प्रत्येक PoseKAN परत के बाद dropout=0.2
- स्प्लाइन सेटिंग: क्रम=3, ग्रिड आकार=5
समग्र प्रदर्शन:
- PoseKAN: 46.7mm (सर्वोत्तम)
- GraphMLP: 48.0mm (दूसरा)
- Modulated GCN: 49.4mm
- सापेक्ष त्रुटि में कमी:
- बनाम GraphMLP: 2.7%
- बनाम Modulated GCN: 5.47%
- बनाम High-order GCN: 15.99%
मुख्य क्रिया प्रदर्शन (अवरोध चुनौती):
- खाना: 44.4mm (अन्य विधियों से काफी बेहतर)
- बैठना: 54.6mm
- धूम्रपान: 46.1mm
- 15 क्रियाओं में 14 में Modulated GCN से बेहतर
समग्र प्रदर्शन:
- PoseKAN: 38.3mm (सर्वोत्तम)
- GraphMLP: 38.4mm (सापेक्ष त्रुटि में 0.26% कमी)
- Modulated GCN: 39.1mm (सापेक्ष त्रुटि में 2.04% कमी)
- High-order GCN: 43.7mm (सापेक्ष त्रुटि में 12.35% कमी)
लाभप्रद क्रियाएँ:
- 15 क्रियाओं में 11 में GraphMLP से बेहतर
- 15 क्रियाओं में 13 में Modulated GCN से बेहतर
- विशेष रूप से अभिवादन, बैठना, धूम्रपान जैसे गंभीर अवरोध दृश्यों में उत्कृष्ट प्रदर्शन
Human3.6M पर प्रशिक्षण, MPI-INF-3DHP पर परीक्षण:
- PCK: 86.0% (सर्वोच्च)
- AUC: 52.9% (दूसरा, केवल ICFNet के 54.3% के बाद)
- ICFNet के PCK के सापेक्ष 0.5% सुधार
- MPJPE: 33.51mm
- सापेक्ष त्रुटि में कमी:
- बनाम SemGCN: 19.62%
- बनाम High-order GCN: 14.29%
- बनाम GraphMLP: 2.01%
- PA-MPJPE: 28.01mm (सर्वोत्तम)
| कॉन्फ़िगरेशन | MPJPE | PA-MPJPE |
|---|
| IRC के बिना | 34.44mm | 28.79mm |
| IRC के साथ | 33.51mm | 28.01mm |
| सुधार | 1.65% | 1.49% |
निष्कर्ष: IRC प्रारंभिक विशेषताओं को संरक्षित करके प्रशिक्षण को स्थिर करता है, सूचना हानि को रोकता है
- क्रम 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
- क्रम 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (सर्वोत्तम)
- क्रम 4: MPJPE=47.10mm, PA-MPJPE=38.59mm
निष्कर्ष: क्रम 3 सर्वोत्तम संतुलन प्राप्त करता है, उच्च क्रम जटिलता बढ़ाता है लेकिन लाभ नहीं
- आकार 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
- आकार 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (सर्वोत्तम)
- आकार 6: MPJPE=47.98mm, PA-MPJPE=39.11mm
निष्कर्ष: ग्रिड आकार 5 पर्याप्त कार्य सन्निकटन क्षमता प्रदान करता है
परीक्षण श्रेणी: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}
- इष्टतम मान: s=0.2
- छोटे s स्थानीय जानकारी पर अधिक जोर देते हैं, साथ ही दूरस्थ नोड्स पर उचित विचार
- s बहुत बड़ा या बहुत छोटा होने से प्रदर्शन में गिरावट आती है
- 224: MPJPE=47.38mm
- 240: MPJPE=46.77mm (सर्वोत्तम)
- 256: MPJPE=47.29mm
निष्कर्ष: 240 आयाम पर्याप्त अभिव्यक्ति क्षमता प्रदान करता है बिना अधिक-फिटिंग के
गुणात्मक दृश्य (चित्र 2) विभिन्न क्रिया श्रेणियों पर PoseKAN की भविष्यवाणी प्रदर्शित करता है:
- भविष्यवाणी किए गए 3D मुद्रा वास्तविक मूल्यों के साथ अत्यधिक संरेखित
- स्व-अवरोध दृश्यों (जैसे क्रॉस्ड आर्म्स, बैठी मुद्रा) में GraphMLP से बेहतर प्रदर्शन
- GraphMLP कभी-कभी अप्राकृतिक संयुक्त स्थिति उत्पन्न करता है, जबकि PoseKAN कंकाल संरचना सामंजस्य बनाए रखता है
- सटीक संयुक्त प्लेसमेंट और प्राकृतिक अंग संयुक्ति गहराई अस्पष्टता को कम करने में मॉडल की क्षमता को सत्यापित करता है
- सीखने योग्य कार्यों का स्पष्ट लाभ: निश्चित सक्रियण कार्यों की तुलना में, किनारों पर सीखने योग्य कार्य अधिक मजबूत अनुकूलन प्रदान करते हैं
- बहु-हॉप एकत्रीकरण महत्वपूर्ण है: अवरोध और जटिल मुद्राओं के संचालन में महत्वपूर्ण सुधार
- पैरामीटर दक्षता उच्च है: PoseKAN केवल 5.72M पैरामीटर, GraphMLP के 9.49M से बहुत कम
- क्रॉस-डेटासेट सामान्यीकरण क्षमता मजबूत है: MPI-INF-3DHP पर प्रदर्शन अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
- उच्च-आवृत्ति विवरण के प्रति संवेदनशील: तीव्र गति विवरण की आवश्यकता वाली क्रियाओं (जैसे अभिवादन) में स्पष्ट लाभ
- छवि से सीधे 3D संयुक्त निर्देशांक में प्रतिगमन
- प्रतिनिधि: Integral Human Pose Regression, Compositional Human Pose Regression
- सीमा: अवरोध से आसानी से प्रभावित, सटीकता कम
- पहला चरण: 2D संयुक्त स्थिति का पता लगाना
- दूसरा चरण: 3D स्थान में उत्थान
- प्रतिनिधि: SimpleBaseline, LCN
- लाभ: मॉड्यूलर डिजाइन, सर्वोत्तम 2D संसूचक का चयन कर सकते हैं, मजबूत
- यह पेपर इस श्रेणी में है
- SemGCN: 3D मुद्रा अनुमान में GCN का पहला अनुप्रयोग
- सीमा: एक-हॉप पड़ोसी एकत्रीकरण, स्थानीय ग्रहणशील क्षेत्र
- High-order GCN: बहु-हॉप पड़ोस तक विस्तारित
- Modulated GCN: आसन्न मैट्रिक्स मॉड्यूलेशन, अतिरिक्त किनारों को सीखना
- GroupGCN: समूह ग्राफ कनवोल्यूशन
- MM-GCN: बहु-हॉप मॉड्यूलेटेड GCN, बहु-हॉप पड़ोस जानकारी को मिलाता है
- GraphMLP: MLP और GCN का संयोजन, वैश्विक और स्थानीय कंकाल इंटरैक्शन का लाभ
- सीमा: अभी भी निश्चित सक्रियण कार्य का उपयोग करता है, वर्णक्रमीय पूर्वाग्रह मौजूद है
- सैद्धांतिक आधार: कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय (कोई भी निरंतर बहु-चर कार्य एकल-चर कार्यों के परिमित संयोजन के रूप में प्रदर्शित हो सकता है)
- KAN नेटवर्क: निश्चित सक्रियण को सीखने योग्य एकल-चर कार्यों से प्रतिस्थापित करता है, व्याख्यात्मकता और अनुकूलन क्षमता में सुधार
- KAGNN: हाल ही में KAN को ग्राफ सीखने तक विस्तारित (नोड/ग्राफ वर्गीकरण, लिंक भविष्यवाणी)
- यह पेपर का नवाचार: 3D मुद्रा अनुमान के 2D-से-3D उत्थान कार्य के लिए पहली बार KAN लागू करना
- बनाम मानक GCN: सीखने योग्य कार्य बनाम निश्चित सक्रियण, बहु-हॉप एकत्रीकरण बनाम एक-हॉप
- बनाम उच्च-क्रम GCN: अनुकूली कार्य परिवर्तन बनाम निश्चित उच्च-क्रम कनवोल्यूशन
- बनाम GraphMLP: वर्णक्रमीय पूर्वाग्रह को कम करता है, मजबूत अभिव्यक्ति क्षमता
- बनाम KAGNN: मुद्रा अनुमान के लिए विशेष डिजाइन, वर्णक्रमीय मॉड्यूलेशन फिल्टर परिचय
- विधि प्रभावशीलता: PoseKAN Human3.6M और MPI-INF-3DHP डेटासेट पर अत्याधुनिक विधियों के बराबर या उससे अधिक प्रदर्शन प्राप्त करता है
- मुख्य लाभ:
- सीखने योग्य कार्य अधिक मजबूत अनुकूलन और अभिव्यक्ति क्षमता प्रदान करते हैं
- बहु-हॉप विशेषता एकत्रीकरण प्रभावी रूप से दीर्घकालीन निर्भरताओं को पकड़ता है
- वर्णक्रमीय पूर्वाग्रह को कम करता है, निम्न और उच्च दोनों आवृत्ति घटकों को सीखता है
- व्यावहारिकता: पैरामीटर दक्षता उच्च (5.72M), कम्प्यूटेशनल ओवरहेड नियंत्रणीय, व्यावहारिक अनुप्रयोग के लिए उपयुक्त
- सामान्यीकरण क्षमता: क्रॉस-डेटासेट मूल्यांकन उत्कृष्ट प्रदर्शन, अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
- व्याख्यात्मकता चुनौती: हालांकि GCN की तुलना में अधिक व्याख्यात्मक, प्रत्येक सीखने योग्य सक्रियण कार्य को कंकाल के विभिन्न भागों में कैसे अनुकूलित किया जाता है, इसकी कल्पना करना अभी भी चुनौतीपूर्ण है
- कम्प्यूटेशनल लागत: सीखने योग्य सक्रियण प्रत्येक परत की कम्प्यूटेशनल लागत बढ़ाता है, स्प्लाइन आधार कार्यों को अतिरिक्त मेमोरी की आवश्यकता होती है
- मेमोरी खपत: बड़े पैमाने की डेटासेट और गहरे नेटवर्क प्रशिक्षण में मेमोरी आवश्यकताएँ बड़ी होती हैं
- अनुकूलन स्थान: कम्प्यूटेशनल दक्षता, व्याख्यात्मकता और मजबूती में आगे सुधार की आवश्यकता है
- एकल-व्यक्ति मुद्रा सीमा: वर्तमान में केवल एकल-व्यक्ति मुद्रा को संभालता है, बहु-व्यक्ति दृश्यों तक विस्तारित नहीं
- 2D संसूचन निर्भरता: प्रदर्शन 2D मुद्रा संसूचक की गुणवत्ता पर निर्भर करता है
- स्थिर ग्राफ संरचना: हालांकि किनारे वजन सीखता है, लेकिन टोपोलॉजी पूर्वनिर्धारित है
- हाइपरपैरामीटर संवेदनशीलता: s, α आदि हाइपरपैरामीटर को सावधानीपूर्वक समायोजन की आवश्यकता है
- बहु-व्यक्ति मुद्रा अनुमान: बहु-व्यक्ति दृश्यों तक विस्तार, व्यक्ति-व्यक्ति इंटरैक्शन को संभालना
- अन्य ग्राफ सीखने कार्य: क्रिया पहचान, विसंगति पहचान आदि
- समय-क्रमिक मॉडलिंग: वीडियो अनुक्रम की समय जानकारी को शामिल करना
- अंत-से-अंत सीखना: 2D संसूचन और 3D उत्थान को संयुक्त रूप से अनुकूलित करना
- अनुकूली ग्राफ संरचना: पूर्वनिर्धारित के बजाय गतिशील रूप से ग्राफ टोपोलॉजी सीखना
- हल्के-फुल्के डिजाइन: मोबाइल उपकरणों के लिए मॉडल संपीड़न
- सैद्धांतिक नवाचार: 3D मुद्रा अनुमान के ग्राफ सीखने में KAN का पहला विस्तार, मजबूत सैद्धांतिक आधार
- तकनीकी नवाचार: वर्णक्रमीय मॉड्यूलेशन फिल्टर डिजाइन चतुर, बहु-हॉप एकत्रीकरण तंत्र प्रभावी
- आर्किटेक्चर नवाचार: अवशिष्ट PoseKAN ब्लॉक और GRN का संयोजन डिजाइन तर्कसंगत
- डेटासेट विविधता: Human3.6M (इनडोर) + MPI-INF-3DHP (इनडोर-आउटडोर)
- तुलना व्यापक: 10+ अत्याधुनिक विधियों के साथ तुलना
- विलोपन विस्तृत: IRC, स्प्लाइन क्रम, ग्रिड आकार, स्केलिंग कारक, एम्बेडिंग आयाम आदि
- गुणात्मक विश्लेषण: तुलनात्मक दृश्य केस प्रदान करता है
- प्रदर्शन नेतृत्व: कई मेट्रिक्स पर SOTA या SOTA के करीब
- सामंजस्य अच्छा: क्रॉस-डेटासेट, क्रॉस-प्रोटोकॉल प्रदर्शन स्थिर
- सांख्यिकीय महत्व: सापेक्ष त्रुटि में कमी स्पष्ट (अधिकतम 19.62%)
- पैरामीटर दक्षता: 5.72M पैरामीटर GraphMLP के 9.49M से बेहतर
- संरचना स्पष्ट: तर्क कठोर, प्रेरणा से विधि से प्रयोग तक परत-दर-परत प्रगति
- गणित कठोर: सूत्र व्युत्पत्ति पूर्ण, प्रतीक परिभाषा स्पष्ट
- चित्र समृद्ध: आर्किटेक्चर आरेख, तुलना तालिकाएँ, विलोपन चार्ट सभी मौजूद
- पूरक सामग्री: विस्तृत परिशिष्ट स्पष्टीकरण प्रदान करता है
- कम्प्यूटेशनल ओवरहेड: हालांकि लेखक दावा करते हैं कि नियंत्रणीय है, लेकिन स्प्लाइन गणना और कार्य सीखना वास्तव में जटिलता बढ़ाता है
- मेमोरी आवश्यकता: O(2kGLF²) की मेमोरी जटिलता बड़े पैमाने के अनुप्रयोगों में बाधा बन सकती है
- एकल-व्यक्ति सीमा: बहु-व्यक्ति दृश्यों को संभालता नहीं, व्यावहारिक अनुप्रयोग श्रेणी को सीमित करता है
- हाइपरपैरामीटर खोज: s=0.2 और α=0.03 ग्रिड खोज के माध्यम से निर्धारित, लेकिन खोज श्रेणी और प्रक्रिया की रिपोर्ट नहीं
- सांख्यिकीय परीक्षण: महत्व परीक्षण (जैसे t-test) की कमी
- विफलता केस: मॉडल विफलता के विशिष्ट केस और कारण विश्लेषण प्रदर्शित नहीं
- व्याख्यात्मकता: हालांकि GCN की तुलना में अधिक व्याख्यात्मक होने का दावा करता है, लेकिन विशिष्ट कार्य दृश्य या विश्लेषण प्रदान नहीं करता
- आवृत्ति विश्लेषण: वर्णक्रमीय पूर्वाग्रह को कम करने का उल्लेख करता है, लेकिन आवृत्ति विश्लेषण के मात्रात्मक प्रमाण की कमी
- त्रुटि वितरण: विभिन्न संयुक्त, विभिन्न क्रियाओं के त्रुटि वितरण पैटर्न का विश्लेषण नहीं
- इनपुट सामंजस्य: समान 2D संसूचक का उपयोग करता है, लेकिन संसूचक त्रुटि के परिणामों पर प्रभाव की रिपोर्ट नहीं
- कार्यान्वयन विवरण: आधारभूत विधियाँ विभिन्न प्रशिक्षण रणनीतियाँ उपयोग कर सकती हैं, तुलना निष्पक्षता को प्रभावित करती हैं
- सैद्धांतिक योगदान: KAN को ग्राफ-आधारित मुद्रा अनुमान में पेश करता है, नई दिशा खोलता है
- विधि योगदान: वर्णक्रमीय मॉड्यूलेशन फिल्टर और बहु-हॉप एकत्रीकरण तंत्र अन्य ग्राफ कार्यों में स्थानांतरणीय
- अनुभवजन्य योगदान: मानक डेटासेट पर नया प्रदर्शन बेंचमार्क स्थापित करता है
- प्रदर्शन सुधार: सापेक्ष सुधार 2-19%, व्यावहारिक अनुप्रयोग के लिए अर्थपूर्ण
- पैरामीटर दक्षता: 5.72M पैरामीटर मध्यम, तैनाती योग्य
- सीमाएँ: एकल-व्यक्ति सीमा और कम्प्यूटेशनल ओवरहेड वास्तविक समय अनुप्रयोग को सीमित करते हैं
- कोड खुला स्रोत: GitHub लिंक प्रदान करता है, पुनरुत्पादन और अनुप्रयोग को सुविधाजनक बनाता है
- विवरण पूर्ण: हाइपरपैरामीटर, प्रशिक्षण रणनीति, नेटवर्क कॉन्फ़िगरेशन विस्तृत
- कोड सार्वजनिक: कोड खुला स्रोत करने का वचन
- डेटा मानक: सार्वजनिक डेटासेट और मानक प्रोटोकॉल का उपयोग
- संभावित समस्या: KAN कार्यान्वयन विवरण (स्प्लाइन गणना) में तकनीकी बाधा हो सकती है
- उच्च सटीकता आवश्यकता दृश्य: खेल विश्लेषण, चिकित्सा निदान आदि जहाँ सटीकता महत्वपूर्ण
- गंभीर अवरोध दृश्य: बहु-हॉप एकत्रीकरण तंत्र अवरोध स्थितियों में स्पष्ट लाभ
- जटिल क्रिया विश्लेषण: उच्च-आवृत्ति विवरण कैप्चर क्षमता तीव्र जटिल क्रियाओं के लिए उपयुक्त
- ऑफलाइन प्रसंस्करण: वास्तविक समय आवश्यकता नहीं लेकिन उच्च सटीकता की आवश्यकता वाले दृश्य
- वास्तविक समय अनुप्रयोग: कम्प्यूटेशनल ओवरहेड अपेक्षाकृत अधिक, वास्तविक समय प्रसंस्करण के लिए अनुपयुक्त
- बहु-व्यक्ति दृश्य: वर्तमान आर्किटेक्चर बहु-व्यक्ति इंटरैक्शन पर विचार नहीं करता
- संसाधन-सीमित उपकरण: मेमोरी आवश्यकता बड़ी, मोबाइल अंत के लिए अनुपयुक्त
- बड़े पैमाने पर तैनाती: प्रशिक्षण और अनुमान लागत बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है
- वीडियो अनुक्रम: समय-क्रमिक मॉडलिंग तक विस्तार योग्य
- अन्य ग्राफ कार्य: क्रिया पहचान, मानव जाल पुनर्निर्माण आदि
- बहु-मोडल संलयन: RGB, गहराई, IMU आदि बहु-स्रोत डेटा को संयोजित करना
- स्थानांतरण सीखना: पूर्व-प्रशिक्षित मॉडल अन्य मुद्रा अनुमान कार्यों में स्थानांतरित करना
- Liu et al., 2025 - KAN: कोलमोगोरोव-अर्नोल्ड नेटवर्क (ICLR 2025) - KAN का मूल प्रस्ताव
- Zhao et al., 2019 - SemGCN - 3D मुद्रा अनुमान में GCN का पहला अनुप्रयोग
- Zou & Tang, 2021 - Modulated GCN - आसन्न मैट्रिक्स मॉड्यूलेशन विधि
- Li et al., 2025 - GraphMLP - सबसे मजबूत आधारभूत विधियों में से एक
- Bresson et al., 2025 - KAGNNs - ग्राफ सीखने में KAN का अनुप्रयोग
- Ionescu et al., 2013 - Human3.6M डेटासेट - मानक मूल्यांकन डेटासेट
- Martinez et al., 2017 - SimpleBaseline - 2D-से-3D उत्थान की शास्त्रीय विधि
- नवाचार: 9/10
- तकनीकी गुणवत्ता: 8/10
- प्रायोगिक पूर्णता: 8/10
- लेखन गुणवत्ता: 9/10
- व्यावहारिक मूल्य: 7/10
- समग्र स्कोर: 8.2/10
अनुशंसा सूचकांक: ★★★★☆ (दृढ़ता से पढ़ने की अनुशंसा, विशेष रूप से ग्राफ तंत्रिका नेटवर्क और 3D दृष्टि में रुचि रखने वाले शोधकर्ताओं के लिए)