2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza

Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.

academic

3D मानव मुद्रा अनुमान के लिए अनुकूली ग्राफ कोलमोगोरोव-अर्नोल्ड नेटवर्क

मूल जानकारी

पेपर ID: 2511.08809
शीर्षक: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
लेखक: Abu Taib Mohammed Shahjahan और A. Ben Hamza (कॉनकॉर्डिया विश्वविद्यालय, मॉन्ट्रियल, कनाडा)
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 11 नवंबर 2025 को arXiv पर प्रस्तुत
पेपर लिंक: https://arxiv.org/abs/2511.08809
कोड लिंक: https://github.com/shahjahan0275/PoseKAN

सारांश

यह पेपर 3D मानव मुद्रा अनुमान कार्य के लिए PoseKAN प्रस्तावित करता है—एक अनुकूली ग्राफ कोलमोगोरोव-अर्नोल्ड नेटवर्क ढांचा। यह विधि पारंपरिक ग्राफ कनवोल्यूशनल नेटवर्क (GCN) की तीन मुख्य सीमाओं को संबोधित करती है: स्थानीय ग्रहणशील क्षेत्र की सीमा, वर्णक्रमीय पूर्वाग्रह (spectral bias) और निश्चित सक्रियण कार्यों की अपर्याप्त अभिव्यक्ति क्षमता। PoseKAN ग्राफ किनारों पर सीखने योग्य कार्य परिवर्तनों का उपयोग करके निश्चित सक्रियण कार्यों को प्रतिस्थापित करता है, बहु-हॉप विशेषता एकत्रीकरण तंत्र के साथ मिलकर, स्थानीय और दूरस्थ संयुक्त निर्भरताओं का प्रभावी मॉडलिंग प्राप्त करता है। Human3.6M और MPI-INF-3DHP बेंचमार्क डेटासेट पर प्रयोग अत्याधुनिक विधियों के समान प्रदर्शन प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

3D मानव मुद्रा अनुमान का लक्ष्य 2D छवियों या वीडियो से शरीर के संयुक्त बिंदुओं के 3D निर्देशांक का अनुमान लगाना है, जो मानव गति को समझने के लिए महत्वपूर्ण है, लेकिन इनपुट डेटा में निहित गहराई की अस्पष्टता और अवरोध समस्याओं के कारण अत्यंत चुनौतीपूर्ण है।

2. समस्या का महत्व

व्यापक अनुप्रयोग: मानव-कंप्यूटर इंटरैक्शन, क्रिया पहचान, खेल विश्लेषण, चिकित्सा पुनर्वास आदि क्षेत्र
तकनीकी चुनौतियाँ: एकल छवि में गहराई की जानकारी की कमी, स्व-अवरोध, जटिल मुद्रा परिवर्तन

3. मौजूदा विधियों की सीमाएं

GCN विधि की तीन प्रमुख सीमाएं:

स्थानीय ग्रहणशील क्षेत्र की सीमा: मुख्य रूप से एक-हॉप पड़ोसी एकत्रीकरण पर निर्भर, दूरस्थ संयुक्त बिंदुओं के बीच दीर्घकालीन निर्भरताओं को पकड़ना कठिन
वर्णक्रमीय पूर्वाग्रह समस्या: MLP को मुख्य घटक के रूप में उपयोग करने के कारण, निम्न आवृत्ति घटकों को सीखने की प्रवृत्ति जबकि उच्च आवृत्ति विवरण (जैसे तीव्र गति, सूक्ष्म संयुक्त इंटरैक्शन) को पकड़ना कठिन
अभिव्यक्ति क्षमता अपर्याप्त: पूर्वनिर्धारित निश्चित सक्रियण कार्यों और प्रशिक्षणीय वजन मैट्रिक्स का उपयोग, गतिशील अनुकूलन और व्याख्यात्मकता की कमी

4. अनुसंधान प्रेरणा

कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय से प्रेरित, KAN नेटवर्क निश्चित सक्रियण कार्यों को सीखने योग्य एकल-चर कार्यों से प्रतिस्थापित करके, मजबूत कार्य सन्निकटन क्षमता और व्याख्यात्मकता प्रदान करता है। यह पेपर KAN को ग्राफ सीखने के क्षेत्र में विस्तारित करता है, विशेष रूप से 3D मुद्रा अनुमान के 2D-से-3D उत्थान कार्य के लिए।

मुख्य योगदान

PoseKAN ढांचा प्रस्तावित करना: पहली बार कोलमोगोरोव-अर्नोल्ड नेटवर्क को ग्राफ संरचित डेटा तक विस्तारित करना, 3D मानव मुद्रा अनुमान के लिए, सीखने योग्य कार्य-आधारित परिवर्तनों के माध्यम से मॉडल अनुकूलन और सामान्यीकरण क्षमता में सुधार
बहु-हॉप विशेषता प्रसार तंत्र डिजाइन करना: स्केलिंग पैरामीटर s परिचय करना जो स्थानीय और वैश्विक विशेषता एकत्रीकरण के संतुलन को नियंत्रित करता है, प्रसार मैट्रिक्स P = (1-s)Â + sÂ² एक-हॉप और दो-हॉप पड़ोसियों दोनों पर विचार करता है, अवरोध और गहराई अस्पष्टता के प्रति मजबूती में सुधार
नवीन आर्किटेक्चर डिजाइन:
- गहरी विशेषता परिशोधन के लिए अवशिष्ट PoseKAN ब्लॉक
- विशेषता चयनशीलता और विपरीतता में सुधार के लिए वैश्विक प्रतिक्रिया सामान्यीकरण (GRN)
- अभिव्यक्ति क्षमता बढ़ाने के लिए GELU अरैखिकता के साथ संयोजन
व्यापक प्रायोगिक सत्यापन: Human3.6M और MPI-INF-3DHP डेटासेट पर विस्तृत तुलनात्मक प्रयोग और विलोपन अध्ययन, विधि की प्रभावशीलता प्रदर्शित करना

विधि विस्तार

कार्य परिभाषा

प्रशिक्षण सेट D = {(xᵢ, yᵢ)}ᴺᵢ₌₁ दिया गया, जहाँ:

इनपुट: xᵢ ∈ ℝ² 2D संयुक्त स्थिति (तैयार 2D मुद्रा संसूचक द्वारा प्रदान)
आउटपुट: yᵢ ∈ ℝ³ संबंधित वास्तविक 3D संयुक्त स्थिति
उद्देश्य: प्रतिगमन मॉडल fω: X → Y के पैरामीटर ω सीखना

मानव कंकाल को ग्राफ G = (V, E, X) के रूप में प्रदर्शित किया जाता है:

V = {1,...,J} J नोड्स (संयुक्त बिंदु)
E ⊆ V × V किनारों का समुच्चय
X ∈ ℝᴶˣᶠ नोड विशेषता मैट्रिक्स
A आसन्न मैट्रिक्स, Â = D⁻¹/²AD⁻¹/² सामान्यीकृत आसन्न मैट्रिक्स

मॉडल आर्किटेक्चर

1. कोलमोगोरोव-अर्नोल्ड नेटवर्क आधार

KAN परत का मुख्य भाग सीखने योग्य सक्रियण कार्य है, जिसे इस प्रकार परिभाषित किया गया है:

ϕ(x) = wᵦb(x) + wₛspline(x)

जहाँ:

b(x) = SiLU(x) = x/(1+e⁻ˣ) सिग्मॉइड रैखिक इकाई
spline(x) = Σᵢ cᵢBᵢ(x) B-स्प्लाइन आधार कार्यों का भारित योग
wᵦ, wₛ, cᵢ सीखने योग्य पैरामीटर

2. वर्णक्रमीय मॉड्यूलेशन फिल्टर

इस पेपर द्वारा प्रस्तावित नवीन वर्णक्रमीय मॉड्यूलेशन फिल्टर:

hₛ(λ) = 1/((1+s)λ - sλ²)

जहाँ s ∈ (0,1) स्केलिंग पैरामीटर है, विभिन्न आवृत्ति घटकों के प्रति फिल्टर के क्षीणन व्यवहार को नियंत्रित करता है। यह फिल्टर स्व-अनुकूली निम्न-पास विशेषता रखता है।

निश्चित बिंदु पुनरावृत्ति के माध्यम से समाधान: H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. PoseKAN परत अद्यतन नियम

मुख्य परत-दर-परत अद्यतन सूत्र:

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s)Â + sÂ²)H⁽ˡ⁾ + X)

दो संचालनों में विघटित किया जा सकता है:

विशेषता प्रसार: G⁽ˡ⁾ = PH⁽ˡ⁾ + X

जहाँ P = (1-s)Â + sÂ² प्रसार मैट्रिक्स है, एक-हॉप और दो-हॉप पड़ोसी जानकारी को संतुलित करता है

विशेषता एम्बेडिंग: H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

प्रत्येक ग्राफ किनारे से एक सीखने योग्य एकल-चर कार्य जुड़ा होता है

4. समग्र आर्किटेक्चर

प्रारंभिक PoseKAN परत: 2D इनपुट को अव्यक्त स्थान में मैप करना
4 अवशिष्ट PoseKAN ब्लॉक: प्रत्येक ब्लॉक में शामिल है
- स्तरीय विशेषता सीखने के लिए 5 PoseKAN परतें
- प्रशिक्षण को स्थिर करने के लिए परत सामान्यीकरण
- अतिरिक्त PoseKAN परत + GELU अरैखिकता
- प्रवणता लुप्त होने को रोकने के लिए अवशिष्ट कनेक्शन
वैश्विक प्रतिक्रिया सामान्यीकरण (GRN): भविष्यवाणी से पहले विशेषता आयाम को कैलिब्रेट करना
समाप्ति PoseKAN परत: 3D मुद्रा स्थान में वापस प्रक्षेपण

5. हानि कार्य

मिश्रित हानि कार्य (लोचदार नेट से प्रेरित):

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

जहाँ α ∈ 0,1 MSE और MAE के वजन संतुलन को नियंत्रित करता है

तकनीकी नवाचार बिंदु

1. सीखने योग्य कार्य परिवर्तन बनाम निश्चित सक्रियण

GCN: निश्चित सक्रियण कार्य (जैसे ReLU) और प्रशिक्षणीय वजन मैट्रिक्स का उपयोग, अनिवार्य रूप से नोड-स्तर की रैखिक मैपिंग
PoseKAN: किनारों पर सीखने योग्य एकल-चर कार्य, डेटा-संचालित अनुकूली विशेषता परिवर्तन प्रदान करता है, मजबूत अभिव्यक्ति क्षमता

2. बहु-हॉप निर्भरता मॉडलिंग

प्रसार मैट्रिक्स P = (1-s)Â + sÂ² के माध्यम से:

स्पष्ट रूप से एक-हॉप और दो-हॉप पड़ोसी जानकारी को संयोजित करता है
पैरामीटर s स्थानीय बनाम वैश्विक जानकारी के संतुलन को समायोजित कर सकता है
Â² की स्पष्ट गणना से बचता है (दाएं से बाएं गुणन रणनीति का उपयोग)

3. वर्णक्रमीय पूर्वाग्रह को कम करना

KAN के कार्य आधार परिवर्तन निम्न और उच्च दोनों आवृत्ति घटकों को पकड़ने में सक्षम हैं:

निम्न आवृत्ति: चिकनी, क्रमिक संयुक्त स्थिति परिवर्तन (जैसे चलना, खाना)
उच्च आवृत्ति: तीव्र, अचानक गति (जैसे अभिवादन में अचानक क्रिया)

4. कम्प्यूटेशनल जटिलता विश्लेषण

समय जटिलता: O(L||Â||₀F + LGF²)
- पहला पद: विशेषता प्रसार (ग्राफ किनारों की संख्या पर निर्भर)
- दूसरा पद: KAN परिवर्तन (G ग्रिड आकार है)
स्थान जटिलता: O(LJF + 2kGLF²)
- 2k k-क्रम स्प्लाइन की पुनरावर्ती गणना से आता है

चूंकि k और G आमतौर पर छोटे होते हैं, अतिरिक्त ओवरहेड नियंत्रणीय है

प्रायोगिक सेटअप

डेटासेट

1. Human3.6M

आकार: 11 अभिनेता (6 पुरुष 5 महिला), 15 प्रकार की इनडोर गतिविधियाँ
संग्रह: 50Hz, 4 सिंक्रोनाइज़्ड कैमरे
एनोटेशन: गति कैप्चर के माध्यम से सटीक 3D संयुक्त निर्देशांक
विभाजन:
- प्रशिक्षण सेट: 5 अभिनेता (S1, S5, S6, S7, S8)
- परीक्षण सेट: 2 अभिनेता (S9, S11)
पूर्व-प्रसंस्करण: सामान्यीकरण, कूल्हे के जोड़ को रूट जोड़ के रूप में शून्य-केंद्रित करना

2. MPI-INF-3DHP

आकार: 8 अभिनेता (4 पुरुष 4 महिला), 8 गतिविधि अनुक्रम
संग्रह: 14 विभिन्न कोण, इनडोर-आउटडोर दृश्य
विशेषता: Human3.6M की तुलना में अधिक विविध, मूल क्रियाओं से गतिशील उच्च-तीव्रता क्रियाओं तक

मूल्यांकन मेट्रिक्स

Human3.6M

प्रोटोकॉल #1: MPJPE (माध्य प्रति-संयुक्त स्थिति त्रुटि) - मिलीमीटर में औसत प्रति-संयुक्त स्थिति त्रुटि
प्रोटोकॉल #2: PA-MPJPE (प्रोक्रस्टेस-संरेखित MPJPE) - प्रोक्रस्टेस संरेखण के बाद की त्रुटि

MPI-INF-3DHP

PCK (सही कीपॉइंट का प्रतिशत): सही कीपॉइंट प्रतिशत
AUC (वक्र के नीचे का क्षेत्र): वक्र के नीचे का क्षेत्र

तुलनात्मक विधियाँ

GCN श्रृंखला: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
मिश्रित विधियाँ: GraphMLP (MLP और GCN का संयोजन)
अन्य: HOIF-Net, PoseGraphNet, WSGN आदि

कार्यान्वयन विवरण

हार्डवेयर: एकल NVIDIA RTX A4500 GPU (20GB)
ढांचा: PyTorch
अनुकूलक: AMSGrad
प्रशिक्षण युग: 30 epochs
सीखने की दर: प्रारंभिक 0.001, प्रत्येक 4 epochs में 0.99 क्षय
बैच आकार: 64
एम्बेडिंग आयाम: F = 240
मुख्य हाइपरपैरामीटर: s = 0.2, α = 0.03 (ग्रिड खोज के माध्यम से निर्धारित)
नियमितीकरण: प्रत्येक PoseKAN परत के बाद dropout=0.2
स्प्लाइन सेटिंग: क्रम=3, ग्रिड आकार=5

प्रायोगिक परिणाम

मुख्य परिणाम

Human3.6M - प्रोटोकॉल #1 (MPJPE)

समग्र प्रदर्शन:

PoseKAN: 46.7mm (सर्वोत्तम)
GraphMLP: 48.0mm (दूसरा)
Modulated GCN: 49.4mm
सापेक्ष त्रुटि में कमी:
- बनाम GraphMLP: 2.7%
- बनाम Modulated GCN: 5.47%
- बनाम High-order GCN: 15.99%

मुख्य क्रिया प्रदर्शन (अवरोध चुनौती):

खाना: 44.4mm (अन्य विधियों से काफी बेहतर)
बैठना: 54.6mm
धूम्रपान: 46.1mm
15 क्रियाओं में 14 में Modulated GCN से बेहतर

Human3.6M - प्रोटोकॉल #2 (PA-MPJPE)

समग्र प्रदर्शन:

PoseKAN: 38.3mm (सर्वोत्तम)
GraphMLP: 38.4mm (सापेक्ष त्रुटि में 0.26% कमी)
Modulated GCN: 39.1mm (सापेक्ष त्रुटि में 2.04% कमी)
High-order GCN: 43.7mm (सापेक्ष त्रुटि में 12.35% कमी)

लाभप्रद क्रियाएँ:

15 क्रियाओं में 11 में GraphMLP से बेहतर
15 क्रियाओं में 13 में Modulated GCN से बेहतर
विशेष रूप से अभिवादन, बैठना, धूम्रपान जैसे गंभीर अवरोध दृश्यों में उत्कृष्ट प्रदर्शन

MPI-INF-3DHP (क्रॉस-डेटासेट सामान्यीकरण)

Human3.6M पर प्रशिक्षण, MPI-INF-3DHP पर परीक्षण:

PCK: 86.0% (सर्वोच्च)
AUC: 52.9% (दूसरा, केवल ICFNet के 54.3% के बाद)
ICFNet के PCK के सापेक्ष 0.5% सुधार

Ground Truth 2D इनपुट का उपयोग करते हुए

MPJPE: 33.51mm
सापेक्ष त्रुटि में कमी:
- बनाम SemGCN: 19.62%
- बनाम High-order GCN: 14.29%
- बनाम GraphMLP: 2.01%
PA-MPJPE: 28.01mm (सर्वोत्तम)

विलोपन प्रयोग

1. प्रारंभिक अवशिष्ट कनेक्शन (IRC) का प्रभाव

कॉन्फ़िगरेशन	MPJPE	PA-MPJPE
IRC के बिना	34.44mm	28.79mm
IRC के साथ	33.51mm	28.01mm
सुधार	1.65%	1.49%

निष्कर्ष: IRC प्रारंभिक विशेषताओं को संरक्षित करके प्रशिक्षण को स्थिर करता है, सूचना हानि को रोकता है

2. स्प्लाइन क्रम प्रभाव

क्रम 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
क्रम 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (सर्वोत्तम)
क्रम 4: MPJPE=47.10mm, PA-MPJPE=38.59mm

निष्कर्ष: क्रम 3 सर्वोत्तम संतुलन प्राप्त करता है, उच्च क्रम जटिलता बढ़ाता है लेकिन लाभ नहीं

3. ग्रिड आकार प्रभाव

आकार 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
आकार 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (सर्वोत्तम)
आकार 6: MPJPE=47.98mm, PA-MPJPE=39.11mm

निष्कर्ष: ग्रिड आकार 5 पर्याप्त कार्य सन्निकटन क्षमता प्रदान करता है

4. स्केलिंग कारक s का प्रभाव

परीक्षण श्रेणी: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

इष्टतम मान: s=0.2
छोटे s स्थानीय जानकारी पर अधिक जोर देते हैं, साथ ही दूरस्थ नोड्स पर उचित विचार
s बहुत बड़ा या बहुत छोटा होने से प्रदर्शन में गिरावट आती है

5. एम्बेडिंग आयाम प्रभाव

224: MPJPE=47.38mm
240: MPJPE=46.77mm (सर्वोत्तम)
256: MPJPE=47.29mm

निष्कर्ष: 240 आयाम पर्याप्त अभिव्यक्ति क्षमता प्रदान करता है बिना अधिक-फिटिंग के

केस विश्लेषण

गुणात्मक दृश्य (चित्र 2) विभिन्न क्रिया श्रेणियों पर PoseKAN की भविष्यवाणी प्रदर्शित करता है:

भविष्यवाणी किए गए 3D मुद्रा वास्तविक मूल्यों के साथ अत्यधिक संरेखित
स्व-अवरोध दृश्यों (जैसे क्रॉस्ड आर्म्स, बैठी मुद्रा) में GraphMLP से बेहतर प्रदर्शन
GraphMLP कभी-कभी अप्राकृतिक संयुक्त स्थिति उत्पन्न करता है, जबकि PoseKAN कंकाल संरचना सामंजस्य बनाए रखता है
सटीक संयुक्त प्लेसमेंट और प्राकृतिक अंग संयुक्ति गहराई अस्पष्टता को कम करने में मॉडल की क्षमता को सत्यापित करता है

प्रायोगिक निष्कर्ष

सीखने योग्य कार्यों का स्पष्ट लाभ: निश्चित सक्रियण कार्यों की तुलना में, किनारों पर सीखने योग्य कार्य अधिक मजबूत अनुकूलन प्रदान करते हैं
बहु-हॉप एकत्रीकरण महत्वपूर्ण है: अवरोध और जटिल मुद्राओं के संचालन में महत्वपूर्ण सुधार
पैरामीटर दक्षता उच्च है: PoseKAN केवल 5.72M पैरामीटर, GraphMLP के 9.49M से बहुत कम
क्रॉस-डेटासेट सामान्यीकरण क्षमता मजबूत है: MPI-INF-3DHP पर प्रदर्शन अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
उच्च-आवृत्ति विवरण के प्रति संवेदनशील: तीव्र गति विवरण की आवश्यकता वाली क्रियाओं (जैसे अभिवादन) में स्पष्ट लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: PoseKAN Human3.6M और MPI-INF-3DHP डेटासेट पर अत्याधुनिक विधियों के बराबर या उससे अधिक प्रदर्शन प्राप्त करता है
मुख्य लाभ:
- सीखने योग्य कार्य अधिक मजबूत अनुकूलन और अभिव्यक्ति क्षमता प्रदान करते हैं
- बहु-हॉप विशेषता एकत्रीकरण प्रभावी रूप से दीर्घकालीन निर्भरताओं को पकड़ता है
- वर्णक्रमीय पूर्वाग्रह को कम करता है, निम्न और उच्च दोनों आवृत्ति घटकों को सीखता है
व्यावहारिकता: पैरामीटर दक्षता उच्च (5.72M), कम्प्यूटेशनल ओवरहेड नियंत्रणीय, व्यावहारिक अनुप्रयोग के लिए उपयुक्त
सामान्यीकरण क्षमता: क्रॉस-डेटासेट मूल्यांकन उत्कृष्ट प्रदर्शन, अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है

सीमाएँ

लेखकों द्वारा स्वीकृत सीमाएँ

व्याख्यात्मकता चुनौती: हालांकि GCN की तुलना में अधिक व्याख्यात्मक, प्रत्येक सीखने योग्य सक्रियण कार्य को कंकाल के विभिन्न भागों में कैसे अनुकूलित किया जाता है, इसकी कल्पना करना अभी भी चुनौतीपूर्ण है
कम्प्यूटेशनल लागत: सीखने योग्य सक्रियण प्रत्येक परत की कम्प्यूटेशनल लागत बढ़ाता है, स्प्लाइन आधार कार्यों को अतिरिक्त मेमोरी की आवश्यकता होती है
मेमोरी खपत: बड़े पैमाने की डेटासेट और गहरे नेटवर्क प्रशिक्षण में मेमोरी आवश्यकताएँ बड़ी होती हैं
अनुकूलन स्थान: कम्प्यूटेशनल दक्षता, व्याख्यात्मकता और मजबूती में आगे सुधार की आवश्यकता है

संभावित सीमाएँ

एकल-व्यक्ति मुद्रा सीमा: वर्तमान में केवल एकल-व्यक्ति मुद्रा को संभालता है, बहु-व्यक्ति दृश्यों तक विस्तारित नहीं
2D संसूचन निर्भरता: प्रदर्शन 2D मुद्रा संसूचक की गुणवत्ता पर निर्भर करता है
स्थिर ग्राफ संरचना: हालांकि किनारे वजन सीखता है, लेकिन टोपोलॉजी पूर्वनिर्धारित है
हाइपरपैरामीटर संवेदनशीलता: s, α आदि हाइपरपैरामीटर को सावधानीपूर्वक समायोजन की आवश्यकता है

भविष्य की दिशाएँ

लेखकों द्वारा प्रस्तावित

बहु-व्यक्ति मुद्रा अनुमान: बहु-व्यक्ति दृश्यों तक विस्तार, व्यक्ति-व्यक्ति इंटरैक्शन को संभालना
अन्य ग्राफ सीखने कार्य: क्रिया पहचान, विसंगति पहचान आदि

संभावित विस्तार

समय-क्रमिक मॉडलिंग: वीडियो अनुक्रम की समय जानकारी को शामिल करना
अंत-से-अंत सीखना: 2D संसूचन और 3D उत्थान को संयुक्त रूप से अनुकूलित करना
अनुकूली ग्राफ संरचना: पूर्वनिर्धारित के बजाय गतिशील रूप से ग्राफ टोपोलॉजी सीखना
हल्के-फुल्के डिजाइन: मोबाइल उपकरणों के लिए मॉडल संपीड़न

गहन मूल्यांकन

लाभ

1. विधि नवाचार (★★★★★)

सैद्धांतिक नवाचार: 3D मुद्रा अनुमान के ग्राफ सीखने में KAN का पहला विस्तार, मजबूत सैद्धांतिक आधार
तकनीकी नवाचार: वर्णक्रमीय मॉड्यूलेशन फिल्टर डिजाइन चतुर, बहु-हॉप एकत्रीकरण तंत्र प्रभावी
आर्किटेक्चर नवाचार: अवशिष्ट PoseKAN ब्लॉक और GRN का संयोजन डिजाइन तर्कसंगत

2. प्रायोगिक पूर्णता (★★★★☆)

डेटासेट विविधता: Human3.6M (इनडोर) + MPI-INF-3DHP (इनडोर-आउटडोर)
तुलना व्यापक: 10+ अत्याधुनिक विधियों के साथ तुलना
विलोपन विस्तृत: IRC, स्प्लाइन क्रम, ग्रिड आकार, स्केलिंग कारक, एम्बेडिंग आयाम आदि
गुणात्मक विश्लेषण: तुलनात्मक दृश्य केस प्रदान करता है

3. परिणाम विश्वसनीयता (★★★★☆)

प्रदर्शन नेतृत्व: कई मेट्रिक्स पर SOTA या SOTA के करीब
सामंजस्य अच्छा: क्रॉस-डेटासेट, क्रॉस-प्रोटोकॉल प्रदर्शन स्थिर
सांख्यिकीय महत्व: सापेक्ष त्रुटि में कमी स्पष्ट (अधिकतम 19.62%)
पैरामीटर दक्षता: 5.72M पैरामीटर GraphMLP के 9.49M से बेहतर

4. लेखन स्पष्टता (★★★★★)

संरचना स्पष्ट: तर्क कठोर, प्रेरणा से विधि से प्रयोग तक परत-दर-परत प्रगति
गणित कठोर: सूत्र व्युत्पत्ति पूर्ण, प्रतीक परिभाषा स्पष्ट
चित्र समृद्ध: आर्किटेक्चर आरेख, तुलना तालिकाएँ, विलोपन चार्ट सभी मौजूद
पूरक सामग्री: विस्तृत परिशिष्ट स्पष्टीकरण प्रदान करता है

कमियाँ

1. विधि सीमाएँ

कम्प्यूटेशनल ओवरहेड: हालांकि लेखक दावा करते हैं कि नियंत्रणीय है, लेकिन स्प्लाइन गणना और कार्य सीखना वास्तव में जटिलता बढ़ाता है
मेमोरी आवश्यकता: O(2kGLF²) की मेमोरी जटिलता बड़े पैमाने के अनुप्रयोगों में बाधा बन सकती है
एकल-व्यक्ति सीमा: बहु-व्यक्ति दृश्यों को संभालता नहीं, व्यावहारिक अनुप्रयोग श्रेणी को सीमित करता है

2. प्रायोगिक सेटअप

हाइपरपैरामीटर खोज: s=0.2 और α=0.03 ग्रिड खोज के माध्यम से निर्धारित, लेकिन खोज श्रेणी और प्रक्रिया की रिपोर्ट नहीं
सांख्यिकीय परीक्षण: महत्व परीक्षण (जैसे t-test) की कमी
विफलता केस: मॉडल विफलता के विशिष्ट केस और कारण विश्लेषण प्रदर्शित नहीं

3. विश्लेषण गहराई

व्याख्यात्मकता: हालांकि GCN की तुलना में अधिक व्याख्यात्मक होने का दावा करता है, लेकिन विशिष्ट कार्य दृश्य या विश्लेषण प्रदान नहीं करता
आवृत्ति विश्लेषण: वर्णक्रमीय पूर्वाग्रह को कम करने का उल्लेख करता है, लेकिन आवृत्ति विश्लेषण के मात्रात्मक प्रमाण की कमी
त्रुटि वितरण: विभिन्न संयुक्त, विभिन्न क्रियाओं के त्रुटि वितरण पैटर्न का विश्लेषण नहीं

4. तुलना निष्पक्षता

इनपुट सामंजस्य: समान 2D संसूचक का उपयोग करता है, लेकिन संसूचक त्रुटि के परिणामों पर प्रभाव की रिपोर्ट नहीं
कार्यान्वयन विवरण: आधारभूत विधियाँ विभिन्न प्रशिक्षण रणनीतियाँ उपयोग कर सकती हैं, तुलना निष्पक्षता को प्रभावित करती हैं

प्रभाव मूल्यांकन

1. क्षेत्र में योगदान (★★★★☆)

सैद्धांतिक योगदान: KAN को ग्राफ-आधारित मुद्रा अनुमान में पेश करता है, नई दिशा खोलता है
विधि योगदान: वर्णक्रमीय मॉड्यूलेशन फिल्टर और बहु-हॉप एकत्रीकरण तंत्र अन्य ग्राफ कार्यों में स्थानांतरणीय
अनुभवजन्य योगदान: मानक डेटासेट पर नया प्रदर्शन बेंचमार्क स्थापित करता है

2. व्यावहारिक मूल्य (★★★☆☆)

प्रदर्शन सुधार: सापेक्ष सुधार 2-19%, व्यावहारिक अनुप्रयोग के लिए अर्थपूर्ण
पैरामीटर दक्षता: 5.72M पैरामीटर मध्यम, तैनाती योग्य
सीमाएँ: एकल-व्यक्ति सीमा और कम्प्यूटेशनल ओवरहेड वास्तविक समय अनुप्रयोग को सीमित करते हैं
कोड खुला स्रोत: GitHub लिंक प्रदान करता है, पुनरुत्पादन और अनुप्रयोग को सुविधाजनक बनाता है

3. पुनरुत्पादनीयता (★★★★☆)

विवरण पूर्ण: हाइपरपैरामीटर, प्रशिक्षण रणनीति, नेटवर्क कॉन्फ़िगरेशन विस्तृत
कोड सार्वजनिक: कोड खुला स्रोत करने का वचन
डेटा मानक: सार्वजनिक डेटासेट और मानक प्रोटोकॉल का उपयोग
संभावित समस्या: KAN कार्यान्वयन विवरण (स्प्लाइन गणना) में तकनीकी बाधा हो सकती है

लागू दृश्य

उपयुक्त अनुप्रयोग

उच्च सटीकता आवश्यकता दृश्य: खेल विश्लेषण, चिकित्सा निदान आदि जहाँ सटीकता महत्वपूर्ण
गंभीर अवरोध दृश्य: बहु-हॉप एकत्रीकरण तंत्र अवरोध स्थितियों में स्पष्ट लाभ
जटिल क्रिया विश्लेषण: उच्च-आवृत्ति विवरण कैप्चर क्षमता तीव्र जटिल क्रियाओं के लिए उपयुक्त
ऑफलाइन प्रसंस्करण: वास्तविक समय आवश्यकता नहीं लेकिन उच्च सटीकता की आवश्यकता वाले दृश्य

अनुपयुक्त दृश्य

वास्तविक समय अनुप्रयोग: कम्प्यूटेशनल ओवरहेड अपेक्षाकृत अधिक, वास्तविक समय प्रसंस्करण के लिए अनुपयुक्त
बहु-व्यक्ति दृश्य: वर्तमान आर्किटेक्चर बहु-व्यक्ति इंटरैक्शन पर विचार नहीं करता
संसाधन-सीमित उपकरण: मेमोरी आवश्यकता बड़ी, मोबाइल अंत के लिए अनुपयुक्त
बड़े पैमाने पर तैनाती: प्रशिक्षण और अनुमान लागत बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है

विस्तार संभावना

वीडियो अनुक्रम: समय-क्रमिक मॉडलिंग तक विस्तार योग्य
अन्य ग्राफ कार्य: क्रिया पहचान, मानव जाल पुनर्निर्माण आदि
बहु-मोडल संलयन: RGB, गहराई, IMU आदि बहु-स्रोत डेटा को संयोजित करना
स्थानांतरण सीखना: पूर्व-प्रशिक्षित मॉडल अन्य मुद्रा अनुमान कार्यों में स्थानांतरित करना

संदर्भ साहित्य (मुख्य संदर्भ)

Liu et al., 2025 - KAN: कोलमोगोरोव-अर्नोल्ड नेटवर्क (ICLR 2025) - KAN का मूल प्रस्ताव
Zhao et al., 2019 - SemGCN - 3D मुद्रा अनुमान में GCN का पहला अनुप्रयोग
Zou & Tang, 2021 - Modulated GCN - आसन्न मैट्रिक्स मॉड्यूलेशन विधि
Li et al., 2025 - GraphMLP - सबसे मजबूत आधारभूत विधियों में से एक
Bresson et al., 2025 - KAGNNs - ग्राफ सीखने में KAN का अनुप्रयोग
Ionescu et al., 2013 - Human3.6M डेटासेट - मानक मूल्यांकन डेटासेट
Martinez et al., 2017 - SimpleBaseline - 2D-से-3D उत्थान की शास्त्रीय विधि

कुल मूल्यांकन

नवाचार: 9/10
तकनीकी गुणवत्ता: 8/10
प्रायोगिक पूर्णता: 8/10
लेखन गुणवत्ता: 9/10
व्यावहारिक मूल्य: 7/10
समग्र स्कोर: 8.2/10

अनुशंसा सूचकांक: ★★★★☆ (दृढ़ता से पढ़ने की अनुशंसा, विशेष रूप से ग्राफ तंत्रिका नेटवर्क और 3D दृष्टि में रुचि रखने वाले शोधकर्ताओं के लिए)