Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
- পেপার আইডি: 2511.08809
- শিরোনাম: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
- লেখক: Abu Taib Mohammed Shahjahan এবং A. Ben Hamza (কনকর্ডিয়া বিশ্ববিদ্যালয়, মন্ট্রিয়াল, কানাডা)
- শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
- প্রকাশনার সময়: 2025 সালের 11 নভেম্বর arXiv-এ জমা দেওয়া
- পেপার লিংক: https://arxiv.org/abs/2511.08809
- কোড লিংক: https://github.com/shahjahan0275/PoseKAN
এই পেপারটি 3D মানব পোজ অনুমানের কাজের জন্য PoseKAN প্রস্তাব করে—একটি অভিযোজিত গ্রাফ কলমোগোরভ-আর্নল্ড নেটওয়ার্ক ফ্রেমওয়ার্ক। এই পদ্ধতিটি ঐতিহ্যবাহী গ্রাফ কনভোলিউশনাল নেটওয়ার্ক (GCN) এর তিনটি মূল সীমাবদ্ধতা সমাধান করে: স্থানীয় রিসেপ্টিভ ফিল্ড সীমাবদ্ধতা, বর্ণালী পক্ষপাত (spectral bias) এবং নির্দিষ্ট সক্রিয়করণ ফাংশনের অপর্যাপ্ত প্রকাশ ক্ষমতা। PoseKAN গ্রাফ প্রান্তে নির্দিষ্ট সক্রিয়করণ ফাংশনের পরিবর্তে শিক্ষণযোগ্য ফাংশন রূপান্তর ব্যবহার করে, বহু-হপ বৈশিষ্ট্য সমন্বয় প্রক্রিয়ার সাথে মিলিত হয়ে স্থানীয় এবং দূরবর্তী জয়েন্ট নির্ভরতার কার্যকর মডেলিং অর্জন করে। Human3.6M এবং MPI-INF-3DHP মানদণ্ড ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে এই পদ্ধতিটি অত্যাধুনিক পদ্ধতির সাথে তুলনীয় কর্মক্ষমতা অর্জন করেছে।
3D মানব পোজ অনুমান 2D ছবি বা ভিডিও থেকে শরীরের জয়েন্টের 3D স্থানাঙ্ক অনুমান করার লক্ষ্য রাখে, যা মানব গতিবিধি বোঝার জন্য গুরুত্বপূর্ণ, কিন্তু ইনপুট ডেটার অন্তর্নিহিত গভীরতার অস্পষ্টতা এবং অবরোধ সমস্যার কারণে অত্যন্ত চ্যালেঞ্জিং।
- ব্যাপক প্রয়োগ: মানব-কম্পিউটার ইন্টারঅ্যাকশন, ক্রিয়া স্বীকৃতি, ক্রীড়া বিশ্লেষণ, চিকিৎসা পুনর্বাসন এবং অন্যান্য ক্ষেত্র
- প্রযুক্তিগত চ্যালেঞ্জ: একক-দৃশ্য ছবির গভীরতা তথ্যের অভাব, স্ব-অবরোধ, জটিল পোজ পরিবর্তন
GCN পদ্ধতির তিনটি প্রধান সীমাবদ্ধতা:
- স্থানীয় রিসেপ্টিভ ফিল্ড সীমাবদ্ধতা: প্রধানত এক-হপ প্রতিবেশী সমন্বয়ের উপর নির্ভর করে, দূরবর্তী জয়েন্টের মধ্যে দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করা কঠিন
- বর্ণালী পক্ষপাত সমস্যা: MLP কে মূল উপাদান হিসাবে ব্যবহার করার কারণে, নিম্ন-ফ্রিকোয়েন্সি উপাদান শিখতে প্রবণ এবং উচ্চ-ফ্রিকোয়েন্সি বিবরণ ক্যাপচার করা কঠিন (যেমন দ্রুত গতিবিধি, সূক্ষ্ম জয়েন্ট ইন্টারঅ্যাকশন)
- প্রকাশ ক্ষমতা অপর্যাপ্ত: পূর্বনির্ধারিত নির্দিষ্ট সক্রিয়করণ ফাংশন এবং প্রশিক্ষণযোগ্য ওজন ম্যাট্রিক্স ব্যবহার করে, গতিশীল অভিযোজনযোগ্যতা এবং ব্যাখ্যাযোগ্যতার অভাব
কলমোগোরভ-আর্নল্ড প্রতিনিধিত্ব উপপাদ্য দ্বারা অনুপ্রাণিত, KAN নেটওয়ার্ক নির্দিষ্ট সক্রিয়করণ ফাংশনের পরিবর্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, শক্তিশালী ফাংশন অনুমান ক্ষমতা এবং ব্যাখ্যাযোগ্যতা প্রদান করে। এই পেপারটি KAN কে গ্রাফ শেখার ক্ষেত্রে প্রসারিত করে, বিশেষভাবে 3D পোজ অনুমানের 2D-থেকে-3D উন্নতি কাজের জন্য।
- PoseKAN ফ্রেমওয়ার্ক প্রস্তাব: প্রথমবারের মতো কলমোগোরভ-আর্নল্ড নেটওয়ার্ককে গ্রাফ কাঠামোগত ডেটায় প্রসারিত করা, 3D মানব পোজ অনুমানের জন্য, শিক্ষণযোগ্য ফাংশন-ভিত্তিক রূপান্তরের মাধ্যমে মডেল অভিযোজনযোগ্যতা এবং সাধারণীকরণ ক্ষমতা উন্নত করা
- বহু-হপ বৈশিষ্ট্য প্রচার প্রক্রিয়া ডিজাইন: স্কেলিং প্যারামিটার s প্রবর্তন করা যা স্থানীয় এবং বৈশ্বিক বৈশিষ্ট্য সমন্বয়ের ভারসাম্য নিয়ন্ত্রণ করে, প্রচার ম্যাট্রিক্স P = (1-s) + s² একই সাথে এক-হপ এবং দুই-হপ প্রতিবেশী বিবেচনা করে, অবরোধ এবং গভীরতা অস্পষ্টতার প্রতি স্থিতিস্থাপকতা উন্নত করা
- উদ্ভাবনী স্থাপত্য ডিজাইন:
- অবশিষ্ট PoseKAN ব্লক গভীর বৈশিষ্ট্য পরিমার্জন বাস্তবায়ন
- বৈশ্বিক প্রতিক্রিয়া স্বাভাবিকীকরণ (GRN) বৈশিষ্ট্য নির্বাচনযোগ্যতা এবং বৈসাদৃশ্য উন্নত করা
- GELU অরৈখিকতার সাথে মিলিত প্রকাশ ক্ষমতা বৃদ্ধি করা
- ব্যাপক পরীক্ষা যাচাইকরণ: Human3.6M এবং MPI-INF-3DHP ডেটাসেটে বিস্তৃত তুলনামূলক পরীক্ষা এবং অপসারণ অধ্যয়ন পরিচালনা করা, পদ্ধতির কার্যকারিতা প্রমাণ করা
প্রশিক্ষণ সেট D = {(xᵢ, yᵢ)}ᴺᵢ₌₁ দেওয়া, যেখানে:
- ইনপুট: xᵢ ∈ ℝ² হল 2D জয়েন্ট অবস্থান (প্রস্তুত 2D পোজ সনাক্তকরণকারী দ্বারা প্রদত্ত)
- আউটপুট: yᵢ ∈ ℝ³ হল সংশ্লিষ্ট প্রকৃত 3D জয়েন্ট অবস্থান
- লক্ষ্য: রিগ্রেশন মডেল fω: X → Y এর প্যারামিটার ω শিখা
মানব কঙ্কাল গ্রাফ হিসাবে প্রতিনিধিত্ব করা হয় G = (V, E, X):
- V = {1,...,J} হল J টি নোড (জয়েন্ট)
- E ⊆ V × V হল প্রান্ত সেট
- X ∈ ℝᴶˣᶠ হল নোড বৈশিষ্ট্য ম্যাট্রিক্স
- A হল সংলগ্ন ম্যাট্রিক্স, Â = D⁻¹/²AD⁻¹/² হল স্বাভাবিকীকৃত সংলগ্ন ম্যাট্রিক্স
KAN স্তরের মূল হল শিক্ষণযোগ্য সক্রিয়করণ ফাংশন, সংজ্ঞায়িত হিসাবে:
ϕ(x) = wᵦb(x) + wₛspline(x)
যেখানে:
- b(x) = SiLU(x) = x/(1+e⁻ˣ) হল sigmoid রৈখিক একক
- spline(x) = Σᵢ cᵢBᵢ(x) হল B-স্প্লাইন ভিত্তি ফাংশনের ওজনযুক্ত যোগফল
- wᵦ, wₛ, cᵢ হল শিক্ষণযোগ্য প্যারামিটার
এই পেপারে প্রস্তাবিত উদ্ভাবনী বর্ণালী মডুলেশন ফিল্টার:
hₛ(λ) = 1/((1+s)λ - sλ²)
যেখানে s ∈ (0,1) হল স্কেলিং প্যারামিটার, বিভিন্ন ফ্রিকোয়েন্সি উপাদানের প্রতি ফিল্টারের ক্ষয় আচরণ নিয়ন্ত্রণ করে। এই ফিল্টারটি অভিযোজিত নিম্ন-পাস বৈশিষ্ট্য রয়েছে।
নির্দিষ্ট পয়েন্ট পুনরাবৃত্তির মাধ্যমে সমাধান করা:
H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X
মূল স্তর-দ্বারা-স্তর আপডেট সূত্র:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)
দুটি ক্রিয়াকলাপে বিভক্ত করা যায়:
বৈশিষ্ট্য প্রচার:
G⁽ˡ⁾ = PH⁽ˡ⁾ + X
যেখানে P = (1-s) + s² হল প্রচার ম্যাট্রিক্স, এক-হপ এবং দুই-হপ প্রতিবেশী তথ্যের ভারসাম্য রাখে
বৈশিষ্ট্য এম্বেডিং:
H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)
প্রতিটি গ্রাফ প্রান্ত একটি শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশনের সাথে যুক্ত
- প্রাথমিক PoseKAN স্তর: 2D ইনপুটকে সুপ্ত স্থানে ম্যাপ করা
- 4টি অবশিষ্ট PoseKAN ব্লক: প্রতিটি ব্লক অন্তর্ভুক্ত করে
- স্তরযুক্ত বৈশিষ্ট্য শেখার জন্য 5টি PoseKAN স্তর
- প্রশিক্ষণ স্থিতিশীল করার জন্য স্তর স্বাভাবিকীকরণ
- অতিরিক্ত PoseKAN স্তর + GELU অরৈখিকতা
- গ্রেডিয়েন্ট অদৃশ্য হওয়া প্রতিরোধ করার জন্য অবশিষ্ট সংযোগ
- বৈশ্বিক প্রতিক্রিয়া স্বাভাবিকীকরণ (GRN): পূর্বাভাসের আগে বৈশিষ্ট্য প্রশস্ততা ক্যালিব্রেট করা
- সমাপনী PoseKAN স্তর: 3D পোজ স্থানে প্রজেক্ট করা
মিশ্র ক্ষতি ফাংশন (স্থিতিস্থাপক নেট দ্বারা অনুপ্রাণিত):
L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁
যেখানে α ∈ 0,1 MSE এবং MAE এর ওজন ভারসাম্য নিয়ন্ত্রণ করে
- GCN: নির্দিষ্ট সক্রিয়করণ ফাংশন (যেমন ReLU) এবং প্রশিক্ষণযোগ্য ওজন ম্যাট্রিক্স ব্যবহার করে, সারমর্মে নোড-স্তরের রৈখিক ম্যাপিং
- PoseKAN: প্রান্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, ডেটা-চালিত অভিযোজিত বৈশিষ্ট্য রূপান্তর প্রদান করে, শক্তিশালী প্রকাশ ক্ষমতা
প্রচার ম্যাট্রিক্স P = (1-s) + s² এর মাধ্যমে:
- স্পষ্টভাবে এক-হপ এবং দুই-হপ প্রতিবেশী তথ্য একত্রিত করা
- প্যারামিটার s স্থানীয় বনাম বৈশ্বিক তথ্যের ভারসাম্য সামঞ্জস্য করা যায়
- ² এর স্পষ্ট গণনা এড়ানো (ডান-থেকে-বাম গুণন কৌশল ব্যবহার করে)
KAN এর ফাংশন ভিত্তি রূপান্তর নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উভয় উপাদান ক্যাপচার করতে পারে:
- নিম্ন ফ্রিকোয়েন্সি: মসৃণ, ক্রমান্বয়ে জয়েন্ট অবস্থান পরিবর্তন (যেমন হাঁটা, খাওয়া)
- উচ্চ ফ্রিকোয়েন্সি: দ্রুত, আকস্মিক গতিবিধি (যেমন অভিনন্দনে আকস্মিক ক্রিয়া)
- সময় জটিলতা: O(L||Â||₀F + LGF²)
- প্রথম পদ: বৈশিষ্ট্য প্রচার (গ্রাফ প্রান্ত সংখ্যার উপর নির্ভর করে)
- দ্বিতীয় পদ: KAN রূপান্তর (G হল গ্রিড আকার)
- স্থান জটিলতা: O(LJF + 2kGLF²)
- 2k k-অর্ডার স্প্লাইনের পুনরাবৃত্তিমূলক গণনা থেকে আসে
k এবং G সাধারণত ছোট হওয়ায়, অতিরিক্ত ওভারহেড নিয়ন্ত্রণযোগ্য
- স্কেল: 11 জন অভিনেতা (6 পুরুষ 5 মহিলা), 15 ধরনের অভ্যন্তরীণ কার্যকলাপ
- সংগ্রহ: 50Hz, 4টি সিঙ্ক্রোনাইজড ক্যামেরা
- মন্তব্য: গতি ক্যাপচারের মাধ্যমে সঠিক 3D জয়েন্ট স্থানাঙ্ক প্রাপ্ত
- বিভাজন:
- প্রশিক্ষণ সেট: 5 জন অভিনেতা (S1, S5, S6, S7, S8)
- পরীক্ষা সেট: 2 জন অভিনেতা (S9, S11)
- প্রাক-প্রক্রিয়াকরণ: স্বাভাবিকীকরণ, হিপ জয়েন্টকে মূল জয়েন্ট হিসাবে শূন্য-কেন্দ্রীকরণ
- স্কেল: 8 জন অভিনেতা (4 পুরুষ 4 মহিলা), 8টি কার্যকলাপ সিকোয়েন্স
- সংগ্রহ: 14টি বিভিন্ন কোণ, অভ্যন্তরীণ এবং বহিরঙ্গন দৃশ্য
- বৈশিষ্ট্য: Human3.6M এর চেয়ে বেশি বৈচিত্র্যময়, মৌলিক ক্রিয়া থেকে গতিশীল উচ্চ-তীব্রতা ক্রিয়া অন্তর্ভুক্ত
- প্রোটোকল #1: MPJPE (Mean Per-Joint Position Error) - গড় প্রতি-জয়েন্ট অবস্থান ত্রুটি (মিলিমিটার)
- প্রোটোকল #2: PA-MPJPE (Procrustes-Aligned MPJPE) - Procrustes সারিবদ্ধতার পরে ত্রুটি
- PCK (Percentage of Correct Keypoint): সঠিক কীপয়েন্ট শতাংশ
- AUC (Area Under Curve): বক্ররেখার নিচে এলাকা
- GCN সিরিজ: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
- হাইব্রিড পদ্ধতি: GraphMLP (MLP এবং GCN একত্রিত)
- অন্যান্য: HOIF-Net, PoseGraphNet, WSGN ইত্যাদি
- হার্ডওয়্যার: একক NVIDIA RTX A4500 GPU (20GB)
- ফ্রেমওয়ার্ক: PyTorch
- অপ্টিমাইজার: AMSGrad
- প্রশিক্ষণ যুগ: 30 যুগ
- শেখার হার: প্রাথমিক 0.001, প্রতি 4 যুগে 0.99 ক্ষয়
- ব্যাচ আকার: 64
- এম্বেডিং মাত্রা: F = 240
- মূল হাইপারপ্যারামিটার: s = 0.2, α = 0.03 (গ্রিড অনুসন্ধানের মাধ্যমে নির্ধারিত)
- নিয়মিতকরণ: প্রতিটি PoseKAN স্তরের পরে dropout=0.2
- স্প্লাইন সেটিংস: অর্ডার=3, গ্রিড আকার=5
সামগ্রিক কর্মক্ষমতা:
- PoseKAN: 46.7mm (সর্বোত্তম)
- GraphMLP: 48.0mm (দ্বিতীয়)
- Modulated GCN: 49.4mm
- আপেক্ষিক ত্রুটি হ্রাস:
- বনাম GraphMLP: 2.7%
- বনাম Modulated GCN: 5.47%
- বনাম High-order GCN: 15.99%
মূল ক্রিয়া কর্মক্ষমতা (অবরোধ চ্যালেঞ্জ):
- খাওয়া: 44.4mm (অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল)
- বসা: 54.6mm
- ধূমপান: 46.1mm
- 15টি ক্রিয়ার মধ্যে 14টিতে Modulated GCN এর চেয়ে ভাল
সামগ্রিক কর্মক্ষমতা:
- PoseKAN: 38.3mm (সর্বোত্তম)
- GraphMLP: 38.4mm (আপেক্ষিক ত্রুটি হ্রাস 0.26%)
- Modulated GCN: 39.1mm (আপেক্ষিক ত্রুটি হ্রাস 2.04%)
- High-order GCN: 43.7mm (আপেক্ষিক ত্রুটি হ্রাস 12.35%)
সুবিধাজনক ক্রিয়া:
- 15টি ক্রিয়ার মধ্যে 11টিতে GraphMLP এর চেয়ে ভাল
- 15টি ক্রিয়ার মধ্যে 13টিতে Modulated GCN এর চেয়ে ভাল
- বিশেষত অভিনন্দন, বসা, ধূমপান ইত্যাদি গুরুতর অবরোধ দৃশ্যে চমৎকার কর্মক্ষমতা
Human3.6M এ প্রশিক্ষিত, MPI-INF-3DHP এ পরীক্ষিত:
- PCK: 86.0% (সর্বোচ্চ)
- AUC: 52.9% (দ্বিতীয়, শুধুমাত্র ICFNet এর 54.3% এর পরে)
- ICFNet এর PCK এর তুলনায় আপেক্ষিক উন্নতি 0.5%
- MPJPE: 33.51mm
- আপেক্ষিক ত্রুটি হ্রাস:
- বনাম SemGCN: 19.62%
- বনাম High-order GCN: 14.29%
- বনাম GraphMLP: 2.01%
- PA-MPJPE: 28.01mm (সর্বোত্তম)
| কনফিগারেশন | MPJPE | PA-MPJPE |
|---|
| IRC ছাড়া | 34.44mm | 28.79mm |
| IRC সহ | 33.51mm | 28.01mm |
| উন্নতি | 1.65% | 1.49% |
সিদ্ধান্ত: IRC প্রাথমিক বৈশিষ্ট্য সংরক্ষণের মাধ্যমে প্রশিক্ষণ স্থিতিশীল করে, তথ্য হ্রাস প্রতিরোধ করে
- অর্ডার 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
- অর্ডার 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (সর্বোত্তম)
- অর্ডার 4: MPJPE=47.10mm, PA-MPJPE=38.59mm
সিদ্ধান্ত: অর্ডার 3 সর্বোত্তম ভারসাম্য অর্জন করে, উচ্চতর জটিলতা কোন সুবিধা ছাড়াই বৃদ্ধি করে
- আকার 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
- আকার 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (সর্বোত্তম)
- আকার 6: MPJPE=47.98mm, PA-MPJPE=39.11mm
সিদ্ধান্ত: গ্রিড আকার 5 পর্যাপ্ত ফাংশন অনুমান ক্ষমতা প্রদান করে
পরীক্ষা পরিসীমা: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}
- সর্বোত্তম মান: s=0.2
- ছোট s স্থানীয় তথ্যকে আরও জোর দেয়, একই সাথে দূরবর্তী নোডগুলি যথাযথভাবে বিবেচনা করে
- s খুব বড় বা খুব ছোট হলে কর্মক্ষমতা হ্রাস পায়
- 224: MPJPE=47.38mm
- 240: MPJPE=46.77mm (সর্বোত্তম)
- 256: MPJPE=47.29mm
সিদ্ধান্ত: 240 মাত্রা অতিফিটিং ছাড়াই পর্যাপ্ত প্রকাশ ক্ষমতা প্রদান করে
গুণগত ভিজ্যুয়ালাইজেশন (চিত্র 2) বিভিন্ন ক্রিয়া বিভাগে PoseKAN এর পূর্বাভাস প্রদর্শন করে:
- পূর্বাভাসিত 3D পোজ প্রকৃত মানের সাথে উচ্চ সারিবদ্ধতা
- স্ব-অবরোধ দৃশ্যে (যেমন ক্রস করা বাহু, বসা অবস্থান) GraphMLP এর চেয়ে উচ্চতর কর্মক্ষমতা
- GraphMLP মাঝেমধ্যে অপ্রাকৃত জয়েন্ট অবস্থান তৈরি করে, যখন PoseKAN কঙ্কাল কাঠামো সামঞ্জস্য বজায় রাখে
- নির্ভুল জয়েন্ট প্লেসমেন্ট এবং প্রাকৃত অঙ্গ জয়েন্ট যাচাইকরণ গভীরতা অস্পষ্টতা হ্রাস করার মডেলের ক্ষমতা যাচাই করে
- শিক্ষণযোগ্য ফাংশনের স্পষ্ট সুবিধা: নির্দিষ্ট সক্রিয়করণ ফাংশনের তুলনায়, প্রান্তে শিক্ষণযোগ্য ফাংশন শক্তিশালী অভিযোজনযোগ্যতা প্রদান করে
- বহু-হপ সমন্বয় অত্যন্ত গুরুত্বপূর্ণ: অবরোধ এবং জটিল পোজ পরিচালনায় উল্লেখযোগ্য উন্নতি
- প্যারামিটার দক্ষতা উচ্চ: PoseKAN মাত্র 5.72M প্যারামিটার, GraphMLP এর 9.49M এর চেয়ে অনেক কম
- ক্রস-ডেটাসেট সাধারণীকরণ ক্ষমতা শক্তিশালী: MPI-INF-3DHP এ কর্মক্ষমতা ভাল সাধারণীকরণ প্রমাণ করে
- উচ্চ-ফ্রিকোয়েন্সি বিবরণের প্রতি সংবেদনশীল: দ্রুত গতিবিধি বিবরণ প্রয়োজন এমন ক্রিয়ায় (যেমন অভিনন্দন) স্পষ্ট সুবিধা
- ছবি থেকে সরাসরি 3D জয়েন্ট স্থানাঙ্ক রিগ্রেশন
- প্রতিনিধি: Integral Human Pose Regression, Compositional Human Pose Regression
- সীমাবদ্ধতা: অবরোধের প্রতি সংবেদনশীল, নির্ভুলতা কম
- প্রথম পর্যায়: 2D জয়েন্ট অবস্থান সনাক্তকরণ
- দ্বিতীয় পর্যায়: 3D স্থানে উন্নতি
- প্রতিনিধি: SimpleBaseline, LCN
- সুবিধা: মডুলার ডিজাইন, সর্বোত্তম 2D সনাক্তকারী নির্বাচন করা যায়, শক্তিশালী স্থিতিস্থাপকতা
- এই পেপার এই বিভাগে পড়ে
- SemGCN: GCN প্রথমবারের মতো 3D পোজ অনুমানে প্রয়োগ করা
- সীমাবদ্ধতা: এক-হপ প্রতিবেশী সমন্বয়, স্থানীয় রিসেপ্টিভ ফিল্ড
- High-order GCN: বহু-হপ প্রতিবেশীতে সম্প্রসারিত
- Modulated GCN: সংলগ্ন ম্যাট্রিক্স মডুলেশন, অতিরিক্ত প্রান্ত শিখা
- GroupGCN: গ্রুপ গ্রাফ কনভোলিউশন
- MM-GCN: মাল্টি-হপ মডুলেটেড GCN, বহু-হপ প্রতিবেশী তথ্য একীভূত করা
- GraphMLP: MLP এবং GCN একত্রিত, বৈশ্বিক এবং স্থানীয় কঙ্কাল ইন্টারঅ্যাকশন ব্যবহার করা
- সীমাবদ্ধতা: এখনও নির্দিষ্ট সক্রিয়করণ ফাংশন ব্যবহার করে, বর্ণালী পক্ষপাত বিদ্যমান
- তাত্ত্বিক ভিত্তি: কলমোগোরভ-আর্নল্ড প্রতিনিধিত্ব উপপাদ্য (যেকোনো ক্রমাগত বহু-পরিবর্তনশীল ফাংশন একক-পরিবর্তনশীল ফাংশনের সীমিত সমন্বয় হিসাবে প্রকাশ করা যায়)
- KAN নেটওয়ার্ক: নির্দিষ্ট সক্রিয়করণের পরিবর্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, ব্যাখ্যাযোগ্যতা এবং অভিযোজনযোগ্যতা উন্নত করে
- KAGNN: সম্প্রতি KAN কে গ্রাফ শেখায় প্রসারিত করা (নোড/গ্রাফ শ্রেণীবিভাগ, লিংক পূর্বাভাস)
- এই পেপারের উদ্ভাবন: প্রথমবারের মতো KAN 3D পোজ অনুমানের 2D-থেকে-3D উন্নতি কাজে প্রয়োগ করা
- বনাম মান GCN: শিক্ষণযোগ্য ফাংশন বনাম নির্দিষ্ট সক্রিয়করণ, বহু-হপ সমন্বয় বনাম এক-হপ
- বনাম উচ্চ-অর্ডার GCN: অভিযোজিত ফাংশন রূপান্তর বনাম নির্দিষ্ট উচ্চ-অর্ডার কনভোলিউশন
- বনাম GraphMLP: বর্ণালী পক্ষপাত হ্রাস, শক্তিশালী প্রকাশ ক্ষমতা
- বনাম KAGNN: পোজ অনুমানের জন্য বিশেষভাবে ডিজাইন করা, বর্ণালী মডুলেশন ফিল্টার প্রবর্তন করা
- পদ্ধতির কার্যকারিতা: PoseKAN Human3.6M এবং MPI-INF-3DHP ডেটাসেটে অত্যাধুনিক বা অতিক্রম করে
- মূল সুবিধা:
- শিক্ষণযোগ্য ফাংশন শক্তিশালী অভিযোজনযোগ্যতা এবং প্রকাশ ক্ষমতা প্রদান করে
- বহু-হপ বৈশিষ্ট্য সমন্বয় কার্যকরভাবে দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করে
- বর্ণালী পক্ষপাত হ্রাস করে, একই সাথে নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উপাদান শিখে
- ব্যবহারিকতা: উচ্চ প্যারামিটার দক্ষতা (5.72M), নিয়ন্ত্রণযোগ্য গণনা ওভারহেড, বাস্তব প্রয়োগের জন্য উপযুক্ত
- সাধারণীকরণ ক্ষমতা: ক্রস-ডেটাসেট মূল্যায়ন চমৎকার কর্মক্ষমতা প্রদর্শন করে, ভাল সাধারণীকরণ প্রমাণ করে
- ব্যাখ্যাযোগ্যতা চ্যালেঞ্জ: যদিও GCN এর চেয়ে বেশি ব্যাখ্যাযোগ্য, প্রতিটি শিক্ষণযোগ্য সক্রিয়করণ ফাংশন কঙ্কালের বিভিন্ন অংশে কীভাবে খাপ খায় তা ভিজ্যুয়ালাইজ করা এখনও চ্যালেঞ্জিং
- গণনা খরচ: শিক্ষণযোগ্য সক্রিয়করণ প্রতিটি স্তরে গণনা ওভারহেড বৃদ্ধি করে, স্প্লাইন ভিত্তি ফাংশন অতিরিক্ত মেমরি প্রয়োজন
- মেমরি খরচ: বড় আকারের ডেটাসেট এবং গভীর নেটওয়ার্ক প্রশিক্ষণে মেমরি চাহিদা বেশি
- অপ্টিমাইজেশন স্থান: গণনা দক্ষতা, ব্যাখ্যাযোগ্যতা এবং স্থিতিস্থাপকতা আরও উন্নত করার প্রয়োজন
- একক-ব্যক্তি পোজ সীমাবদ্ধতা: বর্তমানে শুধুমাত্র একক-ব্যক্তি পোজ পরিচালনা করে, বহু-ব্যক্তি দৃশ্যে সম্প্রসারিত নয়
- 2D সনাক্তকরণ নির্ভরতা: কর্মক্ষমতা 2D পোজ সনাক্তকারীর গুণমানের উপর নির্ভর করে
- স্ট্যাটিক গ্রাফ কাঠামো: যদিও প্রান্ত ওজন শিখে, টপোলজি কাঠামো পূর্বনির্ধারিত
- হাইপারপ্যারামিটার সংবেদনশীলতা: s, α ইত্যাদি হাইপারপ্যারামিটার সাবধানে সমন্বয় প্রয়োজন
- বহু-ব্যক্তি পোজ অনুমান: বহু-ব্যক্তি দৃশ্যে সম্প্রসারণ, মানব-মানব ইন্টারঅ্যাকশন পরিচালনা
- অন্যান্য গ্রাফ শেখার কাজ: ক্রিয়া স্বীকৃতি, অসামান্যতা সনাক্তকরণ ইত্যাদি
- সময়গত মডেলিং: ভিডিও সিকোয়েন্সের সময় তথ্য একীভূত করা
- শেষ-থেকে-শেষ শেখা: 2D সনাক্তকরণ এবং 3D উন্নতি যৌথভাবে অপ্টিমাইজ করা
- অভিযোজিত গ্রাফ কাঠামো: পূর্বনির্ধারিত পরিবর্তে গতিশীলভাবে গ্রাফ টপোলজি শিখা
- হালকা ডিজাইন: মোবাইল ডিভাইসের জন্য মডেল সংকোচন
- তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো KAN 3D পোজ অনুমানের গ্রাফ শেখায় প্রসারিত, দৃঢ় তাত্ত্বিক ভিত্তি
- প্রযুক্তিগত উদ্ভাবন: বর্ণালী মডুলেশন ফিল্টার ডিজাইন চতুর, বহু-হপ সমন্বয় প্রক্রিয়া কার্যকর
- স্থাপত্য উদ্ভাবন: অবশিষ্ট PoseKAN ব্লক এবং GRN এর সমন্বয় ডিজাইন যুক্তিসঙ্গত
- ডেটাসেট বৈচিত্র্য: Human3.6M (অভ্যন্তরীণ) + MPI-INF-3DHP (অভ্যন্তরীণ এবং বহিরঙ্গন)
- তুলনা ব্যাপক: 10+ অত্যাধুনিক পদ্ধতির সাথে তুলনা
- অপসারণ বিস্তারিত: IRC, স্প্লাইন অর্ডার, গ্রিড আকার, স্কেলিং ফ্যাক্টর, এম্বেডিং মাত্রা ইত্যাদি
- গুণগত বিশ্লেষণ: ভিজ্যুয়ালাইজেশন কেস তুলনা প্রদান করা
- কর্মক্ষমতা নেতৃত্ব: একাধিক মেট্রিকে SOTA বা কাছাকাছি অর্জন
- সামঞ্জস্য ভাল: ক্রস-ডেটাসেট, ক্রস-প্রোটোকল কর্মক্ষমতা স্থিতিশীল
- পরিসংখ্যান উল্লেখযোগ্য: আপেক্ষিক ত্রুটি হ্রাস স্পষ্ট (সর্বোচ্চ 19.62%)
- প্যারামিটার দক্ষতা: 5.72M প্যারামিটার GraphMLP এর 9.49M এর চেয়ে ভাল
- কাঠামো স্পষ্ট: যুক্তি কঠোর, প্রেরণা থেকে পদ্ধতি থেকে পরীক্ষা স্তরে স্তরে অগ্রসর
- গণিত কঠোর: সূত্র উদ্ভাবন সম্পূর্ণ, প্রতীক সংজ্ঞা স্পষ্ট
- চিত্র সমৃদ্ধ: স্থাপত্য চিত্র, তুলনা সারণী, অপসারণ চার্ট সবকিছু উপস্থিত
- পরিপূরক উপকরণ: বিস্তারিত পরিশিষ্ট ব্যাখ্যা প্রদান করা
- গণনা ওভারহেড: যদিও লেখক দাবি করে নিয়ন্ত্রণযোগ্য, স্প্লাইন গণনা এবং ফাংশন শেখা সত্যিই জটিলতা বৃদ্ধি করে
- মেমরি চাহিদা: O(2kGLF²) মেমরি জটিলতা বড় আকারের প্রয়োগে বাধা হতে পারে
- একক-ব্যক্তি সীমাবদ্ধতা: বহু-ব্যক্তি দৃশ্য পরিচালনা করে না, বাস্তব প্রয়োগ পরিসীমা সীমিত করে
- হাইপারপ্যারামিটার অনুসন্ধান: s=0.2 এবং α=0.03 গ্রিড অনুসন্ধানের মাধ্যমে নির্ধারিত, কিন্তু অনুসন্ধান পরিসীমা এবং প্রক্রিয়া রিপোর্ট করা হয়নি
- পরিসংখ্যান পরীক্ষা: উল্লেখযোগ্যতা পরীক্ষা অনুপস্থিত (যেমন t-পরীক্ষা)
- ব্যর্থতা কেস: মডেল ব্যর্থতার সাধারণ কেস এবং কারণ বিশ্লেষণ প্রদর্শিত হয়নি
- ব্যাখ্যাযোগ্যতা: যদিও GCN এর চেয়ে বেশি ব্যাখ্যাযোগ্য দাবি করে, নির্দিষ্ট ফাংশন ভিজ্যুয়ালাইজেশন বা বিশ্লেষণ প্রদান করা হয়নি
- ফ্রিকোয়েন্সি বিশ্লেষণ: বর্ণালী পক্ষপাত হ্রাস উল্লেখ করা হয়, কিন্তু ফ্রিকোয়েন্সি বিশ্লেষণের পরিমাণগত প্রমাণ অনুপস্থিত
- ত্রুটি বিতরণ: বিভিন্ন জয়েন্ট, বিভিন্ন ক্রিয়ার ত্রুটি বিতরণ প্যাটার্ন বিশ্লেষণ করা হয়নি
- ইনপুট সামঞ্জস্য: একই 2D সনাক্তকারী ব্যবহার করে, কিন্তু সনাক্তকারী ত্রুটি ফলাফলে প্রভাব রিপোর্ট করা হয়নি
- বাস্তবায়ন বিবরণ: বেসলাইন পদ্ধতি বিভিন্ন প্রশিক্ষণ কৌশল ব্যবহার করতে পারে, ন্যায্য তুলনা প্রভাবিত করে
- তাত্ত্বিক অবদান: KAN গ্রাফ-ভিত্তিক পোজ অনুমানে প্রবর্তন, নতুন দিক খোলা
- পদ্ধতি অবদান: বর্ণালী মডুলেশন ফিল্টার এবং বহু-হপ সমন্বয় প্রক্রিয়া অন্যান্য গ্রাফ কাজে স্থানান্তরযোগ্য
- অভিজ্ঞতামূলক অবদান: মান ডেটাসেটে নতুন কর্মক্ষমতা বেঞ্চমার্ক স্থাপন
- কর্মক্ষমতা উন্নতি: 2-19% আপেক্ষিক উন্নতি, বাস্তব প্রয়োগের জন্য অর্থপূর্ণ
- প্যারামিটার দক্ষতা: 5.72M প্যারামিটার মধ্যম, স্থাপনা সম্ভব
- সীমাবদ্ধতা: একক-ব্যক্তি সীমাবদ্ধতা এবং গণনা ওভারহেড রিয়েল-টাইম প্রয়োগ সীমিত করে
- কোড ওপেন সোর্স: GitHub লিংক প্রদান করা, পুনরুৎপাদন এবং প্রয়োগ সহজ করে
- বিবরণ সম্পূর্ণ: হাইপারপ্যারামিটার, প্রশিক্ষণ কৌশল, নেটওয়ার্ক কনফিগারেশন বিস্তারিত
- কোড জনসাধারণ: কোড ওপেন সোর্স করার প্রতিশ্রুতি
- ডেটা মান: জনসাধারণ ডেটাসেট এবং মান প্রোটোকল ব্যবহার করা
- সম্ভাব্য সমস্যা: KAN বাস্তবায়ন বিবরণ (স্প্লাইন গণনা) প্রযুক্তিগত প্রবেশদ্বার থাকতে পারে
- উচ্চ নির্ভুলতা প্রয়োজনীয় দৃশ্য: ক্রীড়া বিশ্লেষণ, চিকিৎসা নির্ণয় ইত্যাদি নির্ভুলতা প্রয়োজনীয় প্রয়োগ
- গুরুতর অবরোধ দৃশ্য: বহু-হপ সমন্বয় প্রক্রিয়া অবরোধ পরিস্থিতিতে সুবিধা স্পষ্ট
- জটিল ক্রিয়া বিশ্লেষণ: উচ্চ-ফ্রিকোয়েন্সি বিবরণ ক্যাপচার ক্ষমতা দ্রুত জটিল ক্রিয়ার জন্য উপযুক্ত
- অফলাইন প্রক্রিয়াকরণ: রিয়েল-টাইম প্রয়োজনীয়তা নেই কিন্তু উচ্চ নির্ভুলতা প্রয়োজন এমন দৃশ্য
- রিয়েল-টাইম প্রয়োগ: গণনা ওভারহেড তুলনামূলকভাবে উচ্চ, রিয়েল-টাইম প্রক্রিয়াকরণের জন্য অনুপযুক্ত
- বহু-ব্যক্তি দৃশ্য: বর্তমান স্থাপত্য বহু-ব্যক্তি ইন্টারঅ্যাকশন বিবেচনা করে না
- সম্পদ-সীমিত ডিভাইস: মেমরি চাহিদা বেশি, মোবাইল ডিভাইসের জন্য অনুপযুক্ত
- বড় আকারের স্থাপনা: প্রশিক্ষণ এবং অনুমান খরচ বড় আকারের প্রয়োগ সীমিত করতে পারে
- ভিডিও সিকোয়েন্স: সময়গত মডেলিং সম্প্রসারণ করা যায়
- অন্যান্য গ্রাফ কাজ: ক্রিয়া স্বীকৃতি, মানব নেট পুনর্নির্মাণ ইত্যাদি
- মাল্টি-মোডাল সংমিশ্রণ: RGB, গভীরতা, IMU ইত্যাদি মাল্টি-সোর্স ডেটা একীভূত করা
- স্থানান্তর শেখা: প্রশিক্ষিত মডেল অন্যান্য পোজ অনুমান কাজে স্থানান্তর করা
- Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - KAN এর মূল প্রস্তাব
- Zhao et al., 2019 - SemGCN - প্রথমবারের মতো GCN 3D পোজ অনুমানে প্রয়োগ
- Zou & Tang, 2021 - Modulated GCN - সংলগ্ন ম্যাট্রিক্স মডুলেশন পদ্ধতি
- Li et al., 2025 - GraphMLP - সবচেয়ে শক্তিশালী বেসলাইনগুলির মধ্যে একটি
- Bresson et al., 2025 - KAGNNs - গ্রাফ শেখায় KAN এর প্রয়োগ
- Ionescu et al., 2013 - Human3.6M dataset - মান মূল্যায়ন ডেটাসেট
- Martinez et al., 2017 - SimpleBaseline - 2D-থেকে-3D উন্নতির ক্লাসিক পদ্ধতি
- উদ্ভাবনী: 9/10
- প্রযুক্তিগত গুণমান: 8/10
- পরীক্ষা সম্পূর্ণতা: 8/10
- লেখার গুণমান: 9/10
- ব্যবহারিক মূল্য: 7/10
- সমন্বিত রেটিং: 8.2/10
সুপারিশ সূচক: ★★★★☆ (দৃঢ়ভাবে পড়ার সুপারিশ করা হয়, বিশেষত গ্রাফ নিউরাল নেটওয়ার্ক এবং 3D দৃষ্টিভঙ্গিতে আগ্রহী গবেষকদের জন্য)