2025-11-17T17:34:12.559157

Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation

Shahjahan, Hamza
Graph convolutional network (GCN)-based methods have shown strong performance in 3D human pose estimation by leveraging the natural graph structure of the human skeleton. However, their local receptive field limits their ability to capture long-range dependencies essential for handling occlusions and depth ambiguities. They also exhibit spectral bias, which prioritizes low-frequency components while struggling to model high-frequency details. In this paper, we introduce PoseKAN, an adaptive graph Kolmogorov-Arnold Network (KAN), framework that extends KANs to graph-based learning for 2D-to-3D pose lifting from a single image. Unlike GCNs that use fixed activation functions, KANs employ learnable functions on graph edges, allowing data-driven, adaptive feature transformations. This enhances the model's adaptability and expressiveness, making it more expressive in learning complex pose variations. Our model employs multi-hop feature aggregation, ensuring the body joints can leverage information from both local and distant neighbors, leading to improved spatial awareness. It also incorporates residual PoseKAN blocks for deeper feature refinement, and a global response normalization for improved feature selectivity and contrast. Extensive experiments on benchmark datasets demonstrate the competitive performance of our model against state-of-the-art methods.
academic

3D মানব পোজ অনুমানের জন্য অভিযোজিত গ্রাফ কলমোগোরভ-আর্নল্ড নেটওয়ার্ক

মৌলিক তথ্য

  • পেপার আইডি: 2511.08809
  • শিরোনাম: Adaptive Graph Kolmogorov-Arnold Network for 3D Human Pose Estimation
  • লেখক: Abu Taib Mohammed Shahjahan এবং A. Ben Hamza (কনকর্ডিয়া বিশ্ববিদ্যালয়, মন্ট্রিয়াল, কানাডা)
  • শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
  • প্রকাশনার সময়: 2025 সালের 11 নভেম্বর arXiv-এ জমা দেওয়া
  • পেপার লিংক: https://arxiv.org/abs/2511.08809
  • কোড লিংক: https://github.com/shahjahan0275/PoseKAN

সারসংক্ষেপ

এই পেপারটি 3D মানব পোজ অনুমানের কাজের জন্য PoseKAN প্রস্তাব করে—একটি অভিযোজিত গ্রাফ কলমোগোরভ-আর্নল্ড নেটওয়ার্ক ফ্রেমওয়ার্ক। এই পদ্ধতিটি ঐতিহ্যবাহী গ্রাফ কনভোলিউশনাল নেটওয়ার্ক (GCN) এর তিনটি মূল সীমাবদ্ধতা সমাধান করে: স্থানীয় রিসেপ্টিভ ফিল্ড সীমাবদ্ধতা, বর্ণালী পক্ষপাত (spectral bias) এবং নির্দিষ্ট সক্রিয়করণ ফাংশনের অপর্যাপ্ত প্রকাশ ক্ষমতা। PoseKAN গ্রাফ প্রান্তে নির্দিষ্ট সক্রিয়করণ ফাংশনের পরিবর্তে শিক্ষণযোগ্য ফাংশন রূপান্তর ব্যবহার করে, বহু-হপ বৈশিষ্ট্য সমন্বয় প্রক্রিয়ার সাথে মিলিত হয়ে স্থানীয় এবং দূরবর্তী জয়েন্ট নির্ভরতার কার্যকর মডেলিং অর্জন করে। Human3.6M এবং MPI-INF-3DHP মানদণ্ড ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে এই পদ্ধতিটি অত্যাধুনিক পদ্ধতির সাথে তুলনীয় কর্মক্ষমতা অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

1. মূল সমস্যা

3D মানব পোজ অনুমান 2D ছবি বা ভিডিও থেকে শরীরের জয়েন্টের 3D স্থানাঙ্ক অনুমান করার লক্ষ্য রাখে, যা মানব গতিবিধি বোঝার জন্য গুরুত্বপূর্ণ, কিন্তু ইনপুট ডেটার অন্তর্নিহিত গভীরতার অস্পষ্টতা এবং অবরোধ সমস্যার কারণে অত্যন্ত চ্যালেঞ্জিং।

2. সমস্যার গুরুত্ব

  • ব্যাপক প্রয়োগ: মানব-কম্পিউটার ইন্টারঅ্যাকশন, ক্রিয়া স্বীকৃতি, ক্রীড়া বিশ্লেষণ, চিকিৎসা পুনর্বাসন এবং অন্যান্য ক্ষেত্র
  • প্রযুক্তিগত চ্যালেঞ্জ: একক-দৃশ্য ছবির গভীরতা তথ্যের অভাব, স্ব-অবরোধ, জটিল পোজ পরিবর্তন

3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

GCN পদ্ধতির তিনটি প্রধান সীমাবদ্ধতা:

  • স্থানীয় রিসেপ্টিভ ফিল্ড সীমাবদ্ধতা: প্রধানত এক-হপ প্রতিবেশী সমন্বয়ের উপর নির্ভর করে, দূরবর্তী জয়েন্টের মধ্যে দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করা কঠিন
  • বর্ণালী পক্ষপাত সমস্যা: MLP কে মূল উপাদান হিসাবে ব্যবহার করার কারণে, নিম্ন-ফ্রিকোয়েন্সি উপাদান শিখতে প্রবণ এবং উচ্চ-ফ্রিকোয়েন্সি বিবরণ ক্যাপচার করা কঠিন (যেমন দ্রুত গতিবিধি, সূক্ষ্ম জয়েন্ট ইন্টারঅ্যাকশন)
  • প্রকাশ ক্ষমতা অপর্যাপ্ত: পূর্বনির্ধারিত নির্দিষ্ট সক্রিয়করণ ফাংশন এবং প্রশিক্ষণযোগ্য ওজন ম্যাট্রিক্স ব্যবহার করে, গতিশীল অভিযোজনযোগ্যতা এবং ব্যাখ্যাযোগ্যতার অভাব

4. গবেষণা প্রেরণা

কলমোগোরভ-আর্নল্ড প্রতিনিধিত্ব উপপাদ্য দ্বারা অনুপ্রাণিত, KAN নেটওয়ার্ক নির্দিষ্ট সক্রিয়করণ ফাংশনের পরিবর্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, শক্তিশালী ফাংশন অনুমান ক্ষমতা এবং ব্যাখ্যাযোগ্যতা প্রদান করে। এই পেপারটি KAN কে গ্রাফ শেখার ক্ষেত্রে প্রসারিত করে, বিশেষভাবে 3D পোজ অনুমানের 2D-থেকে-3D উন্নতি কাজের জন্য।

মূল অবদান

  1. PoseKAN ফ্রেমওয়ার্ক প্রস্তাব: প্রথমবারের মতো কলমোগোরভ-আর্নল্ড নেটওয়ার্ককে গ্রাফ কাঠামোগত ডেটায় প্রসারিত করা, 3D মানব পোজ অনুমানের জন্য, শিক্ষণযোগ্য ফাংশন-ভিত্তিক রূপান্তরের মাধ্যমে মডেল অভিযোজনযোগ্যতা এবং সাধারণীকরণ ক্ষমতা উন্নত করা
  2. বহু-হপ বৈশিষ্ট্য প্রচার প্রক্রিয়া ডিজাইন: স্কেলিং প্যারামিটার s প্রবর্তন করা যা স্থানীয় এবং বৈশ্বিক বৈশিষ্ট্য সমন্বয়ের ভারসাম্য নিয়ন্ত্রণ করে, প্রচার ম্যাট্রিক্স P = (1-s) + s² একই সাথে এক-হপ এবং দুই-হপ প্রতিবেশী বিবেচনা করে, অবরোধ এবং গভীরতা অস্পষ্টতার প্রতি স্থিতিস্থাপকতা উন্নত করা
  3. উদ্ভাবনী স্থাপত্য ডিজাইন:
    • অবশিষ্ট PoseKAN ব্লক গভীর বৈশিষ্ট্য পরিমার্জন বাস্তবায়ন
    • বৈশ্বিক প্রতিক্রিয়া স্বাভাবিকীকরণ (GRN) বৈশিষ্ট্য নির্বাচনযোগ্যতা এবং বৈসাদৃশ্য উন্নত করা
    • GELU অরৈখিকতার সাথে মিলিত প্রকাশ ক্ষমতা বৃদ্ধি করা
  4. ব্যাপক পরীক্ষা যাচাইকরণ: Human3.6M এবং MPI-INF-3DHP ডেটাসেটে বিস্তৃত তুলনামূলক পরীক্ষা এবং অপসারণ অধ্যয়ন পরিচালনা করা, পদ্ধতির কার্যকারিতা প্রমাণ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রশিক্ষণ সেট D = {(xᵢ, yᵢ)}ᴺᵢ₌₁ দেওয়া, যেখানে:

  • ইনপুট: xᵢ ∈ ℝ² হল 2D জয়েন্ট অবস্থান (প্রস্তুত 2D পোজ সনাক্তকরণকারী দ্বারা প্রদত্ত)
  • আউটপুট: yᵢ ∈ ℝ³ হল সংশ্লিষ্ট প্রকৃত 3D জয়েন্ট অবস্থান
  • লক্ষ্য: রিগ্রেশন মডেল fω: X → Y এর প্যারামিটার ω শিখা

মানব কঙ্কাল গ্রাফ হিসাবে প্রতিনিধিত্ব করা হয় G = (V, E, X):

  • V = {1,...,J} হল J টি নোড (জয়েন্ট)
  • E ⊆ V × V হল প্রান্ত সেট
  • X ∈ ℝᴶˣᶠ হল নোড বৈশিষ্ট্য ম্যাট্রিক্স
  • A হল সংলগ্ন ম্যাট্রিক্স, Â = D⁻¹/²AD⁻¹/² হল স্বাভাবিকীকৃত সংলগ্ন ম্যাট্রিক্স

মডেল স্থাপত্য

1. কলমোগোরভ-আর্নল্ড নেটওয়ার্ক ভিত্তি

KAN স্তরের মূল হল শিক্ষণযোগ্য সক্রিয়করণ ফাংশন, সংজ্ঞায়িত হিসাবে:

ϕ(x) = wᵦb(x) + wₛspline(x)

যেখানে:

  • b(x) = SiLU(x) = x/(1+e⁻ˣ) হল sigmoid রৈখিক একক
  • spline(x) = Σᵢ cᵢBᵢ(x) হল B-স্প্লাইন ভিত্তি ফাংশনের ওজনযুক্ত যোগফল
  • wᵦ, wₛ, cᵢ হল শিক্ষণযোগ্য প্যারামিটার

2. বর্ণালী মডুলেশন ফিল্টার

এই পেপারে প্রস্তাবিত উদ্ভাবনী বর্ণালী মডুলেশন ফিল্টার:

hₛ(λ) = 1/((1+s)λ - sλ²)

যেখানে s ∈ (0,1) হল স্কেলিং প্যারামিটার, বিভিন্ন ফ্রিকোয়েন্সি উপাদানের প্রতি ফিল্টারের ক্ষয় আচরণ নিয়ন্ত্রণ করে। এই ফিল্টারটি অভিযোজিত নিম্ন-পাস বৈশিষ্ট্য রয়েছে।

নির্দিষ্ট পয়েন্ট পুনরাবৃত্তির মাধ্যমে সমাধান করা: H⁽ᵗ⁺¹⁾ = ((1-s)I + sÂ)ÂH⁽ᵗ⁾ + X

3. PoseKAN স্তর আপডেট নিয়ম

মূল স্তর-দ্বারা-স্তর আপডেট সূত্র:

H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(((1-s) + s²)H⁽ˡ⁾ + X)

দুটি ক্রিয়াকলাপে বিভক্ত করা যায়:

বৈশিষ্ট্য প্রচার: G⁽ˡ⁾ = PH⁽ˡ⁾ + X

যেখানে P = (1-s) + s² হল প্রচার ম্যাট্রিক্স, এক-হপ এবং দুই-হপ প্রতিবেশী তথ্যের ভারসাম্য রাখে

বৈশিষ্ট্য এম্বেডিং: H⁽ˡ⁺¹⁾ = KAN⁽ˡ⁾(G⁽ˡ⁾)

প্রতিটি গ্রাফ প্রান্ত একটি শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশনের সাথে যুক্ত

4. সামগ্রিক স্থাপত্য

  • প্রাথমিক PoseKAN স্তর: 2D ইনপুটকে সুপ্ত স্থানে ম্যাপ করা
  • 4টি অবশিষ্ট PoseKAN ব্লক: প্রতিটি ব্লক অন্তর্ভুক্ত করে
    • স্তরযুক্ত বৈশিষ্ট্য শেখার জন্য 5টি PoseKAN স্তর
    • প্রশিক্ষণ স্থিতিশীল করার জন্য স্তর স্বাভাবিকীকরণ
    • অতিরিক্ত PoseKAN স্তর + GELU অরৈখিকতা
    • গ্রেডিয়েন্ট অদৃশ্য হওয়া প্রতিরোধ করার জন্য অবশিষ্ট সংযোগ
  • বৈশ্বিক প্রতিক্রিয়া স্বাভাবিকীকরণ (GRN): পূর্বাভাসের আগে বৈশিষ্ট্য প্রশস্ততা ক্যালিব্রেট করা
  • সমাপনী PoseKAN স্তর: 3D পোজ স্থানে প্রজেক্ট করা

5. ক্ষতি ফাংশন

মিশ্র ক্ষতি ফাংশন (স্থিতিস্থাপক নেট দ্বারা অনুপ্রাণিত):

L = 1/N(1-α)Σᵢ||yᵢ - ŷᵢ||₂² + αΣᵢ||yᵢ - ŷᵢ||₁

যেখানে α ∈ 0,1 MSE এবং MAE এর ওজন ভারসাম্য নিয়ন্ত্রণ করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. শিক্ষণযোগ্য ফাংশন রূপান্তর বনাম নির্দিষ্ট সক্রিয়করণ

  • GCN: নির্দিষ্ট সক্রিয়করণ ফাংশন (যেমন ReLU) এবং প্রশিক্ষণযোগ্য ওজন ম্যাট্রিক্স ব্যবহার করে, সারমর্মে নোড-স্তরের রৈখিক ম্যাপিং
  • PoseKAN: প্রান্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, ডেটা-চালিত অভিযোজিত বৈশিষ্ট্য রূপান্তর প্রদান করে, শক্তিশালী প্রকাশ ক্ষমতা

2. বহু-হপ নির্ভরতা মডেলিং

প্রচার ম্যাট্রিক্স P = (1-s) + s² এর মাধ্যমে:

  • স্পষ্টভাবে এক-হপ এবং দুই-হপ প্রতিবেশী তথ্য একত্রিত করা
  • প্যারামিটার s স্থানীয় বনাম বৈশ্বিক তথ্যের ভারসাম্য সামঞ্জস্য করা যায়
  • ² এর স্পষ্ট গণনা এড়ানো (ডান-থেকে-বাম গুণন কৌশল ব্যবহার করে)

3. বর্ণালী পক্ষপাত হ্রাস

KAN এর ফাংশন ভিত্তি রূপান্তর নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উভয় উপাদান ক্যাপচার করতে পারে:

  • নিম্ন ফ্রিকোয়েন্সি: মসৃণ, ক্রমান্বয়ে জয়েন্ট অবস্থান পরিবর্তন (যেমন হাঁটা, খাওয়া)
  • উচ্চ ফ্রিকোয়েন্সি: দ্রুত, আকস্মিক গতিবিধি (যেমন অভিনন্দনে আকস্মিক ক্রিয়া)

4. গণনামূলক জটিলতা বিশ্লেষণ

  • সময় জটিলতা: O(L||Â||₀F + LGF²)
    • প্রথম পদ: বৈশিষ্ট্য প্রচার (গ্রাফ প্রান্ত সংখ্যার উপর নির্ভর করে)
    • দ্বিতীয় পদ: KAN রূপান্তর (G হল গ্রিড আকার)
  • স্থান জটিলতা: O(LJF + 2kGLF²)
    • 2k k-অর্ডার স্প্লাইনের পুনরাবৃত্তিমূলক গণনা থেকে আসে

k এবং G সাধারণত ছোট হওয়ায়, অতিরিক্ত ওভারহেড নিয়ন্ত্রণযোগ্য

পরীক্ষা সেটআপ

ডেটাসেট

1. Human3.6M

  • স্কেল: 11 জন অভিনেতা (6 পুরুষ 5 মহিলা), 15 ধরনের অভ্যন্তরীণ কার্যকলাপ
  • সংগ্রহ: 50Hz, 4টি সিঙ্ক্রোনাইজড ক্যামেরা
  • মন্তব্য: গতি ক্যাপচারের মাধ্যমে সঠিক 3D জয়েন্ট স্থানাঙ্ক প্রাপ্ত
  • বিভাজন:
    • প্রশিক্ষণ সেট: 5 জন অভিনেতা (S1, S5, S6, S7, S8)
    • পরীক্ষা সেট: 2 জন অভিনেতা (S9, S11)
  • প্রাক-প্রক্রিয়াকরণ: স্বাভাবিকীকরণ, হিপ জয়েন্টকে মূল জয়েন্ট হিসাবে শূন্য-কেন্দ্রীকরণ

2. MPI-INF-3DHP

  • স্কেল: 8 জন অভিনেতা (4 পুরুষ 4 মহিলা), 8টি কার্যকলাপ সিকোয়েন্স
  • সংগ্রহ: 14টি বিভিন্ন কোণ, অভ্যন্তরীণ এবং বহিরঙ্গন দৃশ্য
  • বৈশিষ্ট্য: Human3.6M এর চেয়ে বেশি বৈচিত্র্যময়, মৌলিক ক্রিয়া থেকে গতিশীল উচ্চ-তীব্রতা ক্রিয়া অন্তর্ভুক্ত

মূল্যায়ন মেট্রিক্স

Human3.6M

  • প্রোটোকল #1: MPJPE (Mean Per-Joint Position Error) - গড় প্রতি-জয়েন্ট অবস্থান ত্রুটি (মিলিমিটার)
  • প্রোটোকল #2: PA-MPJPE (Procrustes-Aligned MPJPE) - Procrustes সারিবদ্ধতার পরে ত্রুটি

MPI-INF-3DHP

  • PCK (Percentage of Correct Keypoint): সঠিক কীপয়েন্ট শতাংশ
  • AUC (Area Under Curve): বক্ররেখার নিচে এলাকা

তুলনামূলক পদ্ধতি

  • GCN সিরিজ: SemGCN, High-order GCN, CompGCN, Modulated GCN, Group GCN, MM-GCN, Flex-GCN
  • হাইব্রিড পদ্ধতি: GraphMLP (MLP এবং GCN একত্রিত)
  • অন্যান্য: HOIF-Net, PoseGraphNet, WSGN ইত্যাদি

বাস্তবায়ন বিবরণ

  • হার্ডওয়্যার: একক NVIDIA RTX A4500 GPU (20GB)
  • ফ্রেমওয়ার্ক: PyTorch
  • অপ্টিমাইজার: AMSGrad
  • প্রশিক্ষণ যুগ: 30 যুগ
  • শেখার হার: প্রাথমিক 0.001, প্রতি 4 যুগে 0.99 ক্ষয়
  • ব্যাচ আকার: 64
  • এম্বেডিং মাত্রা: F = 240
  • মূল হাইপারপ্যারামিটার: s = 0.2, α = 0.03 (গ্রিড অনুসন্ধানের মাধ্যমে নির্ধারিত)
  • নিয়মিতকরণ: প্রতিটি PoseKAN স্তরের পরে dropout=0.2
  • স্প্লাইন সেটিংস: অর্ডার=3, গ্রিড আকার=5

পরীক্ষার ফলাফল

প্রধান ফলাফল

Human3.6M - প্রোটোকল #1 (MPJPE)

সামগ্রিক কর্মক্ষমতা:

  • PoseKAN: 46.7mm (সর্বোত্তম)
  • GraphMLP: 48.0mm (দ্বিতীয়)
  • Modulated GCN: 49.4mm
  • আপেক্ষিক ত্রুটি হ্রাস:
    • বনাম GraphMLP: 2.7%
    • বনাম Modulated GCN: 5.47%
    • বনাম High-order GCN: 15.99%

মূল ক্রিয়া কর্মক্ষমতা (অবরোধ চ্যালেঞ্জ):

  • খাওয়া: 44.4mm (অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল)
  • বসা: 54.6mm
  • ধূমপান: 46.1mm
  • 15টি ক্রিয়ার মধ্যে 14টিতে Modulated GCN এর চেয়ে ভাল

Human3.6M - প্রোটোকল #2 (PA-MPJPE)

সামগ্রিক কর্মক্ষমতা:

  • PoseKAN: 38.3mm (সর্বোত্তম)
  • GraphMLP: 38.4mm (আপেক্ষিক ত্রুটি হ্রাস 0.26%)
  • Modulated GCN: 39.1mm (আপেক্ষিক ত্রুটি হ্রাস 2.04%)
  • High-order GCN: 43.7mm (আপেক্ষিক ত্রুটি হ্রাস 12.35%)

সুবিধাজনক ক্রিয়া:

  • 15টি ক্রিয়ার মধ্যে 11টিতে GraphMLP এর চেয়ে ভাল
  • 15টি ক্রিয়ার মধ্যে 13টিতে Modulated GCN এর চেয়ে ভাল
  • বিশেষত অভিনন্দন, বসা, ধূমপান ইত্যাদি গুরুতর অবরোধ দৃশ্যে চমৎকার কর্মক্ষমতা

MPI-INF-3DHP (ক্রস-ডেটাসেট সাধারণীকরণ)

Human3.6M এ প্রশিক্ষিত, MPI-INF-3DHP এ পরীক্ষিত:

  • PCK: 86.0% (সর্বোচ্চ)
  • AUC: 52.9% (দ্বিতীয়, শুধুমাত্র ICFNet এর 54.3% এর পরে)
  • ICFNet এর PCK এর তুলনায় আপেক্ষিক উন্নতি 0.5%

গ্রাউন্ড ট্রুথ 2D ইনপুট ব্যবহার করা

  • MPJPE: 33.51mm
  • আপেক্ষিক ত্রুটি হ্রাস:
    • বনাম SemGCN: 19.62%
    • বনাম High-order GCN: 14.29%
    • বনাম GraphMLP: 2.01%
  • PA-MPJPE: 28.01mm (সর্বোত্তম)

অপসারণ পরীক্ষা

1. প্রাথমিক অবশিষ্ট সংযোগ (IRC) এর প্রভাব

কনফিগারেশনMPJPEPA-MPJPE
IRC ছাড়া34.44mm28.79mm
IRC সহ33.51mm28.01mm
উন্নতি1.65%1.49%

সিদ্ধান্ত: IRC প্রাথমিক বৈশিষ্ট্য সংরক্ষণের মাধ্যমে প্রশিক্ষণ স্থিতিশীল করে, তথ্য হ্রাস প্রতিরোধ করে

2. স্প্লাইন অর্ডার প্রভাব

  • অর্ডার 2: MPJPE=47.43mm, PA-MPJPE=38.86mm
  • অর্ডার 3: MPJPE=46.77mm, PA-MPJPE=38.36mm (সর্বোত্তম)
  • অর্ডার 4: MPJPE=47.10mm, PA-MPJPE=38.59mm

সিদ্ধান্ত: অর্ডার 3 সর্বোত্তম ভারসাম্য অর্জন করে, উচ্চতর জটিলতা কোন সুবিধা ছাড়াই বৃদ্ধি করে

3. গ্রিড আকার প্রভাব

  • আকার 4: MPJPE=47.40mm, PA-MPJPE=38.91mm
  • আকার 5: MPJPE=46.77mm, PA-MPJPE=38.36mm (সর্বোত্তম)
  • আকার 6: MPJPE=47.98mm, PA-MPJPE=39.11mm

সিদ্ধান্ত: গ্রিড আকার 5 পর্যাপ্ত ফাংশন অনুমান ক্ষমতা প্রদান করে

4. স্কেলিং ফ্যাক্টর s এর প্রভাব

পরীক্ষা পরিসীমা: s ∈ {0.1, 0.2, 0.3, 0.5, 0.7, 0.9}

  • সর্বোত্তম মান: s=0.2
  • ছোট s স্থানীয় তথ্যকে আরও জোর দেয়, একই সাথে দূরবর্তী নোডগুলি যথাযথভাবে বিবেচনা করে
  • s খুব বড় বা খুব ছোট হলে কর্মক্ষমতা হ্রাস পায়

5. এম্বেডিং মাত্রা প্রভাব

  • 224: MPJPE=47.38mm
  • 240: MPJPE=46.77mm (সর্বোত্তম)
  • 256: MPJPE=47.29mm

সিদ্ধান্ত: 240 মাত্রা অতিফিটিং ছাড়াই পর্যাপ্ত প্রকাশ ক্ষমতা প্রদান করে

কেস বিশ্লেষণ

গুণগত ভিজ্যুয়ালাইজেশন (চিত্র 2) বিভিন্ন ক্রিয়া বিভাগে PoseKAN এর পূর্বাভাস প্রদর্শন করে:

  • পূর্বাভাসিত 3D পোজ প্রকৃত মানের সাথে উচ্চ সারিবদ্ধতা
  • স্ব-অবরোধ দৃশ্যে (যেমন ক্রস করা বাহু, বসা অবস্থান) GraphMLP এর চেয়ে উচ্চতর কর্মক্ষমতা
  • GraphMLP মাঝেমধ্যে অপ্রাকৃত জয়েন্ট অবস্থান তৈরি করে, যখন PoseKAN কঙ্কাল কাঠামো সামঞ্জস্য বজায় রাখে
  • নির্ভুল জয়েন্ট প্লেসমেন্ট এবং প্রাকৃত অঙ্গ জয়েন্ট যাচাইকরণ গভীরতা অস্পষ্টতা হ্রাস করার মডেলের ক্ষমতা যাচাই করে

পরীক্ষামূলক অনুসন্ধান

  1. শিক্ষণযোগ্য ফাংশনের স্পষ্ট সুবিধা: নির্দিষ্ট সক্রিয়করণ ফাংশনের তুলনায়, প্রান্তে শিক্ষণযোগ্য ফাংশন শক্তিশালী অভিযোজনযোগ্যতা প্রদান করে
  2. বহু-হপ সমন্বয় অত্যন্ত গুরুত্বপূর্ণ: অবরোধ এবং জটিল পোজ পরিচালনায় উল্লেখযোগ্য উন্নতি
  3. প্যারামিটার দক্ষতা উচ্চ: PoseKAN মাত্র 5.72M প্যারামিটার, GraphMLP এর 9.49M এর চেয়ে অনেক কম
  4. ক্রস-ডেটাসেট সাধারণীকরণ ক্ষমতা শক্তিশালী: MPI-INF-3DHP এ কর্মক্ষমতা ভাল সাধারণীকরণ প্রমাণ করে
  5. উচ্চ-ফ্রিকোয়েন্সি বিবরণের প্রতি সংবেদনশীল: দ্রুত গতিবিধি বিবরণ প্রয়োজন এমন ক্রিয়ায় (যেমন অভিনন্দন) স্পষ্ট সুবিধা

সম্পর্কিত কাজ

1. 3D মানব পোজ অনুমান পদ্ধতি শ্রেণীবিভাগ

একক-পর্যায়ের পদ্ধতি

  • ছবি থেকে সরাসরি 3D জয়েন্ট স্থানাঙ্ক রিগ্রেশন
  • প্রতিনিধি: Integral Human Pose Regression, Compositional Human Pose Regression
  • সীমাবদ্ধতা: অবরোধের প্রতি সংবেদনশীল, নির্ভুলতা কম

দুই-পর্যায়ের পদ্ধতি (2D-থেকে-3D উন্নতি)

  • প্রথম পর্যায়: 2D জয়েন্ট অবস্থান সনাক্তকরণ
  • দ্বিতীয় পর্যায়: 3D স্থানে উন্নতি
  • প্রতিনিধি: SimpleBaseline, LCN
  • সুবিধা: মডুলার ডিজাইন, সর্বোত্তম 2D সনাক্তকারী নির্বাচন করা যায়, শক্তিশালী স্থিতিস্থাপকতা
  • এই পেপার এই বিভাগে পড়ে

2. গ্রাফ-ভিত্তিক 3D পোজ অনুমান

মান GCN পদ্ধতি

  • SemGCN: GCN প্রথমবারের মতো 3D পোজ অনুমানে প্রয়োগ করা
  • সীমাবদ্ধতা: এক-হপ প্রতিবেশী সমন্বয়, স্থানীয় রিসেপ্টিভ ফিল্ড

উচ্চ-অর্ডার GCN সম্প্রসারণ

  • High-order GCN: বহু-হপ প্রতিবেশীতে সম্প্রসারিত
  • Modulated GCN: সংলগ্ন ম্যাট্রিক্স মডুলেশন, অতিরিক্ত প্রান্ত শিখা
  • GroupGCN: গ্রুপ গ্রাফ কনভোলিউশন
  • MM-GCN: মাল্টি-হপ মডুলেটেড GCN, বহু-হপ প্রতিবেশী তথ্য একীভূত করা

হাইব্রিড স্থাপত্য

  • GraphMLP: MLP এবং GCN একত্রিত, বৈশ্বিক এবং স্থানীয় কঙ্কাল ইন্টারঅ্যাকশন ব্যবহার করা
  • সীমাবদ্ধতা: এখনও নির্দিষ্ট সক্রিয়করণ ফাংশন ব্যবহার করে, বর্ণালী পক্ষপাত বিদ্যমান

3. কলমোগোরভ-আর্নল্ড নেটওয়ার্ক

  • তাত্ত্বিক ভিত্তি: কলমোগোরভ-আর্নল্ড প্রতিনিধিত্ব উপপাদ্য (যেকোনো ক্রমাগত বহু-পরিবর্তনশীল ফাংশন একক-পরিবর্তনশীল ফাংশনের সীমিত সমন্বয় হিসাবে প্রকাশ করা যায়)
  • KAN নেটওয়ার্ক: নির্দিষ্ট সক্রিয়করণের পরিবর্তে শিক্ষণযোগ্য একক-পরিবর্তনশীল ফাংশন ব্যবহার করে, ব্যাখ্যাযোগ্যতা এবং অভিযোজনযোগ্যতা উন্নত করে
  • KAGNN: সম্প্রতি KAN কে গ্রাফ শেখায় প্রসারিত করা (নোড/গ্রাফ শ্রেণীবিভাগ, লিংক পূর্বাভাস)
  • এই পেপারের উদ্ভাবন: প্রথমবারের মতো KAN 3D পোজ অনুমানের 2D-থেকে-3D উন্নতি কাজে প্রয়োগ করা

4. এই পেপারের আপেক্ষিক সুবিধা

  • বনাম মান GCN: শিক্ষণযোগ্য ফাংশন বনাম নির্দিষ্ট সক্রিয়করণ, বহু-হপ সমন্বয় বনাম এক-হপ
  • বনাম উচ্চ-অর্ডার GCN: অভিযোজিত ফাংশন রূপান্তর বনাম নির্দিষ্ট উচ্চ-অর্ডার কনভোলিউশন
  • বনাম GraphMLP: বর্ণালী পক্ষপাত হ্রাস, শক্তিশালী প্রকাশ ক্ষমতা
  • বনাম KAGNN: পোজ অনুমানের জন্য বিশেষভাবে ডিজাইন করা, বর্ণালী মডুলেশন ফিল্টার প্রবর্তন করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. পদ্ধতির কার্যকারিতা: PoseKAN Human3.6M এবং MPI-INF-3DHP ডেটাসেটে অত্যাধুনিক বা অতিক্রম করে
  2. মূল সুবিধা:
    • শিক্ষণযোগ্য ফাংশন শক্তিশালী অভিযোজনযোগ্যতা এবং প্রকাশ ক্ষমতা প্রদান করে
    • বহু-হপ বৈশিষ্ট্য সমন্বয় কার্যকরভাবে দীর্ঘ-পরিসর নির্ভরতা ক্যাপচার করে
    • বর্ণালী পক্ষপাত হ্রাস করে, একই সাথে নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উপাদান শিখে
  3. ব্যবহারিকতা: উচ্চ প্যারামিটার দক্ষতা (5.72M), নিয়ন্ত্রণযোগ্য গণনা ওভারহেড, বাস্তব প্রয়োগের জন্য উপযুক্ত
  4. সাধারণীকরণ ক্ষমতা: ক্রস-ডেটাসেট মূল্যায়ন চমৎকার কর্মক্ষমতা প্রদর্শন করে, ভাল সাধারণীকরণ প্রমাণ করে

সীমাবদ্ধতা

লেখক স্বীকৃত সীমাবদ্ধতা

  1. ব্যাখ্যাযোগ্যতা চ্যালেঞ্জ: যদিও GCN এর চেয়ে বেশি ব্যাখ্যাযোগ্য, প্রতিটি শিক্ষণযোগ্য সক্রিয়করণ ফাংশন কঙ্কালের বিভিন্ন অংশে কীভাবে খাপ খায় তা ভিজ্যুয়ালাইজ করা এখনও চ্যালেঞ্জিং
  2. গণনা খরচ: শিক্ষণযোগ্য সক্রিয়করণ প্রতিটি স্তরে গণনা ওভারহেড বৃদ্ধি করে, স্প্লাইন ভিত্তি ফাংশন অতিরিক্ত মেমরি প্রয়োজন
  3. মেমরি খরচ: বড় আকারের ডেটাসেট এবং গভীর নেটওয়ার্ক প্রশিক্ষণে মেমরি চাহিদা বেশি
  4. অপ্টিমাইজেশন স্থান: গণনা দক্ষতা, ব্যাখ্যাযোগ্যতা এবং স্থিতিস্থাপকতা আরও উন্নত করার প্রয়োজন

সম্ভাব্য সীমাবদ্ধতা

  1. একক-ব্যক্তি পোজ সীমাবদ্ধতা: বর্তমানে শুধুমাত্র একক-ব্যক্তি পোজ পরিচালনা করে, বহু-ব্যক্তি দৃশ্যে সম্প্রসারিত নয়
  2. 2D সনাক্তকরণ নির্ভরতা: কর্মক্ষমতা 2D পোজ সনাক্তকারীর গুণমানের উপর নির্ভর করে
  3. স্ট্যাটিক গ্রাফ কাঠামো: যদিও প্রান্ত ওজন শিখে, টপোলজি কাঠামো পূর্বনির্ধারিত
  4. হাইপারপ্যারামিটার সংবেদনশীলতা: s, α ইত্যাদি হাইপারপ্যারামিটার সাবধানে সমন্বয় প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

লেখক প্রস্তাবিত

  1. বহু-ব্যক্তি পোজ অনুমান: বহু-ব্যক্তি দৃশ্যে সম্প্রসারণ, মানব-মানব ইন্টারঅ্যাকশন পরিচালনা
  2. অন্যান্য গ্রাফ শেখার কাজ: ক্রিয়া স্বীকৃতি, অসামান্যতা সনাক্তকরণ ইত্যাদি

সম্ভাব্য সম্প্রসারণ

  1. সময়গত মডেলিং: ভিডিও সিকোয়েন্সের সময় তথ্য একীভূত করা
  2. শেষ-থেকে-শেষ শেখা: 2D সনাক্তকরণ এবং 3D উন্নতি যৌথভাবে অপ্টিমাইজ করা
  3. অভিযোজিত গ্রাফ কাঠামো: পূর্বনির্ধারিত পরিবর্তে গতিশীলভাবে গ্রাফ টপোলজি শিখা
  4. হালকা ডিজাইন: মোবাইল ডিভাইসের জন্য মডেল সংকোচন

গভীর মূল্যায়ন

সুবিধা

1. পদ্ধতি উদ্ভাবনী (★★★★★)

  • তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো KAN 3D পোজ অনুমানের গ্রাফ শেখায় প্রসারিত, দৃঢ় তাত্ত্বিক ভিত্তি
  • প্রযুক্তিগত উদ্ভাবন: বর্ণালী মডুলেশন ফিল্টার ডিজাইন চতুর, বহু-হপ সমন্বয় প্রক্রিয়া কার্যকর
  • স্থাপত্য উদ্ভাবন: অবশিষ্ট PoseKAN ব্লক এবং GRN এর সমন্বয় ডিজাইন যুক্তিসঙ্গত

2. পরীক্ষা সম্পূর্ণতা (★★★★☆)

  • ডেটাসেট বৈচিত্র্য: Human3.6M (অভ্যন্তরীণ) + MPI-INF-3DHP (অভ্যন্তরীণ এবং বহিরঙ্গন)
  • তুলনা ব্যাপক: 10+ অত্যাধুনিক পদ্ধতির সাথে তুলনা
  • অপসারণ বিস্তারিত: IRC, স্প্লাইন অর্ডার, গ্রিড আকার, স্কেলিং ফ্যাক্টর, এম্বেডিং মাত্রা ইত্যাদি
  • গুণগত বিশ্লেষণ: ভিজ্যুয়ালাইজেশন কেস তুলনা প্রদান করা

3. ফলাফল প্রভাবশালীতা (★★★★☆)

  • কর্মক্ষমতা নেতৃত্ব: একাধিক মেট্রিকে SOTA বা কাছাকাছি অর্জন
  • সামঞ্জস্য ভাল: ক্রস-ডেটাসেট, ক্রস-প্রোটোকল কর্মক্ষমতা স্থিতিশীল
  • পরিসংখ্যান উল্লেখযোগ্য: আপেক্ষিক ত্রুটি হ্রাস স্পষ্ট (সর্বোচ্চ 19.62%)
  • প্যারামিটার দক্ষতা: 5.72M প্যারামিটার GraphMLP এর 9.49M এর চেয়ে ভাল

4. লেখার স্পষ্টতা (★★★★★)

  • কাঠামো স্পষ্ট: যুক্তি কঠোর, প্রেরণা থেকে পদ্ধতি থেকে পরীক্ষা স্তরে স্তরে অগ্রসর
  • গণিত কঠোর: সূত্র উদ্ভাবন সম্পূর্ণ, প্রতীক সংজ্ঞা স্পষ্ট
  • চিত্র সমৃদ্ধ: স্থাপত্য চিত্র, তুলনা সারণী, অপসারণ চার্ট সবকিছু উপস্থিত
  • পরিপূরক উপকরণ: বিস্তারিত পরিশিষ্ট ব্যাখ্যা প্রদান করা

অপূর্ণতা

1. পদ্ধতি সীমাবদ্ধতা

  • গণনা ওভারহেড: যদিও লেখক দাবি করে নিয়ন্ত্রণযোগ্য, স্প্লাইন গণনা এবং ফাংশন শেখা সত্যিই জটিলতা বৃদ্ধি করে
  • মেমরি চাহিদা: O(2kGLF²) মেমরি জটিলতা বড় আকারের প্রয়োগে বাধা হতে পারে
  • একক-ব্যক্তি সীমাবদ্ধতা: বহু-ব্যক্তি দৃশ্য পরিচালনা করে না, বাস্তব প্রয়োগ পরিসীমা সীমিত করে

2. পরীক্ষা সেটআপ

  • হাইপারপ্যারামিটার অনুসন্ধান: s=0.2 এবং α=0.03 গ্রিড অনুসন্ধানের মাধ্যমে নির্ধারিত, কিন্তু অনুসন্ধান পরিসীমা এবং প্রক্রিয়া রিপোর্ট করা হয়নি
  • পরিসংখ্যান পরীক্ষা: উল্লেখযোগ্যতা পরীক্ষা অনুপস্থিত (যেমন t-পরীক্ষা)
  • ব্যর্থতা কেস: মডেল ব্যর্থতার সাধারণ কেস এবং কারণ বিশ্লেষণ প্রদর্শিত হয়নি

3. বিশ্লেষণ গভীরতা

  • ব্যাখ্যাযোগ্যতা: যদিও GCN এর চেয়ে বেশি ব্যাখ্যাযোগ্য দাবি করে, নির্দিষ্ট ফাংশন ভিজ্যুয়ালাইজেশন বা বিশ্লেষণ প্রদান করা হয়নি
  • ফ্রিকোয়েন্সি বিশ্লেষণ: বর্ণালী পক্ষপাত হ্রাস উল্লেখ করা হয়, কিন্তু ফ্রিকোয়েন্সি বিশ্লেষণের পরিমাণগত প্রমাণ অনুপস্থিত
  • ত্রুটি বিতরণ: বিভিন্ন জয়েন্ট, বিভিন্ন ক্রিয়ার ত্রুটি বিতরণ প্যাটার্ন বিশ্লেষণ করা হয়নি

4. তুলনা ন্যায্যতা

  • ইনপুট সামঞ্জস্য: একই 2D সনাক্তকারী ব্যবহার করে, কিন্তু সনাক্তকারী ত্রুটি ফলাফলে প্রভাব রিপোর্ট করা হয়নি
  • বাস্তবায়ন বিবরণ: বেসলাইন পদ্ধতি বিভিন্ন প্রশিক্ষণ কৌশল ব্যবহার করতে পারে, ন্যায্য তুলনা প্রভাবিত করে

প্রভাব মূল্যায়ন

1. ক্ষেত্রে অবদান (★★★★☆)

  • তাত্ত্বিক অবদান: KAN গ্রাফ-ভিত্তিক পোজ অনুমানে প্রবর্তন, নতুন দিক খোলা
  • পদ্ধতি অবদান: বর্ণালী মডুলেশন ফিল্টার এবং বহু-হপ সমন্বয় প্রক্রিয়া অন্যান্য গ্রাফ কাজে স্থানান্তরযোগ্য
  • অভিজ্ঞতামূলক অবদান: মান ডেটাসেটে নতুন কর্মক্ষমতা বেঞ্চমার্ক স্থাপন

2. ব্যবহারিক মূল্য (★★★☆☆)

  • কর্মক্ষমতা উন্নতি: 2-19% আপেক্ষিক উন্নতি, বাস্তব প্রয়োগের জন্য অর্থপূর্ণ
  • প্যারামিটার দক্ষতা: 5.72M প্যারামিটার মধ্যম, স্থাপনা সম্ভব
  • সীমাবদ্ধতা: একক-ব্যক্তি সীমাবদ্ধতা এবং গণনা ওভারহেড রিয়েল-টাইম প্রয়োগ সীমিত করে
  • কোড ওপেন সোর্স: GitHub লিংক প্রদান করা, পুনরুৎপাদন এবং প্রয়োগ সহজ করে

3. পুনরুৎপাদনযোগ্যতা (★★★★☆)

  • বিবরণ সম্পূর্ণ: হাইপারপ্যারামিটার, প্রশিক্ষণ কৌশল, নেটওয়ার্ক কনফিগারেশন বিস্তারিত
  • কোড জনসাধারণ: কোড ওপেন সোর্স করার প্রতিশ্রুতি
  • ডেটা মান: জনসাধারণ ডেটাসেট এবং মান প্রোটোকল ব্যবহার করা
  • সম্ভাব্য সমস্যা: KAN বাস্তবায়ন বিবরণ (স্প্লাইন গণনা) প্রযুক্তিগত প্রবেশদ্বার থাকতে পারে

প্রযোজ্য দৃশ্যকল্প

উপযুক্ত প্রয়োগ

  1. উচ্চ নির্ভুলতা প্রয়োজনীয় দৃশ্য: ক্রীড়া বিশ্লেষণ, চিকিৎসা নির্ণয় ইত্যাদি নির্ভুলতা প্রয়োজনীয় প্রয়োগ
  2. গুরুতর অবরোধ দৃশ্য: বহু-হপ সমন্বয় প্রক্রিয়া অবরোধ পরিস্থিতিতে সুবিধা স্পষ্ট
  3. জটিল ক্রিয়া বিশ্লেষণ: উচ্চ-ফ্রিকোয়েন্সি বিবরণ ক্যাপচার ক্ষমতা দ্রুত জটিল ক্রিয়ার জন্য উপযুক্ত
  4. অফলাইন প্রক্রিয়াকরণ: রিয়েল-টাইম প্রয়োজনীয়তা নেই কিন্তু উচ্চ নির্ভুলতা প্রয়োজন এমন দৃশ্য

অনুপযুক্ত দৃশ্য

  1. রিয়েল-টাইম প্রয়োগ: গণনা ওভারহেড তুলনামূলকভাবে উচ্চ, রিয়েল-টাইম প্রক্রিয়াকরণের জন্য অনুপযুক্ত
  2. বহু-ব্যক্তি দৃশ্য: বর্তমান স্থাপত্য বহু-ব্যক্তি ইন্টারঅ্যাকশন বিবেচনা করে না
  3. সম্পদ-সীমিত ডিভাইস: মেমরি চাহিদা বেশি, মোবাইল ডিভাইসের জন্য অনুপযুক্ত
  4. বড় আকারের স্থাপনা: প্রশিক্ষণ এবং অনুমান খরচ বড় আকারের প্রয়োগ সীমিত করতে পারে

সম্প্রসারণ সম্ভাবনা

  • ভিডিও সিকোয়েন্স: সময়গত মডেলিং সম্প্রসারণ করা যায়
  • অন্যান্য গ্রাফ কাজ: ক্রিয়া স্বীকৃতি, মানব নেট পুনর্নির্মাণ ইত্যাদি
  • মাল্টি-মোডাল সংমিশ্রণ: RGB, গভীরতা, IMU ইত্যাদি মাল্টি-সোর্স ডেটা একীভূত করা
  • স্থানান্তর শেখা: প্রশিক্ষিত মডেল অন্যান্য পোজ অনুমান কাজে স্থানান্তর করা

সংদর্ভ (মূল সংদর্ভ)

  1. Liu et al., 2025 - KAN: Kolmogorov-Arnold networks (ICLR 2025) - KAN এর মূল প্রস্তাব
  2. Zhao et al., 2019 - SemGCN - প্রথমবারের মতো GCN 3D পোজ অনুমানে প্রয়োগ
  3. Zou & Tang, 2021 - Modulated GCN - সংলগ্ন ম্যাট্রিক্স মডুলেশন পদ্ধতি
  4. Li et al., 2025 - GraphMLP - সবচেয়ে শক্তিশালী বেসলাইনগুলির মধ্যে একটি
  5. Bresson et al., 2025 - KAGNNs - গ্রাফ শেখায় KAN এর প্রয়োগ
  6. Ionescu et al., 2013 - Human3.6M dataset - মান মূল্যায়ন ডেটাসেট
  7. Martinez et al., 2017 - SimpleBaseline - 2D-থেকে-3D উন্নতির ক্লাসিক পদ্ধতি

সামগ্রিক রেটিং

  • উদ্ভাবনী: 9/10
  • প্রযুক্তিগত গুণমান: 8/10
  • পরীক্ষা সম্পূর্ণতা: 8/10
  • লেখার গুণমান: 9/10
  • ব্যবহারিক মূল্য: 7/10
  • সমন্বিত রেটিং: 8.2/10

সুপারিশ সূচক: ★★★★☆ (দৃঢ়ভাবে পড়ার সুপারিশ করা হয়, বিশেষত গ্রাফ নিউরাল নেটওয়ার্ক এবং 3D দৃষ্টিভঙ্গিতে আগ্রহী গবেষকদের জন্য)