এই গবেষণার লক্ষ্য সহজ এবং দক্ষ মানব জাল পুনরুদ্ধার (HMR) এবং মানব ভঙ্গি অনুমান (HPE) মডেল বিকাশ করা। বর্তমান অত্যাধুনিক HMR পদ্ধতিগুলি (যেমন HMR2.0 এবং এর পরবর্তী সংস্করণগুলি) বড় অ-শ্রেণিবদ্ধ ভিশন ট্রান্সফর্মারগুলির উপর নির্ভর করে যা এনকোডার হিসাবে কাজ করে, যা সংশ্লিষ্ট HPE মডেলগুলি থেকে উত্তরাধিকার সূত্রে পায় (যেমন ViTPose)। বিভিন্ন গণনা বাজেটের অধীনে ভিত্তিরেখা স্থাপনের জন্য, লেখকরা প্রথমে সংশ্লিষ্ট ViTPose মডেলগুলি অভিযোজিত করে তিনটি হালকা HMR2.0 বৈকল্পিক তৈরি করেছেন। উপরন্তু, শ্রেণিবদ্ধ ভিশন ভিত্তি মডেলগুলির (VFMs) প্রাথমিক পর্যায়গুলি এনকোডার হিসাবে ব্যবহার করার প্রস্তাব দেওয়া হয়েছে, যার মধ্যে রয়েছে Swin Transformer, GroupMixFormer এবং VMamba। এই ডিজাইনটি একটি পর্যবেক্ষণের উপর ভিত্তি করে: শ্রেণিবদ্ধ VFMগুলির মধ্যবর্তী পর্যায়গুলি দ্বারা উত্পাদিত বৈশিষ্ট্য মানচিত্রের রেজোলিউশন অ-শ্রেণিবদ্ধ মডেলগুলির সাথে তুলনীয় বা উচ্চতর। লেখকরা শ্রেণিবদ্ধ VFM-ভিত্তিক ২৭টি HMR এবং HPE মডেলের ব্যাপক মূল্যায়ন করেছেন, যা প্রমাণ করে যে শুধুমাত্র প্রথম দুই বা তিনটি পর্যায় ব্যবহার করে সম্পূর্ণ পর্যায়ের মডেলগুলির সাথে তুলনীয় কর্মক্ষমতা অর্জন করা যায়, এবং ছাঁটা মডেলগুলি নির্ভুলতা এবং গণনা দক্ষতার মধ্যে আরও ভাল ভারসাম্য প্রদর্শন করে।
মানব জাল পুনরুদ্ধার (HMR) কম্পিউটার দৃষ্টিভঙ্গিতে একটি গুরুত্বপূর্ণ কাজ, যা অ্যানিমেশন, ভার্চুয়াল ট্রাই-অন, ক্রীড়া বিশ্লেষণ এবং মানব-কম্পিউটার ইন্টারঅ্যাকশনের মতো ক্ষেত্রে ব্যাপক প্রয়োগ রয়েছে। এই কাজটির লক্ষ্য একটি একক ছবি থেকে SMPL প্যারামিটার পূর্বাভাস দিয়ে একটি সম্পূর্ণ 3D মানব মডেল পুনর্নির্মাণ করা।
১. উচ্চ গণনা সম্পদের প্রয়োজন: HMR2.0 এর মতো বর্তমান অত্যাধুনিক পদ্ধতিগুলি বড় ViT-H এনকোডার হিসাবে ব্যবহার করে, যা প্রচুর গণনা সম্পদ প্রয়োজন २. স্থাপনার অসুবিধা: বড় মডেলগুলি মোবাইল ডিভাইস বা এজ কম্পিউটিং পরিবেশে রিয়েল-টাইম স্থাপনা করা কঠিন ३. দক্ষতা-কর্মক্ষমতা ভারসাম্য খারাপ: বিদ্যমান হালকা পদ্ধতিগুলি প্রায়শই উল্লেখযোগ্য কর্মক্ষমতা হ্রাসের বিনিময়ে গণনা দক্ষতা অর্জন করে
१. ব্যবহারিক স্থাপনার প্রয়োজন: সম্পদ-সীমিত পরিবেশে HMR এবং HPE মডেল স্থাপনের জরুরি প্রয়োজন २. স্থাপত্য সরলীকরণ: HMR2.0 স্থাপত্যের সরলতা বজায় রেখে দক্ষতা উন্নত করা ३. শ্রেণিবদ্ধ VFMগুলির সম্ভাবনা: এই কাজে শ্রেণিবদ্ধ ভিশন ভিত্তি মডেলগুলির প্রয়োগের সম্ভাবনা অন্বেষণ করা
१. হালকা ভিত্তিরেখা নির্মাণ: ViTPose-{L,B,S} এনকোডারগুলি উত্তরাধিকার সূত্রে পেয়ে তিনটি হালকা HMR2.0 বৈকল্পিক তৈরি করা २. ছাঁটা কৌশল প্রস্তাব: শ্রেণিবদ্ধ VFMগুলির প্রথম কয়েকটি পর্যায়গুলি এনকোডার হিসাবে ব্যবহার করার সম্ভাব্যতা পদ্ধতিগতভাবে অন্বেষণ করা ३. ব্যাপক পরীক্ষামূলক মূল্যায়ন: শ্রেণিবদ্ধ VFM-ভিত্তিক ২৭টি HMR এবং HPE মডেলের ব্যাপক মূল্যায়ন ४. কর্মক্ষমতা-দক্ষতা ভারসাম্য অপ্টিমাইজেশন: প্রমাণ করা যে ছাঁটা শ্রেণিবদ্ধ VFM মডেলগুলি নির্ভুলতা এবং গণনা দক্ষতার মধ্যে আরও ভাল ভারসাম্য অর্জন করে
१. স্থাপত্য সরলতা বজায় রাখা: জটিল বা অত্যন্ত বিশেষায়িত মডিউল এড়ানো २. স্থাপত্য সামঞ্জস্য: HMR2.0 এবং ViTPose ভিত্তিরেখার সাথে সামঞ্জস্য বজায় রাখা
শ্রেণিবদ্ধ VFMগুলিতে চারটি পর্যায় রয়েছে, যা অ-শ্রেণিবদ্ধ VFMগুলির সাপেক্ষে 2×2, 1×1, 1/2×1/2 রেজোলিউশন আউটপুট করে:
१. Swin Transformer: স্থানান্তরিত উইন্ডো-ভিত্তিক শ্রেণিবদ্ধ ট্রান্সফর্মার २. GroupMixFormer (GMF): গ্রুপ-মিক্স মনোযোগ সহ দক্ষ ট্রান্সফর্মার ३. VMamba (VM): অবস্থা-স্থান মডেল-ভিত্তিক দৃষ্টি স্থাপত্য
१. ছাঁটা কৌশল: শ্রেণিবদ্ধ VFMগুলির প্রথম কয়েকটি পর্যায় ব্যবহার করার সম্ভাব্যতা প্রথমবারের মতো পদ্ধতিগতভাবে অন্বেষণ করা २. পরিবর্তন কমিয়ে আনা: সহজ কনভোলিউশন/ডিকনভোলিউশন স্তরগুলির মাধ্যমে রেজোলিউশন ম্যাচিং বাস্তবায়ন করা, স্থাপত্য সরলতা বজায় রাখা ३. বহু-স্থাপত্য যাচাইকরণ: ট্রান্সফর্মার এবং SSM এর মতো বিভিন্ন স্থাপত্য প্রকারে পদ্ধতির সার্বজনীনতা যাচাই করা
HPE:
HMR:
HPE:
HMR:
পরীক্ষামূলক ফলাফলগুলি দেখায় যে প্রথম 2-3টি পর্যায়ের ছাঁটা মডেলগুলি সম্পূর্ণ 4-পর্যায়ের মডেলগুলির সাথে তুলনীয় বা আরও ভাল কর্মক্ষমতা অর্জন করতে পারে:
HPE মডেল (COCO ডেটাসেট):
HMR মডেল কর্মক্ষমতা:
ছাঁটা কৌশল উল্লেখযোগ্যভাবে গণনা জটিলতা হ্রাস করে:
Human3.6M ডেটাসেটে 3D ভঙ্গি অনুমানের ফলাফলগুলি দেখায় যে প্রস্তাবিত শ্রেণিবদ্ধ VFM মডেলগুলি একই গণনা বাজেটের অধীনে বিদ্যমান হালকা পদ্ধতিগুলির চেয়ে ভাল:
S2, S3, S4 কনফিগারেশনের কর্মক্ষমতা পদ্ধতিগতভাবে মূল্যায়ন করা হয়েছে:
গুণগত ফলাফলগুলি দেখায় যে ছাঁটা মডেলগুলি সম্পূর্ণ মডেলগুলির সাথে দৃশ্যমান গুণমানে তুলনীয়, মানব ভঙ্গি এবং আকৃতি সঠিকভাবে অনুমান করতে পারে, পদ্ধতির কার্যকারিতা যাচাই করে।
१. ছাঁটা কৌশল কার্যকর: শ্রেণিবদ্ধ VFMগুলির প্রথম 2-3টি পর্যায়ে HMR এবং HPE কাজের জন্য যথেষ্ট শব্দার্থিক তথ্য রয়েছে २. দক্ষতা উল্লেখযোগ্যভাবে উন্নত: ছাঁটা মডেলগুলি কর্মক্ষমতা বজায় রেখে গণনা ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে ३. সার্বজনীনতা ভাল: এই কৌশলটি বিভিন্ন VFM স্থাপত্যে সামঞ্জস্যপূর্ণ কার্যকারিতা প্রদর্শন করে
१. স্থাপত্য সীমাবদ্ধতা: প্রধানত শ্রেণিবদ্ধ VFMগুলির জন্য, অ-শ্রেণিবদ্ধ মডেলগুলির জন্য প্রযোজ্য নয় २. কাজ-নির্দিষ্টতা: প্রধানত HMR এবং HPE কাজে যাচাই করা হয়েছে, অন্যান্য দৃষ্টি কাজের প্রযোজ্যতা অন্বেষণের অপেক্ষায় ३. প্রাক-প্রশিক্ষণ নির্ভরতা: ফলাফল উচ্চ-মানের প্রাক-প্রশিক্ষিত ওজনের উপর নির্ভর করে
१. আরও VFMগুলিতে সম্প্রসারণ: আরও শ্রেণিবদ্ধ ভিশন ভিত্তি মডেলগুলি অন্বেষণ করা २. সম্পূর্ণ শরীর এবং বহু-ব্যক্তি দৃশ্য: আরও জটিল HMR কাজে কার্যকারিতা যাচাই করা ३. স্থাপত্য অপ্টিমাইজেশন: ছাঁটা পরবর্তী স্থাপত্য ডিজাইন আরও অপ্টিমাইজ করা
१. উচ্চ ব্যবহারিক মূল্য: ব্যবহারিক স্থাপনায় দক্ষতার সমস্যা সমাধান করে, গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে २. পদ্ধতি সরল: মূল স্থাপত্যের সরলতা বজায় রাখে, বাস্তবায়ন এবং স্থাপনা সহজ ३. পরীক্ষা পর্যাপ্ত: ২৭টি মডেলের ব্যাপক মূল্যায়ন পর্যাপ্ত পরীক্ষামূলক প্রমাণ প্রদান করে ४. অন্তর্দৃষ্টি গভীর: শ্রেণিবদ্ধ VFMগুলির মধ্যবর্তী প্রতিনিধিত্বের সমৃদ্ধি প্রকাশ করে
१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কেন প্রথম কয়েকটি পর্যায় যথেষ্ট তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব २. সীমিত উদ্ভাবনশীলতা: প্রধানত প্রকৌশল অপ্টিমাইজেশন, অ্যালগরিদম উদ্ভাবনশীলতা তুলনামূলকভাবে সীমিত ३. মূল্যায়ন পরিসীমা: প্রধানত মান ডেটাসেটে মূল্যায়ন করা হয়েছে, প্রকৃত প্রয়োগ দৃশ্যে শক্তিশালীতা যাচাইয়ের অপেক্ষায়
१. একাডেমিক অবদান: উচ্চ-দক্ষ HMR/HPE মডেল ডিজাইনের জন্য নতুন ধারণা প্রদান করে २. ব্যবহারিক মূল্য: মোবাইল এবং এজ কম্পিউটিং স্থাপনার জন্য গুরুত্বপূর্ণ ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি সহজ, পুনরুৎপাদন এবং প্রয়োগ সহজ
१. সম্পদ-সীমিত পরিবেশ: মোবাইল ডিভাইস, এজ কম্পিউটিং ডিভাইস २. রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়া প্রয়োজন এমন ইন্টারঅ্যাক্টিভ প্রয়োগ ३. বৃহৎ-স্কেল স্থাপনা: একাধিক ডিভাইসে একযোগে চালানোর প্রয়োজন এমন দৃশ্য
কাগজটি HMR, HPE এবং ভিশন ভিত্তি মডেলগুলি সহ সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি কভার করে এমন ১১৮টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, গবেষণার জন্য পর্যাপ্ত পটভূমি সহায়তা প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি অত্যন্ত ব্যবহারিক প্রকৌশল অপ্টিমাইজেশন কাগজ, যা সহজ কিন্তু কার্যকর ছাঁটা কৌশলের মাধ্যমে HMR এবং HPE মডেলের দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে। যদিও অ্যালগরিদম উদ্ভাবনশীলতা সীমিত, এটি ব্যবহারিক স্থাপনায় গুরুত্বপূর্ণ সমস্যার সমাধান করে এবং উচ্চ প্রয়োগ মূল্য রয়েছে। পরীক্ষা ডিজাইন পর্যাপ্ত, সিদ্ধান্তগুলি বিশ্বাসযোগ্য, এবং সম্পর্কিত ক্ষেত্রের ব্যবহারিক প্রয়োগের জন্য মূল্যবান রেফারেন্স প্রদান করে।