এই পেপারটি একটি ইমেজ-ভিত্তিক ফেসিয়াল রিগ ইনভার্শন ফ্রেমওয়ার্ক প্রস্তাব করে যা RGB উপস্থিতি ইমেজ এবং RGB এনকোডেড নরমাল ম্যাপ দুটি মোডালিটি ব্যবহার করে। প্রতিটি মোডালিটি স্বাধীন Hiera transformer ব্যাকবোন নেটওয়ার্কের মাধ্যমে প্রক্রিয়া করা হয়, নিষ্কাশিত বৈশিষ্ট্যগুলি ফিউজ করার পরে ১০২টি ফেসিয়াল অ্যাকশন কোডিং সিস্টেম (FACS) ভিত্তিক রিগ প্যারামিটার রিগ্রেশন করা হয়। সিন্থেটিক এবং স্ক্যান করা ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে পদ্ধতিটি স্ক্যান করা ডেটায় সাধারণীকরণ করতে পারে এবং বিশ্বস্ত পুনর্নির্মাণ ফলাফল তৈরি করে।
ফেসিয়াল রিগ ইনভার্শন হল ভিজ্যুয়াল ইনপুট থেকে রিগ নিয়ন্ত্রণ প্যারামিটার সঠিকভাবে পুনরুদ্ধার করার প্রক্রিয়া, যা অ্যানিমেশন প্রোডাকশন, ভার্চুয়াল অ্যাভাটার এবং পারফরম্যান্স ক্যাপচার পাইপলাইনে গুরুত্বপূর্ণ ভূমিকা পালন করে এবং উৎপাদন সম্পদের সরাসরি নিয়ন্ত্রণ সক্ষম করে।
১. অ্যানিমেশন প্রোডাকশন চাহিদা: আধুনিক অ্যানিমেশন প্রোডাকশনে, ফেসিয়াল এক্সপ্রেশনের নির্ভুল নিয়ন্ত্রণ বাস্তবসম্মত চরিত্র অ্যানিমেশন অর্জনের চাবিকাঠি ২. ভার্চুয়াল অ্যাভাটার অ্যাপ্লিকেশন: মেটাভার্স এবং ভার্চুয়াল রিয়েলিটি প্রযুক্তির উন্নয়নের সাথে সাথে, রিয়েল-টাইম নির্ভুল ফেসিয়াল এক্সপ্রেশন ক্যাপচার ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে উঠছে ३. পারফরম্যান্স ক্যাপচার পাইপলাইন: চলচ্চিত্র, গেমস এবং অন্যান্য বিনোদন শিল্পের জন্য উচ্চ মানের ফেসিয়াল অ্যানিমেশন প্রোডাকশন সরঞ্জাম সরবরাহ করা
१. প্রাথমিক পদ্ধতি: পরিসংখ্যানগত বা রিগ্রেশন মডেলের উপর নির্ভর করে, অ্যানিমেটরদের দ্বারা তৈরি ডেটার উপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয়, সীমিত সাধারণীকরণ ক্ষমতা २. মেশ-ভিত্তিক পদ্ধতি: তথ্যপূর্ণ হলেও, সুসংগঠিত টপোলজিতে সীমাবদ্ধ, স্ক্যান করা ডেটার সাথে দুর্বল অভিযোজনযোগ্যতা ३. ইমেজ ডোমেইন অন্বেষণের অভাব: বেশিরভাগ পূর্ববর্তী কাজ মেশ-স্তরের বৈশিষ্ট্যের উপর নির্ভর করে, যখন ইমেজ ইনপুটের উপর ভিত্তি করে দিকটি এখনও পর্যাপ্তভাবে অন্বেষণ করা হয়নি
ইমেজ ডোমেইন ইনপুট স্ক্যান করা ডেটায় সাধারণীকরণের সুবিধা প্রদান করে, এই দিকটি গুরুত্বপূর্ণ ব্যবহারিক মূল্য রয়েছে কিন্তু অপর্যাপ্তভাবে গবেষণা করা হয়েছে, তাই এই পেপারটি ইমেজ-ভিত্তিক ফেসিয়াল রিগ ইনভার্শন পদ্ধতি উন্নয়নে ফোকাস করে।
१. দ্বি-মোডাল ইমেজ প্রসেসিং ফ্রেমওয়ার্ক: প্রথমবারের মতো RGB উপস্থিতি ইমেজ এবং RGB এনকোডেড নরমাল ম্যাপ একত্রিত করে দ্বি-শাখা নেটওয়ার্ক আর্কিটেকচার প্রস্তাব করা হয়েছে २. Hiera transformer অ্যাপ্লিকেশন: সর্বশেষ Hiera ভিজ্যুয়াল transformer কে ফেসিয়াল রিগ ইনভার্শন কাজে প্রয়োগ করা হয়েছে ३. মাল্টি-সুপারভিশন লার্নিং কৌশল: রিগ প্যারামিটার স্পেস এবং 3D মেশ স্পেস উভয়েই সুপারভিশন করা হয়, সংখ্যাগত নির্ভুলতা এবং জ্যামিতিক সামঞ্জস্য নিশ্চিত করা হয় ४. স্ক্যান করা ডেটা সাধারণীকরণ: বাস্তব স্ক্যান করা ডেটায় পদ্ধতির সাধারণীকরণ ক্ষমতা যাচাই করা হয়েছে, গবেষণার ফাঁক পূরণ করা হয়েছে
উপস্থিতি ইমেজ এবং নরমাল ম্যাপ দেওয়া হলে, ফাংশন শিখুন, যেখানে লক্ষ্য রিগের নিয়ন্ত্রণ প্যারামিটার প্রতিনিধিত্ব করে।
চিত্র ১ এ দেখানো হয়েছে, প্রস্তাবিত দ্বি-শাখা নেটওয়ার্ক আর্কিটেকচারে নিম্নলিখিত মূল উপাদান রয়েছে:
१. দ্বি-শাখা বৈশিষ্ট্য নিষ্কাশন:
२. Hiera ব্যাকবোন নেটওয়ার্ক:
३. বৈশিষ্ট্য ফিউশন এবং রিগ্রেশন:
४. প্রোগ্রামেটিক রিগ ডিকোডিং:
१. মাল্টি-মোডাল ফিউশন কৌশল: উপস্থিতি এবং জ্যামিতিক তথ্য দক্ষতার সাথে একত্রিত করা হয়, শক্তিশালী পরিপূরক २. উচ্চ-রেজোলিউশন প্রসেসিং: ५१२×५१२ ইনপুট সূক্ষ্ম অভিব্যক্তি পরিবর্তন ক্যাপচার করার জন্য প্রয়োজনীয় সূক্ষ্ম-দানাদার টেক্সচার এবং জ্যামিতিক সূত্র সংরক্ষণ করে ३. আংশিক হিমায়ন কৌশল: প্রি-ট্রেইনড মডেলের নিম্ন-স্তরের বৈশিষ্ট্য স্তর হিমায়িত করা হয়, সাধারণ ভিজ্যুয়াল প্রতিনিধিত্ব সংরক্ষণ করার সময় নির্দিষ্ট কাজের সাথে খাপ খাইয়ে নেওয়া হয় ४. দ্বৈত সুপারভিশন মেকানিজম: প্যারামিটার স্পেস এবং মেশ স্পেসের যৌথ সুপারভিশন পূর্বাভাসের যুক্তিসঙ্গততা নিশ্চিত করে
সমন্বিত ক্ষতি ফাংশনে রয়েছে: १. প্যারামিটার স্পেস ক্ষতি: পূর্বাভাসিত এবং প্রকৃত রিগ প্যারামিটারের মধ্যে গড় বর্গ ত্রুটি (MSE) २. মেশ স্পেস ক্ষতি: প্রোগ্রামেটিক রিগের মাধ্যমে পুনর্নির্মিত মেশের L१ ক্ষতি
স্ক্যান করা ডেটায় মডেল মূল্যায়ন করা হয়, পূর্বাভাসিত প্যারামিটার প্রশিক্ষণের সময় ব্যবহৃত DT মিশ্রিত আকৃতি রিগে প্রয়োগ করা হয় মেশ পুনর্নির্মাণের জন্য।
চিত্র २ এ দেখানো পুনর্নির্মাণ ফলাফল নির্দেশ করে: १. মুখ অঞ্চলে চমৎকার কর্মক্ষমতা: পূর্বাভাস মুখ অঞ্চলে বিশেষভাবে শক্তিশালী, জটিল মুখ অভিব্যক্তি সঠিকভাবে ক্যাপচার করতে পারে २. চোখের গতি চ্যালেঞ্জ: উপরে, নিচে বা পাশে তাকানোর দিক রিগ ইনভার্শনের জন্য তুলনামূলকভাবে আরও চ্যালেঞ্জিং ३. সামগ্রিক বিশ্বস্ততা: পুনর্নির্মাণ ফলাফল ইনপুট স্ক্যান অভিব্যক্তির জন্য ভিজ্যুয়ালি বিশ্বস্ত
পরীক্ষা-নিরীক্ষা সিন্থেটিক প্রশিক্ষণ ডেটা থেকে বাস্তব স্ক্যান করা ডেটায় পদ্ধতির ভাল সাধারণীকরণ ক্ষমতা প্রমাণ করে, যা মেশ-ভিত্তিক পদ্ধতির তুলনায় ইমেজ-ভিত্তিক পদ্ধতির একটি গুরুত্বপূর্ণ সুবিধা।
१. পরিসংখ্যানগত রিগ্রেশন মডেল: প্রাথমিক পদ্ধতি অ্যানিমেটরদের দ্বারা তৈরি ডেটা প্রশিক্ষিত পরিসংখ্যানগত বা রিগ্রেশন মডেলের উপর নির্ভর করে २. বিপরীত গতিবিজ্ঞান শেখা: Holden এবং অন্যদের চরিত্র পোজ বিপরীত গতিবিজ্ঞান শেখার পদ্ধতি ३. নিউরাল রিগিং: RigNet এবং অন্যান্য নিউরাল রিগিং পদ্ধতি যা জয়েন্ট চরিত্রের জন্য স্বয়ংক্রিয় রিগিং প্রদান করে
१. পার্থক্যযোগ্য রিগিং: Bolduc এবং Phan পার্থক্যযোগ্য রিগিং ফাংশন প্রশিক্ষণের মাধ্যমে রিগ ইনভার্শন অর্জন করে २. মেশ-স্তরের সুপারভিশন: পার্থক্যযোগ্য রিগিং অনুমান ব্যবহার করে মেশ-স্তরের সুপারভিশন প্রয়োগ করে শেখার পদ্ধতি ३. ভিজ্যুয়াল transformer: Hiera এবং অন্যান্য শ্রেণিবদ্ধ ভিজ্যুয়াল transformer কম্পিউটার ভিশনে অ্যাপ্লিকেশন
এই পেপারটি ইমেজ-ভিত্তিক ফেসিয়াল রিগ ইনভার্শন পদ্ধতির প্রথম সিস্টেমেটিক অন্বেষণ, এই ক্ষেত্রের একটি গুরুত্বপূর্ণ ফাঁক পূরণ করে।
१. কার্যকারিতা যাচাইকরণ: ইমেজ-ভিত্তিক ফেসিয়াল রিগ ইনভার্শন ফ্রেমওয়ার্ক উপস্থিতি এবং নরমাল ইনপুট কার্যকরভাবে একত্রিত করে রিগ প্যারামিটার পুনরুদ্ধার করতে পারে २. সাধারণীকরণ ক্ষমতা: পদ্ধতি স্ক্যান করা ডেটায় সফলভাবে সাধারণীকরণ করে, বিশ্বস্ত পুনর্নির্মাণ ফলাফল তৈরি করে ३. ব্যবহারিক মূল্য: অ্যানিমেশন প্রোডাকশন এবং পারফরম্যান্স ক্যাপচারের জন্য নতুন প্রযুক্তি পথ প্রদান করে
१. আংশিক হিমায়ন কৌশল: বর্তমান আংশিক হিমায়ন কৌশল মডেলের অভিযোজন ক্ষমতা সীমিত করতে পারে २. চোখের গতি চ্যালেঞ্জ: জটিল চোখের গতি এখনও চ্যালেঞ্জিং থাকে ३. ডেটা নির্ভরতা: পদ্ধতির কর্মক্ষমতা প্রশিক্ষণ ডেটার গুণমান এবং বৈচিত্র্যের উপর নির্ভর করে
পেপারটি স্পষ্টভাবে সম্পূর্ণ নেটওয়ার্কে মাইক্রো-টিউনিং কৌশল প্রসারিত করা রিগ ইনভার্শন সেটিংসে আরও ভাল অভিযোজন উন্নত করতে পারে তা প্রস্তাব করে।
१. প্রযুক্তিগত উদ্ভাবনী:
२. পরীক্ষা-নিরীক্ষার পর্যাপ্ততা:
३. ব্যবহারিক মূল্য:
१. পরিমাণগত মূল্যায়ন অনুপস্থিত: পেপারে বিস্তারিত পরিমাণগত মূল্যায়ন মেট্রিক্স এবং সংখ্যাগত ফলাফলের অভাব রয়েছে २. তুলনামূলক পরীক্ষা-নিরীক্ষা অপর্যাপ্ত: অন্যান্য বেসলাইন পদ্ধতির সাথে পর্যাপ্ত তুলনা নেই ३. অ্যাবলেশন পরীক্ষা-নিরীক্ষার অভাব: প্রতিটি উপাদানের অবদানের বিস্তারিত বিশ্লেষণ নেই ४. ডেটাসেট স্কেল: যাচাইকরণ সেটের স্কেল এবং বৈচিত্র্য সীমিত হতে পারে
१. একাডেমিক অবদান: ইমেজ-ভিত্তিক ফেসিয়াল রিগ ইনভার্শনের নতুন দিক খুলে দেয় २. শিল্প প্রয়োগ: অ্যানিমেশন, গেমস, ভার্চুয়াল রিয়েলিটি এবং অন্যান্য শিল্পের জন্য ব্যবহারিক প্রযুক্তি প্রদান করে ३. প্রযুক্তি প্রচার: পেশাদার ক্ষেত্রে Hiera transformer সফল প্রয়োগের কেস স্টাডি
१. অ্যানিমেশন প্রোডাকশন: রেফারেন্স ইমেজ থেকে দ্রুত ফেসিয়াল অ্যানিমেশন উৎপন্ন করা २. পারফরম্যান্স ক্যাপচার: রিয়েল-টাইম ফেসিয়াল এক্সপ্রেশন ক্যাপচার এবং পুনর্নির্মাণ ३. ভার্চুয়াল অ্যাভাটার: ব্যবহারকারীর অভিব্যক্তি থেকে ভার্চুয়াল চরিত্রে রিয়েল-টাইম ম্যাপিং ४. চলচ্চিত্র পোস্ট-প্রোডাকশন: ফেসিয়াল এক্সপ্রেশনের নির্ভুল নিয়ন্ত্রণ এবং সমন্বয়
মূল রেফারেন্সগুলির মধ্যে রয়েছে: १. Bolduc & Phan (२०२२): পার্থক্যযোগ্য রিগিং ফাংশন প্রশিক্ষণের রিগ ইনভার্শন পদ্ধতি २. Hatamizadeh et al. (२०२३): Hiera শ্রেণিবদ্ধ ভিজ্যুয়াল transformer ३. Sumner & Popović (२००४): ত্রিভুজ মেশ বিকৃতি স্থানান্তরের ক্লাসিক পদ্ধতি ४. Holden et al. (२०१५): চরিত্র পোজ বিপরীত গতিবিজ্ঞান শেখা ५. Rackovic et al. (२०२१): জয়েন্ট চরিত্রের নিউরাল রিগিং RigNet
সামগ্রিক মূল্যায়ন: এটি ফেসিয়াল রিগ ইনভার্শন ক্ষেত্রে যুগান্তকারী তাৎপর্যের একটি পেপার, যদিও পরীক্ষা-নিরীক্ষা মূল্যায়নের সম্পূর্ণতায় উন্নতির অবকাশ রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে। পেপারটি ইমেজ-ভিত্তিক ফেসিয়াল অ্যানিমেশন প্রোডাকশনের জন্য নতুন প্রযুক্তি পথ প্রদান করে, শিল্প প্রয়োগের জন্য ভাল সম্ভাবনা রয়েছে।