এই পেপারটি OzMAC (Omit-zero-MAC) প্রস্তাব করে, যা Bit-Pragmatic (PRA) MAC ডিজাইনের একটি উন্নত বাস্তবায়ন যা গভীর শিক্ষা অনুমানে বিট স্পার্সিটি কাজে লাগানোর জন্য বিশেষভাবে ডিজাইন করা হয়েছে। পূর্ববর্তী কাজের বিপরীতে, এই পেপারটি বাণিজ্যিক-গ্রেড TSMC N5 প্রক্রিয়া নোডের সাথে বিভিন্ন বিট-প্রস্থ এবং ঘড়ির ফ্রিকোয়েন্সিতে ডিজাইনের কঠোর সংশ্লেষণ-পরবর্তী মূল্যায়ন পরিচালনা করে। গবেষণা দেখায় যে ৮টি প্রশিক্ষিত INT8 গভীর শিক্ষা কর্মভারে উচ্চ বিট স্পার্সিটি বিদ্যমান, এবং ৮-বিট OzMAC ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতায় যথাক্রমে ২১%, ৭০% এবং ২৮% উল্লেখযোগ্য উন্নতি অর্জন করে।
১. গণনাগত বাধা: সাধারণ ম্যাট্রিক্স গুণন (GEMM) ইউনিটে গুণ-সংযোজন (MAC) অ্যারে গভীর শিক্ষা ত্বরণকারীর মূল গণনা কাঠামো, যার দক্ষতা সামগ্রিক কর্মক্ষমতা সরাসরি প্রভাবিত করে ২. নির্ভুলতা প্রবণতা: শিল্প মান ৩২-বিট ফ্লোটিং পয়েন্ট (FP32) থেকে ১৬-বিট ফ্লোটিং পয়েন্ট (FP16), ৮-বিট পূর্ণসংখ্যা (INT8) এবং আরও কম নির্ভুলতার দিকে বিকশিত হচ্ছে ३. শক্তি দক্ষতার প্রয়োজনীয়তা: প্রান্ত অনুমান অ্যাপ্লিকেশনগুলি ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতার জন্য কঠোর সীমাবদ্ধতা রয়েছে
১. OzMAC ডিজাইন: PRA-এর উপর ভিত্তি করে উন্নত জিরো-স্কিপিং MAC আর্কিটেকচার, বাইনারি মানে শূন্য বিট এড়িয়ে গিয়ে গতিশীলভাবে বিট স্পার্সিটি কাজে লাগায় २. বাণিজ্যিক-গ্রেড মূল্যায়ন: TSMC N5 (৫nm) প্রক্রিয়া এবং বাণিজ্যিক ডিজাইন সরঞ্জাম ব্যবহার করে কঠোর শক্তি-কর্মক্ষমতা-ক্ষেত্রফল (PPA) মূল্যায়ন ३. বহু-মাত্রিক বিশ্লেষণ: একাধিক ডেটা নির্ভুলতা (৪-বিট, ৮-বিট, ১६-বিট) এবং ঘড়ির ফ্রিকোয়েন্সি (০.५ GHz, १ GHz, १.५ GHz) জুড়ে ব্যাপক মূল্যায়ন ४. স্পার্সিটি যাচাইকরণ: ৮টি গভীর শিক্ষা মডেলে উচ্চ বিট স্পার্সিটির উপস্থিতি যাচাই করে এবং শক্তি হ্রাস কাজে লাগিয়ে থ্রুপুট বৃদ্ধি কীভাবে করতে হয় তা প্রদর্শন করে
OzMAC তিনটি মূল কার্যকরী মডিউল নিয়ে গঠিত:
१. Oz-encoder (শূন্য এনকোডার):
२. শিফটার (Shifter):
३. সংযোজক (Accumulator):
१. জিরো-স্কিপিং প্রক্রিয়া: শুধুমাত্র '१' বিটে গণনা করে, '०' বিট এড়িয়ে যায়, গণনা চক্র হ্রাস করে २. শিফটার অপ্টিমাইজেশন: শিফটার গেট জটিলতা সরল করতে একক-গরম এনকোডিং ইনপুট গ্রহণ করে ३. ক্রমিক গণনা: কম ক্ষেত্রফল এবং শক্তি খরচের জন্য বিলম্বের বিনিময় করে
PyTorch Torchvision লাইব্রেরি থেকে ৮টি প্রশিক্ষিত পরিমাণিত INT8 মডেল ব্যবহার করা হয়েছে:
१. নির্ভুলতা কনফিগারেশন: ४×४, ४×८, ८×८, ८×१६, १६×१६ বিট २. ফ্রিকোয়েন্সি পরিসীমা: ५०० MHz, १ GHz, १.५ GHz ३. তুলনা ভিত্তিরেখা: ঐতিহ্যবাহী বিট-সমান্তরাল bMAC ডিজাইন
| মডেল | গড় '१' বিট সংখ্যা | বিট স্পার্সিটি শতাংশ |
|---|---|---|
| MobileNetV2 | २.३३४ | ७०.८३% |
| MobileNetV3 | १.७११ | ७८.६१% |
| InceptionV3 | २.४३० | ६९.६२% |
| ShuffleNetV2 | २.५८३ | ६७.७१% |
| GoogleNet | २.४६१ | ६९.२४% |
| ResNet18 | २.३९८ | ७०.०२% |
| ResNet50 | २.४९५ | ६८.८१% |
| ResNeXt101 | २.२८९ | ७१.३९% |
সমস্ত মডেল প্রায় ७०% বিট স্পার্সিটি প্রদর্শন করে, MobileNetV3 সর্বোচ্চ ७८.६१% অর্জন করে।
| MAC হার্ডওয়্যার | ক্ষেত্রফল(μm²) | শক্তি খরচ(mW) | বিলম্ব(ns) | শক্তি দক্ষতা(pJ) |
|---|---|---|---|---|
| bMAC | २५.३६१ | ०.०८४ | २ | ०.१६७ |
| OzMAC | १९.९९६ | ०.०२५ | ४.७६ | ०.१२० |
| উন্নতি শতাংশ | २१.२% | ६९.७% | - | २८.०% |
বিভিন্ন নির্ভুলতা কনফিগারেশন জুড়ে ফলাফল দেখায়:
१. সমান-ফ্রিকোয়েন্সি মূল্যায়ন: ५०० MHz থেকে १.५ GHz পর্যন্ত পরিসীমায়, OzMAC সর্বদা প্রায় ७०% শক্তি খরচ উন্নতি এবং २९% শক্তি দক্ষতা উন্নতি বজায় রাখে
२. সমান-বিলম্ব মূল্যায়ন: থ্রুপুট মেলাতে ফ্রিকোয়েন্সি স্কেলিংয়ের পরে, OzMAC এখনও অর্জন করতে পারে:
१. শক্তি দক্ষতা থ্রেশহোল্ড: OzMAC-কে bMAC-এর চেয়ে উন্নত শক্তি দক্ষতা বজায় রাখতে কমপক্ষে ५८% বিট স্পার্সিটির প্রয়োজন २. বাস্তব স্পার্সিটি: পরীক্ষিত সমস্ত DL মডেল এই থ্রেশহোল্ড অতিক্রম করে ३. স্কেলিং বৈশিষ্ট্য: শক্তি খরচ ফ্রিকোয়েন্সির সাথে রৈখিকভাবে স্কেল করে, শক্তি দক্ষতা মূলত ধ্রুবক থাকে
এই পেপারটি নিম্নলিখিত সম্পর্কিত গবেষণার উপর ভিত্তি করে তৈরি: १. Bit-Pragmatic (PRA): মূল বিট-ব্যবহারিক গভীর স্নায়ু নেটওয়ার্ক গণনা পদ্ধতি २. Bit-Tactical: মান এবং বিট স্পার্সিটি কাজে লাগানোর সফটওয়্যার-হার্ডওয়্যার পদ্ধতি ३. STRIPES: বিট-ক্রমিক গভীর স্নায়ু নেটওয়ার্ক গণনা ४. Bit Fusion: বিট-স্তরের গতিশীল সংমিশ্রণযোগ্য আর্কিটেকচার
এই পেপারের প্রধান পার্থক্য হল সর্বশেষ বাণিজ্যিক প্রক্রিয়া ব্যবহার করে কঠোর মূল্যায়ন এবং একাধিক নির্ভুলতা এবং ফ্রিকোয়েন্সি কনফিগারেশনে সম্প্রসারণ।
१. উল্লেখযোগ্য উন্নতি: OzMAC ঐতিহ্যবাহী bMAC-এর তুলনায় ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতায় উল্লেখযোগ্য উন্নতি অর্জন করে २. বাণিজ্যিক সম্ভাব্যতা: TSMC N5 প্রক্রিয়া ব্যবহার করে মূল্যায়ন বাণিজ্যিক বাস্তবায়নের সম্ভাব্যতা প্রমাণ করে ३. স্কেলিং সুবিধা: একাধিক নির্ভুলতা এবং ফ্রিকোয়েন্সি কনফিগারেশনে সুবিধা বজায় রাখে ४. থ্রুপুট ম্যাচিং: ফ্রিকোয়েন্সি স্কেলিংয়ের মাধ্যমে শক্তি দক্ষতা সুবিধা বজায় রেখে bMAC-এর থ্রুপুট ম্যাচ বা অতিক্রম করা যায়
१. বিলম্ব ওভারহেড: OzMAC-এর বহু-চক্র বিলম্ব বিলম্ব-সংবেদনশীল অ্যাপ্লিকেশনের জন্য উপযুক্ত নাও হতে পারে २. নির্ভুলতা সীমাবদ্ধতা: १६-বিটের উপরে নির্ভুলতায় সুবিধা অদৃশ্য হয় ३. স্পার্সিটি নির্ভরতা: কর্মক্ষমতা ইনপুট ডেটার বিট স্পার্সিটির উপর অত্যন্ত নির্ভরশীল ४. সিস্টেম-স্তরের মূল্যায়ন অনুপস্থিত: বাস্তব DLA সিস্টেম-স্তরে এখনও মূল্যায়ন করা হয়নি
१. সিস্টেম-স্তরের একীকরণ: বাস্তব DLA-তে বড় OzMAC অ্যারের কর্মক্ষমতা মূল্যায়ন করা २. অভিযোজিত ডিজাইন: চলমান স্পার্সিটির উপর ভিত্তি করে গতিশীলভাবে কনফিগারেশন সামঞ্জস্য করা ३. হাইব্রিড আর্কিটেকচার: OzMAC এবং ঐতিহ্যবাহী MAC-এর সংমিশ্রণ ডিজাইন
१. কঠোর মূল্যায়ন: বাণিজ্যিক-গ্রেড প্রক্রিয়া এবং সরঞ্জাম ব্যবহার করে ব্যাপক মূল্যায়ন, ফলাফল বিশ্বাসযোগ্যতা উচ্চ २. বহু-মাত্রিক বিশ্লেষণ: নির্ভুলতা, ফ্রিকোয়েন্সি জুড়ে সিস্টেমেটিক বিশ্লেষণ ३. ব্যবহারিক মূল্য: বাস্তব DL মডেলে বিট স্পার্সিটির উপস্থিতি যাচাই করা ४. স্পষ্ট প্রকাশ: প্রযুক্তিগত বিবরণ স্পষ্টভাবে বর্ণিত, পরীক্ষামূলক সেটআপ সম্পূর্ণ
१. সীমিত উদ্ভাবন: প্রধানত বিদ্যমান PRA ডিজাইনের প্রকৌশল বাস্তবায়ন এবং মূল্যায়ন, প্রযুক্তিগত উদ্ভাবন তুলনামূলকভাবে সীমিত २. প্রয়োগের পরিসীমা: শুধুমাত্র উচ্চ বিট স্পার্সিটি সহ কর্মভারের জন্য প্রযোজ্য ३. সিস্টেম বিবেচনা অপর্যাপ্ত: মেমরি ব্যান্ডউইথ, ডেটা প্রবাহ ইত্যাদি সিস্টেম-স্তরের কারণের অভাব ४. সীমিত তুলনা: প্রধানত মৌলিক bMAC-এর সাথে তুলনা, অন্যান্য উন্নত MAC ডিজাইনের সাথে তুলনার অভাব
१. প্রকৌশল মূল্য: বাণিজ্যিক DLA ডিজাইনের জন্য মূল্যবান রেফারেন্স ডেটা প্রদান করে २. পদ্ধতিগত অবদান: কঠোর MAC ডিজাইন মূল্যায়ন কাঠামো প্রতিষ্ঠা করে ३. ব্যবহারিক নির্দেশনা: কম-নির্ভুলতা অনুমান অ্যাপ্লিকেশনের জন্য সম্ভাব্য হার্ডওয়্যার অপ্টিমাইজেশন সমাধান প্রদান করে
१. প্রান্ত অনুমান: শক্তি খরচ এবং ক্ষেত্রফল সীমাবদ্ধ প্রান্ত AI অ্যাপ্লিকেশন २. কম-নির্ভুলতা গণনা: ८-বিট এবং তার নিচে নির্ভুলতার গভীর শিক্ষা অনুমান ३. স্পার্স মডেল: উচ্চ বিট স্পার্সিটি বৈশিষ্ট্য সহ স্নায়ু নেটওয়ার্ক মডেল ४. বাল্ক উৎপাদন: বাণিজ্যিক-গ্রেড প্রক্রিয়া যাচাইকরণের প্রয়োজন বড় আকারের স্থাপনা দৃশ্যকল্প
१. Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020. २. Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017. ३. Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019. ४. Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016. ५. Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.
এই পেপারটি জিরো-স্কিপিং MAC ডিজাইনের বাণিজ্যিকীকরণ প্রয়োগের জন্য গুরুত্বপূর্ণ প্রকৌশল যাচাইকরণ প্রদান করে। যদিও প্রযুক্তিগত উদ্ভাবন সীমিত, তবে এর কঠোর মূল্যায়ন পদ্ধতিবিদ্যা এবং ব্যবহারিক ফলাফল কম-শক্তি AI ত্বরণকারীর বিকাশ চালনায় গুরুত্বপূর্ণ মূল্য রয়েছে।