2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.
General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic

গভীর শিক্ষা অনুমানে বিট স্পার্সিটি কাজে লাগানোর জন্য জিরো-স্কিপিং MAC ডিজাইনের বাণিজ্যিক মূল্যায়ন

মৌলিক তথ্য

  • পেপার আইডি: 2402.19376
  • শিরোনাম: গভীর শিক্ষা অনুমানে বিট স্পার্সিটি কাজে লাগানোর জন্য জিরো-স্কিপিং MAC ডিজাইনের বাণিজ্যিক মূল্যায়ন
  • লেখক: হরিদীপ নায়ার, প্রভু ভেল্লাইসামি, সুং-হান লিন, পেরি ওয়াং, শন ব্ল্যান্টন, জন পল শেন
  • প্রতিষ্ঠান: কার্নেগি মেলন বিশ্ববিদ্যালয়, মিডিয়াটেক ইউএসএ ইনক.
  • শ্রেণীবিভাগ: cs.AR (কম্পিউটার আর্কিটেকচার)
  • প্রকাশনার সময়: ২০২৪ সালের ফেব্রুয়ারি
  • পেপার লিংক: https://arxiv.org/abs/2402.19376

সারসংক্ষেপ

এই পেপারটি OzMAC (Omit-zero-MAC) প্রস্তাব করে, যা Bit-Pragmatic (PRA) MAC ডিজাইনের একটি উন্নত বাস্তবায়ন যা গভীর শিক্ষা অনুমানে বিট স্পার্সিটি কাজে লাগানোর জন্য বিশেষভাবে ডিজাইন করা হয়েছে। পূর্ববর্তী কাজের বিপরীতে, এই পেপারটি বাণিজ্যিক-গ্রেড TSMC N5 প্রক্রিয়া নোডের সাথে বিভিন্ন বিট-প্রস্থ এবং ঘড়ির ফ্রিকোয়েন্সিতে ডিজাইনের কঠোর সংশ্লেষণ-পরবর্তী মূল্যায়ন পরিচালনা করে। গবেষণা দেখায় যে ৮টি প্রশিক্ষিত INT8 গভীর শিক্ষা কর্মভারে উচ্চ বিট স্পার্সিটি বিদ্যমান, এবং ৮-বিট OzMAC ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতায় যথাক্রমে ২১%, ৭০% এবং ২৮% উল্লেখযোগ্য উন্নতি অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

১. গণনাগত বাধা: সাধারণ ম্যাট্রিক্স গুণন (GEMM) ইউনিটে গুণ-সংযোজন (MAC) অ্যারে গভীর শিক্ষা ত্বরণকারীর মূল গণনা কাঠামো, যার দক্ষতা সামগ্রিক কর্মক্ষমতা সরাসরি প্রভাবিত করে ২. নির্ভুলতা প্রবণতা: শিল্প মান ৩২-বিট ফ্লোটিং পয়েন্ট (FP32) থেকে ১৬-বিট ফ্লোটিং পয়েন্ট (FP16), ৮-বিট পূর্ণসংখ্যা (INT8) এবং আরও কম নির্ভুলতার দিকে বিকশিত হচ্ছে ३. শক্তি দক্ষতার প্রয়োজনীয়তা: প্রান্ত অনুমান অ্যাপ্লিকেশনগুলি ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতার জন্য কঠোর সীমাবদ্ধতা রয়েছে

গবেষণা প্রেরণা

  • গভীর শিক্ষা মডেলগুলিতে উল্লেখযোগ্য বিট স্পার্সিটি বিদ্যমান (অর্থাৎ বাইনারি প্রতিনিধিত্বে অনেক '0' বিট রয়েছে)
  • বিদ্যমান Bit-Pragmatic (PRA) ডিজাইন যদিও বিট স্পার্সিটি কাজে লাগানোর ধারণা প্রস্তাব করে, তবে বাণিজ্যিক-গ্রেড প্রক্রিয়ার কঠোর মূল্যায়নের অভাব রয়েছে
  • বাস্তব বাণিজ্যিক বাস্তবায়নে জিরো-স্কিপিং MAC ডিজাইনের সম্ভাব্যতা এবং সুবিধা মূল্যায়ন করার প্রয়োজন

মূল অবদান

১. OzMAC ডিজাইন: PRA-এর উপর ভিত্তি করে উন্নত জিরো-স্কিপিং MAC আর্কিটেকচার, বাইনারি মানে শূন্য বিট এড়িয়ে গিয়ে গতিশীলভাবে বিট স্পার্সিটি কাজে লাগায় २. বাণিজ্যিক-গ্রেড মূল্যায়ন: TSMC N5 (৫nm) প্রক্রিয়া এবং বাণিজ্যিক ডিজাইন সরঞ্জাম ব্যবহার করে কঠোর শক্তি-কর্মক্ষমতা-ক্ষেত্রফল (PPA) মূল্যায়ন ३. বহু-মাত্রিক বিশ্লেষণ: একাধিক ডেটা নির্ভুলতা (৪-বিট, ৮-বিট, ১६-বিট) এবং ঘড়ির ফ্রিকোয়েন্সি (০.५ GHz, १ GHz, १.५ GHz) জুড়ে ব্যাপক মূল্যায়ন ४. স্পার্সিটি যাচাইকরণ: ৮টি গভীর শিক্ষা মডেলে উচ্চ বিট স্পার্সিটির উপস্থিতি যাচাই করে এবং শক্তি হ্রাস কাজে লাগিয়ে থ্রুপুট বৃদ্ধি কীভাবে করতে হয় তা প্রদর্শন করে

পদ্ধতির বিস্তারিত বর্ণনা

OzMAC মাইক্রোআর্কিটেকচার ডিজাইন

OzMAC তিনটি মূল কার্যকরী মডিউল নিয়ে গঠিত:

१. Oz-encoder (শূন্য এনকোডার):

  • সীমিত অবস্থা মেশিন যা ইনপুট বিট প্যাটার্নে '१' এর বর্তমান এবং পরবর্তী অবস্থান ট্র্যাক করে
  • একক-গরম এনকোডিং মান আউটপুট করে, প্রতিটি ঘড়ির চক্রে '१' এর অবস্থান ক্যাপচার করে
  • উদাহরণ: ইনপুট '0101₂' দুটি একক-গরম মান হিসাবে এনকোড করা হয়, দুটি ঘড়ির চক্র জুড়ে: প্রথম চক্র '0100₂', পরবর্তী চক্র '0001₂'

२. শিফটার (Shifter):

  • Oz এনকোডারের আউটপুটের উপর ভিত্তি করে দ্বিতীয় ইনপুটের শিফট পরিমাণ নির্ধারণ করে
  • PRA-এর বাইনারি শিফট মানের তুলনায়, OzMAC শিফটার হার্ডওয়্যার সরল করতে একক-গরম প্রতিনিধিত্ব গ্রহণ করে

३. সংযোজক (Accumulator):

  • যথাযথভাবে শিফট করা দ্বিতীয় ইনপুটকে সংযোজক মানে যোগ করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. জিরো-স্কিপিং প্রক্রিয়া: শুধুমাত্র '१' বিটে গণনা করে, '०' বিট এড়িয়ে যায়, গণনা চক্র হ্রাস করে २. শিফটার অপ্টিমাইজেশন: শিফটার গেট জটিলতা সরল করতে একক-গরম এনকোডিং ইনপুট গ্রহণ করে ३. ক্রমিক গণনা: কম ক্ষেত্রফল এবং শক্তি খরচের জন্য বিলম্বের বিনিময় করে

পরীক্ষামূলক সেটআপ

মূল্যায়ন কাঠামো

  • প্রক্রিয়া নোড: TSMC N5 (५nm) বাণিজ্যিক প্রক্রিয়া
  • ডিজাইন সরঞ্জাম: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
  • যাচাইকরণ পদ্ধতি: SystemVerilog RTL ডিজাইন, গেট-স্তরের নেটলিস্ট সিমুলেশন, নির্ভুল শক্তি গণনার জন্য SAIF ডাম্প

ডেটাসেট এবং মডেল

PyTorch Torchvision লাইব্রেরি থেকে ৮টি প্রশিক্ষিত পরিমাণিত INT8 মডেল ব্যবহার করা হয়েছে:

  • MobileNetV2, MobileNetV3
  • InceptionV3, ShuffleNetV2
  • GoogleNet, ResNet18, ResNet50, ResNeXt101

মূল্যায়ন মেট্রিক্স

  • ক্ষেত্রফল: চিপ ক্ষেত্রফল (μm²)
  • শক্তি খরচ: গতিশীল শক্তি খরচ (mW)
  • বিলম্ব: গণনা বিলম্ব (ns)
  • শক্তি দক্ষতা: প্রতি অপারেশন শক্তি দক্ষতা (pJ)

পরীক্ষার কনফিগারেশন

१. নির্ভুলতা কনফিগারেশন: ४×४, ४×८, ८×८, ८×१६, १६×१६ বিট २. ফ্রিকোয়েন্সি পরিসীমা: ५०० MHz, १ GHz, १.५ GHz ३. তুলনা ভিত্তিরেখা: ঐতিহ্যবাহী বিট-সমান্তরাল bMAC ডিজাইন

পরীক্ষামূলক ফলাফল

বিট স্পার্সিটি বিশ্লেষণ

মডেলগড় '१' বিট সংখ্যাবিট স্পার্সিটি শতাংশ
MobileNetV2२.३३४७०.८३%
MobileNetV3१.७११७८.६१%
InceptionV3२.४३०६९.६२%
ShuffleNetV2२.५८३६७.७१%
GoogleNet२.४६१६९.२४%
ResNet18२.३९८७०.०२%
ResNet50२.४९५६८.८१%
ResNeXt101२.२८९७१.३९%

সমস্ত মডেল প্রায় ७०% বিট স্পার্সিটি প্রদর্শন করে, MobileNetV3 সর্বোচ্চ ७८.६१% অর্জন করে।

প্রধান PPA ফলাফল (८-বিট, ५०० MHz)

MAC হার্ডওয়্যারক্ষেত্রফল(μm²)শক্তি খরচ(mW)বিলম্ব(ns)শক্তি দক্ষতা(pJ)
bMAC२५.३६१०.०८४०.१६७
OzMAC१९.९९६०.०२५४.७६०.१२०
উন্নতি শতাংশ२१.२%६९.७%-२८.०%

নির্ভুলতা স্কেলিং বিশ্লেষণ

বিভিন্ন নির্ভুলতা কনফিগারেশন জুড়ে ফলাফল দেখায়:

  • সর্বোত্তম ক্ষেত্রফল উন্নতি: ८×१६ কনফিগারেশন ३१.७% অর্জন করে
  • সর্বোত্তম শক্তি দক্ষতা উন্নতি: মিশ্র-নির্ভুলতা ४×८ এবং ८×१६ কনফিগারেশন ४५% অর্জন করে
  • সমালোচনামূলক পয়েন্ট: १६×१६ কনফিগারেশনে শক্তি দক্ষতা উন্নতি অদৃশ্য হয় (-१.२%)

ফ্রিকোয়েন্সি স্কেলিং বিশ্লেষণ

१. সমান-ফ্রিকোয়েন্সি মূল্যায়ন: ५०० MHz থেকে १.५ GHz পর্যন্ত পরিসীমায়, OzMAC সর্বদা প্রায় ७०% শক্তি খরচ উন্নতি এবং २९% শক্তি দক্ষতা উন্নতি বজায় রাখে

२. সমান-বিলম্ব মূল্যায়ন: থ্রুপুট মেলাতে ফ্রিকোয়েন্সি স্কেলিংয়ের পরে, OzMAC এখনও অর্জন করতে পারে:

  • INT4 ডিজাইন: २९% শক্তি খরচ/শক্তি দক্ষতা উন্নতি
  • INT8 ডিজাইন: ३०% শক্তি খরচ/শক্তি দক্ষতা উন্নতি
  • মিশ্র-নির্ভুলতা ডিজাইন: ४६% পর্যন্ত উন্নতি

মূল আবিষ্কার

१. শক্তি দক্ষতা থ্রেশহোল্ড: OzMAC-কে bMAC-এর চেয়ে উন্নত শক্তি দক্ষতা বজায় রাখতে কমপক্ষে ५८% বিট স্পার্সিটির প্রয়োজন २. বাস্তব স্পার্সিটি: পরীক্ষিত সমস্ত DL মডেল এই থ্রেশহোল্ড অতিক্রম করে ३. স্কেলিং বৈশিষ্ট্য: শক্তি খরচ ফ্রিকোয়েন্সির সাথে রৈখিকভাবে স্কেল করে, শক্তি দক্ষতা মূলত ধ্রুবক থাকে

সম্পর্কিত কাজ

এই পেপারটি নিম্নলিখিত সম্পর্কিত গবেষণার উপর ভিত্তি করে তৈরি: १. Bit-Pragmatic (PRA): মূল বিট-ব্যবহারিক গভীর স্নায়ু নেটওয়ার্ক গণনা পদ্ধতি २. Bit-Tactical: মান এবং বিট স্পার্সিটি কাজে লাগানোর সফটওয়্যার-হার্ডওয়্যার পদ্ধতি ३. STRIPES: বিট-ক্রমিক গভীর স্নায়ু নেটওয়ার্ক গণনা ४. Bit Fusion: বিট-স্তরের গতিশীল সংমিশ্রণযোগ্য আর্কিটেকচার

এই পেপারের প্রধান পার্থক্য হল সর্বশেষ বাণিজ্যিক প্রক্রিয়া ব্যবহার করে কঠোর মূল্যায়ন এবং একাধিক নির্ভুলতা এবং ফ্রিকোয়েন্সি কনফিগারেশনে সম্প্রসারণ।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. উল্লেখযোগ্য উন্নতি: OzMAC ঐতিহ্যবাহী bMAC-এর তুলনায় ক্ষেত্রফল, শক্তি খরচ এবং শক্তি দক্ষতায় উল্লেখযোগ্য উন্নতি অর্জন করে २. বাণিজ্যিক সম্ভাব্যতা: TSMC N5 প্রক্রিয়া ব্যবহার করে মূল্যায়ন বাণিজ্যিক বাস্তবায়নের সম্ভাব্যতা প্রমাণ করে ३. স্কেলিং সুবিধা: একাধিক নির্ভুলতা এবং ফ্রিকোয়েন্সি কনফিগারেশনে সুবিধা বজায় রাখে ४. থ্রুপুট ম্যাচিং: ফ্রিকোয়েন্সি স্কেলিংয়ের মাধ্যমে শক্তি দক্ষতা সুবিধা বজায় রেখে bMAC-এর থ্রুপুট ম্যাচ বা অতিক্রম করা যায়

সীমাবদ্ধতা

१. বিলম্ব ওভারহেড: OzMAC-এর বহু-চক্র বিলম্ব বিলম্ব-সংবেদনশীল অ্যাপ্লিকেশনের জন্য উপযুক্ত নাও হতে পারে २. নির্ভুলতা সীমাবদ্ধতা: १६-বিটের উপরে নির্ভুলতায় সুবিধা অদৃশ্য হয় ३. স্পার্সিটি নির্ভরতা: কর্মক্ষমতা ইনপুট ডেটার বিট স্পার্সিটির উপর অত্যন্ত নির্ভরশীল ४. সিস্টেম-স্তরের মূল্যায়ন অনুপস্থিত: বাস্তব DLA সিস্টেম-স্তরে এখনও মূল্যায়ন করা হয়নি

ভবিষ্যত দিকনির্দেশনা

१. সিস্টেম-স্তরের একীকরণ: বাস্তব DLA-তে বড় OzMAC অ্যারের কর্মক্ষমতা মূল্যায়ন করা २. অভিযোজিত ডিজাইন: চলমান স্পার্সিটির উপর ভিত্তি করে গতিশীলভাবে কনফিগারেশন সামঞ্জস্য করা ३. হাইব্রিড আর্কিটেকচার: OzMAC এবং ঐতিহ্যবাহী MAC-এর সংমিশ্রণ ডিজাইন

গভীর মূল্যায়ন

সুবিধা

१. কঠোর মূল্যায়ন: বাণিজ্যিক-গ্রেড প্রক্রিয়া এবং সরঞ্জাম ব্যবহার করে ব্যাপক মূল্যায়ন, ফলাফল বিশ্বাসযোগ্যতা উচ্চ २. বহু-মাত্রিক বিশ্লেষণ: নির্ভুলতা, ফ্রিকোয়েন্সি জুড়ে সিস্টেমেটিক বিশ্লেষণ ३. ব্যবহারিক মূল্য: বাস্তব DL মডেলে বিট স্পার্সিটির উপস্থিতি যাচাই করা ४. স্পষ্ট প্রকাশ: প্রযুক্তিগত বিবরণ স্পষ্টভাবে বর্ণিত, পরীক্ষামূলক সেটআপ সম্পূর্ণ

অপূর্ণতা

१. সীমিত উদ্ভাবন: প্রধানত বিদ্যমান PRA ডিজাইনের প্রকৌশল বাস্তবায়ন এবং মূল্যায়ন, প্রযুক্তিগত উদ্ভাবন তুলনামূলকভাবে সীমিত २. প্রয়োগের পরিসীমা: শুধুমাত্র উচ্চ বিট স্পার্সিটি সহ কর্মভারের জন্য প্রযোজ্য ३. সিস্টেম বিবেচনা অপর্যাপ্ত: মেমরি ব্যান্ডউইথ, ডেটা প্রবাহ ইত্যাদি সিস্টেম-স্তরের কারণের অভাব ४. সীমিত তুলনা: প্রধানত মৌলিক bMAC-এর সাথে তুলনা, অন্যান্য উন্নত MAC ডিজাইনের সাথে তুলনার অভাব

প্রভাব

१. প্রকৌশল মূল্য: বাণিজ্যিক DLA ডিজাইনের জন্য মূল্যবান রেফারেন্স ডেটা প্রদান করে २. পদ্ধতিগত অবদান: কঠোর MAC ডিজাইন মূল্যায়ন কাঠামো প্রতিষ্ঠা করে ३. ব্যবহারিক নির্দেশনা: কম-নির্ভুলতা অনুমান অ্যাপ্লিকেশনের জন্য সম্ভাব্য হার্ডওয়্যার অপ্টিমাইজেশন সমাধান প্রদান করে

প্রযোজ্য দৃশ্যকল্প

१. প্রান্ত অনুমান: শক্তি খরচ এবং ক্ষেত্রফল সীমাবদ্ধ প্রান্ত AI অ্যাপ্লিকেশন २. কম-নির্ভুলতা গণনা: ८-বিট এবং তার নিচে নির্ভুলতার গভীর শিক্ষা অনুমান ३. স্পার্স মডেল: উচ্চ বিট স্পার্সিটি বৈশিষ্ট্য সহ স্নায়ু নেটওয়ার্ক মডেল ४. বাল্ক উৎপাদন: বাণিজ্যিক-গ্রেড প্রক্রিয়া যাচাইকরণের প্রয়োজন বড় আকারের স্থাপনা দৃশ্যকল্প

তথ্যসূত্র

१. Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020. २. Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017. ३. Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019. ४. Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016. ५. Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.


এই পেপারটি জিরো-স্কিপিং MAC ডিজাইনের বাণিজ্যিকীকরণ প্রয়োগের জন্য গুরুত্বপূর্ণ প্রকৌশল যাচাইকরণ প্রদান করে। যদিও প্রযুক্তিগত উদ্ভাবন সীমিত, তবে এর কঠোর মূল্যায়ন পদ্ধতিবিদ্যা এবং ব্যবহারিক ফলাফল কম-শক্তি AI ত্বরণকারীর বিকাশ চালনায় গুরুত্বপূর্ণ মূল্য রয়েছে।