স্তর ফিউশন প্রযুক্তি গভীর স্নায়ু নেটওয়ার্ক (DNN) এর অনুমান দক্ষতা উন্নত করার জন্য অত্যন্ত গুরুত্বপূর্ণ। ফিউশনের লক্ষ্য হল অ্যাক্সিলারেটরের অন-চিপ বাফার এবং DRAM এর মধ্যে ডেটা লেনদেন হ্রাস করে অনুমান খরচ কমানো। এটি কনভোলিউশন এবং অ্যাক্টিভেশনের মতো একাধিক অপারেশনকে একক সম্পাদন ইউনিটে একসাথে সম্পাদন করার মাধ্যমে অর্জিত হয় - ফিউশন গ্রুপ। তবে অন-চিপ বাফার ক্ষমতা ফিউশন গ্রুপের আকার সীমাবদ্ধ করে এবং সম্পূর্ণ DNN-তে ফিউশন অপ্টিমাইজ করার জন্য একাধিক ফিউশন গ্রুপে বিভাজন প্রয়োজন। সর্বোত্তম গ্রুপ খুঁজে পাওয়া একটি জটিল সমস্যা যেখানে অবৈধ সমাধানের উপস্থিতি ঐতিহ্যবাহী অনুসন্ধান অ্যালগরিদমকে বাধা দেয় এবং শক্তিশালী পদ্ধতির দাবি করে। এই পেপারে আমরা ব্যাখ্যাযোগ্য AI, বিশেষত গ্রাফ ব্যাখ্যা প্রযুক্তি (GET), স্তর ফিউশনে অন্তর্ভুক্ত করি। একটি অবৈধ ফিউশন গ্রুপ দেওয়া হলে, আমরা গ্রুপ অবৈধতার জন্য দায়ী অপারেশনগুলি চিহ্নিত করি, তারপর এই জ্ঞান ব্যবহার করে একটি লোভী গাছ-ভিত্তিক অ্যালগরিদমের মাধ্যমে মূল ফিউশন গ্রুপকে পুনরাবৃত্তিমূলকভাবে বিভক্ত করি যাতে DRAM অ্যাক্সেস কমানো যায়। আমরা আমাদের স্কিমকে সাধারণ অ্যালগরিদমের সাথে যুক্ত করি এবং দুই ধরনের স্তর ফিউশনে DNN অপ্টিমাইজ করি: লাইন-বাফার ডেপথ ফার্স্ট (LBDF) এবং ব্রাঞ্চ রিকোয়ারমেন্ট রিডাকশন (BRR)। পরীক্ষাগুলি ResNets এবং MobileNets এর মতো বেশ কয়েকটি জনপ্রিয় এবং ক্লাসিক্যাল কনভোলিউশনাল নিউরাল নেটওয়ার্কে আমাদের স্কিমের কার্যকারিতা প্রদর্শন করে। আমাদের স্কিম EfficientNet-B3 এ ২০% এর বেশি DRAM অ্যাক্সেস হ্রাস অর্জন করে।
এই গবেষণার মূল সমস্যা হল গভীর স্নায়ু নেটওয়ার্কের স্তর ফিউশন (Layer Fusion) অপ্টিমাইজেশন সমস্যা। স্তর ফিউশন একটি অনুমান ত্বরণ প্রযুক্তি যা একাধিক DNN অপারেশন স্তর (যেমন কনভোলিউশন এবং ReLU) একটি একক সম্পাদন ইউনিটে একীভূত করে, স্নায়ু ত্বরণকারীর অন-চিপ ক্যাশে এবং DRAM এর মধ্যে ডেটা ট্রান্সমিশনের সংখ্যা হ্রাস করে, এর ফলে অনুমান বিলম্ব এবং শক্তি খরচ কমায়।
১. কর্মক্ষমতা বাধা: DNN মডেলগুলি বড় এবং গভীর হওয়ার সাথে সাথে, DRAM অ্যাক্সেস প্রধান কর্মক্ষমতা এবং শক্তি বাধা হয়ে ওঠে ২. স্থাপনার প্রয়োজনীয়তা: প্রান্ত ডিভাইস এবং মোবাইল প্ল্যাটফর্মে DNN স্থাপন করার সময়, মেমরি ব্যান্ডউইথ এবং শক্তি সীমাবদ্ধতা বিশেষভাবে গুরুতর ৩. হার্ডওয়্যার সীমাবদ্ধতা: অন-চিপ ক্যাশে ক্ষমতা সীমিত, ফিউশন প্রভাব সর্বাধিক করতে অপারেশনগুলি বুদ্ধিমানের সাথে গ্রুপ করার প্রয়োজন
১. অনুসন্ধান দক্ষতা কম: ঐতিহ্যবাহী অনুসন্ধান অ্যালগরিদম (যেমন বিবর্তনীয় অ্যালগরিদম, স্থানীয় অনুসন্ধান) অবৈধ ফিউশন গ্রুপের মুখোমুখি হলে অদক্ষ २. র্যান্ডম বিভাজন: বিদ্যমান পদ্ধতিগুলি সাধারণত অবৈধ ফিউশন গ্রুপগুলি র্যান্ডমলি বিভক্ত করে, DRAM অ্যাক্সেস খরচ সর্বোত্তম নিশ্চিত করতে পারে না ३. ব্যাখ্যাযোগ্যতার অভাব: ফিউশন গ্রুপকে অবৈধ করে এমন নির্দিষ্ট অপারেশনগুলি চিহ্নিত করা যায় না, লক্ষ্যযুক্ত অপ্টিমাইজেশন কঠিন
লেখকরা স্তর ফিউশন অপ্টিমাইজেশনে ব্যাখ্যাযোগ্য AI প্রযুক্তি প্রবর্তনের প্রস্তাব দেন, গ্রাফ ব্যাখ্যা প্রযুক্তি (GET) ব্যবহার করে ফিউশন গ্রুপকে অবৈধ করে এমন মূল অপারেশনগুলি চিহ্নিত করে, তারপর লোভী গাছ অ্যালগরিদম ব্যবহার করে DRAM অ্যাক্সেস খরচ কমাতে বুদ্ধিমানের সাথে বিভক্ত করে।
१. গ্রাফ ব্যাখ্যা প্রযুক্তি স্তর ফিউশন অপ্টিমাইজেশনে প্রথম প্রয়োগ: ব্যাখ্যাযোগ্য AI এবং হার্ডওয়্যার অপ্টিমাইজেশন ক্ষেত্রের উদ্ভাবনী সমন্বয় २. পুনরাবৃত্তিমূলক গাছ বিভাজন অ্যালগরিদম প্রস্তাব: লোভী কৌশল ভিত্তিক পুনরাবৃত্তিমূলক বিভাজন স্কিম ডিজাইন করা হয়েছে যা অবৈধ ফিউশন গ্রুপগুলি বুদ্ধিমানের সাথে পরিচালনা করতে পারে ३. ক্রস-ফিউশন পদ্ধতি যাচাইকরণ: LBDF এবং BRR দুটি ভিন্ন স্তর ফিউশন পদ্ধতিতে স্কিমের কার্যকারিতা যাচাই করা হয়েছে ४. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: EfficientNet-B3 এ ২০% এর বেশি DRAM অ্যাক্সেস হ্রাস অর্জন করা হয়েছে
একটি গভীর স্নায়ু নেটওয়ার্কের গণনা গ্রাফ G এবং অন-চিপ ক্যাশে ক্ষমতা β দেওয়া হলে, স্তর ফিউশন অপ্টিমাইজেশনের লক্ষ্য হল সর্বোত্তম বিভাজন স্কিম Φ খুঁজে পাওয়া যাতে:
min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β
যেখানে F_D DRAM অ্যাক্সেস খরচ গণনা করে, F_β ক্যাশে প্রয়োজনীয়তা গণনা করে, প্রতিটি ফিউশন গ্রুপ φn এর মেমরি প্রয়োজনীয়তা ক্যাশে ক্ষমতা β অতিক্রম করতে পারে না।
Validity = σ(p(y|φ, β, θ))তিনটি প্রধান গ্রাফ ব্যাখ্যা পদ্ধতি সমর্থন করে:
অ্যালগরিদম বিভাজন সমাধানগুলিকে তিনটি বিভাগে বিভক্ত করে:
আধুনিক DNN-তে অবশিষ্ট সংযোগ সহজ প্রান্ত মুছে ফেলা দ্বারা ফিউশন গ্রুপগুলি আলাদা করা অসম্ভব করে তোলে। অ্যালগরিদম টপোলজিক্যাল সর্টিং এবং পুনরাবৃত্তিমূলক পরীক্ষার মাধ্যমে নিশ্চিত করে যে নেস্টেড স্কিপ সংযোগ সঠিকভাবে পরিচালিত হয়।
বিভাজন ফলাফল এবং খরচ গণনা সংরক্ষণ করতে ক্যাশিং মেকানিজম ব্যবহার করা হয়, পুনরাবৃত্তিমূলক গণনা এড়ায়, অনুসন্ধান দক্ষতা উন্নত করে।
একাধিক ক্লাসিক্যাল এবং আধুনিক CNN আর্কিটেকচারের ONNX মডেল ব্যবহার করা হয়:
মোট ৫৪k এর বেশি ফিউশন গ্রুপ নমুনা উৎপন্ন করা হয়, ৫ ধরনের বিভিন্ন ক্যাশে আকার (१२८KB-२०४८KB) কভার করে।
२५६KB ক্যাশে, ५k অনুসন্ধান বাজেটের অধীনে ফলাফল:
| নেটওয়ার্ক | পদ্ধতি | DRAM অ্যাক্সেস(MB) | উন্নতি |
|---|---|---|---|
| EfficientNet-B3 | LS ভিত্তিরেখা | 90.500 | - |
| LS+GNNE | 78.007 | 13.8% | |
| NSGA-II+PG | 61.792 | 31.7% | |
| ResNet-152 | NSGA-II ভিত্তিরেখা | 77.205 | - |
| NSGA-II+RG | 66.621 | 13.7% |
१२८KB ক্যাশেতে BRR এবং LBDF ফলাফল দেখায় যে GET বর্ধিত পদ্ধতিগুলি প্রায় সমস্ত নেটওয়ার্কে ভিত্তিরেখা অতিক্রম করে, বিশেষত MobileNetV2 এর মতো জটিল নেটওয়ার্কে १०% এর বেশি উন্নতি অর্জন করে।
পরীক্ষা দেখায় যে GET ব্যবহার করে १k বাজেট অনুসন্ধান ভিত্তিরেখা ४k বাজেটের কর্মক্ষমতা অতিক্রম করতে পারে, পদ্ধতির উচ্চ দক্ষতা প্রমাণ করে।
চিত্র ४ EfficientNet অবৈধ ফিউশন গ্রুপের বিভিন্ন GET পদ্ধতির ব্যাখ্যা প্রদর্শন করে:
१. স্কেল প্রভাব: বৃহত্তর এবং আরও জটিল নেটওয়ার্কে, GET এর সুবিধা আরও স্পষ্ট २. সার্বজনীনতা: পদ্ধতি বিভিন্ন অনুসন্ধান অ্যালগরিদম এবং ফিউশন ধরনের জন্য কার্যকর ३. দক্ষতা উন্নতি: অনুসন্ধান প্রক্রিয়ায় অবৈধ স্কিম উৎপাদন উল্লেখযোগ্যভাবে হ্রাস করে
গ্রাফ ব্যাখ্যা প্রযুক্তি হার্ডওয়্যার অপ্টিমাইজেশন ক্ষেত্রে প্রথম প্রয়োগ, স্তর ফিউশন এই ক্লাসিক্যাল সমস্যার জন্য নতুন সমাধান পথ প্রদান করে।
१. গ্রাফ ব্যাখ্যা প্রযুক্তি ফিউশন গ্রুপকে অবৈধ করে এমন মূল অপারেশনগুলি কার্যকরভাবে চিহ্নিত করতে পারে २. পুনরাবৃত্তিমূলক লোভী বিভাজন অ্যালগরিদম জটিল নেটওয়ার্ক কাঠামো বুদ্ধিমানের সাথে পরিচালনা করতে পারে ३. পদ্ধতি একাধিক নেটওয়ার্ক আর্কিটেকচার এবং হার্ডওয়্যার কনফিগারেশনে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রদর্শন করে
१. হার্ডওয়্যার মডেল সরলীকরণ: বর্তমানে শুধুমাত্র ক্যাশে ক্ষমতা সীমাবদ্ধতা বিবেচনা করে, আরও জটিল হার্ডওয়্যার বৈশিষ্ট্য জড়িত নয় २. ফিউশন ধরন সীমাবদ্ধতা: BRR আধুনিক নেটওয়ার্ক কাঠামো (যেমন SE মডিউল) সমর্থন সীমিত ३. গণনা ওভারহেড: GNN প্রশিক্ষণ এবং GET সম্পাদন প্রাক-প্রসেসিং খরচ বৃদ্ধি করে
१. আরও হার্ডওয়্যার সীমাবদ্ধতায় সম্প্রসারণ: ব্যান্ডউইথ, বিলম্ব ইত্যাদি আরও কারণ বিবেচনা করে २. নতুন নেটওয়ার্ক কাঠামো সমর্থন: Transformer, গ্রাফ নিউরাল নেটওয়ার্ক ইত্যাদি অভিযোজন ३. শেষ থেকে শেষ অপ্টিমাইজেশন: স্তর ফিউশন অন্যান্য সংকলন অপ্টিমাইজেশন প্রযুক্তির সাথে একত্রিত করে
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো ব্যাখ্যাযোগ্য AI প্রযুক্তি হার্ডওয়্যার অপ্টিমাইজেশনে প্রয়োগ করা হয়েছে, নতুন গবেষণা দিক খুলে দেয় २. সম্পূর্ণ পদ্ধতি: সমস্যা মডেলিং থেকে অ্যালগরিদম ডিজাইন থেকে পরীক্ষামূলক যাচাইকরণ সম্পূর্ণ লুপ গঠন করে ३. পর্যাপ্ত পরীক্ষা: একাধিক নেটওয়ার্ক, ফিউশন পদ্ধতি এবং অনুসন্ধান অ্যালগরিদমের ব্যাপক যাচাইকরণ অন্তর্ভুক্ত করে ४. উচ্চ ব্যবহারিক মূল্য: প্রকৃত স্থাপনা পরিস্থিতিতে সরাসরি প্রয়োগ মূল্য রয়েছে
१. তাত্ত্বিক বিশ্লেষণ অনুপস্থিত: পদ্ধতির সংমিশ্রণ এবং সর্বোত্তমতার জন্য তাত্ত্বিক গ্যারান্টি অনুপস্থিত २. হার্ডওয়্যার যাচাইকরণ অপর্যাপ্ত: পরীক্ষা প্রধানত সিমুলেশন ভিত্তিক, প্রকৃত হার্ডওয়্যার প্ল্যাটফর্ম যাচাইকরণ অনুপস্থিত ३. স্কেলেবিলিটি অজানা: বৃহত্তর নেটওয়ার্ক পরিচালনার ক্ষমতা যাচাইকরণের অপেক্ষায়
१. একাডেমিক অবদান: সিস্টেম অপ্টিমাইজেশনে ব্যাখ্যাযোগ্য AI প্রয়োগের উদাহরণ প্রদান করে २. ব্যবহারিক মূল্য: গভীর শিক্ষা সংকলক এবং স্থাপনা সরঞ্জামে সরাসরি প্রয়োগ করা যায় ३. অনুপ্রেরণামূলক অর্থ: আরও AI4Systems গবেষণা কাজ অনুপ্রাণিত করতে পারে
পেপারটি স্তর ফিউশন, গ্রাফ নিউরাল নেটওয়ার্ক, ব্যাখ্যাযোগ্য AI ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের আন্তঃশৃঙ্খলাবদ্ধ গবেষণা পেপার যা ব্যাখ্যাযোগ্য AI প্রযুক্তি হার্ডওয়্যার অপ্টিমাইজেশন সমস্যায় সফলভাবে প্রয়োগ করে, পদ্ধতি উদ্ভাবনী এবং পরীক্ষা পর্যাপ্ত। যদিও তাত্ত্বিক বিশ্লেষণ এবং হার্ডওয়্যার যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর উদ্ভাবনী এবং ব্যবহারিক মূল্য এটিকে গভীর শিক্ষা সিস্টেম অপ্টিমাইজেশন ক্ষেত্রে গুরুত্বপূর্ণ করে তোলে।