The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.
- পেপার আইডি: 2510.13362
- শিরোনাম: অ-কোয়ান্টাইজড কনভোলিউশনাল নিউরাল নেটওয়ার্কের জন্য শক্তি-দক্ষ FPGA ফ্রেমওয়ার্ক
- লেখক: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
- প্রতিষ্ঠান: ¹অ্যারিস্টটল বিশ্ববিদ্যালয় থেসালোনিকি, ²আন্তর্জাতিক হেলেনিক বিশ্ববিদ্যালয়
- শ্রেণীবিভাগ: cs.AR (কম্পিউটার আর্কিটেকচার)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.13362
কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশনে রিয়েল-টাইম প্রসেসিং চাহিদা ক্রমাগত বৃদ্ধি পাচ্ছে, বিশেষত কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) জড়িত অ্যাপ্লিকেশনে। দক্ষ কম্পিউটিং সমাধানের চাহিদা ক্রমবর্ধমান, বিশেষ করে এম্বেডেড সিস্টেম এবং এজ কম্পিউটিং প্ল্যাটফর্মে। ফিল্ড প্রোগ্রামেবল গেট অ্যারে (FPGA) উচ্চ কর্মক্ষমতা, শক্তি দক্ষতা এবং পুনর্নির্মাণযোগ্যতা একত্রিত করে একটি প্রতিশ্রুতিশীল বিকল্প প্রদান করে। এই পেপারে প্রস্তাবিত ফ্রেমওয়ার্ক FPGA-তে CNN-এর জটিল কম্পিউটিং চাহিদা পরিচালনা করে, সমস্ত নিউরাল নেটওয়ার্ক পরামিতির সম্পূর্ণ নির্ভুলতা বজায় রেখে। এই ফ্রেমওয়ার্ক ব্যাপকভাবে ব্যবহৃত Darknet CNN ডিজাইন ফ্রেমওয়ার্কের উপর ভিত্তি করে, ডিজাইনারদের Darknet-এর মতো ইনপুট ব্যবহার করে CPU এবং FPGA সমন্বিত সিস্টেমে CNN দক্ষতার সাথে বাস্তবায়ন করতে দেয়। কোয়ান্টাইজেশন সমর্থনকারী FPGA ফ্রেমওয়ার্কের তুলনায়, এই সমাধান নিউরাল নেটওয়ার্কের নির্ভুলতা হ্রাস না করে অনুরূপ কর্মক্ষমতা এবং/অথবা শক্তি দক্ষতা প্রদান করার লক্ষ্য রাখে।
এই গবেষণার মূল সমস্যা হল FPGA-তে অ-কোয়ান্টাইজড কনভোলিউশনাল নিউরাল নেটওয়ার্ক দক্ষতার সাথে বাস্তবায়ন করা, সম্পূর্ণ নির্ভুলতা পরামিতি বজায় রেখে উচ্চ কর্মক্ষমতা এবং শক্তি দক্ষতা অর্জন করা।
- রিয়েল-টাইম প্রসেসিং চাহিদা বৃদ্ধি: কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশন, বিশেষত CNN অ্যাপ্লিকেশন রিয়েল-টাইম প্রসেসিং ক্রমাগত বৃদ্ধি করছে
- ঐতিহ্যবাহী প্রসেসরের সীমাবদ্ধতা: ঐতিহ্যবাহী CPU কর্মক্ষমতা, শক্তি খরচ এবং বিলম্বের ভারসাম্যে অপর্যাপ্ত
- এম্বেডেড এবং এজ কম্পিউটিং চ্যালেঞ্জ: সম্পদ সীমিত ডিভাইসগুলি আরও দক্ষ কম্পিউটিং সমাধান প্রয়োজন
- কোয়ান্টাইজেশন পদ্ধতির নির্ভুলতা হ্রাস: বিদ্যমান FPGA ফ্রেমওয়ার্ক প্রধানত কোয়ান্টাইজড মডেলে ফোকাস করে, যা সম্পদ ব্যবহার এবং শক্তি খরচ হ্রাস করে কিন্তু প্রায়শই নির্ভুলতা ত্যাগ করে
- ডিজাইন জটিলতা: ব্যবহারকারী-বান্ধব এবং দক্ষ ডিজাইন প্রবাহের অভাব
- কর্মক্ষমতা এবং নির্ভুলতা ট্রেড-অফ: সম্পূর্ণ নির্ভুলতা বজায় রেখে উচ্চ কর্মক্ষমতা এবং শক্তি দক্ষতা অর্জন করা কঠিন
FPGA-তে অ-কোয়ান্টাইজড CNN বাস্তবায়নের জন্য একটি ফ্রেমওয়ার্ক বিকাশ করা, যা মডেলের উচ্চ নির্ভুলতা বজায় রাখে এবং উৎকৃষ্ট কর্মক্ষমতা এবং শক্তি দক্ষতা অর্জন করে।
- নির্ভুলতা সংরক্ষণ: কোয়ান্টাইজেশন এড়িয়ে এবং সম্পূর্ণ নির্ভুলতা বজায় রেখে, ফ্রেমওয়ার্ক CNN মডেলের নির্ভুলতা সংরক্ষণ করার লক্ষ্য রাখে
- উচ্চ ডিজাইন উৎপাদনশীলতা এবং নমনীয়তা: ব্যাপকভাবে ব্যবহৃত DarkNet CNN ডিজাইন ফ্রেমওয়ার্কের উপর ভিত্তি করে, বিশুদ্ধ C/C++ বাস্তবায়ন ব্যবহার করে, ছোট থেকে বড় সমস্ত FPGA সমর্থন করে
- উচ্চ কর্মক্ষমতা: যেকোনো FPGA-র সমান্তরালতা সম্পূর্ণভাবে ব্যবহার করে CNN অনুমান প্রক্রিয়া ত্বরান্বিত করে, সময়োপযোগী এবং দক্ষ প্রসেসিং নিশ্চিত করে
- শক্তি দক্ষতা অপ্টিমাইজেশন: FPGA-তে CNN অনুমানের শক্তি দক্ষতার জন্য অপ্টিমাইজ করা, শক্তি-সংবেদনশীল অ্যাপ্লিকেশনের জন্য উপযুক্ত
এই পেপারে গবেষণা করা কাজ হল FPGA-তে দক্ষ অ-কোয়ান্টাইজড CNN অনুমান বাস্তবায়ন, ইনপুট হল CNN মডেল কনফিগারেশন ফাইল (Darknet ফর্ম্যাটের মতো), আউটপুট হল CPU-FPGA সমন্বিত সিস্টেমে উচ্চ-কর্মক্ষমতা CNN বাস্তবায়ন।
চিত্র 1 অনুযায়ী, ফ্রেমওয়ার্ক নিম্নলিখিত আর্কিটেকচার ডিজাইন গ্রহণ করে:
- ইনপুট প্রসেসিং: নতুন cfg ফাইল সরঞ্জামে আমদানি করা
- প্রাক-প্রসেসিং: OpenMP ব্যবহার করে সমান্তরাল প্রাক-প্রসেসিং
- পার্সার: নেটওয়ার্ক কাঠামো পার্স করা, কনভোলিউশনাল স্তর, ডি-কনভোলিউশনাল স্তর এবং অন্যান্য স্তর চিহ্নিত করা
- কম্পিউটিং ইঞ্জিন: উদ্ভাবনী HLS কম্পিউটিং ইঞ্জিন মূল উপাদান হিসাবে
- সমান্তরাল প্রসেসিং: OpenMP ব্যবহার করে সমান্তরাল প্রসেসিং
- FPGA বাস্তবায়ন: চূড়ান্ত FPGA-তে নিউরাল নেটওয়ার্ক বাস্তবায়ন
উদ্ভাবনী কম্পিউটিং ইঞ্জিন উচ্চ-স্তরের সংশ্লেষণ (HLS) প্রযুক্তি ব্যবহার করে, যা একটি একক ঘড়ির চক্রে একাধিক গাণিতিক ক্রিয়াকলাপ সম্পাদন করতে পারে, তুলনামূলকভাবে উচ্চ থ্রুপুট এবং কর্মক্ষমতা অর্জন করে।
চিত্র 2 অনুযায়ী, HLS FPGA কার্নেল প্রধানত ম্যাট্রিক্স গুণন কাজ পরিচালনা করে, যা প্রায় সমস্ত CNN বাস্তবায়নের ভিত্তি:
- মেমরি অপ্টিমাইজেশন: অন-চিপ মেমরি অ্যাক্সেস প্যাটার্ন অপ্টিমাইজ করতে অভ্যন্তরীণ BRAM এবং HLS স্ট্রিম একত্রিত করা
- স্ট্রিম প্রসেসিং মেকানিজম:
- প্রসেসিং উপাদানগুলির মধ্যে ক্রমাগত ডেটা প্রবাহ বাস্তবায়ন, BRAM-এ মধ্যবর্তী সংরক্ষণের প্রয়োজন নেই
- বিলম্ব এবং সম্পদ ওভারহেড হ্রাস করা
- পাইপলাইন সম্পাদন সমর্থন করা এবং সমান্তরালতা বৃদ্ধি করা
- উৎপাদক এবং ভোক্তা প্রক্রিয়ার মধ্যে সরাসরি ডেটা স্থানান্তর করা
- একাধিক মেমরি চ্যানেল ব্যবহার:
- আধুনিক FPGA সংযুক্ত একাধিক মেমরি লাইব্রেরি এবং নিবেদিত চ্যানেল ব্যবহার করা
- উপযুক্ত HLS নির্দেশনা সন্নিবেশ করা, ডেটা স্থানান্তর প্যারামিটারযোগ্য সংখ্যক মেমরি লাইব্রেরি/চ্যানেলে বরাদ্দ করা
- প্রতিটি মেমরি ইন্টারফেসের উপলব্ধ ব্যান্ডউইথ সম্পূর্ণভাবে ব্যবহার করা
- উচ্চ ব্যান্ডউইথ ডেটা স্থানান্তর: CPU এবং FPGA-র মধ্যে ডেটা স্থানান্তর সম্পূর্ণ ডেটা প্রস্থ (512 বিট) প্রতি ঘড়ির চক্রে সম্পাদিত হয়, প্রসেসিং উপাদান এবং মেমরি সাবসিস্টেমের মধ্যে উচ্চ থ্রুপুট যোগাযোগ নিশ্চিত করে
- সম্পূর্ণ নির্ভুলতা সংরক্ষণ: বিদ্যমান কোয়ান্টাইজেশন পদ্ধতির বিপরীতে, এই ফ্রেমওয়ার্ক সমস্ত পরামিতির সম্পূর্ণ নির্ভুলতা বজায় রাখে
- স্ট্রিম প্রসেসিং অপ্টিমাইজেশন: উদ্ভাবনী স্ট্রিম প্রসেসিং মেকানিজম BRAM-এর উপর নির্ভরতা হ্রাস করে, সম্পদ ব্যবহার দক্ষতা উন্নত করে
- একাধিক চ্যানেল মেমরি অ্যাক্সেস: আধুনিক FPGA-র একাধিক মেমরি চ্যানেল বৈশিষ্ট্য সম্পূর্ণভাবে ব্যবহার করা
- Darknet-ভিত্তিক ডিজাইন প্রবাহ: পরিচিত এবং ব্যবহারকারী-বান্ধব ডিজাইন ইন্টারফেস প্রদান করা
- উচ্চ-সম্পন্ন FPGA: AMD Alveo U55C
- এম্বেডেড FPGA: Kria KR260
- তুলনামূলক CPU: Intel Xeon E5-2620 v4 (8-কোর) এবং ARM Cortex-A53 (4-কোর)
- তুলনামূলক GPU: NVIDIA T4
- ম্যাট্রিক্স মাত্রা: M=2048, K=4096, N=16384
- ডেটা প্রকার: FP32 (32-বিট ফ্লোটিং পয়েন্ট)
- পরীক্ষার উদ্দেশ্য: পদ্ধতির নমনীয়তা প্রদর্শনের জন্য অ-শীর্ষ কর্মক্ষমতা ম্যাট্রিক্স মাত্রা নির্বাচন করা
- কর্মক্ষমতা: GFLOPS (প্রতি সেকেন্ডে বিলিয়ন ফ্লোটিং পয়েন্ট অপারেশন)
- শক্তি দক্ষতা: GFLOPS/Watt
- ত্বরণ অনুপাত: রেফারেন্স বাস্তবায়ন এবং CPU সমান্তরাল বাস্তবায়নের তুলনায় কর্মক্ষমতা বৃদ্ধি
- রেফারেন্স বাস্তবায়নের তুলনায়: 2 অর্ডার অফ ম্যাগনিটিউড কর্মক্ষমতা বৃদ্ধি
- ARM 4-কোর CPU-র তুলনায়: 9 গুণ কর্মক্ষমতা বৃদ্ধি
- শক্তি দক্ষতা বৃদ্ধি: সেরা CPU সমান্তরাল বাস্তবায়নের তুলনায় 9 গুণ বৃদ্ধি
- রেফারেন্স বাস্তবায়নের তুলনায়: প্রায় 3 অর্ডার অফ ম্যাগনিটিউড কর্মক্ষমতা বৃদ্ধি
- Intel Xeon CPU-র তুলনায়: 10 গুণ কর্মক্ষমতা বৃদ্ধি
- শক্তি দক্ষতা বৃদ্ধি: সেরা CPU সমান্তরাল বাস্তবায়নের তুলনায় 34 গুণ বৃদ্ধি
- NVIDIA T4 GPU-র তুলনায়: 3 গুণ শক্তি দক্ষতা বৃদ্ধি (যদিও T4 আরও উন্নত 12nm প্রক্রিয়া ব্যবহার করে, যখন U55C 16nm)
- উল্লেখযোগ্য কর্মক্ষমতা বৃদ্ধি: সমস্ত পরীক্ষা প্ল্যাটফর্মে অর্ডার অফ ম্যাগনিটিউড কর্মক্ষমতা উন্নতি অর্জিত হয়েছে
- উৎকৃষ্ট শক্তি দক্ষতা কর্মক্ষমতা: বিশেষত Alveo U55C-তে 34 গুণ শক্তি দক্ষতা বৃদ্ধি অর্জিত হয়েছে
- প্রযুক্তিগত সুবিধা: প্রক্রিয়া প্রযুক্তিতে অসুবিধা সত্ত্বেও, এখনও GPU-র শক্তি দক্ষতা অতিক্রম করেছে
- সামঞ্জস্য যাচাইকরণ: বিভিন্ন ম্যাট্রিক্স মাত্রার পরীক্ষার ফলাফল চিত্র 3 প্রদর্শিত ফলাফলের সাথে সম্পূর্ণভাবে সামঞ্জস্যপূর্ণ
পেপারটি নিম্নলিখিত সম্পর্কিত কাজ উদ্ধৃত করেছে:
- Xu এবং অন্যান্য (2024): FLARE - পুনর্নির্মাণযোগ্য কাঠামো সহ FPGA-ভিত্তিক সম্পূর্ণ নির্ভুলতা কম-শক্তি CNN ত্বরক
- Chen এবং অন্যান্য (2021): FPGA-র জন্য n-বিট কোয়ান্টাইজড নিউরাল নেটওয়ার্ক শেখার ফ্রেমওয়ার্ক
- Latotzke এবং অন্যান্য (2022): FPGA-তে উচ্চ থ্রুপুট মিশ্র নির্ভুলতা CNN ত্বরক ডিজাইন
এই পেপারটির সম্পর্কিত কাজের সাথে প্রধান পার্থক্য হল অ-কোয়ান্টাইজড বাস্তবায়নে ফোকাস করা, সম্পূর্ণ নির্ভুলতা বজায় রেখে উচ্চ কর্মক্ষমতা এবং শক্তি দক্ষতা অর্জন করা।
- মূল চাহিদা সফলভাবে সমাধান: এই গবেষণা শক্তি-সীমিত পরিবেশে দক্ষ CNN বাস্তবায়নের মূল চাহিদা সফলভাবে সমাধান করেছে
- কর্মক্ষমতা এবং শক্তি দক্ষতা একত্রিত: প্রস্তাবিত অ-কোয়ান্টাইজড FPGA CNN ফ্রেমওয়ার্ক সফলভাবে উচ্চ কর্মক্ষমতা এবং শক্তি দক্ষতা একত্রিত করেছে
- নির্ভুলতা নিশ্চিতকরণ: নেটওয়ার্ক পরামিতির সম্পূর্ণ নির্ভুলতা বজায় রেখে উচ্চ নির্ভুলতা অর্জন করা, সম্পদ ব্যবহার বা শক্তি খরচে বাধা না দিয়ে
- পরীক্ষামূলক যাচাইকরণ কার্যকারিতা: পরীক্ষার ফলাফল ফ্রেমওয়ার্কের কার্যকারিতা যাচাই করেছে, অনুমান প্রসেসিং-এ উল্লেখযোগ্য ত্বরণ এবং শক্তি ব্যবহারে উল্লেখযোগ্য হ্রাস প্রদর্শন করেছে
- পরীক্ষার পরিধি: পরীক্ষা প্রধানত ম্যাট্রিক্স গুণন ক্রিয়াকলাপে কেন্দ্রীভূত, সম্পূর্ণ CNN নেটওয়ার্কের পরীক্ষার ফলাফল বিস্তারিতভাবে প্রদর্শিত হয়নি
- নির্ভুলতা যাচাইকরণ: যদিও নির্ভুলতা সংরক্ষণ দাবি করা হয়েছে, কিন্তু নির্দিষ্ট নির্ভুলতা তুলনামূলক ডেটা অনুপস্থিত
- প্রযোজ্যতার পরিধি: ফ্রেমওয়ার্কের প্রযোজ্যতা FPGA সম্পদ এবং নির্দিষ্ট অ্যাপ্লিকেশন প্রয়োজনীয়তা দ্বারা সীমিত হতে পারে
পেপারটি নির্দিষ্ট ভবিষ্যত গবেষণা দিকনির্দেশনা স্পষ্টভাবে উল্লেখ করেনি, কিন্তু অনুমান করা যায় যে এতে অন্তর্ভুক্ত রয়েছে:
- আরও ব্যাপক CNN নেটওয়ার্ক পরীক্ষা এবং যাচাইকরণ
- আরও শক্তি দক্ষতা অপ্টিমাইজেশন
- আরও ধরনের নিউরাল নেটওয়ার্ক স্তর সমর্থন করা
- প্রযুক্তিগত উদ্ভাবনশীলতা:
- সম্পূর্ণ নির্ভুলতা বজায় রেখে উচ্চ-কর্মক্ষমতা FPGA CNN বাস্তবায়ন অর্জন করা
- উদ্ভাবনী HLS কম্পিউটিং ইঞ্জিন ডিজাইন, স্ট্রিম প্রসেসিং এবং একাধিক মেমরি চ্যানেল কার্যকরভাবে ব্যবহার করা
- পরীক্ষামূলক সম্পূর্ণতা:
- একাধিক হার্ডওয়্যার প্ল্যাটফর্মে ব্যাপক পরীক্ষা পরিচালিত হয়েছে
- CPU এবং GPU-র সাথে তুলনামূলক পরীক্ষা অন্তর্ভুক্ত রয়েছে
- কর্মক্ষমতা এবং শক্তি দক্ষতা মেট্রিক্স বিস্তারিতভাবে পরিমাপ করা হয়েছে
- ব্যবহারিক মূল্য:
- ব্যাপকভাবে ব্যবহৃত Darknet ফ্রেমওয়ার্কের উপর ভিত্তি করে, গ্রহণ করা সহজ
- ছোট থেকে বড় সমস্ত FPGA সমর্থন করে
- শক্তি-সংবেদনশীল অ্যাপ্লিকেশন পরিস্থিতিতে প্রযোজ্য
- ফলাফলের প্রভাবশীলতা:
- অর্ডার অফ ম্যাগনিটিউড কর্মক্ষমতা বৃদ্ধি অর্জন করা
- একাধিক মেট্রিকে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করা
- প্রক্রিয়া প্রযুক্তিতে অসুবিধা সত্ত্বেও এখনও GPU শক্তি দক্ষতা অতিক্রম করা
- সম্পূর্ণতা যাচাইকরণ অপর্যাপ্ত:
- সম্পূর্ণ CNN নেটওয়ার্কের এন্ড-টু-এন্ড পরীক্ষার ফলাফল অনুপস্থিত
- নির্ভুলতা সংরক্ষণ যাচাইকরণের জন্য নির্দিষ্ট ডেটা প্রদান করা হয়নি
- প্রধান পরীক্ষা ম্যাট্রিক্স গুণন স্তরে কেন্দ্রীভূত
- তুলনামূলক মানদণ্ড নির্বাচন:
- রেফারেন্স বাস্তবায়ন যথেষ্ট অপ্টিমাইজড নাও হতে পারে
- অন্যান্য উন্নত FPGA CNN ফ্রেমওয়ার্কের সাথে তুলনা অনুপস্থিত
- প্রযুক্তিগত বিবরণ অপর্যাপ্ত:
- HLS বাস্তবায়নের নির্দিষ্ট অপ্টিমাইজেশন কৌশল বর্ণনা যথেষ্ট বিস্তারিত নয়
- সম্পদ ব্যবহার হার ডেটা অনুপস্থিত
- মেমরি ব্যান্ডউইথ ব্যবহার দক্ষতা বিশ্লেষণ যথেষ্ট গভীর নয়
- প্রযোজ্যতা বিশ্লেষণ:
- পদ্ধতির সীমাবদ্ধতা এবং প্রযোজ্যতার পরিধি যথেষ্ট আলোচনা করা হয়নি
- বিভিন্ন আকারের CNN-এর স্কেলেবিলিটি বিশ্লেষণ অপর্যাপ্ত
- একাডেমিক অবদান:
- অ-কোয়ান্টাইজড FPGA CNN বাস্তবায়নের জন্য নতুন সমাধান প্রদান করা
- নির্ভুলতা বজায় রেখে উচ্চ কর্মক্ষমতা অর্জন করা, গুরুত্বপূর্ণ তাত্ত্বিক মূল্য রয়েছে
- ব্যবহারিক মূল্য:
- পরিপক্ক সরঞ্জাম চেইনের উপর ভিত্তি করে, প্রকৌশল বাস্তবায়ন সুবিধাজনক
- এজ কম্পিউটিং এবং এম্বেডেড AI অ্যাপ্লিকেশনের জন্য প্রযোজ্য
- পুনরুৎপাদনযোগ্যতা:
- মান HLS সরঞ্জাম এবং ওপেন-সোর্স Darknet ফ্রেমওয়ার্কের উপর ভিত্তি করে
- প্রযুক্তিগত রুট তুলনামূলকভাবে স্পষ্ট, নির্দিষ্ট পুনরুৎপাদনযোগ্যতা রয়েছে
- এজ AI অ্যাপ্লিকেশন: শক্তি-সংবেদনশীল এবং নির্ভুলতার উচ্চ প্রয়োজনীয়তার পরিস্থিতি
- রিয়েল-টাইম ইমেজ প্রসেসিং: কম বিলম্ব এবং উচ্চ কর্মক্ষমতা প্রয়োজনীয় ভিজ্যুয়াল প্রসেসিং কাজ
- এম্বেডেড সিস্টেম: সম্পদ সীমিত কিন্তু AI ক্ষমতা প্রয়োজনীয় ডিভাইস
- শিল্প অটোমেশন: নির্ভরযোগ্যতা এবং নির্ভুলতার উচ্চ প্রয়োজনীয়তার শিল্প AI অ্যাপ্লিকেশন
1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24
2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.
3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.
সামগ্রিক মূল্যায়ন: এটি FPGA CNN ত্বরক ক্ষেত্রে ব্যবহারিক মূল্য সহ একটি পেপার, যা সম্পূর্ণ নির্ভুলতা সংরক্ষণের উদ্ভাবনী সমাধান প্রস্তাব করে, পরীক্ষার ফলাফল চিত্তাকর্ষক। তবে, পেপারটি সম্পূর্ণতা যাচাইকরণ এবং প্রযুক্তিগত বিবরণ বর্ণনায় উন্নতির অবকাশ রয়েছে। উচ্চ নির্ভুলতার প্রয়োজনীয় AI অ্যাপ্লিকেশন পরিস্থিতির জন্য, এই ফ্রেমওয়ার্কের গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে।