2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.

Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.

academic

গভীর স্নায়ু নেটওয়ার্ক কর্মক্ষমতা উন্নতি নমুনা গ্রহণের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2507.07763
শিরোনাম: গভীর স্নায়ু নেটওয়ার্ক কর্মক্ষমতা উন্নতি নমুনা গ্রহণের মাধ্যমে
লেখক: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
শ্রেণীবিভাগ: cond-mat.dis-nn
প্রকাশনার সময়: ২৭ অক্টোবর, ২০২৫ (arXiv প্রাক-প্রিন্ট)
প্রতিষ্ঠান: Purdue University Elmore School of Electrical and Computer Engineering
পেপার লিংক: https://arxiv.org/abs/2507.07763

সারসংক্ষেপ

এই পেপারটি সম্ভাব্যতামূলক নিউরন (p-bits) এর শক্তি-দক্ষ নমুনা গ্রহণ পদ্ধতিকে বোলৎজম্যান মেশিন থেকে জেনারেটিভ এআই ক্ষেত্রে সম্প্রসারণের সম্ভাবনা অন্বেষণ করে। বর্তমান গভীর স্নায়ু নেটওয়ার্কগুলি প্রধানত মাল্টি-বিট নির্ধারণীয় নিউরন ব্যবহার করে এবং নমুনা গ্রহণ প্রক্রিয়ার অভাব রয়েছে এই সমস্যার সমাধানে, পেপারটি প্রথমে প্রমাণ করে যে সম্ভাব্যতামূলক নেটওয়ার্ক দ্বারা উৎপাদিত একাধিক নমুনা আরও ভাল নির্ভুলতা অর্জন করতে পারে। এরপর একটি মূল প্রশ্ন উত্থাপন করা হয়: নির্ভুলতা উন্নত করার জন্য, আরও বেশি নমুনা তৈরি করা বা একক নির্ধারণীয় নমুনার বিট সংখ্যা বৃদ্ধি করা - কোনটি শক্তি খরচের দিক থেকে আরও অনুকূল? পেপারটি একটি সহজ শক্তি খরচ বিনিময় অনুমান অভিব্যক্তি প্রদান করে এবং বিভিন্ন অ্যালগরিদম এবং আর্কিটেকচারের পরীক্ষামূলক ফলাফল দ্বারা এটি যাচাই করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

১. শক্তি খরচ সংকট: জেনারেটিভ এআই এর শক্তি খরচ নিষেধাত্মক স্তরে পৌঁছেছে, শক্তি দক্ষতা অপ্টিমাইজেশন সমাধানের জরুরি প্রয়োজন রয়েছে २. প্রযুক্তিগত পার্থক্য: বোলৎজম্যান মেশিনে সম্ভাব্যতামূলক নিউরন (p-bits) উল্লেখযোগ্য শক্তি দক্ষতা সুবিধা প্রমাণ করেছে, কিন্তু ফিডফরওয়ার্ড গভীর স্নায়ু নেটওয়ার্কগুলি এখনও প্রধানত মাল্টি-বিট নির্ধারণীয় নিউরন ব্যবহার করে ३. নমুনা গ্রহণের অভাব: বর্তমান মূলধারার DNN আর্কিটেকচার নমুনা গ্রহণ প্রক্রিয়ার অভাব রয়েছে, যা সম্ভাব্যতামূলক অনুমানে এর ক্ষমতা সীমাবদ্ধ করে

গবেষণা প্রেরণা

१. p-bits প্রয়োগ সম্প্রসারণ: Ising গণনায় যাচাইকৃত p-bits শক্তি দক্ষতা সুবিধা মেশিন লার্নিং ক্ষেত্রে সম্প্রসারণ করা २. শক্তি-নির্ভুলতা বিনিময়: নমুনা সংখ্যা এবং বিট নির্ভুলতার মধ্যে শক্তি খরচ বিনিময় সম্পর্ক সিস্টেমেটিকভাবে বিশ্লেষণ করা ३. একীভূত মূল্যায়ন কাঠামো: একটি সর্বজনীন শক্তি খরচ মূল্যায়ন কাঠামো প্রতিষ্ঠা করা যা বিভিন্ন আর্কিটেকচার এবং অ্যালগরিদমের জন্য প্রযোজ্য

মূল অবদান

१. সম্ভাব্যতামূলক DNN (p-DNN) কাঠামো প্রস্তাব: p-bits কে ফিডফরওয়ার্ড গভীর স্নায়ু নেটওয়ার্কে একীভূত করা, নমুনা-ভিত্তিক অনুমান বাস্তবায়ন করা २. নমুনা-সচেতন প্রশিক্ষণ পদ্ধতি উন্নয়ন: মাল্টি-নমুনা গড় প্রশিক্ষণ কৌশলের মাধ্যমে, সম্ভাব্যতামূলক নেটওয়ার্কের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করা ३. শক্তি বিশ্লেষণ কাঠামো প্রতিষ্ঠা: একটি সর্বজনীন মৌলিক অপারেশন শক্তি খরচ মডেল প্রস্তাব করা, বিভিন্ন আর্কিটেকচার এবং অ্যালগরিদমের শক্তি বিনিময় মূল্যায়ন করতে পারে ४. ব্যবহারিক সম্ভাব্যতা যাচাইকরণ: FPGA বাস্তবায়নের মাধ্যমে তাত্ত্বিক বিশ্লেষণের নির্ভুলতা যাচাই করা, পদ্ধতির ব্যবহারিক মূল্য প্রমাণ করা ५. পরিমাণগত অন্তর্দৃষ্টি প্রদান: প্রমাণ করা যে মাত্র ২টি নমুনা নির্ধারণীয় ভিত্তিরেখা অতিক্রম করতে পারে, ১০টি নমুনা ৩-বিট নির্ধারণীয় মডেলের নির্ভুলতার সাথে মেলে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই পেপারটি গভীর স্নায়ু নেটওয়ার্কে সম্ভাব্যতামূলক নমুনা গ্রহণ প্রক্রিয়া কীভাবে প্রবর্তন করতে হয় তা অধ্যয়ন করে, আরও ভাল শক্তি-নির্ভুলতা বিনিময় অর্জন করতে। নির্দিষ্টভাবে অন্তর্ভুক্ত:

ইনপুট: ঐতিহ্যবাহী মাল্টি-বিট নির্ধারণীয় DNN
আউটপুট: p-bits ভিত্তিক সম্ভাব্যতামূলক DNN, যা একাধিক নমুনা তৈরি করতে পারে এবং গড়ের মাধ্যমে কর্মক্ষমতা উন্নত করতে পারে
সীমাবদ্ধতা: নির্ভুলতা বজায় বা উন্নত করার পূর্বশর্তে, সামগ্রিক শক্তি দক্ষতা অপ্টিমাইজ করা

মডেল আর্কিটেকচার

१. p-DNN মৌলিক নির্মাণ ব্লক

পেপারটি p-DNN এর মৌলিক অপারেশন ইউনিট সংজ্ঞায়িত করে (চিত্র ১), যার শক্তি খরচ মডেল হল:

$\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N$

যেখানে:

$\epsilon_{wM}, \epsilon_{aM}$ : ওজন এবং সক্রিয়করণ মেমরি অ্যাক্সেস শক্তি খরচ
$\epsilon_S$ : সিন্যাপটিক গণনা শক্তি খরচ
$\epsilon_N$ : নিউরন শক্তি খরচ
$n$ : ফ্যান-ইন সংযোগ সংখ্যা
$b_w, b_a$ : ওজন এবং সক্রিয়করণ বিট সংখ্যা

२. মাল্টি-নমুনা শক্তি খরচ মডেল

T টি নমুনার ক্ষেত্রে, শক্তি খরচ মডেল সংশোধিত হয়:

$\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]$

এটি নির্দেশ করে যে যখন ওজন লোডিং শক্তি খরচ প্রভাবশালী হয়, তখন মাল্টি-নমুনার প্রান্তিক খরচ কম হয়।

३. নমুনা-সচেতন প্রশিক্ষণ কৌশল

ফরওয়ার্ড প্রপাগেশন: প্রতিটি স্তরের সক্রিয়করণ ফাংশনে র্যান্ডমনেস যোগ করা, একাধিক নমুনা তৈরি করা
ক্ষতি গণনা: মাল্টি-নমুনা গড় ফলাফলের উপর ভিত্তি করে ক্ষতি গণনা করা
ব্যাকপ্রপাগেশন: র্যান্ডম সক্রিয়করণের গ্রেডিয়েন্ট পরিচালনা করতে সরাসরি-মাধ্যমে অনুমানকারী ব্যবহার করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. MAC থেকে AC এ সরলীকরণ

ঐতিহ্যবাহী গুণ-সংযোজন (MAC) অপারেশনকে সংযোজন (AC) অপারেশনে সরলীকরণ করা:

নির্ধারণীয়: $w_1x_1 + w_2x_2 + ... + w_nx_n$ (গুণন প্রয়োজন)
সম্ভাব্যতামূলক: নির্বাচনী ওজন উপসেট সংযোজন (শুধুমাত্র সংযোজন প্রয়োজন)

२. p-bit সক্রিয়করণ ফাংশন

$b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\})$ ফর্মের সম্ভাব্যতামূলক সক্রিয়করণ ব্যবহার করা, যেখানে র্যান্ডম সংখ্যা নমুনা গ্রহণের র্যান্ডমনেস প্রদান করে।

३. শব্দ ইনজেকশন পদ্ধতি

ইতিমধ্যে প্রশিক্ষিত নির্ধারণীয় মডেলে শব্দ যোগ করা, পুনরায় প্রশিক্ষণ ছাড়াই নমুনা গ্রহণের সুবিধা অর্জন করা।

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. CIFAR-10: চিত্র শ্রেণীবিভাগ কাজের জন্য, ৫০,০০০ প্রশিক্ষণ চিত্র, ১০,০০০ পরীক্ষা চিত্র २. CelebA: মুখ চিত্র প্রজন্মের জন্য, ১৬२,७७० প্রশিক্ষণ চিত্র, ६४×६४×३ এ স্কেল করা ३. MNIST: FPGA যাচাইকরণ পরীক্ষার জন্য সংখ্যা প্রজন্ম কাজ

মূল্যায়ন মেট্রিক্স

শ্রেণীবিভাগ কাজ: নির্ভুলতা (Accuracy)
প্রজন্ম কাজ: Fréchet Inception Distance (FID)
শক্তি মেট্রিক্স: প্রতিটি অনুমানের শক্তি খরচ (J/inference), শক্তি লাভ অনুপাত

তুলনামূলক পদ্ধতি

३२-বিট নির্ধারণীয় DNN ভিত্তিরেখা
বিভিন্ন বিট সংখ্যার কোয়ান্টাইজড মডেল (१-বিট, ३-বিট ইত্যাদি)
র্যান্ডম বিট স্ট্রিম পদ্ধতি

বাস্তবায়ন বিবরণ

অপ্টিমাইজার: ADAM অপ্টিমাইজার
শেখার হার: १e-३ (শ্রেণীবিভাগ), १e-४ (প্রজন্ম)
প্রশিক্ষণ যুগ: १००० epochs
ব্যাচ আকার: ६४
ওজন আরম্ভীকরণ: Glorot আরম্ভীকরণ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

१. চিত্র শ্রেণীবিভাগ কর্মক্ষমতা

१ টি নমুনা: p-DNN ३२-বিট নির্ধারণীয় ভিত্তিরেখা নির্ভুলতার সাথে মেলে
२ টি নমুনা: নির্ধারণীয় ভিত্তিরেখা কর্মক্ষমতা অতিক্রম করে
१० টি নমুনা: ३-বিট নির্ধারণীয় মডেলের নির্ভুলতা স্তরে পৌঁছায়

२. চিত্র প্রজন্ম গুণমান

নমুনা-সচেতন প্রশিক্ষণ: উৎপাদিত চিত্র গুণমান উল্লেখযোগ্যভাবে উন্নত করে, FID স্কোর ३२-বিট ভিত্তিরেখার কাছাকাছি
প্রশিক্ষণ-পরীক্ষা মিলান: প্রশিক্ষণ এবং পরীক্ষা একই নমুনা সংখ্যা ব্যবহার করার সময় সর্বোত্তম ফলাফল
ক্রমবর্ধমান উন্নতি: নমুনা সংখ্যা বৃদ্ধির সাথে সাথে চিত্র গুণমান ক্রমাগত উন্নত হয়

३. শক্তি বিশ্লেষণ ফলাফল

মেমরি প্রভাবশালী: DNN এর শক্তি খরচ প্রধানত মেমরি অ্যাক্সেস দ্বারা নির্ধারিত হয়, গণনা শক্তি খরচ অনুপাত ছোট
নমুনা সুবিধা: DRAM পরিস্থিতিতে, १টি নমুনা যোগ করা মাত্র ०.७% শক্তি খরচ বৃদ্ধি করে, কিন্তু २% নির্ভুলতা উন্নত করতে পারে
সামগ্রিক লাভ: १% নির্ভুলতা সহনশীলতার অধীনে, p-DNN ३२-বিট DNN এর তুলনায় २ গুণ বেশি শক্তি খরচ হ্রাস অর্জন করতে পারে

বিলোপন পরীক্ষা

१. সক্রিয়করণ ফাংশন তুলনা

Sigmoid vs Tanh: উভয় সক্রিয়করণ ফাংশন সম্ভাব্যতামূলক মডেলে একই রকম কর্মক্ষমতা প্রদর্শন করে
নির্ধারণীয় পার্থক্য: Tanh নির্ধারণীয় মডেল দুর্বল কর্মক্ষমতা প্রদর্শন করে, সম্ভাব্যতামূলক মডেলের শক্তিশালীতা তুলে ধরে

२. শব্দ ইনজেকশন যাচাইকরণ

পুনরায় প্রশিক্ষণের প্রয়োজন নেই: সহজ শব্দ ইনজেকশন २টি নমুনায় কর্মক্ষমতা উন্নতি অর্জন করতে পারে
একঘেয়ে উন্নতি: কর্মক্ষমতা উন্নতি একঘেয়ে, পদ্ধতির স্থিতিশীলতা প্রমাণ করে

FPGA যাচাইকরণ ফলাফল

শক্তি যাচাইকরণ: পরিমাপকৃত শক্তি খরচ তাত্ত্বিক পূর্বাভাসের সাথে উচ্চ সামঞ্জস্যপূর্ণ (२.५x বনাম २.३x লাভ)
হার্ডওয়্যার দক্ষতা: MAC সম্পর্কিত CLB LUT ব্যবহার २.९ গুণ হ্রাস পায়
RNG ওভারহেড: র্যান্ডম সংখ্যা জেনারেটরের শক্তি খরচ এবং এলাকা ওভারহেড সম্পূর্ণ সিস্টেমে উপেক্ষণীয়

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. সম্ভাব্যতা যাচাইকরণ: সম্ভাব্যতামূলক নমুনা গ্রহণ কার্যকরভাবে DNN কর্মক্ষমতা উন্নত করতে পারে, অল্প নমুনা উল্লেখযোগ্য লাভ অর্জন করতে পারে २. শক্তি সুবিধা: আধুনিক AI সিস্টেমে মেমরি-প্রভাবশালী পরিবেশে, নমুনা গ্রহণের গণনা ওভারহেড প্রায় উপেক্ষণীয় ३. রানটাইম সামঞ্জস্যযোগ্য: p-DNN রানটাইমে গতিশীলভাবে নমুনা সংখ্যা সামঞ্জস্য করতে পারে, শক্তি খরচ এবং নির্ভুলতার মধ্যে নমনীয় ভারসাম্য বজায় রাখে ४. হার্ডওয়্যার-বান্ধব: বিদ্যমান p-bit হার্ডওয়্যার আর্কিটেকচার সরাসরি p-DNN বাস্তবায়ন সমর্থন করতে পারে

সীমাবদ্ধতা

१. নমুনা প্রয়োজনীয়তা: কিছু কাজ আদর্শ কর্মক্ষমতা অর্জনের জন্য বড় সংখ্যক নমুনার প্রয়োজন হতে পারে २. প্রশিক্ষণ জটিলতা: নমুনা-সচেতন প্রশিক্ষণ প্রশিক্ষণ প্রক্রিয়ার জটিলতা বৃদ্ধি করে ३. মেমরি নির্ভরতা: শক্তি সুবিধা অনেকাংশে মেমরি অ্যাক্সেস খরচের প্রভাবশালী অবস্থানের উপর নির্ভর করে ४. প্রয়োগের পরিধি: প্রধানত দৃষ্টি কাজ যাচাই করা হয়েছে, অন্যান্য ক্ষেত্রের প্রযোজ্যতা আরও যাচাইকরণের অপেক্ষায় রয়েছে

ভবিষ্যত দিকনির্দেশনা

१. বড় ভাষা মডেল প্রয়োগ: p-DNN কে LLM ইত্যাদি বৃহত্তর স্কেল মডেলে সম্প্রসারণ করা २. অ্যানালগ বাস্তবায়ন: অ্যানালগ সার্কিট-ভিত্তিক p-bit বাস্তবায়ন অন্বেষণ করা যাতে শক্তি খরচ আরও হ্রাস করা যায় ३. ইন-মেমরি কম্পিউটিং একীকরণ: ইন-মেমরি কম্পিউটিং আর্কিটেকচারের সাথে সংমিশ্রণ, শক্তি দক্ষতা সুবিধা সর্বাধিক করা ४. উন্নত নমুনা কৌশল: সহজ গড়ের বাইরে নমুনা সমন্বয় পদ্ধতি উন্নয়ন করা

গভীর মূল্যায়ন

সুবিধা

१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমেটিকভাবে p-bits কে ফিডফরওয়ার্ড DNN এ প্রবর্তন করা, গবেষণার একটি নতুন দিক উন্মোচন করা २. দৃঢ় তত্ত্ব: সম্পূর্ণ শক্তি বিশ্লেষণ কাঠামো প্রদান করা, শক্তিশালী সর্বজনীনতা এবং সম্প্রসারণযোগ্যতা সহ ३. পর্যাপ্ত পরীক্ষা: শ্রেণীবিভাগ, প্রজন্ম ইত্যাদি একাধিক কাজ কভার করা, এবং FPGA দ্বারা ব্যবহারিক সম্ভাব্যতা যাচাই করা ४. উচ্চ ব্যবহারিক মূল্য: বর্তমান AI শক্তি খরচ সংকটের পটভূমিতে, ব্যবহারিক অপ্টিমাইজেশন সমাধান প্রদান করা ५. গভীর বিশ্লেষণ: মেমরি বনাম গণনার শক্তি বিনিময় গভীরভাবে বিশ্লেষণ করা, গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করা

অপূর্ণতা

१. স্কেল সীমাবদ্ধতা: পরীক্ষা প্রধানত তুলনামূলকভাবে ছোট মডেলে পরিচালিত হয়েছে, বড় স্কেল মডেলের কর্মক্ষমতা যাচাইকরণের অপেক্ষায় রয়েছে २. কাজের কভারেজ: প্রধানত দৃষ্টি কাজে কেন্দ্রীভূত, NLP ইত্যাদি অন্যান্য ক্ষেত্রের প্রযোজ্যতা অস্পষ্ট ३. তুলনামূলক ভিত্তিরেখা: সর্বশেষ কোয়ান্টাইজেশন এবং সংকোচন পদ্ধতির সাথে তুলনা যথেষ্ট নয় ४. তাত্ত্বিক বিশ্লেষণ: কেন অল্প নমুনা উল্লেখযোগ্য উন্নতি অর্জন করে তার গভীর তাত্ত্বিক ব্যাখ্যা অনুপস্থিত

প্রভাব

१. একাডেমিক মূল্য: সম্ভাব্যতামূলক গণনা এবং গভীর শেখার সংমিশ্রণের জন্য নতুন চিন্তাভাবনা এবং পদ্ধতি প্রদান করা २. প্রকৌশল তাৎপর্য: AI হার্ডওয়্যার ডিজাইনে গুরুত্বপূর্ণ নির্দেশনা মূল্য, বিশেষত শক্তি দক্ষতা অপ্টিমাইজেশনে ३. শিল্প সম্ভাবনা: এজ কম্পিউটিং এবং মোবাইল ডিভাইস AI প্রয়োগে বিস্তৃত প্রয়োগ সম্ভাবনা

প্রযোজ্য পরিস্থিতি

१. সম্পদ-সীমাবদ্ধ পরিবেশ: মোবাইল ডিভাইস, IoT ডিভাইস ইত্যাদি শক্তি-সংবেদনশীল পরিস্থিতি २. রিয়েল-টাইম অনুমান: বিলম্ব এবং নির্ভুলতার মধ্যে নমনীয় ভারসাম্য প্রয়োজন এমন প্রয়োগ ३. বৃহৎ-স্কেল স্থাপনা: ডেটা সেন্টার ইত্যাদি বিশাল সংখ্যক অনুরোধ প্রক্রিয়া করার প্রয়োজন এমন পরিস্থিতি ४. এজ কম্পিউটিং: নেটওয়ার্ক ব্যান্ডউইথ এবং গণনা সম্পদ উভয়ই সীমাবদ্ধ এমন এজ ডিভাইস

তথ্যসূত্র

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Li et al. 2025 ISSCC: 65nm ASIC এর QMC বাস্তবায়ন
Hubara et al.: কোয়ান্টাইজড স্নায়ু নেটওয়ার্কের যুগান্তকারী কাজ
Courbariaux et al.: বাইনারি স্নায়ু নেটওয়ার্ক BinaryConnect
Jacob et al.: পূর্ণসংখ্যা কোয়ান্টাইজেশন প্রশিক্ষণ পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা সম্ভাব্যতামূলক গণনা এবং গভীর শেখার ক্রস-ডোমেইনে গুরুত্বপূর্ণ অবদান রাখে। পেপারটি শুধুমাত্র উদ্ভাবনী প্রযুক্তিগত সমাধান প্রস্তাব করে না, বরং সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ কাঠামো এবং পরীক্ষামূলক যাচাইকরণ প্রদান করে, শক্তিশালী একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য সহ। যদিও কিছু দিক উন্নতির জায়গা রয়েছে, তবুও সামগ্রিকভাবে এটি এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অগ্রগতি।