ট্রান্সফর্মার আর্কিটেকচার ভিত্তিক ভিত্তি মডেলগুলি সাধারণ ভাষা মডেলিং এবং উপকরণ বিজ্ঞান, জলবায়ু বিজ্ঞান ইত্যাদি বৈজ্ঞানিক ক্ষেত্রে বর্তমান অত্যাধুনিক প্রযুক্তি। তবে এই মডেলগুলির প্রশিক্ষণ এবং স্থাপনা গণনামূলকভাবে অত্যন্ত চ্যালেঞ্জিং, কারণ তাদের সময় এবং স্থান জটিলতা ইনপুট ক্রম দৈর্ঘ্যের সাথে দ্বিঘাত সম্পর্ক রাখে। এই পত্রটি ট্রান্সফর্মার মডেল ডিজাইন করতে স্পাইকিং নিউরাল নেটওয়ার্ক (SNNs) ব্যবহার অন্বেষণ করে। বিদ্যমান প্রক্সি শিক্ষা পদ্ধতি বড় আকারের SNNs প্রশিক্ষণে অদক্ষ এবং সময়সাপেক্ষ, যখন বিদ্যমান ট্রান্সফর্মার মডেলগুলিকে সমতুল্য SNN-এ রূপান্তরিত করার কৌশলগুলি স্কেলেবিলিটির অভাব রয়েছে। এই উদ্দেশ্যে, লেখকরা NeuTransformer পদ্ধতি প্রস্তাব করেছেন, যা বিদ্যমান রূপান্তর পদ্ধতির সাথে তত্ত্বাবধানকৃত সূক্ষ্ম-সুর করার মাধ্যমে SNN ভিত্তিক ট্রান্সফর্মার অনুমান ইঞ্জিন ডিজাইন করে। এই পদ্ধতিতে অন্তর্ভুক্ত রয়েছে: (১) স্ব-মনোযোগ প্রক্রিয়া স্পাইক-ভিত্তিক স্ব-মনোযোগ (SSA) দিয়ে প্রতিস্থাপন, (২) ফিডফরওয়ার্ড ব্লকগুলিকে সমতুল্য SNN-এ রূপান্তরিত করা, (३) SSA ব্লক সূক্ষ্ম-সুর করতে SNN প্রক্সি শিক্ষা অ্যালগরিদম ব্যবহার করা। পরীক্ষাগুলি দেখায় যে রূপান্তরিত GPT-2 ছোট মডেল কোসাইন সাদৃশ্যে ৫-১২% ক্ষতি, বিভ্রান্তি ৯.৭% হ্রাস, এবং SSA ব্লক ASA ব্লকের তুলনায় ৬৪.৭১%-৮৫.২৮% শক্তি খরচ হ্রাস অর্জন করে।
১. গণনামূলক জটিলতা সমস্যা: ট্রান্সফর্মার মডেলের স্ব-মনোযোগ প্রক্রিয়া O(n²) সময় এবং স্থান জটিলতা রাখে, যেখানে n ক্রম দৈর্ঘ্য, যা দীর্ঘ ক্রম প্রক্রিয়া করার সময় গণনা এবং মেমরি চাহিদা তীব্রভাবে বৃদ্ধি করে।
२. শক্তি খরচ সমস্যা: ঐতিহ্যবাহী ট্রান্সফর্মার মডেলগুলি প্রশিক্ষণ এবং অনুমানের জন্য ব্যয়বহুল GPU বা কাস্টম ত্বরণকারী প্রয়োজন, যা বিশাল শক্তি খরচ করে।
३. SNN প্রশিক্ষণ কঠিনতা: বিদ্যমান SNN প্রশিক্ষণ পদ্ধতিতে দুটি প্রধান সীমাবদ্ধতা রয়েছে:
লেখকরা স্পাইকিং নিউরাল নেটওয়ার্কের জৈব-অনুপ্রাণিত বৈশিষ্ট্য এবং ইভেন্ট-চালিত গণনার সুবিধা ব্যবহার করে এমন ট্রান্সফর্মার মডেল ডিজাইন করতে চান যা নিউরোমরফিক হার্ডওয়্যারে দক্ষতার সাথে সম্পাদিত হতে পারে, যার ফলে ডেটা-দক্ষ, কম শক্তি-খরচ এবং সম্পদ-সাশ্রয়ী বড় ভাষা মডেল অনুমান অর্জন করা যায়।
१. NeuTransformer পদ্ধতি প্রস্তাব: প্রশিক্ষিত ট্রান্সফর্মার মডেল থেকে SNN-ভিত্তিক ট্রান্সফর্মার ডিজাইন করার একটি পদ্ধতি, যা মডেল কর্মক্ষমতা উন্নত করতে তত্ত্বাবধানকৃত সূক্ষ্ম-সুর করার সাথে মিলিত।
२. বিরল স্পাইক গণনার স্ব-মনোযোগ প্রক্রিয়া ডিজাইন: ঐতিহ্যবাহী স্ব-মনোযোগে উচ্চ শক্তি খরচ এবং বিলম্ব সহ ম্যাট্রিক্স গুণন এবং softmax অপারেশনগুলি বিরল স্পাইক-ভিত্তিক গণনা দিয়ে প্রতিস্থাপন করা।
३. বড় আকারের SNN-ভিত্তিক LLM বাস্তবায়ন: GPT-2 এবং এর ভেরিয়েন্টগুলিকে সফলভাবে SNN সংস্করণে রূপান্তরিত করা, লেখকদের জ্ঞান অনুযায়ী, GPT-2 Large বর্তমানে সবচেয়ে বড় প্যারামিটার সহ SNN-ভিত্তিক ট্রান্সফর্মার মডেল।
४. ব্যাপক কর্মক্ষমতা মূল্যায়ন: প্রয়োগ নির্ভুলতা, কোসাইন সাদৃশ্য, বিভ্রান্তি, বিট প্রতি বাইট ইত্যাদি একাধিক মাত্রা থেকে মডেল কর্মক্ষমতা মূল্যায়ন করা এবং শক্তি খরচ এবং থ্রুপুট কর্মক্ষমতা বিশ্লেষণ করা।
প্রশিক্ষিত ট্রান্সফর্মার মডেলকে সমতুল্য স্পাইকিং নিউরাল নেটওয়ার্ক সংস্করণে রূপান্তরিত করা, যখন গ্রহণযোগ্য কর্মক্ষমতা ক্ষতি বজায় রেখে এবং উল্লেখযোগ্য শক্তি খরচ হ্রাস এবং হার্ডওয়্যার দক্ষতা উন্নতি অর্জন করা।
নির্দিষ্ট থ্রেশহোল্ড এবং সামঞ্জস্যযোগ্য ঝিল্লি সম্ভাবনা ক্ষয় বৈশিষ্ট্য সহ একীভূত-এবং-ফায়ার (IF) নিউরন ব্যবহার করা:
S(t) = {
1, যদি Vmem ≥ 1
-1, যদি Vmem ≤ -1
0, অন্যথায়
}
যেখানে Vmem হল ঝিল্লি সম্ভাবনা, S(t) হল নিউরন আউটপুট স্পাইক সক্রিয়করণ।
ঐতিহ্যবাহী স্ব-মনোযোগ প্রক্রিয়া:
ASA(Q,K,V) = softmax(Q·K^T)V
স্পাইক স্ব-মনোযোগ প্রক্রিয়া:
AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)
মূল উদ্ভাবনী পয়েন্ট:
ANN-SNN রূপান্তর নীতির উপর ভিত্তি করে, ReLU সক্রিয়করণ সহ ফিডফরওয়ার্ড স্তরকে IF নিউরনে রূপান্তরিত করা:
ReLU(y) = max(0, y)τm ∂Vmem/∂t = -Vmem(t) + R*I(t)ওজন স্বাভাবিকীকরণ:
s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm
१. স্ব-মনোযোগ ব্লক প্রতিস্থাপন: ASA কে SSA দিয়ে প্রতিস্থাপন করা, প্রশিক্ষিত ওজন বজায় রাখা २. ফিডফরওয়ার্ড ব্লক রূপান্তর: ReLU/GeLU ফিডফরওয়ার্ড স্তরকে SNN সমতুল্য সংস্করণে রূপান্তরিত করা ३. SSA ব্লক সূক্ষ্ম-সুর: প্রক্সি গ্রেডিয়েন্ট শিক্ষা অ্যালগরিদম ব্যবহার করে SSA ব্লক ওজন সূক্ষ্ম-সুর করা
ASA এবং SSA মনোযোগ স্কোরের মধ্যে গড় বর্গ ত্রুটি ন্যূনতম করা:
Σ(i=1 থেকে d_model) (ASA_as - SSA_as)²
| মডেল | প্যারামিটার | কোসাইন সাদৃশ্য | অক্ষর নির্ভুলতা | ANN বিভ্রান্তি | SNN বিভ্রান্তি |
|---|---|---|---|---|---|
| GPT-2-Small | 117M | 0.88 | 84.9% | 17.11 | 21.81 |
| GPT-2-Medium | 345M | 0.83 | 75.4% | 14.43 | 19.73 |
| GPT-2-Large | 763M | 0.74 | 71.8% | 12.67 | 18.10 |
SSA ব্লক ASA ব্লকের তুলনায় অনুমানিত শক্তি খরচ হ্রাস:
Graphcore প্ল্যাটফর্মে, SNN সংস্করণ বেশিরভাগ কনফিগারেশনে বেসলাইন ANN এর চেয়ে উচ্চতর থ্রুপুট কর্মক্ষমতা প্রদর্শন করে, বিশেষ করে অনিয়মিত এবং বিরল ডেটা অ্যাক্সেস প্রক্রিয়া করার সময় সুবিধা স্পষ্ট।
१. স্কেল প্রভাব: মডেল স্কেল বৃদ্ধির সাথে সাথে, SNN সংস্করণের কর্মক্ষমতা ক্ষতি ধীরে ধীরে বৃদ্ধি পায় २. শক্তি দক্ষতা সুবিধা: সমস্ত স্কেলের মডেল উল্লেখযোগ্য শক্তি খরচ হ্রাস অর্জন করে ३. হার্ডওয়্যার অভিযোজনযোগ্যতা: SNN MIMD প্রসেসিং আর্কিটেকচারে চমৎকার কর্মক্ষমতা প্রদর্শন করে, বিশেষ করে বিরল স্পাইক কর্মভার জন্য উপযুক্ত
বিদ্যমান পদ্ধতির তুলনায়, NeuTransformer SNN থেকে শুরু থেকে প্রশিক্ষণের গণনামূলক খরচ এড়ায়, রূপান্তর + সূক্ষ্ম-সুর কৌশলের মাধ্যমে বড় আকারের SNN-ভিত্তিক LLM নির্মাণ অর্জন করে।
१. সম্ভাব্যতা যাচাইকরণ: GPT-2 সিরিজ মডেলগুলিকে সফলভাবে SNN সংস্করণে রূপান্তরিত করা, বড় আকারের SNN-ভিত্তিক LLM এর সম্ভাব্যতা প্রমাণ করা २. কর্মক্ষমতা ট্রেড-অফ: গ্রহণযোগ্য কর্মক্ষমতা ক্ষতির অধীনে উল্লেখযোগ্য শক্তি খরচ হ্রাস অর্জন করা ३. স্কেল সীমাবদ্ধতা: মডেল প্যারামিটার ३০০M অতিক্রম করলে কর্মক্ষমতা অবনতি গ্রহণযোগ্য থ্রেশহোল্ড অতিক্রম করে
१. স্কেল বটলনেক: বড় আকারের মডেলের কর্মক্ষমতা অবনতি সমস্যা এখনও সমাধান প্রয়োজন २. রূপান্তর নির্ভুলতা: ফিডফরওয়ার্ড ব্লকের অসম্পূর্ণ রূপান্তর সামগ্রিক কর্মক্ষমতা প্রভাবিত করে ३. সূক্ষ্ম-সুর সীমাবদ্ধতা: প্রক্সি গ্রেডিয়েন্ট শিক্ষা গভীর SNN-এ সীমাবদ্ধতা রয়েছে
१. বড় আকারের SNN এর প্রশিক্ষণ এবং রূপান্তর পদ্ধতি উন্নত করা २. প্রক্সি গ্রেডিয়েন্ট শিক্ষা অ্যালগরিদম অপ্টিমাইজ করা ३. আরও দক্ষ স্পাইক এনকোডিং এবং ডিকোডিং কৌশল অন্বেষণ করা ४. প্রকৃত নিউরোমরফিক হার্ডওয়্যারে কর্মক্ষমতা যাচাই করা
१. উদ্ভাবনী শক্তি শক্তিশালী: বড় আকারের SNN-ভিত্তিক ভাষা মডেল প্রথম বাস্তবায়ন, নতুন প্রযুক্তি পথ २. ব্যবহারিক মূল্য উচ্চ: উল্লেখযোগ্য শক্তি খরচ হ্রাস ব্যবহারিক প্রয়োগের জন্য গুরুত্বপূর্ণ ३. ব্যাপক মূল্যায়ন: একাধিক মাত্রা থেকে মডেল কর্মক্ষমতা মূল্যায়ন, কঠোর পরীক্ষামূলক ডিজাইন ४. স্পষ্ট লেখা: বিস্তারিত প্রযুক্তি বর্ণনা, পরিষ্কার পদ্ধতি বর্ণনা
१. স্কেল সীমাবদ্ধতা স্পষ্ট: বড় মডেল কর্মক্ষমতা অবনতি গুরুতর, পদ্ধতির প্রয়োগযোগ্যতা সীমিত করে २. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কর্মক্ষমতা অবনতির কারণের গভীর তাত্ত্বিক বিশ্লেষণ অভাব ३. হার্ডওয়্যার যাচাইকরণ সীমিত: প্রধানত অনুমানের উপর ভিত্তি করে, প্রকৃত নিউরোমরফিক হার্ডওয়্যারে যাচাইকরণ অভাব ४. তুলনামূলক পরীক্ষা অপর্যাপ্ত: অন্যান্য SNN-ভিত্তিক পদ্ধতির সাথে সরাসরি তুলনা কম
१. একাডেমিক অবদান: SNN এর বড় আকারের ভাষা মডেলে প্রয়োগের জন্য নতুন দিকনির্দেশনা খোলা २. ব্যবহারিক সম্ভাবনা: কম শক্তি-খরচ AI অনুমানের জন্য নতুন প্রযুক্তি পথ প্রদান করা ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পদ্ধতি বর্ণনা, ভাল পুনরুৎপাদনযোগ্যতা রয়েছে
१. প্রান্ত গণনা: সম্পদ-সীমিত মোবাইল ডিভাইস এবং IoT পরিস্থিতি २. কম শক্তি-খরচ অনুমান: শক্তি-সংবেদনশীল প্রয়োগ পরিস্থিতি ३. নিউরোমরফিক গণনা: বিশেষ নিউরোমরফিক হার্ডওয়্যার প্ল্যাটফর্ম
পত্রটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সারসংক্ষেপ: এই পত্রটি বড় আকারের ভাষা মডেলগুলিকে স্পাইকিং নিউরাল নেটওয়ার্ক সংস্করণে রূপান্তরিত করার একটি উদ্ভাবনী পদ্ধতি প্রস্তাব করে, গ্রহণযোগ্য কর্মক্ষমতা বজায় রেখে উল্লেখযোগ্য শক্তি খরচ হ্রাস অর্জন করে। স্কেল সীমাবদ্ধতা ইত্যাদি সমস্যা থাকা সত্ত্বেও, এটি কম শক্তি-খরচ AI অনুমান এবং নিউরোমরফিক গণনা ক্ষেত্রে মূল্যবান প্রযুক্তিগত অবদান প্রদান করে।