ওজন আরম্ভীকরণ প্রশিক্ষণের শুরুতে সংকেত প্রচার এবং গ্রেডিয়েন্ট প্রবাহ নিয়ন্ত্রণ করে। এই পেপারটি দুটি ক্ষেত্রে একটি তাত্ত্বিকভাবে দৃঢ় এবং অভিজ্ঞতামূলকভাবে যাচাইকৃত গবেষণা প্রদান করে: সংক্ষিপ্ত ReLU বহুস্তরীয় পারসেপ্ট্রন এবং GPT-2 শৈলীর ট্রান্সফর্মার। প্রথমত, প্রাথমিক মান বিচ্যুতির লগারিদমিক স্ক্যানের মাধ্যমে, গ্রেডিয়েন্ট অন্তর্ধান এবং বিস্ফোরণ অঞ্চল ম্যাপ করা হয়েছে এবং ১e-২ থেকে ১e-১ এর মধ্যে মান বিচ্যুতির একটি বিস্তৃত স্থিতিশীল ব্যান্ড চিহ্নিত করা হয়েছে। দ্বিতীয়ত, নিয়ন্ত্রিত তুলনা দেখায় যে ReLU সক্রিয়করণ ফাংশনের অধীনে, Kaiming (fan-in) আরম্ভীকরণ Xavier আরম্ভীকরণের চেয়ে দ্রুত এবং আরও স্থিতিশীলভাবে সংযুক্ত হয়, যা ভেরিয়েন্স সংরক্ষণ তত্ত্বের সাথে সামঞ্জস্যপূর্ণ। তৃতীয়ত, শূন্য থেকে নির্মিত ১২-স্তরীয় GPT-2 শৈলীর মডেলে, এই পেপারটি প্রাক-প্রশিক্ষণ প্রক্রিয়ার সময় সমস্ত স্তরের Q/K/V ওজন ভেরিয়েন্সের পরিবর্তন ট্র্যাক করে, গভীরতা-সম্পর্কিত ভারসাম্য ঘটনা পর্যবেক্ষণ করে: অগভীর স্তরগুলি দ্রুত প্রসারিত হয়, যখন গভীর স্তরগুলি আরও ক্রমান্বয়ে পরিবর্তিত হয়।
এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল গভীর নিউরাল নেটওয়ার্ক এবং বৃহৎ ভাষা মডেলে ওজন আরম্ভীকরণের প্রশিক্ষণ স্থিতিশীলতা এবং সংযোগের উপর প্রভাব। এতে নির্দিষ্টভাবে অন্তর্ভুক্ত রয়েছে:
১. আরম্ভীকরণ স্কেল সংবেদনশীলতা: বিভিন্ন প্রাথমিক মান বিচ্যুতি প্রশিক্ষণের স্থিতিশীলতাকে কীভাবে প্রভাবিত করে २. সক্রিয়করণ ফাংশন বিশেষত্ব: ReLU এবং GELU এর মতো সক্রিয়করণ ফাংশনগুলির জন্য নির্দিষ্ট আরম্ভীকরণ কৌশল প্রয়োজন কিনা ३. আধুনিক ট্রান্সফর্মারের ভেরিয়েন্স গতিশীলতা: বৃহৎ ট্রান্সফর্মার মডেলে ভেরিয়েন্স স্থিতিশীলকরণ অব্যাহত থাকে কিনা
ওজন আরম্ভীকরণ গভীর শেখার প্রশিক্ষণ সাফল্যের একটি মূল কারণ, অনুপযুক্ত আরম্ভীকরণ নিম্নলিখিত ঘটায়:
ক্লাসিক্যাল আরম্ভীকরণ পদ্ধতি (LeCun, Xavier/Glorot, He/Kaiming) যদিও তাত্ত্বিকভাবে ভেরিয়েন্স সংরক্ষণের স্বজ্ঞা রয়েছে, তবুও বাস্তব প্রয়োগে নিম্নলিখিত সমস্যা রয়েছে: १. আদর্শ স্কেলের বিচ্যুতির প্রতি সংবেদনশীলতা পর্যাপ্তভাবে পরিমাণ করা হয়নি २. নির্দিষ্ট সক্রিয়করণ ফাংশন (যেমন ReLU, GELU) এর প্রভাব প্রক্রিয়া অস্পষ্ট ३. বৃহৎ ট্রান্সফর্মারে কর্মক্ষমতা সিস্টেমেটিক গবেষণার অভাব
१. একীভূত ভেরিয়েন্স বিশ্লেষণ কাঠামো: সাধারণ সক্রিয়করণ ফাংশন (ReLU, GELU) এর সামনের এবং পিছনের ভেরিয়েন্স প্রচার শর্ত উদ্ভাবন করা হয়েছে, ব্যাখ্যা করে কীভাবে fan-in স্কেলিং সংকেত প্রশস্ততা সংরক্ষণ করে এবং ReLU তে ফ্যাক্টর ২ এর উৎস
२. স্কেল সংবেদনশীলতা পরিমাণকরণ: ২৫টি মান বিচ্যুতি মানের লগারিদমিক স্ক্যানের মাধ্যমে, গ্রেডিয়েন্ট অন্তর্ধান/বিস্ফোরণ অঞ্চল ম্যাপ করা হয়েছে, স্থিতিশীল প্রশিক্ষণ ব্যান্ড σ ∈ 10⁻², 10⁻¹ চিহ্নিত করা হয়েছে
३. সক্রিয়করণ ফাংশন সচেতন আরম্ভীকরণ যাচাইকরণ: নিয়ন্ত্রিত ReLU MLP প্রশিক্ষণে, Kaiming normal (fan-in) Xavier normal এর চেয়ে দ্রুত সংযুক্ত হয় এবং ক্ষতি ভেরিয়েন্স ছোট হয় তা প্রমাণিত হয়েছে
४. ট্রান্সফর্মার ভেরিয়েন্স গতিশীলতা বিশ্লেষণ: শূন্য থেকে নির্মিত ১२-স্তরীয় GPT-२ শৈলীর মডেলে, স্পষ্ট গভীরতা-সম্পর্কিত প্যাটার্ন আবিষ্কৃত হয়েছে: অগভীর স্তরের ওজন মান বিচ্যুতি দ্রুত প্রসারিত হয়, গভীর স্তর আরও ক্রমান্বয়ে, চূড়ান্তভাবে সবাই সংকীর্ণ ভেরিয়েন্স ব্যান্ডে স্থিতিশীল হয়
রৈখিক ম্যাপিংয়ের জন্য:
Var[z_l] = n_in σ²_W Var[x_{l-1}]
অরৈখিক সক্রিয়করণের পরে:
Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]
যেখানে c_φ = E[φ(z)²]/Var[z] সক্রিয়করণ ফাংশন সম্পর্কিত ধ্রুবক।
সক্রিয়করণ মান অন্তর্ধান বা বিস্ফোরণ এড়াতে, σ²_W ≈ 1/(c_φ n_in) নির্বাচন করুন:
c_φ ≈ 1/2, তাই σ²_W ≈ 2/n_in (He/Kaiming)c_φ ≈ 0.45-0.5, ReLU এর চেয়ে সামান্য ছোটবিপরীত প্রচার দেয়:
Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]
যেখানে d_φ = E[φ'(z)²]। ReLU এর জন্য, d_φ = 1/2, গ্রেডিয়েন্ট ভেরিয়েন্স ভারসাম্যের জন্য σ²_W ≈ 2/n_out প্রয়োজন।
সামনের এবং পিছনের সংরক্ষণ শর্ত সাধারণত একসাথে সন্তুষ্ট করা যায় না, যদি না n_in ≈ n_out এবং c_φ ≈ d_φ। ব্যবহারিকভাবে, সামনের সংকেত স্থিতিশীলতা সংরক্ষণ সাধারণত আরও গুরুত্বপূর্ণ, যা ব্যাখ্যা করে কেন fan-in He/Kaiming Xavier এর চেয়ে দ্রুত সংযুক্ত হয়।
Kaiming আরম্ভীকরণ একাধিক মাত্রায় ধারাবাহিকভাবে Xavier এর চেয়ে উন্নত:
পেপারটি ট্রান্সফর্মারে ক্রমান্বয়ী ভারসাম্য প্যাটার্ন প্রকাশ করে: १. অগভীর স্তর দ্রুত অভিযোজন: ইনপুটের কাছাকাছি স্তরগুলি উচ্চ সংকেত-থেকে-শব্দ অনুপাত গ্রেডিয়েন্ট রয়েছে, প্রাথমিক আক্রমণাত্মক স্কেলিং উৎসাহিত করে २. গভীর স্তর ক্রমান্বয় সমন্বয়: অবশিষ্ট পথ দৈর্ঘ্য এবং প্রাক-নর্মালাইজেশন গভীর স্তরের কার্যকর পদক্ষেপ সীমাবদ্ধ করে ३. অন্তর্নিহিত সীমাবদ্ধতা: মনোযোগ softmax স্যাচুরেশন এবং AdamW তে ওজন ক্ষয় বড় প্যারামিটার স্কেল প্রতিরোধ করে
१. ReLU/GELU MLP: fan-in He/Kaiming থেকে শুরু করুন; যদি অত্যন্ত অসম স্তরগুলি গ্রেডিয়েন্ট বিচ্যুতি ঘটায়, fan-average পছন্দের দিকে সামান্য সরান २. গভীর অবশিষ্ট স্ট্যাক: অবশিষ্ট স্কেলিং (যেমন १/√L) বা নর্মালাইজেশন গভীর ভেরিয়েন্স বিচ্যুতি প্রতিরোধে সহায়তা করে ३. ট্রান্সফর্মার প্রজেকশন: ছোট মান বিচ্যুতি আরম্ভীকরণ ব্যবহার করুন (যেমন ०.०२), প্রতিটি স্তরের মান বিচ্যুতি এবং গ্রেডিয়েন্ট নর্ম পর্যবেক্ষণ করুন
१. স্থিতিশীলতা ব্যান্ড বিদ্যমান: σ ∈ 10⁻², 10⁻¹ পরিসরে একটি বিস্তৃত কিন্তু সংবেদনশীল স্থিতিশীলতা ব্যান্ড বিদ্যমান २. সক্রিয়করণ ফাংশন বিশেষত্ব গুরুত্বপূর্ণ: Kaiming আরম্ভীকরণ ReLU নেটওয়ার্কে সত্যিই Xavier এর চেয়ে উন্নত ३. গভীরতা-সম্পর্কিত গতিশীলতা: ট্রান্সফর্মার গভীরতা-সম্পর্কিত ভেরিয়েন্স ভারসাম্য প্রদর্শন করে, অগভীর স্তর দ্রুত অভিযোজন, গভীর স্তর ক্রমান্বয় সমন্বয়
१. পরীক্ষামূলক স্কেল: GPT-२ পরীক্ষা তুলনামূলকভাবে ছোট (१२ স্তর), বৃহৎ মডেলের আচরণ ভিন্ন হতে পারে २. সক্রিয়করণ ফাংশন কভারেজ: প্রধানত ReLU এবং GELU এ ফোকাস, অন্যান্য সক্রিয়করণ ফাংশনের বিশ্লেষণ সীমিত ३. অপ্টিমাইজার নির্ভরতা: ফলাফল নির্দিষ্ট অপ্টিমাইজার (AdamW) এবং হাইপারপ্যারামিটার সেটিংসের প্রতি সংবেদনশীল হতে পারে
१. স্ব-অভিযোজনশীল গভীরতা-সচেতন আরম্ভীকরণ: প্রতিটি স্তর বা প্রতিটি মাথার জন্য স্কেল শিখুন, অগভীর স্তরগুলি চূড়ান্ত ভেরিয়েন্স স্তরের কাছাকাছি করুন २. অপ্টিমাইজার এবং সময়সূচী সংযোগ: প্রি-ওয়ার্মিং দৈর্ঘ্য, ওজন ক্ষয় এবং গ্রেডিয়েন্ট ক্লিপিং যৌথভাবে সুর করুন ३. গভীরতা এবং প্রস্থ স্কেলিং: বৃহত্তর মডেলে গভীরতা-সম্পর্কিত ভারসাম্যের ধারাবাহিকতা মূল্যায়ন করুন
१. তত্ত্ব এবং অনুশীলনের সমন্বয়: ক্লাসিক্যাল ভেরিয়েন্স প্রচার তত্ত্বকে আধুনিক ট্রান্সফর্মার আচরণের সাথে জৈবিকভাবে একীভূত করে २. সিস্টেমেটিক পরীক্ষামূলক ডিজাইন: সরল MLP থেকে জটিল ট্রান্সফর্মার পর্যন্ত ক্রমান্বয়ী যাচাইকরণ ३. উচ্চ ব্যবহারিক মূল্য: নির্দিষ্ট আরম্ভীকরণ সুপারিশ এবং নির্ণয় পদ্ধতি প্রদান করে ४. পরিসংখ্যানগত কঠোরতা: জোড়া t পরীক্ষা ইত্যাদি পরিসংখ্যানগত পদ্ধতি ব্যবহার করে ফলাফলের তাৎপর্য যাচাই করে
१. তাত্ত্বিক বিশ্লেষণ গভীরতা সীমিত: গভীরতা-সম্পর্কিত ঘটনার আরও গভীর তাত্ত্বিক ব্যাখ্যার অভাব २. পরীক্ষামূলক স্কেল সীমাবদ্ধতা: গণনা সম্পদ সীমাবদ্ধতার কারণে, সত্যিকারের বৃহৎ মডেলে যাচাই করা যায়নি ३. সাধারণীকরণ সমস্যা: ফলাফল প্রধানত নির্দিষ্ট আর্কিটেকচার এবং কাজের উপর ভিত্তি করে, সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন
१. একাডেমিক অবদান: আরম্ভীকরণ তত্ত্বে আধুনিক দৃষ্টিভঙ্গি প্রদান করে, ক্লাসিক্যাল তত্ত্ব এবং বর্তমান অনুশীলন সংযুক্ত করে २. ব্যবহারিক মূল্য: অনুশীলনকারীদের স্পষ্ট আরম্ভীকরণ কৌশল এবং নির্ণয় সরঞ্জাম প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক ডিজাইন স্পষ্ট, কোড এবং প্যারামিটার সেটিং বিস্তারিত, পুনরুৎপাদন সহজ করে
१. গভীর নেটওয়ার্ক প্রশিক্ষণ: বিশেষত ReLU/GELU সক্রিয়করণ সহ গভীর নেটওয়ার্কের জন্য প্রযোজ্য २. ট্রান্সফর্মার অপ্টিমাইজেশন: বৃহৎ ভাষা মডেলের প্রশিক্ষণের জন্য আরম্ভীকরণ নির্দেশনা প্রদান করে ३. গবেষণা সরঞ্জাম: গবেষকদের জন্য ওজন গতিশীলতা বিশ্লেষণের জন্য পদ্ধতিগত কাঠামো প্রদান করে
পেপারটি আরম্ভীকরণ ক্ষেত্রের মূল কাজ উদ্ধৃত করে, যার মধ্যে LeCun, Glorot, He এবং অন্যদের ভিত্তিপ্রস্তর গবেষণা, এবং ট্রান্সফর্মার অপ্টিমাইজেশনে সাম্প্রতিক অগ্রগতি রয়েছে, এই গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।