গভীর স্নায়ু নেটওয়ার্ক প্রশিক্ষণের বিস্তৃত অভিজ্ঞতামূলক প্রমাণ দেখায় যে বিভিন্ন অপটিমাইজার বৈশ্বিক সর্বোত্তমের কাছাকাছি সমাধান খুঁজে পেতে প্রবণ। এই পেপারটি বিপরীত দৃষ্টিভঙ্গি গ্রহণ করে, যেকোনো বিন্দুতে সংমিশ্রণ অনুমান করে এবং সংমিশ্রণ প্রমাণ করার পরিবর্তে এই অনুমানের পরিণতিতে মনোনিবেশ করে। এই কোণ থেকে, প্রান্তিক স্থিতিশীলতা ঘটনার সাম্প্রতিক অগ্রগতির সাথে মিলিয়ে, লেখকরা যুক্তি দেন যে বিভিন্ন অপটিমাইজার প্রকৃতপক্ষে তাদের হাইপারপ্যারামিটার দ্বারা নির্ধারিত আইজেনভ্যালু ফিল্টার হিসাবে কাজ করে। নির্দিষ্টভাবে, মান গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতি স্বাভাবিকভাবে সবচেয়ে তীক্ষ্ণ ন্যূনতম এড়ায়, যখন শার্পনেস-অ্যাওয়্যার মিনিমাইজেশন (SAM) অ্যালগরিদম আরও সক্রিয়ভাবে বিস্তৃত বেসিন পছন্দ করে। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, লেখকরা দুটি নতুন অ্যালগরিদম প্রস্তাব করেন যা উন্নত আইজেনভ্যালু ফিল্টারিং ক্ষমতা প্রদর্শন করে এবং কার্যকরভাবে বিস্তৃত ন্যূনতম প্রচার করে। তাত্ত্বিক বিশ্লেষণ সাধারণীকৃত হ্যাডামার্ড-পেরন স্থিতিশীল বহুগুণ উপপাদ্য ব্যবহার করে, যা সাধারণ সেমিঅ্যালজেব্রাইক C² ফাংশনের জন্য প্রযোজ্য, অতিরিক্ত অ-অবক্ষয় শর্ত বা বৈশ্বিক লিপশিৎজ সীমানা অনুমান ছাড়াই।
এই গবেষণা সমাধান করে এমন মূল সমস্যা হল গভীর শিক্ষায় অপটিমাইজেশন অ্যালগরিদমের সংমিশ্রণ আচরণ বোঝা, বিশেষত তারা কীভাবে ক্ষতি ফাংশনের জটিল ল্যান্ডস্কেপে নির্দিষ্ট ন্যূনতম নির্বাচন করে। ঐতিহ্যবাহী গবেষণা সংমিশ্রণ প্রমাণে মনোনিবেশ করে, যখন এই পেপারটি "বিপরীত" দৃষ্টিভঙ্গি গ্রহণ করে: সংমিশ্রণ ইতিমধ্যে ঘটেছে অনুমান করে, এই সংমিশ্রণ পৌঁছানো বিন্দুর জ্যামিতিক বৈশিষ্ট্যে (বিশেষত হেসিয়ান আইজেনভ্যালু) সীমাবদ্ধতা বিশ্লেষণ করে।
১. স্থিতিশীলতা এবং সাধারণীকরণের সংযোগ: স্থিতিশীল প্রশিক্ষণ বিস্তৃত আকর্ষণীয় বেসিন এবং সমতল ন্যূনতমের সাথে সম্পর্কিত, যা বৈশিষ্ট্যগুলি সাধারণীকরণ কর্মক্ষমতার সাথে ঘনিষ্ঠভাবে সম্পর্কিত
२. প্রান্তিক স্থিতিশীলতা ঘটনা: অভিজ্ঞতামূলক পর্যবেক্ষণ দেখায় যে মান প্রশিক্ষণ সাধারণত স্থিতিশীলতা সীমানার কাছাকাছি কাজ করে
३. ব্যবহারিক তাৎপর্য: অপটিমাইজারের অন্তর্নিহিত পছন্দ বোঝা আরও ভাল প্রশিক্ষণ অ্যালগরিদম ডিজাইনে সহায়তা করে
গত দশকে, গভীর শিক্ষা অনুশীলনে সফল প্রশিক্ষণ প্রায় সাধারণ হয়ে উঠেছে, যা গবেষণা দৃষ্টিভঙ্গি "কখন সংমিশ্রণ হয়" থেকে "কেন সফল সংমিশ্রণ হয় এবং হাইপারপ্যারামিটার এটি কীভাবে সম্ভব করে" তে স্থানান্তরিত করেছে।
१. একীভূত তাত্ত্বিক কাঠামো: সাধারণীকৃত হ্যাডামার্ড-পেরন স্থিতিশীল বহুগুণ উপপাদ্যের উপর ভিত্তি করে একীভূত বিশ্লেষণ কাঠামো প্রস্তাব করে, যা অপটিমাইজেশন অ্যালগরিদমের বিস্তৃত বিভাগের জন্য প্রযোজ্য
२. আইজেনভ্যালু ফিল্টারিং তত্ত্ব: প্রমাণ করে যে সফল সংমিশ্রণকারী অপটিমাইজার অপরিহার্যভাবে পৌঁছানো বিন্দুর হেসিয়ান আইজেনভ্যালুতে সীমাবদ্ধতা আরোপ করে, "আইজেনভ্যালু ফিল্টারিং" প্রভাব গঠন করে
३. অ্যালগরিদম বিশ্লেষণ: গ্রেডিয়েন্ট ডিসেন্ট, ভারী বল পদ্ধতি, নেস্টেরভ ত্বরান্বিত গ্রেডিয়েন্ট পদ্ধতি এবং USAM-এর আইজেনভ্যালু ফিল্টারিং বৈশিষ্ট্য সিস্টেমেটিকভাবে বিশ্লেষণ করে
४. নতুন অ্যালগরিদম প্রস্তাব: Two-step USAM এবং Hessian USAM দুটি নতুন অ্যালগরিদম ডিজাইন করে, যা শক্তিশালী আইজেনভ্যালু ফিল্টারিং ক্ষমতা প্রদর্শন করে
५. তাত্ত্বিক সম্প্রসারণ: বিদ্যমান ফলাফল আরও সাধারণ সেমিঅ্যালজেব্রাইক ফাংশন শ্রেণীতে প্রসারিত করে, বিমূর্ত অ-অবক্ষয় অনুমান সরিয়ে দেয়
সাধারণ ফর্মের পুনরাবৃত্তিমূলক অপটিমাইজেশন অ্যালগরিদম বিবেচনা করুন:
যেখানে:
উপপাদ্য ১.१: একটি বিপরীতযোগ্য ম্যাট্রিক্স এবং একটি সেমিঅ্যালজেব্রাইক ম্যাপিং হোক। প্রায় সকল এবং এর জন্য, যদি অনুক্রম কোনো বিন্দু এ সংমিশ্রিত হয়, তাহলে এ এ জ্যাকোবিয়ানের বর্ণালী ব্যাসার্ধ সর্বাধিক ১:
উপপাদ্য २.१: বিদ্যমান, যার পরিপূরক একটি সীমিত সেট, যেমন যেকোনো এর জন্য, সেট
সর্বাধিক মাত্রার সাব-বহুগুণের গণনাযোগ্য সংমিশ্রণে অন্তর্ভুক্ত।
१. সেমিঅ্যালজেব্রাইক অনুমান: সেমিঅ্যালজেব্রাইক ফাংশন শ্রেণী ব্যবহার করে পর্যাপ্ত শর্ত হিসাবে, গভীর শিক্ষায় প্রায় সকল সাধারণ ফাংশন অন্তর্ভুক্ত করে
२. বৈশ্বিক শর্তের প্রয়োজন নেই: বৈশ্বিক লিপশিৎজ সীমানা বা অ-অবক্ষয় অনুমানের প্রয়োজন নেই
३. একীভূত বিশ্লেষণ কাঠামো: একীভূত ম্যাট্রিক্স ফর্ম এবং ম্যাপিং এর মাধ্যমে, একাধিক অপটিমাইজেশন অ্যালগরিদম অন্তর্ভুক্ত করে
প্রস্তাব ३.१: গ্রেডিয়েন্ট ডিসেন্টের জন্য , যদি এ সংমিশ্রিত হয়, তাহলে এর সকল আইজেনভ্যালু সন্তুষ্ট করে:
প্রস্তাব ३.२: ভারী বল পদ্ধতির জন্য, আইজেনভ্যালু সীমাবদ্ধতা:
প্রস্তাব ३.४: USAM অ্যালগরিদমের জন্য , আইজেনভ্যালু সন্তুষ্ট করে:
সমতুল্যভাবে:
আপডেট নিয়ম:
আইজেনভ্যালু সীমাবদ্ধতা:
আপডেট নিয়ম:
আইজেনভ্যালু সীমাবদ্ধতা:
१. MNIST + MLP: লুকানো স্তর মাত্রা {128, 64, 10, 10}, ReLU সক্রিয়করণ, ক্রস-এন্ট্রপি ক্ষতি
२. Fashion-MNIST + MLP: একই সেটআপ
३. CIFAR10 + WideResNet-16-8: ব্যাচ নর্মালাইজেশন স্তর ছাড়া WideResNet আর্কিটেকচার
१. আইজেনভ্যালু ফিল্টারিং যাচাইকরণ: পরীক্ষামূলক ফলাফল তাত্ত্বিক পূর্বাভাসের সাথে অত্যন্ত সামঞ্জস্যপূর্ণ, USAM, Two-step USAM এবং Hessian USAM প্রকৃতপক্ষে আরও সমতল ন্যূনতম খুঁজে পায়
२. অ্যালগরিদম তুলনা:
३. আর্কিটেকচার নির্ভরতা:
१. স্থিতিশীলতা প্রয়োজনীয়তা: Two-step USAM এবং Hessian USAM প্রশিক্ষণ ব্যর্থতা এড়াতে ছোট মান প্রয়োজন, তাত্ত্বিক পূর্বাভাসের আরও কঠোর বক্রতা সীমাবদ্ধতার সাথে সামঞ্জস্যপূর্ণ
२. ব্যাচ নর্মালাইজেশন প্রভাব: ব্যাচ নর্মালাইজেশন সহ আর্কিটেকচারে, SAM-শ্রেণীর অ্যালগরিদমের সমতলকরণ প্রভাব স্পষ্ট নয়, যা তত্ত্বের সাথে বিরোধী নয়, কারণ ব্যাচ নর্মালাইজেশন অ্যালগরিদম গতিশীলতা পরিবর্তন করে
१. একীভূত দৃষ্টিভঙ্গি: সফল অপটিমাইজার প্রশিক্ষণ মূলত একটি আইজেনভ্যালু ফিল্টারিং প্রক্রিয়া, বিভিন্ন অ্যালগরিদম হাইপারপ্যারামিটারের মাধ্যমে বিভিন্ন ডিগ্রির ফিল্টারিং অর্জন করে
२. তাত্ত্বিক সম্প্রসারণ: সাধারণীকৃত স্থিতিশীল বহুগুণ উপপাদ্য অপটিমাইজেশন অ্যালগরিদম বোঝার জন্য শক্তিশালী তাত্ত্বিক সরঞ্জাম প্রদান করে
३. ব্যবহারিক নির্দেশনা: তাত্ত্বিক ফলাফল নতুন অপটিমাইজেশন অ্যালগরিদম ডিজাইনের জন্য নীতিগত নির্দেশনা প্রদান করে
१. সেমিঅ্যালজেব্রাইক অনুমান: যদিও কভারেজ বিস্তৃত, তবুও কিছু সীমাবদ্ধতা রয়েছে
२. নতুন অ্যালগরিদমের গণনামূলক খরচ: Two-step USAM এবং Hessian USAM এর একক পুনরাবৃত্তি খরচ বেশি
३. ব্যাচ নর্মালাইজেশন সামঞ্জস্য: তাত্ত্বিক কাঠামো এখনও ব্যাচ নর্মালাইজেশন অপারেশন অন্তর্ভুক্ত করেনি
१. আরও সাধারণ ফাংশন শ্রেণীতে সম্প্রসারণ: সেমিঅ্যালজেব্রাইক অনুমান ছাড়াই তাত্ত্বিক সম্প্রসারণ অন্বেষণ করুন
२. ব্যাচ নর্মালাইজেশন তত্ত্ব: তাত্ত্বিক কাঠামো ব্যাচ নর্মালাইজেশন সহ আর্কিটেকচারে প্রসারিত করুন
३. ব্যবহারিক অ্যালগরিদম অপটিমাইজেশন: তাত্ত্বিক সুবিধা বজায় রেখে নতুন অ্যালগরিদমের গণনামূলক খরচ হ্রাস করুন
१. তাত্ত্বিক উদ্ভাবন: অপটিমাইজেশন অ্যালগরিদম বোঝার জন্য সম্পূর্ণ নতুন দৃষ্টিভঙ্গি প্রদান করে, "সংমিশ্রণ প্রমাণ" থেকে "সংমিশ্রণ পরিণতি বিশ্লেষণ" এ রূপান্তর করে
२. একীভূত কাঠামো: প্রথমবারের মতো একাধিক অপটিমাইজেশন অ্যালগরিদমের আইজেনভ্যালু ফিল্টারিং আচরণ বিশ্লেষণের জন্য একীভূত তাত্ত্বিক কাঠামো প্রদান করে
३. ব্যবহারিক মূল্য: তাত্ত্বিক ফলাফল সরাসরি নতুন অ্যালগরিদম ডিজাইনে নির্দেশনা দেয় এবং পরীক্ষামূলক যাচাইকরণ পায়
४. প্রযুক্তিগত কঠোরতা: গাণিতিক অনুমান কঠোর, অনুমান শর্ত স্পষ্ট এবং যুক্তিসঙ্গত
१. সীমিত পরীক্ষামূলক স্কেল: পরীক্ষা প্রধানত তুলনামূলকভাবে সহজ আর্কিটেকচার এবং ডেটাসেটে পরিচালিত হয়, বৃহৎ-স্কেল পরীক্ষামূলক যাচাইকরণ অপর্যাপ্ত
२. নতুন অ্যালগরিদম মূল্যায়ন: Two-step USAM এবং Hessian USAM এর ব্যাপক কর্মক্ষমতা মূল্যায়ন (সাধারণীকরণ ক্ষমতা সহ) আরও কাজ প্রয়োজন
३. তাত্ত্বিক ফাঁক: SAM অ্যালগরিদমের প্রকৃত কর্মক্ষমতা এবং তাত্ত্বিক পূর্বাভাসের মধ্যে একটি নির্দিষ্ট পার্থক্য রয়েছে (যেমন কঠোর স্যাডল পয়েন্ট সমস্যা)
१. তাত্ত্বিক অবদান: অপটিমাইজেশন তত্ত্বের জন্য নতুন বিশ্লেষণ সরঞ্জাম এবং দৃষ্টিভঙ্গি প্রদান করে
२. ব্যবহারিক মূল্য: অপটিমাইজেশন অ্যালগরিদম ডিজাইনের জন্য নীতিগত নির্দেশনা প্রদান করে
३. আন্তঃ-শৃঙ্খলা তাৎপর্য: গতিশীল সিস্টেম তত্ত্ব এবং মেশিন লার্নিং অনুশীলনকে সংযুক্ত করে
१. গভীর শিক্ষা অপটিমাইজেশন: বিশেষত স্নায়ু নেটওয়ার্ক প্রশিক্ষণ অ্যালগরিদম বোঝা এবং উন্নত করার জন্য উপযুক্ত
२. অ-উত্তল অপটিমাইজেশন: সাধারণ অ-উত্তল অপটিমাইজেশন সমস্যার জন্য নতুন বিশ্লেষণ সরঞ্জাম প্রদান করে
३. অ্যালগরিদম ডিজাইন: নতুন ধরনের অপটিমাইজেশন অ্যালগরিদমের ডিজাইন এবং বিশ্লেষণে নির্দেশনা দেয়
এই পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
সামগ্রিক মূল্যায়ন: এটি একটি চমৎকার পেপার যা তাত্ত্বিক গভীরতা এবং ব্যবহারিক মূল্যকে একত্রিত করে, গভীর শিক্ষায় অপটিমাইজেশন ঘটনা বোঝার জন্য নতুন তাত্ত্বিক সরঞ্জাম প্রদান করে এবং তত্ত্ব-নির্দেশিত অ্যালগরিদম ডিজাইনের সফল কেস প্রদর্শন করে। যদিও বৃহৎ-স্কেল পরীক্ষামূলক যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর তাত্ত্বিক অবদান এবং উদ্ভাবনী দৃষ্টিভঙ্গি এটিকে অপটিমাইজেশন তত্ত্ব ক্ষেত্রের একটি গুরুত্বপূর্ণ অগ্রগতি করে তোলে।