IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter
deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.
- পেপার আইডি: 2502.17500
- শিরোনাম: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
- লেখক: Andrzej Cichocki (Polish Academy of Science, UMK Torun Poland, Tokyo University of Agriculture and Technology, Riken AIP)
- শ্রেণীবিভাগ: cs.LG cs.AI
- প্রকাশনার সময়: arXiv প্রিপ্রিন্ট (২০২৫ সালের ফেব্রুয়ারি)
- পেপার লিঙ্ক: https://arxiv.org/abs/2502.17500
এই পেপারটি সাধারণীকৃত সূচকীয় গ্রেডিয়েন্ট (GEG) অ্যালগরিদমের একটি নতুন শ্রেণী প্রস্তাব করে এবং অধ্যয়ন করে, যা মিরর ডিসেন্ট (MD) আপডেট ব্যবহার করে এবং দ্বি-প্যারামিটার লগারিদম বিকৃতি সহ ব্রেগম্যান বিচ্যুতি প্রয়োগ করে লিঙ্ক ফাংশন হিসাবে। এই লিঙ্ক ফাংশনটি (অয়লার লগারিদম নামে পরিচিত) ট্রেস-ফর্ম এন্ট্রপির একটি তুলনামূলকভাবে বিস্তৃত শ্রেণীর সাথে সম্পর্কিত। নতুন GEG/MD আপডেট প্রাপ্ত করার জন্য, লেখক একটি বিকৃত সূচকীয় ফাংশন অনুমান করেন যা অয়লার দ্বি-প্যারামিটার বিকৃত লগারিদমের বিপরীত ফাংশনকে ঘনিষ্ঠভাবে অনুমান করে। এই হাইপারপ্যারামিটারগুলি শিখে, অ্যালগরিদম প্রশিক্ষণ ডেটার বিতরণের সাথে খাপ খাইয়ে নিতে পারে এবং গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদমের পছন্দসই বৈশিষ্ট্যগুলি অর্জনের জন্য সামঞ্জস্য করতে পারে।
বিদ্যমান গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতিগুলির নিম্নলিখিত সীমাবদ্ধতা রয়েছে:
- মান যোগকারী গ্রেডিয়েন্ট ডিসেন্ট এমন পরিস্থিতিতে প্রযোজ্য নয় যেখানে সমস্ত ওজন অ-নেতিবাচক হতে হবে
- গ্রেডিয়েন্ট অদৃশ্য এবং বিস্ফোরণ সমস্যা নির্ভুল শিক্ষার হার সমন্বয় প্রয়োজন
- অভিযোজনযোগ্যতার অভাব: বিদ্যমান EG আপডেটগুলি বিভিন্ন বিতরণের ডেটার সাথে খাপ খাইয়ে নিতে পারে না, সংমিশ্রণ কর্মক্ষমতা নিয়ন্ত্রণ করার জন্য হাইপারপ্যারামিটারের অভাব রয়েছে
- জৈবিক যুক্তিসঙ্গততা: সাম্প্রতিক নিউরন সিন্যাপ্স গবেষণা দেখায় যে EG আপডেটগুলি যোগকারী GD এর চেয়ে জৈবিক শিক্ষার প্রক্রিয়ার সাথে আরও সামঞ্জস্যপূর্ণ
- জ্যামিতিক অভিযোজনযোগ্যতা: উপযুক্ত লিঙ্ক ফাংশন নির্বাচনের মাধ্যমে, মিরর ডিসেন্ট অপ্টিমাইজেশন সমস্যার জ্যামিতিক কাঠামোর সাথে খাপ খাইয়ে নিতে পারে
- তাত্ত্বিক সমৃদ্ধি: সাহিত্যে ৫০টিরও বেশি গাণিতিকভাবে পরিপক্ক এন্ট্রপি ফাংশন এবং সম্পর্কিত বিকৃত লগারিদম বিদ্যমান রয়েছে, যা অ্যালগরিদম ডিজাইনের জন্য সমৃদ্ধ তাত্ত্বিক ভিত্তি প্রদান করে
- অয়লার দ্বি-প্যারামিটার লগারিদমের উপর ভিত্তি করে সাধারণীকৃত EG অ্যালগরিদম প্রস্তাব করা: প্রথমবারের মতো অয়লার (a,b)-লগারিদম মিরর ডিসেন্ট এবং সূচকীয় গ্রেডিয়েন্ট আপডেটে প্রয়োগ করা
- বিকৃত সূচকীয় ফাংশনের আনুমানিক তত্ত্ব প্রতিষ্ঠা করা: ল্যাগ্রেঞ্জ বিপরীত উপপাদ্য এবং ল্যাম্বার্ট-সালিস W ফাংশনের মাধ্যমে দুটি সমাধান পদ্ধতি প্রদান করা
- একাধিক পরিচিত অ্যালগরিদম একীভূত করা: প্রমাণ করা যে একাধিক বিদ্যমান অ্যালগরিদম (Tsallis, Kaniadakis, Amari ইত্যাদি) এই ফ্রেমওয়ার্কের বিশেষ ক্ষেত্র
- দ্বিমুখী ওজনে সম্প্রসারণ: দ্বিমুখী ওজন ভেক্টর পরিচালনা করার জন্য সাধারণীকৃত MD/GEG অ্যালগরিদম প্রস্তাব করা
- সম্পূর্ণ গাণিতিক তাত্ত্বিক ভিত্তি প্রদান করা: ফাংশন বৈশিষ্ট্য, সংমিশ্রণ বিশ্লেষণ এবং গণনামূলক স্থিতিশীলতা বিবেচনা সহ
অপ্টিমাইজেশন সমস্যা সংজ্ঞায়িত করা হয়েছে:
wt+1=argminw∈R+N{L(wt)+⟨∇L(wt),w−wt⟩+η1DF(w∣∣wt)}
যেখানে DF(w∣∣wt) হল ব্রেগম্যান বিচ্যুতি, L(w) হল পার্থক্যযোগ্য ক্ষতি ফাংশন।
loga,bE(x)=a−bxa−xb,x>0,a=b
প্যারামিটার সীমাবদ্ধতা: a<0,0<b<1 অথবা b<0,0<a<1
ল্যাগ্রেঞ্জ বিপরীত উপপাদ্য দ্বারা প্রাপ্ত শক্তি সিরিজ আনুমানিক:
expa,b(x)≈exp(x)−21(a+b)x2−61(3a+3b−2a2−5ab−2b2)x3+O(x4)
wt+1=expa,b[loga,b(wt)−ηt∇L(wt)]=wt⊗a,bexpa,b[−ηt∇L(wt)]
যেখানে ⊗a,b হল বিকৃত গুণন অপারেশন।
একক সিম্পলেক্স সীমাবদ্ধতার জন্য:
w~t+1=wt⊗a,bexpa,b(−ηt∇L^(wt))wt+1=∣∣w~t+1∣∣1w~t+1
যেখানে L^(w)=L(w/∣∣w∣∣1) হল সাধারণীকৃত ক্ষতি ফাংশন।
- দ্বি-প্যারামিটার নমনীয়তা: (a,b) প্যারামিটারের মাধ্যমে বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার জন্য অ্যালগরিদম সামঞ্জস্য করা
- একীভূত কাঠামো: একাধিক পরিচিত অ্যালগরিদমকে একটি একীভূত গাণিতিক কাঠামোতে অন্তর্ভুক্ত করা
- সংখ্যাগত স্থিতিশীলতা: গণনামূলকভাবে স্থিতিশীল বাস্তবায়ন পদ্ধতি প্রদান করা
- তাত্ত্বিক সম্পূর্ণতা: ফাংশন বৈশিষ্ট্য এবং সংমিশ্রণ বিশ্লেষণ সহ সম্পূর্ণ গাণিতিক তত্ত্ব প্রতিষ্ঠা করা
পেপারটি প্রধানত তাত্ত্বিক বিশ্লেষণ এবং গাণিতিক অনুমান পরিচালনা করে, যার মধ্যে রয়েছে:
- ফাংশন বৈশিষ্ট্য যাচাইকরণ: একঘেয়েতা, অবতলতা, সাধারণীকরণ ইত্যাদি মৌলিক বৈশিষ্ট্য
- বিশেষ ক্ষেত্র যাচাইকরণ: বিশেষ ক্ষেত্র হিসাবে পরিচিত অ্যালগরিদমের সঠিকতা যাচাই করা
- সংখ্যাগত স্থিতিশীলতা বিশ্লেষণ: প্যারামিটার সংবেদনশীলতা এবং গণনামূলক স্থিতিশীলতা বিশ্লেষণ করা
- কার্যকর প্যারামিটার ডোমেইন: a<0,0<b<1 অথবা b<0,0<a<1
- সংখ্যাগত স্থিতিশীল অঞ্চল: x→1 এর সময় সবচেয়ে স্থিতিশীল, 1 থেকে দূরে থাকলে বিশেষ চিকিৎসা প্রয়োজন
- সংমিশ্রণ বৈশিষ্ট্য: একবচন পরিস্থিতি পরিচালনা করার জন্য L'Hospital নিয়ম ব্যবহার করা প্রয়োজন
- সংজ্ঞার ডোমেইন: loga,b(x):R+→R
- একঘেয়েতা: dxdloga,b(x)>0
- অবতলতা: dx2d2loga,b(x)<0 (নির্দিষ্ট প্যারামিটার পরিসরে)
- সাধারণীকরণ: loga,b(1)=0, dxdloga,b(x)∣x=1=1
নিম্নলিখিত বিশেষ ক্ষেত্রগুলি সফলভাবে যাচাই করা হয়েছে:
- a=b=0: মান প্রাকৃতিক লগারিদম ln(x)
- a=0,b=−α: Amari α-লগারিদম
- a=1−q,b=0: Tsallis q-লগারিদম
- a=κ,b=−κ: Kaniadakis κ-লগারিদম
- প্যারামিটার সংবেদনশীলতা: ছোট x মানগুলি প্যারামিটার পরিবর্তনের প্রতি আরও সংবেদনশীল
- সংখ্যাগত স্থিতিশীলতা: x→1 এর সময় অ্যালগরিদম সবচেয়ে স্থিতিশীল
- সংমিশ্রণ বৈশিষ্ট্য: চরম আচরণ বিশেষ গণনা চিকিৎসা প্রয়োজন
সঠিক সমাধানের সাথে তুলনার মাধ্যমে, যাচাই করা হয়েছে যে শক্তি সিরিজ আনুমানিক যুক্তিসঙ্গত প্যারামিটার পরিসরে ভাল নির্ভুলতা রয়েছে।
- ক্লাসিক পদ্ধতি: যোগকারী গ্রেডিয়েন্ট ডিসেন্ট (GD), স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD)
- গুণক আপডেট: সূচকীয় গ্রেডিয়েন্ট (EG) ডিসেন্ট, মিরর ডিসেন্ট (MD)
- তথ্য জ্যামিতি পদ্ধতি: Amari এর প্রাকৃতিক গ্রেডিয়েন্ট, α-বিচ্যুতি
- পদার্থবিজ্ঞান প্রয়োগ: Tsallis এন্ট্রপি, Kaniadakis এন্ট্রপি পরিসংখ্যান পদার্থবিজ্ঞানে প্রয়োগ
- তথ্য তত্ত্ব উন্নয়ন: Sharma-Taneja-Mittal এন্ট্রপি, সাধারণীকৃত তথ্য পরিমাপ
- গাণিতিক তত্ত্ব: Abel সূচক, Tempesta বহু-প্যারামিটার লগারিদম
এই পেপারটি প্রথমবারের মতো অয়লার দ্বি-প্যারামিটার লগারিদম মেশিন লার্নিং অপ্টিমাইজেশনে প্রয়োগ করে, এই ক্ষেত্রে তাত্ত্বিক শূন্যতা পূরণ করে।
- তাত্ত্বিক সম্পূর্ণতা: অয়লার লগারিদমের উপর ভিত্তি করে সম্পূর্ণ GEG তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা
- অ্যালগরিদম নমনীয়তা: দ্বি-প্যারামিটার ডিজাইন বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা প্রদান করে
- একীভূততা: একাধিক পরিচিত অ্যালগরিদম এই ফ্রেমওয়ার্কের বিশেষ ক্ষেত্র হয়ে ওঠে
- ব্যবহারিকতা: সংখ্যাগতভাবে স্থিতিশীল বাস্তবায়ন পদ্ধতি প্রদান করা
- প্যারামিটার নির্বাচন: সিস্টেমেটিক হাইপারপ্যারামিটার অপ্টিমাইজেশন পদ্ধতির অভাব
- সংমিশ্রণ বিশ্লেষণ: বিভিন্ন প্যারামিটার ডোমেইনে সংমিশ্রণ তত্ত্ব আরও প্রতিষ্ঠা করা প্রয়োজন
- ব্যবহারিক প্রয়োগ যাচাইকরণ: পেপারটি প্রধানত তাত্ত্বিক কাজ, নির্দিষ্ট প্রয়োগ পরিস্থিতিতে পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে
- গণনামূলক জটিলতা: বিকৃত ফাংশনের গণনা মান ফাংশনের চেয়ে আরও জটিল
- হাইপারপ্যারামিটার শিক্ষা: সিস্টেমেটিক প্যারামিটার অপ্টিমাইজেশন পদ্ধতি উন্নয়ন করা
- সংমিশ্রণ তত্ত্ব: সম্পূর্ণ সংমিশ্রণ বিশ্লেষণ প্রতিষ্ঠা করা
- প্রয়োগ যাচাইকরণ: গভীর শিক্ষা, পোর্টফোলিও নির্বাচন ইত্যাদি নির্দিষ্ট কাজে কার্যকারিতা যাচাই করা
- গণনামূলক অপ্টিমাইজেশন: আরও দক্ষ সংখ্যাগত বাস্তবায়ন পদ্ধতি উন্নয়ন করা
- গাণিতিক কঠোরতা: সম্পূর্ণ গাণিতিক অনুমান এবং তাত্ত্বিক বিশ্লেষণ প্রদান করা
- একীভূত কাঠামো: একাধিক অসম্পর্কিত অ্যালগরিদমকে একটি তাত্ত্বিক কাঠামোতে একীভূত করা
- ঐতিহাসিক সংযোগ: অয়লারের ১৭৭৯ সালের গাণিতিক কাজকে আধুনিক মেশিন লার্নিংয়ের সাথে সংযুক্ত করা
- একাধিক বাস্তবায়ন পথ: Lambert-Tsallis ফাংশন এবং শক্তি সিরিজ দুটি সমাধান পদ্ধতি প্রদান করা
- সম্প্রসারণ শক্তি: দ্বিমুখী ওজন এবং একাধিক সীমাবদ্ধতা সমর্থন করা
- সংখ্যাগত বিবেচনা: গণনামূলক স্থিতিশীলতা সমস্যা সম্পূর্ণভাবে বিবেচনা করা
- ব্যবহারিক প্রয়োগের অভাব: পেপারটি প্রধানত তাত্ত্বিক কাজ, প্রকৃত সমস্যায় যাচাইকরণের অভাব রয়েছে
- কর্মক্ষমতা তুলনা অনুপস্থিত: বিদ্যমান পদ্ধতির সাথে কর্মক্ষমতা তুলনা নেই
- প্যারামিটার সংবেদনশীলতা: সিস্টেমেটিক প্যারামিটার নির্বাচন নির্দেশনার অভাব রয়েছে
- সংমিশ্রণ বিশ্লেষণ অসম্পূর্ণ: আরও কঠোর সংমিশ্রণ প্রমাণ প্রয়োজন
- প্রযোজ্যতা শর্ত সীমাবদ্ধতা: প্যারামিটার সীমাবদ্ধতা শর্ত অত্যন্ত কঠোর
- গণনামূলক জটিলতা: মান পদ্ধতির তুলনায় গণনামূলক খরচ বেশি
- তাত্ত্বিক অবদান: অপ্টিমাইজেশন অ্যালগরিদম তত্ত্বের জন্য নতুন গাণিতিক সরঞ্জাম প্রদান করা
- আন্তঃশৃঙ্খলা সংযোগ: পরিসংখ্যান পদার্থবিজ্ঞান, তথ্য জ্যামিতি এবং মেশিন লার্নিং সংযুক্ত করা
- অনুপ্রেরণামূলক: পরবর্তী গবেষণার জন্য সমৃদ্ধ তাত্ত্বিক ভিত্তি প্রদান করা
- অভিযোজিত অপ্টিমাইজেশন: বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার প্রয়োজনীয় পরিস্থিতিতে সম্ভাব্য মূল্য রয়েছে
- বিরল শিক্ষা: বিরল প্রতিনিধিত্ব শিক্ষায় সুবিধা থাকতে পারে
- জৈবিক অনুপ্রেরণা: স্নায়ুবিজ্ঞান আবিষ্কারের জৈবিক যুক্তিসঙ্গততার সাথে সামঞ্জস্যপূর্ণ
- অ-নেতিবাচক সীমাবদ্ধতা অপ্টিমাইজেশন: ওজন অ-নেতিবাচক হতে হবে এমন অপ্টিমাইজেশন সমস্যা
- বিরল শিক্ষা: বিরল সমাধান প্রয়োজনীয় মেশিন লার্নিং কাজ
- সম্ভাব্যতা বিতরণ অপ্টিমাইজেশন: অনলাইন পোর্টফোলিও নির্বাচন ইত্যাদি সম্ভাব্যতা সিম্পলেক্সে অপ্টিমাইজেশন
- গভীর শিক্ষা: কিছু নিউরাল নেটওয়ার্ক প্রশিক্ষণে সম্ভাব্য সুবিধা থাকতে পারে
পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, যার মধ্যে রয়েছে:
- অপ্টিমাইজেশন তত্ত্ব ক্লাসিক সাহিত্য: Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
- তথ্য জ্যামিতি ভিত্তি: Amari & Nagaoka (2000), Bregman (1967)
- বিকৃত লগারিদম তত্ত্ব: Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
- মেশিন লার্নিং প্রয়োগ: Kivinen & Warmuth (1997), Cichocki et al. (2009)
সামগ্রিক মূল্যায়ন: এটি একটি অত্যন্ত তাত্ত্বিক পেপার যা অপ্টিমাইজেশন অ্যালগরিদমের জন্য নতুন গাণিতিক কাঠামো প্রদান করে। যদিও ব্যবহারিক প্রয়োগ যাচাইকরণের অভাব রয়েছে, তবে এর তাত্ত্বিক অবদান এবং একীভূততা একাডেমিকভাবে গুরুত্বপূর্ণ মূল্য রাখে। পেপারের প্রধান মূল্য ঐতিহাসিক গাণিতিক তত্ত্ব এবং আধুনিক মেশিন লার্নিংয়ের মধ্যে একটি সেতু প্রতিষ্ঠা করা, পরবর্তী গবেষণার জন্য সমৃদ্ধ তাত্ত্বিক সরঞ্জাম প্রদান করা।