2025-11-11T07:19:09.204233

Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm

Cichocki
IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.
academic

অয়লার দ্বি-প্যারামিটার লগারিদম ব্যবহার করে সাধারণীকৃত সূচকীয় গ্রেডিয়েন্ট অ্যালগরিদম

মৌলিক তথ্য

  • পেপার আইডি: 2502.17500
  • শিরোনাম: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
  • লেখক: Andrzej Cichocki (Polish Academy of Science, UMK Torun Poland, Tokyo University of Agriculture and Technology, Riken AIP)
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনার সময়: arXiv প্রিপ্রিন্ট (২০২৫ সালের ফেব্রুয়ারি)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2502.17500

সারসংক্ষেপ

এই পেপারটি সাধারণীকৃত সূচকীয় গ্রেডিয়েন্ট (GEG) অ্যালগরিদমের একটি নতুন শ্রেণী প্রস্তাব করে এবং অধ্যয়ন করে, যা মিরর ডিসেন্ট (MD) আপডেট ব্যবহার করে এবং দ্বি-প্যারামিটার লগারিদম বিকৃতি সহ ব্রেগম্যান বিচ্যুতি প্রয়োগ করে লিঙ্ক ফাংশন হিসাবে। এই লিঙ্ক ফাংশনটি (অয়লার লগারিদম নামে পরিচিত) ট্রেস-ফর্ম এন্ট্রপির একটি তুলনামূলকভাবে বিস্তৃত শ্রেণীর সাথে সম্পর্কিত। নতুন GEG/MD আপডেট প্রাপ্ত করার জন্য, লেখক একটি বিকৃত সূচকীয় ফাংশন অনুমান করেন যা অয়লার দ্বি-প্যারামিটার বিকৃত লগারিদমের বিপরীত ফাংশনকে ঘনিষ্ঠভাবে অনুমান করে। এই হাইপারপ্যারামিটারগুলি শিখে, অ্যালগরিদম প্রশিক্ষণ ডেটার বিতরণের সাথে খাপ খাইয়ে নিতে পারে এবং গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদমের পছন্দসই বৈশিষ্ট্যগুলি অর্জনের জন্য সামঞ্জস্য করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতিগুলির নিম্নলিখিত সীমাবদ্ধতা রয়েছে:

  1. মান যোগকারী গ্রেডিয়েন্ট ডিসেন্ট এমন পরিস্থিতিতে প্রযোজ্য নয় যেখানে সমস্ত ওজন অ-নেতিবাচক হতে হবে
  2. গ্রেডিয়েন্ট অদৃশ্য এবং বিস্ফোরণ সমস্যা নির্ভুল শিক্ষার হার সমন্বয় প্রয়োজন
  3. অভিযোজনযোগ্যতার অভাব: বিদ্যমান EG আপডেটগুলি বিভিন্ন বিতরণের ডেটার সাথে খাপ খাইয়ে নিতে পারে না, সংমিশ্রণ কর্মক্ষমতা নিয়ন্ত্রণ করার জন্য হাইপারপ্যারামিটারের অভাব রয়েছে

গবেষণা প্রেরণা

  1. জৈবিক যুক্তিসঙ্গততা: সাম্প্রতিক নিউরন সিন্যাপ্স গবেষণা দেখায় যে EG আপডেটগুলি যোগকারী GD এর চেয়ে জৈবিক শিক্ষার প্রক্রিয়ার সাথে আরও সামঞ্জস্যপূর্ণ
  2. জ্যামিতিক অভিযোজনযোগ্যতা: উপযুক্ত লিঙ্ক ফাংশন নির্বাচনের মাধ্যমে, মিরর ডিসেন্ট অপ্টিমাইজেশন সমস্যার জ্যামিতিক কাঠামোর সাথে খাপ খাইয়ে নিতে পারে
  3. তাত্ত্বিক সমৃদ্ধি: সাহিত্যে ৫০টিরও বেশি গাণিতিকভাবে পরিপক্ক এন্ট্রপি ফাংশন এবং সম্পর্কিত বিকৃত লগারিদম বিদ্যমান রয়েছে, যা অ্যালগরিদম ডিজাইনের জন্য সমৃদ্ধ তাত্ত্বিক ভিত্তি প্রদান করে

মূল অবদান

  1. অয়লার দ্বি-প্যারামিটার লগারিদমের উপর ভিত্তি করে সাধারণীকৃত EG অ্যালগরিদম প্রস্তাব করা: প্রথমবারের মতো অয়লার (a,b)-লগারিদম মিরর ডিসেন্ট এবং সূচকীয় গ্রেডিয়েন্ট আপডেটে প্রয়োগ করা
  2. বিকৃত সূচকীয় ফাংশনের আনুমানিক তত্ত্ব প্রতিষ্ঠা করা: ল্যাগ্রেঞ্জ বিপরীত উপপাদ্য এবং ল্যাম্বার্ট-সালিস W ফাংশনের মাধ্যমে দুটি সমাধান পদ্ধতি প্রদান করা
  3. একাধিক পরিচিত অ্যালগরিদম একীভূত করা: প্রমাণ করা যে একাধিক বিদ্যমান অ্যালগরিদম (Tsallis, Kaniadakis, Amari ইত্যাদি) এই ফ্রেমওয়ার্কের বিশেষ ক্ষেত্র
  4. দ্বিমুখী ওজনে সম্প্রসারণ: দ্বিমুখী ওজন ভেক্টর পরিচালনা করার জন্য সাধারণীকৃত MD/GEG অ্যালগরিদম প্রস্তাব করা
  5. সম্পূর্ণ গাণিতিক তাত্ত্বিক ভিত্তি প্রদান করা: ফাংশন বৈশিষ্ট্য, সংমিশ্রণ বিশ্লেষণ এবং গণনামূলক স্থিতিশীলতা বিবেচনা সহ

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

অপ্টিমাইজেশন সমস্যা সংজ্ঞায়িত করা হয়েছে: wt+1=argminwR+N{L(wt)+L(wt),wwt+1ηDF(wwt)}w_{t+1} = \arg\min_{w \in \mathbb{R}_+^N} \left\{ L(w_t) + \langle\nabla L(w_t), w - w_t\rangle + \frac{1}{\eta} D_F(w||w_t) \right\}

যেখানে DF(wwt)D_F(w||w_t) হল ব্রেগম্যান বিচ্যুতি, L(w)L(w) হল পার্থক্যযোগ্য ক্ষতি ফাংশন।

মূল গাণিতিক কাঠামো

অয়লার (a,b)-লগারিদম

loga,bE(x)=xaxbab,x>0,ab\log^E_{a,b}(x) = \frac{x^a - x^b}{a - b}, \quad x > 0, a \neq b

প্যারামিটার সীমাবদ্ধতা: a<0,0<b<1a < 0, 0 < b < 1 অথবা b<0,0<a<1b < 0, 0 < a < 1

বিকৃত সূচকীয় ফাংশন

ল্যাগ্রেঞ্জ বিপরীত উপপাদ্য দ্বারা প্রাপ্ত শক্তি সিরিজ আনুমানিক: expa,b(x)exp(x)12(a+b)x216(3a+3b2a25ab2b2)x3+O(x4)\exp_{a,b}(x) \approx \exp(x) - \frac{1}{2}(a+b)x^2 - \frac{1}{6}(3a+3b-2a^2-5ab-2b^2)x^3 + O(x^4)

অ্যালগরিদম স্থাপত্য

অ-সাধারণীকৃত GEG আপডেট

wt+1=expa,b[loga,b(wt)ηtL(wt)]=wta,bexpa,b[ηtL(wt)]w_{t+1} = \exp_{a,b}[\log_{a,b}(w_t) - \eta_t \nabla L(w_t)] = w_t \otimes_{a,b} \exp_{a,b}[-\eta_t \nabla L(w_t)]

যেখানে a,b\otimes_{a,b} হল বিকৃত গুণন অপারেশন।

সাধারণীকৃত GEG আপডেট

একক সিম্পলেক্স সীমাবদ্ধতার জন্য: w~t+1=wta,bexpa,b(ηtL^(wt))\tilde{w}_{t+1} = w_t \otimes_{a,b} \exp_{a,b}(-\eta_t \nabla \hat{L}(w_t))wt+1=w~t+1w~t+11w_{t+1} = \frac{\tilde{w}_{t+1}}{||\tilde{w}_{t+1}||_1}

যেখানে L^(w)=L(w/w1)\hat{L}(w) = L(w/||w||_1) হল সাধারণীকৃত ক্ষতি ফাংশন।

প্রযুক্তিগত উদ্ভাবনী পয়েন্ট

  1. দ্বি-প্যারামিটার নমনীয়তা: (a,b) প্যারামিটারের মাধ্যমে বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার জন্য অ্যালগরিদম সামঞ্জস্য করা
  2. একীভূত কাঠামো: একাধিক পরিচিত অ্যালগরিদমকে একটি একীভূত গাণিতিক কাঠামোতে অন্তর্ভুক্ত করা
  3. সংখ্যাগত স্থিতিশীলতা: গণনামূলকভাবে স্থিতিশীল বাস্তবায়ন পদ্ধতি প্রদান করা
  4. তাত্ত্বিক সম্পূর্ণতা: ফাংশন বৈশিষ্ট্য এবং সংমিশ্রণ বিশ্লেষণ সহ সম্পূর্ণ গাণিতিক তত্ত্ব প্রতিষ্ঠা করা

পরীক্ষামূলক সেটআপ

তাত্ত্বিক যাচাইকরণ

পেপারটি প্রধানত তাত্ত্বিক বিশ্লেষণ এবং গাণিতিক অনুমান পরিচালনা করে, যার মধ্যে রয়েছে:

  1. ফাংশন বৈশিষ্ট্য যাচাইকরণ: একঘেয়েতা, অবতলতা, সাধারণীকরণ ইত্যাদি মৌলিক বৈশিষ্ট্য
  2. বিশেষ ক্ষেত্র যাচাইকরণ: বিশেষ ক্ষেত্র হিসাবে পরিচিত অ্যালগরিদমের সঠিকতা যাচাই করা
  3. সংখ্যাগত স্থিতিশীলতা বিশ্লেষণ: প্যারামিটার সংবেদনশীলতা এবং গণনামূলক স্থিতিশীলতা বিশ্লেষণ করা

প্যারামিটার পরিসীমা বিশ্লেষণ

  • কার্যকর প্যারামিটার ডোমেইন: a<0,0<b<1a < 0, 0 < b < 1 অথবা b<0,0<a<1b < 0, 0 < a < 1
  • সংখ্যাগত স্থিতিশীল অঞ্চল: x1x \to 1 এর সময় সবচেয়ে স্থিতিশীল, 1 থেকে দূরে থাকলে বিশেষ চিকিৎসা প্রয়োজন
  • সংমিশ্রণ বৈশিষ্ট্য: একবচন পরিস্থিতি পরিচালনা করার জন্য L'Hospital নিয়ম ব্যবহার করা প্রয়োজন

পরীক্ষামূলক ফলাফল

তাত্ত্বিক ফলাফল

ফাংশন বৈশিষ্ট্য যাচাইকরণ

  • সংজ্ঞার ডোমেইন: loga,b(x):R+R\log_{a,b}(x): \mathbb{R}_+ \to \mathbb{R}
  • একঘেয়েতা: dloga,b(x)dx>0\frac{d\log_{a,b}(x)}{dx} > 0
  • অবতলতা: d2loga,b(x)dx2<0\frac{d^2\log_{a,b}(x)}{dx^2} < 0 (নির্দিষ্ট প্যারামিটার পরিসরে)
  • সাধারণীকরণ: loga,b(1)=0\log_{a,b}(1) = 0, dloga,b(x)dxx=1=1\frac{d\log_{a,b}(x)}{dx}|_{x=1} = 1

বিশেষ ক্ষেত্র পুনরুদ্ধার

নিম্নলিখিত বিশেষ ক্ষেত্রগুলি সফলভাবে যাচাই করা হয়েছে:

  • a=b=0a = b = 0: মান প্রাকৃতিক লগারিদম ln(x)\ln(x)
  • a=0,b=αa = 0, b = -\alpha: Amari α-লগারিদম
  • a=1q,b=0a = 1-q, b = 0: Tsallis q-লগারিদম
  • a=κ,b=κa = \kappa, b = -\kappa: Kaniadakis κ-লগারিদম

সংখ্যাগত বিশ্লেষণ ফলাফল

গণনামূলক স্থিতিশীলতা

  1. প্যারামিটার সংবেদনশীলতা: ছোট xx মানগুলি প্যারামিটার পরিবর্তনের প্রতি আরও সংবেদনশীল
  2. সংখ্যাগত স্থিতিশীলতা: x1x \to 1 এর সময় অ্যালগরিদম সবচেয়ে স্থিতিশীল
  3. সংমিশ্রণ বৈশিষ্ট্য: চরম আচরণ বিশেষ গণনা চিকিৎসা প্রয়োজন

শক্তি সিরিজ আনুমানিক নির্ভুলতা

সঠিক সমাধানের সাথে তুলনার মাধ্যমে, যাচাই করা হয়েছে যে শক্তি সিরিজ আনুমানিক যুক্তিসঙ্গত প্যারামিটার পরিসরে ভাল নির্ভুলতা রয়েছে।

সম্পর্কিত কাজ

অপ্টিমাইজেশন অ্যালগরিদম উন্নয়ন

  1. ক্লাসিক পদ্ধতি: যোগকারী গ্রেডিয়েন্ট ডিসেন্ট (GD), স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD)
  2. গুণক আপডেট: সূচকীয় গ্রেডিয়েন্ট (EG) ডিসেন্ট, মিরর ডিসেন্ট (MD)
  3. তথ্য জ্যামিতি পদ্ধতি: Amari এর প্রাকৃতিক গ্রেডিয়েন্ট, α-বিচ্যুতি

বিকৃত লগারিদম গবেষণা

  1. পদার্থবিজ্ঞান প্রয়োগ: Tsallis এন্ট্রপি, Kaniadakis এন্ট্রপি পরিসংখ্যান পদার্থবিজ্ঞানে প্রয়োগ
  2. তথ্য তত্ত্ব উন্নয়ন: Sharma-Taneja-Mittal এন্ট্রপি, সাধারণীকৃত তথ্য পরিমাপ
  3. গাণিতিক তত্ত্ব: Abel সূচক, Tempesta বহু-প্যারামিটার লগারিদম

এই পেপারের অবস্থান

এই পেপারটি প্রথমবারের মতো অয়লার দ্বি-প্যারামিটার লগারিদম মেশিন লার্নিং অপ্টিমাইজেশনে প্রয়োগ করে, এই ক্ষেত্রে তাত্ত্বিক শূন্যতা পূরণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. তাত্ত্বিক সম্পূর্ণতা: অয়লার লগারিদমের উপর ভিত্তি করে সম্পূর্ণ GEG তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা
  2. অ্যালগরিদম নমনীয়তা: দ্বি-প্যারামিটার ডিজাইন বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা প্রদান করে
  3. একীভূততা: একাধিক পরিচিত অ্যালগরিদম এই ফ্রেমওয়ার্কের বিশেষ ক্ষেত্র হয়ে ওঠে
  4. ব্যবহারিকতা: সংখ্যাগতভাবে স্থিতিশীল বাস্তবায়ন পদ্ধতি প্রদান করা

সীমাবদ্ধতা

  1. প্যারামিটার নির্বাচন: সিস্টেমেটিক হাইপারপ্যারামিটার অপ্টিমাইজেশন পদ্ধতির অভাব
  2. সংমিশ্রণ বিশ্লেষণ: বিভিন্ন প্যারামিটার ডোমেইনে সংমিশ্রণ তত্ত্ব আরও প্রতিষ্ঠা করা প্রয়োজন
  3. ব্যবহারিক প্রয়োগ যাচাইকরণ: পেপারটি প্রধানত তাত্ত্বিক কাজ, নির্দিষ্ট প্রয়োগ পরিস্থিতিতে পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে
  4. গণনামূলক জটিলতা: বিকৃত ফাংশনের গণনা মান ফাংশনের চেয়ে আরও জটিল

ভবিষ্যত দিকনির্দেশনা

  1. হাইপারপ্যারামিটার শিক্ষা: সিস্টেমেটিক প্যারামিটার অপ্টিমাইজেশন পদ্ধতি উন্নয়ন করা
  2. সংমিশ্রণ তত্ত্ব: সম্পূর্ণ সংমিশ্রণ বিশ্লেষণ প্রতিষ্ঠা করা
  3. প্রয়োগ যাচাইকরণ: গভীর শিক্ষা, পোর্টফোলিও নির্বাচন ইত্যাদি নির্দিষ্ট কাজে কার্যকারিতা যাচাই করা
  4. গণনামূলক অপ্টিমাইজেশন: আরও দক্ষ সংখ্যাগত বাস্তবায়ন পদ্ধতি উন্নয়ন করা

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক উদ্ভাবনী

  1. গাণিতিক কঠোরতা: সম্পূর্ণ গাণিতিক অনুমান এবং তাত্ত্বিক বিশ্লেষণ প্রদান করা
  2. একীভূত কাঠামো: একাধিক অসম্পর্কিত অ্যালগরিদমকে একটি তাত্ত্বিক কাঠামোতে একীভূত করা
  3. ঐতিহাসিক সংযোগ: অয়লারের ১৭৭৯ সালের গাণিতিক কাজকে আধুনিক মেশিন লার্নিংয়ের সাথে সংযুক্ত করা

পদ্ধতি সম্পূর্ণতা

  1. একাধিক বাস্তবায়ন পথ: Lambert-Tsallis ফাংশন এবং শক্তি সিরিজ দুটি সমাধান পদ্ধতি প্রদান করা
  2. সম্প্রসারণ শক্তি: দ্বিমুখী ওজন এবং একাধিক সীমাবদ্ধতা সমর্থন করা
  3. সংখ্যাগত বিবেচনা: গণনামূলক স্থিতিশীলতা সমস্যা সম্পূর্ণভাবে বিবেচনা করা

অপূর্ণতা

পরীক্ষামূলক যাচাইকরণ অনুপস্থিত

  1. ব্যবহারিক প্রয়োগের অভাব: পেপারটি প্রধানত তাত্ত্বিক কাজ, প্রকৃত সমস্যায় যাচাইকরণের অভাব রয়েছে
  2. কর্মক্ষমতা তুলনা অনুপস্থিত: বিদ্যমান পদ্ধতির সাথে কর্মক্ষমতা তুলনা নেই
  3. প্যারামিটার সংবেদনশীলতা: সিস্টেমেটিক প্যারামিটার নির্বাচন নির্দেশনার অভাব রয়েছে

তাত্ত্বিক সীমাবদ্ধতা

  1. সংমিশ্রণ বিশ্লেষণ অসম্পূর্ণ: আরও কঠোর সংমিশ্রণ প্রমাণ প্রয়োজন
  2. প্রযোজ্যতা শর্ত সীমাবদ্ধতা: প্যারামিটার সীমাবদ্ধতা শর্ত অত্যন্ত কঠোর
  3. গণনামূলক জটিলতা: মান পদ্ধতির তুলনায় গণনামূলক খরচ বেশি

প্রভাব

একাডেমিক মূল্য

  1. তাত্ত্বিক অবদান: অপ্টিমাইজেশন অ্যালগরিদম তত্ত্বের জন্য নতুন গাণিতিক সরঞ্জাম প্রদান করা
  2. আন্তঃশৃঙ্খলা সংযোগ: পরিসংখ্যান পদার্থবিজ্ঞান, তথ্য জ্যামিতি এবং মেশিন লার্নিং সংযুক্ত করা
  3. অনুপ্রেরণামূলক: পরবর্তী গবেষণার জন্য সমৃদ্ধ তাত্ত্বিক ভিত্তি প্রদান করা

ব্যবহারিক সম্ভাবনা

  1. অভিযোজিত অপ্টিমাইজেশন: বিভিন্ন ডেটা বিতরণের সাথে খাপ খাইয়ে নেওয়ার প্রয়োজনীয় পরিস্থিতিতে সম্ভাব্য মূল্য রয়েছে
  2. বিরল শিক্ষা: বিরল প্রতিনিধিত্ব শিক্ষায় সুবিধা থাকতে পারে
  3. জৈবিক অনুপ্রেরণা: স্নায়ুবিজ্ঞান আবিষ্কারের জৈবিক যুক্তিসঙ্গততার সাথে সামঞ্জস্যপূর্ণ

প্রযোজ্য পরিস্থিতি

  1. অ-নেতিবাচক সীমাবদ্ধতা অপ্টিমাইজেশন: ওজন অ-নেতিবাচক হতে হবে এমন অপ্টিমাইজেশন সমস্যা
  2. বিরল শিক্ষা: বিরল সমাধান প্রয়োজনীয় মেশিন লার্নিং কাজ
  3. সম্ভাব্যতা বিতরণ অপ্টিমাইজেশন: অনলাইন পোর্টফোলিও নির্বাচন ইত্যাদি সম্ভাব্যতা সিম্পলেক্সে অপ্টিমাইজেশন
  4. গভীর শিক্ষা: কিছু নিউরাল নেটওয়ার্ক প্রশিক্ষণে সম্ভাব্য সুবিধা থাকতে পারে

সংদর্ভ

পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • অপ্টিমাইজেশন তত্ত্ব ক্লাসিক সাহিত্য: Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
  • তথ্য জ্যামিতি ভিত্তি: Amari & Nagaoka (2000), Bregman (1967)
  • বিকৃত লগারিদম তত্ত্ব: Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
  • মেশিন লার্নিং প্রয়োগ: Kivinen & Warmuth (1997), Cichocki et al. (2009)

সামগ্রিক মূল্যায়ন: এটি একটি অত্যন্ত তাত্ত্বিক পেপার যা অপ্টিমাইজেশন অ্যালগরিদমের জন্য নতুন গাণিতিক কাঠামো প্রদান করে। যদিও ব্যবহারিক প্রয়োগ যাচাইকরণের অভাব রয়েছে, তবে এর তাত্ত্বিক অবদান এবং একীভূততা একাডেমিকভাবে গুরুত্বপূর্ণ মূল্য রাখে। পেপারের প্রধান মূল্য ঐতিহাসিক গাণিতিক তত্ত্ব এবং আধুনিক মেশিন লার্নিংয়ের মধ্যে একটি সেতু প্রতিষ্ঠা করা, পরবর্তী গবেষণার জন্য সমৃদ্ধ তাত্ত্বিক সরঞ্জাম প্রদান করা।