2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

SGDM ত্বরণ শিক্ষা হার এবং ব্যাচ আকার সময়সূচীর মাধ্যমে: একটি লায়াপুনভ-ভিত্তিক বিশ্লেষণ

মৌলিক তথ্য

  • পেপার আইডি: 2508.03105
  • শিরোনাম: SGDM ত্বরণ শিক্ষা হার এবং ব্যাচ আকার সময়সূচীর মাধ্যমে: একটি লায়াপুনভ-ভিত্তিক বিশ্লেষণ
  • লেখক: ইউইচি কন্ডো, হিডেকি ইইডুকা (মেইজি বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv v2)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2508.03105v2

সারসংক্ষেপ

এই পেপারটি একটি নতুন এবং সহজতর লায়াপুনভ ফাংশন প্রবর্তন করে গতিশীল শিক্ষা হার এবং ব্যাচ আকার সময়সূচীর অধীনে গতিবেগ সহ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGDM) এর সংগ্রহণ আচরণ বিশ্লেষণ করে। গবেষণা বিদ্যমান তাত্ত্বিক কাঠামো প্রসারিত করে, গভীর শিক্ষায় ব্যবহৃত তিনটি ব্যবহারিক সময়সূচী কৌশল অন্তর্ভুক্ত করে: ধ্রুবক ব্যাচ আকার সহ হ্রাসকারী শিক্ষা হার, ক্রমবর্ধমান ব্যাচ আকার সহ হ্রাসকারী শিক্ষা হার, এবং একযোগে ক্রমবর্ধমান ব্যাচ আকার এবং শিক্ষা হার। ফলাফলগুলি একটি স্পষ্ট সংগ্রহণ শ্রেণিবিন্যাস প্রকাশ করে: ধ্রুবক ব্যাচ আকার প্রত্যাশিত গ্রেডিয়েন্ট নর্মের সংগ্রহণ নিশ্চিত করতে পারে না, যখন ক্রমবর্ধমান ব্যাচ আকার পারে, এবং একযোগে ক্রমবর্ধমান ব্যাচ আকার এবং শিক্ষা হার প্রমাণিত দ্রুত ক্ষয় অর্জন করতে পারে। পরীক্ষামূলক ফলাফলগুলি তত্ত্বকে যাচাই করে, দেখায় যে গতিশীল সময়সূচীকৃত SGDM স্থির হাইপারপ্যারামিটার সহ সংগত পদ্ধতির তুলনায় সংগ্রহণ গতিতে উল্লেখযোগ্যভাবে উন্নত।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণার মূল সমস্যা হল: SGDM-এ শিক্ষা হার এবং ব্যাচ আকারের গতিশীল সময়সূচীর মাধ্যমে কীভাবে তাত্ত্বিক বিশ্লেষণ দ্বারা পরিচালিত হয়ে আরও ভাল সংগ্রহণ কর্মক্ষমতা অর্জন করা যায়।

গুরুত্ব

  1. ব্যবহারিক চাহিদা: গতিশীল শিক্ষা হার সময়সূচী (যেমন কোসাইন অ্যানিলিং) গভীর শিক্ষা প্রশিক্ষণে ব্যাপকভাবে গৃহীত হয়, কিন্তু তাত্ত্বিক সমর্থনের অভাব রয়েছে
  2. দক্ষতা বৃদ্ধি: ব্যাচ আকার বৃদ্ধি মিনি-ব্যাচ SGD এর দক্ষতা উন্নত করতে পারে বলে রিপোর্ট করা হয়েছে, কিন্তু SGDM কাঠামোর অধীনে তাত্ত্বিক বিশ্লেষণ সীমিত
  3. তাত্ত্বিক ফাঁক: বিদ্যমান SGDM তাত্ত্বিক বিশ্লেষণ প্রধানত স্থির শিক্ষা হারের মধ্যে সীমাবদ্ধ, গতিশীল সময়সূচীর তাত্ত্বিক কাঠামো জরুরি প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. উমেদা এবং ইইডুকা (২০২৫): শুধুমাত্র ভ্যানিলা SGD এর গতিশীল সময়সূচী বিশ্লেষণ করে, গতিবেগ পদ্ধতি জড়িত নয়
  2. কামো এবং ইইডুকা (২০२५): ধ্রুবক শিক্ষা হার এবং ক্রমবর্ধমান ব্যাচ আকারের অধীনে SGDM এর সংগ্রহণ অধ্যয়ন করে, কিন্তু গতিশীল শিক্ষা হার বিবেচনা করে না
  3. লিউ এট আল. (২०२०): স্থির শিক্ষা হারের অধীনে NSHB বিশ্লেষণ করে, কিন্তু গতিশীল সময়সূচীতে সম্প্রসারণ এখনও চ্যালেঞ্জিং

গবেষণা প্রেরণা

SGDM গতিশীল শিক্ষা হার সময়সূচীর তাত্ত্বিক বিশ্লেষণের ফাঁক পূরণ করা, ব্যবহারিক প্রশিক্ষণের জন্য তাত্ত্বিক নির্দেশনা প্রদান করা।

মূল অবদান

  1. নতুন লায়াপুনভ ফাংশন: গতিশীল শিক্ষা হার সময়সূচীর সাথে খাপ খাইয়ে নেওয়া একটি সরলীকৃত লায়াপুনভ ফাংশন প্রস্তাব করা, বিদ্যমান পদ্ধতির তুলনায় আরও সংক্ষিপ্ত
  2. একীভূত তাত্ত্বিক কাঠামো: SHB এবং NSHB অন্তর্ভুক্ত করে একটি একীভূত বিশ্লেষণ কাঠামো প্রতিষ্ঠা করা, বিভিন্ন সময়সূচী কৌশলের জন্য প্রযোজ্য
  3. তাত্ত্বিক সম্প্রসারণ: কামো এবং ইইডুকা (२०२५) এর বিশ্লেষণ ধ্রুবক শিক্ষা হার থেকে হ্রাসকারী শিক্ষা হারে প্রসারিত করা, এবং একযোগে শিক্ষা হার এবং ব্যাচ আকার বৃদ্ধির ক্ষেত্রে অধ্যয়ন করা
  4. সংগ্রহণ শ্রেণিবিন্যাস: তাত্ত্বিকভাবে চারটি সময়সূচী কৌশলের সংগ্রহণ কর্মক্ষমতা ক্রম প্রমাণ করা, এবং পরীক্ষার মাধ্যমে যাচাই করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অভিজ্ঞতামূলক ঝুঁকি ন্যূনতমকরণ সমস্যা অধ্যয়ন করা: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), যেখানে fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) ক্ষতি ফাংশন। লক্ষ্য হল একটি স্থিতিশীল বিন্দু θRd\theta^* \in \mathbb{R}^d খুঁজে পাওয়া যেমন f(θ)=0\nabla f(\theta^*) = 0

তাত্ত্বিক কাঠামো

লায়াপুনভ ফাংশন ডিজাইন

নতুন লায়াপুনভ ফাংশন প্রস্তাব করা:

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ যেখানে $A_t \geq 0$ শুধুমাত্র $t$ এর উপর নির্ভরশীল একটি নির্ধারণীয় স্কেলার। NSHB পদ্ধতির জন্য: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### অ্যালগরিদম বর্ণনা **NSHB অ্যালগরিদম**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **SHB অ্যালগরিদম**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### প্রযুক্তিগত উদ্ভাবন পয়েন্ট #### ১. সরলীকৃত লায়াপুনভ ফাংশন বিদ্যমান পদ্ধতির তুলনায় (যেমন লিউ এট আল. २०२० এর জটিল ফর্ম), এই পেপারের লায়াপুনভ ফাংশন সংক্ষিপ্ত আকারে এবং গতিশীল শিক্ষা হারের সাথে স্বাভাবিকভাবে খাপ খায়। #### ২. একীভূত বিশ্লেষণ কাঠামো প্রযুক্তিগত শর্ত $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ প্রবর্তন করে (যেখানে $1 \leq c < \frac{1}{\beta^2}$), একযোগে হ্রাসকারী এবং ক্রমবর্ধমান শিক্ষা হার সময়সূচী পরিচালনা করা। #### ३. ক্রস-টার্ম নির্মূল কৌশল $A_t$ এর সংজ্ঞা বুদ্ধিমানের সাথে নির্বাচন করে, বিশ্লেষণে ক্রস-টার্ম $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ সফলভাবে নির্মূল করা, যা এই বিশ্লেষণের মূল প্রযুক্তিগত কঠিনতা। ## পরীক্ষামূলক সেটআপ ### ডেটাসেট - **ডেটাসেট**: CIFAR-100 - **মডেল**: ResNet-18 - **প্রশিক্ষণ যুগ**: ३०० যুগ - **গতিবেগ সহগ**: β = 0.9 ### হার্ডওয়্যার পরিবেশ - **CPU**: দ্বৈত Intel Xeon Silver 4316 - **GPU**: NVIDIA Tesla A100 80GB - **সফটওয়্যার**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### সময়সূচী কৌশল চারটি প্রশিক্ষণ সময়সূচী অধ্যয়ন করা: 1. **ধ্রুবক ব্যাচ আকার + হ্রাসকারী শিক্ষা হার**: ব্যাচ আকার ১२८ এ স্থির 2. **ক্রমবর্ধমান ব্যাচ আকার + হ্রাসকারী শিক্ষা হার**: ব্যাচ আকার প্রতি ३० যুগে দ্বিগুণ (२³ থেকে २¹२) 3. **ক্রমবর্ধমান ব্যাচ আকার + ক্রমবর্ধমান শিক্ষা হার**: ব্যাচ আকার এবং শিক্ষা হার একযোগে বৃদ্ধি 4. **ক্রমবর্ধমান ব্যাচ আকার + ওয়ার্ম-আপ শিক্ষা হার**: প্রথমে বৃদ্ধি তারপর হ্রাস শিক্ষা হার সময়সূচী ### মূল্যায়ন মেট্রিক্স - প্রশিক্ষণ ক্ষতি - পরীক্ষা নির্ভুলতা - সম্পূর্ণ গ্রেডিয়েন্ট নর্ম $\|\nabla f(\theta_e)\|$ ## পরীক্ষামূলক ফলাফল ### প্রধান তাত্ত্বিক ফলাফল #### উপপাদ্য १: একীভূত সংগ্রহণ সীমানা অনুমান শর্তের অধীনে, NSHB এবং SHB এর জন্য: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ যেখানে: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### সংগ্রহণ হার বিশ্লেষণ **ধ্রুবক ব্যাচ আকার ক্ষেত্রে**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **ক্রমবর্ধমান ব্যাচ আকার ক্ষেত্রে**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **একযোগে ক্রমবর্ধমান ব্যাচ আকার এবং শিক্ষা হার**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### পরীক্ষামূলক যাচাইকরণ #### সংগ্রহণ কর্মক্ষমতা ক্রম পরীক্ষামূলক ফলাফল সম্পূর্ণভাবে তাত্ত্বিক পূর্বাভাসিত সংগ্রহণ শ্রেণিবিন্যাস যাচাই করে: 1. **সবচেয়ে খারাপ**: ধ্রুবক ব্যাচ আকার + হ্রাসকারী শিক্ষা হার 2. **মধ্যম**: ক্রমবর্ধমান ব্যাচ আকার + হ্রাসকারী শিক্ষা হার 3. **আরও ভাল**: ক্রমবর্ধমান ব্যাচ আকার + ক্রমবর্ধমান শিক্ষা হার 4. **সর্বোত্তম**: ক্রমবর্ধমান ব্যাচ আকার + ওয়ার্ম-আপ শিক্ষা হার #### নির্দিষ্ট সংখ্যাগত ফলাফল - NSHB এবং SHB গ্রেডিয়েন্ট নর্ম সংগ্রহণে একই ক্রম প্রদর্শন করে - ওয়ার্ম-আপ কৌশল পরীক্ষা নির্ভুলতায় সর্বোত্তম কর্মক্ষমতা অর্জন করে - SHB এর জন্য, উচ্চ শিক্ষা হার গ্রেডিয়েন্ট নর্ম দ্রুত ক্ষয় করে, কিন্তু নিম্ন শিক্ষা হার আরও ভাল পরীক্ষা নির্ভুলতা অর্জন করে #### অন্যান্য অপ্টিমাইজারের সাথে তুলনা ক্রমবর্ধমান ব্যাচ আকার সময়সূচীর অধীনে, SGD, NSHB এবং SHB প্রাথমিক পর্যায়ে গ্রেডিয়েন্ট নর্ম দ্রুত হ্রাস করে, কিন্তু Adam পরবর্তী পর্যায়ে আরও ছোট গ্রেডিয়েন্ট নর্ম অর্জন করে। ## সম্পর্কিত কাজ ### গতিবেগ পদ্ধতি তাত্ত্বিক বিশ্লেষণ - **লিউ এট আল. (२०२०)**: স্থির শিক্ষা হারের অধীনে NSHB এর অগ্রগামী কাজ - **গাদাত এট আল. (२०१८), মাই এবং জোহানসন (२०२०)**: লায়াপুনভ ফাংশন-ভিত্তিক সংগ্রহণ বিশ্লেষণ - **উইলসন এট আল. (२०२१), ডিফাজিও (२०२१)**: ত্বরিত পদ্ধতির তাত্ত্বিক বিশ্লেষণ ### শিক্ষা হার এবং ব্যাচ আকার সময়সূচী - **উমেদা এবং ইইডুকা (२०२५)**: ভ্যানিলা SGD এর গতিশীল সময়সূচী বিশ্লেষণ - **কামো এবং ইইডুকা (२०२५)**: ক্রমবর্ধমান ব্যাচ আকারের অধীনে SGDM এর বিশ্লেষণ - **স্মিথ এট আল. (२०१८)**: ব্যবহারিকে ব্যাচ আকার সময়সূচীর কার্যকারিতা ### এই পেপারের সুবিধা বিদ্যমান কাজের তুলনায়, এই পেপার প্রথমবারের মতো SGDM গতিশীল শিক্ষা হার সময়সূচীর সম্পূর্ণ তাত্ত্বিক কাঠামো প্রদান করে, একটি গুরুত্বপূর্ণ তাত্ত্বিক ফাঁক পূরণ করে। ## সিদ্ধান্ত এবং আলোচনা ### প্রধান সিদ্ধান্ত 1. **তাত্ত্বিক অবদান**: SGDM গতিশীল সময়সূচীর সম্পূর্ণ তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা 2. **সংগ্রহণ শ্রেণিবিন্যাস**: ক্রমবর্ধমান ব্যাচ আকার ধ্রুবক ব্যাচ আকারের চেয়ে উন্নত, একযোগে উভয় বৃদ্ধি সর্বোত্তম প্রমাণ করা 3. **পরীক্ষামূলক যাচাইকরণ**: তাত্ত্বিক পূর্বাভাস এবং পরীক্ষামূলক ফলাফল উচ্চ সামঞ্জস্যপূর্ণ ### সীমাবদ্ধতা 1. **অনুমান শর্ত**: L-মসৃণতা এবং সীমাবদ্ধ বৈচিত্র্য অনুমান প্রয়োজন 2. **শিক্ষা হার সীমাবদ্ধতা**: প্রযুক্তিগত শর্ত $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ শিক্ষা হার বৃদ্ধির গতি সীমাবদ্ধ করে 3. **পরীক্ষামূলক পরিসীমা**: শুধুমাত্র CIFAR-100 এবং ResNet-18 এ যাচাই করা, বড় আকারের পরীক্ষার অভাব ### ভবিষ্যত দিকনির্দেশনা 1. **গতিবেগ সহগ সময়সূচী**: গতিবেগ সহগ $\beta$ এর গতিশীল সময়সূচীতে সম্প্রসারণ 2. **অন্যান্য অপ্টিমাইজার**: Adam এর মতো স্ব-অভিযোজিত পদ্ধতিতে বিশ্লেষণ সম্প্রসারণ 3. **ব্যবহারিক প্রয়োগ**: বৃহত্তর আকারের গভীর শিক্ষা কাজে যাচাইকরণ ## গভীর মূল্যায়ন ### সুবিধা 1. **তাত্ত্বিক কঠোরতা**: লায়াপুনভ ফাংশন ডিজাইন চতুর, গাণিতিক অনুমান কঠোর 2. **ব্যবহারিক মূল্য**: ব্যবহারিক প্রশিক্ষণে হাইপারপ্যারামিটার সময়সূচীর জন্য তাত্ত্বিক নির্দেশনা প্রদান করে 3. **একীভূত কাঠামো**: SHB এবং NSHB একযোগে বিশ্লেষণ, ভাল সার্বজনীনতা সহ 4. **পর্যাপ্ত পরীক্ষা**: তাত্ত্বিক এবং পরীক্ষামূলক ফলাফল উচ্চ সামঞ্জস্যপূর্ণ, সিদ্ধান্তের বিশ্বাসযোগ্যতা বৃদ্ধি করে ### অপূর্ণতা 1. **সীমিত উদ্ভাবন**: প্রধানত বিদ্যমান প্রযুক্তির সম্প্রসারণ, মূল উদ্ভাবন তুলনামূলকভাবে সীমিত 2. **পরীক্ষামূলক স্কেল**: পরীক্ষা মধ্যম আকারের সমস্যার মধ্যে সীমাবদ্ধ, বড় আকারের যাচাইকরণের অভাব 3. **ব্যবহারিক সীমাবদ্ধতা**: তাত্ত্বিক বিশ্লেষণে প্রযুক্তিগত শর্ত ব্যবহারে কঠোরভাবে পূরণ করা কঠিন হতে পারে 4. **তুলনা অপূর্ণ**: সর্বশেষ স্ব-অভিযোজিত অপ্টিমাইজেশন পদ্ধতির সাথে গভীর তুলনার অভাব ### প্রভাব 1. **তাত্ত্বিক মূল্য**: SGDM গতিশীল সময়সূচীর জন্য গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে 2. **ব্যবহারিক তাৎপর্য**: ব্যবহারিক গভীর শিক্ষা প্রশিক্ষণে হাইপারপ্যারামিটার সেটিং নির্দেশনা দেয় 3. **পুনরুৎপাদনযোগ্যতা**: কোড প্রকাশ্য, পরীক্ষা পুনরুৎপাদনযোগ্য ### প্রযোজ্য পরিস্থিতি 1. **গভীর শিক্ষা প্রশিক্ষণ**: বিশেষ করে শিক্ষা হার এবং ব্যাচ আকার সূক্ষ্ম সময়সূচীর প্রয়োজনীয় পরিস্থিতিতে প্রযোজ্য 2. **তাত্ত্বিক গবেষণা**: আরও অপ্টিমাইজেশন তাত্ত্বিক গবেষণার জন্য ভিত্তি প্রদান করে 3. **প্রকৌশল অনুশীলন**: ব্যবহারিক প্রশিক্ষণ সিস্টেমের হাইপারপ্যারামিটার স্বয়ংক্রিয় সমন্বয়ের জন্য নির্দেশনা প্রদান করে ## সংদর্ভ - লিউ, Y., গাও, Y., এবং ইন, W. (२०२०). গতিবেগ সহ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্টের একটি উন্নত বিশ্লেষণ - উমেদা, H. এবং ইইডুকা, H. (२०२५). ব্যাচ আকার এবং শিক্ষা হার উভয় বৃদ্ধি স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ত্বরান্বিত করে - কামো, K. এবং ইইডুকা, H. (२०२५). ব্যাচ আকার বৃদ্ধি গতিবেগ সহ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্টের সংগ্রহণ উন্নত করে - স্মিথ, S. L., কিন্ডারম্যানস, P.-J., এবং লে, Q. V. (२०१८). শিক্ষা হার ক্ষয় করবেন না, ব্যাচ আকার বৃদ্ধি করুন --- **সামগ্রিক মূল্যায়ন**: এটি একটি দৃঢ় তাত্ত্বিক অবদান সহ একটি পেপার, যা সরলীকৃত লায়াপুনভ ফাংশন প্রবর্তন করে SGDM এর গতিশীল সময়সূচী সমস্যা সফলভাবে বিশ্লেষণ করে। যদিও সৃজনশীলতা তুলনামূলকভাবে সীমিত, এটি একটি গুরুত্বপূর্ণ তাত্ত্বিক ফাঁক পূরণ করে, ব্যবহারিক প্রয়োগের জন্য মূল্যবান নির্দেশনা প্রদান করে। তাত্ত্বিক বিশ্লেষণ কঠোর, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, এটি অপ্টিমাইজেশন তত্ত্ব ক্ষেত্রে একটি উপকারী অবদান।