2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.

Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.

academic

বৃহৎ ভাষা মডেলগুলির জন্য দ্বিতীয়-ক্রম অপ্টিমাইজেশনের সম্ভাবনা: সম্পূর্ণ গাউস-নিউটন সহ একটি অধ্যয়ন

মৌলিক তথ্য

পেপার আইডি: 2510.09378
শিরোনাম: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
লেখক: ন্যাটালি অ্যাব্রিউ (হার্ভার্ড), নিখিল ভ্যাস (হার্ভার্ড/ওপেনএআই), শাম কাকাডে (হার্ভার্ড), ডেপেন মোরওয়ানি (হার্ভার্ড)
শ্রেণীবিভাগ: cs.LG cs.AI
প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09378

সারসংক্ষেপ

এই পেপারটি বৃহৎ ভাষা মডেল (এলএলএম) প্রাক-প্রশিক্ষণে বিদ্যমান দ্বিতীয়-ক্রম অপ্টিমাইজেশন পদ্ধতির গণনামূলকভাবে দক্ষ অনুমানগুলি কতটা কর্মক্ষমতা হারায় তা অনুসন্ধান করে। লেখকরা ১৫০ মিলিয়ন প্যারামিটারের ট্রান্সফর্মার মডেলে সম্পূর্ণ গাউস-নিউটন (জিএন) প্রি-কন্ডিশনিং প্রয়োগ করে পুনরাবৃত্তিমূলক জটিলতার জন্য ব্যবহারিক উপরের সীমা প্রতিষ্ঠা করেছেন। পরীক্ষাগুলি দেখায় যে সম্পূর্ণ জিএন আপডেটগুলি সোপ এবং মুওন এর মতো শক্তিশালী ভিত্তিরেখার তুলনায় প্রশিক্ষণ পুনরাবৃত্তিতে ৫.৪ গুণ হ্রাস অর্জন করেছে। অতিরিক্তভাবে, স্তর-জুড়ে তথ্য উপেক্ষা করে সঠিক স্তর-দ্বারা-স্তর জিএন প্রি-কন্ডিশনার প্রায় সম্পূর্ণ জিএন পদ্ধতির কর্মক্ষমতা অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এলএলএম গণনার চাহিদা ক্রমাগত বৃদ্ধির সাথে, অপ্টিমাইজেশন পদ্ধতির উন্নতি প্রশিক্ষণ দক্ষতা উন্নত করার জন্য একটি মূল কৌশল হয়ে উঠেছে। প্রথাগত প্রথম-ক্রম পদ্ধতিগুলি (যেমন এসজিডি এবং অ্যাডাম) ব্যাপকভাবে ব্যবহৃত হলেও, দ্বিতীয়-ক্রম পদ্ধতিগুলি তাত্ত্বিকভাবে দ্রুত সংমিশ্রণ গতি এবং উন্নত বড় ব্যাচ স্কেলিং ক্ষমতা রাখে।

গবেষণা প্রেরণা

১. বিদ্যমান দ্বিতীয়-ক্রম পদ্ধতির সীমাবদ্ধতা: বর্তমান দ্বিতীয়-ক্রম অপ্টিমাইজার (যেমন শ্যাম্পু, সোপ, মুওন) গণনামূলক সম্ভাব্যতা বজায় রাখার জন্য হেসিয়ানের অনুমান ব্যবহার করে, কিন্তু এই অনুমানগুলি কতটা কর্মক্ষমতা হারায় তা স্পষ্ট নয়।

२. তত্ত্ব এবং অনুশীলনের মধ্যে ব্যবধান: যদিও দ্বিতীয়-ক্রম পদ্ধতিগুলি তাত্ত্বিকভাবে উন্নত, সম্পূর্ণ হেসিয়ানের সংরক্ষণ এবং গণনার খরচ অত্যধিক হওয়ার কারণে, ব্যবহারিক প্রয়োগে অনুমান পদ্ধতি ব্যবহার করতে হবে।

३. মূল গবেষণা প্রশ্ন: "এলএলএমে দ্বিতীয়-ক্রম অপ্টিমাইজেশনের মৌলিক কর্মক্ষমতা সীমা কী? এই সীমাগুলি অর্জনের জন্য হেসিয়ানের কোন কাঠামোগত বৈশিষ্ট্যগুলি প্রয়োজনীয়?"

মূল অবদান

१. কর্মক্ষমতা উপরের সীমা প্রতিষ্ঠা: সম্পূর্ণ গাউস-নিউটন পদ্ধতির মাধ্যমে দ্বিতীয়-ক্রম অপ্টিমাইজেশনের জন্য ব্যবহারিক কর্মক্ষমতা উপরের সীমা প্রতিষ্ঠা করা, পুনরাবৃত্তিমূলক জটিলতায় সোপের তুলনায় ৫.৪ গুণ উন্নতি অর্জন করা।

२. মূল কাঠামো প্রকাশ: স্তর-দ্বারা-স্তর হেসিয়ান কাঠামো বেশিরভাগ কর্মক্ষমতা বৃদ্ধি অর্জনের জন্য যথেষ্ট তথ্য ধারণ করে এবং স্তর-জুড়ে বক্রতা তথ্যের সীমিত গুরুত্ব রয়েছে তা আবিষ্কার করা।

३. তাত্ত্বিক অন্তর্দৃষ্টি: জিএন অনুমান প্রি-কন্ডিশনিংয়ের জন্য অত্যন্ত কার্যকর তা প্রমাণ করা, যা পরামর্শ দেয় যে উচ্চ-ক্রম ক্ষতি পদগুলি সংমিশ্রণ গতির জন্য গুরুত্বপূর্ণ নাও হতে পারে।

४. ব্যাচ আকার স্কেলিং: গুরুত্বপূর্ণ ব্যাচ আকার উল্লেখযোগ্যভাবে প্রসারিত করা, প্রায় সর্বোত্তম স্কেলিং কর্মক্ষমতা প্রদর্শন করা।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

মডেল প্যারামিটার θ, ইনপুট x এবং লেবেল y দেওয়া, ক্ষতি ফাংশন L(f(θ,x), y) সংজ্ঞায়িত করুন। লক্ষ্য হল প্রত্যাশিত ক্ষতি কমানো, পুনরাবৃত্তিমূলক জটিলতার উপর ফোকাস করা (লক্ষ্য ক্ষতিতে পৌঁছানোর জন্য প্রয়োজনীয় পদক্ষেপের সংখ্যা)।

গাউস-নিউটন পদ্ধতির নীতি

গাণিতিক ভিত্তি

সম্পূর্ণ হেসিয়ান ম্যাট্রিক্স নিম্নরূপ বিয়োজিত হতে পারে:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

যেখানে প্রথম পদটি গাউস-নিউটন ম্যাট্রিক্স জি, দ্বিতীয় পদটি মডেলের বক্রতা।

অ্যালগরিদম বাস্তবায়ন

অ্যালগরিদম ১: গাউস-নিউটন পদ্ধতি १. মডেলে প্রথম-ক্রম টেইলর সম্প্রসারণ সম্পাদন করুন: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ) २. ক্ষতি উত্তল করুন: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y) ३. দ্বিতীয়-ক্রম টেইলর অনুমান তৈরি করুন: L̃⁽²⁾θₜ(θ) ४. সর্বনিম্ন বর্গ সমস্যা সমাধান করুন: θ̂ = argminθ L̃⁽²⁾θₜ(θ) ५. লাইন অনুসন্ধান: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

স্মৃতি-সম্ভাব্য বাস্তবায়ন

হেসিয়ান ম্যাট্রিক্স স্পষ্টভাবে সংরক্ষণ এড়াতে, জ্যাকোবিয়ান-ভেক্টর পণ্য (জেভিপি) ব্যবহার করে কার্যকরভাবে সমতুল্য পদ্ধতি বাস্তবায়ন করুন। মূল ধারণা হল ক্ষতি ফাংশন L এর দ্বিতীয়-ক্রম টেইলর অনুমান এবং মডেল f এর প্রথম-ক্রম টেইলর অনুমান অপ্টিমাইজ করা।

পরিবর্তনশীল পদ্ধতি

জিএন-প্রক্স-লিনিয়ার পদ্ধতি

রৈখিক মডেলে সরাসরি ক্ষতি কমান: θ* = argminθ L̃θₜ(θ), উচ্চ-ক্রম ক্ষতি পদের প্রভাব অধ্যয়নের জন্য ব্যবহৃত।

স্তর-দ্বারা-স্তর গাউস-নিউটন

প্রতিটি স্তর l এর জন্য স্বাধীনভাবে: १. সেই স্তরের প্রথম-ক্রম টেইলর সম্প্রসারণ গণনা করুন f⁽¹⁾θₗ,ₜ(θₗ) २. সমাধান করুন: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ) ३. সমস্ত স্তরের আপডেট একত্রিত করুন এবং লাইন অনুসন্ধান প্রয়োগ করুন

পরীক্ষামূলক সেটআপ

ডেটাসেট এবং মডেল

মডেল: ৪৫ মিলিয়ন এবং ১৫০ মিলিয়ন প্যারামিটারের এলএলএমএ আর্কিটেকচার
ডেটাসেট: সি৪ ডেটাসেট
ক্রম দৈর্ঘ্য: ১০২৪

ভিত্তিরেখা পদ্ধতি

অ্যাডামডাব্লু: সবচেয়ে ব্যাপকভাবে ব্যবহৃত এলএলএম অপ্টিমাইজার
মুওন: নিউটন-শুলজ অর্থোগোনালাইজেশন ব্যবহার করে এমন পদ্ধতি
সোপ: শ্যাম্পুর সর্বশেষ রূপান্তর

পরীক্ষামূলক কনফিগারেশন

অভ্যন্তরীণ অপ্টিমাইজার: সর্বনিম্ন বর্গ সমস্যা সমাধানের জন্য মুওন ব্যবহার করা
ব্যাচ আকার: গ্রেডিয়েন্ট সংগ্রহের মাধ্যমে নিয়ন্ত্রিত, bᵢₙₙₑᵣ = 32(45M) / 128(150M)
শেখার হার সময়সূচী: বৈশ্বিক কোসাইন, বৈশ্বিক + অভ্যন্তরীণ কোসাইন, ধ্রুবক + অভ্যন্তরীণ কোসাইন তিনটি কৌশল
নিয়মিতকরণ: ওজন ক্ষয়, লাইন অনুসন্ধান এবং অন্যান্য একাধিক কৌশল

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পুনরাবৃত্তিমূলক জটিলতা

ক্ষতি ৩.২৫ অর্জনের পরীক্ষায়:

গাউস-নিউটন: ৫৪ পদক্ষেপ
সোপ: ২৯२ পদক্ষেপ (৫.৪ গুণ পার্থক্য)
মুওন: প্রায় ১६ গুণ পার্থক্য
স্তর-দ্বারা-স্তর জিএন: ৭८ পদক্ষেপ (মাত্র ১.४ গুণ পার্থক্য)

ব্যাচ আকার স্কেলিং

নির্দিষ্ট ३ বিলিয়ন টোকেন প্রশিক্ষণে:

গাউস-নিউটন ১२०M ব্যাচ আকারে ভাল কর্মক্ষমতা বজায় রাখে (ক্ষতি ३.४५)
অ্যাডামডাব্লু একই ব্যাচ আকারে গুরুতর কর্মক্ষমতা হ্রাস পায় (ক্ষতি >४.४)
গুরুত্বপূর্ণ ব্যাচ আকার উল্লেখযোগ্যভাবে প্রসারিত, প্রায় সর্বোত্তম স্কেলিং প্রবণতা অনুসরণ করে

বিলোপন পরীক্ষা

জিএন বনাম জিএন-প্রক্স-লিনিয়ার

দুটি পদ্ধতির কর্মক্ষমতা প্রায় অভিন্ন, যা পরামর্শ দেয় যে উচ্চ-ক্রম ক্ষতি পদগুলি কর্মক্ষমতা উন্নতিতে সীমিত অবদান রাখে।

সম্পূর্ণ জিএন বনাম স্তর-দ্বারা-স্তর জিএন

স্তর-দ্বারা-স্তর পদ্ধতি বেশিরভাগ সেটিংসে সম্পূর্ণ জিএন কর্মক্ষমতার কাছাকাছি, যা স্তর-জুড়ে বক্রতা তথ্যের সীমিত গুরুত্ব নির্দেশ করে।

মূল আবিষ্কার

१. শেখার হার সময়সূচীর গুরুত্ব: বৈশ্বিক কোসাইন সময়সূচী মাঝারি এবং ছোট ব্যাচে সেরা কর্মক্ষমতা প্রদর্শন করে २. লাইন অনুসন্ধানের প্রয়োজনীয়তা: জিএন পদ্ধতির স্থিতিশীল সংমিশ্রণের জন্য অপরিহার্য ३. অভ্যন্তরীণ অপ্টিমাইজার নির্বাচন: অ্যাডামডাব্লুর চেয়ে অভ্যন্তরীণ অপ্টিমাইজার হিসাবে মুওন উন্নত

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. কর্মক্ষমতা উপরের সীমা প্রতিষ্ঠিত: সম্পূর্ণ জিএন পদ্ধতি দ্বিতীয়-ক্রম অপ্টিমাইজেশনের জন্য স্পষ্ট কর্মক্ষমতা লক্ষ্য প্রদান করে २. কাঠামোগত গুরুত্ব: স্তর-দ্বারা-স্তর হেসিয়ান কাঠামো বেশিরভাগ বৃদ্ধি অর্জনের জন্য যথেষ্ট তথ্য ধারণ করে ३. অনুমান কার্যকারিতা: বর্তমান অনুমান পদ্ধতি এবং আদর্শ স্তর-দ্বারা-স্তর ভবিষ্যদ্বাণীর মধ্যে উল্লেখযোগ্য কর্মক্ষমতা ব্যবধান রয়েছে

সীমাবদ্ধতা

१. গণনামূলক ওভারহেড: বর্তমান বাস্তবায়ন মান প্রশিক্ষণের চেয়ে ४-५ গুণ ধীর २. স্কেল সীমাবদ্ধতা: পরীক্ষাগুলি শুধুমাত্র १५०M প্যারামিটার মডেলের মধ্যে সীমাবদ্ধ ३. ব্যবহারিকতা: প্রধানত বিশ্লেষণ সরঞ্জাম হিসাবে কাজ করে, সরাসরি ব্যবহারিক অপ্টিমাইজার নয়

ভবিষ্যত দিকনির্দেশনা

१. দক্ষ বাস্তবায়ন: গণনামূলকভাবে দক্ষ নির্ভুল দ্বিতীয়-ক্রম পদ্ধতি বিকাশ করা २. উন্নত অনুমান: স্তর-দ্বারা-স্তর হেসিয়ান অনুমান পদ্ধতি উন্নত করা ३. স্কেল সম্প্রসারণ: বৃহত্তর মডেলে আবিষ্কারগুলি যাচাই করা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক গভীরতা: দ্বিতীয়-ক্রম অপ্টিমাইজেশনের কর্মক্ষমতা সীমার গুরুত্বপূর্ণ তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে २. পরীক্ষামূলক কঠোরতা: ব্যাপক হাইপারপ্যারামিটার অনুসন্ধান এবং একাধিক নিয়মিতকরণ কৌশল ३. ব্যবহারিক মূল্য: বর্তমান দ্বিতীয়-ক্রম পদ্ধতি উন্নত করার জন্য স্পষ্ট লক্ষ্য প্রদান করে ४. পদ্ধতি উদ্ভাবন: স্পষ্ট হেসিয়ান সংরক্ষণ এড়াতে জেভিপি ব্যবহারের চতুর উপায়

অপূর্ণতা

१. গণনামূলক খরচ: উচ্চ গণনামূলক ওভারহেড ব্যবহারিক প্রয়োগ সীমাবদ্ধ করে २. স্কেল সীমাবদ্ধতা: সত্যিকারের বড় আকারের এলএলএমে যাচাই করা হয়নি ३. তাত্ত্বিক বিশ্লেষণ: স্তর-দ্বারা-স্তর অনুমান কেন এত কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব

প্রভাব

१. একাডেমিক অবদান: দ্বিতীয়-ক্রম অপ্টিমাইজেশন গবেষণার জন্য গুরুত্বপূর্ণ বেঞ্চমার্ক প্রদান করে २. ব্যবহারিক নির্দেশনা: বিদ্যমান পদ্ধতি উন্নত করার দিকনির্দেশনা নির্দেশ করে ३. পদ্ধতিগত মূল্য: দ্বিতীয়-ক্রম পদ্ধতি মূল্যায়নের জন্য নতুন কাঠামো প্রতিষ্ঠা করে

প্রযোজ্য পরিস্থিতি

দ্বিতীয়-ক্রম অপ্টিমাইজেশন পদ্ধতির তাত্ত্বিক বিশ্লেষণ
নতুন অপ্টিমাইজেশন অ্যালগরিদমের কর্মক্ষমতা বেঞ্চমার্ক
বড় ব্যাচ প্রশিক্ষণ পরিস্থিতির অপ্টিমাইজেশন পছন্দ

সংদর্ভ

এই পেপারটি অপ্টিমাইজেশন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

মার্টেন্স (२०१०): হেসিয়ান-মুক্ত অপ্টিমাইজেশনের যুগান্তকারী কাজ
গুপ্তা এট আল। (२०१८): শ্যাম্পু অপ্টিমাইজার
জর্ডান এট আল। (२०२४): মুওন অপ্টিমাইজার
ভ্যাস এট আল। (२०२५): সোপ অপ্টিমাইজার

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা কঠোর পরীক্ষার মাধ্যমে এলএলএম প্রশিক্ষণে দ্বিতীয়-ক্রম অপ্টিমাইজেশনের কর্মক্ষমতা উপরের সীমা প্রতিষ্ঠা করে, এই ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক নির্দেশনা প্রদান করে। গণনামূলক খরচ এবং স্কেল সীমাবদ্ধতা থাকা সত্ত্বেও, এর একাডেমিক মূল্য এবং ভবিষ্যত গবেষণার জন্য নির্দেশনার তাৎপর্য উল্লেখযোগ্য।