2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic

সংকোচনযোগ্যতা জটিলতা পরিমাপ করে: ন্যূনতম বর্ণনা দৈর্ঘ্য অনন্য শিক্ষা তত্ত্বের সাথে মিলিত হয়

মৌলিক তথ্য

  • পত্র আইডি: 2510.12077
  • শিরোনাম: সংকোচনযোগ্যতা জটিলতা পরিমাপ করে: ন্যূনতম বর্ণনা দৈর্ঘ্য অনন্য শিক্ষা তত্ত্বের সাথে মিলিত হয়
  • লেখক: আইনার আর্ডশালস, এডমান্ড লাউ, জেসি হুগল্যান্ড, স্ট্যান ভ্যান উইনগার্ডেন, ড্যানিয়েল মার্ফেট
  • শ্রেণীবিভাগ: stat.ML cs.LG
  • প্রকাশনার সময়: অক্টোবর ১৫, ২০২৫ (arXiv প্রাক-প্রিন্ট)
  • পত্রের লিঙ্ক: https://arxiv.org/abs/2510.12077

সারসংক্ষেপ

এই পত্রটি অনন্য শিক্ষা তত্ত্ব (Singular Learning Theory, SLT) এর মাধ্যমে ন্যূনতম বর্ণনা দৈর্ঘ্য (Minimum Description Length, MDL) নীতিকে স্নায়ু নেটওয়ার্কের মতো অনন্য মডেলগুলিতে প্রসারিত করে, স্নায়ু নেটওয়ার্কের সংকোচনযোগ্যতা অধ্যয়ন করে। পাইথিয়া মডেল স্যুটে পরিমাণকরণ এবং ফ্যাক্টরাইজেশনের মতো সংকোচন কৌশলের বৃহৎ-স্কেল পরীক্ষার মাধ্যমে, স্থানীয় শিক্ষা সহগ (Local Learning Coefficient, LLC) এর উপর ভিত্তি করে জটিলতা অনুমান সংকোচনযোগ্যতার সাথে অত্যন্ত সম্পর্কিত, কিছু ক্ষেত্রে এমনকি রৈখিক সম্পর্ক প্রদর্শন করে। গবেষণার ফলাফল মডেল সংকোচনের সীমা কঠোরভাবে মূল্যায়নের জন্য একটি তাত্ত্বিক পথ প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই পত্রটি যে মূল সমস্যাটি সমাধান করতে চায় তা হল স্নায়ু নেটওয়ার্ক মডেলের জটিলতা তাত্ত্বিকভাবে কীভাবে পরিমাপ করা যায়, বিশেষ করে "প্রশিক্ষণ ডেটা স্মরণ করা" এবং "সর্বজনীন সমাধান আবিষ্কার করা" এই দুটি ভিন্ন শিক্ষার ধরন পার্থক্য করা। ঐতিহ্যবাহী পদ্ধতি শুধুমাত্র ক্ষতি ফাংশন থেকে মডেল সত্যিকারের সাধারণীকরণ ক্ষমতা শিখেছে কিনা তা নির্ধারণ করতে পারে না।

সমস্যার গুরুত্ব

১. অর্থনৈতিক চালিকা শক্তি: মডেল সংকোচন সরাসরি অনুমান খরচকে প্রভাবিত করে। মডেল মেমোরি অর্ধেক করা এর অপারেশনাল মূল্য দ্বিগুণ করতে পারে, যা ব্যক্তিগত গবেষণা ও উন্নয়ন বিনিয়োগের বিশাল পরিমাণ চালিত করে। २. তাত্ত্বিক শূন্যতা: বর্তমান সংকোচন কৌশলগুলি দৃঢ় তাত্ত্বিক ভিত্তির অভাব রাখে, বিশেষ করে সংকোচনের সীমা বোঝার ক্ষেত্রে। ३. নিরাপত্তা তাৎপর্য: সংকোচনের সীমা বোঝা মডেল ক্ষমতা স্থানান্তরের তথ্য প্রয়োজনীয়তা মূল্যায়নের জন্য নিরাপত্তা তাৎপর্য রাখে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. ক্লাসিক্যাল MDL সীমাবদ্ধতা: ঐতিহ্যবাহী MDL অনুমান করে যে মডেলটি "নিয়মিত" (পরামিতি থেকে বিতরণ ম্যাপিং এক-থেকে-এক, ফিশার তথ্য ম্যাট্রিক্স অ-একবচন), কিন্তু স্নায়ু নেটওয়ার্ক এই অনুমানগুলি লঙ্ঘন করে। २. হিউরিস্টিক পদ্ধতি: বিদ্যমান সংকোচন কৌশলগুলি (যেমন হেসিয়ান স্পেকট্রাম-ভিত্তিক প্রুনিং) তাত্ত্বিক ভিত্তির অভাব রাখে। ३. মাত্রা বিপর্যয়: স্নায়ু নেটওয়ার্কের "কার্যকর মাত্রা" পরামিতির সংখ্যার চেয়ে অনেক ছোট, কিন্তু কঠোর তাত্ত্বিক ব্যাখ্যার অভাব রাখে।

মূল অবদান

१. অনন্য MDL নীতি: অনন্য শিক্ষা তত্ত্ব ব্যবহার করে MDL নীতিকে স্নায়ু নেটওয়ার্কে প্রসারিত করে, প্রমাণ করে যে একটি দ্বি-অংশ এনকোডিং বিদ্যমান যার অ্যাসিম্পটোটিক অপ্রয়োজনীয়তা স্থানীয় শিক্ষা সহগ (LLC) জড়িত। २. তাত্ত্বিক-ব্যবহারিক সেতু: LLC এবং প্রকৃত সংকোচন কৌশলগুলির (পরিমাণকরণ, ফ্যাক্টরাইজেশন) মধ্যে তাত্ত্বিক সংযোগ স্থাপন করে। ३. অভিজ্ঞতামূলক যাচাইকরণ: পাইথিয়া সিরিজ মডেলগুলিতে (সর্বোচ্চ ৬.৯B পরামিতি) LLC এবং সংকোচনযোগ্যতার মধ্যে রৈখিক সম্পর্ক যাচাই করে (R²≥০.৯८)। ४. সংকোচন সীমা কাঠামো: মডেল সংকোচনের সীমা কঠোরভাবে মূল্যায়নের জন্য একটি তাত্ত্বিক কাঠামো প্রদান করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ক্ষতি সহনশীলতা ε>০ এবং সংকোচন স্কিম পরামিতি P দেওয়া, সর্বাধিক সংকোচন পরিমাণ P_max খুঁজে বের করুন যাতে ক্ষতি মূল মান L থেকে থ্রেশহোল্ড L+ε এ বৃদ্ধি পায়। সংকোচনযোগ্যতা সহ্য করা যায় এমন সর্বাধিক সংকোচন পরিমাণ হিসাবে সংজ্ঞায়িত করা হয়।

তাত্ত্বিক কাঠামো

অনন্য MDL নীতি

সেটিং:

  • নমুনা স্থান X (সীমিত), ডেটা উৎপাদন বিতরণ q^(n) ∈ Δ(X^n)
  • পরামিতিযুক্ত পরিসংখ্যান মডেল M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
  • দ্বি-অংশ এনকোডিং: প্রথমে এনকোডিং বিতরণ p এর প্রতিনিধিত্ব ⟦p⟧ পাঠান, তারপর p দ্বারা এনকোড করা ডেটা ⟦x^(n)⟧_p পাঠান।

মূল উপপাদ্য (Theorem 1): একটি দ্বি-অংশ এনকোডিং বিদ্যমান যাতে যেকোনো বাস্তবায়নযোগ্য ডেটা উৎপাদন বিতরণ q ∈ M এর জন্য, অ্যাসিম্পটোটিক অপ্রয়োজনীয়তা হল:

R_n = λ log n - (m-1) log log n + O_p(1)

যেখানে λ শিক্ষা সহগ এবং m বহুত্ব।

মূল প্রযুক্তিগত উদ্ভাবন

१. আয়তন-ভিত্তিক এনকোডিং: ঐতিহ্যবাহী সমান বিতরণের বিপরীতে, আরও পরামিতি আয়তন দখল করা অনুমানগুলিতে ছোট এনকোডিং বরাদ্দ করুন। २. অনন্যতা পরিচালনা: স্নায়ু নেটওয়ার্কের অবক্ষয়িত জ্যামিতিক কাঠামো পরিচালনা করতে রেজোলিউশন অনন্যতা উপপাদ্য ব্যবহার করুন। ३. স্থানীয় শিক্ষা সহগ: স্থানীয় ন্যূনতমের জ্যামিতিক বৈশিষ্ট্য চিহ্নিত করতে LLC λ(w*) এবং বহুত্ব m(w*) ব্যবহার করুন।

সংকোচন সম্পর্ক অনুমান

পরিমাণকরণ সংকোচনের জন্য, আয়তন শর্ত স্থাপন করুন:

Vol(C_h) ≤ V(ε)

অর্থাৎ পরিমাণকরণ ইউনিট আয়তন ≤ ε-সাব-স্তর সেট আয়তন।

প্রতি-সমন্বয় বিট বাজেট পান:

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

মূল অন্তর্দৃষ্টি: সমালোচনামূলক বিট সংখ্যা LLC এর সাথে রৈখিকভাবে বৃদ্ধি পায়, LLC যত বড় (অবক্ষয়তা যত কম), নির্ভুলতা বজায় রাখতে আরও বিট প্রয়োজন।

LLC অনুমান পদ্ধতি

পূর্ব-শর্তাধীন স্টোকাস্টিক গ্রেডিয়েন্ট ল্যাঞ্জেভিন গতিশীলতা (pSGLD) ব্যবহার করে অনুমান করুন:

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

যেখানে প্রত্যাশা গিবস পূর্ববর্তীর উপর ভিত্তি করে:

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • পাইথিয়া মডেল স্যুট: ১৪M থেকে ৬.৯B পরামিতির ট্রান্সফর্মার মডেল
  • প্রশিক্ষণ ডেটা: পাইল ডেটাসেট, সমস্ত মডেল একই ডেটা এবং ক্রম ব্যবহার করে প্রশিক্ষিত
  • চেকপয়েন্ট: ২k থেকে ৯০k প্রশিক্ষণ পদক্ষেপ (পরবর্তী অস্থির চেকপয়েন্ট বাদ দেওয়া)

সংকোচন কৌশল

१. সমরূপ পরিমাণকরণ:

  • পরামিতিগুলিকে n_q সংখ্যক সমান-ব্যবধানযুক্ত মানগুলিতে পরিমাণ করুন
  • পরিমাণকৃত ক্ষতি কমাতে ক্লিপিং পরামিতি m অপ্টিমাইজ করুন
  • ক্ষতি থ্রেশহোল্ড ε অর্জনকারী সমালোচনামূলক n_q* পরিমাপ করুন

२. টেনসর ফ্যাক্টরাইজেশন:

  • SVD বিয়োগ ওজন ম্যাট্রিক্স W ← U×S×V
  • একটি নির্দিষ্ট অনুপাত একবচন মান কাটুন
  • প্রথম এবং শেষ স্তর এবং ক্রমাগত স্তর এড়িয়ে চলুন

३. অন্যান্য কৌশল: গাউসীয় শব্দ যোগ করা, কাঠামোগত প্রুনিং

মূল্যায়ন মেট্রিক্স

  • সংকোচনযোগ্যতা: ক্ষতি থ্রেশহোল্ড ε অর্জনের সময় সমালোচনামূলক সংকোচন পরামিতি
  • LLC অনুমান: pSGLD ব্যবহার করে জটিলতা অনুমান
  • রৈখিক সম্পর্ক: LLC এবং সংকোচনযোগ্যতার মধ্যে রৈখিক সম্পর্ক মূল্যায়ন করতে R² সহগ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পরিমাণকরণ পরীক্ষা

  • শক্তিশালী রৈখিক সম্পর্ক: সমস্ত মডেলের LLC এবং সমালোচনামূলক n_q এর মধ্যে উল্লেখযোগ্য রৈখিক সম্পর্ক (R²≥०.९८)
  • সামঞ্জস্য: ১৪M থেকে ६.९B পরামিতির সমস্ত পাইথিয়া মডেল অনুরূপ প্যাটার্ন প্রদর্শন করে
  • দৃঢ়তা: বিভিন্ন ক্ষতি থ্রেশহোল্ড ε (०.३, ०.५, ०.७) এর জন্য ফলাফল গুণগতভাবে সামঞ্জস্যপূর্ণ

নির্দিষ্ট সংখ্যা:

  • পাইথিয়া-१६०M: ঢাল=०.११, R²=०.९८
  • পাইথিয়া-४१०M: ঢাল=०.०८, R²=०.९८
  • পাইথিয়া-१.४B: ঢাল=०.१६, R²=०.९८
  • পাইথিয়া-६.९B: ঢাল=०.१४, R²=०.९८

ফ্যাক্টরাইজেশন পরীক্ষা

  • LLC এবং সমালোচনামূলক সংকোচন ভগ্নাংশের মধ্যে সামগ্রিক ইতিবাচক সম্পর্ক
  • পাইথিয়া-६.९B পরবর্তী প্রশিক্ষণে একটি প্ল্যাটফর্ম পর্যায় প্রদর্শন করে, সম্ভবত ক্ষতি বক্ররেখা বৈশিষ্ট্যের সাথে সম্পর্কিত

বিলোপন পরীক্ষা

१. ক্ষতি থ্রেশহোল্ড সংবেদনশীলতা: ε=०.३, ०.५, ०.७ পরীক্ষা করুন, বক্ররেখা গুণগতভাবে অসংবেদনশীল খুঁজে পান २. পরিমাণকরণ পদ্ধতি তুলনা:

  • ক্ষতি ন্যূনতমকরণ সহ পরিমাণকরণ শক্তিশালী রৈখিক সম্পর্ক প্রদর্শন করে
  • অপ্টিমাইজেশন ছাড়া পরিমাণকরণ এখনও সম্পর্ক রাখে কিন্তু ফিটিং ডিগ্রি কম ३. অন্যান্য সংকোচন কৌশল: গাউসীয় শব্দ এবং প্রুনিং LLC এবং দৃঢ়তার মধ্যে সম্পর্ক প্রদর্শন করে

পরীক্ষামূলক আবিষ্কার

१. প্রশিক্ষণ গতিশীলতা: প্রশিক্ষণ প্রক্রিয়ায় LLC একঘেয়েভাবে বৃদ্ধি পায়, সংকোচনযোগ্যতা হ্রাসের সাথে সামঞ্জস্যপূর্ণ २. স্কেল অপরিবর্তনীয়তা: রৈখিক সম্পর্ক বিভিন্ন মডেল স্কেল জুড়ে সামঞ্জস্যপূর্ণ থাকে ३. পদ্ধতি সর্বজনীনতা: একাধিক সংকোচন কৌশল LLC এর ভবিষ্যদ্বাণী ক্ষমতা যাচাই করে

সম্পর্কিত কাজ

নেটওয়ার্ক সংকোচন ক্ষেত্র

  • ক্লাসিক্যাল পদ্ধতি: লেকুন ইত্যাদি (१९८९) এর অপ্টিমাল ব্রেইন ড্যামেজ থেকে আধুনিক পরিমাণকরণ কৌশল পর্যন্ত
  • কার্যকর মাত্রা: ম্যাডক্স ইত্যাদি (२०२०) গভীর নেটওয়ার্কের কার্যকর মাত্রা পরামিতি সংখ্যার চেয়ে অনেক ছোট খুঁজে পান
  • অন্তর্নিহিত মাত্রা: সূক্ষ্ম-সুর করায় কম-র‍্যাঙ্ক অভিযোজন (LoRA) এর মতো আবিষ্কার

তাত্ত্বিক ভিত্তি

  • MDL নীতি: গ্রুনওয়াল্ড এবং রুস (२०१९) এর ক্লাসিক্যাল তত্ত্ব
  • অনন্য শিক্ষা তত্ত্ব: ওয়াটানাবে (२००९) এর যুগান্তকারী কাজ
  • স্কেলিং আইন: সংকোচন এবং স্নায়ু স্কেলিং আইনের সম্পর্ক

এই পত্রের সুবিধা

  • প্রথমবার SLT এবং MDL কে স্নায়ু নেটওয়ার্ক সংকোচনের জন্য একত্রিত করা
  • সংকোচনযোগ্যতার জন্য একটি তাত্ত্বিক ভবিষ্যদ্বাণী সূচক প্রদান করা
  • বৃহৎ-স্কেল ট্রান্সফর্মার মডেলের LLC অনুমানের জন্য স্বাধীন যাচাইকরণ প্রদান করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক অবদান: সফলভাবে MDL নীতিকে অনন্য মডেলে প্রসারিত করা, LLC এবং সংকোচনযোগ্যতার মধ্যে তাত্ত্বিক সংযোগ স্থাপন করা २. অভিজ্ঞতামূলক আবিষ্কার: LLC স্নায়ু নেটওয়ার্কের সংকোচন সীমা সঠিকভাবে পূর্বাভাস দিতে পারে, বিশেষ করে পরিমাণকরণ সংকোচন ३. পদ্ধতি যাচাইকরণ: বৃহৎ-স্কেল ট্রান্সফর্মার মডেলের LLC অনুমানের জন্য স্বাধীন যাচাইকরণ প্রদান করা

সীমাবদ্ধতা

१. LLC অনুমান চ্যালেঞ্জ:

  • অতিপরামিতি সংবেদনশীল
  • SGLD তাত্ত্বিক ভিত্তিতে ফাঁক বিদ্যমান
  • অনুমান মূল্য এবং প্রকৃত মূল্যের মধ্যে সিস্টেমেটিক বিচ্যুতি থাকতে পারে २. i.i.d. অনুমান: তাত্ত্বিক কাঠামো স্বাধীন এবং সমানভাবে বিতরণকৃত ডেটা অনুমান করে, কিন্তু ভাষা মডেলিং এই অনুমান লঙ্ঘন করে ३. গণনা খরচ: পাইথিয়া-६.९B এর একক LLC অনুমান H200 GPU তে প্রায় ३.५ ঘন্টা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. তাত্ত্বিক উন্নতি:

  • SGLD এর তাত্ত্বিক ভিত্তি উন্নত করা
  • অ-i.i.d. ডেটার সম্প্রসারণ পরিচালনা করা
  • আরও নির্ভুল LLC অনুমান পদ্ধতি २. ব্যবহারিক প্রয়োগ:
  • LLC-ভিত্তিক সংকোচন অ্যালগরিদম বিকাশ করা
  • বৃহত্তর স্কেল মডেলে সম্প্রসারণ করা
  • অন্যান্য মোডালিটিতে প্রয়োগ অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক উদ্ভাবন: SLT এবং MDL কে চতুরভাবে একত্রিত করা, সংকোচনের জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করা २. পর্যাপ্ত পরীক্ষা: একাধিক মডেল স্কেল এবং সংকোচন কৌশল জুড়ে সিস্টেমেটিক যাচাইকরণ ३. ব্যবহারিক মূল্য: সংকোচন সীমা মূল্যায়নের জন্য একটি অপারেশনাল তাত্ত্বিক সরঞ্জাম প্রদান করা ४. স্পষ্ট লেখা: জটিল তত্ত্ব স্পষ্টভাবে ব্যাখ্যা করা, যুক্তিসঙ্গত পরীক্ষা ডিজাইন

অপূর্ণতা

१. তাত্ত্বিক সীমাবদ্ধতা: i.i.d. অনুমান বাস্তব প্রয়োগ পরিস্থিতির সাথে সামঞ্জস্যপূর্ণ নয় २. গণনা ওভারহেড: LLC অনুমানের উচ্চ গণনা খরচ ব্যবহারিক প্রয়োগ সীমিত করে ३. যাচাইকরণ পরিসীমা: প্রধানত পাইথিয়া সিরিজে যাচাইকৃত, আরও মডেল আর্কিটেকচারের যাচাইকরণ প্রয়োজন ४. সংকোচন কৌশল: প্রধানত পরিমাণকরণ এবং ফ্যাক্টরাইজেশনে ফোকাস করা, অন্যান্য উন্নত সংকোচন কৌশল অপর্যাপ্ত কভারেজ

প্রভাব

१. একাডেমিক মূল্য: স্নায়ু নেটওয়ার্ক জটিলতা পরিমাপের জন্য একটি নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করা २. ব্যবহারিক তাৎপর্য: ব্যবহারিক সংকোচন অ্যালগরিদম ডিজাইন এবং অপ্টিমাইজেশন নির্দেশনা দিতে সহায়তা করা ३. আন্তঃশৃঙ্খলা অবদান: পরিসংখ্যান শিক্ষা তত্ত্ব এবং গভীর শিক্ষা অনুশীলন সংযোগ করা ४. ভবিষ্যত গবেষণা: আরও তাত্ত্বিক এবং অভিজ্ঞতামূলক গবেষণার জন্য ভিত্তি স্থাপন করা

প্রযোজ্য পরিস্থিতি

१. মডেল সংকোচন: স্নায়ু নেটওয়ার্কের সংকোচন সম্ভাবনা মূল্যায়ন এবং পূর্বাভাস করা २. জটিলতা বিশ্লেষণ: মডেল প্রশিক্ষণ প্রক্রিয়ায় জটিলতার বিবর্তন বোঝা ३. স্থাপত্য ডিজাইন: আরও সহজে সংকোচনযোগ্য নেটওয়ার্ক কাঠামো ডিজাইন নির্দেশনা দেওয়া ४. তাত্ত্বিক গবেষণা: গভীর শিক্ষায় অনন্য শিক্ষা তত্ত্বের প্রয়োগের জন্য একটি উদাহরণ প্রদান করা

তথ্যসূত্র

१. ওয়াটানাবে, এস. (२००९). বীজগণিতীয় জ্যামিতি এবং পরিসংখ্যান শিক্ষা তত্ত্ব २. গ্রুনওয়াল্ড, পি. এবং রুস, টি. (२०१९). ন্যূনতম বর্ণনা দৈর্ঘ্য পুনর্বিবেচিত ३. লাউ, ই. ইত্যাদি (२०२४). স্থানীয় শিক্ষা সহগ: একটি অনন্যতা-সচেতন জটিলতা পরিমাপ ४. বিডারম্যান, এস. ইত্যাদি (२०२३). পাইথিয়া: প্রশিক্ষণ এবং স্কেলিং জুড়ে বৃহৎ ভাষা মডেল বিশ্লেষণের জন্য একটি স্যুট