2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্কের প্যারামিটারাইজেশনের প্রশিক্ষণোত্তর কোয়ান্টাইজেশনে প্রভাব সম্পর্কে

মৌলিক তথ্য

  • পেপার আইডি: 2502.01156
  • শিরোনাম: গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্কের প্যারামিটারাইজেশনের প্রশিক্ষণোত্তর কোয়ান্টাইজেশনে প্রভাব সম্পর্কে
  • লেখক: সামি হুয়াশে (বোর্দো বিশ্ববিদ্যালয়, থেলেস এভিএস), জিন-ফ্রাঁসোয়া আউজল (বোর্দো বিশ্ববিদ্যালয়), ইয়ান ট্রাওনমিলিন (বোর্দো বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.IT (তথ্য তত্ত্ব), math.IT (গাণিতিক তথ্য তত্ত্ব)
  • প্রকাশনার সময়: ২০২৫ সালের ফেব্রুয়ারি (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2502.01156

সারসংক্ষেপ

এই পেপারটি কোয়ান্টাইজড নিউরাল নেটওয়ার্কের আউটপুটের জন্য নতুন তাত্ত্বিক আনুমানিক সীমানা প্রবর্তন করে, বিশেষত কনভোলিউশনাল নিউরাল নেটওয়ার্ক (সিএনএন) এর উপর ফোকাস করে। স্তর-দর-স্তর প্যারামিটারাইজেশন বিবেচনা করে এবং ওজন কোয়ান্টাইজেশনে মনোনিবেশ করে, লেখকরা ক্লাসিক্যাল গভীর কনভোলিউশনাল নেটওয়ার্ক (যেমন মোবাইলনেটভি২ বা রেসনেট) এ বিদ্যমান অত্যাধুনিক ফলাফলের তুলনায় কয়েক দশক মাত্রার উন্নতি প্রদান করেন। এই উন্নতিগুলি গভীরতা প্যারামিটারের সাপেক্ষে আনুমানিক সীমানার আচরণ উন্নত করার মাধ্যমে অর্জিত হয়, যা কোয়ান্টাইজেশন-প্ররোচিত আনুমানিক ত্রুটিকে সবচেয়ে বেশি প্রভাবিত করে। তাত্ত্বিক ফলাফলগুলি পরিপূরক করার জন্য, লেখকরা মোবাইলনেটভি২ এবং রেসনেটে সংখ্যাগত অন্বেষণ প্রদান করেন।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: সম্পদ-সীমিত পরিবেশে গভীর নিউরাল নেটওয়ার্ক স্থাপনের সময়, কোয়ান্টাইজেশন কৌশল কর্মক্ষমতা হ্রাস প্রবর্তন করে, এই হ্রাসকে পরিমাপ করার জন্য তাত্ত্বিক সীমানা স্থাপনের প্রয়োজন।

२. গুরুত্ব:

  • মোবাইল ডিভাইস এবং এম্বেডেড সিস্টেমে নিউরাল নেটওয়ার্ক স্থাপনের চাহিদা ক্রমবর্ধমান
  • নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী তাত্ত্বিক গ্যারান্টি প্রয়োজন
  • কোয়ান্টাইজেশন মডেল আকার এবং গণনামূলক খরচ হ্রাসের জন্য একটি মূল কৌশল

३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

  • গোনন এবং অন্যান্য (২০२३) এর সীমানা অত্যন্ত নৈরাশ্যবাদী, ব্যবহারিক প্রয়োগ মূল্য সীমিত
  • সর্বাধিক প্যারামিটার নর্ম r > 1 এর কঠোর অনুমান প্রযোজ্যতা সীমাবদ্ধ করে
  • ধ্রুবক C O(NL²) নির্ভরতা প্রদর্শন করে, আধুনিক গভীর স্থাপত্যের জন্য অব্যবহারিক

४. গবেষণা প্রেরণা:

  • বিদ্যমান সীমানা গভীর নেটওয়ার্কের জন্য অত্যন্ত রক্ষণশীল
  • ব্যবহারিক কোয়ান্টাইজেশন কৌশল নির্দেশনা দিতে আরও কঠোর তাত্ত্বিক সীমানা প্রয়োজন
  • ওজন নিয়মিতকরণ r < 1 এর ক্ষেত্রে সাধারণ, সীমাবদ্ধতা শিথিল করার প্রয়োজন

মূল অবদান

१. আরও কঠোর আনুমানিক সীমানা: গোনন এবং অন্যান্যদের NL² ফ্যাক্টর ∑ᴸₗ₌₁Nₗ₋₁ এ উন্নত করা, ধ্রুবক প্রস্থ নেটওয়ার্কের জন্য NL এ সরলীকৃত

२. নর্ম সীমাবদ্ধতা শিথিল করা: l-তম স্তরের অপারেটর নর্মের জন্য যেকোনো ধনাত্মক মান rₗ অনুমতি দেওয়া, ছোট প্যারামিটার নর্ম সহ নেটওয়ার্কের জন্য ফলাফল প্রযোজ্য করা

३. উন্নত জ্যামিতিক গড় পদ: সর্বাধিক প্যারামিটার নর্ম r এর পরিবর্তে rmean ব্যবহার করা, কম নৈরাশ্যবাদী অনুমান প্রদান করা

४. কনভোলিউশনাল নেটওয়ার্ক বিশেষীকরণ: কনভোলিউশনাল কাঠামোর জন্য বিশেষায়িত সীমানা প্রদান করা, শুধুমাত্র ফিল্টার আকার এবং চ্যানেল সংখ্যা বিবেচনা করা

५. ব্যবহারিক যাচাইকরণ: ক্লাসিক্যাল প্রশিক্ষিত সিএনএন মডেলে তাত্ত্বিক উন্নতি যাচাই করা, কয়েক দশক মাত্রার বৃদ্ধি প্রদর্শন করা

পদ্ধতি বিবরণ

কাজের সংজ্ঞা

নিউরাল নেটওয়ার্ক Rθ এবং এর কোয়ান্টাইজড সংস্করণ Rθ' এর জন্য, নিম্নলিখিত ফর্মের সীমানা খুঁজে বের করা:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

যেখানে Ω ইনপুট ডোমেইন, C নেটওয়ার্ক স্থাপত্যের উপর নির্ভরশীল একটি ধ্রুবক।

মূল তাত্ত্বিক ফলাফল

সর্বজনীন আনুমানিক সীমানা (উপপাদ্য ४.१)

স্থাপত্য (L,N) এর জন্য, অনুমান করা যে দুটি নেটওয়ার্কের একই পক্ষপাত রয়েছে এবং শুধুমাত্র ওজন কোয়ান্টাইজ করা হয়েছে:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

যেখানে জ্যামিতিক গড় পদ সংজ্ঞায়িত করা হয়েছে:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

কনভোলিউশনাল নেটওয়ার্ক বিশেষ সীমানা (উপপাদ্য ४.४)

খাঁটি কনভোলিউশনাল নেটওয়ার্কের জন্য (কোন পক্ষপাত ছাড়াই), প্রতিটি স্তরে cₗ সংখ্যক pₗ×pₗ আকারের ফিল্টার প্রয়োগ করা হয়:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

যেখানে:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. স্তর-স্তর প্যারামিটারাইজেশন পদ্ধতি: বৈশ্বিক সর্বাধিক মান ব্যবহার এড়াতে স্তর-দর-স্তর প্যারামিটার নর্ম বিশ্লেষণের মাধ্যমে

२. বিরল কাঠামো ব্যবহার: কনভোলিউশনাল ম্যাট্রিক্সের বিরলতা কার্যকরভাবে ব্যবহার করা, সম্পূর্ণ Nₗ₋₁ এর পরিবর্তে p²ₗcₗ₋₁ ব্যবহার করা

३. জ্যামিতিক গড় কৌশল: rmean স্তর জুড়ে প্যারামিটার নর্মের পরিবর্তনশীলতা বিবেচনা করে, শুধুমাত্র সর্বাধিক মানের চেয়ে আরও নির্ভুল

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • টাইনি ইমেজনেট: ১১०,००० টি ६४×६४ ইমেজ, २०० ক্লাস সহ
  • এমএনআইএসটি: হাতে লেখা সংখ্যা স্বীকৃতি, এমএলপি পরীক্ষার জন্য
  • সিআইএফএআর-१०: ३२×३२ রঙিন ইমেজ, १० ক্লাস

মডেল স্থাপত্য

  • রেসনেট१८/५०: ব্যাচনর্ম অপসারিত অবশিষ্ট নেটওয়ার্ক
  • মোবাইলনেটভি२: ব্যাচনর্ম অপসারিত হালকা নেটওয়ার্ক
  • বহু-স্তরীয় পার্সেপ্ট্রন: গভীরতা প্রভাব বিশ্লেষণের জন্য বিভিন্ন গভীরতা (५,७,९,११ স্তর)

কোয়ান্টাইজেশন পদ্ধতি

१. সমান কোয়ান্টাইজেশন: Q_unif(θ) = ⌊θ/η⌋η २. রাউন্ডিং কোয়ান্টাইজেশন: Q_round(θ) = round(θ/η)η ३. অ্যাডারাউন্ড: স্ব-অভিযোজিত রাউন্ডিং, রাউন্ডিং অফসেট অপ্টিমাইজ করা

মূল্যায়ন মেট্রিক্স

  • তাত্ত্বিক সীমানার কঠোরতা তুলনা
  • কোয়ান্টাইজেশনের পরে মডেল নির্ভুলতা
  • বিভিন্ন বিট প্রস্থে কর্মক্ষমতা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সীমানা উন্নতি প্রভাব

  • রেসনেট१८: নতুন সীমানা গোনন এবং অন্যান্যদের ফলাফলের চেয়ে १०⁸ গুণ কঠোর
  • মোবাইলনেটভি२: উন্নতি १०⁵⁶ গুণ পৌঁছায়
  • রেসনেট५०: উন্নতি १०२७ গুণ পৌঁছায়

প্যারামিটার বিশ্লেষণ তুলনা

মডেলগভীরতা Lপূর্ববর্তী সীমানা প্রস্থপূর্ববর্তী সীমানা নর্ম rনতুন সীমানা প্রস্থনতুন সীমানা নর্ম r_convউন্নতি অনুপাত
মোবাইলনেটভি२५३१.२×१०⁶≈१०१८६४१≈९≈१०⁵⁶
রেসনেট१८१८८×१०⁵≈८४४६०९≈४४≈१०⁸
রেসনেট५०५०८×१०⁵≈१०८४६०९≈३७≈१०२७

গভীরতা প্রভাব বিশ্লেষণ

এমএলপি পরীক্ষার মাধ্যমে যাচাই করা, সীমানা উন্নতি গভীরতার সাথে সূচকীয়ভাবে বৃদ্ধি পায়:

  • গভীরতা ५: উন্নতি প্রায় १०३ গুণ
  • গভীরতা११: উন্নতি প্রায় १०⁸ গুণ

কোয়ান্টাইজেশন কর্মক্ষমতা বিশ্লেষণ

টাইনি ইমেজনেটে বিভিন্ন কোয়ান্টাইজেশন পদ্ধতির কর্মক্ষমতা:

  • অ্যাডারাউন্ড চরম কোয়ান্টাইজেশনে সেরা কর্মক্ষমতা প্রদর্শন করে (≤४ বিট)
  • মোবাইলনেটভি२ রেসনেটের তুলনায় কোয়ান্টাইজেশনের প্রতি উচ্চতর সহনশীলতা প্রদর্শন করে
  • গভীরতা উল্লেখযোগ্যভাবে কোয়ান্টাইজেশন ত্রুটিকে প্রভাবিত করে, তাত্ত্বিক পূর্বাভাস যাচাই করে

ওজন বিতরণ প্রভাব

পরীক্ষা ওজন নর্ম বিতরণের গুরুত্ব প্রদর্শন করে:

  • মোবাইলনেটভি२: r≈१०१ বনাম r_conv≈९ (११ গুণ উন্নতি)
  • রেসনেট५०: r≈१०८ বনাম r_conv≈३७ (३ গুণ উন্নতি)
  • ওজন বিতরণের পরিবর্তনশীলতা যত বেশি, r_conv এর r এর তুলনায় সুবিধা তত বেশি স্পষ্ট

সম্পর্কিত কাজ

আনুমানিক সীমানা গবেষণা

  • গোনন এবং অন্যান্য (२०२३): আরএলইউ নেটওয়ার্কের জন্য সাধারণ উপরের সীমা প্রদান করেছেন, কিন্তু গভীর নেটওয়ার্কের জন্য অত্যন্ত নৈরাশ্যবাদী
  • নেইশাবুর এবং অন্যান্য (२०१८): নিয়ন্ত্রিত বিঘ্নের নির্দিষ্ট ক্ষেত্রে, যেকোনো কোয়ান্টাইজেশনের জন্য প্রযোজ্য নয়
  • বার্নার এবং অন্যান্য (२०२०): L∞ নর্ম ক্ষেত্রে, কিন্তু d_out=१ এ সীমাবদ্ধ

কোয়ান্টাইজেশন কৌশল

  • অ্যাডারাউন্ড (নেগেল এবং অন্যান্য २०२०): ডেটা-চালিত স্ব-অভিযোজিত রাউন্ডিং
  • ক্রস-লেয়ার সমীকরণ: স্তর জুড়ে ওজন বিতরণ সমান করা
  • কম-বিট কোয়ান্টাইজেশন: বাইনারি ওজন, অত্যন্ত কম নির্ভুলতা অনুমান

তাত্ত্বিক বিশ্লেষণ

  • টপোলজিক্যাল সম্পত্তি গবেষণা: বাস্তবায়ন ম্যাপিংয়ের লিপশিটজ ধারাবাহিকতা
  • অনুমান ক্ষমতা: নিউরাল নেটওয়ার্কের সর্বজনীন অনুমান উপপাদ্যের সম্প্রসারণ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. উল্লেখযোগ্য তাত্ত্বিক উন্নতি: নতুন সীমানা ব্যবহারিক নেটওয়ার্কে বিদ্যমান ফলাফলের তুলনায় কয়েক দশক মাত্রা কঠোর २. গভীরতা নির্ভরতা অপ্টিমাইজেশন: L² নির্ভরতা থেকে আরও মৃদু বৃদ্ধিতে উন্নত ३. ব্যবহারিকতা বৃদ্ধি: প্যারামিটার সীমাবদ্ধতা শিথিল করা, নিয়মিত নেটওয়ার্কের জন্য প্রযোজ্য ४. স্থাপত্য-সচেতন: কনভোলিউশনাল কাঠামোর বিরলতা কার্যকরভাবে ব্যবহার করা

সীমাবদ্ধতা

१. এখনও রক্ষণশীল: সীমানা এবং প্রকৃত পর্যবেক্ষণ ত্রুটির মধ্যে এখনও কয়েক দশক মাত্রার পার্থক্য রয়েছে २. সর্বনিম্ন ক্ষেত্রে বিশ্লেষণ: তাত্ত্বিক সীমানা চরম ক্ষেত্রের উপর ভিত্তি করে, বাস্তব অ্যাপ্লিকেশনে খুব কমই ঘটে ३. স্থাপত্য সীমাবদ্ধতা: প্রধানত সিএনএনের উপর ফোকাস করা, ট্রান্সফর্মার ইত্যাদি আধুনিক স্থাপত্যে সম্প্রসারণ করা হয়নি ४. ব্যাচনর্ম পরিচালনা: তাত্ত্বিক শর্ত পূরণের জন্য পরীক্ষায় ব্যাচনর্ম অপসারিত করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

१. ট্রান্সফর্মার সম্প্রসারণ: স্তর নর্মালাইজেশন এবং মাল্টি-হেড মনোযোগ প্রক্রিয়া পরিচালনা করা २. সম্ভাব্য পদ্ধতি: সাধারণ অপারেশনাল অবস্থা প্রতিফলিত করে এমন সম্ভাব্য সীমানা বিকাশ করা ३. কঠোর সীমানা: তাত্ত্বিক সীমানা এবং প্রকৃত ত্রুটির মধ্যে ব্যবধান আরও সংকুচিত করা ४. ব্যবহারিক সরঞ্জাম: তাত্ত্বিক ফলাফলকে কোয়ান্টাইজেশন কৌশল নির্দেশনা সরঞ্জামে রূপান্তরিত করা

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক অবদান উল্লেখযোগ্য: কোয়ান্টাইজেশন তাত্ত্বিক সীমানায় উল্লেখযোগ্য অগ্রগতি অর্জন করেছেন, মাত্রার উন্নতি গুরুত্বপূর্ণ २. গাণিতিক কঠোরতা: প্রমাণ প্রক্রিয়া সম্পূর্ণ, গাণিতিক উদ্ভাবন নির্ভরযোগ্য এবং সঠিক ३. ব্যবহারিক মূল্য: বিদ্যমান পদ্ধতির কঠোর অনুমান শিথিল করা, প্রযোজ্যতা বৃদ্ধি করা ४. পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত: একাধিক ক্লাসিক্যাল স্থাপত্যে তাত্ত্বিক উন্নতি যাচাই করা ५. লেখা স্পষ্টতা: পেপার কাঠামো যুক্তিসঙ্গত, প্রযুক্তিগত বিবরণ নির্ভুল এবং সঠিক

অপূর্ণতা

१. সীমানা এখনও শিথিল: উল্লেখযোগ্য উন্নতি সত্ত্বেও, তাত্ত্বিক সীমানা এবং প্রকৃত ত্রুটির মধ্যে এখনও বড় ব্যবধান রয়েছে २. স্থাপত্য সীমাবদ্ধতা: প্রধানত সিএনএনের উপর ফোকাস করা, আধুনিক ট্রান্সফর্মার স্থাপত্যে সম্প্রসারণযোগ্যতা সীমিত ३. অনুমান শর্ত: ব্যাচনর্ম ইত্যাদি উপাদান অপসারিত করা বাস্তব প্রয়োগ মূল্য প্রভাবিত করতে পারে ४. সম্ভাব্য বিশ্লেষণ অনুপস্থিত: সাধারণ ক্ষেত্রে কর্মক্ষমতার সম্ভাব্য বিশ্লেষণ অনুপস্থিত

প্রভাব

१. তাত্ত্বিক মূল্য: কোয়ান্টাইজেশন তত্ত্বের জন্য নতুন বিশ্লেষণ কাঠামো এবং সরঞ্জাম প্রদান করেছেন २. ব্যবহারিক নির্দেশনা: কোয়ান্টাইজেশন কৌশল ডিজাইন নির্দেশনা দিতে পারে, বিশেষত ক্রস-লেয়ার সমীকরণ ইত্যাদি কৌশল ३. গবেষণা অনুপ্রেরণা: পরবর্তী গবেষণার জন্য উন্নতি দিকনির্দেশনা এবং ভিত্তি প্রদান করেছেন ४. পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক সেটআপ স্পষ্ট, ফলাফল পুনরুৎপাদনযোগ্য

প্রযোজ্য দৃশ্যকল্প

१. নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশন: তাত্ত্বিক গ্যারান্টি প্রয়োজনীয় কোয়ান্টাইজেশন স্থাপনা २. এম্বেডেড সিস্টেম: সম্পদ-সীমিত পরিবেশে মডেল সংকোচন ३. কোয়ান্টাইজেশন কৌশল ডিজাইন: স্তর-স্তর কোয়ান্টাইজেশন এবং প্রাক-প্রক্রিয়াকরণ কৌশল নির্দেশনা দেওয়া ४. তাত্ত্বিক গবেষণা: আরও কোয়ান্টাইজেশন তাত্ত্বিক গবেষণার জন্য ভিত্তি প্রদান করা

রেফারেন্স

१. গোনন, এ., এবং অন্যান্য (२०२३)। কোয়ান্টাইজড বনাম অ-কোয়ান্টাইজড রেলু নিউরাল নেটওয়ার্কের অনুমান গতি এবং তার বাইরে। আইইইই ট্রানজেকশন অন ইনফরমেশন থিওরি। २. নেগেল, এম., এবং অন্যান্য (२०२०)। উপরে বা নীচে? প্রশিক্ষণোত্তর কোয়ান্টাইজেশনের জন্য অভিযোজিত রাউন্ডিং। আইসিএমএল। ३. স্যান্ডলার, এম., এবং অন্যান্য (२०१८)। মোবাইলনেটভি२: বিপরীত অবশিষ্ট এবং রৈখিক বটলনেক। সিভিপিআর। ४. হে, কে., এবং অন্যান্য (२०१६)। ইমেজ স্বীকৃতির জন্য গভীর অবশিষ্ট শিক্ষা। সিভিপিআর।


সারসংক্ষেপ: এই পেপারটি নিউরাল নেটওয়ার্ক কোয়ান্টাইজেশনের তাত্ত্বিক বিশ্লেষণে গুরুত্বপূর্ণ অগ্রগতি অর্জন করেছে, আরও সূক্ষ্ম স্তর-স্তর বিশ্লেষণ এবং জ্যামিতিক গড় কৌশলের মাধ্যমে বিদ্যমান আনুমানিক সীমানা উল্লেখযোগ্যভাবে উন্নত করেছে। যদিও সীমানা এখনও তুলনামূলকভাবে রক্ষণশীল, তবে এর মাত্রার উন্নতি এবং শিথিল সীমাবদ্ধতা এটিকে গুরুত্বপূর্ণ তাত্ত্বিক মূল্য এবং ব্যবহারিক তাৎপর্য প্রদান করে।