2025-11-20T02:10:14.805899

Post-training quantization of vision encoders needs prefixing registers

Kim, Kim, Yeom et al.
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Post-training quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm to mitigate outliers in vision encoders, enabling quantization with significantly smaller accuracy drops. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.
academic

ভিশন এনকোডারের প্রশিক্ষণ-পরবর্তী পরিমাণীকরণের জন্য প্রিফিক্সিং রেজিস্টার প্রয়োজন

মৌলিক তথ্য

  • পেপার আইডি: 2510.04547
  • শিরোনাম: Post-training quantization of vision encoders needs prefixing registers
  • লেখক: Seunghyeon Kim (POSTECH), Jinho Kim (Dankook University), Taesun Yeom (POSTECH), Wonpyo Park (Google), Kyuyeun Kim (Google), Jaeho Lee (POSTECH)
  • শ্রেণীবিভাগ: cs.LG, cs.CV
  • প্রকাশনার সময়: ২০২৫ সালের অক্টোবর (প্রিপ্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.04547v2

সারসংক্ষেপ

Transformer-ভিত্তিক ভিশন এনকোডার -- যেমন CLIP -- বহুমাধ্যম বুদ্ধিমত্তার কেন্দ্রবিন্দু, যা স্বায়ত্তশাসিত ওয়েব এজেন্ট থেকে রোবোটিক নিয়ন্ত্রণ পর্যন্ত অ্যাপ্লিকেশনগুলিকে শক্তি প্রদান করে। যেহেতু এই অ্যাপ্লিকেশনগুলি প্রায়শই বিশাল ভিজ্যুয়াল ডেটার রিয়েল-টাইম প্রক্রিয়াকরণের দাবি করে, ভিশন এনকোডারের অনুমান খরচ কমানো গুরুত্বপূর্ণ। প্রশিক্ষণ-পরবর্তী পরিমাণীকরণ একটি ব্যবহারিক পথ অফার করে, কিন্তু বিশাল-স্কেল অ্যাক্টিভেশন (অর্থাৎ আউটলায়ার) এর কারণে এমনকি ৮-বিট নির্ভুলতায়ও চ্যালেঞ্জিং থাকে। এই কাজে, আমরা RegCache\textit{RegCache} প্রস্তাব করি, ভিশন এনকোডারে আউটলায়ারগুলি হ্রাস করার জন্য একটি প্রশিক্ষণ-মুক্ত অ্যালগরিদম, যা উল্লেখযোগ্যভাবে ছোট নির্ভুলতা হ্রাসের সাথে পরিমাণীকরণ সক্ষম করে। প্রস্তাবিত RegCache লক্ষ্য ভিশন এনকোডারে আউটলায়ার-প্রবণ কিন্তু অর্থগতভাবে অর্থহীন প্রিফিক্স টোকেন প্রবর্তন করে, যা অন্যান্য টোকেনগুলিকে আউটলায়ার থাকা থেকে বাধা দেয়। উল্লেখযোগ্যভাবে, আমরা পর্যবেক্ষণ করি যে ভিশন এনকোডারে আউটলায়ারগুলি ভাষা মডেলগুলিতে যেভাবে আচরণ করে তা থেকে আলাদাভাবে আচরণ করে, যা দুটি প্রযুক্তিগত উদ্ভাবনকে অনুপ্রাণিত করে: মধ্য-স্তর প্রিফিক্সিং এবং টোকেন মুছে ফেলা। পরীক্ষাগুলি দেখায় যে আমাদের পদ্ধতি পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী উভয় ভিশন এনকোডার জুড়ে পরিমাণিত মডেলগুলির নির্ভুলতা ধারাবাহিকভাবে উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা Transformer-ভিত্তিক ভিশন এনকোডার (যেমন CLIP, DINOv2) এর প্রশিক্ষণ-পরবর্তী পরিমাণীকরণ (Post-training Quantization, PTQ) প্রক্রিয়ায় অ্যাক্টিভেশন আউটলায়ার সমস্যা সমাধানের লক্ষ্য রাখে। এই আউটলায়ারগুলি পরিমাণীকরণ নির্ভুলতা হ্রাস করে, এমনকি ৮-বিট নির্ভুলতায়ও মডেল কর্মক্ষমতা উল্লেখযোগ্যভাবে প্রভাবিত করে।

গুরুত্ব বিশ্লেষণ

১. ব্যবহারিক প্রয়োজন: ভিশন এনকোডারগুলি স্বয়ংচালিত গাড়ি, রোবোট নিয়ন্ত্রণ ইত্যাদি এজ ডিভাইস অ্যাপ্লিকেশনে বিশাল ভিজ্যুয়াল ডেটা রিয়েল-টাইমে প্রক্রিয়া করার প্রয়োজন २. গণনা খরচ: সম্পদ-সীমিত ডিভাইসে বড় আকারের ভিশন মডেল স্থাপনের জন্য অনুমান খরচ কমানো অত্যন্ত গুরুত্বপূর্ণ ३. পরিমাণীকরণ চ্যালেঞ্জ: অ্যাক্টিভেশন পরিমাণীকরণ ওজন পরিমাণীকরণের চেয়ে আরও চ্যালেঞ্জিং, বিশেষত গণনা-সীমিত পরিস্থিতিতে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. LLM পদ্ধতি প্রযোজ্য নয়: বড় ভাষা মডেলের জন্য বিদ্যমান আউটলায়ার প্রশমন কৌশলগুলির জন্য বিভিন্ন নির্ভুলতা বা পরিমাণীকরণ পরিসীমা প্রয়োজন, জটিল বাস্তবায়ন এবং বড় গণনা ওভারহেড সহ २. স্ট্যাটিক পরিমাণীকরণ কঠিন: এই পদ্ধতিগুলি স্ট্যাটিক অ্যাক্টিভেশন পরিমাণীকরণে প্রয়োগ করা কঠিন ३. ভিশন এনকোডারের বিশেষত্ব: ভাষা মডেলের বিপরীতে, ভিশন এনকোডারগুলিতে পূর্বনির্ধারিত অর্থগতভাবে অর্থহীন টোকেন (যেমন <BOS>, <SEP>) অভাব রয়েছে

মূল অবদান

१. RegCache অ্যালগরিদম প্রস্তাব: একটি প্রশিক্ষণ-মুক্ত আউটলায়ার প্রশমন অ্যালগরিদম, যা প্রিফিক্স রেজিস্টার টোকেনের মাধ্যমে ভিশন এনকোডারে আউটলায়ার হ্রাস করে २. ভিশন এনকোডার আউটলায়ার বৈশিষ্ট্য আবিষ্কার: প্রমাণ করে যে ভিশন এনকোডারে আউটলায়ার আচরণ ভাষা মডেল থেকে উল্লেখযোগ্যভাবে আলাদা, আউটলায়ারগুলি প্রাথমিক স্তরের পরিবর্তে মধ্য-স্তরে প্রদর্শিত হয় ३. প্রযুক্তিগত উদ্ভাবন: মধ্য-স্তর প্রিফিক্সিং এবং টোকেন মুছে ফেলা দুটি মূল প্রযুক্তি প্রস্তাব করে ४. ব্যাপক যাচাইকরণ: একাধিক পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী ভিশন এনকোডারে পদ্ধতির কার্যকারিতা যাচাই করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি প্রাক-প্রশিক্ষিত ভিশন এনকোডার দেওয়া, লক্ষ্য হল বাহ্যিক রেজিস্টার টোকেন প্রবর্তনের মাধ্যমে পরিমাণীকরণ-সংবেদনশীল স্তরে আউটলায়ার প্রশমিত করা, যা অনুমান দক্ষতা বজায় রেখে পরিমাণিত মডেলের নির্ভুলতা উন্নত করে।

মূল পর্যবেক্ষণ

পেপারটি তিনটি গুরুত্বপূর্ণ পর্যবেক্ষণের উপর ভিত্তি করে সমাধান প্রস্তাব করে:

१. স্তর-স্তরের পরিমাণীকরণ সংবেদনশীলতা: ভিশন এনকোডারের পরিমাণীকরণ সংবেদনশীলতা প্রাথমিক স্তরের পরিবর্তে প্রধানত মধ্য-স্তরে কেন্দ্রীভূত २. আউটলায়ার টোকেন সর্বজনীনতা: মধ্য-স্তরে প্রদর্শিত আউটলায়ার টোকেনগুলি বিভিন্ন ছবিতে উচ্চ সাদৃশ্য প্রদর্শন করে (কোসাইন সাদৃশ্য ০.৮৯ বনাম ০.२६) ३. মধ্য-স্তর উপস্থিতি প্রক্রিয়া: ভিশন এনকোডারগুলি কোন টোকেনগুলি অর্থগতভাবে অর্থহীন তা চিহ্নিত করার জন্য প্রথম কয়েকটি স্তর প্রক্রিয়া করার প্রয়োজন

RegCache অ্যালগরিদম আর্কিটেকচার

RegCache তিনটি প্রধান পদক্ষেপ নিয়ে গঠিত:

१. রেজিস্টার প্রার্থী সংগ্রহ (Curating)

S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
  • পরিমাণীকরণ-সংবেদনশীল স্তর lq চিহ্নিত করুন (স্তর-দ্বারা-স্তর পরিমাণীকরণ সংবেদনশীলতা বিশ্লেষণের মাধ্যমে)
  • রেফারেন্স ছবি পুল থেকে সর্বোচ্চ ℓ∞ নর্ম সহ শীর্ষ-k টোকেনগুলি রেজিস্টার প্রার্থী হিসাবে নির্বাচন করুন
  • ImageNet-1k প্রশিক্ষণ সেটের ৫০,০০০ এলোমেলো ছবি রেফারেন্স পুল হিসাবে ব্যবহার করুন

२. ক্যাশিং (Caching)

(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
  • প্রতিটি রেজিস্টার প্রার্থীর জন্য কী-মূল্য ক্যাশ গণনা করুন
  • গ্রিড অনুসন্ধানের মাধ্যমে সর্বোত্তম রেজিস্টার z* এবং পুনরাবৃত্তি সংখ্যা τ* নির্ধারণ করুন
  • নির্বাচিত KV ক্যাশ পরিমাণীকরণ-সংবেদনশীল স্তর এবং পরবর্তী স্তরে সন্নিবেশ করান

३. মুছে ফেলা (Deleting)

D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
  • পরিমাণীকরণ-সংবেদনশীল স্তর ইনপুটে টোকেন মুছে ফেলার স্তর যোগ করুন
  • অনুমানের সময় সর্বোচ্চ ℓ∞ নর্ম সহ শীর্ষ-k̃ অভ্যন্তরীণভাবে প্রদর্শিত সিঙ্ক টোকেনগুলি মুছে ফেলুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. মধ্য-স্তর প্রিফিক্স কৌশল: LLM এর প্রাথমিক-স্তর প্রিফিক্সের বিপরীতে, ভিশন এনকোডারের মধ্য-স্তর বৈশিষ্ট্যের জন্য ডিজাইন করা २. সর্বজনীন রেজিস্টার আবিষ্কার: বিভিন্ন ছবিতে আউটলায়ার টোকেনের সাদৃশ্য ব্যবহার করে, সর্বজনীন রেজিস্টার তৈরি করুন ३. যোগ-মুছে ফেলা প্রক্রিয়া: অভ্যন্তরীণভাবে প্রদর্শিত সিঙ্ক টোকেনগুলি বাহ্যিক পূর্ব-গণনা করা ক্যাশ দিয়ে প্রতিস্থাপন করুন, অ্যাক্টিভেশন পরিমাণীকরণ পরিসীমা প্রভাবিত করা এড়ান

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • ImageNet-1k: শূন্য-শট ছবি শ্রেণীবিভাগ মূল্যায়নের জন্য
  • MS-COCO: ছবি-পাঠ্য পুনরুদ্ধার কাজের মূল্যায়নের জন্য
  • অন্যান্য শ্রেণীবিভাগ ডেটাসেট: Stanford Cars, Flowers-102, Food-101, CIFAR-100 (সাধারণীকরণ যাচাইয়ের জন্য)
  • রেফারেন্স ডেটা: রেজিস্টার অনুসন্ধানের জন্য ImageNet-1k প্রশিক্ষণ সেটের ৫০,০০০ ছবি

মূল্যায়ন মেট্রিক্স

  • শূন্য-শট শ্রেণীবিভাগ নির্ভুলতা: ImageNet-1k এ শীর্ষ-१ নির্ভুলতা
  • পুনরুদ্ধার কর্মক্ষমতা: MS-COCO এ Recall@1 এবং Recall@5
  • আউটলায়ার বিশ্লেষণ: সর্বোচ্চ টোকেন নর্ম এবং গড় টোকেন নর্ম

তুলনামূলক পদ্ধতি

  • মৌলিক পরিমাণীকরণ অ্যালগরিদম:
    • PTQ4ViT: ViT এর জন্য দ্বৈত-ইউনিফর্ম কোয়ান্টাইজার
    • RepQ-ViT: স্কেল পুনঃপ্যারামিটারাইজেশন পদ্ধতি
    • NoisyQuant: শব্দ-বর্ধিত অ্যাক্টিভেশন পরিমাণীকরণ
  • নির্ভুলতা সেটিংস: W8A8 (८-বিট ওজন ८-বিট অ্যাক্টিভেশন) এবং W6A6 (६-বিট ওজন ६-বিট অ্যাক্টিভেশন)

বাস্তবায়ন বিবরণ

  • ১,०२४ এবং ३२ ক্যালিব্রেশন নমুনা ব্যবহার করুন (যথাক্রমে NoisyQuant এবং RepQ-ViT এর জন্য)
  • রেজিস্টার প্রার্থী সংখ্যা k=२०, পুনরাবৃত্তি পরিসীমা τ∈{१,...,१५}
  • মুছে ফেলা টোকেন সংখ্যা k̃ রেফারেন্স কাজ দ্বারা টিউন করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

শূন্য-শট ছবি শ্রেণীবিভাগ (ImageNet-1k)

মডেলনির্ভুলতাবেসলাইন সেরাRegCache সেরাউন্নতি
CLIP-B/16W8A867.69%67.78%+0.09%
CLIP-B/16W6A658.19%66.65%+13.40%
SigLIP2-B/16W8A876.92%77.26%+0.34%
SigLIP2-B/16W6A664.91%70.88%+5.97%

ছবি-পাঠ্য পুনরুদ্ধার (MS-COCO)

  • CLIP-B/16: সমস্ত পুনরুদ্ধার মেট্রিক্সে গড় ३.७६%-७.९७% উন্নতি
  • SigLIP-B/16: Recall@1 এ ०.२०% উন্নতি, সামগ্রিক কর্মক্ষমতা স্থিরভাবে উন্নত

আউটলায়ার প্রশমন প্রভাব

মডেলসর্বোচ্চ টোকেন নর্ম (মূল)সর্বোচ্চ টোকেন নর্ম (RegCache)হ্রাস অনুপাত
CLIP61.1715.30-75.0%
OpenCLIP122.9912.38-89.9%
SigLIP2244.7830.45-87.6%

বিলোপন পরীক্ষা

SigLIP এ বিলোপন অধ্যয়ন দেখায়:

  • শুধুমাত্র প্রিফিক্স ক্যাশ: নির্ভুলতা ६९.७१% থেকে ७४.२१% এ উন্নত
  • শুধুমাত্র টোকেন মুছে ফেলা: নির্ভুলতা ३८.५१% এ হ্রাস (প্রিফিক্স সমর্থনের প্রয়োজন প্রমাণ করে)
  • সম্পূর্ণ RegCache: নির্ভুলতা ७४.४२% এ পৌঁছায়

সাধারণীকরণ যাচাইকরণ

ImageNet-1k এ অনুসন্ধান করা প্রিফিক্সগুলি অন্যান্য ডেটাসেটে এখনও কার্যকর:

  • Stanford Cars: +१.७८% থেকে +४७.४७%
  • Food-101: +९.८५% থেকে +५१.२८%
  • CIFAR-100: +१२.८१% থেকে +३३.००%

সম্পর্কিত কাজ

Transformer আউটলায়ার গবেষণা

  • বড় Transformer এ অ্যাক্টিভেশন আউটলায়ারের সিস্টেমেটিক গবেষণা
  • LLM এ নির্দিষ্ট টোকেনের আউটলায়ার আচরণ (যেমন <BOS>, <SEP>)
  • ViT এ আউটলায়ারগুলি সাধারণত অ-তথ্যপূর্ণ পটভূমি প্যাচের সাথে সম্পর্কিত

মনোযোগ সিঙ্ক নিয়ন্ত্রণ

  • Attention sink: অত্যধিক মনোযোগ আকর্ষণ করে কিন্তু অল্প অর্থগত তথ্য সহ টোকেন
  • প্রশিক্ষণের সময় রেজিস্টার টোকেন যোগ করুন মনোযোগ শোষণ করতে এবং attention sink প্রশমিত করতে
  • এই পেপার PTQ দৃষ্টিকোণ থেকে সিঙ্ক টোকেন ব্যবহার করে পরিমাণীকরণ কর্মক্ষমতা উন্নত করে

ViT প্রশিক্ষণ-পরবর্তী পরিমাণীকরণ

  • প্রাথমিক পদ্ধতি: মনোযোগ-সংবেদনশীল স্তরের জন্য গতিশীল বিট-প্রস্থ বরাদ্দ
  • বিদ্যমান পদ্ধতি: বিশেষ পরিমাণীকরণ স্কিমের মাধ্যমে আউটলায়ার প্রভাব বিচ্ছিন্ন এবং ন্যূনতম করুন
  • এই পেপার পদ্ধতি: পরিমাণীকরণকারী দানাদারিত্বের পরিবর্তে টোকেন প্রিফিক্সের মাধ্যমে আউটলায়ার পরিচালনা করুন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. RegCache কার্যকারিতা: একাধিক ভিশন এনকোডার এবং পরিমাণীকরণ পদ্ধতি জুড়ে ধারাবাহিক কর্মক্ষমতা উন্নতি २. আউটলায়ার প্রশমন প্রক্রিয়া: অভ্যন্তরীণ টোকেন থেকে বাহ্যিক পূর্ব-গণনা করা ক্যাশে আউটলায়ার সফলভাবে স্থানান্তর ३. সর্বজনীনতা: পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী ভিশন এনকোডার উভয়ের জন্য পদ্ধতি প্রযোজ্য

সীমাবদ্ধতা

१. সুপারপ্যারামিটার টিউনিং: সর্বোত্তম কনফিগারেশন নির্ধারণের জন্য একাধিক প্রিফিক্স প্রার্থী মূল্যায়ন প্রয়োজন २. অতিরিক্ত সুপারপ্যারামিটার: সর্বোচ্চ মুছে ফেলা টোকেন সংখ্যা, প্রিফিক্স টোকেন সংখ্যা ইত্যাদি প্রবর্তন করে ३. গণনা ওভারহেড: যদিও FLOPs বৃদ্ধি ०.२% অতিক্রম করে না, তবুও অতিরিক্ত গণনা খরচ রয়েছে

ভবিষ্যত দিকনির্দেশনা

१. বহুমাধ্যম পার্থক্য গবেষণা: পাঠ্য-তত্ত্বাবধানী বনাম স্ব-তত্ত্বাবধানী মডেলের পরিমাণীকরণ আচরণ পার্থক্য গভীরভাবে বুঝুন २. আউটলায়ার প্রক্রিয়া বোঝা: ViT এবং LLM আউটলায়ার আচরণ পার্থক্যের মূল কারণ আরও গবেষণা করুন ३. স্বয়ংক্রিয় অপ্টিমাইজেশন: সর্বোত্তম প্রিফিক্স কনফিগারেশন স্বয়ংক্রিয়ভাবে নির্ধারণের পদ্ধতি বিকাশ করুন

গভীর মূল্যায়ন

সুবিধা

१. সমস্যা গুরুত্ব: ভিশন এনকোডার পরিমাণীকরণে মূল প্রযুক্তিগত চ্যালেঞ্জ সমাধান করে २. পদ্ধতি উদ্ভাবন: প্রথমবারের মতো রেজিস্টার ধারণা ভিশন এনকোডার পরিমাণীকরণে প্রবর্তন, উপন্যাস প্রযুক্তি পথ ३. তাত্ত্বিক অন্তর্দৃষ্টি: ভিশন এনকোডার এবং LLM আউটলায়ার আচরণের মৌলিক পার্থক্য গভীর বিশ্লেষণ ४. পরীক্ষা ব্যাপক: ५ প্রধান ভিশন এনকোডার এবং একাধিক পরিমাণীকরণ অ্যালগরিদম জুড়ে, ফলাফল প্রভাবশালী ५. ব্যবহারিক মূল্য: পুনঃপ্রশিক্ষণের প্রয়োজন নেই, বিদ্যমান পরিমাণীকরণ প্রবাহে সহজে একীভূত

অপূর্ণতা

१. সীমিত তাত্ত্বিক বিশ্লেষণ: মধ্য-স্তর প্রিফিক্স কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যা অভাব २. সুপারপ্যারামিটার সংবেদনশীলতা: পদ্ধতি একাধিক সুপারপ্যারামিটার জড়িত, বাস্তব স্থাপনার সুবিধা প্রভাবিত করতে পারে ३. গণনা ওভারহেড বিশ্লেষণ: যদিও FLOPs বৃদ্ধি ছোট, মেমরি ব্যবহার এবং বিলম্বের বিস্তারিত বিশ্লেষণ অভাব ४. প্রযোজ্য পরিসীমা: প্রধানত ViT আর্কিটেকচার যাচাই, অন্যান্য ভিশন Transformer আর্কিটেকচারের প্রযোজ্যতা অপর্যাপ্তভাবে যাচাই

প্রভাব

१. একাডেমিক অবদান: ভিশন এনকোডার পরিমাণীকরণ ক্ষেত্রে নতুন প্রযুক্তি পথ এবং তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে २. ব্যবহারিক মূল্য: বিদ্যমান ভিশন এনকোডার স্থাপনা অপ্টিমাইজেশনে সরাসরি প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, পরীক্ষা সেটআপ বিস্তারিত, ভাল পুনরুৎপাদনযোগ্যতা সহ ४. অনুপ্রেরণামূলক: ক্রস-মোডাল মডেল অপ্টিমাইজেশন প্রযুক্তি স্থানান্তরের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে

প্রযোজ্য পরিস্থিতি

१. এজ স্থাপনা: বিশেষত সম্পদ-সীমিত ডিভাইসে বড় আকারের ভিশন এনকোডার স্থাপনের প্রয়োজনীয় পরিস্থিতির জন্য উপযুক্ত २. রিয়েল-টাইম অ্যাপ্লিকেশন: স্বয়ংচালিত গাড়ি, রোবোট নিয়ন্ত্রণ ইত্যাদি কম বিলম্ব ভিজ্যুয়াল প্রক্রিয়াকরণ প্রয়োজনীয় অ্যাপ্লিকেশন ३. বহুমাধ্যম সিস্টেম: CLIP-শ্রেণীর মডেল বিভিন্ন ডাউনস্ট্রিম কাজে পরিমাণীকরণ স্থাপনা ४. গবেষণা সরঞ্জাম: ভিশন Transformer পরিমাণীকরণ গবেষণার জন্য কার্যকর বেসলাইন পদ্ধতি প্রদান করে

সংদর্ভ

এই পেপার পরিমাণীকরণ, মনোযোগ প্রক্রিয়া, ভিশন Transformer ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • CLIP, DINOv2 ইত্যাদি ভিশন এনকোডারের মূল পেপার
  • PTQ4ViT, RepQ-ViT ইত্যাদি ViT পরিমাণীকরণ পদ্ধতি
  • মনোযোগ সিঙ্ক এবং রেজিস্টার টোকেন সম্পর্কিত গবেষণা
  • LLM পরিমাণীকরণে আউটলায়ার প্রক্রিয়াকরণ পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি ভিশন এনকোডার পরিমাণীকরণ ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পেপার। লেখকরা শুধুমাত্র একটি কার্যকর প্রযুক্তিগত সমাধান প্রস্তাব করেননি, বরং ভিশন এনকোডার এবং ভাষা মডেলের আউটলায়ার আচরণের মৌলিক পার্থক্য গভীরভাবে বিশ্লেষণ করেছেন, যা এই ক্ষেত্রের উন্নয়নের জন্য মূল্যবান তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক সরঞ্জাম প্রদান করে।