Transformer-ভিত্তিক ভিশন এনকোডার -- যেমন CLIP -- বহুমাধ্যম বুদ্ধিমত্তার কেন্দ্রবিন্দু, যা স্বায়ত্তশাসিত ওয়েব এজেন্ট থেকে রোবোটিক নিয়ন্ত্রণ পর্যন্ত অ্যাপ্লিকেশনগুলিকে শক্তি প্রদান করে। যেহেতু এই অ্যাপ্লিকেশনগুলি প্রায়শই বিশাল ভিজ্যুয়াল ডেটার রিয়েল-টাইম প্রক্রিয়াকরণের দাবি করে, ভিশন এনকোডারের অনুমান খরচ কমানো গুরুত্বপূর্ণ। প্রশিক্ষণ-পরবর্তী পরিমাণীকরণ একটি ব্যবহারিক পথ অফার করে, কিন্তু বিশাল-স্কেল অ্যাক্টিভেশন (অর্থাৎ আউটলায়ার) এর কারণে এমনকি ৮-বিট নির্ভুলতায়ও চ্যালেঞ্জিং থাকে। এই কাজে, আমরা প্রস্তাব করি, ভিশন এনকোডারে আউটলায়ারগুলি হ্রাস করার জন্য একটি প্রশিক্ষণ-মুক্ত অ্যালগরিদম, যা উল্লেখযোগ্যভাবে ছোট নির্ভুলতা হ্রাসের সাথে পরিমাণীকরণ সক্ষম করে। প্রস্তাবিত RegCache লক্ষ্য ভিশন এনকোডারে আউটলায়ার-প্রবণ কিন্তু অর্থগতভাবে অর্থহীন প্রিফিক্স টোকেন প্রবর্তন করে, যা অন্যান্য টোকেনগুলিকে আউটলায়ার থাকা থেকে বাধা দেয়। উল্লেখযোগ্যভাবে, আমরা পর্যবেক্ষণ করি যে ভিশন এনকোডারে আউটলায়ারগুলি ভাষা মডেলগুলিতে যেভাবে আচরণ করে তা থেকে আলাদাভাবে আচরণ করে, যা দুটি প্রযুক্তিগত উদ্ভাবনকে অনুপ্রাণিত করে: মধ্য-স্তর প্রিফিক্সিং এবং টোকেন মুছে ফেলা। পরীক্ষাগুলি দেখায় যে আমাদের পদ্ধতি পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী উভয় ভিশন এনকোডার জুড়ে পরিমাণিত মডেলগুলির নির্ভুলতা ধারাবাহিকভাবে উন্নত করে।
এই গবেষণা Transformer-ভিত্তিক ভিশন এনকোডার (যেমন CLIP, DINOv2) এর প্রশিক্ষণ-পরবর্তী পরিমাণীকরণ (Post-training Quantization, PTQ) প্রক্রিয়ায় অ্যাক্টিভেশন আউটলায়ার সমস্যা সমাধানের লক্ষ্য রাখে। এই আউটলায়ারগুলি পরিমাণীকরণ নির্ভুলতা হ্রাস করে, এমনকি ৮-বিট নির্ভুলতায়ও মডেল কর্মক্ষমতা উল্লেখযোগ্যভাবে প্রভাবিত করে।
১. ব্যবহারিক প্রয়োজন: ভিশন এনকোডারগুলি স্বয়ংচালিত গাড়ি, রোবোট নিয়ন্ত্রণ ইত্যাদি এজ ডিভাইস অ্যাপ্লিকেশনে বিশাল ভিজ্যুয়াল ডেটা রিয়েল-টাইমে প্রক্রিয়া করার প্রয়োজন २. গণনা খরচ: সম্পদ-সীমিত ডিভাইসে বড় আকারের ভিশন মডেল স্থাপনের জন্য অনুমান খরচ কমানো অত্যন্ত গুরুত্বপূর্ণ ३. পরিমাণীকরণ চ্যালেঞ্জ: অ্যাক্টিভেশন পরিমাণীকরণ ওজন পরিমাণীকরণের চেয়ে আরও চ্যালেঞ্জিং, বিশেষত গণনা-সীমিত পরিস্থিতিতে
१. LLM পদ্ধতি প্রযোজ্য নয়: বড় ভাষা মডেলের জন্য বিদ্যমান আউটলায়ার প্রশমন কৌশলগুলির জন্য বিভিন্ন নির্ভুলতা বা পরিমাণীকরণ পরিসীমা প্রয়োজন, জটিল বাস্তবায়ন এবং বড় গণনা ওভারহেড সহ
२. স্ট্যাটিক পরিমাণীকরণ কঠিন: এই পদ্ধতিগুলি স্ট্যাটিক অ্যাক্টিভেশন পরিমাণীকরণে প্রয়োগ করা কঠিন
३. ভিশন এনকোডারের বিশেষত্ব: ভাষা মডেলের বিপরীতে, ভিশন এনকোডারগুলিতে পূর্বনির্ধারিত অর্থগতভাবে অর্থহীন টোকেন (যেমন <BOS>, <SEP>) অভাব রয়েছে
१. RegCache অ্যালগরিদম প্রস্তাব: একটি প্রশিক্ষণ-মুক্ত আউটলায়ার প্রশমন অ্যালগরিদম, যা প্রিফিক্স রেজিস্টার টোকেনের মাধ্যমে ভিশন এনকোডারে আউটলায়ার হ্রাস করে २. ভিশন এনকোডার আউটলায়ার বৈশিষ্ট্য আবিষ্কার: প্রমাণ করে যে ভিশন এনকোডারে আউটলায়ার আচরণ ভাষা মডেল থেকে উল্লেখযোগ্যভাবে আলাদা, আউটলায়ারগুলি প্রাথমিক স্তরের পরিবর্তে মধ্য-স্তরে প্রদর্শিত হয় ३. প্রযুক্তিগত উদ্ভাবন: মধ্য-স্তর প্রিফিক্সিং এবং টোকেন মুছে ফেলা দুটি মূল প্রযুক্তি প্রস্তাব করে ४. ব্যাপক যাচাইকরণ: একাধিক পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী ভিশন এনকোডারে পদ্ধতির কার্যকারিতা যাচাই করে
একটি প্রাক-প্রশিক্ষিত ভিশন এনকোডার দেওয়া, লক্ষ্য হল বাহ্যিক রেজিস্টার টোকেন প্রবর্তনের মাধ্যমে পরিমাণীকরণ-সংবেদনশীল স্তরে আউটলায়ার প্রশমিত করা, যা অনুমান দক্ষতা বজায় রেখে পরিমাণিত মডেলের নির্ভুলতা উন্নত করে।
পেপারটি তিনটি গুরুত্বপূর্ণ পর্যবেক্ষণের উপর ভিত্তি করে সমাধান প্রস্তাব করে:
१. স্তর-স্তরের পরিমাণীকরণ সংবেদনশীলতা: ভিশন এনকোডারের পরিমাণীকরণ সংবেদনশীলতা প্রাথমিক স্তরের পরিবর্তে প্রধানত মধ্য-স্তরে কেন্দ্রীভূত २. আউটলায়ার টোকেন সর্বজনীনতা: মধ্য-স্তরে প্রদর্শিত আউটলায়ার টোকেনগুলি বিভিন্ন ছবিতে উচ্চ সাদৃশ্য প্রদর্শন করে (কোসাইন সাদৃশ্য ০.৮৯ বনাম ০.२६) ३. মধ্য-স্তর উপস্থিতি প্রক্রিয়া: ভিশন এনকোডারগুলি কোন টোকেনগুলি অর্থগতভাবে অর্থহীন তা চিহ্নিত করার জন্য প্রথম কয়েকটি স্তর প্রক্রিয়া করার প্রয়োজন
RegCache তিনটি প্রধান পদক্ষেপ নিয়ে গঠিত:
S = argtopk{||z||∞ | z ∈ Φlq(x), for some x ∈ Iref}
(z*, τ*) = argmax{accref(z,τ) | z ∈ S, τ ∈ {1,...,15}}
D = argtopk̃{||z||∞ | z ∈ Φlq(xtest)}
१. মধ্য-স্তর প্রিফিক্স কৌশল: LLM এর প্রাথমিক-স্তর প্রিফিক্সের বিপরীতে, ভিশন এনকোডারের মধ্য-স্তর বৈশিষ্ট্যের জন্য ডিজাইন করা २. সর্বজনীন রেজিস্টার আবিষ্কার: বিভিন্ন ছবিতে আউটলায়ার টোকেনের সাদৃশ্য ব্যবহার করে, সর্বজনীন রেজিস্টার তৈরি করুন ३. যোগ-মুছে ফেলা প্রক্রিয়া: অভ্যন্তরীণভাবে প্রদর্শিত সিঙ্ক টোকেনগুলি বাহ্যিক পূর্ব-গণনা করা ক্যাশ দিয়ে প্রতিস্থাপন করুন, অ্যাক্টিভেশন পরিমাণীকরণ পরিসীমা প্রভাবিত করা এড়ান
| মডেল | নির্ভুলতা | বেসলাইন সেরা | RegCache সেরা | উন্নতি |
|---|---|---|---|---|
| CLIP-B/16 | W8A8 | 67.69% | 67.78% | +0.09% |
| CLIP-B/16 | W6A6 | 58.19% | 66.65% | +13.40% |
| SigLIP2-B/16 | W8A8 | 76.92% | 77.26% | +0.34% |
| SigLIP2-B/16 | W6A6 | 64.91% | 70.88% | +5.97% |
| মডেল | সর্বোচ্চ টোকেন নর্ম (মূল) | সর্বোচ্চ টোকেন নর্ম (RegCache) | হ্রাস অনুপাত |
|---|---|---|---|
| CLIP | 61.17 | 15.30 | -75.0% |
| OpenCLIP | 122.99 | 12.38 | -89.9% |
| SigLIP2 | 244.78 | 30.45 | -87.6% |
SigLIP এ বিলোপন অধ্যয়ন দেখায়:
ImageNet-1k এ অনুসন্ধান করা প্রিফিক্সগুলি অন্যান্য ডেটাসেটে এখনও কার্যকর:
<BOS>, <SEP>)१. RegCache কার্যকারিতা: একাধিক ভিশন এনকোডার এবং পরিমাণীকরণ পদ্ধতি জুড়ে ধারাবাহিক কর্মক্ষমতা উন্নতি २. আউটলায়ার প্রশমন প্রক্রিয়া: অভ্যন্তরীণ টোকেন থেকে বাহ্যিক পূর্ব-গণনা করা ক্যাশে আউটলায়ার সফলভাবে স্থানান্তর ३. সর্বজনীনতা: পাঠ্য-তত্ত্বাবধানী এবং স্ব-তত্ত্বাবধানী ভিশন এনকোডার উভয়ের জন্য পদ্ধতি প্রযোজ্য
१. সুপারপ্যারামিটার টিউনিং: সর্বোত্তম কনফিগারেশন নির্ধারণের জন্য একাধিক প্রিফিক্স প্রার্থী মূল্যায়ন প্রয়োজন २. অতিরিক্ত সুপারপ্যারামিটার: সর্বোচ্চ মুছে ফেলা টোকেন সংখ্যা, প্রিফিক্স টোকেন সংখ্যা ইত্যাদি প্রবর্তন করে ३. গণনা ওভারহেড: যদিও FLOPs বৃদ্ধি ०.२% অতিক্রম করে না, তবুও অতিরিক্ত গণনা খরচ রয়েছে
१. বহুমাধ্যম পার্থক্য গবেষণা: পাঠ্য-তত্ত্বাবধানী বনাম স্ব-তত্ত্বাবধানী মডেলের পরিমাণীকরণ আচরণ পার্থক্য গভীরভাবে বুঝুন २. আউটলায়ার প্রক্রিয়া বোঝা: ViT এবং LLM আউটলায়ার আচরণ পার্থক্যের মূল কারণ আরও গবেষণা করুন ३. স্বয়ংক্রিয় অপ্টিমাইজেশন: সর্বোত্তম প্রিফিক্স কনফিগারেশন স্বয়ংক্রিয়ভাবে নির্ধারণের পদ্ধতি বিকাশ করুন
१. সমস্যা গুরুত্ব: ভিশন এনকোডার পরিমাণীকরণে মূল প্রযুক্তিগত চ্যালেঞ্জ সমাধান করে २. পদ্ধতি উদ্ভাবন: প্রথমবারের মতো রেজিস্টার ধারণা ভিশন এনকোডার পরিমাণীকরণে প্রবর্তন, উপন্যাস প্রযুক্তি পথ ३. তাত্ত্বিক অন্তর্দৃষ্টি: ভিশন এনকোডার এবং LLM আউটলায়ার আচরণের মৌলিক পার্থক্য গভীর বিশ্লেষণ ४. পরীক্ষা ব্যাপক: ५ প্রধান ভিশন এনকোডার এবং একাধিক পরিমাণীকরণ অ্যালগরিদম জুড়ে, ফলাফল প্রভাবশালী ५. ব্যবহারিক মূল্য: পুনঃপ্রশিক্ষণের প্রয়োজন নেই, বিদ্যমান পরিমাণীকরণ প্রবাহে সহজে একীভূত
१. সীমিত তাত্ত্বিক বিশ্লেষণ: মধ্য-স্তর প্রিফিক্স কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যা অভাব २. সুপারপ্যারামিটার সংবেদনশীলতা: পদ্ধতি একাধিক সুপারপ্যারামিটার জড়িত, বাস্তব স্থাপনার সুবিধা প্রভাবিত করতে পারে ३. গণনা ওভারহেড বিশ্লেষণ: যদিও FLOPs বৃদ্ধি ছোট, মেমরি ব্যবহার এবং বিলম্বের বিস্তারিত বিশ্লেষণ অভাব ४. প্রযোজ্য পরিসীমা: প্রধানত ViT আর্কিটেকচার যাচাই, অন্যান্য ভিশন Transformer আর্কিটেকচারের প্রযোজ্যতা অপর্যাপ্তভাবে যাচাই
१. একাডেমিক অবদান: ভিশন এনকোডার পরিমাণীকরণ ক্ষেত্রে নতুন প্রযুক্তি পথ এবং তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে २. ব্যবহারিক মূল্য: বিদ্যমান ভিশন এনকোডার স্থাপনা অপ্টিমাইজেশনে সরাসরি প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, পরীক্ষা সেটআপ বিস্তারিত, ভাল পুনরুৎপাদনযোগ্যতা সহ ४. অনুপ্রেরণামূলক: ক্রস-মোডাল মডেল অপ্টিমাইজেশন প্রযুক্তি স্থানান্তরের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে
१. এজ স্থাপনা: বিশেষত সম্পদ-সীমিত ডিভাইসে বড় আকারের ভিশন এনকোডার স্থাপনের প্রয়োজনীয় পরিস্থিতির জন্য উপযুক্ত २. রিয়েল-টাইম অ্যাপ্লিকেশন: স্বয়ংচালিত গাড়ি, রোবোট নিয়ন্ত্রণ ইত্যাদি কম বিলম্ব ভিজ্যুয়াল প্রক্রিয়াকরণ প্রয়োজনীয় অ্যাপ্লিকেশন ३. বহুমাধ্যম সিস্টেম: CLIP-শ্রেণীর মডেল বিভিন্ন ডাউনস্ট্রিম কাজে পরিমাণীকরণ স্থাপনা ४. গবেষণা সরঞ্জাম: ভিশন Transformer পরিমাণীকরণ গবেষণার জন্য কার্যকর বেসলাইন পদ্ধতি প্রদান করে
এই পেপার পরিমাণীকরণ, মনোযোগ প্রক্রিয়া, ভিশন Transformer ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি ভিশন এনকোডার পরিমাণীকরণ ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পেপার। লেখকরা শুধুমাত্র একটি কার্যকর প্রযুক্তিগত সমাধান প্রস্তাব করেননি, বরং ভিশন এনকোডার এবং ভাষা মডেলের আউটলায়ার আচরণের মৌলিক পার্থক্য গভীরভাবে বিশ্লেষণ করেছেন, যা এই ক্ষেত্রের উন্নয়নের জন্য মূল্যবান তাত্ত্বিক অন্তর্দৃষ্টি এবং ব্যবহারিক সরঞ্জাম প্রদান করে।