Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
বিস্তারিত ধরা: সূক্ষ্ম-দানাদার MLLM উপলব্ধির জন্য স্ব-পরিশোধিত RoI পূর্বাভাসক
বহুমোডাল বৃহৎ ভাষা মডেল (MLLMs) সূক্ষ্ম-দানাদার উপলব্ধি কাজ সম্পাদনের জন্য উচ্চ-রেজোলিউশন ভিজ্যুয়াল তথ্যের প্রয়োজন, কিন্তু সম্পূর্ণ উচ্চ-রেজোলিউশন চিত্র প্রক্রিয়াকরণ গণনাগতভাবে নিষিদ্ধ। যদিও সাম্প্রতিক পদ্ধতিগুলি আগ্রহের অঞ্চল (RoI) প্রক্রিয়া ব্যবহার করে উল্লেখযোগ্য অঞ্চলগুলিতে মনোনিবেশ করে, তবে তারা সাধারণত কঠিন ট্রেড-অফের সম্মুখীন হয়: প্রশিক্ষণ-ভিত্তিক পদ্ধতিগুলি বড় আকারের টীকাকৃত ডেটাসেটের উপর নির্ভর করে, যখন মডেলের অভ্যন্তরীণ মনোযোগ ব্যবহার করে প্রশিক্ষণ-মুক্ত পদ্ধতিগুলি গণনাগতভাবে অদক্ষ এবং নির্ভুলতা খারাপ, একাধিক পূর্ব-পূরণ পর্যায় বা ধীর স্বয়ংক্রিয় রিগ্রেসিভ ডিকোডিং প্রক্রিয়ার উপর নির্ভর করে। এই নিবন্ধটি এই ট্রেড-অফ সমাধানের জন্য একটি দক্ষ, টীকা-মুক্ত স্ব-পরিশোধিত অঞ্চল প্রস্তাব নেটওয়ার্ক (SD-RPN) প্রস্তাব করে। SD-RPN একটি পাইপলাইনের উপর নির্মিত যা স্পষ্ট ডিনোইজিং সংকেত এবং অস্পষ্টতা সমাধানের মাধ্যমে MLLM মধ্যবর্তী স্তরের শব্দযুক্ত মনোযোগ মানচিত্রগুলিকে উচ্চ-মানের সিউডো RoI লেবেলে রূপান্তরিত করে। আমরা এই লেবেলগুলি ব্যবহার করে একটি হালকা-ওজনের অঞ্চল প্রস্তাব নেটওয়ার্ক (RPN) প্রশিক্ষণ দিই, আরও নির্ভুল স্থানীয়করণ শিখি। এই RPN অত্যন্ত দক্ষ, MLLM মধ্যবর্তী স্তরের বৈশিষ্ট্যগুলি ব্যবহার করে একক ফরওয়ার্ড পাস-এ RoI পূর্বাভাস দেয়, RoI স্বীকৃতিকে স্বয়ংক্রিয় রিগ্রেসিভ প্রজন্ম থেকে আলাদা করে, ব্যয়বহুল একাধিক অপারেশন এড়ায়।
মূল সমস্যা: MLLMs সূক্ষ্ম-দানাদার ভিজ্যুয়াল উপলব্ধি প্রয়োজন এমন কাজ পরিচালনা করার সময় গণনাগত দক্ষতা এবং কর্মক্ষমতার মধ্যে ট্রেড-অফের সম্মুখীন হয়
নির্দিষ্ট চ্যালেঞ্জ:
সম্পূর্ণ উচ্চ-রেজোলিউশন চিত্র প্রক্রিয়াকরণের গণনা খরচ অত্যধিক
বিদ্যমান RoI পদ্ধতিগুলির সীমাবদ্ধতা রয়েছে: প্রশিক্ষণ পদ্ধতিগুলির জন্য প্রচুর টীকাকৃত ডেটা প্রয়োজন, প্রশিক্ষণ-মুক্ত পদ্ধতিগুলি অদক্ষ এবং নির্ভুলতা খারাপ
একাধিক ফরওয়ার্ড পাস বা ধীর স্বয়ংক্রিয় রিগ্রেসিভ ডিকোডিং প্রয়োজন
SD-RPN ফ্রেমওয়ার্ক প্রস্তাব: একটি দক্ষ, টীকা-মুক্ত স্ব-পরিশোধিত অঞ্চল প্রস্তাব নেটওয়ার্ক যা প্রশিক্ষণ পদ্ধতি এবং প্রশিক্ষণ-মুক্ত পদ্ধতির মধ্যে ট্রেড-অফ সমাধান করে
সিউডো লেবেল প্রজন্ম পাইপলাইন ডিজাইন: শব্দযুক্ত মনোযোগ মানচিত্রগুলিকে উচ্চ-মানের তত্ত্বাবধান সংকেতে রূপান্তরিত করে, ডিনোইজিং এবং লেবেল বরাদ্দ কৌশল অন্তর্ভুক্ত
দক্ষ RoI পূর্বাভাস বাস্তবায়ন: হালকা-ওজনের RPN একক ফরওয়ার্ড পাস-এ RoI পূর্বাভাস দেয়, একাধিক অপারেশন এবং স্বয়ংক্রিয় রিগ্রেসিভ নির্ভরতা এড়ায়
বিস্তৃত প্রযোজ্যতা যাচাই: একাধিক MLLM পরিবারে যাচাই করা, মাত্র 10K নমুনা প্রশিক্ষণ সহ একাধিক বেঞ্চমার্কে 10% এর বেশি পরম নির্ভুলতা উন্নতি অর্জন করে
তাত্ত্বিক বিশ্লেষণ প্রদান: তাত্ত্বিক দৃষ্টিকোণ থেকে ব্যাখ্যা করে কেন RoI লেবেল পূর্বাভাস দেওয়া শেখা কাঁচা মনোযোগ মানচিত্র সরাসরি ব্যবহারের চেয়ে ভাল
পেপারটি সম্পর্কিত কাজের প্রচুর উদ্ধৃতি অন্তর্ভুক্ত করে, প্রধানত:
LLaVA সিরিজ বহুমোডাল বৃহৎ ভাষা মডেল
CLIP ইত্যাদি ভিজ্যুয়াল-ভাষা প্রাক-প্রশিক্ষণ মডেল
জ্ঞান পরিশোধন এবং স্ব-পরিশোধন সম্পর্কিত গবেষণা
ভিজ্যুয়াল মনোযোগ প্রক্রিয়া এবং অঞ্চল প্রস্তাব নেটওয়ার্ক গবেষণা
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের কম্পিউটার দৃষ্টি পেপার যা MLLMs সূক্ষ্ম-দানাদার উপলব্ধির দক্ষতা সমস্যা সমাধানের জন্য উদ্ভাবনী SD-RPN ফ্রেমওয়ার্ক প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা ব্যাপক, উচ্চ ব্যবহারিক মূল্য রয়েছে। পেপারটি প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ফলাফল বিশ্লেষণে চমৎকার কর্মক্ষমতা প্রদর্শন করে এবং MLLMs ভিজ্যুয়াল উপলব্ধি ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি।