Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- পেপার আইডি: 2507.01738
- শিরোনাম: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- লেখক: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- প্রতিষ্ঠান: Southeast University, Baidu VIS, Stanford University
- শ্রেণীবিভাগ: cs.CV
- প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv v2)
- পেপার লিংক: https://arxiv.org/abs/2507.01738v2
রেফারিং ইমেজ সেগমেন্টেশন (RIS) একটি চ্যালেঞ্জিং কাজ যা প্রাকৃতিক ভাষার অভিব্যক্তির উপর ভিত্তি করে ছবিতে লক্ষ্য বস্তু সেগমেন্ট করার লক্ষ্য রাখে। যদিও পূর্ববর্তী গবেষণা প্রধানত দৃষ্টি-ভাষা মিথস্ক্রিয়া উন্নত করা এবং সূক্ষ্ম-দানাদার স্থানীয়করণ অর্জনের উপর দৃষ্টি নিবদ্ধ করেছে, তবে বিদ্যমান RIS কাঠামোতে মৌলিক বাধাগুলির সিস্টেমেটিক বিশ্লেষণ অপর্যাপ্ত রয়েছে। এই ফাঁক পূরণের জন্য, এই পেপারটি DeRIS প্রস্তাব করে, একটি নতুন কাঠামো যা RIS কে দুটি মূল উপাদানে বিভক্ত করে: উপলব্ধি (perception) এবং জ্ঞান (cognition)। এই মডুলার বিচ্ছিন্নকরণ RIS কর্মক্ষমতা বাধাগ্রস্ত করে এমন প্রধান বাধাগুলির সিস্টেমেটিক বিশ্লেষণ সহজতর করে। গবেষণা দেখায় যে প্রধান সীমাবদ্ধতা উপলব্ধি ত্রুটিতে নয় বরং বর্তমান মডেলের অপর্যাপ্ত মাল্টিমোডাল জ্ঞান ক্ষমতায় রয়েছে। এই সমস্যা সমাধানের জন্য, লুপব্যাক সিনার্জি (Loopback Synergy) প্রক্রিয়া প্রস্তাব করা হয়েছে, যা উপলব্ধি এবং জ্ঞান মডিউলগুলির মধ্যে সহযোগিতা বৃদ্ধি করে, যার ফলে নির্ভুল সেগমেন্টেশন এবং একই সাথে শক্তিশালী ইমেজ-টেক্সট বোঝাপড়া উন্নত হয়।
রেফারিং ইমেজ সেগমেন্টেশন (RIS) মডেলকে প্রাকৃতিক ভাষার বর্ণনার উপর ভিত্তি করে ছবিতে সংশ্লিষ্ট লক্ষ্য বস্তু নির্ভুলভাবে সেগমেন্ট করার প্রয়োজন। ঐতিহ্যবাহী সেগমেন্টেশন কাজের বিপরীতে, RIS ভাষার অভিব্যক্তি এবং ভিজ্যুয়াল সামগ্রীর মধ্যে সংযোগের গভীর বোঝাপড়া প্রয়োজন, যা আরও বেশি নমনীয়তা কিন্তু আরও চ্যালেঞ্জিং।
লেখক বিদ্যমান RIS পদ্ধতিগুলিকে দুটি বিভাগে বিভক্ত করেন:
- উপলব্ধি-কেন্দ্রিক পদ্ধতি (Perception-centric): স্তরযুক্ত ব্যাকবোন নেটওয়ার্কের উপর নির্ভর করে সূক্ষ্ম-দানাদার স্থানিক তথ্য সংরক্ষণ করে, কিন্তু ডাউনস্ট্রিম ডেটাসেটের সীমিত বৈচিত্র্যের কারণে, মাল্টিমোডাল ফিউশন মডিউলের সামগ্রী জ্ঞান ক্ষমতা দুর্বল
- জ্ঞান-কেন্দ্রিক পদ্ধতি (Cognition-centric): বৃহৎ-স্কেল দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণ মডেল ব্যবহার করে মাল্টিমোডাল বোঝাপড়া বৃদ্ধি করে, কিন্তু Transformer স্থাপত্যের দ্বিঘাত গণনামূলক জটিলতার কারণে, উচ্চ-রেজোলিউশন ইনপুটে সূক্ষ্ম-দানাদার স্থানিক তথ্য হারিয়ে যায়
বিদ্যমান পদ্ধতিগুলি উপলব্ধি ক্ষমতা এবং জ্ঞান ক্ষমতার মধ্যে একটি ভারসাম্য সমস্যা উপস্থাপন করে। এই পেপারটি বিশ্বাস করে যে RIS কাজ মূলত দুটি মূল মাত্রা জড়িত: উপলব্ধি (অগ্রভাগ বস্তু সঠিকভাবে স্থানীয়করণ) এবং জ্ঞান (পাঠ্য এবং ভিজ্যুয়াল সামগ্রীর ব্যাপক বোঝাপড়া), তাই এই দুটি উপাদান বিচ্ছিন্ন করা এবং কার্যকরভাবে একীভূত করার প্রস্তাব করে।
- DeRIS কাঠামো প্রস্তাব: প্রথম কাঠামো যা RIS কাজকে স্পষ্টভাবে উপলব্ধি এবং জ্ঞান উপাদানে বিচ্ছিন্ন করে, উভয়ের সুবিধা নির্বিঘ্নে একীভূত করে উচ্চ-নির্ভুলতা উপলব্ধি স্থানীয়করণ এবং শক্তিশালী মাল্টিমোডাল প্রসঙ্গ বোঝাপড়া অর্জন করে
- RIS বাধা গভীর বিশ্লেষণ: সিস্টেমেটিক বিশ্লেষণের মাধ্যমে আবিষ্কার করে যে জ্ঞান ক্ষমতা নয় উপলব্ধি ক্ষমতা RIS এর প্রধান বাধা, এবং লুপব্যাক সিনার্জি প্রক্রিয়া প্রস্তাব করে যা উপলব্ধি এবং জ্ঞান মডিউলগুলির মধ্যে ক্রমবর্ধমান মিথস্ক্রিয়া প্রচার করে
- অ-রেফারিং নমুনা রূপান্তর কৌশল: সহজ এবং কার্যকর ডেটা বর্ধন কৌশল বিকাশ করে, প্রশিক্ষণ অস্থিরতা হ্রাস করে এবং মডেল সাধারণীকরণ ক্ষমতা বৃদ্ধি করে, দীর্ঘ-লেজ বিতরণ চ্যালেঞ্জ সমাধান করে
- SOTA কর্মক্ষমতা: RefCOCO/+/g এবং gRefCOCO ডেটাসেটে নতুন অত্যাধুনিক কর্মক্ষমতা অর্জন করে
ছবি I এবং প্রাকৃতিক ভাষার অভিব্যক্তি T দেওয়া, RIS কাজ নিম্নলিখিত আউটপুট প্রয়োজন:
- সেগমেন্টেশন মাস্ক Pm: লক্ষ্য বস্তুর পিক্সেল-স্তরের অবস্থান নির্দেশ করে
- রেফারিং শ্রেণীবিভাগ Pref: প্রতিটি প্রার্থী অঞ্চল লক্ষ্য কিনা তা নির্ধারণ করে
- অ-রেফারিং বিচার Pnr: বর্ণিত বস্তু ছবিতে বিদ্যমান কিনা তা নির্ধারণ করে
DeRIS তিনটি প্রধান উপাদান নিয়ে গঠিত:
- উপলব্ধি শাখা: উচ্চ-রেজোলিউশন ছবি (384×384) প্রক্রিয়া করতে স্তরযুক্ত এনকোডার ব্যবহার করে, সূক্ষ্ম-দানাদার ভিজ্যুয়াল প্রতিনিধিত্ব সংরক্ষণ করে
- জ্ঞান শাখা: নিম্ন-রেজোলিউশন ছবি (224×224) এবং পাঠ্য প্রক্রিয়া করতে BEiT3 প্রাক-প্রশিক্ষণ মডেল ব্যবহার করে, শব্দার্থিক বোঝাপড়ায় মনোনিবেশ করে
- লুপব্যাক সিনার্জি প্রক্রিয়া: উপলব্ধি এবং জ্ঞান শাখার মধ্যে শক্তিশালী মিথস্ক্রিয়া প্রতিষ্ঠা করে
প্রতিটি মিথস্ক্রিয়া রাউন্ড জ্ঞান স্তর এবং উপলব্ধি স্তর অন্তর্ভুক্ত করে:
উপলব্ধি স্তর:
- প্রাথমিক প্রশ্ন Qi পরিবর্তনযোগ্য ক্রস-মনোযোগের মাধ্যমে বহু-স্কেল বৈশিষ্ট্যের সাথে মিথস্ক্রিয়া করে
- স্ব-মনোযোগ উদাহরণ-মধ্যে সম্পর্ক প্রতিষ্ঠা করে, আউটপুট Qp উৎপাদন করে
- মাস্ক পূর্বাভাস: Mp=Qp⋅fm, যেখানে fm=Conv(Concat(fh4,fv))
জ্ঞান স্তর:
- উদাহরণ-উদাহরণ সম্পর্ক: fs=AvgPool(fm×σ(Mp))
- উদাহরণ-পাঠ্য সম্পর্ক: Qc=Attn(Qp′,ft,ft)
- আত্মবিশ্বাস স্কোর: Sr=MLP(Qc)
প্রশ্ন ফিউশন:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
gRefCOCO ডেটাসেটে অ-রেফারিং নমুনা মাত্র 9% দীর্ঘ-লেজ বিতরণ সমস্যা সমাধানের জন্য, তিন-স্তরীয় ফিল্টারিং কৌশল প্রস্তাব করা হয়:
- নির্বাচিত বাক্যের সাথে সংশ্লিষ্ট ছবি বর্তমান ছবির সাথে অসামঞ্জস্যপূর্ণ
- বাক্যের দৈর্ঘ্য থ্রেশহোল্ড Nw এর চেয়ে বড়
- বাক্য সাদৃশ্য থ্রেশহোল্ড Ts এর নিচে
সাদৃশ্য গণনা:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
মোট ক্ষতি ফাংশন:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
যেখানে সেগমেন্টেশন ক্ষতি (BCE+Dice), রেফারিং শ্রেণীবিভাগ ক্ষতি (BCE) এবং অ-রেফারিং বিচার ক্ষতি (BCE) অন্তর্ভুক্ত।
- RefCOCO/+/g: মানক RIS বেঞ্চমার্ক ডেটাসেট
- gRefCOCO: সাধারণীকৃত রেফারিং অভিব্যক্তি সেগমেন্টেশন ডেটাসেট, বহু-রেফারিং এবং অ-রেফারিং পরিস্থিতি সমর্থন করে
- mIoU/cIoU/oIoU: ইন্টারসেকশন-ওভার-ইউনিয়ন মেট্রিক্স
- gIoU: সাধারণীকৃত ইন্টারসেকশন-ওভার-ইউনিয়ন
- N-acc: অ-রেফারিং নির্ভুলতা
- Pr@0.9: উচ্চ নির্ভুলতা থ্রেশহোল্ডে নির্ভুলতা
- উপলব্ধি শাখা: Mask2Former প্রাক-প্রশিক্ষণ ওজন, ইনপুট রেজোলিউশন 384×384
- জ্ঞান শাখা: BEiT3 প্রাক-প্রশিক্ষণ ওজন, ইনপুট রেজোলিউশন 224×224
- লুপব্যাক রাউন্ড: 3 রাউন্ড
- রূপান্তর সম্ভাবনা: Rc=15%
- প্রশিক্ষণ কৌশল: AdamW অপ্টিমাইজার, শেখার হার 1e-4
RefCOCO যাচাইকরণ সেটে, DeRIS-L OneRef-L এর তুলনায় 4.46% mIoU উন্নতি:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-L সমস্ত মেট্রিক্সে বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল:
- Val সেট cIoU: 72.00% vs 64.20% (HieA2G)
- N-acc মেট্রিক্স উন্নতি বিশেষভাবে উল্লেখযোগ্য: 82.22% vs 62.80%
মূল আবিষ্কার: জ্ঞান ক্ষমতা RIS এর প্রধান বাধা
- জ্ঞান মডেল BERT-B থেকে BEiT3-L এ আপগ্রেড: cIoU 12.88% উন্নতি
- উপলব্ধি মডেল Swin-S থেকে Swin-B এ আপগ্রেড: cIoU মাত্র 1.20% উন্নতি
বিভিন্ন সংযোগ কাঠামো তুলনা:
- P-to-C (ভিত্তি): gIoU 69.98%
- লুপব্যাক সিনার্জি: gIoU 71.37% (+1.39%)
- প্রশিক্ষণ সময় মূলত অপরিবর্তিত
- NSC ছাড়া: N-acc 60.19%
- NSC সহ: N-acc 79.25% (+19.06%)
- প্রশিক্ষণ স্থিতিশীলতা উল্লেখযোগ্যভাবে উন্নত
বিশুদ্ধ জ্ঞান-কেন্দ্রিক পদ্ধতির তুলনায়, DeRIS উচ্চ-রেজোলিউশনে উচ্চ দক্ষতা বজায় রাখে:
- 384 রেজোলিউশনে অনুমান সময় মাত্র 19% বৃদ্ধি
- Pr@0.9 মেট্রিক্স 14.41% উন্নতি
- উপলব্ধি-কেন্দ্রিক পদ্ধতি:
- পরবর্তী-ফিউশন পদ্ধতি: বৈশিষ্ট্য নিষ্কাশনের পরে দৃষ্টি-ভাষা ফিউশন
- প্রাথমিক-ফিউশন পদ্ধতি: বৈশিষ্ট্য নিষ্কাশন প্রক্রিয়ায় মাল্টিমোডাল তথ্য একীভূত করা
- জ্ঞান-কেন্দ্রিক পদ্ধতি:
- জ্ঞান ক্ষমতা বৃদ্ধির জন্য প্রাক-প্রশিক্ষণ দৃষ্টি-ভাষা মডেল ব্যবহার করা
- একক-প্রবাহ, দ্বি-প্রবাহ, ফিউশন এনকোডার এবং MLLM পদ্ধতি অন্তর্ভুক্ত
বিদ্যমান কাজের তুলনায়, DeRIS প্রথমবারের মতো সিস্টেমেটিকভাবে উপলব্ধি এবং জ্ঞানের ভূমিকা বিচ্ছিন্ন এবং বিশ্লেষণ করে, নতুন স্থাপত্য ডিজাইন প্যারাডাইম প্রদান করে।
- জ্ঞান বাধা আবিষ্কার: সিস্টেমেটিক বিশ্লেষণ প্রমাণ করে যে জ্ঞান ক্ষমতা নয় উপলব্ধি ক্ষমতা বর্তমান RIS এর প্রধান সীমাবদ্ধতা
- কার্যকর স্থাপত্য ডিজাইন: লুপব্যাক সিনার্জি প্রক্রিয়া সফলভাবে উপলব্ধি এবং জ্ঞান সুবিধা একীভূত করে
- ডেটা বর্ধন মূল্য: NSC কৌশল কার্যকরভাবে অ-রেফারিং নমুনা স্বল্পতা সমস্যা সমাধান করে
- গণনামূলক খরচ: দ্বি-শাখা স্থাপত্য নির্দিষ্ট গণনামূলক খরচ যোগ করে
- হাইপারপ্যারামিটার সংবেদনশীলতা: লুপব্যাক রাউন্ড, রূপান্তর সম্ভাবনা ইত্যাদি হাইপারপ্যারামিটার সাবধানে সমন্বয় প্রয়োজন
- ডেটা নির্ভরতা: NSC কৌশলের কার্যকারিতা ডেটাসেটের বৈচিত্র্যের উপর নির্ভর করে
- আরও দক্ষ উপলব্ধি-জ্ঞান মিথস্ক্রিয়া প্রক্রিয়া অন্বেষণ করা
- স্ব-অভিযোজিত অ-রেফারিং নমুনা উৎপাদন কৌশল গবেষণা করা
- আরও জটিল মাল্টিমোডাল বোঝাপড়া কাজে সম্প্রসারণ করা
- উদ্ভাবনী স্থাপত্য: বিচ্ছিন্নকরণ ডিজাইন নতুন গবেষণা দৃষ্টিভঙ্গি প্রদান করে, RIS এর মূল বাধা সিস্টেমেটিকভাবে বিশ্লেষণ করে
- পর্যাপ্ত পরীক্ষামূলক যাচাইকরণ: বিস্তৃত অ্যাবলেশন পরীক্ষা প্রতিটি উপাদানের কার্যকারিতা প্রমাণ করে
- উচ্চ ব্যবহারিক মূল্য: একাধিক বেঞ্চমার্ক ডেটাসেটে SOTA কর্মক্ষমতা অর্জন করে
- গভীর বিশ্লেষণ: পরিমাণগত এবং গুণগত বিশ্লেষণ একত্রিত করে, মূল্যবান অন্তর্দৃষ্টি প্রদান করে
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: লুপব্যাক সিনার্জি প্রক্রিয়ার তাত্ত্বিক সংগ্রহযোগ্যতা বিশ্লেষণের অভাব
- সাধারণীকরণ যাচাইকরণ: প্রধানত মানক ডেটাসেটে যাচাইকরণ, ক্রস-ডোমেইন সাধারণীকরণ পরীক্ষার অভাব
- দক্ষতা অপ্টিমাইজেশন স্থান: দ্বি-শাখা ডিজাইনের গণনামূলক দক্ষতা এখনও অপ্টিমাইজেশন স্থান রয়েছে
- একাডেমিক অবদান: RIS ক্ষেত্রে নতুন স্থাপত্য ডিজাইন প্যারাডাইম প্রদান করে
- ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং কার্যকর, পুনরুৎপাদন এবং প্রয়োগ সহজ
- অনুপ্রেরণামূলক তাৎপর্য: বিচ্ছিন্নকরণ ধারণা অন্যান্য মাল্টিমোডাল কাজে সম্প্রসারিত করা যায়
DeRIS বিশেষভাবে উপযুক্ত:
- উচ্চ-নির্ভুলতা সেগমেন্টেশন প্রয়োজনীয় অ্যাপ্লিকেশন পরিস্থিতি
- জটিল ভাষা বর্ণনা বোঝাপড়া কাজ
- অ-রেফারিং এবং বহু-রেফারিং সাধারণীকৃত পরিস্থিতি
- অনুমান দক্ষতার জন্য নির্দিষ্ট প্রয়োজনীয়তা সহ ব্যবহারিক প্রয়োগ
পেপারটি 75টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা RIS, দৃষ্টি-ভাষা বোঝাপড়া, উদাহরণ সেগমেন্টেশন এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।