2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: লুপব্যাক সিনার্জির মাধ্যমে উন্নত রেফারিং ইমেজ সেগমেন্টেশনের জন্য উপলব্ধি এবং জ্ঞান বিচ্ছিন্নকরণ

মৌলিক তথ্য

পেপার আইডি: 2507.01738
শিরোনাম: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
লেখক: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
প্রতিষ্ঠান: Southeast University, Baidu VIS, Stanford University
শ্রেণীবিভাগ: cs.CV
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv v2)
পেপার লিংক: https://arxiv.org/abs/2507.01738v2

সারসংক্ষেপ

রেফারিং ইমেজ সেগমেন্টেশন (RIS) একটি চ্যালেঞ্জিং কাজ যা প্রাকৃতিক ভাষার অভিব্যক্তির উপর ভিত্তি করে ছবিতে লক্ষ্য বস্তু সেগমেন্ট করার লক্ষ্য রাখে। যদিও পূর্ববর্তী গবেষণা প্রধানত দৃষ্টি-ভাষা মিথস্ক্রিয়া উন্নত করা এবং সূক্ষ্ম-দানাদার স্থানীয়করণ অর্জনের উপর দৃষ্টি নিবদ্ধ করেছে, তবে বিদ্যমান RIS কাঠামোতে মৌলিক বাধাগুলির সিস্টেমেটিক বিশ্লেষণ অপর্যাপ্ত রয়েছে। এই ফাঁক পূরণের জন্য, এই পেপারটি DeRIS প্রস্তাব করে, একটি নতুন কাঠামো যা RIS কে দুটি মূল উপাদানে বিভক্ত করে: উপলব্ধি (perception) এবং জ্ঞান (cognition)। এই মডুলার বিচ্ছিন্নকরণ RIS কর্মক্ষমতা বাধাগ্রস্ত করে এমন প্রধান বাধাগুলির সিস্টেমেটিক বিশ্লেষণ সহজতর করে। গবেষণা দেখায় যে প্রধান সীমাবদ্ধতা উপলব্ধি ত্রুটিতে নয় বরং বর্তমান মডেলের অপর্যাপ্ত মাল্টিমোডাল জ্ঞান ক্ষমতায় রয়েছে। এই সমস্যা সমাধানের জন্য, লুপব্যাক সিনার্জি (Loopback Synergy) প্রক্রিয়া প্রস্তাব করা হয়েছে, যা উপলব্ধি এবং জ্ঞান মডিউলগুলির মধ্যে সহযোগিতা বৃদ্ধি করে, যার ফলে নির্ভুল সেগমেন্টেশন এবং একই সাথে শক্তিশালী ইমেজ-টেক্সট বোঝাপড়া উন্নত হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

রেফারিং ইমেজ সেগমেন্টেশন (RIS) মডেলকে প্রাকৃতিক ভাষার বর্ণনার উপর ভিত্তি করে ছবিতে সংশ্লিষ্ট লক্ষ্য বস্তু নির্ভুলভাবে সেগমেন্ট করার প্রয়োজন। ঐতিহ্যবাহী সেগমেন্টেশন কাজের বিপরীতে, RIS ভাষার অভিব্যক্তি এবং ভিজ্যুয়াল সামগ্রীর মধ্যে সংযোগের গভীর বোঝাপড়া প্রয়োজন, যা আরও বেশি নমনীয়তা কিন্তু আরও চ্যালেঞ্জিং।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

লেখক বিদ্যমান RIS পদ্ধতিগুলিকে দুটি বিভাগে বিভক্ত করেন:

উপলব্ধি-কেন্দ্রিক পদ্ধতি (Perception-centric): স্তরযুক্ত ব্যাকবোন নেটওয়ার্কের উপর নির্ভর করে সূক্ষ্ম-দানাদার স্থানিক তথ্য সংরক্ষণ করে, কিন্তু ডাউনস্ট্রিম ডেটাসেটের সীমিত বৈচিত্র্যের কারণে, মাল্টিমোডাল ফিউশন মডিউলের সামগ্রী জ্ঞান ক্ষমতা দুর্বল
জ্ঞান-কেন্দ্রিক পদ্ধতি (Cognition-centric): বৃহৎ-স্কেল দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণ মডেল ব্যবহার করে মাল্টিমোডাল বোঝাপড়া বৃদ্ধি করে, কিন্তু Transformer স্থাপত্যের দ্বিঘাত গণনামূলক জটিলতার কারণে, উচ্চ-রেজোলিউশন ইনপুটে সূক্ষ্ম-দানাদার স্থানিক তথ্য হারিয়ে যায়

গবেষণা প্রেরণা

বিদ্যমান পদ্ধতিগুলি উপলব্ধি ক্ষমতা এবং জ্ঞান ক্ষমতার মধ্যে একটি ভারসাম্য সমস্যা উপস্থাপন করে। এই পেপারটি বিশ্বাস করে যে RIS কাজ মূলত দুটি মূল মাত্রা জড়িত: উপলব্ধি (অগ্রভাগ বস্তু সঠিকভাবে স্থানীয়করণ) এবং জ্ঞান (পাঠ্য এবং ভিজ্যুয়াল সামগ্রীর ব্যাপক বোঝাপড়া), তাই এই দুটি উপাদান বিচ্ছিন্ন করা এবং কার্যকরভাবে একীভূত করার প্রস্তাব করে।

মূল অবদান

DeRIS কাঠামো প্রস্তাব: প্রথম কাঠামো যা RIS কাজকে স্পষ্টভাবে উপলব্ধি এবং জ্ঞান উপাদানে বিচ্ছিন্ন করে, উভয়ের সুবিধা নির্বিঘ্নে একীভূত করে উচ্চ-নির্ভুলতা উপলব্ধি স্থানীয়করণ এবং শক্তিশালী মাল্টিমোডাল প্রসঙ্গ বোঝাপড়া অর্জন করে
RIS বাধা গভীর বিশ্লেষণ: সিস্টেমেটিক বিশ্লেষণের মাধ্যমে আবিষ্কার করে যে জ্ঞান ক্ষমতা নয় উপলব্ধি ক্ষমতা RIS এর প্রধান বাধা, এবং লুপব্যাক সিনার্জি প্রক্রিয়া প্রস্তাব করে যা উপলব্ধি এবং জ্ঞান মডিউলগুলির মধ্যে ক্রমবর্ধমান মিথস্ক্রিয়া প্রচার করে
অ-রেফারিং নমুনা রূপান্তর কৌশল: সহজ এবং কার্যকর ডেটা বর্ধন কৌশল বিকাশ করে, প্রশিক্ষণ অস্থিরতা হ্রাস করে এবং মডেল সাধারণীকরণ ক্ষমতা বৃদ্ধি করে, দীর্ঘ-লেজ বিতরণ চ্যালেঞ্জ সমাধান করে
SOTA কর্মক্ষমতা: RefCOCO/+/g এবং gRefCOCO ডেটাসেটে নতুন অত্যাধুনিক কর্মক্ষমতা অর্জন করে

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

ছবি I এবং প্রাকৃতিক ভাষার অভিব্যক্তি T দেওয়া, RIS কাজ নিম্নলিখিত আউটপুট প্রয়োজন:

সেগমেন্টেশন মাস্ক $P_m$ : লক্ষ্য বস্তুর পিক্সেল-স্তরের অবস্থান নির্দেশ করে
রেফারিং শ্রেণীবিভাগ $P_{ref}$ : প্রতিটি প্রার্থী অঞ্চল লক্ষ্য কিনা তা নির্ধারণ করে
অ-রেফারিং বিচার $P_{nr}$ : বর্ণিত বস্তু ছবিতে বিদ্যমান কিনা তা নির্ধারণ করে

মডেল স্থাপত্য

সামগ্রিক স্থাপত্য

DeRIS তিনটি প্রধান উপাদান নিয়ে গঠিত:

উপলব্ধি শাখা: উচ্চ-রেজোলিউশন ছবি (384×384) প্রক্রিয়া করতে স্তরযুক্ত এনকোডার ব্যবহার করে, সূক্ষ্ম-দানাদার ভিজ্যুয়াল প্রতিনিধিত্ব সংরক্ষণ করে
জ্ঞান শাখা: নিম্ন-রেজোলিউশন ছবি (224×224) এবং পাঠ্য প্রক্রিয়া করতে BEiT3 প্রাক-প্রশিক্ষণ মডেল ব্যবহার করে, শব্দার্থিক বোঝাপড়ায় মনোনিবেশ করে
লুপব্যাক সিনার্জি প্রক্রিয়া: উপলব্ধি এবং জ্ঞান শাখার মধ্যে শক্তিশালী মিথস্ক্রিয়া প্রতিষ্ঠা করে

লুপব্যাক সিনার্জি প্রক্রিয়া

প্রতিটি মিথস্ক্রিয়া রাউন্ড জ্ঞান স্তর এবং উপলব্ধি স্তর অন্তর্ভুক্ত করে:

উপলব্ধি স্তর:

প্রাথমিক প্রশ্ন $Q_i$ পরিবর্তনযোগ্য ক্রস-মনোযোগের মাধ্যমে বহু-স্কেল বৈশিষ্ট্যের সাথে মিথস্ক্রিয়া করে
স্ব-মনোযোগ উদাহরণ-মধ্যে সম্পর্ক প্রতিষ্ঠা করে, আউটপুট $Q_p$ উৎপাদন করে
মাস্ক পূর্বাভাস: $M_p = Q_p \cdot f_m$ , যেখানে $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

জ্ঞান স্তর:

উদাহরণ-উদাহরণ সম্পর্ক: $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
উদাহরণ-পাঠ্য সম্পর্ক: $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
আত্মবিশ্বাস স্কোর: $S_r = \text{MLP}(Q_c)$

প্রশ্ন ফিউশন: $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

অ-রেফারিং নমুনা রূপান্তর (NSC)

gRefCOCO ডেটাসেটে অ-রেফারিং নমুনা মাত্র 9% দীর্ঘ-লেজ বিতরণ সমস্যা সমাধানের জন্য, তিন-স্তরীয় ফিল্টারিং কৌশল প্রস্তাব করা হয়:

নির্বাচিত বাক্যের সাথে সংশ্লিষ্ট ছবি বর্তমান ছবির সাথে অসামঞ্জস্যপূর্ণ
বাক্যের দৈর্ঘ্য থ্রেশহোল্ড $N_w$ এর চেয়ে বড়
বাক্য সাদৃশ্য থ্রেশহোল্ড $T_s$ এর নিচে

সাদৃশ্য গণনা: $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

প্রশিক্ষণ উদ্দেশ্য

মোট ক্ষতি ফাংশন: $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

যেখানে সেগমেন্টেশন ক্ষতি (BCE+Dice), রেফারিং শ্রেণীবিভাগ ক্ষতি (BCE) এবং অ-রেফারিং বিচার ক্ষতি (BCE) অন্তর্ভুক্ত।

পরীক্ষামূলক সেটআপ

ডেটাসেট

RefCOCO/+/g: মানক RIS বেঞ্চমার্ক ডেটাসেট
gRefCOCO: সাধারণীকৃত রেফারিং অভিব্যক্তি সেগমেন্টেশন ডেটাসেট, বহু-রেফারিং এবং অ-রেফারিং পরিস্থিতি সমর্থন করে

মূল্যায়ন মেট্রিক্স

mIoU/cIoU/oIoU: ইন্টারসেকশন-ওভার-ইউনিয়ন মেট্রিক্স
gIoU: সাধারণীকৃত ইন্টারসেকশন-ওভার-ইউনিয়ন
N-acc: অ-রেফারিং নির্ভুলতা
Pr@0.9: উচ্চ নির্ভুলতা থ্রেশহোল্ডে নির্ভুলতা

বাস্তবায়ন বিবরণ

উপলব্ধি শাখা: Mask2Former প্রাক-প্রশিক্ষণ ওজন, ইনপুট রেজোলিউশন 384×384
জ্ঞান শাখা: BEiT3 প্রাক-প্রশিক্ষণ ওজন, ইনপুট রেজোলিউশন 224×224
লুপব্যাক রাউন্ড: 3 রাউন্ড
রূপান্তর সম্ভাবনা: $R_c = 15\%$
প্রশিক্ষণ কৌশল: AdamW অপ্টিমাইজার, শেখার হার 1e-4

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RIS কাজ কর্মক্ষমতা (RefCOCO/+/g)

RefCOCO যাচাইকরণ সেটে, DeRIS-L OneRef-L এর তুলনায় 4.46% mIoU উন্নতি:

RefCOCO val: 85.72% vs 81.26%
RefCOCO+ val: 81.28% vs 76.60%
RefCOCOg val: 80.01% vs 75.68%

GRES কাজ কর্মক্ষমতা (gRefCOCO)

DeRIS-L সমস্ত মেট্রিক্সে বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল:

Val সেট cIoU: 72.00% vs 64.20% (HieA2G)
N-acc মেট্রিক্স উন্নতি বিশেষভাবে উল্লেখযোগ্য: 82.22% vs 62.80%

অ্যাবলেশন পরীক্ষা

উপলব্ধি বনাম জ্ঞান ক্ষমতা বিশ্লেষণ

মূল আবিষ্কার: জ্ঞান ক্ষমতা RIS এর প্রধান বাধা

জ্ঞান মডেল BERT-B থেকে BEiT3-L এ আপগ্রেড: cIoU 12.88% উন্নতি
উপলব্ধি মডেল Swin-S থেকে Swin-B এ আপগ্রেড: cIoU মাত্র 1.20% উন্নতি

লুপব্যাক সিনার্জি প্রক্রিয়া কার্যকারিতা

বিভিন্ন সংযোগ কাঠামো তুলনা:

P-to-C (ভিত্তি): gIoU 69.98%
লুপব্যাক সিনার্জি: gIoU 71.37% (+1.39%)
প্রশিক্ষণ সময় মূলত অপরিবর্তিত

NSC কৌশল প্রভাব

NSC ছাড়া: N-acc 60.19%
NSC সহ: N-acc 79.25% (+19.06%)
প্রশিক্ষণ স্থিতিশীলতা উল্লেখযোগ্যভাবে উন্নত

দক্ষতা বিশ্লেষণ

বিশুদ্ধ জ্ঞান-কেন্দ্রিক পদ্ধতির তুলনায়, DeRIS উচ্চ-রেজোলিউশনে উচ্চ দক্ষতা বজায় রাখে:

384 রেজোলিউশনে অনুমান সময় মাত্র 19% বৃদ্ধি
Pr@0.9 মেট্রিক্স 14.41% উন্নতি

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

জ্ঞান বাধা আবিষ্কার: সিস্টেমেটিক বিশ্লেষণ প্রমাণ করে যে জ্ঞান ক্ষমতা নয় উপলব্ধি ক্ষমতা বর্তমান RIS এর প্রধান সীমাবদ্ধতা
কার্যকর স্থাপত্য ডিজাইন: লুপব্যাক সিনার্জি প্রক্রিয়া সফলভাবে উপলব্ধি এবং জ্ঞান সুবিধা একীভূত করে
ডেটা বর্ধন মূল্য: NSC কৌশল কার্যকরভাবে অ-রেফারিং নমুনা স্বল্পতা সমস্যা সমাধান করে

সীমাবদ্ধতা

গণনামূলক খরচ: দ্বি-শাখা স্থাপত্য নির্দিষ্ট গণনামূলক খরচ যোগ করে
হাইপারপ্যারামিটার সংবেদনশীলতা: লুপব্যাক রাউন্ড, রূপান্তর সম্ভাবনা ইত্যাদি হাইপারপ্যারামিটার সাবধানে সমন্বয় প্রয়োজন
ডেটা নির্ভরতা: NSC কৌশলের কার্যকারিতা ডেটাসেটের বৈচিত্র্যের উপর নির্ভর করে

ভবিষ্যত দিকনির্দেশনা

আরও দক্ষ উপলব্ধি-জ্ঞান মিথস্ক্রিয়া প্রক্রিয়া অন্বেষণ করা
স্ব-অভিযোজিত অ-রেফারিং নমুনা উৎপাদন কৌশল গবেষণা করা
আরও জটিল মাল্টিমোডাল বোঝাপড়া কাজে সম্প্রসারণ করা

গভীর মূল্যায়ন

শক্তি

উদ্ভাবনী স্থাপত্য: বিচ্ছিন্নকরণ ডিজাইন নতুন গবেষণা দৃষ্টিভঙ্গি প্রদান করে, RIS এর মূল বাধা সিস্টেমেটিকভাবে বিশ্লেষণ করে
পর্যাপ্ত পরীক্ষামূলক যাচাইকরণ: বিস্তৃত অ্যাবলেশন পরীক্ষা প্রতিটি উপাদানের কার্যকারিতা প্রমাণ করে
উচ্চ ব্যবহারিক মূল্য: একাধিক বেঞ্চমার্ক ডেটাসেটে SOTA কর্মক্ষমতা অর্জন করে
গভীর বিশ্লেষণ: পরিমাণগত এবং গুণগত বিশ্লেষণ একত্রিত করে, মূল্যবান অন্তর্দৃষ্টি প্রদান করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: লুপব্যাক সিনার্জি প্রক্রিয়ার তাত্ত্বিক সংগ্রহযোগ্যতা বিশ্লেষণের অভাব
সাধারণীকরণ যাচাইকরণ: প্রধানত মানক ডেটাসেটে যাচাইকরণ, ক্রস-ডোমেইন সাধারণীকরণ পরীক্ষার অভাব
দক্ষতা অপ্টিমাইজেশন স্থান: দ্বি-শাখা ডিজাইনের গণনামূলক দক্ষতা এখনও অপ্টিমাইজেশন স্থান রয়েছে

প্রভাব

একাডেমিক অবদান: RIS ক্ষেত্রে নতুন স্থাপত্য ডিজাইন প্যারাডাইম প্রদান করে
ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং কার্যকর, পুনরুৎপাদন এবং প্রয়োগ সহজ
অনুপ্রেরণামূলক তাৎপর্য: বিচ্ছিন্নকরণ ধারণা অন্যান্য মাল্টিমোডাল কাজে সম্প্রসারিত করা যায়

প্রযোজ্য পরিস্থিতি

DeRIS বিশেষভাবে উপযুক্ত:

উচ্চ-নির্ভুলতা সেগমেন্টেশন প্রয়োজনীয় অ্যাপ্লিকেশন পরিস্থিতি
জটিল ভাষা বর্ণনা বোঝাপড়া কাজ
অ-রেফারিং এবং বহু-রেফারিং সাধারণীকৃত পরিস্থিতি
অনুমান দক্ষতার জন্য নির্দিষ্ট প্রয়োজনীয়তা সহ ব্যবহারিক প্রয়োগ

সংদর্ভ

পেপারটি 75টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা RIS, দৃষ্টি-ভাষা বোঝাপড়া, উদাহরণ সেগমেন্টেশন এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।