2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.
Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
academic

DeRIS: लूपबैक सिनर्जी के माध्यम से संवेदना और संज्ञान को अलग करके संवर्धित संदर्भ छवि विभाजन

मूल जानकारी

  • पेपर ID: 2507.01738
  • शीर्षक: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
  • लेखक: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
  • संस्थान: Southeast University, Baidu VIS, Stanford University
  • वर्गीकरण: cs.CV
  • प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2507.01738v2

सारांश

संदर्भ छवि विभाजन (RIS) एक चुनौतीपूर्ण कार्य है जिसका उद्देश्य प्राकृतिक भाषा अभिव्यक्ति के आधार पर छवि में लक्ष्य वस्तुओं को विभाजित करना है। हालांकि पूर्ववर्ती अनुसंधान मुख्य रूप से दृश्य-भाषा अंतःक्रिया में सुधार और सूक्ष्म-दानेदार स्थानीयकरण प्राप्त करने पर केंद्रित था, लेकिन मौजूदा RIS ढांचे में मौलिक बाधाओं का व्यवस्थित विश्लेषण अभी भी अपर्याप्त है। इस अंतराल को भरने के लिए, यह पेपर DeRIS प्रस्तावित करता है, एक नया ढांचा जो RIS को दो मुख्य घटकों में विभाजित करता है: संवेदना (perception) और संज्ञान (cognition)। यह मॉड्यूलर विघटन RIS के प्रदर्शन में बाधा डालने वाली मुख्य बाधाओं के व्यवस्थित विश्लेषण को सुविधाजनक बनाता है। अनुसंधान से पता चलता है कि मुख्य सीमा संवेदनशील खामियों में नहीं, बल्कि वर्तमान मॉडल की बहु-मोडल संज्ञानात्मक क्षमता की कमी में है। इस समस्या को कम करने के लिए, लूपबैक सिनर्जी (Loopback Synergy) तंत्र प्रस्तावित किया गया है, जो संवेदना और संज्ञान मॉड्यूल के बीच सहयोग को बढ़ाता है, जिससे सटीक विभाजन और साथ ही मजबूत छवि-पाठ समझ में सुधार होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संदर्भ छवि विभाजन (RIS) के लिए मॉडल को प्राकृतिक भाषा विवरण के आधार पर छवि में संबंधित लक्ष्य वस्तु को सटीक रूप से विभाजित करने की आवश्यकता होती है। पारंपरिक विभाजन कार्यों के विपरीत, RIS को भाषा अभिव्यक्ति और दृश्य सामग्री के बीच पत्राचार की गहन समझ की आवश्यकता होती है, जिसमें अधिक लचीलापन होता है लेकिन यह अधिक चुनौतीपूर्ण भी होता है।

मौजूदा विधियों की सीमाएं

लेखक मौजूदा RIS विधियों को दो श्रेणियों में विभाजित करते हैं:

  1. संवेदना-केंद्रित विधियां (Perception-centric): सूक्ष्म-दानेदार स्थानिक जानकारी को संरक्षित करने के लिए स्तरीय बैकबोन नेटवर्क पर निर्भर करती हैं, लेकिन डाउनस्ट्रीम डेटासेट विविधता की सीमा के कारण, बहु-मोडल फ्यूजन मॉड्यूल की सामग्री संज्ञानात्मक क्षमता कमजोर होती है
  2. संज्ञान-केंद्रित विधियां (Cognition-centric): बहु-मोडल समझ को बढ़ाने के लिए बड़े पैमाने पर दृश्य-भाषा पूर्व-प्रशिक्षण मॉडल का उपयोग करती हैं, लेकिन Transformer आर्किटेक्चर की द्विघात कम्प्यूटेशनल जटिलता के कारण, उच्च-रिज़ॉल्यूशन इनपुट पर सूक्ष्म-दानेदार स्थानिक जानकारी खो जाती है

अनुसंधान प्रेरणा

मौजूदा विधियां संवेदनशील क्षमता और संज्ञानात्मक क्षमता के बीच एक व्यापार-बंद समस्या प्रस्तुत करती हैं। यह पेपर मानता है कि RIS कार्य मूलतः दो मुख्य आयामों से संबंधित है: संवेदना (अग्रभूमि वस्तु का सटीक स्थानीयकरण) और संज्ञान (पाठ और दृश्य सामग्री की व्यापक समझ), इसलिए इन दोनों घटकों को अलग करने और उनके लाभों को प्रभावी ढंग से एकीकृत करने का प्रस्ताव दिया गया है।

मुख्य योगदान

  1. DeRIS ढांचा प्रस्तावित करना: पहला ढांचा जो RIS कार्य को स्पष्ट रूप से संवेदना और संज्ञान घटकों में विघटित करता है, दोनों के लाभों को निर्बाध रूप से एकीकृत करके उच्च-सटीक संवेदनशील स्थानीयकरण और मजबूत बहु-मोडल संदर्भ समझ प्राप्त करता है
  2. RIS बाधाओं का गहन विश्लेषण: व्यवस्थित विश्लेषण के माध्यम से यह पता चलता है कि संज्ञानात्मक क्षमता न कि संवेदनशील क्षमता RIS की मुख्य बाधा है, और लूपबैक सिनर्जी तंत्र प्रस्तावित किया गया है जो संवेदना और संज्ञान मॉड्यूल के बीच क्रमिक अंतःक्रिया को बढ़ावा देता है
  3. गैर-संदर्भ नमूना रूपांतरण रणनीति: एक सरल और प्रभावी डेटा संवर्धन रणनीति विकसित की गई है जो प्रशिक्षण अस्थिरता को कम करती है और मॉडल सामान्यीकरण क्षमता को बढ़ाती है, लंबी-पूंछ वाले वितरण चुनौती को हल करती है
  4. SOTA प्रदर्शन: RefCOCO/+/g और gRefCOCO डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करता है

विधि विवरण

कार्य परिभाषा

दी गई छवि I और प्राकृतिक भाषा अभिव्यक्ति T के लिए, RIS कार्य निम्नलिखित आउटपुट की आवश्यकता करता है:

  • विभाजन मास्क PmP_m: लक्ष्य वस्तु के पिक्सेल-स्तरीय स्थान को इंगित करता है
  • संदर्भ वर्गीकरण PrefP_{ref}: यह निर्धारित करता है कि प्रत्येक उम्मीदवार क्षेत्र लक्ष्य है या नहीं
  • गैर-संदर्भ निर्णय PnrP_{nr}: यह निर्धारित करता है कि वर्णित वस्तु छवि में मौजूद है या नहीं

मॉडल आर्किटेक्चर

समग्र आर्किटेक्चर

DeRIS में तीन मुख्य घटक हैं:

  1. संवेदना शाखा: उच्च-रिज़ॉल्यूशन छवि (384×384) को संसाधित करने के लिए स्तरीय एनकोडर का उपयोग करता है, सूक्ष्म-दानेदार दृश्य प्रतिनिधित्व को संरक्षित करता है
  2. संज्ञान शाखा: कम-रिज़ॉल्यूशन छवि (224×224) और पाठ को संसाधित करने के लिए BEiT3 पूर्व-प्रशिक्षण मॉडल का उपयोग करता है, शब्दार्थ समझ पर ध्यान केंद्रित करता है
  3. लूपबैक सिनर्जी तंत्र: संवेदना और संज्ञान शाखाओं के बीच मजबूत अंतःक्रिया स्थापित करता है

लूपबैक सिनर्जी तंत्र

प्रत्येक पारस्परिक क्रिया में संज्ञान परत और संवेदना परत शामिल हैं:

संवेदना परत:

  • प्रारंभिक क्वेरी QiQ_i विकृत क्रॉस-ध्यान के माध्यम से बहु-पैमाने की विशेषताओं के साथ अंतःक्रिया करता है
  • स्व-ध्यान उदाहरण-दर-उदाहरण संबंध स्थापित करता है, आउटपुट QpQ_p का उत्पादन करता है
  • मास्क भविष्यवाणी: Mp=QpfmM_p = Q_p \cdot f_m, जहां fm=Conv(Concat(fh4,fv))f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))

संज्ञान परत:

  • उदाहरण-उदाहरण संबंध: fs=AvgPool(fm×σ(Mp))f_s = \text{AvgPool}(f_m \times \sigma(M_p))
  • उदाहरण-पाठ संबंध: Qc=Attn(Qp,ft,ft)Q_c = \text{Attn}(Q'_p, f_t, f_t)
  • आत्मविश्वास स्कोर: Sr=MLP(Qc)S_r = \text{MLP}(Q_c)

क्वेरी फ्यूजन: Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))

गैर-संदर्भ नमूना रूपांतरण (NSC)

gRefCOCO डेटासेट में गैर-संदर्भ नमूने केवल 9% के लंबी-पूंछ वाले वितरण समस्या को हल करने के लिए, तीन-स्तरीय फ़िल्टरिंग रणनीति प्रस्तावित की गई है:

  1. चयनित वाक्य के अनुरूप छवि वर्तमान छवि से असंगत है
  2. चयनित वाक्य की लंबाई सीमा NwN_w से अधिक है
  3. वाक्य समानता सीमा TsT_s से कम है

समानता गणना: Sim(s1,s2)=Jac(s1,s2)+Cos(s1,s2)2\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}

प्रशिक्षण उद्देश्य

कुल हानि फ़ंक्शन: Li=λmLmaski+λrLri+λntLntiL^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}L=λauxi=1Nr1Li+LNrL = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}

जहां विभाजन हानि (BCE+Dice), संदर्भ वर्गीकरण हानि (BCE) और गैर-संदर्भ निर्णय हानि (BCE) शामिल हैं।

प्रायोगिक सेटअप

डेटासेट

  • RefCOCO/+/g: मानक RIS बेंचमार्क डेटासेट
  • gRefCOCO: सामान्यीकृत संदर्भ अभिव्यक्ति विभाजन डेटासेट, बहु-संदर्भ और गैर-संदर्भ परिदृश्यों का समर्थन करता है

मूल्यांकन मेट्रिक्स

  • mIoU/cIoU/oIoU: इंटरसेक्शन-ओवर-यूनियन मेट्रिक्स
  • gIoU: सामान्यीकृत इंटरसेक्शन-ओवर-यूनियन
  • N-acc: गैर-संदर्भ सटीकता
  • Pr@0.9: उच्च-सटीकता सीमा पर सटीकता

कार्यान्वयन विवरण

  • संवेदना शाखा: Mask2Former पूर्व-प्रशिक्षण भार, इनपुट रिज़ॉल्यूशन 384×384
  • संज्ञान शाखा: BEiT3 पूर्व-प्रशिक्षण भार, इनपुट रिज़ॉल्यूशन 224×224
  • लूपबैक राउंड: 3 राउंड
  • रूपांतरण संभावना: Rc=15%R_c = 15\%
  • प्रशिक्षण रणनीति: AdamW ऑप्टिमाइज़र, सीखने की दर 1e-4

प्रायोगिक परिणाम

मुख्य परिणाम

RIS कार्य प्रदर्शन (RefCOCO/+/g)

RefCOCO सत्यापन सेट पर, DeRIS-L OneRef-L की तुलना में 4.46% mIoU में सुधार करता है:

  • RefCOCO val: 85.72% बनाम 81.26%
  • RefCOCO+ val: 81.28% बनाम 76.60%
  • RefCOCOg val: 80.01% बनाम 75.68%

GRES कार्य प्रदर्शन (gRefCOCO)

DeRIS-L सभी मेट्रिक्स पर मौजूदा विधियों से काफी बेहतर है:

  • Val सेट cIoU: 72.00% बनाम 64.20% (HieA2G)
  • N-acc मेट्रिक में सुधार विशेष रूप से उल्लेखनीय है: 82.22% बनाम 62.80%

विलोपन प्रयोग

संवेदना बनाम संज्ञान क्षमता विश्लेषण

मुख्य निष्कर्ष: संज्ञानात्मक क्षमता RIS की मुख्य बाधा है

  • संज्ञान मॉडल को BERT-B से BEiT3-L में अपग्रेड करना: cIoU में 12.88% सुधार
  • संवेदना मॉडल को Swin-S से Swin-B में अपग्रेड करना: cIoU में केवल 1.20% सुधार

लूपबैक सिनर्जी तंत्र प्रभावशीलता

विभिन्न कनेक्शन संरचनाओं की तुलना:

  • P-to-C (आधारभूत): gIoU 69.98%
  • लूपबैक सिनर्जी: gIoU 71.37% (+1.39%)
  • प्रशिक्षण समय में मूलतः कोई वृद्धि नहीं

NSC रणनीति प्रभाव

  • NSC के बिना: N-acc 60.19%
  • NSC के साथ: N-acc 79.25% (+19.06%)
  • प्रशिक्षण स्थिरता में उल्लेखनीय सुधार

दक्षता विश्लेषण

शुद्ध संज्ञान-केंद्रित विधि की तुलना में, DeRIS उच्च-रिज़ॉल्यूशन पर उच्च दक्षता बनाए रखता है:

  • 384 रिज़ॉल्यूशन पर अनुमान समय में केवल 19% की वृद्धि
  • Pr@0.9 मेट्रिक में 14.41% सुधार

संबंधित कार्य

RIS विधि वर्गीकरण

  1. संवेदना-केंद्रित विधियां:
    • पश्च-फ्यूजन विधियां: विशेषता निष्कर्षण के बाद दृश्य-भाषा फ्यूजन
    • प्रारंभिक-फ्यूजन विधियां: विशेषता निष्कर्षण प्रक्रिया में बहु-मोडल जानकारी को एकीकृत करना
  2. संज्ञान-केंद्रित विधियां:
    • संज्ञानात्मक क्षमता को बढ़ाने के लिए पूर्व-प्रशिक्षण दृश्य-भाषा मॉडल का उपयोग करना
    • एकल-प्रवाह, द्वि-प्रवाह, फ्यूजन एनकोडर और MLLM विधियां शामिल हैं

इस पेपर के लाभ

मौजूदा कार्यों की तुलना में, DeRIS पहली बार संवेदना और संज्ञान की भूमिका को व्यवस्थित रूप से विघटित और विश्लेषण करता है, आर्किटेक्चर डिजाइन के लिए एक नया प्रतिमान प्रदान करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. संज्ञान बाधा की खोज: व्यवस्थित विश्लेषण साबित करता है कि संज्ञानात्मक क्षमता न कि संवेदनशील क्षमता वर्तमान RIS की मुख्य सीमा है
  2. प्रभावी आर्किटेक्चर डिजाइन: लूपबैक सिनर्जी तंत्र संवेदना और संज्ञान के लाभों को सफलतापूर्वक एकीकृत करता है
  3. डेटा संवर्धन मूल्य: NSC रणनीति गैर-संदर्भ नमूने की कमी की समस्या को प्रभावी ढंग से हल करती है

सीमाएं

  1. कम्प्यूटेशनल ओवरहेड: द्वि-शाखा आर्किटेक्चर कुछ कम्प्यूटेशनल लागत जोड़ता है
  2. हाइपरपैरामीटर संवेदनशीलता: लूपबैक राउंड, रूपांतरण संभावना आदि हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है
  3. डेटा निर्भरता: NSC रणनीति का प्रभाव डेटासेट की विविधता पर निर्भर करता है

भविष्य की दिशाएं

  1. अधिक कुशल संवेदना-संज्ञान अंतःक्रिया तंत्र की खोज करना
  2. स्व-अनुकूली गैर-संदर्भ नमूना जनरेशन रणनीति का अनुसंधान करना
  3. अधिक जटिल बहु-मोडल समझ कार्यों तक विस्तार करना

गहन मूल्यांकन

लाभ

  1. नवीन आर्किटेक्चर: विघटन डिजाइन एक नया अनुसंधान दृष्टिकोण प्रदान करता है, RIS की मुख्य बाधाओं का व्यवस्थित विश्लेषण करता है
  2. पर्याप्त प्रायोगिक सत्यापन: बड़ी संख्या में विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता साबित करते हैं
  3. उच्च व्यावहारिक मूल्य: कई बेंचमार्क डेटासेट पर SOTA प्रदर्शन प्राप्त करता है
  4. गहन विश्लेषण: मात्रात्मक और गुणात्मक विश्लेषण को जोड़ता है, मूल्यवान अंतर्दृष्टि प्रदान करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: लूपबैक सिनर्जी तंत्र के सैद्धांतिक अभिसरण विश्लेषण की कमी है
  2. सामान्यीकरण सत्यापन: मुख्य रूप से मानक डेटासेट पर सत्यापित, क्रॉस-डोमेन सामान्यीकरण प्रयोगों की कमी है
  3. दक्षता अनुकूलन स्थान: द्वि-शाखा डिजाइन की कम्प्यूटेशनल दक्षता में अभी भी अनुकूलन की गुंजाइश है

प्रभाव

  1. शैक्षणिक योगदान: RIS क्षेत्र के लिए आर्किटेक्चर डिजाइन के लिए एक नया प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: विधि सरल और प्रभावी है, पुनरुत्पादन और अनुप्रयोग में आसान है
  3. प्रेरणा महत्व: विघटन विचार अन्य बहु-मोडल कार्यों तक विस्तारित किया जा सकता है

लागू परिदृश्य

DeRIS विशेष रूप से निम्नलिखित के लिए उपयुक्त है:

  • उच्च-सटीकता विभाजन की आवश्यकता वाले अनुप्रयोग परिदृश्य
  • जटिल भाषा विवरण की समझ कार्य
  • गैर-संदर्भ और बहु-संदर्भ सामान्यीकृत परिदृश्य
  • अनुमान दक्षता के लिए कुछ आवश्यकताओं वाले व्यावहारिक अनुप्रयोग

संदर्भ

पेपर ने 75 संबंधित संदर्भों का हवाला दिया है, जिसमें RIS, दृश्य-भाषा समझ, उदाहरण विभाजन और अन्य संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।