2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: فك الارتباط بين الإدراك والإدراك المعرفي لتحسين تقسيم الصور المرجعية من خلال التآزر الحلقي

المعلومات الأساسية

معرّف الورقة: 2507.01738
العنوان: DeRIS: فك الارتباط بين الإدراك والإدراك المعرفي لتحسين تقسيم الصور المرجعية من خلال التآزر الحلقي
المؤلفون: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
المؤسسات: جامعة جنوب شرق الصين، Baidu VIS، جامعة ستانفورد
التصنيف: cs.CV
تاريخ النشر: 13 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2507.01738v2

الملخص

تقسيم الصور المرجعية (RIS) هي مهمة صعبة تهدف إلى تقسيم الأهداف في الصورة بناءً على التعبيرات باللغة الطبيعية. بينما ركزت الأبحاث السابقة بشكل أساسي على تحسين التفاعل بين الرؤية واللغة وتحقيق التوطين الدقيق، لا تزال هناك حاجة إلى تحليل منهجي للاختناقات الأساسية في أطر العمل الحالية. لسد هذه الفجوة، نقترح DeRIS، إطار عمل جديد يفكك RIS إلى مكونين رئيسيين: الإدراك (Perception) والإدراك المعرفي (Cognition). يعزز هذا التحلل المعياري تحليلاً منهجياً للاختناقات الرئيسية التي تعيق أداء RIS. تكشف الدراسة أن القيود الرئيسية لا تكمن في عيوب الإدراك، بل في عدم كفاية القدرات المعرفية متعددة الأنماط للنماذج الحالية. لمعالجة هذه المشكلة، نقترح آلية التآزر الحلقي (Loopback Synergy)، التي تعزز التعاون بين مكونات الإدراك والإدراك المعرفي، مما يحقق تقسيماً دقيقاً مع تحسين الفهم القوي للصور والنصوص.

السياق البحثي والدافع

تعريف المشكلة

يتطلب تقسيم الصور المرجعية (RIS) من النموذج تقسيم الكائنات المقابلة في الصورة بناءً على الأوصاف باللغة الطبيعية بدقة. على عكس مهام التقسيم التقليدية، يتطلب RIS فهماً عميقاً للمراسلات بين التعبيرات اللغوية والمحتوى البصري، مما يوفر مرونة أكبر لكن يشكل تحديات أكبر أيضاً.

قيود الطرق الموجودة

يصنف المؤلفون الطرق الحالية لـ RIS إلى فئتين:

الطرق المركزة على الإدراك (Perception-centric): تعتمد على شبكات العمود الفقري الهرمية للحفاظ على المعلومات المكانية الدقيقة، لكن القدرة على الإدراك المعرفي متعدد الأنماط ضعيفة بسبب تنوع مجموعات البيانات المحدودة في المراحل اللاحقة
الطرق المركزة على الإدراك المعرفي (Cognition-centric): تستفيد من نماذج التدريب المسبق الكبيرة للرؤية واللغة لتعزيز الفهم متعدد الأنماط، لكن بسبب التعقيد الحسابي التربيعي لبنية Transformer، تفقد المعلومات المكانية الدقيقة عند المدخلات عالية الدقة

الدافع البحثي

تواجه الطرق الموجودة مقايضة بين القدرات الإدراكية والقدرات المعرفية. يعتقد المؤلفون أن مهمة RIS تتضمن بطبيعتها بعدين رئيسيين: الإدراك (التوطين الدقيق للكائنات الأمامية) والإدراك المعرفي (الفهم الشامل للنصوص والمحتوى البصري)، وبالتالي يقترحون فك الارتباط بين هذين المكونين ودمج مزاياهما بفعالية.

المساهمات الأساسية

اقتراح إطار عمل DeRIS: أول إطار عمل يفكك بشكل صريح مهمة RIS إلى مكونات الإدراك والإدراك المعرفي، مع دمج سلس لمزايا كلا المكونين لتحقيق توطين إدراكي عالي الدقة وفهم سياقي متعدد الأنماط قوي
تحليل عميق لاختناقات RIS: من خلال التحليل المنهجي، يكتشف أن القدرة المعرفية وليس الإدراكية هي الاختناق الرئيسي لـ RIS، ويقترح آلية التآزر الحلقي لتعزيز التفاعل التدريجي بين مكونات الإدراك والإدراك المعرفي
استراتيجية تحويل العينات غير المرجعية: تطوير استراتيجية تعزيز بيانات بسيطة وفعالة لتخفيف عدم الاستقرار في التدريب وتعزيز قدرة النموذج على التعميم، مما يعالج تحديات التوزيع طويل الذيل
أداء متقدم جديد: تحقيق أداء متقدمة جديدة على مجموعات بيانات RefCOCO/+/g و gRefCOCO

شرح الطريقة

تعريف المهمة

بالنظر إلى الصورة I والتعبير باللغة الطبيعية T، تتطلب مهمة RIS الإخراج:

قناع التقسيم $P_m$ : يشير إلى الموقع على مستوى البكسل للكائن المستهدف
التصنيف المرجعي $P_{ref}$ : يحدد ما إذا كانت كل منطقة مرشحة هي الهدف
الحكم غير المرجعي $P_{nr}$ : يحدد ما إذا كان الكائن الموصوف موجوداً في الصورة

معمارية النموذج

المعمارية الشاملة

يتضمن DeRIS ثلاثة مكونات رئيسية:

فرع الإدراك: يستخدم مشفر هرمي لمعالجة الصور عالية الدقة (384×384)، مع الحفاظ على التمثيلات البصرية الدقيقة
فرع الإدراك المعرفي: يستخدم نموذج BEiT3 المدرب مسبقاً لمعالجة الصور منخفضة الدقة (224×224) والنصوص، مع التركيز على الفهم الدلالي
آلية التآزر الحلقي: تؤسس تفاعلاً قوياً بين فروع الإدراك والإدراك المعرفي

آلية التآزر الحلقي

يتضمن كل جولة تفاعل طبقة معرفية وطبقة إدراكية:

الطبقة الإدراكية:

الاستعلام الأولي $Q_i$ يتفاعل مع الميزات متعددة الأحجام من خلال الانتباه المتقاطع القابل للتشويه
الانتباه الذاتي يؤسس العلاقات بين الحالات، مما ينتج عنه $Q_p$
التنبؤ بالقناع: $M_p = Q_p \cdot f_m$ ، حيث $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

الطبقة المعرفية:

العلاقة بين الحالات: $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
العلاقة بين الحالة والنص: $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
درجة الثقة: $S_r = \text{MLP}(Q_c)$

دمج الاستعلام: $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

تحويل العينات غير المرجعية (NSC)

لمعالجة مشكلة التوزيع طويل الذيل حيث تمثل العينات غير المرجعية فقط 9% من مجموعة بيانات gRefCOCO، يتم اقتراح استراتيجية تصفية ثلاثية المستويات:

اختيار الجمل التي تتوافق صورها مع الصورة الحالية بشكل غير متسق
اختيار الجمل التي يتجاوز طولها الحد الأدنى $N_w$
الجمل التي تكون درجة تشابهها أقل من الحد الأدنى $T_s$

حساب التشابه: $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

أهداف التدريب

دالة الخسارة الإجمالية: $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

حيث تتضمن خسارة التقسيم (BCE+Dice)، وخسارة التصنيف المرجعي (BCE)، وخسارة الحكم غير المرجعي (BCE).

إعداد التجارب

مجموعات البيانات

RefCOCO/+/g: مجموعات بيانات معيار RIS القياسية
gRefCOCO: مجموعة بيانات تقسيم التعبيرات المرجعية المعممة، تدعم السيناريوهات متعددة المراجع وغير المرجعية

مقاييس التقييم

mIoU/cIoU/oIoU: مقاييس الاتحاد على التقاطع
gIoU: الاتحاد المعمم على التقاطع
N-acc: دقة الحكم غير المرجعي
Pr@0.9: الدقة عند حد الدقة العالي

تفاصيل التنفيذ

فرع الإدراك: أوزان Mask2Former المدربة مسبقاً، دقة الإدخال 384×384
فرع الإدراك المعرفي: أوزان BEiT3 المدربة مسبقاً، دقة الإدخال 224×224
عدد جولات التآزر الحلقي: 3 جولات
احتمالية التحويل: $R_c = 15\%$
استراتيجية التدريب: محسّن AdamW، معدل التعلم 1e-4

نتائج التجارب

النتائج الرئيسية

أداء مهمة RIS (RefCOCO/+/g)

على مجموعة التحقق من RefCOCO، يحسّن DeRIS-L بنسبة 4.46% mIoU مقارنة بـ OneRef-L:

RefCOCO val: 85.72% مقابل 81.26%
RefCOCO+ val: 81.28% مقابل 76.60%
RefCOCOg val: 80.01% مقابل 75.68%

أداء مهمة GRES (gRefCOCO)

يتفوق DeRIS-L بشكل كبير على الطرق الموجودة في جميع المقاييس:

مجموعة Val cIoU: 72.00% مقابل 64.20% (HieA2G)
تحسن مقياس N-acc بشكل خاص: 82.22% مقابل 62.80%

تجارب الاستئصال

تحليل القدرات الإدراكية مقابل المعرفية

الاكتشافات الرئيسية: القدرة المعرفية هي الاختناق الرئيسي لـ RIS

ترقية النموذج المعرفي من BERT-B إلى BEiT3-L: تحسن cIoU بنسبة 12.88%
ترقية نموذج الإدراك من Swin-S إلى Swin-B: تحسن cIoU بنسبة 1.20% فقط

فعالية آلية التآزر الحلقي

مقارنة هياكل الاتصال المختلفة:

P-to-C (الخط الأساسي): gIoU 69.98%
التآزر الحلقي: gIoU 71.37% (+1.39%)
لا يوجد زيادة تقريباً في وقت التدريب

تأثير استراتيجية NSC

بدون NSC: N-acc 60.19%
مع NSC: N-acc 79.25% (+19.06%)
تحسن كبير في استقرار التدريب

تحليل الكفاءة

مقارنة بطرق الإدراك المعرفي البحتة، يحافظ DeRIS على الكفاءة عند الدقة العالية:

وقت الاستدلال عند دقة 384 يزيد بنسبة 19% فقط
تحسن مقياس Pr@0.9 بنسبة 14.41%

الأعمال ذات الصلة

تصنيف طرق RIS

الطرق المركزة على الإدراك:
- طرق الدمج المتأخر: دمج الرؤية واللغة بعد استخراج الميزات
- طرق الدمج المبكر: دمج المعلومات متعددة الأنماط أثناء عملية استخراج الميزات
الطرق المركزة على الإدراك المعرفي:
- الاستفادة من نماذج الرؤية واللغة المدربة مسبقاً لتعزيز القدرة المعرفية
- تتضمن طرق التدفق الواحد والتدفق الثنائي والمشفرات المدمجة وطرق نماذج اللغة الكبيرة متعددة الأنماط

مزايا هذا العمل

مقارنة بالأعمال الموجودة، يقدم DeRIS لأول مرة فك ارتباط منهجي وتحليل دور الإدراك والإدراك المعرفي، مما يوفر نموذج تصميم معماري جديد.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

اكتشاف الاختناق المعرفي: يثبت التحليل المنهجي أن القدرة المعرفية وليس الإدراكية هي العامل المحدد الرئيسي الحالي لـ RIS
تصميم معماري فعال: تحقق آلية التآزر الحلقي بنجاح دمج مزايا الإدراك والإدراك المعرفي
قيمة تعزيز البيانات: تحل استراتيجية NSC بفعالية مشكلة ندرة العينات غير المرجعية

القيود

التكلفة الحسابية: تزيد معمارية الفرعين من التكلفة الحسابية إلى حد ما
حساسية المعاملات الفائقة: تتطلب معاملات مثل عدد جولات التآزر الحلقي واحتمالية التحويل ضبطاً دقيقاً
الاعتماد على البيانات: يعتمد تأثير استراتيجية NSC على تنوع مجموعة البيانات

الاتجاهات المستقبلية

استكشاف آليات تفاعل إدراك-معرفية أكثر كفاءة
دراسة استراتيجيات توليد عينات غير مرجعية تكيفية
التوسع إلى مهام فهم متعددة الأنماط أكثر تعقيداً

التقييم المتعمق

المزايا

المعمارية المبتكرة: يوفر التصميم المفكك منظوراً بحثياً جديداً، مع تحليل منهجي للاختناقات الأساسية لـ RIS
التحقق التجريبي الشامل: تثبت تجارب الاستئصال الكثيرة فعالية كل مكون
القيمة العملية العالية: الطريقة بسيطة وفعالة وسهلة الاستنساخ والتطبيق
التحليل المتعمق: يجمع التحليل الكمي والنوعي، مما يوفر رؤى قيمة

أوجه القصور

نقص التحليل النظري: يفتقر إلى تحليل التقارب النظري لآلية التآزر الحلقي
التحقق من القابلية للتعميم: يتم التحقق بشكل أساسي على مجموعات البيانات القياسية، مع نقص تجارب التعميم عبر المجالات
مساحة تحسين الكفاءة: لا تزال الكفاءة الحسابية لتصميم الفرعين قابلة للتحسين

التأثير

المساهمة الأكاديمية: توفر نموذج تصميم معماري جديد لمجال RIS
القيمة العملية: الطريقة بسيطة وفعالة وسهلة الاستنساخ والتطبيق
الأهمية الإرشادية: يمكن تعميم فكرة فك الارتباط على مهام متعددة الأنماط الأخرى

السيناريوهات المناسبة

يناسب DeRIS بشكل خاص:

سيناريوهات التطبيق التي تتطلب تقسيماً عالي الدقة
مهام فهم الأوصاف اللغوية المعقدة
السيناريوهات المعممة للمراجع المتعددة وغير المرجعية
التطبيقات العملية التي لها متطلبات معينة لكفاءة الاستدلال

المراجع

تستشهد الورقة بـ 75 مرجعاً ذا صلة، تغطي مجالات RIS وفهم الرؤية واللغة وتقسيم الحالات والأعمال المهمة الأخرى ذات الصلة، مما يوفر أساساً نظرياً متيناً لهذا البحث.