2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.

In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.

academic

التقسيم الموحد للعالم المفتوح مع المحفزات متعددة الأنماط

المعلومات الأساسية

معرّف الورقة: 2510.10524
العنوان: التقسيم الموحد للعالم المفتوح مع المحفزات متعددة الأنماط
المؤلفون: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
التصنيف: cs.CV
تاريخ النشر: 12 أكتوبر 2024 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10524

الملخص

تقدم هذه الدراسة COSINE، وهو نموذج تقسيم موحد للعالم المفتوح يدمج التقسيم بالمفردات المفتوحة والتقسيم السياقي، مع دعم المحفزات متعددة الأنماط (مثل النصوص والصور). يستفيد COSINE من النماذج الأساسية لاستخراج تمثيلات صورة الإدخال والمحفزات متعددة الأنماط المقابلة، ويستخدم SegDecoder لمحاذاة هذه التمثيلات وتصميم تفاعلاتها والحصول على أقنعة محددة بواسطة المحفزات المدخلة بدقة مختلفة. بهذه الطريقة، يتغلب COSINE على مشاكل خطوط أنابيب التقسيم بالمفردات المفتوحة والتقسيم السياقي السابقة فيما يتعلق بالاختلافات المعمارية والاختلافات في أهداف التعلم واختلافات استراتيجيات التعلم التمثيلي. تُظهر التجارب الشاملة تحسنًا ملحوظًا في الأداء على مهام التقسيم بالمفردات المفتوحة والسياقي. يُبرز التحليل الاستكشافي التعاون المتآزر بين المحفزات البصرية والنصية مقارنة بأساليب الأنماط الفردية في تحسين القدرة على التعميم بشكل ملحوظ.

الخلفية البحثية والدافع

تعريف المشكلة

تقتصر نماذج التقسيم بالعالم المغلق التقليدية على التعرف على مجموعة ثابتة من الفئات التي تمت مواجهتها أثناء التدريب، بينما تحتاج نماذج التقسيم بالعالم المفتوح إلى تحديد موقع الكائنات ذات الصلة بشكل تعسفي في بيئات برية بناءً على المحفزات المقدمة من المستخدم. يركز البحث الحالي في التقسيم بالعالم المفتوح بشكل أساسي على نموذجين مختلفين:

التقسيم بالمفردات المفتوحة: استبدال المصنفات القابلة للتعلم بتضمينات نصية مشتقة من واصفات الفئات، وتوسيع إطار العمل التقليدي للتقسيم بالمجموعة المغلقة إلى التعرف على فئات جديدة من خلال محاذاة اللغة الطبيعية
التقسيم السياقي: الاستفادة من الأدلة السياقية لصور الأمثلة لتحقيق تقسيم الكائنات التكيفي في صور الاستعلام

الدافع البحثي

تعاني الطرق الموجودة من ثلاث مشاكل أساسية:

الاختلافات المعمارية: تعتمد الطرق المختلفة على تصاميم معمارية مختلفة تمامًا (مثل SegGPT الذي يستخدم معمارية مشفر ViT، و ODISE التي تعتمد على بنية مشفر-فك تشفير Mask2Former)
اختلافات أهداف التعلم: يركز التقسيم بالمفردات المفتوحة على محاذاة الدلالات بين الصور والنصوص، بينما يركز التقسيم السياقي على تصميم علاقات المرجع والاستعلام
اختلافات استراتيجيات التعلم التمثيلي: يعتمد التقسيم بالمفردات المفتوحة على النماذج متعددة الأنماط لمطابقة الفئات، بينما يستخدم التقسيم السياقي بشكل أساسي نماذج الأساس البصرية لتحديد موقع الكائنات

الأهمية

يحمل توحيد هذين النموذجين أهمية كبيرة: الاعتماد على النصوص وحدها قد يؤدي إلى عدم كفاية الدلالات الدقيقة، بينما تفتقر الأمثلة القائمة على الصور غالبًا إلى حدود الفئات الواضحة والمحاذاة الدلالية. يمكن لدمج الاثنين أن يستفيد بالكامل من المزايا التكاملية للأنماط النصية والبصرية.

المساهمات الأساسية

إطار عمل موحد للمرة الأولى: حسب علم المؤلفين، هذه هي الطريقة الأولى التي توحد التقسيم السياقي والتقسيم بالمفردات المفتوحة، مع اقتراح إطار عمل COSINE بسيط وفعال
تحسن ملحوظ في الأداء: تحقيق تحسنًا ملحوظًا في الأداء على مهام التقسيم بالمفردات المفتوحة والسياقي
رؤى التعاون متعدد الأنماط: اكتشاف أن التعاون المتآزر بين فروع الأنماط المختلفة يعزز قدرة التعميم في التقسيم بالعالم المفتوح، مما يوفر رؤى قيمة لمجتمع البحث
تصميم خفيف الوزن: من خلال تجميد النماذج الأساسية وتدريب فك تشفير خفيف الوزن فقط، تم تحرير إمكانات النماذج الأساسية بشكل فعال في الإدراك بالعالم المفتوح

شرح الطريقة بالتفصيل

تعريف المهمة

يهدف COSINE إلى التعامل مع مهمة التقسيم الموحدة للعالم المفتوح، والمدخلات تشمل:

صورة الهدف
محفزات متعددة الأنماط (أوصاف نصية أو صور أمثلة)
المخرجات: أقنعة تقسيم بدقة مختلفة (تقسيم دلالي وتقسيم الحالات وتقسيم شامل، إلخ)

معمارية النموذج

التصميم الشامل

يعتمد COSINE على فلسفة تصميم بسيطة، تتضمن مكونين رئيسيين:

مجموعة النماذج (Model Pool): استخراج الميزات من صورة الهدف والمحفزات بأنماط مختلفة
SegDecoder: نموذج تقسيم فك تشفير فقط، يعالج ميزات الصور والمحفزات

مجموعة النماذج

النموذج البصري: مشفرات DINOv2 و CLIP البصرية
نموذج اللغة: مشفر نصوص CLIP
معالجة المدخلات:
- صورة الهدف: تشفير باستخدام جميع النماذج البصرية إلى ميزات صورة $F = \{F_i\}^P_i$
- المحفزات البصرية: تشفير باستخدام DINOv2 وتجميع بقناع السياق إلى رمز محفز $V = \{v_i\}^M_i$
- المحفزات النصية: استخراج ميزات نصية باستخدام نموذج اللغة $T = \{t_i\}^N_i$

معمارية SegDecoder

تتضمن أربع وحدات أساسية:

مجموعة المحولات:
- Feature Blender: دمج ميزات الصور المختلفة
- V-Adapter و T-Adapter: محاذاة أبعاد ميزات الصور والمحفزات بأنماط مختلفة
محاذي الصورة والمحفز (Image-Prompt Aligner):
```
⟨F', V', T'⟩ = Alignment(F, V, T; θ)
```
محاذاة الصور والمحفزات بأنماط مختلفة من خلال الانتباه الذاتي والانتباه المتقاطع والشبكات الأمامية
فك تشفير البكسل (Pixel Decoder):
- أحادي المقياس: طبقتا تحويل معكوسة، تحقيق 4× عينات زائدة
- متعدد المقياس: محول الانتباه المشوه
فك التشفير متعدد الأنماط (Multi-Modality Decoder):
```
⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
```
اعتماد تصميم ثنائي المسار، تعزيز التفاعل بين استعلامات الكائنات والمحفزات بأنماط مختلفة وميزات الصور من خلال الانتباه الذاتي والانتباه المتقاطع

نقاط الابتكار التقني

فضاء تمثيل موحد: تحويل المدخلات بأنماط مختلفة إلى تسلسل رموز معياري، تحقيق التوحيد الهيكلي
استراتيجية التدريب المتآزرة: الحفاظ على نسبة 1:1 من عينات الصور والمحفزات النصية أثناء التدريب
الاستدلال التعاوني متعدد الأنماط: دعم الاستدلال التعاوني للمحفزات أحادية الأنماط ومتعددة الأنماط، دمج معلومات الأنماط المختلفة من خلال آلية دمج متوسطة بسيطة

إعداد التجارب

مجموعات البيانات

COCO: 118K صورة تدريب، 5K صورة تحقق، دعم مهام تقسيم متعددة
Objects365: 365 فئة كائن، 638K صورة، استخدام نسخة Objects365-SAM المحسنة
مجموعات بيانات التقسيم المرجعي: refCLEF, refCOCO, refCOCO+, refCOCOg
مجموعات بيانات التقييم: LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019، إلخ

مؤشرات التقييم

التقسيم القليل العينات: mIoU (التعلم أحادي المرة والقليل المرات)
تقسيم الحالات: AP (جميع الفئات) و APr (الفئات النادرة)
التقسيم الشامل: PQ (جودة البانوراما) و AP
تقسيم الكائنات في الفيديو: درجة J&F
التقسيم المرجعي: cIoU

تفاصيل التنفيذ

النماذج الأساسية: DINOv2 (ViT-L) و CLIP (ConvNeXt-Large)
المعاملات القابلة للتدريب: 25M أحادي المقياس، 32M متعدد المقياس
إعدادات التدريب: 50K خطوة، حجم دفعة 64، محسّن Adam، معدل تعلم 1e-4
تعزيز البيانات: قلب أفقي عشوائي وهز بنطاق كبير (LSJ)

نتائج التجارب

النتائج الرئيسية

التقسيم الدلالي القليل العينات (LVIS-92i)

التعلم أحادي المرة: 35.2 mIoU (مقابل Matcher 33.0, SINE 31.2)
التعلم القليل المرات: 40.7 mIoU (مقابل Matcher 40.0, SINE 35.5)

تقسيم الحالات القليل العينات (LVIS)

AP: 20.3 (أفضل بكثير من DINOv 15.4)
APr: 25.8 (أداء ممتازة على الفئات النادرة)

التقسيم الشامل بالمفردات المفتوحة

ADE20K: PQ 31.0, AP 21.1 (أفضل من ODISE 23.4 PQ, 13.9 AP)
Cityscapes: PQ 35.7, AP 15.6 (مقارن مع طرق SOTA)

التقسيم الدلالي بالمفردات المفتوحة

A-847: 15.6 mIoU
PC-459: 19.2 mIoU

التجارب الاستئصالية

تأثير التفاعل البصري-النصي

مرحلة التدريب (10K خطوة تدريب):

فرع بصري فقط: LVIS-92i التعلم أحادي المرة 24.5 mIoU
فرع نصي فقط: ADE20K PQ 13.2
الاتحاد متعدد الأنماط: تحسن ملحوظ في أداء كلا الفرعين

مرحلة الاستدلال:

التعاون متعدد الأنماط يرفع LVIS-92i من 35.2 إلى 43.1 mIoU
على ADE20K من 31.0 إلى 31.4 PQ

تحليل مساهمة المكونات

مشفر DINOv2 فقط: انخفاض ملحوظ في الأداء على مهام المفردات المفتوحة
مشفر CLIP فقط: انخفاض الأداء على مهام السياق
إزالة Feature Blender: انخفاض واضح في الأداء
إزالة Image-Prompt Aligner: انخفاض في جميع المؤشرات

تحليل الحالات

تعرض الورقة نتائج نوعية في سيناريوهات متعددة:

الفحص الصناعي: التعاون بين المحفزات البصرية والنصية في تقسيم العيوب بدقة
التصوير الطبي: تطبيق المحفزات متعددة الأنماط في الصور الطبية المعقدة
السيناريوهات العامة: المعالجة الموحدة لمهام التقسيم بدقة مختلفة

الأعمال ذات الصلة

التقسيم بالعالم المفتوح

التقسيم بالمفردات المفتوحة: طرق ODISE, FC-CLIP, OpenSeeD وغيرها تركز على محاذاة النصوص والصور
التقسيم السياقي: طرق SegGPT, PerSAM, Matcher, DINOv وغيرها تستفيد من الأمثلة البصرية

نماذج الأساس البصري

التعلم الموجه ذاتيًا: MAE, DINOv2 توفر ميزات بصرية قوية
التعلم متعدد الأنماط: CLIP يحقق محاذاة الصور والنصوص من خلال التعلم التباعدي
التقسيم العام: SAM يحقق التقسيم الخالي من الفئات والخالي من العينات

الاختلاف عن الأعمال ذات الصلة

COSINE هي الطريقة الأولى التي توحد التقسيم بالمفردات المفتوحة والتقسيم السياقي، من خلال تجميد النماذج الأساسية وتدريب فك تشفير خفيف الوزن، تحقق التكامل الفعال للنموذجين.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الإطار الموحد: نجح COSINE في توحيد التقسيم بالمفردات المفتوحة والسياقي، وحقق أداء SOTA على مهام متعددة
أهمية التعاون متعدد الأنماط: يحسن التعاون بين المحفزات البصرية والنصية بشكل ملحوظ قدرة النموذج على التعميم
مزايا التصميم الخفيف الوزن: من خلال تجميد النماذج الأساسية، يحقق COSINE أداء قوية مع تقليل كبير في تكاليف التدريب

القيود

التضحية بأداء المجموعة المغلقة: لتعزيز قدرة التعميم بالعالم المفتوح، انخفضت الأداء في السيناريوهات المغلقة (مثل PQ على COCO 50.6 مقابل OpenSeeD 59.5)
قيود مجموعة النماذج: استكشاف فقط مجموعة محدودة من مجموعات النماذج الأساسية، لم يتم البحث العميق في MLLMs والنماذج الانتشارية الأكثر تقدمًا
التكلفة الحسابية: استخدام نماذج أساسية متعددة يزيد حتمًا من النفقات الحسابية

الاتجاهات المستقبلية

تقطير المعرفة: تقطير معرفة النماذج المتعددة إلى نموذج واحد لتقليل التكاليف الحسابية
نماذج أساسية أكثر: استكشاف MLLMs والنماذج الانتشارية وغيرها من النماذج الأساسية الأكثر تقدمًا
تحسين المعمارية: تحسين إضافي لتصميم المعمارية الموحدة

التقييم المتعمق

المزايا

ابتكار قوي: أول إطار عمل يوحد التقسيم بالمفردات المفتوحة والسياقي، يحل مشكلة تقنية مهمة
تجارب شاملة: تقييم شامل على مجموعات بيانات ومهام متعددة، بما في ذلك تجارب استئصالية مفصلة
مساهمات تقنية واضحة: توفير حل عملي من خلال تجميد النماذج الأساسية وتصميم فك تشفير خفيف الوزن
تحليل متعمق: استكشاف متعمق لتأثيرات التعاون متعدد الأنماط

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري لسبب فعالية التعاون متعدد الأنماط
قيود اختيار النموذج الأساسي: عدم استكشاف كافٍ لمجموعات النماذج الأساسية الأخرى المحتملة
تحليل كفاءة الحساب غير كافٍ: تحليل غير كافٍ للنفقات الحسابية الناجمة عن النماذج المتعددة

التأثير

القيمة الأكاديمية: توفير منظور توحيد جديد للتقسيم بالعالم المفتوح، قد يلهم الأبحاث اللاحقة
القيمة العملية: التصميم الخفيف الوزن يجعل الطريقة ذات تطبيق عملي جيد
قابلية التكرار: التزام المؤلفين بفتح الكود، مما يسهل اعتماد مجتمع البحث وتحسينه

السيناريوهات المعمول بها

القيادة الذاتية: الحاجة إلى التعرف على وتقسيم الكائنات المختلفة على الطريق
الروبوتات التفاعلية: الحاجة إلى التقسيم بناءً على تعليمات اللغة الطبيعية أو الأمثلة البصرية
تحليل الصور الطبية: دمج الأوصاف النصية والأمثلة البصرية لتقسيم الآفات
الكشف الصناعي: كشف العيوب بناءً على محفزات متعددة الأنماط

المراجع

تستشهد الورقة بـ 73 مرجعًا ذا صلة، تغطي أعمالًا مهمة في مجالات التقسيم والنماذج الأساسية والتعلم متعدد الأنماط وغيرها، مما يوفر أساسًا نظريًا متينًا للبحث.

التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح إطار عمل موحد مبتكر لمشكلة مهمة في التقسيم بالعالم المفتوح. على الرغم من وجود بعض القيود، فإن مساهماتها التقنية واضحة، ونتائج تجاربها مقنعة، وتحمل أهمية كبيرة في دفع تطور المجال.