Unified Open-World Segmentation with Multi-Modal Prompts
Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic
التقسيم الموحد للعالم المفتوح مع المحفزات متعددة الأنماط
تقدم هذه الدراسة COSINE، وهو نموذج تقسيم موحد للعالم المفتوح يدمج التقسيم بالمفردات المفتوحة والتقسيم السياقي، مع دعم المحفزات متعددة الأنماط (مثل النصوص والصور). يستفيد COSINE من النماذج الأساسية لاستخراج تمثيلات صورة الإدخال والمحفزات متعددة الأنماط المقابلة، ويستخدم SegDecoder لمحاذاة هذه التمثيلات وتصميم تفاعلاتها والحصول على أقنعة محددة بواسطة المحفزات المدخلة بدقة مختلفة. بهذه الطريقة، يتغلب COSINE على مشاكل خطوط أنابيب التقسيم بالمفردات المفتوحة والتقسيم السياقي السابقة فيما يتعلق بالاختلافات المعمارية والاختلافات في أهداف التعلم واختلافات استراتيجيات التعلم التمثيلي. تُظهر التجارب الشاملة تحسنًا ملحوظًا في الأداء على مهام التقسيم بالمفردات المفتوحة والسياقي. يُبرز التحليل الاستكشافي التعاون المتآزر بين المحفزات البصرية والنصية مقارنة بأساليب الأنماط الفردية في تحسين القدرة على التعميم بشكل ملحوظ.
تقتصر نماذج التقسيم بالعالم المغلق التقليدية على التعرف على مجموعة ثابتة من الفئات التي تمت مواجهتها أثناء التدريب، بينما تحتاج نماذج التقسيم بالعالم المفتوح إلى تحديد موقع الكائنات ذات الصلة بشكل تعسفي في بيئات برية بناءً على المحفزات المقدمة من المستخدم. يركز البحث الحالي في التقسيم بالعالم المفتوح بشكل أساسي على نموذجين مختلفين:
التقسيم بالمفردات المفتوحة: استبدال المصنفات القابلة للتعلم بتضمينات نصية مشتقة من واصفات الفئات، وتوسيع إطار العمل التقليدي للتقسيم بالمجموعة المغلقة إلى التعرف على فئات جديدة من خلال محاذاة اللغة الطبيعية
التقسيم السياقي: الاستفادة من الأدلة السياقية لصور الأمثلة لتحقيق تقسيم الكائنات التكيفي في صور الاستعلام
الاختلافات المعمارية: تعتمد الطرق المختلفة على تصاميم معمارية مختلفة تمامًا (مثل SegGPT الذي يستخدم معمارية مشفر ViT، و ODISE التي تعتمد على بنية مشفر-فك تشفير Mask2Former)
اختلافات أهداف التعلم: يركز التقسيم بالمفردات المفتوحة على محاذاة الدلالات بين الصور والنصوص، بينما يركز التقسيم السياقي على تصميم علاقات المرجع والاستعلام
اختلافات استراتيجيات التعلم التمثيلي: يعتمد التقسيم بالمفردات المفتوحة على النماذج متعددة الأنماط لمطابقة الفئات، بينما يستخدم التقسيم السياقي بشكل أساسي نماذج الأساس البصرية لتحديد موقع الكائنات
يحمل توحيد هذين النموذجين أهمية كبيرة: الاعتماد على النصوص وحدها قد يؤدي إلى عدم كفاية الدلالات الدقيقة، بينما تفتقر الأمثلة القائمة على الصور غالبًا إلى حدود الفئات الواضحة والمحاذاة الدلالية. يمكن لدمج الاثنين أن يستفيد بالكامل من المزايا التكاملية للأنماط النصية والبصرية.
إطار عمل موحد للمرة الأولى: حسب علم المؤلفين، هذه هي الطريقة الأولى التي توحد التقسيم السياقي والتقسيم بالمفردات المفتوحة، مع اقتراح إطار عمل COSINE بسيط وفعال
تحسن ملحوظ في الأداء: تحقيق تحسنًا ملحوظًا في الأداء على مهام التقسيم بالمفردات المفتوحة والسياقي
رؤى التعاون متعدد الأنماط: اكتشاف أن التعاون المتآزر بين فروع الأنماط المختلفة يعزز قدرة التعميم في التقسيم بالعالم المفتوح، مما يوفر رؤى قيمة لمجتمع البحث
تصميم خفيف الوزن: من خلال تجميد النماذج الأساسية وتدريب فك تشفير خفيف الوزن فقط، تم تحرير إمكانات النماذج الأساسية بشكل فعال في الإدراك بالعالم المفتوح
فضاء تمثيل موحد: تحويل المدخلات بأنماط مختلفة إلى تسلسل رموز معياري، تحقيق التوحيد الهيكلي
استراتيجية التدريب المتآزرة: الحفاظ على نسبة 1:1 من عينات الصور والمحفزات النصية أثناء التدريب
الاستدلال التعاوني متعدد الأنماط: دعم الاستدلال التعاوني للمحفزات أحادية الأنماط ومتعددة الأنماط، دمج معلومات الأنماط المختلفة من خلال آلية دمج متوسطة بسيطة
COSINE هي الطريقة الأولى التي توحد التقسيم بالمفردات المفتوحة والتقسيم السياقي، من خلال تجميد النماذج الأساسية وتدريب فك تشفير خفيف الوزن، تحقق التكامل الفعال للنموذجين.
تستشهد الورقة بـ 73 مرجعًا ذا صلة، تغطي أعمالًا مهمة في مجالات التقسيم والنماذج الأساسية والتعلم متعدد الأنماط وغيرها، مما يوفر أساسًا نظريًا متينًا للبحث.
التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح إطار عمل موحد مبتكر لمشكلة مهمة في التقسيم بالعالم المفتوح. على الرغم من وجود بعض القيود، فإن مساهماتها التقنية واضحة، ونتائج تجاربها مقنعة، وتحمل أهمية كبيرة في دفع تطور المجال.