2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.

In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.

academic

একীভূত খোলা-বিশ্ব বিভাজন বহু-মোডাল প্রম্পটের সাথে

মৌলিক তথ্য

পেপার আইডি: 2510.10524
শিরোনাম: একীভূত খোলা-বিশ্ব বিভাজন বহু-মোডাল প্রম্পটের সাথে
লেখক: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
শ্রেণীবিভাগ: cs.CV
প্রকাশনার সময়: ২০২৪ সালের ১২ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10524

সারসংক্ষেপ

এই গবেষণায় COSINE প্রস্তাব করা হয়েছে, যা একটি একীভূত খোলা-বিশ্ব বিভাজন মডেল যা খোলা শব্দভাণ্ডার বিভাজন এবং প্রসঙ্গ বিভাজনকে একীভূত করে এবং বহু-মোডাল প্রম্পট (যেমন পাঠ্য এবং চিত্র) সমর্থন করে। COSINE ভিত্তি মডেল ব্যবহার করে ইনপুট চিত্র এবং সংশ্লিষ্ট বহু-মোডাল প্রম্পটের প্রতিনিধিত্ব নিষ্কাশন করে এবং SegDecoder ব্যবহার করে এই প্রতিনিধিত্বগুলি সারিবদ্ধ করে, তাদের মিথস্ক্রিয়া মডেল করে এবং বিভিন্ন দানাদারিতায় ইনপুট প্রম্পট দ্বারা নির্দিষ্ট মাস্ক অর্জন করে। এই উপায়ে, COSINE পূর্ববর্তী খোলা শব্দভাণ্ডার বিভাজন এবং প্রসঙ্গ বিভাজন পাইপলাইনের স্থাপত্য পার্থক্য, শেখার উদ্দেশ্য বিচ্যুতি এবং প্রতিনিধিত্ব শেখার কৌশল পার্থক্য সমস্যাগুলি অতিক্রম করে। ব্যাপক পরীক্ষা-নিরীক্ষা দেখায় যে COSINE খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন কাজ উভয়েই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রদান করে। অন্বেষণমূলক বিশ্লেষণ তুলে ধরে যে দৃশ্যমান এবং পাঠ্য প্রম্পটের সহযোগিতা একক-মোডাল পদ্ধতির তুলনায় সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।

গবেষণার পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ঐতিহ্যবাহী বন্ধ-বিশ্ব বিভাজন মডেলগুলি প্রশিক্ষণের সময় সম্মুখীন হওয়া নির্ধারিত শ্রেণীর সেটে সীমাবদ্ধ, যখন খোলা-বিশ্ব বিভাজন মডেলগুলি ব্যবহারকারী-প্রদত্ত প্রম্পটের উপর ভিত্তি করে বন্য পরিবেশে নির্বিচারে প্রাসঙ্গিক বস্তু সনাক্ত করতে হবে। বর্তমান খোলা-বিশ্ব বিভাজন গবেষণা প্রধানত দুটি ভিন্ন প্যারাডাইমের চারপাশে কেন্দ্রীভূত:

খোলা শব্দভাণ্ডার বিভাজন: শ্রেণী বর্ণনকারী থেকে উদ্ভূত পাঠ্য এম্বেডিং দিয়ে শিক্ষণীয় শ্রেণীবিভাজক প্রতিস্থাপন করা, প্রাকৃতিক ভাষা সারিবদ্ধতার মাধ্যমে ঐতিহ্যবাহী বন্ধ-সেট বিভাজন কাঠামো নতুন শ্রেণীগুলি স্বীকৃতি দিতে প্রসারিত করা
প্রসঙ্গ বিভাজন: প্রশ্ন চিত্রে অভিযোজিত বস্তু বিভাজন অর্জনের জন্য উদাহরণ চিত্রের প্রসঙ্গ সংকেত ব্যবহার করা

গবেষণার প্রেরণা

বিদ্যমান পদ্ধতিগুলি প্রধানত তিনটি মূল সমস্যা উপস্থাপন করে:

স্থাপত্য পার্থক্য: বিভিন্ন পদ্ধতি সম্পূর্ণভাবে ভিন্ন স্থাপত্য ডিজাইন গ্রহণ করে (যেমন SegGPT ViT এনকোডার স্থাপত্য ব্যবহার করে, ODISE Mask2Former এনকোডার-ডিকোডার কাঠামো গ্রহণ করে)
শেখার উদ্দেশ্য বিচ্যুতি: খোলা শব্দভাণ্ডার বিভাজন চিত্র-পাঠ্য শব্দার্থিক সারিবদ্ধতায় ফোকাস করে, যখন প্রসঙ্গ বিভাজন রেফারেন্স-প্রশ্ন সম্পর্ক মডেলিংয়ে জোর দেয়
প্রতিনিধিত্ব শেখার কৌশল পার্থক্য: খোলা শব্দভাণ্ডার বিভাজন শ্রেণী ম্যাচিংয়ের জন্য বহু-মোডাল মডেলের উপর নির্ভর করে, প্রসঙ্গ বিভাজন প্রধানত বস্তু সনাক্তকরণের জন্য দৃশ্যমান ভিত্তি মডেল ব্যবহার করে

গুরুত্ব

এই দুটি প্যারাডাইম একীভূত করা গুরুত্বপূর্ণ: একচেটিয়াভাবে পাঠ্যের উপর নির্ভর করা সূক্ষ্ম-দানাদার শব্দার্থিক বিমূর্ততার অভাব হতে পারে, যখন চিত্র-ভিত্তিক উদাহরণগুলি প্রায়শই স্পষ্ট শ্রেণী সীমানা এবং শব্দার্থিক সারিবদ্ধতার অভাব রয়েছে। উভয়কে একীভূত করা পাঠ্য এবং দৃশ্যমান মোডালিটির পরিপূরক সুবিধাগুলি সম্পূর্ণভাবে কাজে লাগাতে পারে।

মূল অবদান

প্রথম একীভূত কাঠামো: লেখকদের জ্ঞান অনুযায়ী, এটি প্রসঙ্গ বিভাজন এবং খোলা শব্দভাণ্ডার বিভাজন একীভূত করার প্রথম পদ্ধতি, সহজ কিন্তু কার্যকর COSINE কাঠামো প্রস্তাব করে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন কাজ উভয়েই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
বহু-মোডাল সহযোগিতা অন্তর্দৃষ্টি: বিভিন্ন মোডাল শাখার মধ্যে সহযোগিতা খোলা-বিশ্ব বিভাজনের সাধারণীকরণ ক্ষমতা বৃদ্ধি করে, গবেষণা সম্প্রদায়ের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে
হালকা-ওজনের ডিজাইন: ভিত্তি মডেলগুলি হিমায়িত করে এবং শুধুমাত্র হালকা-ওজনের ডিকোডার প্রশিক্ষণ করে, খোলা-বিশ্ব উপলব্ধিতে ভিত্তি মডেলের সম্ভাবনা কার্যকরভাবে মুক্ত করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

COSINE একীভূত খোলা-বিশ্ব বিভাজন কাজ পরিচালনা করার লক্ষ্য রাখে, ইনপুট অন্তর্ভুক্ত করে:

লক্ষ্য চিত্র
বহু-মোডাল প্রম্পট (পাঠ্য বর্ণনা বা উদাহরণ চিত্র)
আউটপুট: বিভিন্ন দানাদারিতার বিভাজন মাস্ক (শব্দার্থিক, উদাহরণ, সর্বজনীন বিভাজন ইত্যাদি)

মডেল স্থাপত্য

সামগ্রিক ডিজাইন

COSINE সহজ ডিজাইন দর্শন গ্রহণ করে, দুটি প্রধান উপাদান অন্তর্ভুক্ত করে:

মডেল পুল (Model Pool): লক্ষ্য চিত্র এবং বিভিন্ন মোডাল প্রম্পটের বৈশিষ্ট্য নিষ্কাশন করে
SegDecoder: শুধুমাত্র ডিকোডার বিভাজন মডেল, চিত্র এবং প্রম্পট বৈশিষ্ট্য প্রক্রিয়া করে

মডেল পুল

দৃশ্যমান মডেল: DINOv2 এবং CLIP দৃশ্যমান এনকোডার
ভাষা মডেল: CLIP পাঠ্য এনকোডার
ইনপুট প্রক্রিয়াকরণ:
- লক্ষ্য চিত্র: সমস্ত দৃশ্যমান মডেল ব্যবহার করে চিত্র বৈশিষ্ট্যে এনকোড করা হয় $F = \{F_i\}^P_i$
- দৃশ্যমান প্রম্পট: DINOv2 ব্যবহার করে এনকোড করা হয় এবং প্রসঙ্গ মাস্ক পুলিং দিয়ে প্রম্পট টোকেনে রূপান্তরিত হয় $V = \{v_i\}^M_i$
- পাঠ্য প্রম্পট: ভাষা মডেল ব্যবহার করে পাঠ্য বৈশিষ্ট্য নিষ্কাশন করা হয় $T = \{t_i\}^N_i$

SegDecoder স্থাপত্য

চারটি মূল মডিউল অন্তর্ভুক্ত করে:

অ্যাডাপ্টার গ্রুপ:
- Feature Blender: বিভিন্ন চিত্র বৈশিষ্ট্য মিশ্রিত করে
- V-Adapter এবং T-Adapter: চিত্র এবং বিভিন্ন মোডাল প্রম্পটের বৈশিষ্ট্য মাত্রা সারিবদ্ধ করে
চিত্র-প্রম্পট সারিবদ্ধকারী (Image-Prompt Aligner):
```
⟨F', V', T'⟩ = Alignment(F, V, T; θ)
```
স্ব-মনোযোগ, ক্রস-মনোযোগ এবং ফিডফরওয়ার্ড নেটওয়ার্কের মাধ্যমে চিত্র এবং বিভিন্ন মোডাল প্রম্পট সারিবদ্ধ করে
পিক্সেল ডিকোডার (Pixel Decoder):
- একক-স্কেল: দুটি ট্রান্সপোজ কনভোলিউশন স্তর, 4× আপসাম্পলিং বাস্তবায়ন করে
- বহু-স্কেল: পরিবর্তনশীল মনোযোগ Transformer
বহু-মোডাল ডিকোডার (Multi-Modality Decoder):
```
⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
```
দ্বৈত-পথ ডিজাইন গ্রহণ করে, স্ব-মনোযোগ এবং ক্রস-মনোযোগের মাধ্যমে বস্তু প্রশ্ন, বিভিন্ন মোডাল প্রম্পট এবং চিত্র বৈশিষ্ট্যের মধ্যে মিথস্ক্রিয়া প্রচার করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

একীভূত প্রতিনিধিত্ব স্থান: বিভিন্ন মোডাল ইনপুটকে মানক টোকেন সিকোয়েন্সে রূপান্তরিত করে, কাঠামোগত একীকরণ অর্জন করে
সহযোগী প্রশিক্ষণ কৌশল: প্রশিক্ষণের সময় চিত্র এবং পাঠ্য প্রম্পটের 1:1 নমুনা অনুপাত বজায় রাখে
বহু-মোডাল সহযোগিতা অনুমান: একক-মোডাল এবং বহু-মোডাল প্রম্পটের সহযোগিতা অনুমান সমর্থন করে, সহজ গড় মিশ্রণ প্রক্রিয়ার মাধ্যমে বিভিন্ন মোডাল তথ্য একীভূত করে

পরীক্ষা-নিরীক্ষার সেটআপ

ডেটাসেট

COCO: 118K প্রশিক্ষণ চিত্র, 5K যাচাইকরণ চিত্র, একাধিক বিভাজন কাজ সমর্থন করে
Objects365: 365টি বস্তু শ্রেণী, 638K চিত্র, Objects365-SAM বর্ধিত সংস্করণ ব্যবহার করে
রেফারেন্স বিভাজন ডেটাসেট: refCLEF, refCOCO, refCOCO+, refCOCOg
মূল্যায়ন ডেটাসেট: LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019 ইত্যাদি

মূল্যায়ন মেট্রিক্স

কম-নমুনা বিভাজন: mIoU (এক-শট এবং কম-শট শেখা)
উদাহরণ বিভাজন: AP (সমস্ত শ্রেণী) এবং APr (বিরল শ্রেণী)
সর্বজনীন বিভাজন: PQ (সর্বজনীন গুণমান) এবং AP
ভিডিও বস্তু বিভাজন: J&F স্কোর
রেফারেন্স বিভাজন: cIoU

বাস্তবায়ন বিবরণ

ভিত্তি মডেল: DINOv2 (ViT-L) এবং CLIP (ConvNeXt-Large)
প্রশিক্ষণযোগ্য পরামিতি: একক-স্কেল 25M, বহু-স্কেল 32M
প্রশিক্ষণ সেটিংস: 50K ধাপ, ব্যাচ আকার 64, Adam অপ্টিমাইজার, শেখার হার 1e-4
ডেটা বর্ধন: র্যান্ডম অনুভূমিক ফ্লিপ এবং বড় স্কেল জিটার (LSJ)

পরীক্ষা-নিরীক্ষার ফলাফল

প্রধান ফলাফল

কম-নমুনা শব্দার্থিক বিভাজন (LVIS-92i)

এক-শট শেখা: 35.2 mIoU (বনাম Matcher 33.0, SINE 31.2)
কম-শট শেখা: 40.7 mIoU (বনাম Matcher 40.0, SINE 35.5)

কম-নমুনা উদাহরণ বিভাজন (LVIS)

AP: 20.3 (DINOv এর 15.4 থেকে উল্লেখযোগ্যভাবে উন্নত)
APr: 25.8 (বিরল শ্রেণীতে চমৎকার কর্মক্ষমতা)

খোলা শব্দভাণ্ডার সর্বজনীন বিভাজন

ADE20K: PQ 31.0, AP 21.1 (ODISE এর 23.4 PQ, 13.9 AP এর চেয়ে উন্নত)
Cityscapes: PQ 35.7, AP 15.6 (SOTA পদ্ধতির সাথে তুলনীয়)

খোলা শব্দভাণ্ডার শব্দার্থিক বিভাজন

A-847: 15.6 mIoU
PC-459: 19.2 mIoU

বিলোপন পরীক্ষা-নিরীক্ষা

দৃশ্যমান-পাঠ্য মিথস্ক্রিয়া প্রভাব

প্রশিক্ষণ পর্যায় (10K ধাপ প্রশিক্ষণ):

শুধুমাত্র দৃশ্যমান শাখা: LVIS-92i এক-শট শেখা 24.5 mIoU
শুধুমাত্র পাঠ্য শাখা: ADE20K PQ 13.2
বহু-মোডাল যৌথ: উভয় শাখার কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত

অনুমান পর্যায়:

বহু-মোডাল সহযোগিতা LVIS-92i তে 35.2 থেকে 43.1 mIoU এ উন্নত করে
ADE20K তে 31.0 থেকে 31.4 PQ এ উন্নত করে

উপাদান অবদান বিশ্লেষণ

শুধুমাত্র DINOv2 এনকোডার: খোলা শব্দভাণ্ডার কাজে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস
শুধুমাত্র CLIP এনকোডার: প্রসঙ্গ কাজে কর্মক্ষমতা হ্রাস
Feature Blender অপসারণ: কর্মক্ষমতা স্পষ্টভাবে হ্রাস
Image-Prompt Aligner অপসারণ: সমস্ত সূচক হ্রাস

কেস বিশ্লেষণ

পেপারটি বিভিন্ন পরিস্থিতিতে গুণগত ফলাফল প্রদর্শন করে:

শিল্প পরিদর্শন: দৃশ্যমান এবং পাঠ্য প্রম্পট সহযোগিতা ত্রুটি সঠিকভাবে বিভাজন করে
চিকিৎসা চিত্র: জটিল চিকিৎসা চিত্রে বহু-মোডাল প্রম্পটের প্রয়োগ
সাধারণ দৃশ্য: বিভিন্ন দানাদারিতা বিভাজন কাজের একীভূত পরিচালনা

একীভূত কাঠামোর কার্যকারিতা: COSINE সফলভাবে খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন একীভূত করে, একাধিক কাজে SOTA কর্মক্ষমতা অর্জন করে
বহু-মোডাল সহযোগিতার গুরুত্ব: দৃশ্যমান এবং পাঠ্য প্রম্পটের সহযোগিতা মডেলের সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
হালকা-ওজনের ডিজাইনের সুবিধা: ভিত্তি মডেল হিমায়িত করে, COSINE শক্তিশালী কর্মক্ষমতা বজায় রেখে প্রশিক্ষণ খরচ উল্লেখযোগ্যভাবে হ্রাস করে

সীমাবদ্ধতা

বন্ধ-সেট কর্মক্ষমতা ত্যাগ: খোলা-বিশ্ব সাধারণীকরণ ক্ষমতা বৃদ্ধির জন্য, বন্ধ-সেট পরিস্থিতিতে কর্মক্ষমতা হ্রাস পায় (যেমন COCO তে PQ 50.6 বনাম OpenSeeD 59.5)
মডেল পুল সীমাবদ্ধতা: শুধুমাত্র সীমিত ভিত্তি মডেল সমন্বয় অন্বেষণ করা হয়েছে, আরও উন্নত MLLMs এবং বিস্তার মডেলগুলি গভীরভাবে গবেষণা করা হয়নি
গণনা খরচ: একাধিক ভিত্তি মডেল ব্যবহার অনিবার্যভাবে গণনা ওভারহেড বৃদ্ধি করে

ভবিষ্যত দিকনির্দেশনা

জ্ঞান পাতন: একাধিক মডেলের জ্ঞান একটি একক মডেলে পাতন করা গণনা খরচ হ্রাস করতে
আরও ভিত্তি মডেল: MLLMs, বিস্তার মডেল ইত্যাদি আরও উন্নত ভিত্তি মডেল অন্বেষণ করা
স্থাপত্য অপ্টিমাইজেশন: একীভূত স্থাপত্য ডিজাইন আরও অপ্টিমাইজ করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন একীভূত করার প্রথম কাঠামো, গুরুত্বপূর্ণ প্রযুক্তিগত সমস্যা সমাধান করে
ব্যাপক পরীক্ষা-নিরীক্ষা: একাধিক ডেটাসেট এবং কাজে ব্যাপক মূল্যায়ন, বিস্তারিত বিলোপন পরীক্ষা-নিরীক্ষা সহ
স্পষ্ট প্রযুক্তিগত অবদান: ভিত্তি মডেল হিমায়িত করে এবং হালকা-ওজনের ডিকোডার ডিজাইনের মাধ্যমে, ব্যবহারিক সমাধান প্রদান করে
গভীর বিশ্লেষণ: বহু-মোডাল সহযোগিতা প্রভাব গভীর অন্বেষণমূলক বিশ্লেষণ

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: বহু-মোডাল সহযোগিতা কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা অভাব
ভিত্তি মডেল নির্বাচন সীমাবদ্ধতা: অন্যান্য সম্ভাব্য ভিত্তি মডেল সমন্বয় যথেষ্ট অন্বেষণ করা হয়নি
গণনা দক্ষতা বিশ্লেষণ অপর্যাপ্ত: একাধিক মডেল দ্বারা আনা গণনা ওভারহেড বিশ্লেষণ যথেষ্ট বিস্তারিত নয়

প্রভাব

একাডেমিক মূল্য: খোলা-বিশ্ব বিভাজনের জন্য নতুন একীভূত দৃষ্টিভঙ্গি প্রদান করে, পরবর্তী গবেষণা অনুপ্রাণিত করতে পারে
ব্যবহারিক মূল্য: হালকা-ওজনের ডিজাইন পদ্ধতিকে ভাল ব্যবহারযোগ্যতা প্রদান করে
পুনরুৎপাদনযোগ্যতা: লেখকরা কোড খোলা-উৎস করার প্রতিশ্রুতি দিয়েছেন, গবেষণা সম্প্রদায়ের গ্রহণ এবং উন্নতি সহজতর করে

প্রযোজ্য পরিস্থিতি

স্বয়ংচালিত চালনা: রাস্তায় বিভিন্ন বস্তু সনাক্ত এবং বিভাজন করতে হবে
ইন্টারেক্টিভ রোবটিক্স: প্রাকৃতিক ভাষা নির্দেশনা বা দৃশ্যমান উদাহরণের উপর ভিত্তি করে বিভাজন করতে হবে
চিকিৎসা চিত্র বিশ্লেষণ: পাঠ্য বর্ণনা এবং দৃশ্যমান উদাহরণ একত্রিত করে রোগ বিভাজন করা
শিল্প সনাক্তকরণ: বহু-মোডাল প্রম্পটের উপর ভিত্তি করে ত্রুটি সনাক্তকরণ

রেফারেন্স

পেপারটি বিভাজন, ভিত্তি মডেল, বহু-মোডাল শেখা ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে 73টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি কম্পিউটার দৃষ্টিভঙ্গিতে একটি উচ্চ-মানের পেপার, খোলা-বিশ্ব বিভাজনের এই গুরুত্বপূর্ণ সমস্যায় একটি উদ্ভাবনী একীভূত কাঠামো প্রস্তাব করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত অবদান স্পষ্ট, পরীক্ষা-নিরীক্ষার ফলাফল প্রভাবশালী এবং ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা রয়েছে।