Unified Open-World Segmentation with Multi-Modal Prompts
Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
এই গবেষণায় COSINE প্রস্তাব করা হয়েছে, যা একটি একীভূত খোলা-বিশ্ব বিভাজন মডেল যা খোলা শব্দভাণ্ডার বিভাজন এবং প্রসঙ্গ বিভাজনকে একীভূত করে এবং বহু-মোডাল প্রম্পট (যেমন পাঠ্য এবং চিত্র) সমর্থন করে। COSINE ভিত্তি মডেল ব্যবহার করে ইনপুট চিত্র এবং সংশ্লিষ্ট বহু-মোডাল প্রম্পটের প্রতিনিধিত্ব নিষ্কাশন করে এবং SegDecoder ব্যবহার করে এই প্রতিনিধিত্বগুলি সারিবদ্ধ করে, তাদের মিথস্ক্রিয়া মডেল করে এবং বিভিন্ন দানাদারিতায় ইনপুট প্রম্পট দ্বারা নির্দিষ্ট মাস্ক অর্জন করে। এই উপায়ে, COSINE পূর্ববর্তী খোলা শব্দভাণ্ডার বিভাজন এবং প্রসঙ্গ বিভাজন পাইপলাইনের স্থাপত্য পার্থক্য, শেখার উদ্দেশ্য বিচ্যুতি এবং প্রতিনিধিত্ব শেখার কৌশল পার্থক্য সমস্যাগুলি অতিক্রম করে। ব্যাপক পরীক্ষা-নিরীক্ষা দেখায় যে COSINE খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন কাজ উভয়েই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি প্রদান করে। অন্বেষণমূলক বিশ্লেষণ তুলে ধরে যে দৃশ্যমান এবং পাঠ্য প্রম্পটের সহযোগিতা একক-মোডাল পদ্ধতির তুলনায় সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।
ঐতিহ্যবাহী বন্ধ-বিশ্ব বিভাজন মডেলগুলি প্রশিক্ষণের সময় সম্মুখীন হওয়া নির্ধারিত শ্রেণীর সেটে সীমাবদ্ধ, যখন খোলা-বিশ্ব বিভাজন মডেলগুলি ব্যবহারকারী-প্রদত্ত প্রম্পটের উপর ভিত্তি করে বন্য পরিবেশে নির্বিচারে প্রাসঙ্গিক বস্তু সনাক্ত করতে হবে। বর্তমান খোলা-বিশ্ব বিভাজন গবেষণা প্রধানত দুটি ভিন্ন প্যারাডাইমের চারপাশে কেন্দ্রীভূত:
খোলা শব্দভাণ্ডার বিভাজন: শ্রেণী বর্ণনকারী থেকে উদ্ভূত পাঠ্য এম্বেডিং দিয়ে শিক্ষণীয় শ্রেণীবিভাজক প্রতিস্থাপন করা, প্রাকৃতিক ভাষা সারিবদ্ধতার মাধ্যমে ঐতিহ্যবাহী বন্ধ-সেট বিভাজন কাঠামো নতুন শ্রেণীগুলি স্বীকৃতি দিতে প্রসারিত করা
প্রসঙ্গ বিভাজন: প্রশ্ন চিত্রে অভিযোজিত বস্তু বিভাজন অর্জনের জন্য উদাহরণ চিত্রের প্রসঙ্গ সংকেত ব্যবহার করা
বিদ্যমান পদ্ধতিগুলি প্রধানত তিনটি মূল সমস্যা উপস্থাপন করে:
স্থাপত্য পার্থক্য: বিভিন্ন পদ্ধতি সম্পূর্ণভাবে ভিন্ন স্থাপত্য ডিজাইন গ্রহণ করে (যেমন SegGPT ViT এনকোডার স্থাপত্য ব্যবহার করে, ODISE Mask2Former এনকোডার-ডিকোডার কাঠামো গ্রহণ করে)
শেখার উদ্দেশ্য বিচ্যুতি: খোলা শব্দভাণ্ডার বিভাজন চিত্র-পাঠ্য শব্দার্থিক সারিবদ্ধতায় ফোকাস করে, যখন প্রসঙ্গ বিভাজন রেফারেন্স-প্রশ্ন সম্পর্ক মডেলিংয়ে জোর দেয়
প্রতিনিধিত্ব শেখার কৌশল পার্থক্য: খোলা শব্দভাণ্ডার বিভাজন শ্রেণী ম্যাচিংয়ের জন্য বহু-মোডাল মডেলের উপর নির্ভর করে, প্রসঙ্গ বিভাজন প্রধানত বস্তু সনাক্তকরণের জন্য দৃশ্যমান ভিত্তি মডেল ব্যবহার করে
এই দুটি প্যারাডাইম একীভূত করা গুরুত্বপূর্ণ: একচেটিয়াভাবে পাঠ্যের উপর নির্ভর করা সূক্ষ্ম-দানাদার শব্দার্থিক বিমূর্ততার অভাব হতে পারে, যখন চিত্র-ভিত্তিক উদাহরণগুলি প্রায়শই স্পষ্ট শ্রেণী সীমানা এবং শব্দার্থিক সারিবদ্ধতার অভাব রয়েছে। উভয়কে একীভূত করা পাঠ্য এবং দৃশ্যমান মোডালিটির পরিপূরক সুবিধাগুলি সম্পূর্ণভাবে কাজে লাগাতে পারে।
প্রথম একীভূত কাঠামো: লেখকদের জ্ঞান অনুযায়ী, এটি প্রসঙ্গ বিভাজন এবং খোলা শব্দভাণ্ডার বিভাজন একীভূত করার প্রথম পদ্ধতি, সহজ কিন্তু কার্যকর COSINE কাঠামো প্রস্তাব করে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন কাজ উভয়েই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
বহু-মোডাল সহযোগিতা অন্তর্দৃষ্টি: বিভিন্ন মোডাল শাখার মধ্যে সহযোগিতা খোলা-বিশ্ব বিভাজনের সাধারণীকরণ ক্ষমতা বৃদ্ধি করে, গবেষণা সম্প্রদায়ের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে
হালকা-ওজনের ডিজাইন: ভিত্তি মডেলগুলি হিমায়িত করে এবং শুধুমাত্র হালকা-ওজনের ডিকোডার প্রশিক্ষণ করে, খোলা-বিশ্ব উপলব্ধিতে ভিত্তি মডেলের সম্ভাবনা কার্যকরভাবে মুক্ত করে
দ্বৈত-পথ ডিজাইন গ্রহণ করে, স্ব-মনোযোগ এবং ক্রস-মনোযোগের মাধ্যমে বস্তু প্রশ্ন, বিভিন্ন মোডাল প্রম্পট এবং চিত্র বৈশিষ্ট্যের মধ্যে মিথস্ক্রিয়া প্রচার করে
একীভূত প্রতিনিধিত্ব স্থান: বিভিন্ন মোডাল ইনপুটকে মানক টোকেন সিকোয়েন্সে রূপান্তরিত করে, কাঠামোগত একীকরণ অর্জন করে
সহযোগী প্রশিক্ষণ কৌশল: প্রশিক্ষণের সময় চিত্র এবং পাঠ্য প্রম্পটের 1:1 নমুনা অনুপাত বজায় রাখে
বহু-মোডাল সহযোগিতা অনুমান: একক-মোডাল এবং বহু-মোডাল প্রম্পটের সহযোগিতা অনুমান সমর্থন করে, সহজ গড় মিশ্রণ প্রক্রিয়ার মাধ্যমে বিভিন্ন মোডাল তথ্য একীভূত করে
COSINE খোলা শব্দভাণ্ডার এবং প্রসঙ্গ বিভাজন একীভূত করার প্রথম পদ্ধতি, ভিত্তি মডেল হিমায়িত করে এবং হালকা-ওজনের ডিকোডার প্রশিক্ষণ করে, দুটি প্যারাডাইমের কার্যকর একীকরণ অর্জন করে।
পেপারটি বিভাজন, ভিত্তি মডেল, বহু-মোডাল শেখা ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে 73টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি কম্পিউটার দৃষ্টিভঙ্গিতে একটি উচ্চ-মানের পেপার, খোলা-বিশ্ব বিভাজনের এই গুরুত্বপূর্ণ সমস্যায় একটি উদ্ভাবনী একীভূত কাঠামো প্রস্তাব করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত অবদান স্পষ্ট, পরীক্ষা-নিরীক্ষার ফলাফল প্রভাবশালী এবং ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা রয়েছে।