Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic
পরিপূরক তথ্য নির্দেশিত দখল পূর্বাভাস বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের মাধ্যমে
ক্যামেরা-ভিত্তিক দখল পূর্বাভাস স্বয়ংচালিত গাড়ির 3D উপলব্ধি পদ্ধতির প্রধান পদ্ধতি, যার লক্ষ্য 2D চিত্র থেকে সম্পূর্ণ 3D দৃশ্য জ্যামিতি এবং শব্দার্থিক তথ্য অনুমান করা। বিদ্যমান পদ্ধতিগুলি প্রধানত কাঠামোগত সংশোধনের মাধ্যমে কর্মক্ষমতা উন্নত করে (যেমন হালকা মেরুদণ্ড নেটওয়ার্ক এবং জটিল ক্যাসকেড ফ্রেমওয়ার্ক), কিন্তু ফলাফল সীমিত। প্রতিনিধিত্ব সংমিশ্রণের দৃষ্টিকোণ থেকে অনুসন্ধান করার জন্য খুব কম গবেষণা রয়েছে, যার ফলে 2D চিত্রে সমৃদ্ধ বৈশিষ্ট্য বৈচিত্র্য সম্পূর্ণরূপে ব্যবহৃত হয় না। এই প্রেরণার উপর ভিত্তি করে, এই পত্রটি CIGOcc প্রস্তাব করে, একটি বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের উপর ভিত্তি করে একটি দুই-পর্যায়ের দখল পূর্বাভাস ফ্রেমওয়ার্ক। CIGOcc ইনপুট চিত্র থেকে বিভাজন, গ্রাফিক্স এবং গভীরতা বৈশিষ্ট্য নিষ্কাশন করে এবং এই তিনটি বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ করতে বিকৃত বহু-স্তরীয় সংমিশ্রণ প্রক্রিয়া প্রবর্তন করে। অতিরিক্তভাবে, CIGOcc SAM থেকে পাতিত জ্ঞান একত্রিত করে পূর্বাভাস নির্ভুলতা আরও উন্নত করতে। প্রশিক্ষণ খরচ বৃদ্ধি ছাড়াই, CIGOcc SemanticKITTI বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে।
এই পত্রটি যে মূল সমস্যাটি সমাধান করে তা হল ক্যামেরা-ভিত্তিক 3D শব্দার্থিক দৃশ্য সম্পূর্ণতা (Semantic Scene Completion, SSC), বিশেষত কীভাবে 2D চিত্র থেকে অবরুদ্ধ অঞ্চল সঠিকভাবে পুনর্নির্মাণ করতে হয় এবং ক্রস-ক্যামেরা জ্যামিতিগত সামঞ্জস্য বজায় রাখতে হয়।
কাঠামোগত অপ্টিমাইজেশনের সীমা: বিদ্যমান পদ্ধতিগুলি প্রধানত নেটওয়ার্ক আর্কিটেকচার অপ্টিমাইজেশনে মনোনিবেশ করে, চিত্র তথ্যের সম্পূর্ণ অনুসন্ধান এবং ব্যবহার উপেক্ষা করে
বৈশিষ্ট্য ব্যবহার অপর্যাপ্ত: প্রধানত গ্রাফিক্স বৈশিষ্ট্যে মনোনিবেশ করে (অবস্থান, আকার, রঙ, আকৃতি), শুধুমাত্র আংশিক শব্দার্থিক তথ্য প্রদান করে
বহু-স্তরীয় সংমিশ্রণের অভাব: বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের দৃষ্টিকোণ থেকে মডেলের 2D চিত্র বোঝার ক্ষমতা উন্নত করার গবেষণার অভাব
CIGOcc ফ্রেমওয়ার্ক: একটি নতুন দুই-পর্যায়ের ফ্রেমওয়ার্ক প্রস্তাব করে যা বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণ ব্যবহার করে লক্ষ্য নির্ভুলতা কম সমস্যা সমাধান করে, নির্ভুল 2D-থেকে-3D পুনর্নির্মাণ অর্জন করে, বিশেষত দূরবর্তী দৃশ্যে
বিকৃত বহু-স্তরীয় সংমিশ্রণ প্রক্রিয়া: একটি নতুন সংমিশ্রণ প্রক্রিয়া প্রস্তাব করে যা অভিযোজিতভাবে গভীরতা এবং শব্দার্থিক তথ্য কার্যকরভাবে সংমিশ্রণ করে, আরও ব্যাপক এবং নির্ভুল 3D পুনর্নির্মাণ নিশ্চিত করে
অত্যাধুনিক কর্মক্ষমতা: ক্যামেরা-ভিত্তিক SSC কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে, জটিল বাস্তব দৃশ্যে কার্যকারিতা এবং শক্তিশালীতা প্রদর্শন করে
ইনপুট: একক RGB চিত্র I ∈ R^(C×H×W)
আউটপুট: শব্দার্থিক ভক্সেল মানচিত্র Y^(C×X×Y×Z), যেখানে প্রতিটি ভক্সেল 20টি শব্দার্থিক শ্রেণীর একটিতে শ্রেণীবদ্ধ করা হয়
লক্ষ্য: 2D চিত্র থেকে সম্পূর্ণ 3D দৃশ্য জ্যামিতি এবং শব্দার্থিক তথ্য অনুমান করা
বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ: প্রথমবারের মতো উচ্চ-স্তরের বিভাজন বৈশিষ্ট্য, মধ্য-স্তরের গ্রাফিক্স বৈশিষ্ট্য এবং নিম্ন-স্তরের গভীরতা বৈশিষ্ট্য পদ্ধতিগতভাবে সংমিশ্রণ করে
বড় মডেল জ্ঞান পাতন: Grounded-SAM এর জ্ঞান কার্যকরভাবে দখল পূর্বাভাস কাজে পাতিত করে
বিকৃত মনোযোগ প্রক্রিয়া: উচ্চ-রেজোলিউশন চিত্র পরিচালনা করতে বিকৃত মনোযোগ গ্রহণ করে, গণনা জটিলতা হ্রাস করে
দুই-পর্যায়ের প্রশিক্ষণ কৌশল: বিভিন্ন স্তরের বৈশিষ্ট্য সংমিশ্রণ পর্যায়ক্রমে অপ্টিমাইজ করে
LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc এবং অন্যান্য প্রধান পদ্ধতি অন্তর্ভুক্ত
এই পত্রটি 46টি সম্পর্কিত তথ্যসূত্র উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
শব্দার্থিক দৃশ্য সম্পূর্ণতা মৌলিক কাজ (SSCNet, LMSCNet ইত্যাদি)
Transformer আর্কিটেকচার প্রয়োগ (VoxFormer, BEVFormer ইত্যাদি)
বড় দৃষ্টিভঙ্গি মডেল (SAM, Grounded-SAM ইত্যাদি)
গভীরতা অনুমান এবং 3D উপলব্ধি সম্পর্কিত কাজ
সারসংক্ষেপ: CIGOcc হল দখল পূর্বাভাস ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি কাজ, উদ্ভাবনী বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ কৌশল এবং বড় মডেল জ্ঞান পাতনের মাধ্যমে, গণনা দক্ষতা বজায় রেখে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। এই কাজটি দৃষ্টি-ভিত্তিক 3D উপলব্ধির জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে।