2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.

Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc

academic

পরিপূরক তথ্য নির্দেশিত দখল পূর্বাভাস বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2510.13198
শিরোনাম: পরিপূরক তথ্য নির্দেশিত দখল পূর্বাভাস বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের মাধ্যমে
লেখক: রংতাও জু, জিনঝো লিন, জিয়ালেই ঝো, জিয়াহুয়া ডং, চ্যাংওয়েই ওয়াং, রুইশেং ওয়াং, লি গুও, শিবিয়াও জু, জিয়াওডান লিয়াং
বিভাগ: cs.CV (কম্পিউটার দৃষ্টিভঙ্গি)
প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2510.13198v1
কোড লিংক: https://github.com/VitaLemonTea1/CIGOcc

সারসংক্ষেপ

ক্যামেরা-ভিত্তিক দখল পূর্বাভাস স্বয়ংচালিত গাড়ির 3D উপলব্ধি পদ্ধতির প্রধান পদ্ধতি, যার লক্ষ্য 2D চিত্র থেকে সম্পূর্ণ 3D দৃশ্য জ্যামিতি এবং শব্দার্থিক তথ্য অনুমান করা। বিদ্যমান পদ্ধতিগুলি প্রধানত কাঠামোগত সংশোধনের মাধ্যমে কর্মক্ষমতা উন্নত করে (যেমন হালকা মেরুদণ্ড নেটওয়ার্ক এবং জটিল ক্যাসকেড ফ্রেমওয়ার্ক), কিন্তু ফলাফল সীমিত। প্রতিনিধিত্ব সংমিশ্রণের দৃষ্টিকোণ থেকে অনুসন্ধান করার জন্য খুব কম গবেষণা রয়েছে, যার ফলে 2D চিত্রে সমৃদ্ধ বৈশিষ্ট্য বৈচিত্র্য সম্পূর্ণরূপে ব্যবহৃত হয় না। এই প্রেরণার উপর ভিত্তি করে, এই পত্রটি CIGOcc প্রস্তাব করে, একটি বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের উপর ভিত্তি করে একটি দুই-পর্যায়ের দখল পূর্বাভাস ফ্রেমওয়ার্ক। CIGOcc ইনপুট চিত্র থেকে বিভাজন, গ্রাফিক্স এবং গভীরতা বৈশিষ্ট্য নিষ্কাশন করে এবং এই তিনটি বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ করতে বিকৃত বহু-স্তরীয় সংমিশ্রণ প্রক্রিয়া প্রবর্তন করে। অতিরিক্তভাবে, CIGOcc SAM থেকে পাতিত জ্ঞান একত্রিত করে পূর্বাভাস নির্ভুলতা আরও উন্নত করতে। প্রশিক্ষণ খরচ বৃদ্ধি ছাড়াই, CIGOcc SemanticKITTI বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

গবেষণা সমস্যা

এই পত্রটি যে মূল সমস্যাটি সমাধান করে তা হল ক্যামেরা-ভিত্তিক 3D শব্দার্থিক দৃশ্য সম্পূর্ণতা (Semantic Scene Completion, SSC), বিশেষত কীভাবে 2D চিত্র থেকে অবরুদ্ধ অঞ্চল সঠিকভাবে পুনর্নির্মাণ করতে হয় এবং ক্রস-ক্যামেরা জ্যামিতিগত সামঞ্জস্য বজায় রাখতে হয়।

সমস্যার গুরুত্ব

স্বয়ংচালিত গাড়ির চাহিদা: SSC স্বয়ংচালিত গাড়ি এবং রোবোটিক্সে 3D উপলব্ধির একটি মূল সমাধান
খরচ-কার্যকারিতা: LiDAR এর মতো সেন্সরের তুলনায় ক্যামেরা-ভিত্তিক পদ্ধতি উচ্চ খরচ-কার্যকর
প্রযুক্তিগত চ্যালেঞ্জ: অবরুদ্ধ অঞ্চল সঠিক পুনর্নির্মাণ এবং জ্যামিতিগত সামঞ্জস্য বজায় রাখা এখনও প্রযুক্তিগত বাধা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

কাঠামোগত অপ্টিমাইজেশনের সীমা: বিদ্যমান পদ্ধতিগুলি প্রধানত নেটওয়ার্ক আর্কিটেকচার অপ্টিমাইজেশনে মনোনিবেশ করে, চিত্র তথ্যের সম্পূর্ণ অনুসন্ধান এবং ব্যবহার উপেক্ষা করে
বৈশিষ্ট্য ব্যবহার অপর্যাপ্ত: প্রধানত গ্রাফিক্স বৈশিষ্ট্যে মনোনিবেশ করে (অবস্থান, আকার, রঙ, আকৃতি), শুধুমাত্র আংশিক শব্দার্থিক তথ্য প্রদান করে
বহু-স্তরীয় সংমিশ্রণের অভাব: বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের দৃষ্টিকোণ থেকে মডেলের 2D চিত্র বোঝার ক্ষমতা উন্নত করার গবেষণার অভাব

গবেষণা প্রেরণা

লেখকরা বিশ্বাস করেন যে 3D উপলব্ধির মূল হল ত্রিমাত্রিক স্থানিক সম্পর্ক বোঝা, তাই প্রয়োজন:

গভীরতা বৈশিষ্ট্য: নিম্ন-স্তরের বৈশিষ্ট্য হিসাবে, বিকৃতি এবং গভীরতা তথ্য বহন করে, স্থানিক সম্পর্ক বোঝা উন্নত করে
বিভাজন বৈশিষ্ট্য: বড় ভিত্তি মডেলের শক্তিশালী শব্দার্থিক প্রতিনিধিত্ব ক্ষমতা ব্যবহার করে (যেমন SAM)
পরিপূরক সংমিশ্রণ: বিভিন্ন স্তরের বৈশিষ্ট্য কার্যকরভাবে সংমিশ্রণ করে 2D চিত্র বোঝা উন্নত করতে

মূল অবদান

CIGOcc ফ্রেমওয়ার্ক: একটি নতুন দুই-পর্যায়ের ফ্রেমওয়ার্ক প্রস্তাব করে যা বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণ ব্যবহার করে লক্ষ্য নির্ভুলতা কম সমস্যা সমাধান করে, নির্ভুল 2D-থেকে-3D পুনর্নির্মাণ অর্জন করে, বিশেষত দূরবর্তী দৃশ্যে
বিকৃত বহু-স্তরীয় সংমিশ্রণ প্রক্রিয়া: একটি নতুন সংমিশ্রণ প্রক্রিয়া প্রস্তাব করে যা অভিযোজিতভাবে গভীরতা এবং শব্দার্থিক তথ্য কার্যকরভাবে সংমিশ্রণ করে, আরও ব্যাপক এবং নির্ভুল 3D পুনর্নির্মাণ নিশ্চিত করে
অত্যাধুনিক কর্মক্ষমতা: ক্যামেরা-ভিত্তিক SSC কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করে, জটিল বাস্তব দৃশ্যে কার্যকারিতা এবং শক্তিশালীতা প্রদর্শন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: একক RGB চিত্র I ∈ R^(C×H×W) আউটপুট: শব্দার্থিক ভক্সেল মানচিত্র Y^(C×X×Y×Z), যেখানে প্রতিটি ভক্সেল 20টি শব্দার্থিক শ্রেণীর একটিতে শ্রেণীবদ্ধ করা হয় লক্ষ্য: 2D চিত্র থেকে সম্পূর্ণ 3D দৃশ্য জ্যামিতি এবং শব্দার্থিক তথ্য অনুমান করা

মডেল আর্কিটেকচার

CIGOcc একটি দুই-পর্যায়ের আর্কিটেকচার গ্রহণ করে:

প্রথম পর্যায়: বিকৃত মাল্টিমোডাল সংমিশ্রণ নেটওয়ার্ক (DMFNet)

বৈশিষ্ট্য নিষ্কাশন:
- MobileStereoNet ব্যবহার করে গভীরতা মানচিত্র তৈরি করে D_i ∈ R^(C×H×W)
- Grounded-SAM ব্যবহার করে শব্দার্থিক বৈশিষ্ট্য নিষ্কাশন করে F_i ∈ R^(C×H×W)
প্রাথমিক ভক্সেল স্থান নির্মাণ:
```
F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
```
যেখানে DMF হল LMSCNet এর উপর ভিত্তি করে উন্নত সংমিশ্রণ পদ্ধতি
বিভাজন মাথা পূর্বাভাস:
```
F_seg = SegHead(F_raw)
```

দ্বিতীয় পর্যায়: পরিপূরক তথ্য নির্দেশিত ভক্সেল উৎপাদন নেটওয়ার্ক (CIGNet)

চিত্র বৈশিষ্ট্য নিষ্কাশন: ResNet50 ব্যবহার করে বৈশিষ্ট্য নিষ্কাশন করে F_2D ∈ R^(×H×W×D)
বিকৃত ক্রস-মনোযোগ:
```
Q_s^3d = DCA(F_2D, Q_d)
```
যেখানে Q_d হল প্রথম পর্যায় থেকে প্রাপ্ত বাইনারি শ্রেণীবিভাগ প্রশ্ন
বিকৃত স্ব-মনোযোগ:
```
V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
```
জ্ঞান পাতন মডিউল:
```
F_sem^2d = θ_s(F_2D)
```

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ: প্রথমবারের মতো উচ্চ-স্তরের বিভাজন বৈশিষ্ট্য, মধ্য-স্তরের গ্রাফিক্স বৈশিষ্ট্য এবং নিম্ন-স্তরের গভীরতা বৈশিষ্ট্য পদ্ধতিগতভাবে সংমিশ্রণ করে
বড় মডেল জ্ঞান পাতন: Grounded-SAM এর জ্ঞান কার্যকরভাবে দখল পূর্বাভাস কাজে পাতিত করে
বিকৃত মনোযোগ প্রক্রিয়া: উচ্চ-রেজোলিউশন চিত্র পরিচালনা করতে বিকৃত মনোযোগ গ্রহণ করে, গণনা জটিলতা হ্রাস করে
দুই-পর্যায়ের প্রশিক্ষণ কৌশল: বিভিন্ন স্তরের বৈশিষ্ট্য সংমিশ্রণ পর্যায়ক্রমে অপ্টিমাইজ করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

SemanticKITTI ডেটাসেট:

KITTI Odometry বেঞ্চমার্কের উপর ভিত্তি করে ঘন শব্দার্থিক দখল টীকা
কভারেজ পরিসীমা: সামনে 0-51.2 মিটার, পার্শ্বীয় ±25.6 মিটার, উচ্চতা -2 থেকে 4.4 মিটার
ভক্সেল গ্রিড: 256×256×32, রেজোলিউশন 0.2 মিটার/ভক্সেল
20টি শব্দার্থিক শ্রেণী টীকা

মূল্যায়ন মেট্রিক্স

প্রধান মেট্রিক: গড় ইন্টারসেকশন-ওভার-ইউনিয়ন (mIoU)
সহায়ক মেট্রিক্স: IoU, নির্ভুলতা, স্মরণ
বিশেষ মূল্যায়ন: ছোট বস্তু কর্মক্ষমতা, দীর্ঘ-লেজ বস্তু কর্মক্ষমতা

তুলনা পদ্ধতি

LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc এবং অন্যান্য প্রধান পদ্ধতি অন্তর্ভুক্ত

বাস্তবায়ন বিবরণ

হার্ডওয়্যার: 4×RTX 3090 GPU
প্রশিক্ষণ সময়: প্রতিটি পর্যায়ে 20 epochs, মোট 4.5+4.5=9 ঘন্টা
প্রাক-প্রশিক্ষণ ওজন: Grounded-SAM এর জন্য ViT-H HQ-SAM, MobileStereoNet এর জন্য MSNet3D SFDS
মেরুদণ্ড নেটওয়ার্ক: ResNet50

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

SemanticKITTI পরীক্ষা সেটে কর্মক্ষমতা তুলনা:

পদ্ধতি	mIoU	VoxFormer-T এর তুলনায় উন্নতি
VoxFormer-T	13.41%	-
CIGOcc	14.90%	+1.49%

মূল কর্মক্ষমতা উন্নতি:

সামগ্রিক mIoU: 14.90% (SOTA)
ছোট বস্তু কর্মক্ষমতা: +19.28% উন্নতি
দীর্ঘ-লেজ বস্তু কর্মক্ষমতা: +35.20% উন্নতি

বিভিন্ন দূরত্ব পরিসীমা কর্মক্ষমতা

দূরত্ব পরিসীমা	CIGOcc mIoU	VoxFormer-T mIoU	উন্নতি
12.8m	23.81%	21.55%	+2.26%
25.6m	20.35%	18.42%	+1.93%
51.2m	14.90%	13.35%	+1.55%

বিলোপ পরীক্ষা

উপাদান	mIoU	প্রভাব
সম্পূর্ণ মডেল	14.49%	-
শব্দার্থিক সহায়ক ক্ষতি ছাড়া	14.10%	-0.39%
সংমিশ্রণ বৈশিষ্ট্য ছাড়া	13.85%	-0.64%
Grounded-SAM ছাড়া	13.63%	-0.86%

কেস বিশ্লেষণ

গুণগত ফলাফল নিম্নলিখিত ক্ষেত্রে CIGOcc এর উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে:

আরও নির্ভুল দৃশ্য ভক্সেল বিভাজন
কম ভক্সেল ওভারল্যাপ
আরও নির্ভুল রাস্তা পূর্বাভাস
ছোট বস্তু এবং দীর্ঘ-লেজ শ্রেণীর আরও ভাল স্বীকৃতি

উপসংহার এবং আলোচনা

প্রধান উপসংহার

বহু-স্তরীয় সংমিশ্রণের কার্যকারিতা: বিভিন্ন স্তরের বৈশিষ্ট্য পদ্ধতিগতভাবে সংমিশ্রণ করা উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে
বড় মডেল জ্ঞান স্থানান্তর: Grounded-SAM জ্ঞান সফলভাবে দখল পূর্বাভাস কাজে স্থানান্তরিত হয়
গণনা দক্ষতা: দক্ষতা বজায় রেখে SOTA কর্মক্ষমতা অর্জন করে

সীমাবদ্ধতা

প্রশিক্ষণ সম্পদ: দুই-পর্যায়ের প্রশিক্ষণের প্রয়োজন, প্রশিক্ষণ সময় কিছুটা বৃদ্ধি করে (+1 ঘন্টা)
মেমরি খরচ: ভিত্তিরেখা পদ্ধতির তুলনায় 0.4G VRAM বৃদ্ধি করে
প্রাক-প্রশিক্ষণ মডেলের উপর নির্ভরতা: Grounded-SAM এবং MobileStereoNet এর প্রাক-প্রশিক্ষণ ওজনের উপর নির্ভর করে

ভবিষ্যত দিকনির্দেশনা

শেষ-থেকে-শেষ অপ্টিমাইজেশন: একক-পর্যায়ের প্রশিক্ষণ কৌশল অন্বেষণ করে
আরও মাল্টিমোডাল সংমিশ্রণ: অন্যান্য সেন্সর তথ্য একত্রিত করে
রিয়েল-টাইম অ্যাপ্লিকেশন: অনুমান গতি আরও অপ্টিমাইজ করে

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো বহু-স্তরীয় প্রতিনিধিত্ব সংমিশ্রণের দৃষ্টিকোণ থেকে দখল পূর্বাভাস সমস্যা সমাধান করে
যুক্তিসঙ্গত পদ্ধতি: স্পষ্ট তাত্ত্বিক বিশ্লেষণ, বিভিন্ন স্তরের বৈশিষ্ট্যের পরিপূরকতা বিশ্লেষণ সম্পূর্ণ
ব্যাপক পরীক্ষা: সম্পূর্ণ বিলোপ পরীক্ষা এবং তুলনা পরীক্ষা পদ্ধতির কার্যকারিতা যাচাই করে
উৎকৃষ্ট কর্মক্ষমতা: একাধিক মেট্রিকে SOTA অর্জন করে, বিশেষত ছোট বস্তু এবং দীর্ঘ-লেজ শ্রেণীতে

অপূর্ণতা

গণনা জটিলতা: দুই-পর্যায়ের প্রশিক্ষণ প্রশিক্ষণ জটিলতা বৃদ্ধি করে
শক্তিশালী নির্ভরতা: প্রাক-প্রশিক্ষণ বড় মডেলের উপর গুরুতরভাবে নির্ভর করে
সাধারণীকরণ বিশ্লেষণ অভাব: অন্যান্য ডেটাসেটে যাচাইকরণের অভাব
তাত্ত্বিক বিশ্লেষণ: এই সংমিশ্রণ কৌশল কেন সর্বোত্তম তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব

প্রভাব

একাডেমিক মূল্য: দখল পূর্বাভাস ক্ষেত্রে নতুন গবেষণা চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: স্বয়ংচালিত গাড়ি দৃশ্যে সরাসরি প্রয়োগ সম্ভাবনা রয়েছে
পুনরুৎপাদনযোগ্যতা: কোড এবং বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে

প্রযোজ্য দৃশ্য

স্বয়ংচালিত গাড়ি: যানবাহন পরিবেশ উপলব্ধি এবং পথ পরিকল্পনা
রোবোট নেভিগেশন: ইনডোর এবং আউটডোর পরিবেশ বোঝা
AR/VR অ্যাপ্লিকেশন: 3D দৃশ্য পুনর্নির্মাণ এবং বোঝা
শহুরে পরিকল্পনা: দৃষ্টি-ভিত্তিক 3D শহর মডেলিং

তথ্যসূত্র

এই পত্রটি 46টি সম্পর্কিত তথ্যসূত্র উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

শব্দার্থিক দৃশ্য সম্পূর্ণতা মৌলিক কাজ (SSCNet, LMSCNet ইত্যাদি)
Transformer আর্কিটেকচার প্রয়োগ (VoxFormer, BEVFormer ইত্যাদি)
বড় দৃষ্টিভঙ্গি মডেল (SAM, Grounded-SAM ইত্যাদি)
গভীরতা অনুমান এবং 3D উপলব্ধি সম্পর্কিত কাজ

সারসংক্ষেপ: CIGOcc হল দখল পূর্বাভাস ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি কাজ, উদ্ভাবনী বহু-স্তরীয় বৈশিষ্ট্য সংমিশ্রণ কৌশল এবং বড় মডেল জ্ঞান পাতনের মাধ্যমে, গণনা দক্ষতা বজায় রেখে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। এই কাজটি দৃষ্টি-ভিত্তিক 3D উপলব্ধির জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে।