Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic- 論文ID: 2510.11534
- タイトル: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
- 著者: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (清華大学)
- 分類: cs.RO (ロボティクス), cs.SY (システムと制御), eess.SY (システムと制御)
- 発表日: 2025年10月13日
- 論文リンク: https://arxiv.org/abs/2510.11534
現実的な交通シミュレーションは、特に複雑で多様な都市交通環境において、自動運転車(AV)の安全性と信頼性を確保するために不可欠である。しかし、既存のデータ駆動型シミュレータは2つの重要な課題に直面している:都市交差点の密集した異種インタラクションのモデリングに対する関心の不足、および高密度シナリオにおいて高次元結合分布を堅牢に学習することの本質的な困難さである。本論文では、City Crossings Dataset (CiCross)を導入する。これは実際の都市交差点から収集された大規模データセットであり、密集した異種マルチエージェントインタラクションを独自に捉えている。このデータセットに基づいて、複雑な都市交差点シナリオ向けのデータ駆動型シミュレータであるIntersectioNDEを提案する。その中核コンポーネントはインタラクション分離戦略(IDS)であり、エージェント部分集合から組み合わせ動力学を学習し、周辺分布から結合分布へのシミュレーションを実現する。
本研究が解決する中核的な問題は、複雑な都市交差点の高忠実度交通シミュレーション、特に自動車(MV)、非自動車(NMV)、および歩行者を含む密集した異種インタラクションシナリオである。
- 自動運転安全検証の必要性:シミュレーション試験は、スケーラビリティ、費用対効果、および安全上重要なエッジケースを探索する能力により広く採用されている
- 複雑な都市環境の課題:中国などの国の都市交差点は密集した異種交通パターンを示しており、既存の方法では効果的なモデリングが困難である
- 実用的価値:正確な交通シミュレーションはAVシステムの安全な展開に重要な意義を持つ
- シナリオカバレッジの不足:既存のデータ駆動型シミュレータは、密集した異種都市交差点インタラクションのモデリングに対する関心が限定的である
- 技術的課題:全シナリオの高次元結合分布を直接学習することは本質的に困難であり、モード崩壊と長期シミュレーション不安定性をもたらすことが多い
- データセットの制限:既存のデータセットはMV、NMV、および歩行者の密集インタラクションの十分な表現に欠ける
中国などの国の複雑な都市交通環境の特殊なニーズに対応して、異種インタラクションを堅牢にモデリングし、長期的な安定性を維持できる交通シミュレーションシステムを開発する。
- CiCrossデータセットの提案:密集した異種マルチエージェントインタラクションを独自に捉えた大規模実際の都市交差点データセット
- IntersectioNDEシミュレータの設計:複雑な都市交差点シナリオ向けの専門的なデータ駆動型シーンレベルシミュレータ
- インタラクション分離戦略(IDS)の革新:エージェント部分集合から組み合わせ動力学を学習することにより、周辺分布から結合分布へのシミュレーションの訓練パラダイムを実現
- シーン認識Transformerネットワークの構築:専門的な訓練技術を統合し、シミュレーション堅牢性と長期安定性を大幅に向上
交通シミュレーションタスクは、予測時間範囲Tpred内で現実的な将来シーン状態を生成できる生成モデルの学習としてモデル化される。
時刻τに存在するNτ個のエージェントの集合をAτ={a1,...,aNτ}とする。エージェントajの時刻τにおける状態をsj,τ∈Sagentとする。完全なシーンインスタンスGτはエージェント状態Sτ、静的地図情報M、および動的信号機状態Lτを含む。
目標は条件付き確率分布を学習することである:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- エージェント分類:事前定義された空間および行動基準(TTC等)に基づいてエージェント集合Atをk個の互いに素なインタラクショングループに分割する:
At={At,1,At,2,...,At,k}
- 部分集合サンプリング:グループインデックス部分集合I⊆{1,...,k}をランダムにサンプリングし、サンプリングされたエージェントを含むシーンインスタンスを構築する
- 条件付き確率学習:ニューラルネットワークモデルFθを訓練してサンプリングされた将来シーンインスタンスの条件付き確率分布を予測する:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- 訓練目標:期待負対数尤度を最小化する:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
推論段階において、モデルは以下のメカニズムを通じて部分シーンから完全シーンへの予測を実現する:
- インタラクションプリミティブの学習:IDS訓練によりモデルは多様な条件付きインタラクションプリミティブ集合P={p1,p2,...,pL}を獲得する
- プリミティブ識別と合成:任意のシーンGtに対して、モデルはまず現在の構成における学習済みインタラクションプリミティブの組み合わせを識別し、その後将来状態を合成する
- 堅牢性の向上:基本的な構成要素を習得することにより、モデルは複雑なシーン動力学を一貫して予測でき、訓練中に明示的に見たことのないインタラクション組み合わせに対してさえも機能する
エンコーダ-インタラクション-予測構造を採用したマルチ入力Transformerネットワーク:
- マルチモーダル入力エンコーディング:
- 履歴エージェント軌跡:Ht−Thist+1:t∈RN×Thist×6
- エージェント静的属性:As∈RN×6
- ルート情報:Mr∈RNR×DR
- 信号機状態:Md∈RThist×NL×3
- デュアルクロスアテンションモジュール:エージェント特徴とシーンコンテキスト特徴を組み合わせ、環境認識の強化されたエージェント特徴を生成する
- Transformerインタラクションネットワーク:複雑なエージェント間依存関係をモデル化する
- 専用予測ヘッド:異なるエージェントカテゴリに対して将来の運動学的状態分布パラメータを予測する
- データ規模:約700時間の記録データ、実験では23.6時間のサブセットを使用
- データ特性:212,344フレーム(2.5Hz)、56,578個のユニークなエージェントインスタンス
- エージェント分布:自動車54.2%、非自動車43.3%、歩行者2.5%
- シーン特性:高エージェント密度、TTC分布ピーク約2秒、高リスクインタラクションを体現
- ADE(平均変位誤差):Average Displacement Error
- FDE(最終変位誤差):Final Displacement Error
- Missing Rate:エージェント消失率
- Collapse Time:シミュレーション崩壊時間
- ハードウェア:単一NVIDIA RTX 4090 GPU
- 履歴長:Thist=10
- 予測範囲:Tpred=10
- データ拡張:平行移動、回転、変位、軌跡誤差注入
- クローズドループシミュレーション:自己回帰実行、1フレームステップ
IDS基盤のすべてのモデルはベースライン方法を上回り、戦略の全体的な有効性を検証する:
| 方法 | 参加者タイプ | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| IDS無し | 自動車 | 0.9047 | 1.6526 | 0.2086 |
| IDS無し | 非自動車 | 1.2864 | 2.4415 | 0.4553 |
| IDS無し | 歩行者 | 1.2197 | 2.0536 | 0.3732 |
| IDS(TTC=1s) | 自動車 | 0.6693 | 1.2496 | 0.1750 |
| IDS(TTC=1s) | 非自動車 | 0.9869 | 1.9694 | 0.3310 |
| IDS(TTC=1s) | 歩行者 | 1.0086 | 1.6150 | 0.2386 |
- TTC閾値感度:0s、1s、2s、4s閾値をテスト、1s閾値が最適なバランスを達成
- アテンションメカニズム比較:デュアルクロスアテンションはシングルクロスアテンション変種より優れている
- 長期安定性:IDS崩壊時間を大幅に向上(895s対15s)
シミュレーションと実データの速度分布および最近距離分布を比較することにより、分布レベルの都市交通動力学を複製するモデルの能力を検証する。
3つの典型的なインタラクションシナリオを提示:
- 非自動車の信号無視による遭遇と減速
- 自動車の譲歩による減速
- 自動車右折時の非自動車流への迅速な通過
既存のデータセット(Waymo、nuScenes、Argoverse等)は規模が大きく価値があるが、複雑な都市交差点の密集インタラクション表現の面で限界がある。
- ルールベース:SUMO、VISSIM等、事前定義パラメータに依存し、実際の運転行動の多様性を再現することが困難
- データ駆動型:
- エージェント中心方法:個別行動を学習するが、効率が低く複雑なインタラクション調整が困難
- シーンレベル方法:シーン全体の次状態を直接出力するが、高次元分布学習の課題に直面
- CiCrossデータセットは複雑な都市交差点の異種インタラクション特性を成功裏に捉えた
- IDS戦略は高次元結合分布学習の課題を効果的に解決した
- IntersectioNDEはシミュレーション忠実度、安定性、および分布複製能力の面でベースライン方法を大幅に上回る
- データセットの地域性:主に中国の都市交差点に基づいており、地域的偏見が存在する可能性
- 計算複雑性:Transformerアーキテクチャの大規模シナリオにおける計算オーバーヘッド
- インタラクション定義:TTCベースのインタラクション分類は複雑なインタラクションパターンを過度に単純化する可能性
- 長期評価:安定性は向上したが、超長期シミュレーション性能はまだ検証が必要
- より多くの地域および交通パターンへの拡張
- 計算効率の最適化
- より精密なインタラクションモデリング方法の探索
- より多くのセンサーモダリティの統合
- 問題への針対性が強い:中国などの国の複雑な都市交通の実際のニーズに焦点を当てている
- 方法の革新性が高い:IDS戦略は高次元分布学習の難題を巧妙に解決している
- データセットの価値が大きい:CiCrossは密集した異種インタラクションデータの空白を埋める
- 実験が充分:詳細なアブレーション実験とケース分析を含む
- 実用性が強い:長期シミュレーション安定性を大幅に向上
- 理論分析の不足:IDS戦略の理論的収束性分析が欠ける
- 比較範囲が限定的:主に自作ベースラインとの比較であり、他のSOTA方法との比較が不足
- 汎化能力が未知:単一交差点データのみで検証され、クロスシーン汎化能力は検証待ち
- 計算オーバーヘッドが未報告:訓練と推論時間の詳細分析が欠ける
- 学術的貢献:複雑な都市交通シミュレーションに新しい解決思路を提供
- 実用的価値:複雑な都市環境におけるAVシステム検証に重要な意義
- データ貢献:CiCrossデータセットは関連研究の発展を促進できる
- 再現性:方法説明が明確で、良好な再現性を有する
- 都市交差点シミュレーション:特に高密度、多種類エージェントインタラクションシナリオに適用
- 自動運転テスト:複雑な都市環境におけるAVシステムの安全検証ツールを提供
- 交通計画:都市交通流分析と最適化に使用可能
- 研究プラットフォーム:交通行動モデリング研究の基礎プラットフォームを提供
論文は交通シミュレーション、自動運転、深層学習等の分野における重要な研究を引用しており、Waymoデータセット、NeuralNDE、各種Transformerアーキテクチャ等を含み、関連分野に対する包括的な理解と深い思考を体現している。