2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: インタラクション分離戦略に基づく複雑な都市交通動力学の学習

基本情報

論文ID: 2510.11534
タイトル: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
著者: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (清華大学)
分類: cs.RO (ロボティクス), cs.SY (システムと制御), eess.SY (システムと制御)
発表日: 2025年10月13日
論文リンク: https://arxiv.org/abs/2510.11534

要約

現実的な交通シミュレーションは、特に複雑で多様な都市交通環境において、自動運転車(AV)の安全性と信頼性を確保するために不可欠である。しかし、既存のデータ駆動型シミュレータは2つの重要な課題に直面している：都市交差点の密集した異種インタラクションのモデリングに対する関心の不足、および高密度シナリオにおいて高次元結合分布を堅牢に学習することの本質的な困難さである。本論文では、City Crossings Dataset (CiCross)を導入する。これは実際の都市交差点から収集された大規模データセットであり、密集した異種マルチエージェントインタラクションを独自に捉えている。このデータセットに基づいて、複雑な都市交差点シナリオ向けのデータ駆動型シミュレータであるIntersectioNDEを提案する。その中核コンポーネントはインタラクション分離戦略(IDS)であり、エージェント部分集合から組み合わせ動力学を学習し、周辺分布から結合分布へのシミュレーションを実現する。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、複雑な都市交差点の高忠実度交通シミュレーション、特に自動車(MV)、非自動車(NMV)、および歩行者を含む密集した異種インタラクションシナリオである。

問題の重要性

自動運転安全検証の必要性：シミュレーション試験は、スケーラビリティ、費用対効果、および安全上重要なエッジケースを探索する能力により広く採用されている
複雑な都市環境の課題：中国などの国の都市交差点は密集した異種交通パターンを示しており、既存の方法では効果的なモデリングが困難である
実用的価値：正確な交通シミュレーションはAVシステムの安全な展開に重要な意義を持つ

既存方法の限界

シナリオカバレッジの不足：既存のデータ駆動型シミュレータは、密集した異種都市交差点インタラクションのモデリングに対する関心が限定的である
技術的課題：全シナリオの高次元結合分布を直接学習することは本質的に困難であり、モード崩壊と長期シミュレーション不安定性をもたらすことが多い
データセットの制限：既存のデータセットはMV、NMV、および歩行者の密集インタラクションの十分な表現に欠ける

研究動機

中国などの国の複雑な都市交通環境の特殊なニーズに対応して、異種インタラクションを堅牢にモデリングし、長期的な安定性を維持できる交通シミュレーションシステムを開発する。

中核的貢献

CiCrossデータセットの提案：密集した異種マルチエージェントインタラクションを独自に捉えた大規模実際の都市交差点データセット
IntersectioNDEシミュレータの設計：複雑な都市交差点シナリオ向けの専門的なデータ駆動型シーンレベルシミュレータ
インタラクション分離戦略(IDS)の革新：エージェント部分集合から組み合わせ動力学を学習することにより、周辺分布から結合分布へのシミュレーションの訓練パラダイムを実現
シーン認識Transformerネットワークの構築：専門的な訓練技術を統合し、シミュレーション堅牢性と長期安定性を大幅に向上

方法の詳細

タスク定義

交通シミュレーションタスクは、予測時間範囲 $T_{pred}$ 内で現実的な将来シーン状態を生成できる生成モデルの学習としてモデル化される。

時刻 $τ$ に存在する $N_τ$ 個のエージェントの集合を $A_τ = \{a_1, ..., a_{N_τ}\}$ とする。エージェント $a_j$ の時刻 $τ$ における状態を $s_{j,τ} ∈ S_{agent}$ とする。完全なシーンインスタンス $G_τ$ はエージェント状態 $S_τ$ 、静的地図情報 $M$ 、および動的信号機状態 $L_τ$ を含む。

目標は条件付き確率分布を学習することである： $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

インタラクション分離戦略(IDS)

IDS訓練プロセス

エージェント分類：事前定義された空間および行動基準(TTC等)に基づいてエージェント集合 $A_t$ を $k$ 個の互いに素なインタラクショングループに分割する： $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
部分集合サンプリング：グループインデックス部分集合 $I ⊆ \{1, ..., k\}$ をランダムにサンプリングし、サンプリングされたエージェントを含むシーンインスタンスを構築する
条件付き確率学習：ニューラルネットワークモデル $F_θ$ を訓練してサンプリングされた将来シーンインスタンスの条件付き確率分布を予測する： $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
訓練目標：期待負対数尤度を最小化する： $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

周辺分布から結合分布へのシミュレーション

推論段階において、モデルは以下のメカニズムを通じて部分シーンから完全シーンへの予測を実現する：

インタラクションプリミティブの学習：IDS訓練によりモデルは多様な条件付きインタラクションプリミティブ集合 $P = \{p_1, p_2, ..., p_L\}$ を獲得する
プリミティブ識別と合成：任意のシーン $G_t$ に対して、モデルはまず現在の構成における学習済みインタラクションプリミティブの組み合わせを識別し、その後将来状態を合成する
堅牢性の向上：基本的な構成要素を習得することにより、モデルは複雑なシーン動力学を一貫して予測でき、訓練中に明示的に見たことのないインタラクション組み合わせに対してさえも機能する

ネットワークアーキテクチャ

シーン認識インタラクションTransformer

エンコーダ-インタラクション-予測構造を採用したマルチ入力Transformerネットワーク：

マルチモーダル入力エンコーディング：
- 履歴エージェント軌跡： $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- エージェント静的属性： $A_s ∈ R^{N×6}$
- ルート情報： $M_r ∈ R^{N_R×D_R}$
- 信号機状態： $M_d ∈ R^{T_{hist}×N_L×3}$
デュアルクロスアテンションモジュール：エージェント特徴とシーンコンテキスト特徴を組み合わせ、環境認識の強化されたエージェント特徴を生成する
Transformerインタラクションネットワーク：複雑なエージェント間依存関係をモデル化する
専用予測ヘッド：異なるエージェントカテゴリに対して将来の運動学的状態分布パラメータを予測する

実験設定

CiCrossデータセット

データ規模：約700時間の記録データ、実験では23.6時間のサブセットを使用
データ特性：212,344フレーム(2.5Hz)、56,578個のユニークなエージェントインスタンス
エージェント分布：自動車54.2%、非自動車43.3%、歩行者2.5%
シーン特性：高エージェント密度、TTC分布ピーク約2秒、高リスクインタラクションを体現

評価指標

ADE(平均変位誤差)：Average Displacement Error
FDE(最終変位誤差)：Final Displacement Error
Missing Rate：エージェント消失率
Collapse Time：シミュレーション崩壊時間

実装詳細

ハードウェア：単一NVIDIA RTX 4090 GPU
履歴長： $T_{hist} = 10$
予測範囲： $T_{pred} = 10$
データ拡張：平行移動、回転、変位、軌跡誤差注入
クローズドループシミュレーション：自己回帰実行、1フレームステップ

実験結果

主要結果

IDS基盤のすべてのモデルはベースライン方法を上回り、戦略の全体的な有効性を検証する：

方法	参加者タイプ	ADE↓	FDE↓	Missing Rate↓
IDS無し	自動車	0.9047	1.6526	0.2086
IDS無し	非自動車	1.2864	2.4415	0.4553
IDS無し	歩行者	1.2197	2.0536	0.3732
IDS(TTC=1s)	自動車	0.6693	1.2496	0.1750
IDS(TTC=1s)	非自動車	0.9869	1.9694	0.3310
IDS(TTC=1s)	歩行者	1.0086	1.6150	0.2386