2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.
Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
academic

UniVector: インスタンス-ジオメトリ相互作用による統一ベクトル抽出

基本情報

  • 論文ID: 2510.13234
  • タイトル: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
  • 著者: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
  • 分類: cs.CV (コンピュータビジョン)
  • 発表日: 2025年10月15日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13234v1

概要

ベクトル抽出(Vector Extraction, VE)は、ラスタ画像から構造化されたベクトルジオメトリ情報を取得し、高忠実度表現と広範な適用性を提供する。しかし、既存の手法は通常、単一のベクトルタイプ(ポリゴン、ポリライン、線分など)に特化しており、異なる構造に対して独立したモデルが必要である。これはインスタンス属性(カテゴリ、構造)とジオメトリ属性(点座標、接続性)を独立して処理することに起因し、複雑な構造の捕捉能力を制限している。人間の脳が視覚知覚において意味論的および空間的相互作用を同時に使用することに着想を得て、著者らはUniVectorを提案する。これは、インスタンス-ジオメトリ相互作用を通じて単一モデル内で複数のベクトルタイプを抽出する統一的なVEフレームワークである。UniVectorはベクトルをインスタンスレベルおよびジオメトリレベルの情報を含む構造化クエリとしてエンコードし、相互作用モジュールを通じて反復的に更新してレベル間のコンテキスト交換を実現する。動的形状制約はさらに全体的な構造と主要点を精緻化する。

研究背景と動機

問題定義

ベクトル抽出はコンピュータビジョンにおける中核的なタスクであり、ラスタ画像から構造化されたベクトル情報を抽出することを目的としている。ベクトルデータはラスタデータと比較して、軽量な保存、高忠実度、および編集可能性の利点を有し、グラフィックデザイン、地理的マッピング、自動運転など多くの分野で広く応用されている。

既存手法の制限事項

  1. 単一構造の制限: 既存の手法は通常、特定のベクトルタイプ(ポリゴン、ポリラインまたは線分)に特化して設計されており、複数の独立したモデルが必要である
  2. カスケード構造の問題: 従来の手法はカスケードパイプラインを採用し、インスタンス属性とジオメトリ属性を別々に処理するため、情報ギャップが生じる
  3. トポロジーエラー: インスタンスレベルの制約の欠如により、複数構造シーンでトポロジーエラーが容易に発生する

研究動機

人間の脳が視覚知覚において意味理解と空間理解を同時に使用することに着想を得て、著者らはインスタンス-ジオメトリ相互作用を通じて明示的なレベル間情報融合をモデル化することを提案する。これにより、全体的な構造先験と細粒度の意味論的-構造的手がかりが相互に補完できる。

核心的貢献

  1. 統一表現とフレームワーク: 異なるベクトル構造を統一する構造化クエリ表現を提案し、UniVectorインスタンス-ジオメトリ相互作用学習フレームワークを導入する
  2. インスタンス-ジオメトリ相互作用のモデル化: 統一ベクトルエンコーダとインスタンス-ジオメトリ相互作用デコーダを設計し、構造化クエリの適応的初期化と精緻化を実現する
  3. 動的形状制約(DSC): DSCを導入して全体的な構造一貫性と局所的な形状精度を動的に最適化する
  4. Multi-Vectorデータセット: ポリゴン、ポリライン、線分を含む最初の多構造VEデータセットを構築する

方法の詳細

タスク定義

ラスタ画像が与えられたとき、その中の複数のベクトル構造(ポリゴン、ポリライン、線分)を同時に抽出し、インスタンスカテゴリ、バウンディングボックス、点座標、および点カテゴリを含む出力を生成する。

モデルアーキテクチャ

1. 全体的フレームワーク

UniVectorフレームワークは3つの主要コンポーネントで構成される:

  • 統一ベクトルエンコーディング: 異なるベクトル構造を構造化クエリにエンコードする
  • インスタンス-ジオメトリ相互作用デコーディング: クエリを反復的に精緻化する
  • 動的形状制約: 全体的な構造一貫性と局所的なジオメトリ精度を確保する

2. 統一ベクトルエンコーディング

構造化クエリ表現:

  • クエリセット QsRN×(M+1)×CQ_s \in \mathbb{R}^{N \times (M+1) \times C}、ここでNは最大ベクトルインスタンス数、Mは各ベクトルの最大点数、Cはチャネル次元である
  • 各ベクトル QsiQ_s^i はインスタンスクエリ QinsiRCQ_{ins}^i \in \mathbb{R}^C とジオメトリクエリ QgeoiRM×CQ_{geo}^i \in \mathbb{R}^{M \times C} を含む

クエリエンコーディングプロセス:

  • インスタンスレベルエンコーディング: 粗から細への戦略を採用し、最初にスコアが最も高い画像トークンを選択して粗いクエリを形成し、その後インスタンス検出モジュールを通じて精緻化する
  • ジオメトリレベルエンコーディング: 形状変形モジュールを通じて詳細な構造を捕捉し、フレーム内注意を使用してジオメトリクエリを精緻化する

3. インスタンス-ジオメトリ相互作用デコーディング

構造化特徴抽出: 可変形注意を拡張し、各ベクトルにインスタンス参照点とジオメトリ参照点を割り当てる:

{Rgeol=Sigmoid(Sigmoid1(Rinsl)+MLP(Qgeol)),l=0Rgeol=Sigmoid(Sigmoid1(Rgeol)+MLP(Qgeol)),l1\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}

インスタンス-ジオメトリ相互作用:

  • 単一レベル相互作用: 自己注意メカニズムを使用する
  • レベル間精緻化: クロス注意メカニズムを使用する

Qins=Concat(CA(Qinsi,Qgeoi),i[1,...,N])Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])Qgeo=Concat(CA(Qgeoi,Qinsi),i[1,...,N])Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])

4. 動的形状制約(DSC)

主要点の動的マッチング: 予測ベクトル P^={p^i}i=1M\hat{P} = \{\hat{p}_i\}_{i=1}^M と真値 P={pi}i=1TP = \{p_i\}_{i=1}^T 間の二部グラフマッチングを解く:

Lmatch(P^,P,β)=1Ti=1T(αpl1(pi,p^i)+αcl1(ci,c^i))L_{match}(\hat{P}, P, \beta) = \frac{1}{T}\sum_{i=1}^T(\alpha_p \cdot l_1(p_i, \hat{p}_i) + \alpha_c \cdot l_1(c_i, \hat{c}_i))

β=argminβLmatch(P^,P,β)\beta^* = \arg\min_\beta L_{match}(\hat{P}, P, \beta)

ベクトル形状監督: 総合的な制約は方向損失、主要点損失、および分類損失を含む:

LVSL=α1Ldir+α2Lkp+α3LclsL_{VSL} = \alpha_1 \cdot L_{dir} + \alpha_2 \cdot L_{kp} + \alpha_3 \cdot L_{cls}

技術的革新点

  1. 統一表現: 異なるベクトルタイプを統一的に表現する構造化クエリを初めて提案する
  2. 相互作用メカニズム: 明示的なインスタンス-ジオメトリ相互作用を設計し、2つのレベル間の情報ギャップを埋める
  3. 動的制約: 異なるベクトルの形状変化に適応する動的形状制約を導入する

実験設定

データセット

Multi-Vectorデータセット:

  • 最初の多構造ベクトル抽出データセット
  • 20,000訓練画像、3,734検証画像
  • 3つの意味カテゴリ: 建物(70.6%)、道路境界(18.9%)、中心線(10.5%)
  • 建物はポリゴン、道路境界はポリライン、中心線は線分

単一構造データセット:

  • CrowdAI: 280k以上の訓練画像、60k テスト画像、建物抽出用
  • Structured3D: 合成3D住宅データセット
  • Topo-Boundary: 25k航空画像、道路境界抽出用
  • Wireframeおよび York Urban: 標準線分検出データセット

評価指標

建物: mAP、IoU、CIoU、PoLiS 道路境界と中心線:

  • ピクセルレベル: 精度、再現率、F1スコア(10ピクセル許容度)
  • ジオメトリレベル: ECM(エントロピー接続性測度)、APLS(平均パス長類似性)

比較手法

FFL、HiSup、PolyR-CNN(ポリゴン)、Sat2Graph、RNGDet++(ポリライン)、HAWP、LETR(線分)などの代表的手法を含む。

実験結果

主要結果

Multi-Vectorデータセット性能:

  • 建物: mAP 49.8%(ResNet-50)、53.4%(Swin-L)
  • 道路境界: F1スコア 88.4%(ResNet-50)、90.4%(Swin-L)
  • 中心線: F1スコア 87.8%(ResNet-50)、88.2%(Swin-L)

単一構造データセットのSOTA性能:

  • CrowdAI: AP 72.8%(ResNet-50)、79.9%(Swin-B)
  • Topo-Boundary: F1スコア 90.3%
  • Wireframe: sAP10 64.5%(ResNet-50)、69.8%(Swin-L)

アブレーション実験

コンポーネントMulti-Vector建物CrowdAITopo-Boundary
ベースライン39.663.978.8
+IGID45.2 (+5.6)69.3 (+5.4)85.6 (+6.8)
+UVE47.6 (+2.4)71.5 (+2.2)87.5 (+1.9)
+DSC49.4 (+1.8)72.8 (+1.3)90.3 (+2.8)

インスタンス-ジオメトリ相互作用デコーディング(IGID)が最大の改善をもたらし、統一ベクトルエンコーディング(UVE)と動的形状制約(DSC)が追加の改善をもたらす。

実験的知見

  1. 訓練効率: カスケード複数モデル手法と比較して、訓練と推論速度が2~20倍向上する
  2. ジオメトリ精度: 複雑なシーンでより正確な形状と誤検出の削減を示す
  3. クロスドメイン汎化: 異なるデータセット間で安定した性能を維持する

関連研究

ベクトル抽出手法の分類

インスタンスからジオメトリへのフレームワーク:

  • 最初にインスタンス表現(バウンディングボックスまたはマスク)を予測し、その後ベクトルジオメトリを推論する
  • 代表的手法: Mask R-CNN、PolyR-CNN、LETR
  • 制限事項: インスタンス品質に依存し、密集シーンで歪みが容易に発生する

ジオメトリからインスタンスへのフレームワーク:

  • 最初にジオメトリ点を検出し、その後接続関係を予測する
  • 代表的手法: PolyWorld、GraphMapper、RoadTracer
  • 制限事項: インスタンスレベルの先験が欠如し、トポロジーエラーが容易に発生する

本論文の利点

インスタンス-ジオメトリ相互作用を明示的にモデル化することにより、両フレームワークの利点を組み合わせ、より正確な多構造ベクトル抽出を実現する。

結論と考察

主要な結論

  1. UniVectorは複数構造ベクトル抽出の統一的実現に成功し、単一構造および複数構造タスクの両方でSOTAを達成する
  2. インスタンス-ジオメトリ相互作用メカニズムは2つのレベル間の情報ギャップを効果的に埋める
  3. 動的形状制約は異なるベクトルタイプの形状変化ニーズに適応する

制限事項

  1. 固定された最大点数設定は、極めて複雑な形状の表現を制限する可能性がある
  2. 計算複雑度は単一構造手法と比較して増加する
  3. 極小スケールまたは重度の遮蔽を受けたベクトルに対しては依然として課題がある

将来の方向性

著者らはゼロショットベクトル抽出基礎モデルの開発と、視覚的ローカライゼーションおよび経路計画などの下流タスクへのベクトル表現の応用を提案している。

深い評価

利点

  1. 革新性が強い: 複数構造ベクトル抽出の統一フレームワークを初めて提案し、領域内で長年存在していた問題を解決する
  2. 手法が合理的: 人間の認知に着想を得たインスタンス-ジオメトリ相互作用設計は非常に強い理論的基礎を有する
  3. 実験が充分: 複数のデータセット上での包括的な評価は手法の有効性を証明する
  4. 実用価値が高い: 訓練効率を大幅に向上させ、重要な応用価値を有する

不足

  1. 計算オーバーヘッド: 単一構造手法と比較して計算複雑度が増加する
  2. パラメータ感度: 動的形状制約の重み付けパラメータは慎重に調整する必要がある
  3. 極端なシーン: 極小ターゲットまたは重度の遮蔽がある場合の処理能力は限定的である

影響力

  1. 学術的貢献: 複数構造統一抽出問題を開拓的に解決し、領域発展に新しい思考を提供する
  2. 実用価値: 地理情報システム、自動運転などの応用において重要な意義を有する
  3. 再現性: コードとデータセットのオープンソース化を約束し、後続研究を促進する

適用シーン

  • 高精度地図構築
  • リモートセンシング画像分析
  • 建築情報抽出
  • 自動運転経路計画
  • グラフィックデザイン自動化

参考文献

論文は75篇の関連文献を引用しており、ベクトル抽出、物体検出、意味分割、グラフニューラルネットワークなど複数の関連領域の重要な研究を網羅し、本研究に堅実な理論的基礎を提供している。


総合評価: これはコンピュータビジョン分野の高品質論文であり、ベクトル抽出という重要なタスクにおいて顕著な突破を達成している。手法の革新性が強く、実験設計が合理的で、結果が説得力があり、重要な学術価値と実用的意義を有している。