2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.

Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.

academic

UniVector: インスタンス-ジオメトリ相互作用による統一ベクトル抽出

基本情報

論文ID: 2510.13234
タイトル: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
著者: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
分類: cs.CV (コンピュータビジョン)
発表日: 2025年10月15日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.13234v1

概要

ベクトル抽出(Vector Extraction, VE)は、ラスタ画像から構造化されたベクトルジオメトリ情報を取得し、高忠実度表現と広範な適用性を提供する。しかし、既存の手法は通常、単一のベクトルタイプ(ポリゴン、ポリライン、線分など)に特化しており、異なる構造に対して独立したモデルが必要である。これはインスタンス属性(カテゴリ、構造)とジオメトリ属性(点座標、接続性)を独立して処理することに起因し、複雑な構造の捕捉能力を制限している。人間の脳が視覚知覚において意味論的および空間的相互作用を同時に使用することに着想を得て、著者らはUniVectorを提案する。これは、インスタンス-ジオメトリ相互作用を通じて単一モデル内で複数のベクトルタイプを抽出する統一的なVEフレームワークである。UniVectorはベクトルをインスタンスレベルおよびジオメトリレベルの情報を含む構造化クエリとしてエンコードし、相互作用モジュールを通じて反復的に更新してレベル間のコンテキスト交換を実現する。動的形状制約はさらに全体的な構造と主要点を精緻化する。

研究背景と動機

問題定義

ベクトル抽出はコンピュータビジョンにおける中核的なタスクであり、ラスタ画像から構造化されたベクトル情報を抽出することを目的としている。ベクトルデータはラスタデータと比較して、軽量な保存、高忠実度、および編集可能性の利点を有し、グラフィックデザイン、地理的マッピング、自動運転など多くの分野で広く応用されている。

既存手法の制限事項

単一構造の制限: 既存の手法は通常、特定のベクトルタイプ(ポリゴン、ポリラインまたは線分)に特化して設計されており、複数の独立したモデルが必要である
カスケード構造の問題: 従来の手法はカスケードパイプラインを採用し、インスタンス属性とジオメトリ属性を別々に処理するため、情報ギャップが生じる
トポロジーエラー: インスタンスレベルの制約の欠如により、複数構造シーンでトポロジーエラーが容易に発生する

研究動機

人間の脳が視覚知覚において意味理解と空間理解を同時に使用することに着想を得て、著者らはインスタンス-ジオメトリ相互作用を通じて明示的なレベル間情報融合をモデル化することを提案する。これにより、全体的な構造先験と細粒度の意味論的-構造的手がかりが相互に補完できる。

核心的貢献

統一表現とフレームワーク: 異なるベクトル構造を統一する構造化クエリ表現を提案し、UniVectorインスタンス-ジオメトリ相互作用学習フレームワークを導入する
インスタンス-ジオメトリ相互作用のモデル化: 統一ベクトルエンコーダとインスタンス-ジオメトリ相互作用デコーダを設計し、構造化クエリの適応的初期化と精緻化を実現する
動的形状制約(DSC): DSCを導入して全体的な構造一貫性と局所的な形状精度を動的に最適化する
Multi-Vectorデータセット: ポリゴン、ポリライン、線分を含む最初の多構造VEデータセットを構築する

方法の詳細

タスク定義

ラスタ画像が与えられたとき、その中の複数のベクトル構造(ポリゴン、ポリライン、線分)を同時に抽出し、インスタンスカテゴリ、バウンディングボックス、点座標、および点カテゴリを含む出力を生成する。

モデルアーキテクチャ

1. 全体的フレームワーク

UniVectorフレームワークは3つの主要コンポーネントで構成される:

統一ベクトルエンコーディング: 異なるベクトル構造を構造化クエリにエンコードする
インスタンス-ジオメトリ相互作用デコーディング: クエリを反復的に精緻化する
動的形状制約: 全体的な構造一貫性と局所的なジオメトリ精度を確保する

2. 統一ベクトルエンコーディング

構造化クエリ表現:

クエリセット $Q_s \in \mathbb{R}^{N \times (M+1) \times C}$ 、ここでNは最大ベクトルインスタンス数、Mは各ベクトルの最大点数、Cはチャネル次元である
各ベクトル $Q_s^i$ はインスタンスクエリ $Q_{ins}^i \in \mathbb{R}^C$ とジオメトリクエリ $Q_{geo}^i \in \mathbb{R}^{M \times C}$ を含む

クエリエンコーディングプロセス:

インスタンスレベルエンコーディング: 粗から細への戦略を採用し、最初にスコアが最も高い画像トークンを選択して粗いクエリを形成し、その後インスタンス検出モジュールを通じて精緻化する
ジオメトリレベルエンコーディング: 形状変形モジュールを通じて詳細な構造を捕捉し、フレーム内注意を使用してジオメトリクエリを精緻化する

3. インスタンス-ジオメトリ相互作用デコーディング

構造化特徴抽出: 可変形注意を拡張し、各ベクトルにインスタンス参照点とジオメトリ参照点を割り当てる:

$\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}$

インスタンス-ジオメトリ相互作用:

単一レベル相互作用: 自己注意メカニズムを使用する
レベル間精緻化: クロス注意メカニズムを使用する

$Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])$ $Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])$