2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.

Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.

academic

UniVector: 인스턴스-기하학 상호작용을 통한 통합 벡터 추출

기본 정보

논문 ID: 2510.13234
제목: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
저자: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13234v1

초록

벡터 추출(Vector Extraction, VE)은 래스터 이미지에서 구조화된 벡터 기하학 정보를 검색하여 고충실도 표현과 광범위한 적용성을 제공합니다. 그러나 기존 방법들은 일반적으로 단일 벡터 유형(예: 다각형, 폴리라인, 선분)에 맞춤화되어 있으며, 서로 다른 구조에 대해 독립적인 모델이 필요합니다. 이는 인스턴스 속성(카테고리, 구조)과 기하학 속성(점 좌표, 연결)을 독립적으로 처리하기 때문이며, 복잡한 구조 포착 능력을 제한합니다. 인간의 뇌가 시각 인지에서 의미론적 및 공간적 상호작용을 동시에 사용한다는 영감을 받아, 저자들은 UniVector를 제안합니다. 이는 인스턴스-기하학 상호작용을 통해 단일 모델 내에서 다양한 벡터 유형을 추출하는 통합 VE 프레임워크입니다. UniVector는 벡터를 인스턴스 수준 및 기하학 수준 정보를 포함하는 구조화된 쿼리로 인코딩하며, 상호작용 모듈을 통해 반복적으로 업데이트하여 수준 간 컨텍스트 교환을 실현합니다. 동적 형태 제약은 전역 구조와 핵심 포인트를 추가로 정제합니다.

연구 배경 및 동기

문제 정의

벡터 추출은 컴퓨터 비전의 핵심 작업으로, 래스터 이미지에서 구조화된 벡터 정보를 추출하는 것을 목표로 합니다. 벡터 데이터는 래스터 데이터에 비해 경량 저장, 고충실도 및 편집 용이성의 장점을 가지며, 그래픽 디자인, 지리 지도 제작 및 자율 주행 등 다양한 분야에 광범위하게 적용됩니다.

기존 방법의 한계

단일 구조 제한: 기존 방법들은 일반적으로 특정 벡터 유형(다각형, 폴리라인 또는 선분)에 특화되어 설계되어 있으며, 여러 개의 독립적인 모델이 필요합니다.
캐스케이드 아키텍처 문제: 전통적인 방법은 캐스케이드 파이프라인을 채택하여 인스턴스 속성과 기하학 속성을 각각 처리하므로 정보 격차가 발생합니다.
위상 오류: 인스턴스 수준 제약의 부재로 인해 다중 구조 시나리오에서 위상 오류가 쉽게 발생합니다.

연구 동기

인간의 뇌가 시각 인지에서 의미론적 이해와 공간적 이해를 동시에 사용한다는 영감을 받아, 저자들은 인스턴스-기하학 상호작용을 통해 명시적인 수준 간 정보 융합을 모델링하여 전역 구조 사전 정보와 세밀한 의미론적-구조적 단서가 서로 보완될 수 있도록 제안합니다.

핵심 기여

통합 표현 및 프레임워크: 서로 다른 벡터 구조를 통합하는 구조화된 쿼리 표현을 제안하고, UniVector 인스턴스-기하학 상호작용 학습 프레임워크를 도입합니다.
인스턴스-기하학 상호작용 모델링: 통합 벡터 인코더 및 인스턴스-기하학 상호작용 디코더를 설계하여 구조화된 쿼리를 자적응적으로 초기화하고 정제합니다.
동적 형태 제약(DSC): 전역 구조 일관성과 국소 형태 정확도를 동적으로 최적화하는 DSC를 도입합니다.
Multi-Vector 데이터셋: 다각형, 폴리라인 및 선분을 포함하는 첫 번째 다중 구조 VE 데이터셋을 구축합니다.

방법 상세 설명

작업 정의

래스터 이미지가 주어졌을 때, 그 안의 다양한 벡터 구조(다각형, 폴리라인, 선분)를 동시에 추출하여 인스턴스 카테고리, 경계 상자, 점 좌표 및 점 카테고리를 포함한 출력을 생성합니다.

모델 아키텍처

1. 전체 프레임워크

UniVector 프레임워크는 세 가지 주요 구성 요소를 포함합니다:

통합 벡터 인코딩: 서로 다른 벡터 구조를 구조화된 쿼리로 인코딩
인스턴스-기하학 상호작용 디코딩: 쿼리를 반복적으로 정제
동적 형태 제약: 전역 구조 일관성과 국소 기하학 정확도 보장

2. 통합 벡터 인코딩

구조화된 쿼리 표현:

쿼리 집합 $Q_s \in \mathbb{R}^{N \times (M+1) \times C}$ , 여기서 N은 최대 벡터 인스턴스 수, M은 각 벡터의 최대 점 수, C는 채널 차원입니다.
각 벡터 $Q_s^i$ 는 인스턴스 쿼리 $Q_{ins}^i \in \mathbb{R}^C$ 와 기하학 쿼리 $Q_{geo}^i \in \mathbb{R}^{M \times C}$ 를 포함합니다.

쿼리 인코딩 프로세스:

인스턴스 수준 인코딩: 조잡에서 세밀한 전략을 채택하여 먼저 점수가 가장 높은 이미지 토큰을 선택하여 조잡한 쿼리를 형성한 다음 인스턴스 감지 모듈을 통해 정제합니다.
기하학 수준 인코딩: 형태 변형 모듈을 통해 세부 구조를 포착하고, 프레임 내 주의를 사용하여 기하학 쿼리를 정제합니다.

3. 인스턴스-기하학 상호작용 디코딩

구조화된 특징 추출: 변형 가능한 주의를 확장하여 각 벡터에 인스턴스 참조점과 기하학 참조점을 할당합니다:

$\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}$

인스턴스-기하학 상호작용:

단일 수준 상호작용: 자기 주의 메커니즘 사용
수준 간 정제: 교차 주의 메커니즘 사용

$Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])$ $Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])$