2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.
Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
academic

UniVector: 인스턴스-기하학 상호작용을 통한 통합 벡터 추출

기본 정보

  • 논문 ID: 2510.13234
  • 제목: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
  • 저자: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13234v1

초록

벡터 추출(Vector Extraction, VE)은 래스터 이미지에서 구조화된 벡터 기하학 정보를 검색하여 고충실도 표현과 광범위한 적용성을 제공합니다. 그러나 기존 방법들은 일반적으로 단일 벡터 유형(예: 다각형, 폴리라인, 선분)에 맞춤화되어 있으며, 서로 다른 구조에 대해 독립적인 모델이 필요합니다. 이는 인스턴스 속성(카테고리, 구조)과 기하학 속성(점 좌표, 연결)을 독립적으로 처리하기 때문이며, 복잡한 구조 포착 능력을 제한합니다. 인간의 뇌가 시각 인지에서 의미론적 및 공간적 상호작용을 동시에 사용한다는 영감을 받아, 저자들은 UniVector를 제안합니다. 이는 인스턴스-기하학 상호작용을 통해 단일 모델 내에서 다양한 벡터 유형을 추출하는 통합 VE 프레임워크입니다. UniVector는 벡터를 인스턴스 수준 및 기하학 수준 정보를 포함하는 구조화된 쿼리로 인코딩하며, 상호작용 모듈을 통해 반복적으로 업데이트하여 수준 간 컨텍스트 교환을 실현합니다. 동적 형태 제약은 전역 구조와 핵심 포인트를 추가로 정제합니다.

연구 배경 및 동기

문제 정의

벡터 추출은 컴퓨터 비전의 핵심 작업으로, 래스터 이미지에서 구조화된 벡터 정보를 추출하는 것을 목표로 합니다. 벡터 데이터는 래스터 데이터에 비해 경량 저장, 고충실도 및 편집 용이성의 장점을 가지며, 그래픽 디자인, 지리 지도 제작 및 자율 주행 등 다양한 분야에 광범위하게 적용됩니다.

기존 방법의 한계

  1. 단일 구조 제한: 기존 방법들은 일반적으로 특정 벡터 유형(다각형, 폴리라인 또는 선분)에 특화되어 설계되어 있으며, 여러 개의 독립적인 모델이 필요합니다.
  2. 캐스케이드 아키텍처 문제: 전통적인 방법은 캐스케이드 파이프라인을 채택하여 인스턴스 속성과 기하학 속성을 각각 처리하므로 정보 격차가 발생합니다.
  3. 위상 오류: 인스턴스 수준 제약의 부재로 인해 다중 구조 시나리오에서 위상 오류가 쉽게 발생합니다.

연구 동기

인간의 뇌가 시각 인지에서 의미론적 이해와 공간적 이해를 동시에 사용한다는 영감을 받아, 저자들은 인스턴스-기하학 상호작용을 통해 명시적인 수준 간 정보 융합을 모델링하여 전역 구조 사전 정보와 세밀한 의미론적-구조적 단서가 서로 보완될 수 있도록 제안합니다.

핵심 기여

  1. 통합 표현 및 프레임워크: 서로 다른 벡터 구조를 통합하는 구조화된 쿼리 표현을 제안하고, UniVector 인스턴스-기하학 상호작용 학습 프레임워크를 도입합니다.
  2. 인스턴스-기하학 상호작용 모델링: 통합 벡터 인코더 및 인스턴스-기하학 상호작용 디코더를 설계하여 구조화된 쿼리를 자적응적으로 초기화하고 정제합니다.
  3. 동적 형태 제약(DSC): 전역 구조 일관성과 국소 형태 정확도를 동적으로 최적화하는 DSC를 도입합니다.
  4. Multi-Vector 데이터셋: 다각형, 폴리라인 및 선분을 포함하는 첫 번째 다중 구조 VE 데이터셋을 구축합니다.

방법 상세 설명

작업 정의

래스터 이미지가 주어졌을 때, 그 안의 다양한 벡터 구조(다각형, 폴리라인, 선분)를 동시에 추출하여 인스턴스 카테고리, 경계 상자, 점 좌표 및 점 카테고리를 포함한 출력을 생성합니다.

모델 아키텍처

1. 전체 프레임워크

UniVector 프레임워크는 세 가지 주요 구성 요소를 포함합니다:

  • 통합 벡터 인코딩: 서로 다른 벡터 구조를 구조화된 쿼리로 인코딩
  • 인스턴스-기하학 상호작용 디코딩: 쿼리를 반복적으로 정제
  • 동적 형태 제약: 전역 구조 일관성과 국소 기하학 정확도 보장

2. 통합 벡터 인코딩

구조화된 쿼리 표현:

  • 쿼리 집합 QsRN×(M+1)×CQ_s \in \mathbb{R}^{N \times (M+1) \times C}, 여기서 N은 최대 벡터 인스턴스 수, M은 각 벡터의 최대 점 수, C는 채널 차원입니다.
  • 각 벡터 QsiQ_s^i는 인스턴스 쿼리 QinsiRCQ_{ins}^i \in \mathbb{R}^C와 기하학 쿼리 QgeoiRM×CQ_{geo}^i \in \mathbb{R}^{M \times C}를 포함합니다.

쿼리 인코딩 프로세스:

  • 인스턴스 수준 인코딩: 조잡에서 세밀한 전략을 채택하여 먼저 점수가 가장 높은 이미지 토큰을 선택하여 조잡한 쿼리를 형성한 다음 인스턴스 감지 모듈을 통해 정제합니다.
  • 기하학 수준 인코딩: 형태 변형 모듈을 통해 세부 구조를 포착하고, 프레임 내 주의를 사용하여 기하학 쿼리를 정제합니다.

3. 인스턴스-기하학 상호작용 디코딩

구조화된 특징 추출: 변형 가능한 주의를 확장하여 각 벡터에 인스턴스 참조점과 기하학 참조점을 할당합니다:

{Rgeol=Sigmoid(Sigmoid1(Rinsl)+MLP(Qgeol)),l=0Rgeol=Sigmoid(Sigmoid1(Rgeol)+MLP(Qgeol)),l1\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}

인스턴스-기하학 상호작용:

  • 단일 수준 상호작용: 자기 주의 메커니즘 사용
  • 수준 간 정제: 교차 주의 메커니즘 사용

Qins=Concat(CA(Qinsi,Qgeoi),i[1,...,N])Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])Qgeo=Concat(CA(Qgeoi,Qinsi),i[1,...,N])Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])

4. 동적 형태 제약(DSC)

핵심 포인트 동적 매칭: 예측 벡터 P^={p^i}i=1M\hat{P} = \{\hat{p}_i\}_{i=1}^M과 진실값 P={pi}i=1TP = \{p_i\}_{i=1}^T 사이의 이분 그래프 매칭을 해결합니다:

Lmatch(P^,P,β)=1Ti=1T(αpl1(pi,p^i)+αcl1(ci,c^i))L_{match}(\hat{P}, P, \beta) = \frac{1}{T}\sum_{i=1}^T(\alpha_p \cdot l_1(p_i, \hat{p}_i) + \alpha_c \cdot l_1(c_i, \hat{c}_i))

β=argminβLmatch(P^,P,β)\beta^* = \arg\min_\beta L_{match}(\hat{P}, P, \beta)

벡터 형태 감독: 종합 제약은 방향 손실, 핵심 포인트 손실 및 분류 손실을 포함합니다:

LVSL=α1Ldir+α2Lkp+α3LclsL_{VSL} = \alpha_1 \cdot L_{dir} + \alpha_2 \cdot L_{kp} + \alpha_3 \cdot L_{cls}

기술 혁신점

  1. 통합 표현: 구조화된 쿼리를 사용하여 서로 다른 벡터 유형을 통합하는 표현을 처음으로 제안합니다.
  2. 상호작용 메커니즘: 명시적인 인스턴스-기하학 상호작용을 설계하여 두 수준 간의 정보 격차를 해소합니다.
  3. 동적 제약: 서로 다른 벡터의 형태 변화에 적응하는 동적 형태 제약을 도입합니다.

실험 설정

데이터셋

Multi-Vector 데이터셋:

  • 첫 번째 다중 구조 벡터 추출 데이터셋
  • 20,000개 학습 이미지, 3,734개 검증 이미지
  • 세 가지 의미론적 카테고리: 건물(70.6%), 도로 경계(18.9%), 중심선(10.5%)
  • 건물은 다각형, 도로 경계는 폴리라인, 중심선은 선분입니다.

단일 구조 데이터셋:

  • CrowdAI: 280k+ 학습 이미지, 60k 테스트 이미지, 건물 추출용
  • Structured3D: 합성 3D 주택 데이터셋
  • Topo-Boundary: 25k 항공 이미지, 도로 경계 추출용
  • Wireframe 및 York Urban: 표준 선분 감지 데이터셋

평가 지표

건물: mAP, IoU, CIoU, PoLiS 도로 경계 및 중심선:

  • 픽셀 수준: 정밀도, 재현율, F1 점수(10픽셀 허용 오차)
  • 기하학 수준: ECM(엔트로피 연결성 측정), APLS(평균 경로 길이 유사성)

비교 방법

FFL, HiSup, PolyR-CNN(다각형), Sat2Graph, RNGDet++(폴리라인), HAWP, LETR(선분) 등 대표적인 방법을 포함합니다.

실험 결과

주요 결과

Multi-Vector 데이터셋 성능:

  • 건물: mAP 49.8%(ResNet-50), 53.4%(Swin-L)
  • 도로 경계: F1-score 88.4%(ResNet-50), 90.4%(Swin-L)
  • 중심선: F1-score 87.8%(ResNet-50), 88.2%(Swin-L)

단일 구조 데이터셋 최첨단 성능:

  • CrowdAI: AP 72.8%(ResNet-50), 79.9%(Swin-B)
  • Topo-Boundary: F1-score 90.3%
  • Wireframe: sAP10 64.5%(ResNet-50), 69.8%(Swin-L)

절제 실험

구성 요소Multi-Vector 건물CrowdAITopo-Boundary
기준선39.663.978.8
+IGID45.2 (+5.6)69.3 (+5.4)85.6 (+6.8)
+UVE47.6 (+2.4)71.5 (+2.2)87.5 (+1.9)
+DSC49.4 (+1.8)72.8 (+1.3)90.3 (+2.8)

인스턴스-기하학 상호작용 디코딩(IGID)이 가장 큰 이득을 제공하며, 통합 벡터 인코딩(UVE)과 동적 형태 제약(DSC)이 추가 개선을 제공합니다.

실험 발견

  1. 학습 효율: 캐스케이드 다중 모델 방법에 비해 학습 및 추론 속도가 2-20배 향상됩니다.
  2. 기하학 정확도: 복잡한 시나리오에서 더 정확한 형태와 더 적은 오탐을 보여줍니다.
  3. 도메인 간 일반화: 서로 다른 데이터셋에서 안정적인 성능을 유지합니다.

관련 연구

벡터 추출 방법 분류

인스턴스에서 기하학 프레임워크:

  • 먼저 인스턴스 표현(경계 상자 또는 마스크)을 예측한 다음 벡터 기하학을 추론합니다.
  • 대표 방법: Mask R-CNN, PolyR-CNN, LETR
  • 한계: 인스턴스 품질에 의존하며, 밀집 시나리오에서 왜곡이 쉽습니다.

기하학에서 인스턴스 프레임워크:

  • 먼저 기하학 포인트를 감지한 다음 연결 관계를 예측합니다.
  • 대표 방법: PolyWorld, GraphMapper, RoadTracer
  • 한계: 인스턴스 수준 사전 정보 부재로 위상 오류가 발생합니다.

본 논문의 장점

인스턴스-기하학 상호작용을 명시적으로 모델링하여 두 프레임워크의 장점을 결합하고 더 정확한 다중 구조 벡터 추출을 실현합니다.

결론 및 논의

주요 결론

  1. UniVector는 다중 구조 벡터 추출을 성공적으로 실현하며, 단일 구조 및 다중 구조 작업 모두에서 최첨단 성능을 달성합니다.
  2. 인스턴스-기하학 상호작용 메커니즘은 두 수준 간의 정보 격차를 효과적으로 해소합니다.
  3. 동적 형태 제약은 서로 다른 벡터 유형의 형태 변화 요구에 적응합니다.

한계

  1. 고정된 최대 포인트 수 설정은 극도로 복잡한 형태의 표현을 제한할 수 있습니다.
  2. 계산 복잡도는 단일 구조 방법에 비해 다소 증가합니다.
  3. 극도로 작은 규모 또는 심각한 폐색이 있는 벡터에 대해서는 여전히 도전 과제가 있습니다.

향후 방향

저자들은 영점 샷 벡터 추출 기초 모델 개발과 시각적 위치 결정 및 경로 계획과 같은 하위 작업에 벡터 표현을 적용할 것을 제안합니다.

심층 평가

장점

  1. 높은 혁신성: 통합 다중 구조 벡터 추출 프레임워크를 처음으로 제안하여 해당 분야의 오랫동안 존재해온 문제를 해결합니다.
  2. 합리적인 방법: 인간의 인지에서 영감을 받은 인스턴스-기하학 상호작용 설계는 매우 강력한 이론적 기초를 가집니다.
  3. 충분한 실험: 여러 데이터셋에 대한 포괄적인 평가는 방법의 효과성을 입증합니다.
  4. 높은 실용 가치: 학습 효율을 크게 향상시키며 중요한 응용 가치를 가집니다.

부족한 점

  1. 계산 오버헤드: 단일 구조 방법에 비해 계산 복잡도가 다소 증가합니다.
  2. 매개변수 민감성: 동적 형태 제약의 가중치 매개변수는 신중한 조정이 필요합니다.
  3. 극단적 시나리오: 극도로 작은 목표 또는 심각한 폐색 상황의 처리 능력이 제한적입니다.

영향력

  1. 학술 기여: 다중 구조 통합 추출 문제를 개척적으로 해결하여 해당 분야의 발전에 새로운 사고를 제공합니다.
  2. 실용 가치: 지리 정보 시스템, 자율 주행 등 응용에서 중요한 의미를 가집니다.
  3. 재현성: 코드 및 데이터셋 공개를 약속하여 후속 연구를 용이하게 합니다.

적용 시나리오

  • 고정밀 지도 구축
  • 원격 감지 이미지 분석
  • 건축 정보 추출
  • 자율 주행 경로 계획
  • 그래픽 디자인 자동화

참고문헌

본 논문은 벡터 추출, 목표 감지, 의미론적 분할, 그래프 신경망 등 여러 관련 분야의 중요한 연구를 포함하는 75개의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.


전체 평가: 이는 벡터 추출이라는 중요한 작업에서 상당한 돌파구를 이룬 고품질의 컴퓨터 비전 논문입니다. 방법의 혁신성이 강하고, 실험 설계가 합리적이며, 결과가 설득력 있고, 중요한 학술 가치와 실용 의미를 가집니다.