2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.
Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
academic

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

基本信息

  • 论文ID: 2510.13234
  • 标题: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
  • 作者: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13234v1

摘要

向量提取(Vector Extraction, VE)从栅格图像中检索结构化向量几何信息,提供高保真度表示和广泛适用性。然而,现有方法通常针对单一向量类型(如多边形、折线、线段)定制,需要为不同结构使用独立模型。这源于将实例属性(类别、结构)和几何属性(点坐标、连接)独立处理,限制了捕获复杂结构的能力。受人脑在视觉感知中同时使用语义和空间交互的启发,作者提出UniVector,一个统一的VE框架,通过实例-几何交互在单一模型内提取多种向量类型。UniVector将向量编码为包含实例级和几何级信息的结构化查询,通过交互模块迭代更新以实现跨级别上下文交换。动态形状约束进一步细化全局结构和关键点。

研究背景与动机

问题定义

向量提取是计算机视觉中的核心任务,旨在从栅格图像中提取结构化向量信息。向量数据相比栅格数据具有轻量存储、高保真度和易编辑性的优势,广泛应用于图形设计、地理制图和自动驾驶等领域。

现有方法的局限性

  1. 单一结构限制: 现有方法通常专门针对特定向量类型(多边形、折线或线段)设计,需要多个独立模型
  2. 级联架构问题: 传统方法采用级联管道,将实例属性和几何属性分别处理,导致信息缺口
  3. 拓扑错误: 缺乏实例级约束容易在多结构场景中产生拓扑错误

研究动机

受人脑在视觉感知中同时使用语义理解和空间理解的启发,作者提出通过实例-几何交互来建模显式的跨级别信息融合,使全局结构先验和精细语义-结构线索能够相互补充。

核心贡献

  1. 统一表示与框架: 提出结构化查询表示来统一不同向量结构,并引入UniVector实例-几何交互学习框架
  2. 实例-几何交互建模: 设计统一向量编码器和实例-几何交互解码器,自适应初始化和细化结构化查询
  3. 动态形状约束(DSC): 引入DSC动态优化全局结构一致性和局部形状精度
  4. Multi-Vector数据集: 构建首个多结构VE数据集,包含多边形、折线和线段

方法详解

任务定义

给定栅格图像,同时提取其中的多种向量结构(多边形、折线、线段),输出包括实例类别、边界框、点坐标和点类别。

模型架构

1. 整体框架

UniVector框架包含三个主要组件:

  • 统一向量编码: 将不同向量结构编码为结构化查询
  • 实例-几何交互解码: 迭代细化查询
  • 动态形状约束: 确保全局结构一致性和局部几何精度

2. 统一向量编码

结构化查询表示:

  • 查询集 QsRN×(M+1)×CQ_s \in \mathbb{R}^{N \times (M+1) \times C},其中N为最大向量实例数,M为每个向量的最大点数,C为通道维度
  • 每个向量 QsiQ_s^i 包含实例查询 QinsiRCQ_{ins}^i \in \mathbb{R}^C 和几何查询 QgeoiRM×CQ_{geo}^i \in \mathbb{R}^{M \times C}

查询编码过程:

  • 实例级编码:采用粗到细策略,先选择得分最高的图像token形成粗糙查询,然后通过实例检测模块细化
  • 几何级编码:通过形状变形模块捕获详细结构,使用帧内注意力细化几何查询

3. 实例-几何交互解码

结构化特征提取: 扩展可变形注意力,为每个向量分配实例参考点和几何参考点:

R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}$$ **实例-几何交互**: - 单级别交互:使用自注意力机制 - 跨级别细化:使用交叉注意力机制 $$Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])$$ $$Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])$$ #### 4. 动态形状约束(DSC) **关键点动态匹配**: 解决预测向量$\hat{P} = \{\hat{p}_i\}_{i=1}^M$和真值$P = \{p_i\}_{i=1}^T$之间的二分图匹配: $$L_{match}(\hat{P}, P, \beta) = \frac{1}{T}\sum_{i=1}^T(\alpha_p \cdot l_1(p_i, \hat{p}_i) + \alpha_c \cdot l_1(c_i, \hat{c}_i))$$ $$\beta^* = \arg\min_\beta L_{match}(\hat{P}, P, \beta)$$ **向量形状监督**: 综合约束包括方向损失、关键点损失和分类损失: $$L_{VSL} = \alpha_1 \cdot L_{dir} + \alpha_2 \cdot L_{kp} + \alpha_3 \cdot L_{cls}$$ ### 技术创新点 1. **统一表示**: 首次提出结构化查询统一表示不同向量类型 2. **交互机制**: 设计显式的实例-几何交互,弥合两个层级之间的信息鸿沟 3. **动态约束**: 引入动态形状约束适应不同向量的形状变化 ## 实验设置 ### 数据集 **Multi-Vector数据集**: - 首个多结构向量提取数据集 - 20,000训练图像,3,734验证图像 - 三个语义类别:建筑物(70.6%)、道路边界(18.9%)、中心线(10.5%) - 建筑物为多边形,道路边界为折线,中心线为线段 **单结构数据集**: - CrowdAI: 280k+训练图像,60k测试图像,用于建筑物提取 - Structured3D: 合成3D房屋数据集 - Topo-Boundary: 25k航空图像,用于道路边界提取 - Wireframe和York Urban: 标准线段检测数据集 ### 评价指标 **建筑物**: mAP, IoU, CIoU, PoLiS **道路边界和中心线**: - 像素级:精确率、召回率、F1分数(10像素容差) - 几何级:ECM(熵连通性度量)、APLS(平均路径长度相似性) ### 对比方法 包括FFL、HiSup、PolyR-CNN(多边形)、Sat2Graph、RNGDet++(折线)、HAWP、LETR(线段)等代表性方法。 ## 实验结果 ### 主要结果 **Multi-Vector数据集表现**: - 建筑物:mAP 49.8%(ResNet-50)、53.4%(Swin-L) - 道路边界:F1-score 88.4%(ResNet-50)、90.4%(Swin-L) - 中心线:F1-score 87.8%(ResNet-50)、88.2%(Swin-L) **单结构数据集SOTA表现**: - CrowdAI: AP 72.8%(ResNet-50)、79.9%(Swin-B) - Topo-Boundary: F1-score 90.3% - Wireframe: sAP10 64.5%(ResNet-50)、69.8%(Swin-L) ### 消融实验 | 组件 | Multi-Vector建筑物 | CrowdAI | Topo-Boundary | |------|-------------------|---------|---------------| | Baseline | 39.6 | 63.9 | 78.8 | | +IGID | 45.2 (+5.6) | 69.3 (+5.4) | 85.6 (+6.8) | | +UVE | 47.6 (+2.4) | 71.5 (+2.2) | 87.5 (+1.9) | | +DSC | 49.4 (+1.8) | 72.8 (+1.3) | 90.3 (+2.8) | 实例-几何交互解码(IGID)提供最大增益,统一向量编码(UVE)和动态形状约束(DSC)提供额外改进。 ### 实验发现 1. **训练效率**: 相比级联多模型方法,训练和推理速度提升2-20倍 2. **几何精度**: 在复杂场景中展现更准确的形状和更少的误检 3. **跨域泛化**: 在不同数据集上保持稳定性能 ## 相关工作 ### 向量提取方法分类 **实例到几何框架**: - 先预测实例表示(边界框或掩码),再推断向量几何 - 代表方法:Mask R-CNN、PolyR-CNN、LETR - 局限:依赖实例质量,密集场景易失真 **几何到实例框架**: - 先检测几何点,再预测连接关系 - 代表方法:PolyWorld、GraphMapper、RoadTracer - 局限:缺乏实例级先验,易产生拓扑错误 ### 本文优势 通过显式建模实例-几何交互,结合两种框架的优势,实现更准确的多结构向量提取。 ## 结论与讨论 ### 主要结论 1. UniVector成功实现统一多结构向量提取,在单结构和多结构任务上均达到SOTA 2. 实例-几何交互机制有效弥合了两个层级间的信息鸿沟 3. 动态形状约束适应不同向量类型的形状变化需求 ### 局限性 1. 固定的最大点数设置可能限制极复杂形状的表示 2. 计算复杂度相比单结构方法有所增加 3. 对于极小尺度或严重遮挡的向量仍存在挑战 ### 未来方向 作者提出发展零样本向量提取基础模型,并将向量表示应用于下游任务如视觉定位和路径规划。 ## 深度评价 ### 优点 1. **创新性强**: 首次提出统一多结构向量提取框架,解决了领域内长期存在的问题 2. **方法合理**: 受人脑认知启发的实例-几何交互设计具有很强的理论基础 3. **实验充分**: 在多个数据集上的全面评估证明了方法的有效性 4. **实用价值高**: 显著提升训练效率,具有重要的应用价值 ### 不足 1. **计算开销**: 相比单结构方法,计算复杂度有所增加 2. **参数敏感性**: 动态形状约束中的权重参数需要仔细调优 3. **极端场景**: 对于极小目标或严重遮挡情况的处理能力有限 ### 影响力 1. **学术贡献**: 开创性地解决了多结构统一提取问题,为领域发展提供新思路 2. **实用价值**: 在地理信息系统、自动驾驶等应用中具有重要意义 3. **可复现性**: 承诺开源代码和数据集,有利于后续研究 ### 适用场景 - 高精度地图构建 - 遥感图像分析 - 建筑信息提取 - 自动驾驶路径规划 - 图形设计自动化 ## 参考文献 论文引用了75篇相关文献,涵盖了向量提取、目标检测、语义分割、图神经网络等多个相关领域的重要工作,为本研究提供了坚实的理论基础。 --- **总体评价**: 这是一篇高质量的计算机视觉论文,在向量提取这一重要任务上取得了显著突破。方法创新性强,实验设计合理,结果令人信服,具有重要的学术价值和实用意义。