2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

基本信息

  • 论文ID: 2510.11091
  • 标题: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • 作者: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • 分类: cs.CV cs.AI
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11091

摘要

随着计算机辅助设计(CAD)图纸在工程、建筑和工业设计中的广泛应用,准确解释和分析这些图纸的能力变得越来越重要。在各种子任务中,全景符号识别在支持CAD自动化和设计检索等下游应用方面发挥着至关重要的作用。现有方法主要关注CAD图纸中的几何基元来解决这一任务,但面临两个主要问题:通常忽略CAD图纸中丰富的文本注释,缺乏对基元间关系的显式建模,导致对整体图纸理解不全面。为填补这一空白,本文提出了一个融合文本注释的全景符号识别框架,通过联合建模几何和文本基元构建统一表示,采用基于Transformer的骨干网络和类型感知注意力机制来显式建模不同类型基元间的空间依赖关系。

研究背景与动机

问题定义

本文要解决的核心问题是CAD图纸中的全景符号识别(Panoptic Symbol Spotting)任务,该任务统一了实例级符号检测和语义识别,既要识别可数的"物体"类别(如门、窗、家具),也要识别不可数的"材料"类别(如墙体、栏杆等)。

问题重要性

  1. 工业需求: CAD图纸广泛应用于机械制造、建筑、电子和航空航天等行业,准确的符号识别是实现智能设计解释、自动化建模和图纸检索的基础
  2. 技术挑战: 现实CAD图纸规模庞大、结构复杂,需要同时理解几何结构和语义信息
  3. 应用价值: 支持CAD自动化、设计检索等下游应用

现有方法局限性

  1. 忽略文本信息: 现有方法主要关注几何基元(线、弧、圆等),忽略了CAD图纸中丰富的文本注释,这些文本包含尺寸标签、符号名称和功能描述等重要语义信息
  2. 缺乏关系建模: 缺乏对不同类型基元间关系的显式建模,无法捕获高层次的结构依赖关系,限制了表示能力和模型性能

研究动机

文本注释在CAD图纸中提供了补充几何布局的语义线索,是理解设计意图的重要信息源。通过将文本注释与几何基元整合,可以构建更全面的表示,提高复杂场景下的识别准确性。

核心贡献

  1. 首次将文本信息融入CAD符号识别: 将文本注释作为关键语义模态引入CAD符号识别任务,通过结合文本和几何基元获得更丰富的图纸内容理解
  2. 提出类型感知注意力机制: 设计了类型感知注意力机制来显式建模不同类型基元间的空间关系,增强模型对布局结构的理解能力
  3. 在真实数据集上达到最优性能: 在包含文本注释的FloorPlanCAD数据集上取得最先进性能,验证了方法的实用性和稳定性

方法详解

任务定义

  • 输入: 矢量化CAD图纸D,包含几何基元(线、弧、圆、椭圆)和文本注释
  • 基元表示: 每个基元ei关联语义类别li和实例索引zi
  • 输出: 预测每个基元的语义标签l̂i和实例索引ẑi

模型架构

1. 图构建模块

将CAD图纸分解为基本图形基元集合D = {pk},包括几何基元和文本注释,作为图中的顶点。引入文本集成模块处理多样化的文本基元,保留具有有意义语义的高质量注释。

2. 特征初始化

  • 视觉特征提取: 使用预训练CNN(HRNetV2-W48)从栅格化CAD图像中提取特征图F
  • 基元特征: 通过双线性插值从特征图中采样得到初始特征嵌入 f_i^0 = εCNN(F, ci)
  • 边特征构建: 手工构建边特征描述不同类型基元间的空间关系

3. 类型感知注意力机制

边特征编码:

  • 类型指示器t:表示节点对类别(几何-几何、几何-文本、文本-文本)
  • 几何关系向量e ∈ R^7:捕获相对距离、位置和角度
  • 完整边特征: E = (t∥e) ∈ R^{N×k×8}

注意力计算:

原始注意力分数: α_ij^l = (q_i^l · k_j^l) / √(d/h)
多头注意力: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
结构嵌入: T^s = MLP(E)
增强注意力: f^s = Softmax(A^s + T^s)f^{s-1}

4. 损失函数

联合优化语义分类和实例分割:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

其中L_sem为交叉熵损失,L_ins为实例中心回归损失。

技术创新点

  1. 文本基元集成: 首次将文本注释作为独立基元类型纳入图结构,提供语义指导
  2. 类型感知建模: 通过类型指示器显式区分不同基元对的关系类型
  3. 结构化注意力: 将边特征作为偏置项集成到注意力计算中,增强空间关系建模

实验设置

数据集

  • FloorPlanCAD数据集: 15,663个CAD图纸,包含丰富文本注释
  • 类别: 35个对象类别,区分可数"物体"类和不可数"材料"类
  • 注释: 线级注释,物体类有类别标签和实例索引,材料类仅有语义类别
  • 划分: 14m×14m规则方块便于训练和评估

评价指标

采用专门的CAD符号识别评价指标:

  • 识别质量(RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • 分割质量(SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
  • 全景质量(PQ): PQ = RQ × SQ

对比方法

  • CADTransformer: 基于Transformer的基线方法
  • CADTransformer + text: 添加文本的基线变体

实现细节

  • 优化器: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
  • 架构: 6个注意力头,每个基元最多16个邻居
  • 训练: 50个epoch,批大小2,2个RTX 3090 GPU
  • 损失权重: λ_sem=1, λ_ins=0.3

实验结果

主要结果

方法PQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
Our Method0.73710.83810.87940.7877

关键发现:

  1. 文本集成使PQ从0.7152提升到0.7352,证明语义特征的积极作用
  2. 类型感知注意力机制进一步提升PQ到0.7371
  3. 在所有评价指标上均优于基线方法

类别级别分析

论文提供了详细的32个类别的性能分析,主要发现:

  • 优势类别: 在门类(单门、双门、推拉门)、家具类(沙发、床、椅子)等类别上显著提升
  • 挑战类别: 在飘窗等几何外观复杂且注释不标准化的类别上性能略有下降
  • 整体趋势: 在大多数符号类型上表现更好,证明方法的泛化能力

案例分析

可视化结果显示,相比CADTransformer,本方法在复杂区域产生更少的误分类,特别是在容易混淆基线模型的挑战性区域表现更鲁棒。

相关工作

CAD符号识别方法分类

  1. 基于像素的方法: 将符号识别视为图像任务,使用目标检测或图像分割技术,但会丢失几何精度且计算成本高
  2. 基于基元的方法: 直接操作几何基元,使用图神经网络或Transformer建模,保持结构信息但难以建模复杂层次关系
  3. 基于点云的方法: 将基元抽象为高维点云结构,捕获丰富几何信息但常忽略语义线索

本文定位

本文属于基于基元的方法,但创新性地融合了文本语义信息,填补了现有方法在多模态理解方面的空白。

结论与讨论

主要结论

  1. 文本注释是CAD图纸中的重要语义信息源,融合文本可显著提升符号识别性能
  2. 类型感知注意力机制能够有效建模不同类型基元间的空间依赖关系
  3. 联合几何和文本建模提供了更全面的CAD图纸理解

局限性

  1. 文本质量依赖: 方法性能依赖于文本注释的质量和一致性
  2. 计算复杂度: 增加文本基元和类型感知机制可能增加计算开销
  3. 数据集限制: 仅在建筑平面图数据集上验证,其他CAD领域的泛化性待验证

未来方向

  1. 扩展到其他CAD领域(机械、电子等)
  2. 研究更高效的多模态融合机制
  3. 探索自监督学习减少对标注数据的依赖

深度评价

优点

  1. 问题识别准确: 准确识别了现有方法忽略文本信息的关键问题
  2. 方法设计合理: 类型感知注意力机制设计巧妙,能够显式建模不同类型关系
  3. 实验充分: 提供了全面的对比实验、消融实验和案例分析
  4. 性能提升显著: 在真实大规模数据集上取得明显改进
  5. 写作清晰: 论文结构清晰,技术描述准确

不足

  1. 创新有限: 主要贡献是将现有技术(Transformer + 文本)应用到新领域
  2. 理论分析缺乏: 缺乏对为什么文本信息有效的深入理论分析
  3. 计算开销未分析: 未提供计算复杂度和运行时间分析
  4. 泛化性验证不足: 仅在一个数据集上验证,缺乏跨域实验

影响力

  1. 学术价值: 为CAD理解领域引入了多模态视角,可能启发后续研究
  2. 实用价值: 方法简单有效,易于工业应用
  3. 可复现性: 实现细节描述详细,具有良好的可复现性

适用场景

  1. 建筑CAD分析: 特别适用于包含丰富文本注释的建筑平面图
  2. 工程图纸理解: 可扩展到其他包含文本标注的工程图纸
  3. CAD自动化: 为CAD自动化和智能设计系统提供基础技术支持

参考文献

论文引用了75篇相关文献,涵盖了CAD分析、计算机视觉、深度学习等多个领域的重要工作,文献调研较为全面。重点参考了FloorPlanCAD数据集、CADTransformer等直接相关工作。


总体评价: 这是一篇技术扎实、问题定义明确的应用型论文。虽然技术创新相对有限,但准确识别了实际问题并提出了有效解决方案,在真实数据集上取得了显著改进。论文对CAD理解领域具有一定的推动作用,特别是在多模态信息融合方面提供了有价值的探索。