2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

Detección Panóptica de Símbolos Mejorada por Texto en Dibujos CAD

Información Básica

  • ID del Artículo: 2510.11091
  • Título: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • Autores: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • Clasificación: cs.CV cs.AI
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11091

Resumen

Con la amplia aplicación de dibujos de diseño asistido por computadora (CAD) en ingeniería, arquitectura y diseño industrial, la capacidad de interpretar y analizar con precisión estos dibujos se ha vuelto cada vez más importante. Entre varias subtareas, la detección panóptica de símbolos juega un papel crucial en el apoyo a aplicaciones posteriores como la automatización de CAD y la recuperación de diseños. Los métodos existentes se centran principalmente en primitivos geométricos en dibujos CAD para abordar esta tarea, pero enfrentan dos problemas principales: generalmente ignoran las anotaciones de texto enriquecidas en dibujos CAD y carecen de modelado explícito de relaciones entre primitivos, lo que resulta en una comprensión incompleta del dibujo en general. Para llenar este vacío, este artículo propone un marco de detección panóptica de símbolos que fusiona anotaciones de texto, construyendo una representación unificada mediante el modelado conjunto de primitivos geométricos y textuales, empleando una red troncal basada en Transformer y un mecanismo de atención consciente del tipo para modelar explícitamente las dependencias espaciales entre primitivos de diferentes tipos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este artículo es la tarea de detección panóptica de símbolos en dibujos CAD (Panoptic Symbol Spotting), que unifica la detección de símbolos a nivel de instancia y el reconocimiento semántico, requiriendo identificar tanto categorías de "objetos" contables (como puertas, ventanas, muebles) como categorías de "materiales" incontables (como paredes, barandillas, etc.).

Importancia del Problema

  1. Demanda Industrial: Los dibujos CAD se utilizan ampliamente en fabricación mecánica, construcción, electrónica y aeroespacial, siendo el reconocimiento preciso de símbolos la base para lograr interpretación inteligente de diseños, modelado automatizado y recuperación de dibujos
  2. Desafíos Técnicos: Los dibujos CAD reales tienen gran escala y estructura compleja, requiriendo comprensión simultánea de estructura geométrica e información semántica
  3. Valor de Aplicación: Apoya automatización de CAD, recuperación de diseños y otras aplicaciones posteriores

Limitaciones de Métodos Existentes

  1. Ignorancia de Información Textual: Los métodos existentes se centran principalmente en primitivos geométricos (líneas, arcos, círculos, etc.), ignorando las anotaciones de texto enriquecidas en dibujos CAD, que contienen información semántica importante como etiquetas de dimensión, nombres de símbolos y descripciones funcionales
  2. Falta de Modelado de Relaciones: Carecen de modelado explícito de relaciones entre primitivos de diferentes tipos, incapaces de capturar dependencias estructurales de alto nivel, limitando la capacidad de representación y el desempeño del modelo

Motivación de la Investigación

Las anotaciones de texto en dibujos CAD proporcionan pistas semánticas que complementan la disposición geométrica, siendo una fuente de información importante para comprender la intención de diseño. Al integrar anotaciones de texto con primitivos geométricos, se puede construir una representación más completa, mejorando la precisión de reconocimiento en escenas complejas.

Contribuciones Principales

  1. Primera integración de información textual en reconocimiento de símbolos CAD: Introduce anotaciones de texto como modalidad semántica clave en la tarea de reconocimiento de símbolos CAD, obteniendo una comprensión más enriquecida del contenido de dibujos mediante la combinación de primitivos textuales y geométricos
  2. Propone mecanismo de atención consciente del tipo: Diseña un mecanismo de atención consciente del tipo para modelar explícitamente relaciones espaciales entre primitivos de diferentes tipos, mejorando la capacidad del modelo para comprender estructuras de disposición
  3. Logra desempeño óptimo en conjuntos de datos reales: Alcanza desempeño de última generación en el conjunto de datos FloorPlanCAD que contiene anotaciones de texto, verificando la practicidad y estabilidad del método

Explicación Detallada del Método

Definición de la Tarea

  • Entrada: Dibujo CAD vectorizado D, que contiene primitivos geométricos (líneas, arcos, círculos, elipses) y anotaciones de texto
  • Representación de Primitivos: Cada primitivo eᵢ se asocia con una categoría semántica lᵢ e índice de instancia zᵢ
  • Salida: Predicción de etiqueta semántica l̂ᵢ e índice de instancia ẑᵢ para cada primitivo

Arquitectura del Modelo

1. Módulo de Construcción de Grafos

Descompone el dibujo CAD en un conjunto de primitivos gráficos básicos D = {pₖ}, incluyendo primitivos geométricos y anotaciones de texto, como vértices en el grafo. Introduce un módulo de integración de texto para procesar primitivos de texto diversificados, reteniendo anotaciones de alta calidad con semántica significativa.

2. Inicialización de Características

  • Extracción de Características Visuales: Utiliza CNN preentrenada (HRNetV2-W48) para extraer mapas de características de imágenes CAD rasterizadas
  • Características de Primitivos: Obtiene incrustaciones de características iniciales mediante interpolación bilineal desde el mapa de características f_i^0 = εCNN(F, cᵢ)
  • Construcción de Características de Aristas: Construye manualmente características de aristas que describen relaciones espaciales entre primitivos de diferentes tipos

3. Mecanismo de Atención Consciente del Tipo

Codificación de Características de Aristas:

  • Indicador de tipo t: Representa la clase de pares de nodos (geométrico-geométrico, geométrico-texto, texto-texto)
  • Vector de relación geométrica e ∈ ℝ⁷: Captura distancia relativa, posición y ángulo
  • Característica de arista completa: E = (t∥e) ∈ ℝ^(N×k×8)

Cálculo de Atención:

Puntuación de atención original: α_ij^l = (q_i^l · k_j^l) / √(d/h)
Atención multiencabezado: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
Incrustación estructural: T^s = MLP(E)
Atención mejorada: f^s = Softmax(A^s + T^s)f^(s-1)

4. Función de Pérdida

Optimización conjunta de clasificación semántica y segmentación de instancias:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

donde L_sem es la pérdida de entropía cruzada y L_ins es la pérdida de regresión del centro de instancia.

Puntos de Innovación Técnica

  1. Integración de Primitivos Textuales: Primera incorporación de anotaciones de texto como tipo de primitivo independiente en la estructura de grafo, proporcionando orientación semántica
  2. Modelado Consciente del Tipo: Distingue explícitamente tipos de relación entre diferentes pares de primitivos mediante indicadores de tipo
  3. Atención Estructurada: Integra características de aristas como término de sesgo en el cálculo de atención, mejorando el modelado de relaciones espaciales

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos FloorPlanCAD: 15,663 dibujos CAD con anotaciones de texto enriquecidas
  • Categorías: 35 categorías de objetos, distinguiendo entre clases de "objetos" contables e "materiales" incontables
  • Anotaciones: Anotaciones a nivel de línea, clases de objetos con etiquetas de categoría e índices de instancia, clases de materiales solo con categoría semántica
  • Partición: Bloques regulares de 14m×14m para facilitar entrenamiento y evaluación

Métricas de Evaluación

Adopta métricas de evaluación especializadas para reconocimiento de símbolos CAD:

  • Calidad de Reconocimiento (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • Calidad de Segmentación (SQ): SQ = Σ_(s_p,s_g)∈TP IoU(s_p,s_g) / |TP|
  • Calidad Panóptica (PQ): PQ = RQ × SQ

Métodos de Comparación

  • CADTransformer: Método base basado en Transformer
  • CADTransformer + text: Variante base con texto añadido

Detalles de Implementación

  • Optimizador: Adam (β₁=0.9, β₂=0.99, lr=2.5×10⁻⁵)
  • Arquitectura: 6 cabezas de atención, máximo 16 vecinos por primitivo
  • Entrenamiento: 50 épocas, tamaño de lote 2, 2 GPU RTX 3090
  • Pesos de Pérdida: λ_sem=1, λ_ins=0.3

Resultados Experimentales

Resultados Principales

MétodoPQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
Nuestro Método0.73710.83810.87940.7877

Hallazgos Clave:

  1. La integración de texto mejora PQ de 0.7152 a 0.7352, demostrando el efecto positivo de características semánticas
  2. El mecanismo de atención consciente del tipo mejora aún más PQ a 0.7371
  3. Supera métodos base en todas las métricas de evaluación

Análisis a Nivel de Categoría

El artículo proporciona análisis de desempeño detallado para 32 categorías, con hallazgos principales:

  • Categorías Ventajosas: Mejora significativa en clases de puertas (puertas simples, dobles, correderas), clases de muebles (sofás, camas, sillas), etc.
  • Categorías Desafiantes: Desempeño ligeramente reducido en categorías con apariencia geométrica compleja y anotaciones no estandarizadas como ventanas salientes
  • Tendencia General: Mejor desempeño en la mayoría de tipos de símbolos, demostrando capacidad de generalización del método

Análisis de Casos

Los resultados visualizados muestran que en comparación con CADTransformer, este método produce menos clasificaciones erróneas en regiones complejas, siendo particularmente más robusto en áreas desafiantes que confunden al modelo base.

Trabajo Relacionado

Clasificación de Métodos de Reconocimiento de Símbolos CAD

  1. Métodos Basados en Píxeles: Tratan el reconocimiento de símbolos como tarea de imagen, utilizando técnicas de detección de objetos o segmentación de imágenes, pero pierden precisión geométrica y tienen alto costo computacional
  2. Métodos Basados en Primitivos: Operan directamente en primitivos geométricos, utilizando redes neuronales de grafo o Transformer para modelado, manteniendo información estructural pero dificultando el modelado de relaciones jerárquicas complejas
  3. Métodos Basados en Nubes de Puntos: Abstraen primitivos como estructuras de nubes de puntos de alta dimensión, capturando información geométrica enriquecida pero frecuentemente ignorando pistas semánticas

Posicionamiento de Este Artículo

Este artículo pertenece a métodos basados en primitivos, pero innova al fusionar información semántica textual, llenando el vacío en comprensión multimodal de métodos existentes.

Conclusiones y Discusión

Conclusiones Principales

  1. Las anotaciones de texto son una fuente importante de información semántica en dibujos CAD, siendo la fusión de texto capaz de mejorar significativamente el desempeño de reconocimiento de símbolos
  2. El mecanismo de atención consciente del tipo puede modelar efectivamente dependencias espaciales entre primitivos de diferentes tipos
  3. El modelado conjunto de información geométrica y textual proporciona comprensión más completa de dibujos CAD

Limitaciones

  1. Dependencia de Calidad de Texto: El desempeño del método depende de la calidad y consistencia de anotaciones de texto
  2. Complejidad Computacional: Agregar primitivos textuales y mecanismo consciente del tipo puede aumentar sobrecarga computacional
  3. Limitación de Conjunto de Datos: Validado solo en conjunto de datos de planos arquitectónicos, con generalización a otros dominios CAD pendiente de verificación

Direcciones Futuras

  1. Extensión a otros dominios CAD (mecánico, electrónico, etc.)
  2. Investigación de mecanismos de fusión multimodal más eficientes
  3. Exploración de aprendizaje autosupervisado para reducir dependencia de datos anotados

Evaluación Profunda

Fortalezas

  1. Identificación Precisa del Problema: Identifica con precisión el problema clave de métodos existentes que ignoran información textual
  2. Diseño de Método Razonable: El mecanismo de atención consciente del tipo está ingeniosamente diseñado, capaz de modelar explícitamente relaciones entre diferentes tipos
  3. Experimentación Completa: Proporciona experimentos comparativos exhaustivos, estudios de ablación y análisis de casos
  4. Mejora Significativa de Desempeño: Logra mejoras evidentes en conjunto de datos real a gran escala
  5. Escritura Clara: Estructura de artículo clara, descripción técnica precisa

Insuficiencias

  1. Innovación Limitada: La contribución principal es la aplicación de tecnología existente (Transformer + texto) a nuevo dominio
  2. Falta de Análisis Teórico: Carece de análisis teórico profundo sobre por qué la información textual es efectiva
  3. Análisis de Sobrecarga Computacional No Realizado: No proporciona análisis de complejidad computacional y tiempo de ejecución
  4. Verificación de Generalización Insuficiente: Validado solo en un conjunto de datos, careciendo de experimentos entre dominios

Impacto

  1. Valor Académico: Introduce perspectiva multimodal al campo de comprensión CAD, potencialmente inspirando investigación posterior
  2. Valor Práctico: Método simple y efectivo, fácil de aplicar industrialmente
  3. Reproducibilidad: Detalles de implementación descritos exhaustivamente, con buena reproducibilidad

Escenarios Aplicables

  1. Análisis de CAD Arquitectónico: Particularmente adecuado para planos arquitectónicos con anotaciones de texto enriquecidas
  2. Comprensión de Dibujos de Ingeniería: Extensible a otros dibujos de ingeniería con anotaciones de texto
  3. Automatización de CAD: Proporciona soporte técnico fundamental para sistemas de automatización y diseño inteligente de CAD

Referencias Bibliográficas

El artículo cita 75 referencias relacionadas, cubriendo múltiples campos incluyendo análisis CAD, visión por computadora y aprendizaje profundo, con investigación bibliográfica relativamente completa. Se enfatiza en trabajos directamente relacionados como el conjunto de datos FloorPlanCAD y CADTransformer.


Evaluación General: Este es un artículo técnicamente sólido y con definición clara del problema de tipo aplicado. Aunque la innovación técnica es relativamente limitada, identifica con precisión problemas prácticos y propone soluciones efectivas, logrando mejoras significativas en conjuntos de datos reales. El artículo tiene cierto valor impulsador para el campo de comprensión CAD, proporcionando exploración valiosa particularmente en aspectos de fusión de información multimodal.