Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic
Detección Panóptica de Símbolos Mejorada por Texto en Dibujos CAD
Con la amplia aplicación de dibujos de diseño asistido por computadora (CAD) en ingeniería, arquitectura y diseño industrial, la capacidad de interpretar y analizar con precisión estos dibujos se ha vuelto cada vez más importante. Entre varias subtareas, la detección panóptica de símbolos juega un papel crucial en el apoyo a aplicaciones posteriores como la automatización de CAD y la recuperación de diseños. Los métodos existentes se centran principalmente en primitivos geométricos en dibujos CAD para abordar esta tarea, pero enfrentan dos problemas principales: generalmente ignoran las anotaciones de texto enriquecidas en dibujos CAD y carecen de modelado explícito de relaciones entre primitivos, lo que resulta en una comprensión incompleta del dibujo en general. Para llenar este vacío, este artículo propone un marco de detección panóptica de símbolos que fusiona anotaciones de texto, construyendo una representación unificada mediante el modelado conjunto de primitivos geométricos y textuales, empleando una red troncal basada en Transformer y un mecanismo de atención consciente del tipo para modelar explícitamente las dependencias espaciales entre primitivos de diferentes tipos.
El problema central que aborda este artículo es la tarea de detección panóptica de símbolos en dibujos CAD (Panoptic Symbol Spotting), que unifica la detección de símbolos a nivel de instancia y el reconocimiento semántico, requiriendo identificar tanto categorías de "objetos" contables (como puertas, ventanas, muebles) como categorías de "materiales" incontables (como paredes, barandillas, etc.).
Demanda Industrial: Los dibujos CAD se utilizan ampliamente en fabricación mecánica, construcción, electrónica y aeroespacial, siendo el reconocimiento preciso de símbolos la base para lograr interpretación inteligente de diseños, modelado automatizado y recuperación de dibujos
Desafíos Técnicos: Los dibujos CAD reales tienen gran escala y estructura compleja, requiriendo comprensión simultánea de estructura geométrica e información semántica
Valor de Aplicación: Apoya automatización de CAD, recuperación de diseños y otras aplicaciones posteriores
Ignorancia de Información Textual: Los métodos existentes se centran principalmente en primitivos geométricos (líneas, arcos, círculos, etc.), ignorando las anotaciones de texto enriquecidas en dibujos CAD, que contienen información semántica importante como etiquetas de dimensión, nombres de símbolos y descripciones funcionales
Falta de Modelado de Relaciones: Carecen de modelado explícito de relaciones entre primitivos de diferentes tipos, incapaces de capturar dependencias estructurales de alto nivel, limitando la capacidad de representación y el desempeño del modelo
Las anotaciones de texto en dibujos CAD proporcionan pistas semánticas que complementan la disposición geométrica, siendo una fuente de información importante para comprender la intención de diseño. Al integrar anotaciones de texto con primitivos geométricos, se puede construir una representación más completa, mejorando la precisión de reconocimiento en escenas complejas.
Primera integración de información textual en reconocimiento de símbolos CAD: Introduce anotaciones de texto como modalidad semántica clave en la tarea de reconocimiento de símbolos CAD, obteniendo una comprensión más enriquecida del contenido de dibujos mediante la combinación de primitivos textuales y geométricos
Propone mecanismo de atención consciente del tipo: Diseña un mecanismo de atención consciente del tipo para modelar explícitamente relaciones espaciales entre primitivos de diferentes tipos, mejorando la capacidad del modelo para comprender estructuras de disposición
Logra desempeño óptimo en conjuntos de datos reales: Alcanza desempeño de última generación en el conjunto de datos FloorPlanCAD que contiene anotaciones de texto, verificando la practicidad y estabilidad del método
Descompone el dibujo CAD en un conjunto de primitivos gráficos básicos D = {pₖ}, incluyendo primitivos geométricos y anotaciones de texto, como vértices en el grafo. Introduce un módulo de integración de texto para procesar primitivos de texto diversificados, reteniendo anotaciones de alta calidad con semántica significativa.
Extracción de Características Visuales: Utiliza CNN preentrenada (HRNetV2-W48) para extraer mapas de características de imágenes CAD rasterizadas
Características de Primitivos: Obtiene incrustaciones de características iniciales mediante interpolación bilineal desde el mapa de características f_i^0 = εCNN(F, cᵢ)
Construcción de Características de Aristas: Construye manualmente características de aristas que describen relaciones espaciales entre primitivos de diferentes tipos
Integración de Primitivos Textuales: Primera incorporación de anotaciones de texto como tipo de primitivo independiente en la estructura de grafo, proporcionando orientación semántica
Modelado Consciente del Tipo: Distingue explícitamente tipos de relación entre diferentes pares de primitivos mediante indicadores de tipo
Atención Estructurada: Integra características de aristas como término de sesgo en el cálculo de atención, mejorando el modelado de relaciones espaciales
Conjunto de Datos FloorPlanCAD: 15,663 dibujos CAD con anotaciones de texto enriquecidas
Categorías: 35 categorías de objetos, distinguiendo entre clases de "objetos" contables e "materiales" incontables
Anotaciones: Anotaciones a nivel de línea, clases de objetos con etiquetas de categoría e índices de instancia, clases de materiales solo con categoría semántica
Partición: Bloques regulares de 14m×14m para facilitar entrenamiento y evaluación
El artículo proporciona análisis de desempeño detallado para 32 categorías, con hallazgos principales:
Categorías Ventajosas: Mejora significativa en clases de puertas (puertas simples, dobles, correderas), clases de muebles (sofás, camas, sillas), etc.
Categorías Desafiantes: Desempeño ligeramente reducido en categorías con apariencia geométrica compleja y anotaciones no estandarizadas como ventanas salientes
Tendencia General: Mejor desempeño en la mayoría de tipos de símbolos, demostrando capacidad de generalización del método
Los resultados visualizados muestran que en comparación con CADTransformer, este método produce menos clasificaciones erróneas en regiones complejas, siendo particularmente más robusto en áreas desafiantes que confunden al modelo base.
Métodos Basados en Píxeles: Tratan el reconocimiento de símbolos como tarea de imagen, utilizando técnicas de detección de objetos o segmentación de imágenes, pero pierden precisión geométrica y tienen alto costo computacional
Métodos Basados en Primitivos: Operan directamente en primitivos geométricos, utilizando redes neuronales de grafo o Transformer para modelado, manteniendo información estructural pero dificultando el modelado de relaciones jerárquicas complejas
Métodos Basados en Nubes de Puntos: Abstraen primitivos como estructuras de nubes de puntos de alta dimensión, capturando información geométrica enriquecida pero frecuentemente ignorando pistas semánticas
Este artículo pertenece a métodos basados en primitivos, pero innova al fusionar información semántica textual, llenando el vacío en comprensión multimodal de métodos existentes.
Las anotaciones de texto son una fuente importante de información semántica en dibujos CAD, siendo la fusión de texto capaz de mejorar significativamente el desempeño de reconocimiento de símbolos
El mecanismo de atención consciente del tipo puede modelar efectivamente dependencias espaciales entre primitivos de diferentes tipos
El modelado conjunto de información geométrica y textual proporciona comprensión más completa de dibujos CAD
Dependencia de Calidad de Texto: El desempeño del método depende de la calidad y consistencia de anotaciones de texto
Complejidad Computacional: Agregar primitivos textuales y mecanismo consciente del tipo puede aumentar sobrecarga computacional
Limitación de Conjunto de Datos: Validado solo en conjunto de datos de planos arquitectónicos, con generalización a otros dominios CAD pendiente de verificación
Identificación Precisa del Problema: Identifica con precisión el problema clave de métodos existentes que ignoran información textual
Diseño de Método Razonable: El mecanismo de atención consciente del tipo está ingeniosamente diseñado, capaz de modelar explícitamente relaciones entre diferentes tipos
Experimentación Completa: Proporciona experimentos comparativos exhaustivos, estudios de ablación y análisis de casos
Mejora Significativa de Desempeño: Logra mejoras evidentes en conjunto de datos real a gran escala
Escritura Clara: Estructura de artículo clara, descripción técnica precisa
El artículo cita 75 referencias relacionadas, cubriendo múltiples campos incluyendo análisis CAD, visión por computadora y aprendizaje profundo, con investigación bibliográfica relativamente completa. Se enfatiza en trabajos directamente relacionados como el conjunto de datos FloorPlanCAD y CADTransformer.
Evaluación General: Este es un artículo técnicamente sólido y con definición clara del problema de tipo aplicado. Aunque la innovación técnica es relativamente limitada, identifica con precisión problemas prácticos y propone soluciones efectivas, logrando mejoras significativas en conjuntos de datos reales. El artículo tiene cierto valor impulsador para el campo de comprensión CAD, proporcionando exploración valiosa particularmente en aspectos de fusión de información multimodal.