Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic
Улучшенное паноптическое распознавание символов в чертежах САПР с использованием текста
С широким применением чертежей систем автоматизированного проектирования (САПР) в инженерии, архитектуре и промышленном дизайне возрастает важность точного интерпретирования и анализа этих чертежей. Среди различных подзадач паноптическое распознавание символов играет критическую роль в поддержке автоматизации САПР и поиска проектов. Существующие методы сосредоточены главным образом на геометрических примитивах в чертежах САПР, но сталкиваются с двумя основными проблемами: обычно игнорируют богатые текстовые аннотации в чертежах САПР и не обеспечивают явного моделирования отношений между примитивами, что приводит к неполному пониманию чертежа в целом. Для заполнения этого пробела в настоящей работе предлагается структура паноптического распознавания символов, интегрирующая текстовые аннотации, которая строит унифицированное представление путём совместного моделирования геометрических и текстовых примитивов, используя магистраль на основе Transformer и механизм внимания, чувствительный к типам, для явного моделирования пространственных зависимостей между примитивами различных типов.
Основная проблема, решаемая в данной работе, — это задача паноптического распознавания символов в чертежах САПР, которая объединяет обнаружение символов на уровне экземпляров и семантическое распознавание, требуя как идентификации счётных категорий «объектов» (таких как двери, окна, мебель), так и несчётных категорий «материалов» (таких как стены, перила и т.д.).
Промышленный спрос: Чертежи САПР широко используются в машиностроении, строительстве, электронике и аэрокосмической промышленности; точное распознавание символов является основой для интеллектуальной интерпретации проектов, автоматизированного моделирования и поиска чертежей
Технические вызовы: Реальные чертежи САПР имеют большой масштаб и сложную структуру, требуя одновременного понимания геометрической структуры и семантической информации
Прикладная ценность: Поддержка автоматизации САПР, поиска проектов и других нисходящих приложений
Игнорирование текстовой информации: Существующие методы сосредоточены на геометрических примитивах (линиях, дугах, окружностях и т.д.), игнорируя богатые текстовые аннотации в чертежах САПР, которые содержат важную семантическую информацию, такую как метки размеров, названия символов и описания функций
Отсутствие моделирования отношений: Недостаточное явное моделирование отношений между примитивами различных типов, неспособность захватить высокоуровневые структурные зависимости, ограничивающие репрезентативную способность и производительность модели
Текстовые аннотации в чертежах САПР предоставляют семантические подсказки, дополняющие геометрическую компоновку, и являются важным источником информации для понимания замысла проектирования. Путём интеграции текстовых аннотаций с геометрическими примитивами можно построить более полное представление и повысить точность распознавания в сложных сценариях.
Первое внедрение текстовой информации в распознавание символов САПР: Введение текстовых аннотаций как ключевой семантической модальности в задачу распознавания символов САПР, получение более богатого понимания содержания чертежа путём объединения текстовых и геометрических примитивов
Предложение механизма внимания, чувствительного к типам: Разработка механизма внимания, чувствительного к типам, для явного моделирования пространственных отношений между примитивами различных типов, повышение способности модели понимать структуру компоновки
Достижение оптимальной производительности на реальных наборах данных: Достижение передовой производительности на наборе данных FloorPlanCAD с текстовыми аннотациями, подтверждение практичности и стабильности метода
Разложение чертежа САПР на набор базовых графических примитивов D = {pₖ}, включая геометрические примитивы и текстовые аннотации, в качестве вершин графа. Введение модуля интеграции текста для обработки разнообразных текстовых примитивов, сохранение высококачественных аннотаций с значимой семантикой.
Извлечение визуальных признаков: Использование предварительно обученной сверточной нейронной сети (HRNetV2-W48) для извлечения карт признаков F из растеризованного изображения САПР
Признаки примитивов: Получение начального встраивания признаков путём билинейной интерполяции из карты признаков f₀ᵢ = εCNN(F, cᵢ)
Построение признаков рёбер: Ручное построение признаков рёбер, описывающих пространственные отношения между примитивами различных типов
Интеграция текстовых примитивов: Первое введение текстовых аннотаций как независимого типа примитива в графическую структуру, обеспечивающее семантическое руководство
Моделирование, чувствительное к типам: Явное различие типов отношений между различными парами примитивов через индикатор типа
Структурированное внимание: Интеграция признаков рёбер как смещения в вычисление внимания, повышение моделирования пространственных отношений
Аннотации: Аннотации на уровне линий; классы объектов имеют метки категорий и индексы экземпляров; классы материалов имеют только семантические категории
Разделение: Регулярные блоки 14м×14м для удобства обучения и оценки
Статья предоставляет подробный анализ производительности 32 категорий с основными выводами:
Категории с преимуществами: Значительное улучшение в категориях дверей (одиночные, двойные, раздвижные), мебели (диваны, кровати, стулья) и т.д.
Сложные категории: Небольшое снижение производительности в категориях с геометрически сложным внешним видом и нестандартизированными аннотациями, таких как эркеры
Общая тенденция: Лучшая производительность на большинстве типов символов, подтверждающая способность метода к обобщению
Визуализированные результаты показывают, что по сравнению с CADTransformer наш метод производит меньше ошибочных классификаций в сложных областях, особенно более надёжен в сложных областях, которые легко вводят в заблуждение базовую модель.
Методы на основе пикселей: Рассмотрение распознавания символов как задачи обработки изображений, использование методов обнаружения объектов или сегментации изображений, но приводит к потере геометрической точности и высоким вычислительным затратам
Методы на основе примитивов: Прямая работа с геометрическими примитивами, использование графических нейронных сетей или Transformer для моделирования, сохранение структурной информации, но сложность моделирования сложных иерархических отношений
Методы на основе облаков точек: Абстрагирование примитивов как высокомерных облаков точек, захват богатой геометрической информации, но часто игнорирование семантических подсказок
Данная работа относится к методам на основе примитивов, но инновационно интегрирует текстовую семантическую информацию, заполняя пробел в существующих методах в области мультимодального понимания.
Текстовые аннотации являются важным источником семантической информации в чертежах САПР; интеграция текста может значительно повысить производительность распознавания символов
Механизм внимания, чувствительный к типам, может эффективно моделировать пространственные зависимости между примитивами различных типов
Совместное моделирование геометрии и текста обеспечивает более полное понимание чертежей САПР
Статья цитирует 75 связанных работ, охватывающих анализ САПР, компьютерное зрение, глубокое обучение и другие области, с относительно полным обзором литературы. Основной упор сделан на прямо связанные работы, такие как набор данных FloorPlanCAD и CADTransformer.
Общая оценка: Это технически надёжная прикладная статья с чётким определением проблемы. Хотя техническая инновация относительно ограничена, она точно выявляет практическую проблему и предлагает эффективное решение, достигая значительного улучшения на реальном наборе данных. Статья вносит определённый вклад в развитие области понимания САПР, особенно в исследовании интеграции мультимодальной информации.