2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

Улучшенное паноптическое распознавание символов в чертежах САПР с использованием текста

Основная информация

  • ID статьи: 2510.11091
  • Название: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • Авторы: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • Классификация: cs.CV cs.AI
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11091

Аннотация

С широким применением чертежей систем автоматизированного проектирования (САПР) в инженерии, архитектуре и промышленном дизайне возрастает важность точного интерпретирования и анализа этих чертежей. Среди различных подзадач паноптическое распознавание символов играет критическую роль в поддержке автоматизации САПР и поиска проектов. Существующие методы сосредоточены главным образом на геометрических примитивах в чертежах САПР, но сталкиваются с двумя основными проблемами: обычно игнорируют богатые текстовые аннотации в чертежах САПР и не обеспечивают явного моделирования отношений между примитивами, что приводит к неполному пониманию чертежа в целом. Для заполнения этого пробела в настоящей работе предлагается структура паноптического распознавания символов, интегрирующая текстовые аннотации, которая строит унифицированное представление путём совместного моделирования геометрических и текстовых примитивов, используя магистраль на основе Transformer и механизм внимания, чувствительный к типам, для явного моделирования пространственных зависимостей между примитивами различных типов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, решаемая в данной работе, — это задача паноптического распознавания символов в чертежах САПР, которая объединяет обнаружение символов на уровне экземпляров и семантическое распознавание, требуя как идентификации счётных категорий «объектов» (таких как двери, окна, мебель), так и несчётных категорий «материалов» (таких как стены, перила и т.д.).

Значимость проблемы

  1. Промышленный спрос: Чертежи САПР широко используются в машиностроении, строительстве, электронике и аэрокосмической промышленности; точное распознавание символов является основой для интеллектуальной интерпретации проектов, автоматизированного моделирования и поиска чертежей
  2. Технические вызовы: Реальные чертежи САПР имеют большой масштаб и сложную структуру, требуя одновременного понимания геометрической структуры и семантической информации
  3. Прикладная ценность: Поддержка автоматизации САПР, поиска проектов и других нисходящих приложений

Ограничения существующих методов

  1. Игнорирование текстовой информации: Существующие методы сосредоточены на геометрических примитивах (линиях, дугах, окружностях и т.д.), игнорируя богатые текстовые аннотации в чертежах САПР, которые содержат важную семантическую информацию, такую как метки размеров, названия символов и описания функций
  2. Отсутствие моделирования отношений: Недостаточное явное моделирование отношений между примитивами различных типов, неспособность захватить высокоуровневые структурные зависимости, ограничивающие репрезентативную способность и производительность модели

Исследовательская мотивация

Текстовые аннотации в чертежах САПР предоставляют семантические подсказки, дополняющие геометрическую компоновку, и являются важным источником информации для понимания замысла проектирования. Путём интеграции текстовых аннотаций с геометрическими примитивами можно построить более полное представление и повысить точность распознавания в сложных сценариях.

Основные вклады

  1. Первое внедрение текстовой информации в распознавание символов САПР: Введение текстовых аннотаций как ключевой семантической модальности в задачу распознавания символов САПР, получение более богатого понимания содержания чертежа путём объединения текстовых и геометрических примитивов
  2. Предложение механизма внимания, чувствительного к типам: Разработка механизма внимания, чувствительного к типам, для явного моделирования пространственных отношений между примитивами различных типов, повышение способности модели понимать структуру компоновки
  3. Достижение оптимальной производительности на реальных наборах данных: Достижение передовой производительности на наборе данных FloorPlanCAD с текстовыми аннотациями, подтверждение практичности и стабильности метода

Подробное описание метода

Определение задачи

  • Входные данные: Векторизованный чертёж САПР D, содержащий геометрические примитивы (линии, дуги, окружности, эллипсы) и текстовые аннотации
  • Представление примитивов: Каждый примитив eᵢ связан с семантической категорией lᵢ и индексом экземпляра zᵢ
  • Выходные данные: Предсказание семантической метки l̂ᵢ и индекса экземпляра ẑᵢ для каждого примитива

Архитектура модели

1. Модуль построения графа

Разложение чертежа САПР на набор базовых графических примитивов D = {pₖ}, включая геометрические примитивы и текстовые аннотации, в качестве вершин графа. Введение модуля интеграции текста для обработки разнообразных текстовых примитивов, сохранение высококачественных аннотаций с значимой семантикой.

2. Инициализация признаков

  • Извлечение визуальных признаков: Использование предварительно обученной сверточной нейронной сети (HRNetV2-W48) для извлечения карт признаков F из растеризованного изображения САПР
  • Признаки примитивов: Получение начального встраивания признаков путём билинейной интерполяции из карты признаков f₀ᵢ = εCNN(F, cᵢ)
  • Построение признаков рёбер: Ручное построение признаков рёбер, описывающих пространственные отношения между примитивами различных типов

3. Механизм внимания, чувствительный к типам

Кодирование признаков рёбер:

  • Индикатор типа t: представляет категорию пары узлов (геометрия-геометрия, геометрия-текст, текст-текст)
  • Вектор геометрического отношения e ∈ ℝ⁷: захватывает относительное расстояние, положение и угол
  • Полный признак ребра: E = (t∥e) ∈ ℝᴺˣᵏˣ⁸

Вычисление внимания:

Исходные оценки внимания: αˡᵢⱼ = (qˡᵢ · kˡⱼ) / √(d/h)
Многоголовое внимание: Aˢ = Concat(aˢᵢⱼ¹, aˢᵢⱼ², ..., aˢᵢⱼʰ)
Структурное встраивание: Tˢ = MLP(E)
Улучшенное внимание: fˢ = Softmax(Aˢ + Tˢ)fˢ⁻¹

4. Функция потерь

Совместная оптимизация семантической классификации и сегментации экземпляров:

L = λsem · Lsem + λins · Lins
Lins = (1/Σmᵢ) Σᵢ ∥oᵢ - (cᵢ - pᵢ)∥ · mᵢ

где Lsem — потеря кросс-энтропии, Lins — потеря регрессии центра экземпляра.

Технические инновации

  1. Интеграция текстовых примитивов: Первое введение текстовых аннотаций как независимого типа примитива в графическую структуру, обеспечивающее семантическое руководство
  2. Моделирование, чувствительное к типам: Явное различие типов отношений между различными парами примитивов через индикатор типа
  3. Структурированное внимание: Интеграция признаков рёбер как смещения в вычисление внимания, повышение моделирования пространственных отношений

Экспериментальная установка

Набор данных

  • Набор данных FloorPlanCAD: 15 663 чертежа САПР с богатыми текстовыми аннотациями
  • Категории: 35 категорий объектов, различающих счётные классы «объектов» и несчётные классы «материалов»
  • Аннотации: Аннотации на уровне линий; классы объектов имеют метки категорий и индексы экземпляров; классы материалов имеют только семантические категории
  • Разделение: Регулярные блоки 14м×14м для удобства обучения и оценки

Метрики оценки

Использование специализированных метрик оценки для распознавания символов САПР:

  • Качество распознавания (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • Качество сегментации (SQ): SQ = Σ₍ₛₚ,ₛ_g₎∈TP IoU(sₚ, s_g) / |TP|
  • Паноптическое качество (PQ): PQ = RQ × SQ

Методы сравнения

  • CADTransformer: базовый метод на основе Transformer
  • CADTransformer + text: вариант базовой модели с добавлением текста

Детали реализации

  • Оптимизатор: Adam (β₁=0.9, β₂=0.99, lr=2.5×10⁻⁵)
  • Архитектура: 6 голов внимания, максимум 16 соседей для каждого примитива
  • Обучение: 50 эпох, размер пакета 2, 2 GPU RTX 3090
  • Веса потерь: λsem=1, λins=0.3

Результаты экспериментов

Основные результаты

МетодPQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
Наш метод0.73710.83810.87940.7877

Ключевые выводы:

  1. Интеграция текста повышает PQ с 0.7152 до 0.7352, подтверждая положительное влияние семантических признаков
  2. Механизм внимания, чувствительный к типам, дополнительно повышает PQ до 0.7371
  3. Превосходство над базовыми методами по всем метрикам оценки

Анализ на уровне категорий

Статья предоставляет подробный анализ производительности 32 категорий с основными выводами:

  • Категории с преимуществами: Значительное улучшение в категориях дверей (одиночные, двойные, раздвижные), мебели (диваны, кровати, стулья) и т.д.
  • Сложные категории: Небольшое снижение производительности в категориях с геометрически сложным внешним видом и нестандартизированными аннотациями, таких как эркеры
  • Общая тенденция: Лучшая производительность на большинстве типов символов, подтверждающая способность метода к обобщению

Анализ примеров

Визуализированные результаты показывают, что по сравнению с CADTransformer наш метод производит меньше ошибочных классификаций в сложных областях, особенно более надёжен в сложных областях, которые легко вводят в заблуждение базовую модель.

Связанные работы

Классификация методов распознавания символов САПР

  1. Методы на основе пикселей: Рассмотрение распознавания символов как задачи обработки изображений, использование методов обнаружения объектов или сегментации изображений, но приводит к потере геометрической точности и высоким вычислительным затратам
  2. Методы на основе примитивов: Прямая работа с геометрическими примитивами, использование графических нейронных сетей или Transformer для моделирования, сохранение структурной информации, но сложность моделирования сложных иерархических отношений
  3. Методы на основе облаков точек: Абстрагирование примитивов как высокомерных облаков точек, захват богатой геометрической информации, но часто игнорирование семантических подсказок

Позиционирование данной работы

Данная работа относится к методам на основе примитивов, но инновационно интегрирует текстовую семантическую информацию, заполняя пробел в существующих методах в области мультимодального понимания.

Заключение и обсуждение

Основные выводы

  1. Текстовые аннотации являются важным источником семантической информации в чертежах САПР; интеграция текста может значительно повысить производительность распознавания символов
  2. Механизм внимания, чувствительный к типам, может эффективно моделировать пространственные зависимости между примитивами различных типов
  3. Совместное моделирование геометрии и текста обеспечивает более полное понимание чертежей САПР

Ограничения

  1. Зависимость от качества текста: Производительность метода зависит от качества и согласованности текстовых аннотаций
  2. Вычислительная сложность: Добавление текстовых примитивов и механизма внимания, чувствительного к типам, может увеличить вычислительные затраты
  3. Ограничения набора данных: Проверка только на наборе данных архитектурных планов; обобщаемость на другие области САПР требует дальнейшей проверки

Будущие направления

  1. Расширение на другие области САПР (машиностроение, электроника и т.д.)
  2. Исследование более эффективных механизмов мультимодальной интеграции
  3. Изучение самоконтролируемого обучения для снижения зависимости от аннотированных данных

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: Точное выявление ключевой проблемы игнорирования текстовой информации существующими методами
  2. Разумный дизайн метода: Изящный дизайн механизма внимания, чувствительного к типам, способный явно моделировать отношения различных типов
  3. Полные эксперименты: Предоставление комплексных сравнительных экспериментов, абляционных исследований и анализа примеров
  4. Значительное повышение производительности: Явное улучшение на реальном крупномасштабном наборе данных
  5. Ясное изложение: Чёткая структура статьи, точное техническое описание

Недостатки

  1. Ограниченная инновация: Основной вклад — применение существующих технологий (Transformer + текст) к новой области
  2. Отсутствие теоретического анализа: Недостаток глубокого теоретического анализа того, почему текстовая информация эффективна
  3. Отсутствие анализа вычислительных затрат: Не предоставлены анализ вычислительной сложности и время выполнения
  4. Недостаточная проверка обобщаемости: Проверка только на одном наборе данных, отсутствие кросс-доменных экспериментов

Влияние

  1. Академическая ценность: Введение мультимодальной перспективы в область понимания САПР, потенциально вдохновляющее последующие исследования
  2. Практическая ценность: Простой и эффективный метод, легко применяемый в промышленности
  3. Воспроизводимость: Подробное описание деталей реализации, хорошая воспроизводимость

Применимые сценарии

  1. Анализ архитектурного САПР: Особенно подходит для архитектурных планов с богатыми текстовыми аннотациями
  2. Понимание инженерных чертежей: Может быть расширено на другие инженерные чертежи с текстовыми аннотациями
  3. Автоматизация САПР: Предоставление базовой технологической поддержки для систем автоматизации САПР и интеллектуального проектирования

Библиография

Статья цитирует 75 связанных работ, охватывающих анализ САПР, компьютерное зрение, глубокое обучение и другие области, с относительно полным обзором литературы. Основной упор сделан на прямо связанные работы, такие как набор данных FloorPlanCAD и CADTransformer.


Общая оценка: Это технически надёжная прикладная статья с чётким определением проблемы. Хотя техническая инновация относительно ограничена, она точно выявляет практическую проблему и предлагает эффективное решение, достигая значительного улучшения на реальном наборе данных. Статья вносит определённый вклад в развитие области понимания САПР, особенно в исследовании интеграции мультимодальной информации.