We present a transductive deep learning-based formulation for the sparse representation-based classification (SRC) method. The proposed network consists of a convolutional autoencoder along with a fully-connected layer. The role of the autoencoder network is to learn robust deep features for classification. On the other hand, the fully-connected layer, which is placed in between the encoder and the decoder networks, is responsible for finding the sparse representation. The estimated sparse codes are then used for classification. Various experiments on three different datasets show that the proposed network leads to sparse representations that give better classification results than state-of-the-art SRC methods. The source code is available at: github.com/mahdiabavisani/DSRC.
- ID статьи: 1904.11093
- Название: Deep Sparse Representation-based Classification
- Авторы: Mahdi Abavisani (Rutgers University), Vishal M. Patel (Johns Hopkins University)
- Категория: cs.CV cs.AI cs.LG stat.ML
- Дата публикации: 24 апреля 2019 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/1904.11093
- Ссылка на код: github.com/mahdiabavisani/DSRC
В данной работе предложен метод классификации на основе разреженного представления (SRC) с использованием трансдуктивного глубокого обучения. Сеть состоит из сверточного автокодировщика и полносвязного слоя, где автокодировщик отвечает за обучение робастным глубоким признакам для классификации, а полносвязный слой, расположенный между кодировщиком и декодировщиком, отвечает за поиск разреженного представления. Полученное разреженное кодирование впоследствии используется для классификации. Эксперименты на трёх различных наборах данных показывают, что предложенная сеть способна генерировать разреженные представления с лучшими результатами классификации по сравнению с современными методами SRC.
Разреженное кодирование является мощным инструментом в обработке сигналов и машинном обучении с широким применением в компьютерном зрении и распознавании образов. Метод классификации на основе разреженного представления (SRC) предполагает, что немеченые образцы могут быть представлены как разреженная линейная комбинация помеченных обучающих образцов. Представление получается путём решения оптимизационной задачи, способствующей разреженности, а затем метки назначаются на основе правила минимальной ошибки реконструкции.
- Недостаточность линейного представления: Традиционные методы SRC основаны на линейном представлении данных, однако линейное представление почти всегда недостаточно для представления нелинейной структуры данных, возникающей во многих практических приложениях.
- Ограничения ядерных методов: Существующие ядерные методы SRC требуют использования предварительно определённых функций ядра (таких как полиномиальные или гауссовы ядра), и выбор функции ядра и её параметров является важной проблемой при обучении.
- Недостаточная способность к обучению признаков: Традиционные методы не могут одновременно обучать отображение признаков, подходящее для разреженного представления, и разреженное кодирование.
В данной работе предложена структура на основе глубоких нейронных сетей, которая может найти явное нелинейное отображение данных и одновременно получить разреженное кодирование, пригодное для классификации. Было доказано, что обучение нелинейному отображению с использованием нейронных сетей приводит к значительным улучшениям в задачах кластеризации подпространства.
- Предложена сеть глубокого разреженного представления для классификации (DSRC): Структура сквозного обучения, объединяющая сверточный автокодировщик и слой разреженного кодирования
- Разработана модель трансдуктивного обучения: Одновременно принимает обучающие и тестовые образцы, обучаясь отображению, подходящему для разреженного представления
- Инновационный дизайн слоя разреженного кодирования: Специализированный слой разреженного кодирования, вставленный между кодировщиком и декодировщиком, реализует унифицированную оптимизацию обучения признаков и разреженного кодирования
- Экспериментальная проверка: Метод проверен на трёх различных наборах данных, значительно превосходя существующие методы SRC
Дан набор помеченных обучающих образцов, целью является классификация невидимого набора тестовых образцов. Матрица обучения строится как:
Xtrain=[Xtrain1,Xtrain2,⋯,XtrainK]∈Rd0×n
где Xtraini∈Rd0×ni содержит все обучающие образцы с меткой i.
Сеть DSRC содержит три основных компонента:
- Кодировщик: Обучает нелинейное отображение данных
- Слой разреженного кодирования: Находит разреженное представление тестовых образцов
- Декодировщик: Используется для обучения сети путём реконструкции
Для встроенных признаков Z=[Ztrain,Ztest]∈Rdz×(m+n) задача разреженного кодирования формулируется как:
minA∥Ztest−ZtrainA∥F2+λ0∥A∥1
Выход слоя разреженного кодирования определяется как:
Z^train=ZtrainIn,Z^test=ZtrainA
где In — единичная матрица размером n×n, A∈Rn×m — матрица разреженных коэффициентов.
Полная целевая функция обучения:
minΘ∥Z−ZΘsc∥F2+λ0∥Θsc∥1+λ1∥X−X^∥F2
где Θsc=[In0n×mA0m]
- Унифицированная структура оптимизации: Одновременное обучение отображению признаков и разреженному кодированию вместо раздельной оптимизации
- Трансдуктивное обучение: Использование информации тестовых образцов для улучшения обучения признаков
- Разреженные ограничения в нейронных сетях: Встраивание задачи разреженной оптимизации в обучение нейронной сети
- Сквозное обучение: Вся сеть может быть обучена сквозным способом с использованием обратного распространения ошибки
- Набор данных рукописных цифр USPS: Содержит 7291 обучающее изображение и 2007 тестовых изображений, охватывающих 10 цифр (0-9)
- Набор данных номеров домов уличных видов SVHN: Содержит 630 420 цветных изображений номеров домов из реального мира
- Набор данных распознавания лиц UMDAA-01: Содержит 750 фронтальных видеокадров от 50 пользователей
Во всех экспериментах входные изображения изменены до размера 32×32. Поскольку количество параметров слоя разреженного кодирования пропорционально произведению размеров обучающего и тестового наборов, для экспериментов случайным образом выбраны меньшие подмножества данных.
В качестве основной метрики оценки используется средняя точность классификации при пятикратной перекрёстной проверке.
- Стандартный метод SRC
- Ядерный SRC (KSRC)
- Признаки автокодировщика + SRC (AE-SRC)
- Признаки предварительно обученной сети + SRC: VGG-19, Inception-V3, ResNet-50, DenseNet-169
- Фреймворк: TensorFlow-1.4
- Оптимизатор: ADAM, скорость обучения 10−3
- Предварительное обучение: кодировщик-декодировщик предварительно обучены за 20k итераций
- Параметры регуляризации: λ0=1, λ1=8
- Структура сети: 4-слойный сверточный кодировщик + 3-слойный деконволюционный декодировщик
| Набор данных | SRC | KSRC | AE-SRC | VGG19-SRC | InceptionV3-SRC | ResNet50-SRC | DenseNet169-SRC | DSRC |
|---|
| USPS | 87.78% | 91.34% | 88.65% | 91.27% | 93.51% | 95.75% | 95.26% | 96.25% |
| SVHN | 15.71% | 27.42% | 18.69% | 52.86% | 41.14% | 47.88% | 37.65% | 67.75% |
| UMDAA-01 | 79.00% | 81.37% | 86.70% | 82.68% | 86.15% | 91.84% | 86.35% | 93.39% |
Проведён анализ влияния норм регуляризации:
| Метод | DSRC | DSC-SRC | DSRC₀.₅ | DSRC₁.₅ | DSRC₂ |
|---|
| Точность на USPS | 96.25% | 78.25% | N/C | 95.75% | 96.25% |
Результаты показывают:
- Выбор между нормами L₁ и L₂ оказывает незначительное влияние на производительность
- Нормы менее 1 приводят к нестабильности и проблемам сходимости
- DSC-SRC показывает худшую производительность, поскольку тестовые признаки могут образовывать изолированные группы со слабой связью с обучающими признаками
Визуализация матрицы разреженных коэффициентов A показывает явный блочно-диагональный паттерн, где большинство ненулевых коэффициентов каждого тестового образца соответствуют обучающим образцам того же класса, что и наблюдаемый тестовый образец.
При ограниченном количестве обучающих образцов DSRC показывает лучшую производительность по сравнению с предварительно обученными классификационными сетями (VGG-19, Inception-V3, ResNet-50, DenseNet-169), особенно при меньшем объёме обучающих данных.
- Классический SRC: Впервые предложен Wright и соавторами, показал робастную производительность на наборах данных распознавания лиц
- Расширения ядерных методов: Разработка нелинейных расширений SRC с использованием ядерного трюка
- Объединение с глубоким обучением: Недавние успешные применения нейронных сетей в задачах кластеризации подпространства
По сравнению с существующими методами, в данной работе впервые предложена сквозная структура глубокого обучения разреженному представлению, способная одновременно оптимизировать обучение признаков и разреженное кодирование, избегая проблемы выбора функции ядра в ядерных методах.
- Предложенная сеть DSRC способна обучать глубокие признаки, подходящие для разреженного представления
- Структура трансдуктивного обучения эффективно использует информацию тестовых образцов
- На всех трёх наборах данных достигнуто значительное улучшение производительности
- Метод особенно эффективен при ограниченном количестве обучающих данных
- Вычислительная сложность: Количество параметров слоя разреженного кодирования пропорционально произведению размеров обучающего и тестового наборов, что ограничивает масштабируемость
- Требования к памяти: Необходимо одновременно хранить все обучающие и тестовые образцы, что предъявляет высокие требования к памяти
- Ограничения трансдуктивного подхода: Требуется предварительное знание тестового набора, что неприменимо для сценариев онлайн-классификации
- Чувствительность к гиперпараметрам: Выбор параметров регуляризации может влиять на производительность
- Разработка более эффективных реализаций слоя разреженного кодирования
- Расширение на наборы данных большего масштаба
- Исследование индуктивной версии для поддержки онлайн-классификации
- Объединение с механизмами внимания для улучшения обучения разреженному представлению
- Высокая инновационность: Впервые органично объединены глубокое обучение и классификация на основе разреженного представления, предложена новая архитектура сети
- Прочная теоретическая база: Задача разреженной оптимизации искусно встроена в структуру нейронной сети
- Полные эксперименты: Проведены всесторонние сравнительные эксперименты и абляционные исследования на нескольких наборах данных
- Значительное улучшение производительности: Достигнуто явное улучшение по сравнению с существующими методами
- Хорошая воспроизводимость: Предоставлены подробные детали реализации и открытый исходный код
- Ограничения масштабируемости: Сложность параметров слоя разреженного кодирования ограничивает практическое применение метода
- Масштаб экспериментов: Из-за вычислительных ограничений эксперименты проведены только на относительно небольших подмножествах данных
- Недостаточный теоретический анализ: Отсутствует анализ сходимости и свойств оптимизации метода
- Ограниченные сценарии применения: Трансдуктивная установка ограничивает область применения метода
- Академический вклад: Предоставляет новые идеи для объединения обучения разреженному представлению и глубокого обучения
- Практическая ценность: Имеет потенциал практического применения в обучении с малым числом образцов и специфических задачах классификации
- Вдохновляющее значение: Предоставляет ценный справочный материал для последующих исследований в данной области
- Классификация с малым числом образцов: Особенно подходит для задач классификации с ограниченным количеством обучающих образцов
- Приложения в специфических областях: Такие как распознавание лиц, распознавание рукописных цифр и другие области, где традиционный SRC показывает хорошие результаты
- Исследовательский прототип: Служит базовой структурой для исследований обучения разреженному представлению
- Wright, J. et al. "Robust face recognition via sparse representation." IEEE TPAMI, 2009.
- Ji, P. et al. "Deep subspace clustering networks." NIPS, 2017.
- Zhang, L. et al. "Kernel sparse representation-based classifier." IEEE TSP, 2012.
Общая оценка: Это инновационная работа в области классификации на основе разреженного представления, которая успешно объединяет глубокое обучение с традиционными методами разреженного кодирования, предлагая сквозную структуру обучения. Хотя метод имеет определённые ограничения в отношении масштабируемости, он предоставляет ценные новые идеи и методы для смежных областей исследований.