We present a transductive deep learning-based formulation for the sparse representation-based classification (SRC) method. The proposed network consists of a convolutional autoencoder along with a fully-connected layer. The role of the autoencoder network is to learn robust deep features for classification. On the other hand, the fully-connected layer, which is placed in between the encoder and the decoder networks, is responsible for finding the sparse representation. The estimated sparse codes are then used for classification. Various experiments on three different datasets show that the proposed network leads to sparse representations that give better classification results than state-of-the-art SRC methods. The source code is available at: github.com/mahdiabavisani/DSRC.
- 论文ID: 1904.11093
- 标题: Deep Sparse Representation-based Classification
- 作者: Mahdi Abavisani (Rutgers University), Vishal M. Patel (Johns Hopkins University)
- 分类: cs.CV cs.AI cs.LG stat.ML
- 发表时间: 2019年4月24日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/1904.11093
- 代码链接: github.com/mahdiabavisani/DSRC
本文提出了一种基于转导式深度学习的稀疏表示分类(SRC)方法。该网络由卷积自编码器和全连接层组成,其中自编码器负责学习用于分类的鲁棒深度特征,而位于编码器和解码器之间的全连接层负责寻找稀疏表示。估计的稀疏编码随后用于分类。在三个不同数据集上的实验表明,所提出的网络能够产生比最先进SRC方法更好的分类结果的稀疏表示。
稀疏编码作为信号处理和机器学习中的强大工具,在计算机视觉和模式识别中有着广泛应用。稀疏表示分类(SRC)方法假设未标记样本可以表示为标记训练样本的稀疏线性组合,通过求解稀疏性促进优化问题来获得表示,然后基于最小重构误差规则分配标签。
- 线性表示的不足: 传统SRC方法基于数据的线性表示,但线性表示几乎总是不足以表示许多实际应用中出现的数据非线性结构。
- 核方法的局限: 现有核SRC方法需要使用预先确定的核函数(如多项式或高斯核),核函数及其参数的选择是训练中的重要问题。
- 特征学习能力不足: 传统方法无法同时学习适合稀疏表示的特征映射和稀疏编码。
本文提出基于深度神经网络的框架,能够找到数据的显式非线性映射,同时获得可用于分类的稀疏编码。利用神经网络学习非线性映射已被证明在子空间聚类任务中产生显著改进。
- 提出了深度稀疏表示分类网络(DSRC): 结合卷积自编码器和稀疏编码层的端到端训练框架
- 设计了转导式学习模型: 同时接受训练和测试样本,学习适合稀疏表示的映射
- 创新的稀疏编码层设计: 在编码器和解码器之间插入专门的稀疏编码层,实现特征学习和稀疏编码的统一优化
- 实验验证: 在三个不同数据集上验证了方法的有效性,显著优于现有SRC方法
给定标记的训练样本集合,目标是对未见过的测试样本集合进行分类。训练矩阵构造为:
Xtrain=[Xtrain1,Xtrain2,⋯,XtrainK]∈Rd0×n
其中Xtraini∈Rd0×ni包含标签为i的所有训练样本。
DSRC网络包含三个主要组件:
- 编码器: 学习数据的非线性映射
- 稀疏编码层: 寻找测试样本的稀疏表示
- 解码器: 用于训练网络的重构
对于嵌入特征Z=[Ztrain,Ztest]∈Rdz×(m+n),稀疏编码问题表述为:
minA∥Ztest−ZtrainA∥F2+λ0∥A∥1
稀疏编码层的输出定义为:
Z^train=ZtrainIn,Z^test=ZtrainA
其中In是n×n单位矩阵,A∈Rn×m是稀疏系数矩阵。
完整的训练目标函数为:
minΘ∥Z−ZΘsc∥F2+λ0∥Θsc∥1+λ1∥X−X^∥F2
其中Θsc=[In0n×mA0m]
- 统一优化框架: 同时学习特征映射和稀疏编码,而不是分别优化
- 转导式学习: 利用测试样本信息改善特征学习
- 神经网络中的稀疏约束: 将稀疏优化问题嵌入到神经网络训练中
- 端到端可训练: 整个网络可以通过反向传播进行端到端训练
- USPS手写数字数据集: 包含7291个训练图像和2007个测试图像,涵盖10个数字(0-9)
- SVHN街景房屋号码数据集: 包含630,420张真实世界房屋号码的彩色图像
- UMDAA-01人脸识别数据集: 包含50个用户的750个正面摄像头视频
所有实验中,输入图像调整为32×32大小,由于稀疏编码层参数数量与训练和测试大小的乘积成正比,随机选择较小的数据子集进行实验。
使用五折交叉验证的平均分类准确率作为主要评价指标。
- 标准SRC方法
- 核SRC (KSRC)
- 自编码器特征+SRC (AE-SRC)
- 预训练网络特征+SRC: VGG-19, Inception-V3, ResNet-50, DenseNet-169
- 框架: TensorFlow-1.4
- 优化器: ADAM,学习率10−3
- 预训练: 编码器-解码器预训练20k轮
- 正则化参数: λ0=1, λ1=8
- 网络结构: 4层卷积编码器 + 3层反卷积解码器
| 数据集 | SRC | KSRC | AE-SRC | VGG19-SRC | InceptionV3-SRC | ResNet50-SRC | DenseNet169-SRC | DSRC |
|---|
| USPS | 87.78% | 91.34% | 88.65% | 91.27% | 93.51% | 95.75% | 95.26% | 96.25% |
| SVHN | 15.71% | 27.42% | 18.69% | 52.86% | 41.14% | 47.88% | 37.65% | 67.75% |
| UMDAA-01 | 79.00% | 81.37% | 86.70% | 82.68% | 86.15% | 91.84% | 86.35% | 93.39% |
对正则化范数的影响进行了分析:
| 方法 | DSRC | DSC-SRC | DSRC₀.₅ | DSRC₁.₅ | DSRC₂ |
|---|
| USPS准确率 | 96.25% | 78.25% | N/C | 95.75% | 96.25% |
结果表明:
- L₁和L₂正则化之间的选择对性能影响不大
- 小于1的范数会导致不稳定和收敛问题
- DSC-SRC性能较差,因为测试特征可能形成与训练特征连接较弱的孤立组
稀疏系数矩阵A的可视化显示了明显的块对角模式,其中每个测试样本的大部分非零系数对应于与观察测试样本相同类别的训练样本。
在有限训练样本情况下,DSRC相比预训练的分类网络(VGG-19, Inception-V3, ResNet-50, DenseNet-169)表现出更好的性能,特别是在训练数据较少时优势更明显。
- 经典SRC: Wright等人首次提出,在人脸识别数据集上表现出鲁棒性能
- 核方法扩展: 利用核技巧开发SRC的非线性扩展
- 深度学习结合: 近年来神经网络在子空间聚类任务中的成功应用
相比现有方法,本文首次提出了端到端的深度稀疏表示学习框架,能够同时优化特征学习和稀疏编码,避免了核方法中核函数选择的问题。
- 提出的DSRC网络能够学习适合稀疏表示的深度特征
- 转导式学习框架有效利用了测试样本信息
- 在三个不同数据集上均取得了显著的性能提升
- 方法在有限训练数据情况下表现尤其出色
- 计算复杂度: 稀疏编码层参数数量与训练和测试样本数量的乘积成正比,限制了可处理的数据规模
- 内存需求: 需要同时存储所有训练和测试样本,对内存要求较高
- 转导式限制: 需要预先知道测试集,不适用于在线分类场景
- 超参数敏感性: 正则化参数的选择可能影响性能
- 开发更高效的稀疏编码层实现
- 扩展到更大规模数据集
- 研究归纳式版本以支持在线分类
- 结合注意力机制改善稀疏表示学习
- 创新性强: 首次将深度学习与稀疏表示分类有机结合,提出了新颖的网络架构
- 理论基础扎实: 将稀疏优化问题巧妙地嵌入到神经网络框架中
- 实验充分: 在多个数据集上进行了全面的对比实验和消融研究
- 性能显著提升: 相比现有方法取得了明显的性能改进
- 可重现性好: 提供了详细的实现细节和开源代码
- 可扩展性限制: 稀疏编码层的参数复杂度限制了方法的实际应用
- 实验规模: 由于计算限制,实验仅在相对较小的数据子集上进行
- 理论分析不足: 缺乏对方法收敛性和优化性质的理论分析
- 适用场景受限: 转导式设置限制了方法的应用范围
- 学术贡献: 为稀疏表示学习和深度学习的结合提供了新思路
- 实用价值: 在小样本学习和特定分类任务中具有实际应用潜力
- 启发意义: 为后续相关研究提供了有价值的参考
- 小样本分类: 特别适合训练样本有限的分类任务
- 特定领域应用: 如人脸识别、手写数字识别等传统SRC擅长的领域
- 研究原型: 作为稀疏表示学习研究的基础框架
- Wright, J. et al. "Robust face recognition via sparse representation." IEEE TPAMI, 2009.
- Ji, P. et al. "Deep subspace clustering networks." NIPS, 2017.
- Zhang, L. et al. "Kernel sparse representation-based classifier." IEEE TSP, 2012.
总体评价: 这是一篇在稀疏表示分类领域具有创新意义的工作,成功地将深度学习与传统稀疏编码方法结合,提出了端到端的学习框架。虽然在可扩展性方面存在一定限制,但为相关研究领域提供了有价值的新思路和方法。