We propose the Decomposer Networks (DecompNet), a semantic autoencoder that factorizes an input into multiple interpretable components. Unlike classical autoencoders that compress an input into a single latent representation, the Decomposer Network maintains N parallel branches, each assigned a residual input defined as the original signal minus the reconstructions of all other branches. By unrolling a Gauss--Seidel style block-coordinate descent into a differentiable network, DecompNet enforce explicit competition among components, yielding parsimonious, semantically meaningful representations. We situate our model relative to linear decomposition methods (PCA, NMF), deep unrolled optimization, and object-centric architectures (MONet, IODINE, Slot Attention), and highlight its novelty as the first semantic autoencoder to implement an all-but-one residual update rule.
Decomposer Networks: Deep Component Analysis and Synthesis 论文ID : 2510.09825标题 : Decomposer Networks: Deep Component Analysis and Synthesis作者 : Mohsen Joneidi分类 : cs.LG cs.CV cs.IT cs.NE math.IT发表时间 : 2025年10月10日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.09825 本文提出了分解器网络(Decomposer Networks, DecompNet),这是一种语义自编码器,能够将输入分解为多个可解释的组件。与传统的将输入压缩为单一潜在表示的自编码器不同,分解器网络维护N个并行分支,每个分支被分配一个残差输入,定义为原始信号减去所有其他分支的重构。通过将Gauss-Seidel风格的块坐标下降展开为可微分网络,DecompNet在组件之间强制执行显式竞争,产生简洁且语义有意义的表示。
核心问题 : 如何将复杂数据分解为多个可解释的语义组件,类似于人类的认知过程现有方法局限性 :
经典方法(PCA, NMF)仅限于线性分解 传统自编码器将语义纠缠在单一潜在向量中 目标中心模型依赖掩码和注意力机制而非残差解释机制 作者从人类创造力的分解过程中获得灵感:厨师分离味道、画家区分色调和纹理、音乐家隔离和声。论文旨在将SVD的精神扩展到AI的非线性和语义领域,使机器具备结构化、基于组件的推理能力。
首创性架构 : 提出了第一个实现"全除一"残差更新规则的语义自编码器理论连接 : 建立了与经典SVD分解的数学联系,证明在线性情况下DecompNet等价于迭代奇异值分解竞争机制 : 通过残差输入强制组件间显式竞争,实现语义解耦可控合成 : 支持通过调节组件权重进行语义控制和生成给定输入 x ∈ R d x \in \mathbb{R}^d x ∈ R d ,学习N个语义组件 { y i } i = 1 N \{y_i\}_{i=1}^N { y i } i = 1 N ,使得每个组件捕获输入的不同语义方面,同时保持重构质量。
DecompNet包含N个并行的自编码器分支,每个分支i包含:
编码器 F i F_i F i : 将残差输入映射到潜在表示 解码器 S i S_i S i : 将潜在表示重构为组件输出 每个分支i接收的残差输入定义为:
r i ( t ) = x − ∑ j ≠ i x ^ j ( t ) r_i^{(t)} = x - \sum_{j \neq i} x̂_j^{(t)} r i ( t ) = x − ∑ j = i x ^ j ( t )
分支更新过程:
y i ( t ) = F i ( r i ( t ) ) , x ^ i ( t ) = S i ( y i ( t ) ) y_i^{(t)} = F_i(r_i^{(t)}), \quad x̂_i^{(t)} = S_i(y_i^{(t)}) y i ( t ) = F i ( r i ( t ) ) , x ^ i ( t ) = S i ( y i ( t ) )
x ^ = ∑ i = 1 N σ i x ^ i x̂ = \sum_{i=1}^N \sigma_i x̂_i x ^ = ∑ i = 1 N σ i x ^ i
其中 σ i \sigma_i σ i 是每样本的非负缩放系数,类似于SVD中的奇异值。
L = 1 B ∑ n = 1 B ∥ x ( n ) − ∑ i σ i ( n ) x ^ i ( n ) ∥ 2 2 + λ s ∑ i ∥ z i ∥ 1 + λ ⊥ ∑ i ≠ j ⟨ x ^ i , x ^ j ⟩ 2 L = \frac{1}{B}\sum_{n=1}^B \left\|x^{(n)} - \sum_i \sigma_i^{(n)} x̂_i^{(n)}\right\|_2^2 + \lambda_s \sum_i \|z_i\|_1 + \lambda_\perp \sum_{i \neq j} \langle x̂_i, x̂_j \rangle^2 L = B 1 ∑ n = 1 B x ( n ) − ∑ i σ i ( n ) x ^ i ( n ) 2 2 + λ s ∑ i ∥ z i ∥ 1 + λ ⊥ ∑ i = j ⟨ x ^ i , x ^ j ⟩ 2
包含重构损失、稀疏性正则化和正交性约束。
步骤A : 固定网络权重,通过非负最小二乘法更新每样本的缩放系数 σ \sigma σ 步骤B : 固定 σ \sigma σ ,通过反向传播更新自编码器权重残差竞争机制 : 与基于注意力的方法不同,DecompNet通过残差减法实现解释机制可微分迭代 : 将Gauss-Seidel迭代展开为端到端可训练的网络理论基础 : 在线性情况下严格等价于SVD分解,提供了强有力的理论保证所有实验在AT&T人脸数据集(原ORL数据库)上进行:
包含40个主体的400张灰度图像 每张图像分辨率112×92像素,可选择下采样至56×46 图像标准化为零均值和单位方差 论文设计了三个递进式实验来验证方法的有效性和灵活性。
设置 : 每个子网络参数化为秩1投影算子 u i u i T u_i u_i^T u i u i T 结果 : 学习到的投影方向收敛到数据集的主方向,验证了与PCA/SVD的等价性意义 : 证明了理论分析的正确性设置 : 移除秩1限制,使用3层卷积自编码器结果 : 子网络学习到重叠但多样的重构,整体重构质量高发现 : 在没有显式约束的情况下,组件仍保留全局图像结构设置 : 引入固定高斯掩码,每个掩码覆盖约一半图像区域结果 : 实现了更可解释的分解,各组件捕获局部面部属性(眼睛、嘴巴、阴影)意义 : 证明了通过结构化先验可以实现语义有意义的分解渐进性改进 : 从线性分解到非线性表达组件,再到语义结构化表示灵活性 : 统一框架可以桥接经典线性分解和现代深度特征分解可解释性 : 通过适当的先验可以实现人类可解释的组件分解PCA, ICA, NMF等经典方法提供加性分解但局限于线性设置 LISTA, ADMM-Net等将优化展开为神经更新,但缺乏残差竞争机制 MONet, IODINE, Slot Attention等使用掩码和注意力分解输入 DecompNet采用残差减法实现解释机制 通过修改缩放系数 σ i \sigma_i σ i 实现语义控制:
x s y n t h = ∑ i σ ~ i x ^ i x_{synth} = \sum_i \tilde{\sigma}_i x̂_i x sy n t h = ∑ i σ ~ i x ^ i
调整光照或阴影 操控表情强度同时保持身份不变 组合不同图像的组件创建混合构图 DecompNet成功将经典分解的可解释性与深度神经网络的表达能力结合 残差竞争机制有效实现了语义解耦 框架在线性和非线性设置下都表现良好 实验仅在单一数据集(AT&T人脸)上进行,缺乏泛化性验证 组件数量N需要预先指定 空间掩码需要手动设计,缺乏自适应性 计算复杂度随迭代次数K线性增长 在更多样化的数据集上验证方法 自适应确定最优组件数量 学习最优的空间或语义掩码 扩展到时序数据和其他模态 理论创新 : 建立了与SVD的严格数学联系,提供了坚实的理论基础架构新颖 : 首次提出"全除一"残差更新规则的语义自编码器实验设计 : 递进式实验很好地展示了方法的灵活性和有效性可解释性 : 生成的组件具有明确的语义含义实验局限 : 仅在单一小规模数据集上验证,缺乏在复杂现实数据上的表现比较不足 : 缺乏与其他分解方法的定量比较计算效率 : 未分析计算复杂度和训练时间超参数敏感性 : 未充分讨论对超参数的敏感性理论贡献 : 为深度分解提供了新的理论视角方法创新 : 残差竞争机制可能启发后续研究应用潜力 : 在图像编辑、信号处理等领域有广阔应用前景时序分解 : 趋势、振荡模式、噪声分离雷达/通信 : 杂波vs目标vs多径分离图像处理 : 结构vs纹理vs光照分解生物医学信号 : ECG/EEG组件分离论文引用了相关领域的重要工作,包括:
经典分解方法: Jolliffe (PCA), Lee & Seung (NMF) 深度展开: Gregor & LeCun (LISTA), Yang et al. (ADMM-Net) 目标中心模型: Burgess et al. (MONet), Greff et al. (IODINE) 可控生成: Higgins et al. (β-VAE), Karras et al. (StyleGAN) 总体评价 : 这是一篇理论与实践结合较好的论文,提出了新颖的残差竞争机制用于语义分解。虽然实验验证有限,但理论基础扎实,方法具有创新性,为深度分解领域提供了新的研究方向。