We propose the Decomposer Networks (DecompNet), a semantic autoencoder that factorizes an input into multiple interpretable components. Unlike classical autoencoders that compress an input into a single latent representation, the Decomposer Network maintains N parallel branches, each assigned a residual input defined as the original signal minus the reconstructions of all other branches. By unrolling a Gauss--Seidel style block-coordinate descent into a differentiable network, DecompNet enforce explicit competition among components, yielding parsimonious, semantically meaningful representations. We situate our model relative to linear decomposition methods (PCA, NMF), deep unrolled optimization, and object-centric architectures (MONet, IODINE, Slot Attention), and highlight its novelty as the first semantic autoencoder to implement an all-but-one residual update rule.
論文ID : 2510.09825タイトル : Decomposer Networks: Deep Component Analysis and Synthesis著者 : Mohsen Joneidi分類 : cs.LG cs.CV cs.IT cs.NE math.IT発表日 : 2025年10月10日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.09825 本論文は分解器ネットワーク(Decomposer Networks, DecompNet)を提案する。これは入力を複数の解釈可能な成分に分解できる意味論的自動符号化器である。入力を単一の潜在表現に圧縮する従来の自動符号化器とは異なり、分解器ネットワークはN個の並列ブランチを維持し、各ブランチに残差入力が割り当てられる。残差入力は元の信号から他のすべてのブランチの再構成を差し引いたものとして定義される。ガウス・ザイデル型ブロック座標降下法を微分可能なネットワークに展開することにより、DecompNetは成分間に明示的な競争を強制し、簡潔で意味論的に有意義な表現を生成する。
中核的問題 : 複雑なデータを複数の解釈可能な意味論的成分に分解する方法。これは人間の認知プロセスに類似している既存手法の限界 :
古典的手法(PCA, NMF)は線形分解に限定される 従来の自動符号化器は意味論を単一の潜在ベクトルに絡ませてしまう 対象中心モデルはマスクと注意機構に依存し、残差説明機構ではない 著者は人間の創造性の分解プロセスから着想を得ている:シェフが味を分離し、画家が色調とテクスチャを区別し、音楽家が和声を隔離する。本論文は、SVDの精神を非線形性と意味論的領域のAIに拡張し、機械に構造化されたコンポーネントベースの推論能力を備えさせることを目指している。
革新的アーキテクチャ : 「全除一」残差更新ルールを実装する初の意味論的自動符号化器を提案理論的接続 : 古典的SVD分解との数学的関連性を確立し、線形の場合DecompNetが反復特異値分解と等価であることを証明競争機構 : 残差入力を通じて成分間に明示的な競争を強制し、意味論的解耦を実現制御可能な合成 : 成分の重みを調整することで意味論的制御と生成をサポート入力 x ∈ R d x \in \mathbb{R}^d x ∈ R d が与えられたとき、N個の意味論的成分 { y i } i = 1 N \{y_i\}_{i=1}^N { y i } i = 1 N を学習する。各成分は入力の異なる意味論的側面をキャプチャしながら、再構成品質を維持する。
DecompNetはN個の並列自動符号化器ブランチで構成される。各ブランチiは以下を含む:
エンコーダ F i F_i F i : 残差入力を潜在表現にマッピング デコーダ S i S_i S i : 潜在表現を成分出力に再構成 各ブランチiが受け取る残差入力は以下のように定義される:
r i ( t ) = x − ∑ j ≠ i x ^ j ( t ) r_i^{(t)} = x - \sum_{j \neq i} x̂_j^{(t)} r i ( t ) = x − ∑ j = i x ^ j ( t )
ブランチ更新プロセス:
y i ( t ) = F i ( r i ( t ) ) , x ^ i ( t ) = S i ( y i ( t ) ) y_i^{(t)} = F_i(r_i^{(t)}), \quad x̂_i^{(t)} = S_i(y_i^{(t)}) y i ( t ) = F i ( r i ( t ) ) , x ^ i ( t ) = S i ( y i ( t ) )
x ^ = ∑ i = 1 N σ i x ^ i x̂ = \sum_{i=1}^N \sigma_i x̂_i x ^ = ∑ i = 1 N σ i x ^ i
ここで σ i \sigma_i σ i は各サンプルの非負スケーリング係数であり、SVDの特異値に類似している。
L = 1 B ∑ n = 1 B ∥ x ( n ) − ∑ i σ i ( n ) x ^ i ( n ) ∥ 2 2 + λ s ∑ i ∥ z i ∥ 1 + λ ⊥ ∑ i ≠ j ⟨ x ^ i , x ^ j ⟩ 2 L = \frac{1}{B}\sum_{n=1}^B \left\|x^{(n)} - \sum_i \sigma_i^{(n)} x̂_i^{(n)}\right\|_2^2 + \lambda_s \sum_i \|z_i\|_1 + \lambda_\perp \sum_{i \neq j} \langle x̂_i, x̂_j \rangle^2 L = B 1 ∑ n = 1 B x ( n ) − ∑ i σ i ( n ) x ^ i ( n ) 2 2 + λ s ∑ i ∥ z i ∥ 1 + λ ⊥ ∑ i = j ⟨ x ^ i , x ^ j ⟩ 2
再構成損失、スパース性正則化、直交性制約を含む。
ステップA : ネットワーク重みを固定し、非負最小二乗法を通じて各サンプルのスケーリング係数 σ \sigma σ を更新ステップB : σ \sigma σ を固定し、逆伝播を通じて自動符号化器の重みを更新残差競争機構 : 注意ベースの手法と異なり、DecompNetは残差減算を通じて説明機構を実現微分可能な反復 : ガウス・ザイデル反復をエンドツーエンドで訓練可能なネットワークに展開理論的基礎 : 線形の場合SVD分解と厳密に等価であり、強力な理論的保証を提供すべての実験はAT&T顔データセット(元のORLデータベース)で実施:
40人の被験者から400枚のグレースケール画像 各画像の解像度は112×92ピクセル、オプションで56×46にダウンサンプリング 画像は零平均と単位分散に正規化 論文は方法の有効性と柔軟性を検証するために3つの段階的実験を設計した。
設定 : 各サブネットワークをランク1投影演算子 u i u i T u_i u_i^T u i u i T としてパラメータ化結果 : 学習された投影方向はデータセットの主方向に収束し、PCA/SVDとの等価性を検証意義 : 理論分析の正確性を証明設定 : ランク1制限を削除し、3層畳み込み自動符号化器を使用結果 : サブネットワークは重複しているが多様な再構成を学習し、全体的な再構成品質は高い発見 : 明示的な制約がない場合でも、成分は全体的な画像構造を保持設定 : 固定ガウスマスクを導入し、各マスクは画像領域の約半分をカバー結果 : より解釈可能な分解を実現し、各成分は局所的な顔属性(目、口、陰影)をキャプチャ意義 : 構造化された事前知識を通じて意味論的に有意義な分解が実現可能であることを証明段階的改善 : 線形分解から非線形表現成分、さらに意味論的に構造化された表現へ柔軟性 : 統一されたフレームワークが古典的線形分解と現代的深層特徴分解を橋渡け解釈可能性 : 適切な事前知識を通じて人間が解釈可能な成分分解を実現PCA, ICA, NMFなどの古典的手法は加法的分解を提供するが、線形設定に限定される LISTA, ADMM-Netなどは最適化を神経更新に展開するが、残差競争機構が不足している MONet, IODINE, Slot Attentionなどはマスクと注意を使用して入力を分解 DecompNetは残差減算を通じて説明機構を実装 因数分解残差ユニットはパラメータ共有に焦点を当てており、意味論的分解ではない スケーリング係数 σ i \sigma_i σ i を修正することで意味論的制御を実現:
x s y n t h = ∑ i σ ~ i x ^ i x_{synth} = \sum_i \tilde{\sigma}_i x̂_i x sy n t h = ∑ i σ ~ i x ^ i
照明または陰影の調整 身元を保持しながら表情強度を操作 異なる画像の成分を組み合わせてハイブリッド構成を作成 DecompNetは古典的分解の解釈可能性と深層ニューラルネットワークの表現力を成功裏に結合 残差競争機構は意味論的解耦を効果的に実現 フレームワークは線形および非線形設定の両方で良好に機能 実験は単一のデータセット(AT&T顔)でのみ実施され、汎化性の検証が不足している 成分数Nは事前に指定する必要がある 空間マスクは手動で設計する必要があり、適応性が不足している 計算複雑度は反復回数Kに対して線形に増加 より多様なデータセットで方法を検証 最適な成分数を適応的に決定 最適な空間的または意味論的マスクを学習 時系列データおよび他のモダリティへの拡張 理論的革新 : SVDとの厳密な数学的関連性を確立し、堅実な理論的基礎を提供アーキテクチャの新規性 : 「全除一」残差更新ルールを実装する初の意味論的自動符号化器を提案実験設計 : 段階的実験は方法の柔軟性と有効性をよく示している解釈可能性 : 生成される成分は明確な意味論的意味を持つ実験の限界 : 単一の小規模データセットでのみ検証され、複雑な現実データでの性能が不足している比較の不足 : 他の分解手法との定量的比較が不足している計算効率 : 計算複雑度と訓練時間の分析がないハイパーパラメータ感度 : ハイパーパラメータに対する感度が十分に議論されていない理論的貢献 : 深層分解に新しい理論的視点を提供方法的革新 : 残差競争機構は後続研究にインスピレーションを与える可能性がある応用の可能性 : 画像編集、信号処理などの分野で広大な応用の可能性時系列分解 : トレンド、振動パターン、ノイズ分離レーダー/通信 : クラッター対目標対マルチパス分離画像処理 : 構造対テクスチャ対照明分解生物医学信号 : ECG/EEG成分分離論文は関連分野の重要な研究を引用している:
古典的分解手法: Jolliffe (PCA), Lee & Seung (NMF) 深層展開: Gregor & LeCun (LISTA), Yang et al. (ADMM-Net) 対象中心モデル: Burgess et al. (MONet), Greff et al. (IODINE) 制御可能な生成: Higgins et al. (β-VAE), Karras et al. (StyleGAN) 総合評価 : これは理論と実践が比較的よく結合された論文であり、意味論的分解のための新規な残差競争機構を提案している。実験検証は限定的であるが、理論的基礎は堅実であり、方法は革新的であり、深層分解分野に新しい研究方向を提供している。