2025-11-14T12:58:10.389423

Decomposer Networks: Deep Component Analysis and Synthesis

Joneidi

We propose the Decomposer Networks (DecompNet), a semantic autoencoder that factorizes an input into multiple interpretable components. Unlike classical autoencoders that compress an input into a single latent representation, the Decomposer Network maintains N parallel branches, each assigned a residual input defined as the original signal minus the reconstructions of all other branches. By unrolling a Gauss--Seidel style block-coordinate descent into a differentiable network, DecompNet enforce explicit competition among components, yielding parsimonious, semantically meaningful representations. We situate our model relative to linear decomposition methods (PCA, NMF), deep unrolled optimization, and object-centric architectures (MONet, IODINE, Slot Attention), and highlight its novelty as the first semantic autoencoder to implement an all-but-one residual update rule.

academic

分解器ネットワーク：深層成分分析と合成

基本情報

論文ID: 2510.09825
タイトル: Decomposer Networks: Deep Component Analysis and Synthesis
著者: Mohsen Joneidi
分類: cs.LG cs.CV cs.IT cs.NE math.IT
発表日: 2025年10月10日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.09825

要約

本論文は分解器ネットワーク(Decomposer Networks, DecompNet)を提案する。これは入力を複数の解釈可能な成分に分解できる意味論的自動符号化器である。入力を単一の潜在表現に圧縮する従来の自動符号化器とは異なり、分解器ネットワークはN個の並列ブランチを維持し、各ブランチに残差入力が割り当てられる。残差入力は元の信号から他のすべてのブランチの再構成を差し引いたものとして定義される。ガウス・ザイデル型ブロック座標降下法を微分可能なネットワークに展開することにより、DecompNetは成分間に明示的な競争を強制し、簡潔で意味論的に有意義な表現を生成する。

研究背景と動機

問題定義

中核的問題: 複雑なデータを複数の解釈可能な意味論的成分に分解する方法。これは人間の認知プロセスに類似している
既存手法の限界:
- 古典的手法(PCA, NMF)は線形分解に限定される
- 従来の自動符号化器は意味論を単一の潜在ベクトルに絡ませてしまう
- 対象中心モデルはマスクと注意機構に依存し、残差説明機構ではない

研究動機

著者は人間の創造性の分解プロセスから着想を得ている：シェフが味を分離し、画家が色調とテクスチャを区別し、音楽家が和声を隔離する。本論文は、SVDの精神を非線形性と意味論的領域のAIに拡張し、機械に構造化されたコンポーネントベースの推論能力を備えさせることを目指している。

核心的貢献

革新的アーキテクチャ: 「全除一」残差更新ルールを実装する初の意味論的自動符号化器を提案
理論的接続: 古典的SVD分解との数学的関連性を確立し、線形の場合DecompNetが反復特異値分解と等価であることを証明
競争機構: 残差入力を通じて成分間に明示的な競争を強制し、意味論的解耦を実現
制御可能な合成: 成分の重みを調整することで意味論的制御と生成をサポート

方法の詳細

タスク定義

入力 $x \in \mathbb{R}^d$ が与えられたとき、N個の意味論的成分 $\{y_i\}_{i=1}^N$ を学習する。各成分は入力の異なる意味論的側面をキャプチャしながら、再構成品質を維持する。

モデルアーキテクチャ

中核設計

DecompNetはN個の並列自動符号化器ブランチで構成される。各ブランチiは以下を含む：

エンコーダ $F_i$ : 残差入力を潜在表現にマッピング
デコーダ $S_i$ : 潜在表現を成分出力に再構成

残差更新機構

各ブランチiが受け取る残差入力は以下のように定義される： $r_i^{(t)} = x - \sum_{j \neq i} x̂_j^{(t)}$

ブランチ更新プロセス： $y_i^{(t)} = F_i(r_i^{(t)}), \quad x̂_i^{(t)} = S_i(y_i^{(t)})$

最終再構成

$x̂ = \sum_{i=1}^N \sigma_i x̂_i$

ここで $\sigma_i$ は各サンプルの非負スケーリング係数であり、SVDの特異値に類似している。

最適化戦略

目的関数

$L = \frac{1}{B}\sum_{n=1}^B \left\|x^{(n)} - \sum_i \sigma_i^{(n)} x̂_i^{(n)}\right\|_2^2 + \lambda_s \sum_i \|z_i\|_1 + \lambda_\perp \sum_{i \neq j} \langle x̂_i, x̂_j \rangle^2$