2025-11-14T12:58:10.389423

Decomposer Networks: Deep Component Analysis and Synthesis

Joneidi

We propose the Decomposer Networks (DecompNet), a semantic autoencoder that factorizes an input into multiple interpretable components. Unlike classical autoencoders that compress an input into a single latent representation, the Decomposer Network maintains N parallel branches, each assigned a residual input defined as the original signal minus the reconstructions of all other branches. By unrolling a Gauss--Seidel style block-coordinate descent into a differentiable network, DecompNet enforce explicit competition among components, yielding parsimonious, semantically meaningful representations. We situate our model relative to linear decomposition methods (PCA, NMF), deep unrolled optimization, and object-centric architectures (MONet, IODINE, Slot Attention), and highlight its novelty as the first semantic autoencoder to implement an all-but-one residual update rule.

academic

Réseaux Décomposeurs : Analyse et Synthèse de Composants Profonds

Informations Fondamentales

ID de l'article: 2510.09825
Titre: Decomposer Networks: Deep Component Analysis and Synthesis
Auteur: Mohsen Joneidi
Classification: cs.LG cs.CV cs.IT cs.NE math.IT
Date de publication: 10 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09825

Résumé

Cet article propose les réseaux décomposeurs (Decomposer Networks, DecompNet), un autoencodeur sémantique capable de décomposer une entrée en plusieurs composants interprétables. Contrairement aux autoencodeurs traditionnels qui compressent l'entrée en une représentation latente unique, les réseaux décomposeurs maintiennent N branches parallèles, chacune recevant une entrée résiduelle définie comme le signal original moins la reconstruction de toutes les autres branches. En déroulant la descente par coordonnées par blocs de style Gauss-Seidel en réseau différentiable, DecompNet impose une concurrence explicite entre les composants, produisant des représentations concises et sémantiquement significatives.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Comment décomposer des données complexes en plusieurs composants sémantiques interprétables, de manière analogue aux processus cognitifs humains
Limitations des méthodes existantes:
- Les méthodes classiques (PCA, NMF) se limitent à la décomposition linéaire
- Les autoencodeurs traditionnels enchevêtrent la sémantique dans un vecteur latent unique
- Les modèles centrés sur les objets reposent sur des mécanismes de masquage et d'attention plutôt que sur des mécanismes d'explication résiduelle

Motivation de la Recherche

Les auteurs s'inspirent du processus de décomposition de la créativité humaine : les chefs séparent les saveurs, les peintres distinguent les tons et les textures, les musiciens isolent les harmonies. L'article vise à étendre l'esprit de la décomposition en valeurs singulières (SVD) aux domaines non-linéaires et sémantiques de l'IA, dotant les machines de capacités de raisonnement structuré et basé sur les composants.

Contributions Principales

Architecture novatrice: Propose le premier autoencodeur sémantique implémentant la règle de mise à jour résiduelle « tout sauf un »
Connexion théorique: Établit un lien mathématique avec la décomposition SVD classique, prouvant que DecompNet est équivalent à la décomposition en valeurs singulières itérative dans le cas linéaire
Mécanisme de concurrence: Force une concurrence explicite entre les composants via les entrées résiduelles, réalisant le découplage sémantique
Synthèse contrôlable: Supporte le contrôle sémantique et la génération par ajustement des poids des composants

Détails de la Méthode

Définition de la Tâche

Étant donné une entrée $x \in \mathbb{R}^d$ , apprendre N composants sémantiques $\{y_i\}_{i=1}^N$ tels que chaque composant capture un aspect sémantique différent de l'entrée, tout en maintenant la qualité de la reconstruction.

Architecture du Modèle

Conception Centrale

DecompNet contient N branches d'autoencodeurs parallèles, chaque branche i comprenant :

Encodeur $F_i$ : mappe l'entrée résiduelle vers une représentation latente
Décodeur $S_i$ : reconstruit la représentation latente en sortie de composant

Mécanisme de Mise à Jour Résiduelle

L'entrée résiduelle reçue par chaque branche i est définie comme : $r_i^{(t)} = x - \sum_{j \neq i} x̂_j^{(t)}$

Processus de mise à jour de la branche : $y_i^{(t)} = F_i(r_i^{(t)}), \quad x̂_i^{(t)} = S_i(y_i^{(t)})$

Reconstruction Finale

$x̂ = \sum_{i=1}^N \sigma_i x̂_i$

où $\sigma_i$ sont des coefficients d'échelle non-négatifs par échantillon, analogues aux valeurs singulières en SVD.

Stratégie d'Optimisation

Fonction Objectif

$L = \frac{1}{B}\sum_{n=1}^B \left\|x^{(n)} - \sum_i \sigma_i^{(n)} x̂_i^{(n)}\right\|_2^2 + \lambda_s \sum_i \|z_i\|_1 + \lambda_\perp \sum_{i \neq j} \langle x̂_i, x̂_j \rangle^2$

Contenant la perte de reconstruction, la régularisation de parcimonie et les contraintes d'orthogonalité.

Stratégie d'Entraînement Alterné

Étape A: Fixer les poids du réseau, mettre à jour les coefficients d'échelle par échantillon $\sigma$ via les moindres carrés non-négatifs
Étape B: Fixer $\sigma$ , mettre à jour les poids de l'autoencodeur via rétropropagation

Points d'Innovation Technique

Mécanisme de concurrence résiduelle: Contrairement aux méthodes basées sur l'attention, DecompNet réalise le mécanisme d'explication par soustraction résiduelle
Itération différentiable: Dérouler l'itération de Gauss-Seidel en réseau entraînable de bout en bout
Fondation théorique: Strictement équivalent à la décomposition SVD dans le cas linéaire, fournissant des garanties théoriques solides

Configuration Expérimentale

Ensembles de Données

Toutes les expériences sont menées sur l'ensemble de données de visages AT&T (base de données ORL originale) :

Contient 400 images en niveaux de gris de 40 sujets
Chaque image a une résolution de 112×92 pixels, optionnellement sous-échantillonnée à 56×46
Les images sont normalisées à moyenne zéro et variance unitaire

Conception Expérimentale

L'article conçoit trois expériences progressives pour valider l'efficacité et la flexibilité de la méthode.

Résultats Expérimentaux

Expérience 1 : Réseau Décomposeur Linéaire (Autoencodeur de Rang 1)

Configuration: Chaque sous-réseau paramétrisé comme opérateur de projection de rang 1 $u_i u_i^T$
Résultats: Les directions de projection apprises convergent vers les directions principales de l'ensemble de données, validant l'équivalence avec PCA/SVD
Signification: Prouve la justesse de l'analyse théorique

Expérience 2 : Autoencodeur CNN sans Contrainte

Configuration: Suppression de la limitation de rang 1, utilisation d'un autoencodeur convolutif à 3 couches
Résultats: Les sous-réseaux apprennent des reconstructions chevauchantes mais diversifiées, avec une qualité de reconstruction globale élevée
Découverte: Sans contraintes explicites, les composants conservent toujours la structure globale de l'image

Expérience 3 : Réseau Décomposeur avec Masques Spatiaux

Configuration: Introduction de masques gaussiens fixes, chaque masque couvrant environ la moitié de la région de l'image
Résultats: Réalise une décomposition plus interprétable, chaque composant capturant des attributs faciaux locaux (yeux, bouche, ombres)
Signification: Prouve que la décomposition sémantiquement significative peut être réalisée via des priors structurés

Principales Découvertes

Amélioration progressive: De la décomposition linéaire aux composants d'expression non-linéaire, puis aux représentations structurées sémantiquement
Flexibilité: Le cadre unifié peut relier la décomposition linéaire classique et la décomposition de caractéristiques profonde moderne
Interprétabilité: La décomposition de composants interprétables par l'humain peut être réalisée via des priors appropriés

Travaux Connexes

Décomposition Linéaire et Superficielle

Les méthodes classiques PCA, ICA, NMF fournissent une décomposition additive mais se limitent au cadre linéaire

Décomposition par Déroulement Profond

LISTA, ADMM-Net et autres déroulent l'optimisation en mises à jour neurales, mais manquent du mécanisme de concurrence résiduelle

Décomposition de Scènes Centrée sur les Objets

MONet, IODINE, Slot Attention utilisent le masquage et l'attention pour décomposer l'entrée
DecompNet utilise la soustraction résiduelle pour réaliser le mécanisme d'explication

Décomposition Résiduelle dans les Réseaux

Les unités résiduelles factorisées se concentrent sur le partage de paramètres plutôt que sur la décomposition sémantique

Capacité de Synthèse Contrôlable

Manipulation de Facteurs Sémantiques

Réaliser le contrôle sémantique en modifiant les coefficients d'échelle $\sigma_i$ : $x_{synth} = \sum_i \tilde{\sigma}_i x̂_i$

Potentiel d'Application

Ajuster l'éclairage ou les ombres
Manipuler l'intensité de l'expression tout en préservant l'identité
Combiner les composants de différentes images pour créer des compositions hybrides

Conclusion et Discussion

Conclusions Principales

DecompNet combine avec succès l'interprétabilité de la décomposition classique avec la capacité d'expression des réseaux de neurones profonds
Le mécanisme de concurrence résiduelle réalise efficacement le découplage sémantique
Le cadre fonctionne bien dans les paramètres linéaires et non-linéaires

Limitations

Les expériences ne sont menées que sur un seul ensemble de données (visages AT&T), manquant de validation de généralisation
Le nombre de composants N doit être spécifié à l'avance
Les masques spatiaux nécessitent une conception manuelle, manquant d'adaptabilité
La complexité de calcul augmente linéairement avec le nombre d'itérations K

Directions Futures

Valider la méthode sur des ensembles de données plus diversifiés
Déterminer de manière adaptative le nombre optimal de composants
Apprendre les masques spatiaux ou sémantiques optimaux
Étendre aux données temporelles et autres modalités

Évaluation Approfondie

Points Forts

Innovation théorique: Établit un lien mathématique rigoureux avec SVD, fournissant une base théorique solide
Architecture novatrice: Propose pour la première fois un autoencodeur sémantique implémentant la règle de mise à jour résiduelle « tout sauf un »
Conception expérimentale: Les expériences progressives démontrent bien la flexibilité et l'efficacité de la méthode
Interprétabilité: Les composants générés ont une signification sémantique claire

Insuffisances

Limitations expérimentales: Validation uniquement sur un seul petit ensemble de données, manquant de performance sur des données réelles complexes
Comparaisons insuffisantes: Manque de comparaisons quantitatives avec d'autres méthodes de décomposition
Efficacité de calcul: Pas d'analyse de la complexité de calcul et du temps d'entraînement
Sensibilité aux hyperparamètres: Discussion insuffisante de la sensibilité aux hyperparamètres

Impact

Contribution théorique: Fournit une nouvelle perspective théorique pour la décomposition profonde
Innovation méthodologique: Le mécanisme de concurrence résiduelle peut inspirer les recherches futures
Potentiel d'application: Perspectives d'application larges dans l'édition d'images, le traitement du signal, etc.

Scénarios Applicables

Décomposition temporelle: Séparation des tendances, modes d'oscillation, bruit
Radar/Communications: Séparation fouillis vs cible vs trajets multiples
Traitement d'images: Décomposition structure vs texture vs éclairage
Signaux biomédicaux: Séparation de composants ECG/EEG

Références

L'article cite les travaux importants du domaine, notamment :

Méthodes de décomposition classiques : Jolliffe (PCA), Lee & Seung (NMF)
Déroulement profond : Gregor & LeCun (LISTA), Yang et al. (ADMM-Net)
Modèles centrés sur les objets : Burgess et al. (MONet), Greff et al. (IODINE)
Génération contrôlable : Higgins et al. (β-VAE), Karras et al. (StyleGAN)

Évaluation Globale: Cet article combine bien la théorie et la pratique, proposant un mécanisme de concurrence résiduelle novateur pour la décomposition sémantique. Bien que la validation expérimentale soit limitée, la base théorique est solide, la méthode est innovante, et elle fournit une nouvelle direction de recherche pour le domaine de la décomposition profonde.