2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

Échantillonneurs Parallèles Efficaces pour les Modèles à Profondeur Récurrente et leur Connexion aux Modèles de Langage par Diffusion

Informations Fondamentales

ID de l'article: 2510.14961
Titre: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Auteurs: Jonas Geiping, Xinyu Yang, Guinan Su
Classification: cs.LG cs.CL
Date de publication: 16 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.14961

Résumé

Cet article examine les connexions entre les modèles de langage à profondeur récurrente (également appelés transformateurs universels ou transformateurs récurrents) et les modèles de langage par diffusion. Les modèles à profondeur récurrente augmentent la capacité de calcul par répétition des couches, démontrant des avantages dans les tâches de raisonnement. En s'appuyant sur les similitudes entre ces deux classes de modèles, les auteurs développent un nouvel échantillonneur par diffusion forcée pour accélérer le processus de génération. Cet échantillonneur décode de nouveaux tokens à chaque passage avant, tout en optimisant en parallèle les états latents potentiels de ces tokens par récurrence. Théoriquement, avec un budget temporel identique, cet échantillonneur est plus expressif que la génération autorégrédive de base. Plus important encore, l'échantillonneur peut être appliqué directement aux transformateurs à profondeur récurrente existants de 3,5 milliards de paramètres, réalisant une accélération jusqu'à 5 fois sans aucun ajustement.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de langage de grande taille traditionnels emploient une architecture de réseau neuronal de profondeur fixe, avec généralement peu de couches (seulement deux chiffres). Bien que cette conception fonctionne bien en termes d'efficacité d'entraînement et sur la plupart des tâches, elle présente des limitations dans les tâches complexes nécessitant un raisonnement logique multi-étapes, telles que les mathématiques et la programmation. D'un point de vue de la théorie de la complexité, les transformateurs de profondeur fixe appartiennent à la classe de complexité TC0, avec une capacité d'expression limitée.

Motivation de la Recherche

Limitations de la capacité de calcul: Les modèles de profondeur fixe ont du mal à traiter les chaînes logiques multi-étapes nécessitant des sauts conceptuels
Problèmes d'efficacité d'inférence: Bien que les modèles à profondeur récurrente aient une plus grande capacité d'expression, la génération est lente, chaque récurrence devant être exécutée séquentiellement
Besoin de parallélisation: L'architecture GPU moderne offre des opportunités de calcul parallèle, mais la génération autorégrédive traditionnelle ne peut pas les exploiter pleinement

Limitations des Approches Existantes

Méthodes de chaîne de pensée: Nécessitent d'externaliser le processus de raisonnement interne en petites étapes, augmentant la longueur de la séquence
Modèles à profondeur récurrente: Bien que plus expressifs, chaque étape de récurrence doit être exécutée en série pendant l'inférence, entraînant une génération lente
Méthodes de parallélisation traditionnelles: Les méthodes telles que le décodage spéculatif sont principalement conçues pour les modèles de profondeur fixe

Contributions Principales

Contribution théorique: Clarifier les connexions entre les modèles à profondeur récurrente et les modèles de diffusion, établissant un pont théorique entre les deux par la diffusion forcée et les stratégies d'inférence basées sur des blocs ou des ondes
Innovation méthodologique: Proposer un échantillonneur par diffusion forcée applicable aux modèles à profondeur récurrente, réalisant la parallélisation du processus d'inférence
Vérification expérimentale: Vérifier l'efficacité de la méthode sur le modèle Huginn-0125 de 3,5 milliards de paramètres, réalisant une amélioration de vitesse d'environ 5 fois sur les benchmarks GSM8K, MATH500, HumanEval et MBPP, tout en maintenant une précision comparable
Valeur pratique: L'échantillonneur peut être appliqué directement aux modèles à profondeur récurrente existants sans réentraînement ni ajustement

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle à profondeur récurrente et une invite d'entrée x, l'objectif est d'accélérer le processus de génération de texte tout en maintenant la qualité de la génération. Concrètement, il faut générer plus de tokens avec le même budget temporel, ou réduire le temps de génération pour le même nombre de tokens.

Architecture du Modèle

Structure du Modèle à Profondeur Récurrente

Le modèle à profondeur récurrente utilisé (Huginn-0125) comprend trois composants principaux:

Bloc de Prélude (Prelude Block) P: Projette les tokens d'entrée intégrés dans l'espace latent
Bloc Récurrent (Recurrent Block) R: Itère r fois dans l'espace latent, effectuant le raisonnement par optimisation du vecteur d'état s
Bloc de Coda (Coda Block) C: Traite l'état latent et produit la distribution de probabilité du token suivant

Représentation mathématique:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) pour i ∈ {1, ..., r}
p = C(sᵣ)

Conception de l'Échantillonneur par Diffusion Forcée

L'idée centrale est d'appliquer le principe de diffusion forcée aux modèles à profondeur récurrente, réalisant une parallélisation "diagonale":

Génération parallèle de tokens: Traiter simultanément plusieurs positions de tokens à chaque passage avant
Optimisation itérative: Optimiser progressivement les états latents de tous les tokens actifs par étapes de récurrence
Gel dynamique: Mécanisme de sortie adaptative basé sur la distance dans l'espace latent

Points d'Innovation Technique

1. Mécanisme d'Injection d'Entrée

Le processus de récurrence est conditionné par l'entrée intégrée e, permettant à l'échantillonneur d'effectuer une "correction de trajectoire" lorsque les conditions changent, sans avoir besoin d'abandonner les états partiellement calculés.

2. Partage du Cache KV

Différentes profondeurs de récurrence peuvent partager le cache KV, réduisant significativement l'utilisation de la mémoire. Les expériences montrent que le modèle supporte naturellement le partage du cache KV, nécessitant seulement de stocker l'état KV de la récurrence la plus récente pour chaque position de token.

3. Stratégie de Sortie Adaptative

Utiliser la distance normalisée dans l'espace latent comme critère de sortie:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Lorsque δᵢ < ε, le token à la position correspondante est gelé et ajouté au cache KV.

4. Composants de Stabilisation

Mécanisme de momentum: Ajouter du momentum à la condition d'entrée e: e = η·e_prev + (1-η)·P(y_current)
Injection de bruit: Ajouter du bruit à chaque étape d'échantillonnage: z' = (1-βₜ)z + βₜ·z_noise

Configuration Expérimentale

Ensembles de Données

GSM8K: Tâche de raisonnement mathématique, utilisant la version CoT et le paramètre 8-shot
MATH500: Problèmes mathématiques de haute difficulté
HumanEval: Tâche de génération de code
MBPP: Problèmes de programmation Python

Métriques d'Évaluation

Précision (Accuracy): Indicateurs de précision spécifiques à la tâche
Vitesse de génération (Tokens/Second): Nombre de tokens générés par seconde, mesuré à l'aide d'événements CUDA

Méthodes de Comparaison

Autorégrédif Statique (Static AR): Méthode de base avec différentes étapes de récurrence (r=4,8,32,64)
Autorégrédif à Calcul Adaptatif: Échantillonneur à calcul adaptatif du travail original
Décodage Spéculatif: Ligne de base de décodage spéculatif finement ajustée

Détails d'Implémentation

Taille de batch: 1 (inférence de séquence unique)
Température: 0,2, top-p: 0,95
Paramètres par défaut: r'=4, ε=0,03, βₜ=0, η=0,1
Taille maximale du front d'onde: 128
Matériel: GPU A100-40GB

Résultats Expérimentaux

Résultats Principaux

Sur tous les benchmarks, l'échantillonneur par diffusion forcée réalise une amélioration de vitesse significative:

Échantillonneur	GSM8K	MATH500	HumanEval	MBPP
	Acc/t/s	Acc/t/s	Acc/t/s	Acc/t/s
Static AR (r=32)	41,77%/36,1	17,60%/6,4	22,56%/13,5	31,60%/15,3
Diff. Sampler	42,08%/157,3	18,00%/30,3	20,12%/64,9	31,00%/70,2
Amélioration relative	+0,31/4,36×	+0,40/4,73×	-2,44/4,81×	-0,60/4,59×

Expériences d'Ablation

Analyse de Sensibilité aux Hyperparamètres

Étapes de récurrence interne r': Augmenter r' améliore la précision mais réduit le débit, r'=4 étant le point d'équilibre optimal
Seuil de sortie ε: Des valeurs ε plus petites améliorent la précision mais réduisent la vitesse, ε=0,03 étant le paramètre recommandé
Coefficient de bruit βₜ: Lorsque r' est petit, un bruit approprié (βₜ=0,2-0,3) aide à la stabilité
Taille du front d'onde: 64-128 est le paramètre optimal pour le GPU A100

Vérification des Variantes de Modèle

Vérifier la robustesse de la méthode sur différents points de contrôle de modèle:

Modèle SWA: Version avec moyenne pondérée
Modèle affiné pour les mathématiques: Version affinée sur l'ensemble de données MetaMath

Toutes les variantes montrent une amélioration de vitesse cohérente de 4-5 fois, avec un écart de précision dans la plage de 0,5-1%.

Vérification de l'Analyse Théorique

Mise à l'Échelle Profondeur vs Largeur

Les expériences vérifient les prédictions de l'analyse théorique:

Phase de pré-remplissage: La mise à l'échelle en profondeur surpasse la mise à l'échelle en largeur
Phase de décodage: L'échantillonnage par diffusion forcée réalise une meilleure mise à l'échelle en largeur
Expressivité: Avec un budget temporel identique, l'échantillonneur par diffusion est strictement supérieur à la génération autorégrédive

Travaux Connexes

Recherche sur les Modèles Récurrents

Développement historique: Évolution des RNN précoces aux transformateurs universels
Fondements théoriques: Capacité de calcul de la machine de Turing universelle et classes de complexité
Applications pratiques: Avantages dans l'apprentissage algorithmique et les tâches de raisonnement

Modèles de Langage par Diffusion

Diffusion en domaine continu: Applications réussies en génération d'images
Diffusion en domaine discret: Défis et solutions pour la génération de texte
Stratégies d'inférence: Méthodes telles que la diffusion par blocs et la diffusion forcée

Techniques d'Accélération d'Inférence

Décodage spéculatif: Utiliser un petit modèle pour l'ébauche, un grand modèle pour la vérification
Stratégies de parallélisation: Compromis entre les limites mémoire et les limites de calcul

Conclusion et Discussion

Conclusions Principales

Contribution théorique: Établir les connexions théoriques entre les modèles à profondeur récurrente et les modèles de diffusion
Valeur pratique: Réaliser une accélération d'inférence de 5 fois tout en maintenant la qualité de génération
Universalité: La méthode peut être appliquée directement aux modèles existants sans réentraînement
Nouvelle perspective: Les modèles à profondeur récurrente peuvent être considérés comme des modèles de langage par diffusion causale continue

Limitations

Limitation du traitement par batch: L'implémentation actuelle ne supporte que l'inférence de séquence unique, les scénarios de traitement par batch nécessitent un moteur d'inférence complexe
Efficacité FLOP: Bien que la parallélisation soit améliorée, l'utilisation réelle de FLOP augmente
Dépendance matérielle: Le paramétrage optimal dépend de la configuration matérielle spécifique
Exigences du modèle: Nécessite que le modèle satisfasse des exigences d'architecture spécifiques (injection d'entrée, récurrence robuste, etc.)

Directions Futures

Moteur d'inférence par batch: Développer des systèmes supportant l'inférence par grand batch
Optimisation d'architecture: Concevoir des architectures à profondeur récurrente plus adaptées à l'échantillonnage par diffusion forcée
Objectifs d'entraînement: Explorer l'application des objectifs de dépliage dans la modélisation de langage par diffusion
Approfondissement théorique: Approfondir la recherche sur les modèles à profondeur récurrente comme fondement théorique des modèles de diffusion

Évaluation Approfondie

Points Forts

Innovation forte: Première établissement des connexions entre les modèles à profondeur récurrente et les modèles de diffusion, offrant une nouvelle perspective théorique
Valeur pratique élevée: Réaliser une accélération d'inférence significative, applicable directement aux modèles existants
Rigueur théorique: Fournir une analyse théorique de la mise à l'échelle profondeur vs largeur et des preuves de convergence
Expériences complètes: Vérifier l'efficacité et la robustesse de la méthode sur plusieurs benchmarks et variantes de modèles

Insuffisances

Limitations de la portée d'application: La méthode nécessite que le modèle satisfasse des exigences d'architecture spécifiques, limitant l'universalité
Support insuffisant du traitement par batch: L'inférence de séquence unique limite l'application dans les environnements de production
Surcharge mémoire: Bien que le partage du cache KV soit disponible, le stockage d'états latents supplémentaires est toujours nécessaire
Sensibilité aux paramètres: Plusieurs hyperparamètres nécessitent un ajustement pour différentes tâches et matériels

Impact

Contribution académique: Fournir un nouveau point d'intersection pour la recherche sur les modèles à profondeur récurrente et les modèles de diffusion
Valeur d'ingénierie: Fournir un nouveau chemin technique pour l'optimisation d'inférence des grands modèles
Signification inspirante: Peut inspirer davantage de recherches sur la combinaison d'architectures de modèles et de stratégies d'échantillonnage

Scénarios Applicables

Inférence mono-utilisateur: Génération de texte dans les applications personnelles ou à petite échelle
Tâches intensives en raisonnement: Tâches telles que les mathématiques et la programmation nécessitant un raisonnement multi-étapes
Environnements aux ressources limitées: Scénarios nécessitant d'améliorer l'efficacité d'inférence avec des ressources de calcul limitées
Prototypes de recherche: Recherche ultérieure sur les modèles à profondeur récurrente et l'échantillonnage par diffusion

Références

L'article cite des travaux connexes riches, notamment:

Dehghani et al. (2019): Travail original sur les Transformateurs Universels
Chen et al. (2024a): Méthode de Diffusion Forcée
Geiping et al. (2025): Modèle à profondeur récurrente Huginn-0125
Rombach et al. (2022): Modèles de diffusion en espace latent
Leviathan et al. (2023): Méthode de décodage spéculatif

Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions importantes tant en innovation théorique qu'en valeur pratique. L'article établit avec succès les connexions entre deux catégories importantes de modèles et propose une méthode d'accélération pratique. Bien qu'il existe certaines limitations, il fournit des directions et des fondations précieuses pour les recherches futures.