2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic

Échantillonneurs Parallèles Efficaces pour les Modèles à Profondeur Récurrente et leur Connexion aux Modèles de Langage par Diffusion

Informations Fondamentales

  • ID de l'article: 2510.14961
  • Titre: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
  • Auteurs: Jonas Geiping, Xinyu Yang, Guinan Su
  • Classification: cs.LG cs.CL
  • Date de publication: 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.14961

Résumé

Cet article examine les connexions entre les modèles de langage à profondeur récurrente (également appelés transformateurs universels ou transformateurs récurrents) et les modèles de langage par diffusion. Les modèles à profondeur récurrente augmentent la capacité de calcul par répétition des couches, démontrant des avantages dans les tâches de raisonnement. En s'appuyant sur les similitudes entre ces deux classes de modèles, les auteurs développent un nouvel échantillonneur par diffusion forcée pour accélérer le processus de génération. Cet échantillonneur décode de nouveaux tokens à chaque passage avant, tout en optimisant en parallèle les états latents potentiels de ces tokens par récurrence. Théoriquement, avec un budget temporel identique, cet échantillonneur est plus expressif que la génération autorégrédive de base. Plus important encore, l'échantillonneur peut être appliqué directement aux transformateurs à profondeur récurrente existants de 3,5 milliards de paramètres, réalisant une accélération jusqu'à 5 fois sans aucun ajustement.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de langage de grande taille traditionnels emploient une architecture de réseau neuronal de profondeur fixe, avec généralement peu de couches (seulement deux chiffres). Bien que cette conception fonctionne bien en termes d'efficacité d'entraînement et sur la plupart des tâches, elle présente des limitations dans les tâches complexes nécessitant un raisonnement logique multi-étapes, telles que les mathématiques et la programmation. D'un point de vue de la théorie de la complexité, les transformateurs de profondeur fixe appartiennent à la classe de complexité TC0, avec une capacité d'expression limitée.

Motivation de la Recherche

  1. Limitations de la capacité de calcul: Les modèles de profondeur fixe ont du mal à traiter les chaînes logiques multi-étapes nécessitant des sauts conceptuels
  2. Problèmes d'efficacité d'inférence: Bien que les modèles à profondeur récurrente aient une plus grande capacité d'expression, la génération est lente, chaque récurrence devant être exécutée séquentiellement
  3. Besoin de parallélisation: L'architecture GPU moderne offre des opportunités de calcul parallèle, mais la génération autorégrédive traditionnelle ne peut pas les exploiter pleinement

Limitations des Approches Existantes

  • Méthodes de chaîne de pensée: Nécessitent d'externaliser le processus de raisonnement interne en petites étapes, augmentant la longueur de la séquence
  • Modèles à profondeur récurrente: Bien que plus expressifs, chaque étape de récurrence doit être exécutée en série pendant l'inférence, entraînant une génération lente
  • Méthodes de parallélisation traditionnelles: Les méthodes telles que le décodage spéculatif sont principalement conçues pour les modèles de profondeur fixe

Contributions Principales

  1. Contribution théorique: Clarifier les connexions entre les modèles à profondeur récurrente et les modèles de diffusion, établissant un pont théorique entre les deux par la diffusion forcée et les stratégies d'inférence basées sur des blocs ou des ondes
  2. Innovation méthodologique: Proposer un échantillonneur par diffusion forcée applicable aux modèles à profondeur récurrente, réalisant la parallélisation du processus d'inférence
  3. Vérification expérimentale: Vérifier l'efficacité de la méthode sur le modèle Huginn-0125 de 3,5 milliards de paramètres, réalisant une amélioration de vitesse d'environ 5 fois sur les benchmarks GSM8K, MATH500, HumanEval et MBPP, tout en maintenant une précision comparable
  4. Valeur pratique: L'échantillonneur peut être appliqué directement aux modèles à profondeur récurrente existants sans réentraînement ni ajustement

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle à profondeur récurrente et une invite d'entrée x, l'objectif est d'accélérer le processus de génération de texte tout en maintenant la qualité de la génération. Concrètement, il faut générer plus de tokens avec le même budget temporel, ou réduire le temps de génération pour le même nombre de tokens.

Architecture du Modèle

Structure du Modèle à Profondeur Récurrente

Le modèle à profondeur récurrente utilisé (Huginn-0125) comprend trois composants principaux:

  1. Bloc de Prélude (Prelude Block) P: Projette les tokens d'entrée intégrés dans l'espace latent
  2. Bloc Récurrent (Recurrent Block) R: Itère r fois dans l'espace latent, effectuant le raisonnement par optimisation du vecteur d'état s
  3. Bloc de Coda (Coda Block) C: Traite l'état latent et produit la distribution de probabilité du token suivant

Représentation mathématique:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) pour i ∈ {1, ..., r}
p = C(sᵣ)

Conception de l'Échantillonneur par Diffusion Forcée

L'idée centrale est d'appliquer le principe de diffusion forcée aux modèles à profondeur récurrente, réalisant une parallélisation "diagonale":

  1. Génération parallèle de tokens: Traiter simultanément plusieurs positions de tokens à chaque passage avant
  2. Optimisation itérative: Optimiser progressivement les états latents de tous les tokens actifs par étapes de récurrence
  3. Gel dynamique: Mécanisme de sortie adaptative basé sur la distance dans l'espace latent

Points d'Innovation Technique

1. Mécanisme d'Injection d'Entrée

Le processus de récurrence est conditionné par l'entrée intégrée e, permettant à l'échantillonneur d'effectuer une "correction de trajectoire" lorsque les conditions changent, sans avoir besoin d'abandonner les états partiellement calculés.

2. Partage du Cache KV

Différentes profondeurs de récurrence peuvent partager le cache KV, réduisant significativement l'utilisation de la mémoire. Les expériences montrent que le modèle supporte naturellement le partage du cache KV, nécessitant seulement de stocker l'état KV de la récurrence la plus récente pour chaque position de token.

3. Stratégie de Sortie Adaptative

Utiliser la distance normalisée dans l'espace latent comme critère de sortie:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Lorsque δᵢ < ε, le token à la position correspondante est gelé et ajouté au cache KV.

4. Composants de Stabilisation

  • Mécanisme de momentum: Ajouter du momentum à la condition d'entrée e: e = η·e_prev + (1-η)·P(y_current)
  • Injection de bruit: Ajouter du bruit à chaque étape d'échantillonnage: z' = (1-βₜ)z + βₜ·z_noise

Configuration Expérimentale

Ensembles de Données

  • GSM8K: Tâche de raisonnement mathématique, utilisant la version CoT et le paramètre 8-shot
  • MATH500: Problèmes mathématiques de haute difficulté
  • HumanEval: Tâche de génération de code
  • MBPP: Problèmes de programmation Python

Métriques d'Évaluation

  • Précision (Accuracy): Indicateurs de précision spécifiques à la tâche
  • Vitesse de génération (Tokens/Second): Nombre de tokens générés par seconde, mesuré à l'aide d'événements CUDA

Méthodes de Comparaison

  1. Autorégrédif Statique (Static AR): Méthode de base avec différentes étapes de récurrence (r=4,8,32,64)
  2. Autorégrédif à Calcul Adaptatif: Échantillonneur à calcul adaptatif du travail original
  3. Décodage Spéculatif: Ligne de base de décodage spéculatif finement ajustée

Détails d'Implémentation

  • Taille de batch: 1 (inférence de séquence unique)
  • Température: 0,2, top-p: 0,95
  • Paramètres par défaut: r'=4, ε=0,03, βₜ=0, η=0,1
  • Taille maximale du front d'onde: 128
  • Matériel: GPU A100-40GB

Résultats Expérimentaux

Résultats Principaux

Sur tous les benchmarks, l'échantillonneur par diffusion forcée réalise une amélioration de vitesse significative:

ÉchantillonneurGSM8KMATH500HumanEvalMBPP
Acc/t/sAcc/t/sAcc/t/sAcc/t/s
Static AR (r=32)41,77%/36,117,60%/6,422,56%/13,531,60%/15,3
Diff. Sampler42,08%/157,318,00%/30,320,12%/64,931,00%/70,2
Amélioration relative+0,31/4,36×+0,40/4,73×-2,44/4,81×-0,60/4,59×

Expériences d'Ablation

Analyse de Sensibilité aux Hyperparamètres

  1. Étapes de récurrence interne r': Augmenter r' améliore la précision mais réduit le débit, r'=4 étant le point d'équilibre optimal
  2. Seuil de sortie ε: Des valeurs ε plus petites améliorent la précision mais réduisent la vitesse, ε=0,03 étant le paramètre recommandé
  3. Coefficient de bruit βₜ: Lorsque r' est petit, un bruit approprié (βₜ=0,2-0,3) aide à la stabilité
  4. Taille du front d'onde: 64-128 est le paramètre optimal pour le GPU A100

Vérification des Variantes de Modèle

Vérifier la robustesse de la méthode sur différents points de contrôle de modèle:

  • Modèle SWA: Version avec moyenne pondérée
  • Modèle affiné pour les mathématiques: Version affinée sur l'ensemble de données MetaMath

Toutes les variantes montrent une amélioration de vitesse cohérente de 4-5 fois, avec un écart de précision dans la plage de 0,5-1%.

Vérification de l'Analyse Théorique

Mise à l'Échelle Profondeur vs Largeur

Les expériences vérifient les prédictions de l'analyse théorique:

  • Phase de pré-remplissage: La mise à l'échelle en profondeur surpasse la mise à l'échelle en largeur
  • Phase de décodage: L'échantillonnage par diffusion forcée réalise une meilleure mise à l'échelle en largeur
  • Expressivité: Avec un budget temporel identique, l'échantillonneur par diffusion est strictement supérieur à la génération autorégrédive

Travaux Connexes

Recherche sur les Modèles Récurrents

  • Développement historique: Évolution des RNN précoces aux transformateurs universels
  • Fondements théoriques: Capacité de calcul de la machine de Turing universelle et classes de complexité
  • Applications pratiques: Avantages dans l'apprentissage algorithmique et les tâches de raisonnement

Modèles de Langage par Diffusion

  • Diffusion en domaine continu: Applications réussies en génération d'images
  • Diffusion en domaine discret: Défis et solutions pour la génération de texte
  • Stratégies d'inférence: Méthodes telles que la diffusion par blocs et la diffusion forcée

Techniques d'Accélération d'Inférence

  • Décodage spéculatif: Utiliser un petit modèle pour l'ébauche, un grand modèle pour la vérification
  • Stratégies de parallélisation: Compromis entre les limites mémoire et les limites de calcul

Conclusion et Discussion

Conclusions Principales

  1. Contribution théorique: Établir les connexions théoriques entre les modèles à profondeur récurrente et les modèles de diffusion
  2. Valeur pratique: Réaliser une accélération d'inférence de 5 fois tout en maintenant la qualité de génération
  3. Universalité: La méthode peut être appliquée directement aux modèles existants sans réentraînement
  4. Nouvelle perspective: Les modèles à profondeur récurrente peuvent être considérés comme des modèles de langage par diffusion causale continue

Limitations

  1. Limitation du traitement par batch: L'implémentation actuelle ne supporte que l'inférence de séquence unique, les scénarios de traitement par batch nécessitent un moteur d'inférence complexe
  2. Efficacité FLOP: Bien que la parallélisation soit améliorée, l'utilisation réelle de FLOP augmente
  3. Dépendance matérielle: Le paramétrage optimal dépend de la configuration matérielle spécifique
  4. Exigences du modèle: Nécessite que le modèle satisfasse des exigences d'architecture spécifiques (injection d'entrée, récurrence robuste, etc.)

Directions Futures

  1. Moteur d'inférence par batch: Développer des systèmes supportant l'inférence par grand batch
  2. Optimisation d'architecture: Concevoir des architectures à profondeur récurrente plus adaptées à l'échantillonnage par diffusion forcée
  3. Objectifs d'entraînement: Explorer l'application des objectifs de dépliage dans la modélisation de langage par diffusion
  4. Approfondissement théorique: Approfondir la recherche sur les modèles à profondeur récurrente comme fondement théorique des modèles de diffusion

Évaluation Approfondie

Points Forts

  1. Innovation forte: Première établissement des connexions entre les modèles à profondeur récurrente et les modèles de diffusion, offrant une nouvelle perspective théorique
  2. Valeur pratique élevée: Réaliser une accélération d'inférence significative, applicable directement aux modèles existants
  3. Rigueur théorique: Fournir une analyse théorique de la mise à l'échelle profondeur vs largeur et des preuves de convergence
  4. Expériences complètes: Vérifier l'efficacité et la robustesse de la méthode sur plusieurs benchmarks et variantes de modèles

Insuffisances

  1. Limitations de la portée d'application: La méthode nécessite que le modèle satisfasse des exigences d'architecture spécifiques, limitant l'universalité
  2. Support insuffisant du traitement par batch: L'inférence de séquence unique limite l'application dans les environnements de production
  3. Surcharge mémoire: Bien que le partage du cache KV soit disponible, le stockage d'états latents supplémentaires est toujours nécessaire
  4. Sensibilité aux paramètres: Plusieurs hyperparamètres nécessitent un ajustement pour différentes tâches et matériels

Impact

  1. Contribution académique: Fournir un nouveau point d'intersection pour la recherche sur les modèles à profondeur récurrente et les modèles de diffusion
  2. Valeur d'ingénierie: Fournir un nouveau chemin technique pour l'optimisation d'inférence des grands modèles
  3. Signification inspirante: Peut inspirer davantage de recherches sur la combinaison d'architectures de modèles et de stratégies d'échantillonnage

Scénarios Applicables

  1. Inférence mono-utilisateur: Génération de texte dans les applications personnelles ou à petite échelle
  2. Tâches intensives en raisonnement: Tâches telles que les mathématiques et la programmation nécessitant un raisonnement multi-étapes
  3. Environnements aux ressources limitées: Scénarios nécessitant d'améliorer l'efficacité d'inférence avec des ressources de calcul limitées
  4. Prototypes de recherche: Recherche ultérieure sur les modèles à profondeur récurrente et l'échantillonnage par diffusion

Références

L'article cite des travaux connexes riches, notamment:

  • Dehghani et al. (2019): Travail original sur les Transformateurs Universels
  • Chen et al. (2024a): Méthode de Diffusion Forcée
  • Geiping et al. (2025): Modèle à profondeur récurrente Huginn-0125
  • Rombach et al. (2022): Modèles de diffusion en espace latent
  • Leviathan et al. (2023): Méthode de décodage spéculatif

Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions importantes tant en innovation théorique qu'en valeur pratique. L'article établit avec succès les connexions entre deux catégories importantes de modèles et propose une méthode d'accélération pratique. Bien qu'il existe certaines limitations, il fournit des directions et des fondations précieuses pour les recherches futures.