Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic
Échantillonneurs Parallèles Efficaces pour les Modèles à Profondeur Récurrente et leur Connexion aux Modèles de Langage par Diffusion
Cet article examine les connexions entre les modèles de langage à profondeur récurrente (également appelés transformateurs universels ou transformateurs récurrents) et les modèles de langage par diffusion. Les modèles à profondeur récurrente augmentent la capacité de calcul par répétition des couches, démontrant des avantages dans les tâches de raisonnement. En s'appuyant sur les similitudes entre ces deux classes de modèles, les auteurs développent un nouvel échantillonneur par diffusion forcée pour accélérer le processus de génération. Cet échantillonneur décode de nouveaux tokens à chaque passage avant, tout en optimisant en parallèle les états latents potentiels de ces tokens par récurrence. Théoriquement, avec un budget temporel identique, cet échantillonneur est plus expressif que la génération autorégrédive de base. Plus important encore, l'échantillonneur peut être appliqué directement aux transformateurs à profondeur récurrente existants de 3,5 milliards de paramètres, réalisant une accélération jusqu'à 5 fois sans aucun ajustement.
Les modèles de langage de grande taille traditionnels emploient une architecture de réseau neuronal de profondeur fixe, avec généralement peu de couches (seulement deux chiffres). Bien que cette conception fonctionne bien en termes d'efficacité d'entraînement et sur la plupart des tâches, elle présente des limitations dans les tâches complexes nécessitant un raisonnement logique multi-étapes, telles que les mathématiques et la programmation. D'un point de vue de la théorie de la complexité, les transformateurs de profondeur fixe appartiennent à la classe de complexité TC0, avec une capacité d'expression limitée.
Limitations de la capacité de calcul: Les modèles de profondeur fixe ont du mal à traiter les chaînes logiques multi-étapes nécessitant des sauts conceptuels
Problèmes d'efficacité d'inférence: Bien que les modèles à profondeur récurrente aient une plus grande capacité d'expression, la génération est lente, chaque récurrence devant être exécutée séquentiellement
Besoin de parallélisation: L'architecture GPU moderne offre des opportunités de calcul parallèle, mais la génération autorégrédive traditionnelle ne peut pas les exploiter pleinement
Méthodes de chaîne de pensée: Nécessitent d'externaliser le processus de raisonnement interne en petites étapes, augmentant la longueur de la séquence
Modèles à profondeur récurrente: Bien que plus expressifs, chaque étape de récurrence doit être exécutée en série pendant l'inférence, entraînant une génération lente
Méthodes de parallélisation traditionnelles: Les méthodes telles que le décodage spéculatif sont principalement conçues pour les modèles de profondeur fixe
Contribution théorique: Clarifier les connexions entre les modèles à profondeur récurrente et les modèles de diffusion, établissant un pont théorique entre les deux par la diffusion forcée et les stratégies d'inférence basées sur des blocs ou des ondes
Innovation méthodologique: Proposer un échantillonneur par diffusion forcée applicable aux modèles à profondeur récurrente, réalisant la parallélisation du processus d'inférence
Vérification expérimentale: Vérifier l'efficacité de la méthode sur le modèle Huginn-0125 de 3,5 milliards de paramètres, réalisant une amélioration de vitesse d'environ 5 fois sur les benchmarks GSM8K, MATH500, HumanEval et MBPP, tout en maintenant une précision comparable
Valeur pratique: L'échantillonneur peut être appliqué directement aux modèles à profondeur récurrente existants sans réentraînement ni ajustement
Étant donné un modèle à profondeur récurrente et une invite d'entrée x, l'objectif est d'accélérer le processus de génération de texte tout en maintenant la qualité de la génération. Concrètement, il faut générer plus de tokens avec le même budget temporel, ou réduire le temps de génération pour le même nombre de tokens.
Le processus de récurrence est conditionné par l'entrée intégrée e, permettant à l'échantillonneur d'effectuer une "correction de trajectoire" lorsque les conditions changent, sans avoir besoin d'abandonner les états partiellement calculés.
Différentes profondeurs de récurrence peuvent partager le cache KV, réduisant significativement l'utilisation de la mémoire. Les expériences montrent que le modèle supporte naturellement le partage du cache KV, nécessitant seulement de stocker l'état KV de la récurrence la plus récente pour chaque position de token.
Limitation du traitement par batch: L'implémentation actuelle ne supporte que l'inférence de séquence unique, les scénarios de traitement par batch nécessitent un moteur d'inférence complexe
Efficacité FLOP: Bien que la parallélisation soit améliorée, l'utilisation réelle de FLOP augmente
Dépendance matérielle: Le paramétrage optimal dépend de la configuration matérielle spécifique
Exigences du modèle: Nécessite que le modèle satisfasse des exigences d'architecture spécifiques (injection d'entrée, récurrence robuste, etc.)
Innovation forte: Première établissement des connexions entre les modèles à profondeur récurrente et les modèles de diffusion, offrant une nouvelle perspective théorique
Valeur pratique élevée: Réaliser une accélération d'inférence significative, applicable directement aux modèles existants
Rigueur théorique: Fournir une analyse théorique de la mise à l'échelle profondeur vs largeur et des preuves de convergence
Expériences complètes: Vérifier l'efficacité et la robustesse de la méthode sur plusieurs benchmarks et variantes de modèles
Limitations de la portée d'application: La méthode nécessite que le modèle satisfasse des exigences d'architecture spécifiques, limitant l'universalité
Support insuffisant du traitement par batch: L'inférence de séquence unique limite l'application dans les environnements de production
Surcharge mémoire: Bien que le partage du cache KV soit disponible, le stockage d'états latents supplémentaires est toujours nécessaire
Sensibilité aux paramètres: Plusieurs hyperparamètres nécessitent un ajustement pour différentes tâches et matériels
L'article cite des travaux connexes riches, notamment:
Dehghani et al. (2019): Travail original sur les Transformateurs Universels
Chen et al. (2024a): Méthode de Diffusion Forcée
Geiping et al. (2025): Modèle à profondeur récurrente Huginn-0125
Rombach et al. (2022): Modèles de diffusion en espace latent
Leviathan et al. (2023): Méthode de décodage spéculatif
Évaluation globale: Cet article est un travail de recherche de haute qualité avec des contributions importantes tant en innovation théorique qu'en valeur pratique. L'article établit avec succès les connexions entre deux catégories importantes de modèles et propose une méthode d'accélération pratique. Bien qu'il existe certaines limitations, il fournit des directions et des fondations précieuses pour les recherches futures.