LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Kang, Song, Kim
Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.
academic
LiteStage : Saut de couches sensible à la latence pour le raisonnement multi-étapes
Le raisonnement multi-étapes est devenu une stratégie efficace pour améliorer les capacités de raisonnement des petits modèles de langage en décomposant les problèmes complexes en sous-étapes séquentielles. Cependant, cette approche augmente la latence. Les auteurs observent que les techniques d'accélération adaptatives existantes (comme le saut de couches) ont du mal à équilibrer l'efficacité et la précision dans ce contexte, face à deux défis clés : (1) la variabilité de la sensibilité au saut entre les étapes, (2) la génération de tokens de sortie redondants. Pour résoudre ces problèmes, cet article propose LiteStage, un cadre de saut de couches sensible à la latence pour le raisonnement multi-étapes. LiteStage combine une recherche hors ligne par étapes qui alloue les budgets de couches optimaux et un mécanisme de sortie précoce basé sur la confiance en ligne pour supprimer le décodage inutile. Les expériences sur trois repères (OBQA, CSQA et StrategyQA) montrent que LiteStage réalise une accélération jusqu'à 1,70×, avec une perte de précision inférieure à 4,0%, surpassant les méthodes précédentes de saut de couches sans entraînement.
Le raisonnement multi-étapes améliore les capacités de raisonnement des petits modèles de langage en décomposant les problèmes complexes en plusieurs sous-problèmes consécutifs. Par exemple, TinyThinker adopte un raisonnement en trois étapes : rappel (Recall), analyse (Analysis) et synthèse (Summary). Bien que cette approche améliore efficacement la qualité du raisonnement, elle augmente inévitablement la latence d'inférence.
Une analyse approfondie des auteurs révèle deux problèmes clés :
Variabilité de la sensibilité au saut entre les étapes : Les différentes étapes de raisonnement présentent des degrés de sensibilité significativement différents au saut de couches. Les expériences montrent que l'étape 3 (synthèse) est la plus sensible au saut de couches, tandis que l'étape 1 (rappel) est relativement robuste.
Génération de tokens redondants : Bien que le saut de couches réduise le coût de calcul par token, il entraîne souvent la génération de plus de tokens, augmentant ainsi la latence de bout en bout.
Les méthodes de saut de couches existantes (comme SkipDecode, UnifiedSkip, AdaSkip) adoptent généralement une stratégie de saut uniforme, incapables de s'adapter aux caractéristiques des différentes étapes du raisonnement multi-étapes, entraînant :
Une compression excessive aux étapes sensibles causant une chute drastique de la précision
Une négligence du problème d'augmentation de la longueur de génération induite par le saut de couches
L'absence de mécanismes d'optimisation sensibles à la latence
Proposition du cadre LiteStage : Le premier cadre de saut de couches sensible à la latence spécialement conçu pour le raisonnement multi-étapes, résolvant efficacement la variabilité de sensibilité entre les étapes et le problème de génération de tokens redondants.
Stratégie d'allocation de budget de couches par étapes : Conception d'un algorithme de recherche gourmande allant de l'étape la plus lente à la plus rapide, allouant le budget de saut de couches optimal pour chaque étape de raisonnement.
Mécanisme de sortie précoce de génération piloté par la confiance : Introduction d'une surveillance de confiance en ligne, terminant dynamiquement les générations redondantes à faible confiance, améliorant davantage l'efficacité d'inférence.
Amélioration significative des performances : Réalisation d'une accélération de 1,16-1,70× sur trois ensembles de données de repère, avec une perte de précision de seulement 0,4-4,0%, surpassant largement les méthodes sans entraînement existantes.
Étant donné un ensemble de données de test D, l'objectif est de trouver le budget de couches par étapes L minimisant la latence d'inférence dans un seuil de précision donné ε :
où T et A représentent respectivement la latence d'inférence et la précision, M_L et M représentant respectivement le modèle avec saut de couches appliqué et le modèle avec couches complètes.
Allocation de budget de couches non uniforme : Allocation adaptative de budgets de saut de couches différents selon la sensibilité de chaque étape, évitant la compression excessive aux étapes sensibles.
Optimisation sensible à la latence : Considération non seulement de la précision, mais aussi de la latence d'inférence réelle, éliminant automatiquement les configurations qui, bien que sautant plus de couches, présentent une latence plus élevée.
Contrôle dynamique de la génération : Contrôle proactif de la longueur de génération par surveillance de la confiance, atténuant le problème de tokens redondants induit par le saut de couches.
Variabilité de la sensibilité des étapes : Les expériences de saut d'étape unique confirment que l'étape 3 est la plus sensible au saut de couches, sa courbe de précision déterminant presque la limite supérieure de performance globale.
Paradoxe de latence : Plus de saut de couches ne conduit pas toujours à une inférence plus rapide ; en raison de l'augmentation de la longueur de génération, certaines configurations entraînent une augmentation de la latence.
Motifs de confiance : La confiance des tokens des modèles avec saut de couches montre une tendance décroissante monotone, tandis que les modèles avec couches complètes peuvent récupérer la confiance en phase ultérieure.
À travers un cas spécifique de CSQA, la sortie précoce de génération peut efficacement tronquer le texte redondant à faible confiance tout en préservant la logique de raisonnement centrale, maintenant la cohérence de la réponse finale.
Les méthodes existantes ciblent principalement les modèles de raisonnement verbeux, manquant d'attention au problème d'allongement de la génération induit par la compression de modèles.
Sensibilité non uniforme dans le raisonnement multi-étapes : Les différentes étapes de raisonnement présentent des degrés de sensibilité significativement différents à la compression de couches, nécessitant des stratégies d'optimisation différenciées.
Nécessité de l'optimisation sensible à la latence : Le simple saut de couches peut dégrader la latence en raison de l'augmentation de la longueur de génération, nécessitant une considération globale de la précision et de la latence.
Efficacité du contrôle de génération : La sortie précoce de génération basée sur la confiance peut efficacement atténuer le problème de génération redondante induit par le saut de couches.
Coût de la recherche hors ligne : Comparée à d'autres méthodes sans entraînement, la configuration hors ligne de LiteStage nécessite plus de ressources de calcul (environ 1-7,6 heures).
Dépendance à l'architecture du modèle : Principalement validée sur les modèles de la série Llama, avec des performances limitées sur d'autres architectures comme Qwen.
Limitation de la portée d'application : Spécialement conçue pour les scénarios de raisonnement multi-étapes, l'applicabilité au raisonnement mono-étape n'a pas été suffisamment vérifiée.
Identification précise du problème : Identification précise des goulots d'étranglement clés du raisonnement multi-étapes, y compris la variabilité de sensibilité entre les étapes et le problème de génération redondante.
Conception de méthode raisonnable : La conception du cadre hors ligne-en ligne est ingénieuse, garantissant à la fois l'efficacité de l'optimisation et le contrôle des frais généraux d'exécution.
Conception expérimentale suffisante : Vérification complète de l'efficacité de la méthode par des expériences de motivation détaillées, des études d'ablation et des analyses de cas.
Valeur pratique élevée : En tant que méthode sans entraînement, elle possède de bonnes perspectives d'application pratique.
Analyse théorique insuffisante : Manque d'explication théorique de la variabilité de sensibilité entre les étapes, s'appuyant principalement sur des observations empiriques.
Paramétrage heuristique : Les paramètres clés comme le seuil de confiance et la taille du cache sont principalement définis de manière heuristique, manquant d'analyse systématique.
Généralisation limitée : Les performances varient considérablement sur différentes architectures de modèles, la capacité de généralisation nécessite une amélioration.
Contribution académique : Première étude systématique du problème d'optimisation du saut de couches dans le raisonnement multi-étapes, offrant une nouvelle perspective pour la recherche connexe.
Valeur pratique : Fournit une solution pratique pour l'inférence efficace des petits modèles de langage, contribuant à promouvoir le déploiement en périphérie.
Reproductibilité : Fourniture d'une implémentation de code complète, facilitant la recherche et l'application ultérieures.
L'article cite plusieurs travaux connexes importants, notamment :
TinyThinker (Piao and Park, 2024) : Travail représentatif du raisonnement multi-étapes
AdaSkip (He et al., 2025) : Méthode récente de saut de couches au niveau des sous-couches
Mixture-of-Depths (Raposo et al., 2024) : Travail fondateur de l'allocation de calcul dynamique
Évaluation globale : Cet article propose une solution innovante au problème d'optimisation du saut de couches dans le raisonnement multi-étapes, avec des contributions significatives tant en termes de perspicacité théorique que d'efficacité pratique. Bien qu'il présente certaines limitations, il ouvre une nouvelle direction de recherche pour l'inférence efficace des petits modèles de langage, possédant une valeur académique et pratique importante.