2025-11-17T14:34:12.785982

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

Kang, Song, Kim

Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.

academic

LiteStage : Saut de couches sensible à la latence pour le raisonnement multi-étapes

Informations de base

ID de l'article : 2510.14211
Titre : LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
Auteurs : Beomseok Kang, Jiwon Song, Jae-Joon Kim (Université nationale de Séoul)
Classification : cs.CL, cs.AI
Date de publication : 16 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.14211
Lien du code : https://github.com/beomseokg/LiteStage

Résumé

Le raisonnement multi-étapes est devenu une stratégie efficace pour améliorer les capacités de raisonnement des petits modèles de langage en décomposant les problèmes complexes en sous-étapes séquentielles. Cependant, cette approche augmente la latence. Les auteurs observent que les techniques d'accélération adaptatives existantes (comme le saut de couches) ont du mal à équilibrer l'efficacité et la précision dans ce contexte, face à deux défis clés : (1) la variabilité de la sensibilité au saut entre les étapes, (2) la génération de tokens de sortie redondants. Pour résoudre ces problèmes, cet article propose LiteStage, un cadre de saut de couches sensible à la latence pour le raisonnement multi-étapes. LiteStage combine une recherche hors ligne par étapes qui alloue les budgets de couches optimaux et un mécanisme de sortie précoce basé sur la confiance en ligne pour supprimer le décodage inutile. Les expériences sur trois repères (OBQA, CSQA et StrategyQA) montrent que LiteStage réalise une accélération jusqu'à 1,70×, avec une perte de précision inférieure à 4,0%, surpassant les méthodes précédentes de saut de couches sans entraînement.

Contexte de recherche et motivation

Définition du problème

Le raisonnement multi-étapes améliore les capacités de raisonnement des petits modèles de langage en décomposant les problèmes complexes en plusieurs sous-problèmes consécutifs. Par exemple, TinyThinker adopte un raisonnement en trois étapes : rappel (Recall), analyse (Analysis) et synthèse (Summary). Bien que cette approche améliore efficacement la qualité du raisonnement, elle augmente inévitablement la latence d'inférence.

Défis fondamentaux

Une analyse approfondie des auteurs révèle deux problèmes clés :

Variabilité de la sensibilité au saut entre les étapes : Les différentes étapes de raisonnement présentent des degrés de sensibilité significativement différents au saut de couches. Les expériences montrent que l'étape 3 (synthèse) est la plus sensible au saut de couches, tandis que l'étape 1 (rappel) est relativement robuste.
Génération de tokens redondants : Bien que le saut de couches réduise le coût de calcul par token, il entraîne souvent la génération de plus de tokens, augmentant ainsi la latence de bout en bout.

Limitations des méthodes existantes

Les méthodes de saut de couches existantes (comme SkipDecode, UnifiedSkip, AdaSkip) adoptent généralement une stratégie de saut uniforme, incapables de s'adapter aux caractéristiques des différentes étapes du raisonnement multi-étapes, entraînant :

Une compression excessive aux étapes sensibles causant une chute drastique de la précision
Une négligence du problème d'augmentation de la longueur de génération induite par le saut de couches
L'absence de mécanismes d'optimisation sensibles à la latence

Contributions principales

Proposition du cadre LiteStage : Le premier cadre de saut de couches sensible à la latence spécialement conçu pour le raisonnement multi-étapes, résolvant efficacement la variabilité de sensibilité entre les étapes et le problème de génération de tokens redondants.
Stratégie d'allocation de budget de couches par étapes : Conception d'un algorithme de recherche gourmande allant de l'étape la plus lente à la plus rapide, allouant le budget de saut de couches optimal pour chaque étape de raisonnement.
Mécanisme de sortie précoce de génération piloté par la confiance : Introduction d'une surveillance de confiance en ligne, terminant dynamiquement les générations redondantes à faible confiance, améliorant davantage l'efficacité d'inférence.
Amélioration significative des performances : Réalisation d'une accélération de 1,16-1,70× sur trois ensembles de données de repère, avec une perte de précision de seulement 0,4-4,0%, surpassant largement les méthodes sans entraînement existantes.

Explication détaillée de la méthode

Définition de la tâche

Étant donné un ensemble de données de test D, l'objectif est de trouver le budget de couches par étapes L minimisant la latence d'inférence dans un seuil de précision donné ε :

argmin_L (1/|D|) ∑_{d∈D} T(M_L(d))
subject to: A(M_L(d)) ≤ A(M(d)) - ε

où T et A représentent respectivement la latence d'inférence et la précision, M_L et M représentant respectivement le modèle avec saut de couches appliqué et le modèle avec couches complètes.

Architecture du modèle

LiteStage comprend deux composants complémentaires :

1. Configuration hors ligne (Offline Configuration)

Étape 1 : Estimation de l'importance des couches

Utilisation de la similarité cosinus au niveau des sous-couches comme proxy d'importance
Calcul séparé de l'importance de l'auto-attention multi-têtes (MHSA) et du réseau avant (FFN) :

I^(j)_MHSA = (1/N) ∑_{n=0}^{N-1} cos(MHSA^(j)(x) + x, x)
I^(j)_FFN = (1/N) ∑_{n=0}^{N-1} cos(FFN^(j)(x) + x, x)

Étape 2 : Recherche de budget de couches

Recherche gourmande commençant par l'étape de raisonnement la plus lente
Construction de courbes précision-latence, sélection de la configuration de latence optimale satisfaisant les contraintes de précision
Optimisation étape par étape, garantissant que les interactions entre étapes sont correctement reflétées

2. Ajustement en ligne (Online Adjustment)

Étape 3 : Sortie précoce de génération

Maintien d'un cache de confiance pour les n tokens récents
Calcul de la confiance moyenne μ_Conf, terminaison précoce de la génération lorsqu'elle est inférieure au seuil
La confiance est définie comme la valeur logit maximale de chaque token

Points d'innovation technique

Allocation de budget de couches non uniforme : Allocation adaptative de budgets de saut de couches différents selon la sensibilité de chaque étape, évitant la compression excessive aux étapes sensibles.
Optimisation sensible à la latence : Considération non seulement de la précision, mais aussi de la latence d'inférence réelle, éliminant automatiquement les configurations qui, bien que sautant plus de couches, présentent une latence plus élevée.
Contrôle dynamique de la génération : Contrôle proactif de la longueur de génération par surveillance de la confiance, atténuant le problème de tokens redondants induit par le saut de couches.

Configuration expérimentale

Ensembles de données

Utilisation du processus de raisonnement en trois étapes de TinyThinker, évaluation sur trois repères de questions-réponses :

OpenBookQA (OBQA) : Tâche de questions-réponses ouvertes
CommonSenseQA (CSQA) : Questions-réponses de raisonnement de bon sens
StrategyQA : Questions-réponses de raisonnement stratégique

Métriques d'évaluation

Précision : Taux de correction des questions-réponses
Ratio d'accélération : Amélioration de la vitesse d'inférence par rapport au modèle avec couches complètes
Latence : Temps d'inférence de bout en bout

Méthodes de comparaison

SkipDecode : Saut de couches profond progressif
UnifiedSkip : Saut de couches périodique
AdaSkip : Estimation de l'importance des sous-couches basée sur la similarité cosinus

Détails de mise en œuvre

Utilisation principale du modèle TinyLlama-1.1B-Chat-v1.0
Entraînement sur 10 epochs, taille de lot 16 (OBQA/CSQA) ou 24 (StrategyQA)
Taux d'apprentissage 5×10^-5
Adoption du protocole de cohérence personnelle pour l'évaluation sur 10 itérations
Seuil de confiance défini à 0,5, taille du cache n=5

Résultats expérimentaux

Résultats principaux

Sur les trois ensembles de données de repère, LiteStage surpasse significativement les méthodes de base :

Ensemble de données	Précision de base	Précision LiteStage	Ratio d'accélération
OBQA	64,0%	60,0%	1,32×
CSQA	54,8%	53,2%	1,16×
StrategyQA	62,4%	62,0%	1,70×

Découvertes clés

Variabilité de la sensibilité des étapes : Les expériences de saut d'étape unique confirment que l'étape 3 est la plus sensible au saut de couches, sa courbe de précision déterminant presque la limite supérieure de performance globale.
Paradoxe de latence : Plus de saut de couches ne conduit pas toujours à une inférence plus rapide ; en raison de l'augmentation de la longueur de génération, certaines configurations entraînent une augmentation de la latence.
Motifs de confiance : La confiance des tokens des modèles avec saut de couches montre une tendance décroissante monotone, tandis que les modèles avec couches complètes peuvent récupérer la confiance en phase ultérieure.

Études d'ablation

Effet de l'allocation de budget de couches non uniforme :

Avec le même nombre de couches sautées, la précision de LiteStage est significativement supérieure aux stratégies de saut uniforme
À mesure que le nombre de couches sautées augmente, l'écart de performance s'élargit davantage

Contribution de la sortie précoce de génération :

Avec un saut de couches léger, la sortie précoce a un impact minime (-0,5% des étapes de décodage)
Avec un saut de couches lourd, elle peut réduire jusqu'à 82,5% des étapes de décodage
La précision reste essentiellement stable, avec une amélioration dans certains cas

Analyse de cas

À travers un cas spécifique de CSQA, la sortie précoce de génération peut efficacement tronquer le texte redondant à faible confiance tout en préservant la logique de raisonnement centrale, maintenant la cohérence de la réponse finale.

Travaux connexes

Génération multi-étapes

TinyThinker : Propose une boucle de raisonnement en trois étapes rappel-analyse-synthèse
DeAR : Adopte le processus décomposition-analyse-repensée
CasCoD : Distillation en cascade de la décomposition de la chaîne de pensée
Self-Discover : Organisation dynamique de la structure de raisonnement

Techniques de saut de couches

Méthodes basées sur l'entraînement :

LayerSkip, DeeBERT, EE-LLM : Sortie précoce de couches intermédiaires
Mixture-of-Depths : Nécessite l'entraînement du modèle et du routeur

Méthodes sans entraînement :

SkipDecode : Saut de couches profond progressif
Unified Skipping : Saut périodique
ShortGPT : Basé sur la similarité cosinus
AdaSkip : Estimation de l'importance des sous-couches

Sortie précoce de génération

Les méthodes existantes ciblent principalement les modèles de raisonnement verbeux, manquant d'attention au problème d'allongement de la génération induit par la compression de modèles.

Conclusion et discussion

Conclusions principales

Sensibilité non uniforme dans le raisonnement multi-étapes : Les différentes étapes de raisonnement présentent des degrés de sensibilité significativement différents à la compression de couches, nécessitant des stratégies d'optimisation différenciées.
Nécessité de l'optimisation sensible à la latence : Le simple saut de couches peut dégrader la latence en raison de l'augmentation de la longueur de génération, nécessitant une considération globale de la précision et de la latence.
Efficacité du contrôle de génération : La sortie précoce de génération basée sur la confiance peut efficacement atténuer le problème de génération redondante induit par le saut de couches.

Limitations

Coût de la recherche hors ligne : Comparée à d'autres méthodes sans entraînement, la configuration hors ligne de LiteStage nécessite plus de ressources de calcul (environ 1-7,6 heures).
Dépendance à l'architecture du modèle : Principalement validée sur les modèles de la série Llama, avec des performances limitées sur d'autres architectures comme Qwen.
Limitation de la portée d'application : Spécialement conçue pour les scénarios de raisonnement multi-étapes, l'applicabilité au raisonnement mono-étape n'a pas été suffisamment vérifiée.

Directions futures

Extension à plus d'architectures de modèles : Étude des caractéristiques de sensibilité au saut de différentes architectures
Allocation de budget dynamique : Développement de mécanismes d'ajustement adaptatif en temps d'exécution des budgets de couches
Optimisation du raisonnement multimodal : Extension du cadre aux tâches de raisonnement multimodal comme vision-langage

Évaluation approfondie

Avantages

Identification précise du problème : Identification précise des goulots d'étranglement clés du raisonnement multi-étapes, y compris la variabilité de sensibilité entre les étapes et le problème de génération redondante.
Conception de méthode raisonnable : La conception du cadre hors ligne-en ligne est ingénieuse, garantissant à la fois l'efficacité de l'optimisation et le contrôle des frais généraux d'exécution.
Conception expérimentale suffisante : Vérification complète de l'efficacité de la méthode par des expériences de motivation détaillées, des études d'ablation et des analyses de cas.
Valeur pratique élevée : En tant que méthode sans entraînement, elle possède de bonnes perspectives d'application pratique.

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique de la variabilité de sensibilité entre les étapes, s'appuyant principalement sur des observations empiriques.
Paramétrage heuristique : Les paramètres clés comme le seuil de confiance et la taille du cache sont principalement définis de manière heuristique, manquant d'analyse systématique.
Généralisation limitée : Les performances varient considérablement sur différentes architectures de modèles, la capacité de généralisation nécessite une amélioration.

Impact

Contribution académique : Première étude systématique du problème d'optimisation du saut de couches dans le raisonnement multi-étapes, offrant une nouvelle perspective pour la recherche connexe.
Valeur pratique : Fournit une solution pratique pour l'inférence efficace des petits modèles de langage, contribuant à promouvoir le déploiement en périphérie.
Reproductibilité : Fourniture d'une implémentation de code complète, facilitant la recherche et l'application ultérieures.

Scénarios d'application

LiteStage est particulièrement adaptée aux scénarios suivants :

Déploiement sur appareils périphériques aux ressources limitées
Tâches complexes nécessitant un raisonnement multi-étapes
Applications en temps réel sensibles à la latence
Accélération d'inférence des petits modèles de langage

Références

L'article cite plusieurs travaux connexes importants, notamment :

TinyThinker (Piao and Park, 2024) : Travail représentatif du raisonnement multi-étapes
AdaSkip (He et al., 2025) : Méthode récente de saut de couches au niveau des sous-couches
Mixture-of-Depths (Raposo et al., 2024) : Travail fondateur de l'allocation de calcul dynamique

Évaluation globale : Cet article propose une solution innovante au problème d'optimisation du saut de couches dans le raisonnement multi-étapes, avec des contributions significatives tant en termes de perspicacité théorique que d'efficacité pratique. Bien qu'il présente certaines limitations, il ouvre une nouvelle direction de recherche pour l'inférence efficace des petits modèles de langage, possédant une valeur académique et pratique importante.