2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic

FLToP CTC : Élagage de Jetons au Niveau de la Trame via Seuil Relatif pour un Décodage Efficace et Économe en Mémoire sur Diverses Plates-formes

Informations Fondamentales

  • ID de l'article : 2510.09085
  • Titre : FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
  • Auteurs : Atul Shree, Harshith Jupuru
  • Classification : cs.LG cs.SD eess.AS
  • Date de publication : 10 octobre 2025 (soumission arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.09085

Résumé

Les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC font face à des goulots d'étranglement computationnels et de mémoire dans les environnements à ressources limitées. Les décodeurs CTC traditionnels, nécessitant jusqu'à 90% du temps de traitement dans les systèmes (par exemple, wav2vec2-large sur GPU L4), présentent des inefficacités dues aux opérations exhaustives au niveau des jetons. Cet article introduit Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un nouvel algorithme de décodage qui emploie l'élagage de jetons au niveau de la trame guidé par une probabilité de seuil relatif. En éliminant dynamiquement les jetons de faible probabilité par trame, FLToP CTC réduit les demandes de calcul et de mémoire tout en maintenant une dégradation négligeable du WER. Sur LibriSpeech, FLToP CTC réalise une accélération d'exécution de 10,5× et une réduction de mémoire de 2,78× par rapport aux décodeurs CTC standard. Sa simplicité permet une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.). FLToP CTC résout les goulots d'étranglement du CTC, offrant une scalabilité pour les environnements à ressources limitées et les applications en temps réel, améliorant l'accessibilité et l'efficacité de la reconnaissance vocale.

Contexte de Recherche et Motivation

Définition du Problème

Cette recherche vise à résoudre les goulots d'étranglement computationnels et de mémoire auxquels font face les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC dans les environnements à ressources limitées. Les décodeurs CTC traditionnels nécessitent un traitement exhaustif de tous les jetons possibles à chaque pas de temps, ce qui entraîne des problèmes d'efficacité graves.

Importance du Problème

  1. Goulot d'étranglement des ressources computationnelles : Dans les systèmes équipés de GPU L4 et d'encodeurs wav2vec2-large, le processus de décodage CTC peut consommer jusqu'à 90% du temps de traitement
  2. Limitations de mémoire : Les décodeurs CTC traditionnels consomment une mémoire considérable dans les modèles à grand vocabulaire
  3. Exigences d'applications en temps réel : La reconnaissance vocale en temps réel et le déploiement sur appareils à faibles ressources imposent des exigences strictes en matière d'efficacité de décodage

Limitations des Méthodes Existantes

  1. Stratégies d'élagage statiques : Comme l'élagage top-N statique adopté par KenLM et Flashlight, manquant d'adaptabilité au niveau de la trame
  2. Spécificité de la plate-forme : Les solutions d'accélération spécifiques aux GPU ignorent les scénarios CPU et appareils limités
  3. Dépendance architecturale : Les méthodes d'optimisation pour les modèles RNN-T ne peuvent pas être directement transférées à l'architecture CTC

Motivation de la Recherche

Développer un algorithme d'optimisation de décodage CTC universel et indépendant de la plate-forme, qui améliore significativement l'efficacité de décodage grâce à l'élagage dynamique de jetons au niveau de la trame tout en maintenant la précision de reconnaissance.

Contributions Principales

  1. Proposition de l'algorithme FLToP CTC : Un algorithme de décodage d'élagage de jetons dynamique au niveau de la trame basé sur une probabilité de seuil relatif
  2. Conception indépendante de la plate-forme : L'algorithme est simple et universel, permettant une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.)
  3. Améliorations significatives de performance : Réalisation d'une accélération d'exécution de 10,5× et d'une réduction de mémoire de 2,78× sur l'ensemble de données LibriSpeech
  4. Analyse du comportement statistique : Fourniture d'une étude approfondie du comportement statistique des décodeurs CTC, fournissant un soutien théorique à la conception d'algorithmes

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Séquence de logits de sortie du modèle CTC [T×V], où T est le nombre de pas de temps et V est la taille du vocabulaire Sortie : Séquence de texte optimale Contraintes : Minimiser les frais de calcul et de mémoire tout en maintenant les performances WER

Architecture du Modèle

Cœur de l'Algorithme FLToP CTC

L'algorithme emploie une stratégie d'élagage en deux étapes :

  1. Sélection Top-N : Sélectionner les N jetons avec les plus hautes probabilités pour la trame actuelle
  2. Élagage par Seuil Relatif : Conserver uniquement les jetons avec un score supérieur à R × score_maximum, où R est le paramètre de seuil relatif

Flux de l'Algorithme

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # Initialisation du beam
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # Score maximum
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # Élagage par seuil relatif
                    break
                # Expansion d'hypothèse
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

Points d'Innovation Technique

  1. Élagage Adaptatif Dynamique : Comparé aux méthodes top-N statiques, capable d'ajuster dynamiquement le nombre de jetons conservés en fonction de la distribution de probabilité de chaque trame
  2. Conception de Seuil Relatif : Utilisation d'un seuil proportionnel par rapport au score maximum plutôt qu'un seuil absolu, améliorant l'adaptabilité entre différents scénarios
  3. Mécanisme de Terminaison Conditionnelle : Éviter l'évaluation inutile de jetons grâce au mécanisme d'arrêt anticipé, améliorant davantage l'efficacité
  4. Implémentation Indépendante de la Plate-forme : Conception d'algorithme simple ne nécessitant pas de support matériel spécial, déployable sur diverses plates-formes informatiques

Configuration Expérimentale

Ensemble de Données

  • Ensemble de données LibriSpeech : Utilisation des sous-ensembles dev-clean, dev-other, test-clean, test-other pour l'évaluation
  • Modèle de Langage : Modèle de langage KenLM 4-gram construit sur l'ensemble d'entraînement
  • Encodeur : Modèle wav2vec2-large, pré-entraîné sur les données LibriSpeech et LibriVox, puis affiné sur 960 heures de données LibriSpeech

Métriques d'Évaluation

  • Word Error Rate (WER) : Mesure de la précision de reconnaissance
  • Temps de décodage : Mesure de l'efficacité computationnelle
  • Utilisation de mémoire : Mesurée indirectement par le nombre de beams

Méthodes de Comparaison

  1. Configuration de Base : Décodeur CTC standard utilisant les 32 jetons complets
  2. Élagage Top-N : Méthode d'élagage top-N statique
  3. FLToP CTC : Méthode d'élagage dynamique proposée

Détails d'Implémentation

  • Vocabulaire : 32 jetons (26 lettres + apostrophe + espace + jetons spéciaux)
  • Paramètres de Beam : beam-size=1000, beam-threshold=25
  • Poids du Modèle de Langage : lm-weight=1.0, word-score=0.95, sil-score=0.0
  • Outils : Utilisation de flashlight-text, fairseq et KenLM pour les expériences

Résultats Expérimentaux

Résultats Principaux

Analyse Statistique de la Sélection de Jetons

Par l'analyse statistique des indices de sélection de jetons sur tous les échantillons de test :

  • Dans 99,9823% des cas, l'algorithme sélectionne les 4 premiers jetons, supportant le paramètre N=4
  • L'indice 0 (jeton de probabilité maximale) est sélectionné 1 123 792 fois, bien au-delà des autres indices
  • Les scores d'émission moyens montrent un avantage significatif pour les premiers jetons

Expériences de Seuil Top-N (N=1...32)

  • N=4 atteint le meilleur équilibre : WER=3,852, supérieur à la baseline de 3,864
  • Augmentation linéaire du temps de décodage : La baseline (N=32) est 3,94× plus lente que la configuration N=4
  • Amélioration WER négligeable pour N>4, validant la rationalité de N=4

Expériences de Seuil Relatif (N=4, variation de R)

Découvertes clés :

  • Efficacité optimale à R=0,007 : WER=3,843, temps de décodage 369,6 secondes
  • Accélération de 2,78× par rapport à la méthode Top-4, accélération de 10,5× par rapport à la baseline
  • Meilleur WER à R=0,001 : 3,831, légèrement plus lent que R=0,007 mais toujours plus rapide que Top-4
  • Plage WER : WER reste entre 3,831-4,301 pour différentes valeurs de R

Analyse de l'Efficacité Mémoire

FLToP CTC montre d'excellentes performances dans le contrôle du nombre de beams :

  • Nombre moyen de beams : 214,4 (FLToP CTC) vs 596,26 (baseline) vs 461,99 (Top-N)
  • Réduction de mémoire : 2,78× par rapport à la baseline, 2,15× par rapport à Top-N
  • Caractéristiques de distribution : Moyenne, médiane et quartiles tous significativement inférieurs aux méthodes de comparaison

Expériences d'Ablation

  1. Impact de la valeur N : Amélioration significative de N=1 à N=4, rendements décroissants pour N>4
  2. Impact de la valeur R : R dans la plage 0,001-0,007 fournit le meilleur équilibre performance-efficacité
  3. Effet combiné : La combinaison N=4 et R=0,007 réalise le meilleur équilibre efficacité-précision

Travaux Connexes

Optimisation du Décodage CTC

  • Méthodes d'élagage statiques : KenLM, Flashlight et autres adoptant des stratégies top-N fixes
  • Optimisations spécifiques au matériel : Solutions d'accélération GPU, mais manquant d'universalité
  • Compression de modèles : Réduction du calcul par compression de modèles, mais pouvant affecter la précision

Optimisation RNN-T

  • Différences architecturales : Les méthodes d'optimisation RNN-T ne peuvent pas être directement appliquées au CTC en raison des différences architecturales
  • Stratégies d'élagage : Fournissent certaines idées d'élagage mais nécessitent une reconception pour les caractéristiques du CTC

Outils RAP Traditionnels

  • Méthodes HMM/Viterbi : Kaldi, HARPY et autres utilisant l'élagage dépendant de l'état
  • Différences de granularité : Les méthodes traditionnelles opèrent à une granularité plus élevée, tandis que FLToP CTC opère au niveau de la trame

Conclusion et Discussion

Conclusions Principales

  1. Amélioration significative de l'efficacité : FLToP CTC réalise une accélération d'exécution de 10,5× et une réduction de mémoire de 2,78×
  2. Maintien de la précision : Tout en améliorant considérablement l'efficacité, maintient voire améliore légèrement les performances WER
  3. Applicabilité universelle : L'algorithme est simple et universel, déployable sur diverses plates-formes
  4. Conception guidée par les statistiques : Conception des paramètres d'algorithme basée sur une analyse statistique approfondie

Limitations

  1. Dépendance à la taille du vocabulaire : Validé sur un petit vocabulaire (32 jetons), l'efficacité sur vocabulaires plus grands nécessite une vérification supplémentaire
  2. Spécificité linguistique : Principalement testé sur des ensembles de données en anglais, l'adaptabilité multilingue nécessite une vérification
  3. Dépendance au modèle : Principalement basé sur le modèle wav2vec2, l'adaptabilité d'autres modèles CTC nécessite une vérification
  4. Ajustement des paramètres : Les paramètres R et N peuvent nécessiter un ajustement pour différents scénarios d'application

Directions Futures

  1. Ajustement de paramètres adaptatif : Développer des méthodes pour ajuster dynamiquement la valeur R en fonction des caractéristiques d'entrée
  2. Extension à grand vocabulaire : Valider l'efficacité de l'algorithme sur vocabulaires plus grands et scénarios multilingues
  3. Optimisation bout en bout : Combiner avec le processus d'entraînement du modèle pour optimiser l'efficacité de décodage
  4. Optimisation spécifique au matériel : Optimisation supplémentaire de l'implémentation pour des plates-formes matérielles spécifiques

Évaluation Approfondie

Avantages

  1. Valeur pratique élevée : Résout les goulots d'étranglement pratiques du décodage CTC avec une valeur d'application directe
  2. Méthode simple et efficace : Conception d'algorithme simple mais résultats significatifs, facile à comprendre et implémenter
  3. Expériences complètes : Conception expérimentale systématique et complète, de l'analyse statistique à l'évaluation de performance
  4. Forte universalité : La conception indépendante de la plate-forme lui confère une large applicabilité
  5. Améliorations de performance significatives : Le ratio d'accélération de 10,5× et la réduction de mémoire de 2,78× sont impressionnants

Insuffisances

  1. Portée d'évaluation limitée : Évaluation uniquement sur l'ensemble de données LibriSpeech et modèles spécifiques, manquant de validation plus large
  2. Analyse théorique insuffisante : Manque d'analyse de convergence et de garanties théoriques de l'algorithme
  3. Sensibilité des paramètres : Le choix des paramètres R et N peut nécessiter un ajustement pour différents scénarios
  4. Comparaison de base unique : Comparaison principalement avec le décodeur CTC standard, manquant de comparaison avec d'autres méthodes d'optimisation

Impact

  1. Contribution technique : Fournit de nouvelles idées et méthodes pratiques pour l'optimisation du décodage CTC
  2. Valeur pratique : Importance significative pour le déploiement de RAP dans les environnements à ressources limitées
  3. Reproductibilité : Description d'algorithme claire, implémentation relativement simple, bonne reproductibilité
  4. Potentiel de promotion : Forte universalité de la méthode, susceptible d'être largement adoptée dans l'industrie

Scénarios d'Application

  1. Environnements à ressources limitées : Appareils mobiles, informatique en périphérie et autres scénarios avec ressources computationnelles limitées
  2. Applications en temps réel : Applications de reconnaissance vocale en temps réel sensibles à la latence
  3. Déploiement à grande échelle : Scénarios de traitement d'un grand nombre de requêtes vocales dans les services cloud
  4. Systèmes embarqués : Appareils IoT et autres applications avec restrictions strictes sur la puissance et la mémoire

Références Bibliographiques

L'article cite 32 références connexes, incluant principalement :

  • Littérature théorique fondamentale du CTC : Graves et al. (2006), Bourlard & Morgan (1994)
  • Modèles RAP modernes : wav2vec 2.0, WavLM
  • Outils d'optimisation de décodage : KenLM, Flashlight
  • Ensembles de données : LibriSpeech, LibriVox
  • Méthodes d'optimisation connexes : travaux importants dans les domaines de la compression de modèles et de l'accélération matérielle

Évaluation Globale : Cet article est un travail technique très pratique qui propose l'algorithme FLToP CTC simple et efficace, réalisant des progrès significatifs dans l'optimisation du décodage CTC. Bien qu'il y ait encore de la place pour amélioration dans la portée d'évaluation et l'analyse théorique, sa valeur pratique et son universalité en font une contribution précieuse au domaine de la RAP.