FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic
FLToP CTC : Élagage de Jetons au Niveau de la Trame via Seuil Relatif pour un Décodage Efficace et Économe en Mémoire sur Diverses Plates-formes
Les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC font face à des goulots d'étranglement computationnels et de mémoire dans les environnements à ressources limitées. Les décodeurs CTC traditionnels, nécessitant jusqu'à 90% du temps de traitement dans les systèmes (par exemple, wav2vec2-large sur GPU L4), présentent des inefficacités dues aux opérations exhaustives au niveau des jetons. Cet article introduit Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un nouvel algorithme de décodage qui emploie l'élagage de jetons au niveau de la trame guidé par une probabilité de seuil relatif. En éliminant dynamiquement les jetons de faible probabilité par trame, FLToP CTC réduit les demandes de calcul et de mémoire tout en maintenant une dégradation négligeable du WER. Sur LibriSpeech, FLToP CTC réalise une accélération d'exécution de 10,5× et une réduction de mémoire de 2,78× par rapport aux décodeurs CTC standard. Sa simplicité permet une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.). FLToP CTC résout les goulots d'étranglement du CTC, offrant une scalabilité pour les environnements à ressources limitées et les applications en temps réel, améliorant l'accessibilité et l'efficacité de la reconnaissance vocale.
Cette recherche vise à résoudre les goulots d'étranglement computationnels et de mémoire auxquels font face les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC dans les environnements à ressources limitées. Les décodeurs CTC traditionnels nécessitent un traitement exhaustif de tous les jetons possibles à chaque pas de temps, ce qui entraîne des problèmes d'efficacité graves.
Goulot d'étranglement des ressources computationnelles : Dans les systèmes équipés de GPU L4 et d'encodeurs wav2vec2-large, le processus de décodage CTC peut consommer jusqu'à 90% du temps de traitement
Limitations de mémoire : Les décodeurs CTC traditionnels consomment une mémoire considérable dans les modèles à grand vocabulaire
Exigences d'applications en temps réel : La reconnaissance vocale en temps réel et le déploiement sur appareils à faibles ressources imposent des exigences strictes en matière d'efficacité de décodage
Développer un algorithme d'optimisation de décodage CTC universel et indépendant de la plate-forme, qui améliore significativement l'efficacité de décodage grâce à l'élagage dynamique de jetons au niveau de la trame tout en maintenant la précision de reconnaissance.
Proposition de l'algorithme FLToP CTC : Un algorithme de décodage d'élagage de jetons dynamique au niveau de la trame basé sur une probabilité de seuil relatif
Conception indépendante de la plate-forme : L'algorithme est simple et universel, permettant une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.)
Améliorations significatives de performance : Réalisation d'une accélération d'exécution de 10,5× et d'une réduction de mémoire de 2,78× sur l'ensemble de données LibriSpeech
Analyse du comportement statistique : Fourniture d'une étude approfondie du comportement statistique des décodeurs CTC, fournissant un soutien théorique à la conception d'algorithmes
Entrée : Séquence de logits de sortie du modèle CTC [T×V], où T est le nombre de pas de temps et V est la taille du vocabulaire
Sortie : Séquence de texte optimale
Contraintes : Minimiser les frais de calcul et de mémoire tout en maintenant les performances WER
Élagage Adaptatif Dynamique : Comparé aux méthodes top-N statiques, capable d'ajuster dynamiquement le nombre de jetons conservés en fonction de la distribution de probabilité de chaque trame
Conception de Seuil Relatif : Utilisation d'un seuil proportionnel par rapport au score maximum plutôt qu'un seuil absolu, améliorant l'adaptabilité entre différents scénarios
Mécanisme de Terminaison Conditionnelle : Éviter l'évaluation inutile de jetons grâce au mécanisme d'arrêt anticipé, améliorant davantage l'efficacité
Implémentation Indépendante de la Plate-forme : Conception d'algorithme simple ne nécessitant pas de support matériel spécial, déployable sur diverses plates-formes informatiques
Différences architecturales : Les méthodes d'optimisation RNN-T ne peuvent pas être directement appliquées au CTC en raison des différences architecturales
Stratégies d'élagage : Fournissent certaines idées d'élagage mais nécessitent une reconception pour les caractéristiques du CTC
Dépendance à la taille du vocabulaire : Validé sur un petit vocabulaire (32 jetons), l'efficacité sur vocabulaires plus grands nécessite une vérification supplémentaire
Spécificité linguistique : Principalement testé sur des ensembles de données en anglais, l'adaptabilité multilingue nécessite une vérification
Dépendance au modèle : Principalement basé sur le modèle wav2vec2, l'adaptabilité d'autres modèles CTC nécessite une vérification
Ajustement des paramètres : Les paramètres R et N peuvent nécessiter un ajustement pour différents scénarios d'application
Littérature théorique fondamentale du CTC : Graves et al. (2006), Bourlard & Morgan (1994)
Modèles RAP modernes : wav2vec 2.0, WavLM
Outils d'optimisation de décodage : KenLM, Flashlight
Ensembles de données : LibriSpeech, LibriVox
Méthodes d'optimisation connexes : travaux importants dans les domaines de la compression de modèles et de l'accélération matérielle
Évaluation Globale : Cet article est un travail technique très pratique qui propose l'algorithme FLToP CTC simple et efficace, réalisant des progrès significatifs dans l'optimisation du décodage CTC. Bien qu'il y ait encore de la place pour amélioration dans la portée d'évaluation et l'analyse théorique, sa valeur pratique et son universalité en font une contribution précieuse au domaine de la RAP.