2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.

academic

FLToP CTC : Élagage de Jetons au Niveau de la Trame via Seuil Relatif pour un Décodage Efficace et Économe en Mémoire sur Diverses Plates-formes

Informations Fondamentales

ID de l'article : 2510.09085
Titre : FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Auteurs : Atul Shree, Harshith Jupuru
Classification : cs.LG cs.SD eess.AS
Date de publication : 10 octobre 2025 (soumission arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09085

Résumé

Les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC font face à des goulots d'étranglement computationnels et de mémoire dans les environnements à ressources limitées. Les décodeurs CTC traditionnels, nécessitant jusqu'à 90% du temps de traitement dans les systèmes (par exemple, wav2vec2-large sur GPU L4), présentent des inefficacités dues aux opérations exhaustives au niveau des jetons. Cet article introduit Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un nouvel algorithme de décodage qui emploie l'élagage de jetons au niveau de la trame guidé par une probabilité de seuil relatif. En éliminant dynamiquement les jetons de faible probabilité par trame, FLToP CTC réduit les demandes de calcul et de mémoire tout en maintenant une dégradation négligeable du WER. Sur LibriSpeech, FLToP CTC réalise une accélération d'exécution de 10,5× et une réduction de mémoire de 2,78× par rapport aux décodeurs CTC standard. Sa simplicité permet une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.). FLToP CTC résout les goulots d'étranglement du CTC, offrant une scalabilité pour les environnements à ressources limitées et les applications en temps réel, améliorant l'accessibilité et l'efficacité de la reconnaissance vocale.

Contexte de Recherche et Motivation

Définition du Problème

Cette recherche vise à résoudre les goulots d'étranglement computationnels et de mémoire auxquels font face les systèmes de reconnaissance automatique de la parole (RAP) basés sur CTC dans les environnements à ressources limitées. Les décodeurs CTC traditionnels nécessitent un traitement exhaustif de tous les jetons possibles à chaque pas de temps, ce qui entraîne des problèmes d'efficacité graves.

Importance du Problème

Goulot d'étranglement des ressources computationnelles : Dans les systèmes équipés de GPU L4 et d'encodeurs wav2vec2-large, le processus de décodage CTC peut consommer jusqu'à 90% du temps de traitement
Limitations de mémoire : Les décodeurs CTC traditionnels consomment une mémoire considérable dans les modèles à grand vocabulaire
Exigences d'applications en temps réel : La reconnaissance vocale en temps réel et le déploiement sur appareils à faibles ressources imposent des exigences strictes en matière d'efficacité de décodage

Limitations des Méthodes Existantes

Stratégies d'élagage statiques : Comme l'élagage top-N statique adopté par KenLM et Flashlight, manquant d'adaptabilité au niveau de la trame
Spécificité de la plate-forme : Les solutions d'accélération spécifiques aux GPU ignorent les scénarios CPU et appareils limités
Dépendance architecturale : Les méthodes d'optimisation pour les modèles RNN-T ne peuvent pas être directement transférées à l'architecture CTC

Motivation de la Recherche

Développer un algorithme d'optimisation de décodage CTC universel et indépendant de la plate-forme, qui améliore significativement l'efficacité de décodage grâce à l'élagage dynamique de jetons au niveau de la trame tout en maintenant la précision de reconnaissance.

Contributions Principales

Proposition de l'algorithme FLToP CTC : Un algorithme de décodage d'élagage de jetons dynamique au niveau de la trame basé sur une probabilité de seuil relatif
Conception indépendante de la plate-forme : L'algorithme est simple et universel, permettant une intégration transparente dans les décodeurs CTC sur diverses plates-formes (CPU, GPU, etc.)
Améliorations significatives de performance : Réalisation d'une accélération d'exécution de 10,5× et d'une réduction de mémoire de 2,78× sur l'ensemble de données LibriSpeech
Analyse du comportement statistique : Fourniture d'une étude approfondie du comportement statistique des décodeurs CTC, fournissant un soutien théorique à la conception d'algorithmes

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Séquence de logits de sortie du modèle CTC [T×V], où T est le nombre de pas de temps et V est la taille du vocabulaire Sortie : Séquence de texte optimale Contraintes : Minimiser les frais de calcul et de mémoire tout en maintenant les performances WER

Architecture du Modèle

Cœur de l'Algorithme FLToP CTC

L'algorithme emploie une stratégie d'élagage en deux étapes :

Sélection Top-N : Sélectionner les N jetons avec les plus hautes probabilités pour la trame actuelle
Élagage par Seuil Relatif : Conserver uniquement les jetons avec un score supérieur à R × score_maximum, où R est le paramètre de seuil relatif

Flux de l'Algorithme

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # Initialisation du beam
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # Score maximum
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # Élagage par seuil relatif
                    break
                # Expansion d'hypothèse
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

Points d'Innovation Technique

Élagage Adaptatif Dynamique : Comparé aux méthodes top-N statiques, capable d'ajuster dynamiquement le nombre de jetons conservés en fonction de la distribution de probabilité de chaque trame
Conception de Seuil Relatif : Utilisation d'un seuil proportionnel par rapport au score maximum plutôt qu'un seuil absolu, améliorant l'adaptabilité entre différents scénarios
Mécanisme de Terminaison Conditionnelle : Éviter l'évaluation inutile de jetons grâce au mécanisme d'arrêt anticipé, améliorant davantage l'efficacité
Implémentation Indépendante de la Plate-forme : Conception d'algorithme simple ne nécessitant pas de support matériel spécial, déployable sur diverses plates-formes informatiques

Configuration Expérimentale

Ensemble de Données

Ensemble de données LibriSpeech : Utilisation des sous-ensembles dev-clean, dev-other, test-clean, test-other pour l'évaluation
Modèle de Langage : Modèle de langage KenLM 4-gram construit sur l'ensemble d'entraînement
Encodeur : Modèle wav2vec2-large, pré-entraîné sur les données LibriSpeech et LibriVox, puis affiné sur 960 heures de données LibriSpeech

Métriques d'Évaluation

Word Error Rate (WER) : Mesure de la précision de reconnaissance
Temps de décodage : Mesure de l'efficacité computationnelle
Utilisation de mémoire : Mesurée indirectement par le nombre de beams

Méthodes de Comparaison

Configuration de Base : Décodeur CTC standard utilisant les 32 jetons complets
Élagage Top-N : Méthode d'élagage top-N statique
FLToP CTC : Méthode d'élagage dynamique proposée

Détails d'Implémentation

Vocabulaire : 32 jetons (26 lettres + apostrophe + espace + jetons spéciaux)
Paramètres de Beam : beam-size=1000, beam-threshold=25
Poids du Modèle de Langage : lm-weight=1.0, word-score=0.95, sil-score=0.0
Outils : Utilisation de flashlight-text, fairseq et KenLM pour les expériences

Résultats Expérimentaux

Résultats Principaux

Analyse Statistique de la Sélection de Jetons

Par l'analyse statistique des indices de sélection de jetons sur tous les échantillons de test :

Dans 99,9823% des cas, l'algorithme sélectionne les 4 premiers jetons, supportant le paramètre N=4
L'indice 0 (jeton de probabilité maximale) est sélectionné 1 123 792 fois, bien au-delà des autres indices
Les scores d'émission moyens montrent un avantage significatif pour les premiers jetons

Expériences de Seuil Top-N (N=1...32)

N=4 atteint le meilleur équilibre : WER=3,852, supérieur à la baseline de 3,864
Augmentation linéaire du temps de décodage : La baseline (N=32) est 3,94× plus lente que la configuration N=4
Amélioration WER négligeable pour N>4, validant la rationalité de N=4

Expériences de Seuil Relatif (N=4, variation de R)

Découvertes clés :

Efficacité optimale à R=0,007 : WER=3,843, temps de décodage 369,6 secondes
Accélération de 2,78× par rapport à la méthode Top-4, accélération de 10,5× par rapport à la baseline
Meilleur WER à R=0,001 : 3,831, légèrement plus lent que R=0,007 mais toujours plus rapide que Top-4
Plage WER : WER reste entre 3,831-4,301 pour différentes valeurs de R

Analyse de l'Efficacité Mémoire

FLToP CTC montre d'excellentes performances dans le contrôle du nombre de beams :

Nombre moyen de beams : 214,4 (FLToP CTC) vs 596,26 (baseline) vs 461,99 (Top-N)
Réduction de mémoire : 2,78× par rapport à la baseline, 2,15× par rapport à Top-N
Caractéristiques de distribution : Moyenne, médiane et quartiles tous significativement inférieurs aux méthodes de comparaison

Expériences d'Ablation

Impact de la valeur N : Amélioration significative de N=1 à N=4, rendements décroissants pour N>4
Impact de la valeur R : R dans la plage 0,001-0,007 fournit le meilleur équilibre performance-efficacité
Effet combiné : La combinaison N=4 et R=0,007 réalise le meilleur équilibre efficacité-précision

Travaux Connexes

Optimisation du Décodage CTC

Méthodes d'élagage statiques : KenLM, Flashlight et autres adoptant des stratégies top-N fixes
Optimisations spécifiques au matériel : Solutions d'accélération GPU, mais manquant d'universalité
Compression de modèles : Réduction du calcul par compression de modèles, mais pouvant affecter la précision

Optimisation RNN-T

Différences architecturales : Les méthodes d'optimisation RNN-T ne peuvent pas être directement appliquées au CTC en raison des différences architecturales
Stratégies d'élagage : Fournissent certaines idées d'élagage mais nécessitent une reconception pour les caractéristiques du CTC

Outils RAP Traditionnels

Méthodes HMM/Viterbi : Kaldi, HARPY et autres utilisant l'élagage dépendant de l'état
Différences de granularité : Les méthodes traditionnelles opèrent à une granularité plus élevée, tandis que FLToP CTC opère au niveau de la trame

Conclusion et Discussion

Conclusions Principales

Amélioration significative de l'efficacité : FLToP CTC réalise une accélération d'exécution de 10,5× et une réduction de mémoire de 2,78×
Maintien de la précision : Tout en améliorant considérablement l'efficacité, maintient voire améliore légèrement les performances WER
Applicabilité universelle : L'algorithme est simple et universel, déployable sur diverses plates-formes
Conception guidée par les statistiques : Conception des paramètres d'algorithme basée sur une analyse statistique approfondie

Limitations

Dépendance à la taille du vocabulaire : Validé sur un petit vocabulaire (32 jetons), l'efficacité sur vocabulaires plus grands nécessite une vérification supplémentaire
Spécificité linguistique : Principalement testé sur des ensembles de données en anglais, l'adaptabilité multilingue nécessite une vérification
Dépendance au modèle : Principalement basé sur le modèle wav2vec2, l'adaptabilité d'autres modèles CTC nécessite une vérification
Ajustement des paramètres : Les paramètres R et N peuvent nécessiter un ajustement pour différents scénarios d'application

Directions Futures

Ajustement de paramètres adaptatif : Développer des méthodes pour ajuster dynamiquement la valeur R en fonction des caractéristiques d'entrée
Extension à grand vocabulaire : Valider l'efficacité de l'algorithme sur vocabulaires plus grands et scénarios multilingues
Optimisation bout en bout : Combiner avec le processus d'entraînement du modèle pour optimiser l'efficacité de décodage
Optimisation spécifique au matériel : Optimisation supplémentaire de l'implémentation pour des plates-formes matérielles spécifiques

Évaluation Approfondie

Avantages

Valeur pratique élevée : Résout les goulots d'étranglement pratiques du décodage CTC avec une valeur d'application directe
Méthode simple et efficace : Conception d'algorithme simple mais résultats significatifs, facile à comprendre et implémenter
Expériences complètes : Conception expérimentale systématique et complète, de l'analyse statistique à l'évaluation de performance
Forte universalité : La conception indépendante de la plate-forme lui confère une large applicabilité
Améliorations de performance significatives : Le ratio d'accélération de 10,5× et la réduction de mémoire de 2,78× sont impressionnants

Insuffisances

Portée d'évaluation limitée : Évaluation uniquement sur l'ensemble de données LibriSpeech et modèles spécifiques, manquant de validation plus large
Analyse théorique insuffisante : Manque d'analyse de convergence et de garanties théoriques de l'algorithme
Sensibilité des paramètres : Le choix des paramètres R et N peut nécessiter un ajustement pour différents scénarios
Comparaison de base unique : Comparaison principalement avec le décodeur CTC standard, manquant de comparaison avec d'autres méthodes d'optimisation

Impact

Contribution technique : Fournit de nouvelles idées et méthodes pratiques pour l'optimisation du décodage CTC
Valeur pratique : Importance significative pour le déploiement de RAP dans les environnements à ressources limitées
Reproductibilité : Description d'algorithme claire, implémentation relativement simple, bonne reproductibilité
Potentiel de promotion : Forte universalité de la méthode, susceptible d'être largement adoptée dans l'industrie

Scénarios d'Application

Environnements à ressources limitées : Appareils mobiles, informatique en périphérie et autres scénarios avec ressources computationnelles limitées
Applications en temps réel : Applications de reconnaissance vocale en temps réel sensibles à la latence
Déploiement à grande échelle : Scénarios de traitement d'un grand nombre de requêtes vocales dans les services cloud
Systèmes embarqués : Appareils IoT et autres applications avec restrictions strictes sur la puissance et la mémoire

Références Bibliographiques

L'article cite 32 références connexes, incluant principalement :

Littérature théorique fondamentale du CTC : Graves et al. (2006), Bourlard & Morgan (1994)
Modèles RAP modernes : wav2vec 2.0, WavLM
Outils d'optimisation de décodage : KenLM, Flashlight
Ensembles de données : LibriSpeech, LibriVox
Méthodes d'optimisation connexes : travaux importants dans les domaines de la compression de modèles et de l'accélération matérielle

Évaluation Globale : Cet article est un travail technique très pratique qui propose l'algorithme FLToP CTC simple et efficace, réalisant des progrès significatifs dans l'optimisation du décodage CTC. Bien qu'il y ait encore de la place pour amélioration dans la portée d'évaluation et l'analyse théorique, sa valeur pratique et son universalité en font une contribution précieuse au domaine de la RAP.