FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic
FLToP CTC: Poda de Tokens a Nivel de Marco mediante Umbral Relativo para Decodificación Eficiente y Ahorro de Memoria en Plataformas Diversas
Los sistemas de reconocimiento automático de voz (ASR) basados en CTC enfrentan cuellos de botella computacionales y de memoria en entornos con recursos limitados. Los decodificadores CTC tradicionales, que requieren hasta el 90% del tiempo de procesamiento en sistemas (p. ej., wav2vec2-large en GPU L4), presentan ineficiencias debido a operaciones exhaustivas a nivel de token. Este artículo introduce Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un novedoso algoritmo de decodificación que emplea poda de tokens a nivel de marco guiada por una probabilidad de umbral relativo. Al eliminar dinámicamente tokens de baja probabilidad por marco, FLToP CTC reduce las demandas computacionales y de memoria mientras mantiene una degradación de WER insignificante. En LibriSpeech, FLToP CTC logra una aceleración de tiempo de ejecución de 10.5× y una reducción de memoria de 2.78× en comparación con decodificadores CTC estándar. Su simplicidad permite la integración perfecta en decodificadores CTC en múltiples plataformas (CPU, GPU, etc.). FLToP CTC aborda los cuellos de botella de CTC, ofreciendo escalabilidad para entornos con recursos limitados y aplicaciones en tiempo real, mejorando la accesibilidad y eficiencia del reconocimiento de voz.
Esta investigación aborda los cuellos de botella computacionales y de memoria que enfrentan los sistemas de reconocimiento automático de voz (ASR) basados en CTC en entornos con recursos limitados. Los decodificadores CTC tradicionales requieren procesamiento exhaustivo de todos los tokens posibles en cada paso temporal, lo que resulta en problemas graves de eficiencia.
Cuello de botella computacional: En sistemas equipados con GPU L4 y codificador wav2vec2-large, el proceso de decodificación CTC puede consumir hasta el 90% del tiempo de procesamiento
Limitaciones de memoria: Los decodificadores CTC tradicionales consumen memoria masiva en modelos de vocabulario grande
Demandas de aplicaciones en tiempo real: El reconocimiento de voz en tiempo real y la implementación en dispositivos de bajo recursos imponen requisitos estrictos de eficiencia de decodificación
Desarrollar un algoritmo de optimización de decodificación CTC universal e independiente de la plataforma que, mediante poda dinámica de tokens a nivel de marco, mejore significativamente la eficiencia de decodificación mientras se mantiene la precisión de reconocimiento.
Propuesta del Algoritmo FLToP CTC: Un algoritmo de decodificación con poda dinámica de tokens a nivel de marco basado en probabilidad de umbral relativo
Diseño Independiente de Plataforma: El algoritmo es simple y universal, permitiendo integración perfecta en decodificadores CTC en diversas plataformas (CPU, GPU, etc.)
Mejora Significativa de Rendimiento: Logra aceleración de tiempo de ejecución de 10.5× y reducción de memoria de 2.78× en el conjunto de datos LibriSpeech
Análisis de Comportamiento Estadístico: Proporciona investigación profunda del comportamiento estadístico de decodificadores CTC, ofreciendo apoyo teórico para el diseño del algoritmo
Entrada: Secuencia de logits de salida del modelo CTC [T×V], donde T es el número de pasos temporales y V es el tamaño del vocabulario
Salida: Secuencia de texto óptima
Restricciones: Minimizar la carga computacional y de memoria mientras se mantiene el rendimiento de WER
Poda Dinámica Adaptativa: En comparación con métodos top-N estáticos, ajusta dinámicamente la cantidad de tokens retenidos según la distribución de probabilidad de cada marco
Diseño de Umbral Relativo: Utiliza un umbral de proporción relativa a la puntuación máxima en lugar de un umbral absoluto, mejorando la adaptabilidad entre diferentes escenarios
Mecanismo de Terminación Condicional: Mediante el mecanismo de ruptura anticipada, evita evaluaciones innecesarias de tokens, mejorando aún más la eficiencia
Implementación Independiente de Plataforma: El diseño del algoritmo es simple, no requiere soporte de hardware especial y puede implementarse en diversas plataformas computacionales
El artículo cita 32 referencias relacionadas, incluyendo principalmente:
Literatura de teoría fundamental de CTC: Graves et al. (2006), Bourlard & Morgan (1994)
Modelos modernos de ASR: wav2vec 2.0, WavLM
Herramientas de optimización de decodificación: KenLM, Flashlight
Conjuntos de datos: LibriSpeech, LibriVox
Métodos de optimización relacionados: Trabajo importante en compresión de modelos, aceleración de hardware y otros campos
Evaluación General: Este es un artículo técnico de alto valor práctico que propone el algoritmo FLToP CTC simple pero efectivo, logrando progreso significativo en optimización de decodificación CTC. Aunque hay espacio para mejora en el rango de evaluación y análisis teórico, su valor práctico y universalidad lo convierten en una contribución valiosa al campo de ASR.