2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.

academic

FLToP CTC: Poda de Tokens a Nivel de Marco mediante Umbral Relativo para Decodificación Eficiente y Ahorro de Memoria en Plataformas Diversas

Información Básica

ID del Artículo: 2510.09085
Título: FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Autores: Atul Shree, Harshith Jupuru
Clasificación: cs.LG cs.SD eess.AS
Fecha de Publicación: 10 de octubre de 2025 (Envío a arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09085

Resumen

Los sistemas de reconocimiento automático de voz (ASR) basados en CTC enfrentan cuellos de botella computacionales y de memoria en entornos con recursos limitados. Los decodificadores CTC tradicionales, que requieren hasta el 90% del tiempo de procesamiento en sistemas (p. ej., wav2vec2-large en GPU L4), presentan ineficiencias debido a operaciones exhaustivas a nivel de token. Este artículo introduce Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un novedoso algoritmo de decodificación que emplea poda de tokens a nivel de marco guiada por una probabilidad de umbral relativo. Al eliminar dinámicamente tokens de baja probabilidad por marco, FLToP CTC reduce las demandas computacionales y de memoria mientras mantiene una degradación de WER insignificante. En LibriSpeech, FLToP CTC logra una aceleración de tiempo de ejecución de 10.5× y una reducción de memoria de 2.78× en comparación con decodificadores CTC estándar. Su simplicidad permite la integración perfecta en decodificadores CTC en múltiples plataformas (CPU, GPU, etc.). FLToP CTC aborda los cuellos de botella de CTC, ofreciendo escalabilidad para entornos con recursos limitados y aplicaciones en tiempo real, mejorando la accesibilidad y eficiencia del reconocimiento de voz.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda los cuellos de botella computacionales y de memoria que enfrentan los sistemas de reconocimiento automático de voz (ASR) basados en CTC en entornos con recursos limitados. Los decodificadores CTC tradicionales requieren procesamiento exhaustivo de todos los tokens posibles en cada paso temporal, lo que resulta en problemas graves de eficiencia.

Importancia del Problema

Cuello de botella computacional: En sistemas equipados con GPU L4 y codificador wav2vec2-large, el proceso de decodificación CTC puede consumir hasta el 90% del tiempo de procesamiento
Limitaciones de memoria: Los decodificadores CTC tradicionales consumen memoria masiva en modelos de vocabulario grande
Demandas de aplicaciones en tiempo real: El reconocimiento de voz en tiempo real y la implementación en dispositivos de bajo recursos imponen requisitos estrictos de eficiencia de decodificación

Limitaciones de Métodos Existentes

Estrategias de poda estática: Métodos como top-N estático empleados por KenLM y Flashlight carecen de adaptabilidad a nivel de marco
Especificidad de plataforma: Las soluciones de aceleración específicas de GPU ignoran escenarios de CPU y dispositivos restringidos
Dependencia de arquitectura: Los métodos de optimización para modelos RNN-T no se pueden transferir directamente a la arquitectura CTC

Motivación de la Investigación

Desarrollar un algoritmo de optimización de decodificación CTC universal e independiente de la plataforma que, mediante poda dinámica de tokens a nivel de marco, mejore significativamente la eficiencia de decodificación mientras se mantiene la precisión de reconocimiento.

Contribuciones Principales

Propuesta del Algoritmo FLToP CTC: Un algoritmo de decodificación con poda dinámica de tokens a nivel de marco basado en probabilidad de umbral relativo
Diseño Independiente de Plataforma: El algoritmo es simple y universal, permitiendo integración perfecta en decodificadores CTC en diversas plataformas (CPU, GPU, etc.)
Mejora Significativa de Rendimiento: Logra aceleración de tiempo de ejecución de 10.5× y reducción de memoria de 2.78× en el conjunto de datos LibriSpeech
Análisis de Comportamiento Estadístico: Proporciona investigación profunda del comportamiento estadístico de decodificadores CTC, ofreciendo apoyo teórico para el diseño del algoritmo

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de logits de salida del modelo CTC [T×V], donde T es el número de pasos temporales y V es el tamaño del vocabulario Salida: Secuencia de texto óptima Restricciones: Minimizar la carga computacional y de memoria mientras se mantiene el rendimiento de WER

Arquitectura del Modelo

Núcleo del Algoritmo FLToP CTC

El algoritmo emplea una estrategia de poda en dos etapas:

Selección Top-N: Selecciona los N tokens con mayor probabilidad para el marco actual
Poda de Umbral Relativo: Retiene solo tokens con puntuación superior a R × puntuación máxima, donde R es el parámetro de umbral relativo

Flujo del Algoritmo

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # Inicializar beam
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # Puntuación máxima
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # Poda de umbral relativo
                    break
                # Expandir hipótesis
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

Puntos de Innovación Técnica

Poda Dinámica Adaptativa: En comparación con métodos top-N estáticos, ajusta dinámicamente la cantidad de tokens retenidos según la distribución de probabilidad de cada marco
Diseño de Umbral Relativo: Utiliza un umbral de proporción relativa a la puntuación máxima en lugar de un umbral absoluto, mejorando la adaptabilidad entre diferentes escenarios
Mecanismo de Terminación Condicional: Mediante el mecanismo de ruptura anticipada, evita evaluaciones innecesarias de tokens, mejorando aún más la eficiencia
Implementación Independiente de Plataforma: El diseño del algoritmo es simple, no requiere soporte de hardware especial y puede implementarse en diversas plataformas computacionales

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos LibriSpeech: Utiliza subconjuntos dev-clean, dev-other, test-clean y test-other para evaluación
Modelo de Lenguaje: Modelo KenLM 4-gram construido basado en el conjunto de entrenamiento
Codificador: Modelo wav2vec2-large preentrenado en datos de LibriSpeech y LibriVox, ajustado finamente en 960 horas de datos LibriSpeech

Métricas de Evaluación

Word Error Rate (WER): Mide la precisión de reconocimiento
Tiempo de Decodificación: Mide la eficiencia computacional
Uso de Memoria: Se mide indirectamente a través de la cantidad de beams

Métodos de Comparación

Configuración Base: Decodificador CTC estándar utilizando los 32 tokens completos
Poda Top-N: Método de poda top-N estática
FLToP CTC: Método de poda dinámica propuesto

Detalles de Implementación

Vocabulario: 32 tokens (26 letras + apóstrofo + espacio + tokens especiales)
Parámetros de Beam: beam-size=1000, beam-threshold=25
Pesos del Modelo de Lenguaje: lm-weight=1.0, word-score=0.95, sil-score=0.0
Herramientas: Utiliza flashlight-text, fairseq y KenLM para experimentos

Resultados Experimentales

Resultados Principales

Análisis Estadístico de Selección de Tokens

Mediante estadísticas de índices de selección de tokens en todas las muestras de prueba:

En el 99.9823% de los casos el algoritmo selecciona los 4 primeros tokens, apoyando la configuración N=4
El índice 0 (token de mayor probabilidad) se selecciona 1,123,792 veces, muy por encima de otros índices
Las puntuaciones de emisión promedio muestran una ventaja significativa de los primeros tokens

Experimento de Umbral Top-N (N=1...32)

N=4 logra el mejor equilibrio: WER=3.852, superior al baseline de 3.864
El tiempo de decodificación crece linealmente: baseline (N=32) es 3.94× más lento que la configuración N=4
N>4 proporciona mejora de WER insignificante, validando la razonabilidad de N=4

Experimento de Umbral Relativo (N=4, Variación de R)

Hallazgos clave:

R=0.007 logra eficiencia óptima: WER=3.843, tiempo de decodificación 369.6 segundos
Aceleración de 2.78× comparado con método Top-4, aceleración de 10.5× comparado con baseline
R=0.001 logra mejor WER: 3.831, ligeramente más lento que R=0.007 pero aún más rápido que Top-4
Rango de WER: WER se mantiene entre 3.831-4.301 en diferentes valores de R

Análisis de Eficiencia de Memoria

FLToP CTC muestra un desempeño excelente en el control de cantidad de beams:

Cantidad promedio de beams: 214.4 (FLToP CTC) vs 596.26 (baseline) vs 461.99 (Top-N)
Reducción de memoria: 2.78× menos que baseline, 2.15× menos que Top-N
Características de distribución: Media, mediana y cuartiles significativamente inferiores a métodos de comparación

Experimentos de Ablación

Impacto del valor N: Mejora significativa de rendimiento de N=1 a N=4, beneficios decrecientes para N>4
Impacto del valor R: R en el rango 0.001-0.007 proporciona el mejor equilibrio de rendimiento
Efecto combinado: La combinación de N=4 y R=0.007 logra el equilibrio óptimo entre eficiencia y precisión

Trabajo Relacionado

Optimización de Decodificación CTC

Métodos de poda estática: KenLM, Flashlight y otros emplean estrategias top-N fijas
Optimización específica de hardware: Soluciones de aceleración GPU, pero carecen de universalidad
Compresión de modelos: Reduce cálculo mediante compresión de modelos, pero puede afectar la precisión

Optimización de RNN-T

Diferencias de arquitectura: Los métodos de optimización de RNN-T no pueden aplicarse directamente a CTC debido a diferencias arquitectónicas
Estrategias de poda: Proporcionan algunas ideas de poda pero requieren rediseño para características específicas de CTC

Herramientas ASR Tradicionales

Métodos HMM/Viterbi: Kaldi, HARPY y otros utilizan poda dependiente del estado
Diferencias de granularidad: Los métodos tradicionales operan en granularidad más alta, mientras que FLToP CTC opera a nivel de marco

Conclusiones y Discusión

Conclusiones Principales

Mejora Significativa de Eficiencia: FLToP CTC logra aceleración de tiempo de ejecución de 10.5× y reducción de memoria de 2.78×
Mantenimiento de Precisión: Mantiene e incluso mejora ligeramente el rendimiento de WER mientras mejora significativamente la eficiencia
Aplicabilidad Universal: El algoritmo es simple y universal, permitiendo implementación multiplataforma
Diseño Impulsado por Estadísticas: Los parámetros del algoritmo se diseñan basándose en análisis estadístico profundo

Limitaciones

Dependencia del Tamaño del Vocabulario: Validado en vocabulario pequeño (32 tokens), el efecto en vocabularios grandes requiere verificación adicional
Especificidad del Idioma: Principalmente probado en conjuntos de datos en inglés, la adaptabilidad multilingüe requiere verificación
Dependencia del Modelo: Basado principalmente en el modelo wav2vec2, la adaptabilidad a otros modelos CTC requiere verificación
Ajuste de Parámetros: Los parámetros R y N pueden requerir ajuste para diferentes escenarios de aplicación

Direcciones Futuras

Ajuste de Parámetros Adaptativo: Desarrollar métodos que ajusten dinámicamente el valor de R según características de entrada
Extensión a Vocabularios Grandes: Validar la efectividad del algoritmo en escenarios de vocabularios más grandes y multilingües
Optimización End-to-End: Combinar con el proceso de entrenamiento del modelo para optimizar la eficiencia de decodificación
Optimización Específica de Hardware: Optimización adicional de implementación para plataformas de hardware específicas

Evaluación Profunda

Fortalezas

Alto Valor Práctico: Aborda cuellos de botella reales en decodificación CTC con valor de aplicación directo
Método Simple y Efectivo: El diseño del algoritmo es simple pero los resultados son significativos, fácil de entender e implementar
Experimentos Completos: El diseño experimental es sistemático y exhaustivo, desde análisis estadístico hasta evaluación de rendimiento
Fuerte Universalidad: El diseño independiente de plataforma proporciona amplia aplicabilidad
Mejora de Rendimiento Significativa: La aceleración de 10.5× y la reducción de memoria de 2.78× son impresionantes

Deficiencias

Rango de Evaluación Limitado: Evaluado solo en el conjunto de datos LibriSpeech y modelo específico, carece de validación más amplia
Análisis Teórico Insuficiente: Carece de análisis de convergencia del algoritmo y garantías teóricas
Sensibilidad de Parámetros: La selección de parámetros R y N puede requerir ajuste para diferentes escenarios
Comparación de Referencia Única: Principalmente comparado con decodificador CTC estándar, carece de comparación con otros métodos de optimización

Impacto

Contribución Técnica: Proporciona nuevas ideas y métodos prácticos para optimización de decodificación CTC
Valor Práctico: Tiene importancia significativa para implementación de ASR en entornos con recursos limitados
Reproducibilidad: La descripción del algoritmo es clara, la implementación es relativamente simple, con buena reproducibilidad
Potencial de Promoción: La fuerte universalidad del método promete amplia aplicación en la industria

Escenarios Aplicables

Entornos con Recursos Limitados: Dispositivos móviles, computación de borde y otros escenarios con recursos computacionales limitados
Aplicaciones en Tiempo Real: Aplicaciones de reconocimiento de voz en tiempo real sensibles a la latencia
Implementación a Gran Escala: Escenarios que requieren procesar grandes cantidades de solicitudes de voz en servicios en la nube
Sistemas Embebidos: Dispositivos IoT y otras aplicaciones con restricciones estrictas de potencia y memoria

Referencias

El artículo cita 32 referencias relacionadas, incluyendo principalmente:

Literatura de teoría fundamental de CTC: Graves et al. (2006), Bourlard & Morgan (1994)
Modelos modernos de ASR: wav2vec 2.0, WavLM
Herramientas de optimización de decodificación: KenLM, Flashlight
Conjuntos de datos: LibriSpeech, LibriVox
Métodos de optimización relacionados: Trabajo importante en compresión de modelos, aceleración de hardware y otros campos

Evaluación General: Este es un artículo técnico de alto valor práctico que propone el algoritmo FLToP CTC simple pero efectivo, logrando progreso significativo en optimización de decodificación CTC. Aunque hay espacio para mejora en el rango de evaluación y análisis teórico, su valor práctico y universalidad lo convierten en una contribución valiosa al campo de ASR.