2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic

FLToP CTC: Poda de Tokens a Nivel de Marco mediante Umbral Relativo para Decodificación Eficiente y Ahorro de Memoria en Plataformas Diversas

Información Básica

  • ID del Artículo: 2510.09085
  • Título: FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
  • Autores: Atul Shree, Harshith Jupuru
  • Clasificación: cs.LG cs.SD eess.AS
  • Fecha de Publicación: 10 de octubre de 2025 (Envío a arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09085

Resumen

Los sistemas de reconocimiento automático de voz (ASR) basados en CTC enfrentan cuellos de botella computacionales y de memoria en entornos con recursos limitados. Los decodificadores CTC tradicionales, que requieren hasta el 90% del tiempo de procesamiento en sistemas (p. ej., wav2vec2-large en GPU L4), presentan ineficiencias debido a operaciones exhaustivas a nivel de token. Este artículo introduce Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), un novedoso algoritmo de decodificación que emplea poda de tokens a nivel de marco guiada por una probabilidad de umbral relativo. Al eliminar dinámicamente tokens de baja probabilidad por marco, FLToP CTC reduce las demandas computacionales y de memoria mientras mantiene una degradación de WER insignificante. En LibriSpeech, FLToP CTC logra una aceleración de tiempo de ejecución de 10.5× y una reducción de memoria de 2.78× en comparación con decodificadores CTC estándar. Su simplicidad permite la integración perfecta en decodificadores CTC en múltiples plataformas (CPU, GPU, etc.). FLToP CTC aborda los cuellos de botella de CTC, ofreciendo escalabilidad para entornos con recursos limitados y aplicaciones en tiempo real, mejorando la accesibilidad y eficiencia del reconocimiento de voz.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda los cuellos de botella computacionales y de memoria que enfrentan los sistemas de reconocimiento automático de voz (ASR) basados en CTC en entornos con recursos limitados. Los decodificadores CTC tradicionales requieren procesamiento exhaustivo de todos los tokens posibles en cada paso temporal, lo que resulta en problemas graves de eficiencia.

Importancia del Problema

  1. Cuello de botella computacional: En sistemas equipados con GPU L4 y codificador wav2vec2-large, el proceso de decodificación CTC puede consumir hasta el 90% del tiempo de procesamiento
  2. Limitaciones de memoria: Los decodificadores CTC tradicionales consumen memoria masiva en modelos de vocabulario grande
  3. Demandas de aplicaciones en tiempo real: El reconocimiento de voz en tiempo real y la implementación en dispositivos de bajo recursos imponen requisitos estrictos de eficiencia de decodificación

Limitaciones de Métodos Existentes

  1. Estrategias de poda estática: Métodos como top-N estático empleados por KenLM y Flashlight carecen de adaptabilidad a nivel de marco
  2. Especificidad de plataforma: Las soluciones de aceleración específicas de GPU ignoran escenarios de CPU y dispositivos restringidos
  3. Dependencia de arquitectura: Los métodos de optimización para modelos RNN-T no se pueden transferir directamente a la arquitectura CTC

Motivación de la Investigación

Desarrollar un algoritmo de optimización de decodificación CTC universal e independiente de la plataforma que, mediante poda dinámica de tokens a nivel de marco, mejore significativamente la eficiencia de decodificación mientras se mantiene la precisión de reconocimiento.

Contribuciones Principales

  1. Propuesta del Algoritmo FLToP CTC: Un algoritmo de decodificación con poda dinámica de tokens a nivel de marco basado en probabilidad de umbral relativo
  2. Diseño Independiente de Plataforma: El algoritmo es simple y universal, permitiendo integración perfecta en decodificadores CTC en diversas plataformas (CPU, GPU, etc.)
  3. Mejora Significativa de Rendimiento: Logra aceleración de tiempo de ejecución de 10.5× y reducción de memoria de 2.78× en el conjunto de datos LibriSpeech
  4. Análisis de Comportamiento Estadístico: Proporciona investigación profunda del comportamiento estadístico de decodificadores CTC, ofreciendo apoyo teórico para el diseño del algoritmo

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de logits de salida del modelo CTC [T×V], donde T es el número de pasos temporales y V es el tamaño del vocabulario Salida: Secuencia de texto óptima Restricciones: Minimizar la carga computacional y de memoria mientras se mantiene el rendimiento de WER

Arquitectura del Modelo

Núcleo del Algoritmo FLToP CTC

El algoritmo emplea una estrategia de poda en dos etapas:

  1. Selección Top-N: Selecciona los N tokens con mayor probabilidad para el marco actual
  2. Poda de Umbral Relativo: Retiene solo tokens con puntuación superior a R × puntuación máxima, donde R es el parámetro de umbral relativo

Flujo del Algoritmo

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # Inicializar beam
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # Puntuación máxima
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # Poda de umbral relativo
                    break
                # Expandir hipótesis
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

Puntos de Innovación Técnica

  1. Poda Dinámica Adaptativa: En comparación con métodos top-N estáticos, ajusta dinámicamente la cantidad de tokens retenidos según la distribución de probabilidad de cada marco
  2. Diseño de Umbral Relativo: Utiliza un umbral de proporción relativa a la puntuación máxima en lugar de un umbral absoluto, mejorando la adaptabilidad entre diferentes escenarios
  3. Mecanismo de Terminación Condicional: Mediante el mecanismo de ruptura anticipada, evita evaluaciones innecesarias de tokens, mejorando aún más la eficiencia
  4. Implementación Independiente de Plataforma: El diseño del algoritmo es simple, no requiere soporte de hardware especial y puede implementarse en diversas plataformas computacionales

Configuración Experimental

Conjuntos de Datos

  • Conjunto de Datos LibriSpeech: Utiliza subconjuntos dev-clean, dev-other, test-clean y test-other para evaluación
  • Modelo de Lenguaje: Modelo KenLM 4-gram construido basado en el conjunto de entrenamiento
  • Codificador: Modelo wav2vec2-large preentrenado en datos de LibriSpeech y LibriVox, ajustado finamente en 960 horas de datos LibriSpeech

Métricas de Evaluación

  • Word Error Rate (WER): Mide la precisión de reconocimiento
  • Tiempo de Decodificación: Mide la eficiencia computacional
  • Uso de Memoria: Se mide indirectamente a través de la cantidad de beams

Métodos de Comparación

  1. Configuración Base: Decodificador CTC estándar utilizando los 32 tokens completos
  2. Poda Top-N: Método de poda top-N estática
  3. FLToP CTC: Método de poda dinámica propuesto

Detalles de Implementación

  • Vocabulario: 32 tokens (26 letras + apóstrofo + espacio + tokens especiales)
  • Parámetros de Beam: beam-size=1000, beam-threshold=25
  • Pesos del Modelo de Lenguaje: lm-weight=1.0, word-score=0.95, sil-score=0.0
  • Herramientas: Utiliza flashlight-text, fairseq y KenLM para experimentos

Resultados Experimentales

Resultados Principales

Análisis Estadístico de Selección de Tokens

Mediante estadísticas de índices de selección de tokens en todas las muestras de prueba:

  • En el 99.9823% de los casos el algoritmo selecciona los 4 primeros tokens, apoyando la configuración N=4
  • El índice 0 (token de mayor probabilidad) se selecciona 1,123,792 veces, muy por encima de otros índices
  • Las puntuaciones de emisión promedio muestran una ventaja significativa de los primeros tokens

Experimento de Umbral Top-N (N=1...32)

  • N=4 logra el mejor equilibrio: WER=3.852, superior al baseline de 3.864
  • El tiempo de decodificación crece linealmente: baseline (N=32) es 3.94× más lento que la configuración N=4
  • N>4 proporciona mejora de WER insignificante, validando la razonabilidad de N=4

Experimento de Umbral Relativo (N=4, Variación de R)

Hallazgos clave:

  • R=0.007 logra eficiencia óptima: WER=3.843, tiempo de decodificación 369.6 segundos
  • Aceleración de 2.78× comparado con método Top-4, aceleración de 10.5× comparado con baseline
  • R=0.001 logra mejor WER: 3.831, ligeramente más lento que R=0.007 pero aún más rápido que Top-4
  • Rango de WER: WER se mantiene entre 3.831-4.301 en diferentes valores de R

Análisis de Eficiencia de Memoria

FLToP CTC muestra un desempeño excelente en el control de cantidad de beams:

  • Cantidad promedio de beams: 214.4 (FLToP CTC) vs 596.26 (baseline) vs 461.99 (Top-N)
  • Reducción de memoria: 2.78× menos que baseline, 2.15× menos que Top-N
  • Características de distribución: Media, mediana y cuartiles significativamente inferiores a métodos de comparación

Experimentos de Ablación

  1. Impacto del valor N: Mejora significativa de rendimiento de N=1 a N=4, beneficios decrecientes para N>4
  2. Impacto del valor R: R en el rango 0.001-0.007 proporciona el mejor equilibrio de rendimiento
  3. Efecto combinado: La combinación de N=4 y R=0.007 logra el equilibrio óptimo entre eficiencia y precisión

Trabajo Relacionado

Optimización de Decodificación CTC

  • Métodos de poda estática: KenLM, Flashlight y otros emplean estrategias top-N fijas
  • Optimización específica de hardware: Soluciones de aceleración GPU, pero carecen de universalidad
  • Compresión de modelos: Reduce cálculo mediante compresión de modelos, pero puede afectar la precisión

Optimización de RNN-T

  • Diferencias de arquitectura: Los métodos de optimización de RNN-T no pueden aplicarse directamente a CTC debido a diferencias arquitectónicas
  • Estrategias de poda: Proporcionan algunas ideas de poda pero requieren rediseño para características específicas de CTC

Herramientas ASR Tradicionales

  • Métodos HMM/Viterbi: Kaldi, HARPY y otros utilizan poda dependiente del estado
  • Diferencias de granularidad: Los métodos tradicionales operan en granularidad más alta, mientras que FLToP CTC opera a nivel de marco

Conclusiones y Discusión

Conclusiones Principales

  1. Mejora Significativa de Eficiencia: FLToP CTC logra aceleración de tiempo de ejecución de 10.5× y reducción de memoria de 2.78×
  2. Mantenimiento de Precisión: Mantiene e incluso mejora ligeramente el rendimiento de WER mientras mejora significativamente la eficiencia
  3. Aplicabilidad Universal: El algoritmo es simple y universal, permitiendo implementación multiplataforma
  4. Diseño Impulsado por Estadísticas: Los parámetros del algoritmo se diseñan basándose en análisis estadístico profundo

Limitaciones

  1. Dependencia del Tamaño del Vocabulario: Validado en vocabulario pequeño (32 tokens), el efecto en vocabularios grandes requiere verificación adicional
  2. Especificidad del Idioma: Principalmente probado en conjuntos de datos en inglés, la adaptabilidad multilingüe requiere verificación
  3. Dependencia del Modelo: Basado principalmente en el modelo wav2vec2, la adaptabilidad a otros modelos CTC requiere verificación
  4. Ajuste de Parámetros: Los parámetros R y N pueden requerir ajuste para diferentes escenarios de aplicación

Direcciones Futuras

  1. Ajuste de Parámetros Adaptativo: Desarrollar métodos que ajusten dinámicamente el valor de R según características de entrada
  2. Extensión a Vocabularios Grandes: Validar la efectividad del algoritmo en escenarios de vocabularios más grandes y multilingües
  3. Optimización End-to-End: Combinar con el proceso de entrenamiento del modelo para optimizar la eficiencia de decodificación
  4. Optimización Específica de Hardware: Optimización adicional de implementación para plataformas de hardware específicas

Evaluación Profunda

Fortalezas

  1. Alto Valor Práctico: Aborda cuellos de botella reales en decodificación CTC con valor de aplicación directo
  2. Método Simple y Efectivo: El diseño del algoritmo es simple pero los resultados son significativos, fácil de entender e implementar
  3. Experimentos Completos: El diseño experimental es sistemático y exhaustivo, desde análisis estadístico hasta evaluación de rendimiento
  4. Fuerte Universalidad: El diseño independiente de plataforma proporciona amplia aplicabilidad
  5. Mejora de Rendimiento Significativa: La aceleración de 10.5× y la reducción de memoria de 2.78× son impresionantes

Deficiencias

  1. Rango de Evaluación Limitado: Evaluado solo en el conjunto de datos LibriSpeech y modelo específico, carece de validación más amplia
  2. Análisis Teórico Insuficiente: Carece de análisis de convergencia del algoritmo y garantías teóricas
  3. Sensibilidad de Parámetros: La selección de parámetros R y N puede requerir ajuste para diferentes escenarios
  4. Comparación de Referencia Única: Principalmente comparado con decodificador CTC estándar, carece de comparación con otros métodos de optimización

Impacto

  1. Contribución Técnica: Proporciona nuevas ideas y métodos prácticos para optimización de decodificación CTC
  2. Valor Práctico: Tiene importancia significativa para implementación de ASR en entornos con recursos limitados
  3. Reproducibilidad: La descripción del algoritmo es clara, la implementación es relativamente simple, con buena reproducibilidad
  4. Potencial de Promoción: La fuerte universalidad del método promete amplia aplicación en la industria

Escenarios Aplicables

  1. Entornos con Recursos Limitados: Dispositivos móviles, computación de borde y otros escenarios con recursos computacionales limitados
  2. Aplicaciones en Tiempo Real: Aplicaciones de reconocimiento de voz en tiempo real sensibles a la latencia
  3. Implementación a Gran Escala: Escenarios que requieren procesar grandes cantidades de solicitudes de voz en servicios en la nube
  4. Sistemas Embebidos: Dispositivos IoT y otras aplicaciones con restricciones estrictas de potencia y memoria

Referencias

El artículo cita 32 referencias relacionadas, incluyendo principalmente:

  • Literatura de teoría fundamental de CTC: Graves et al. (2006), Bourlard & Morgan (1994)
  • Modelos modernos de ASR: wav2vec 2.0, WavLM
  • Herramientas de optimización de decodificación: KenLM, Flashlight
  • Conjuntos de datos: LibriSpeech, LibriVox
  • Métodos de optimización relacionados: Trabajo importante en compresión de modelos, aceleración de hardware y otros campos

Evaluación General: Este es un artículo técnico de alto valor práctico que propone el algoritmo FLToP CTC simple pero efectivo, logrando progreso significativo en optimización de decodificación CTC. Aunque hay espacio para mejora en el rango de evaluación y análisis teórico, su valor práctico y universalidad lo convierten en una contribución valiosa al campo de ASR.