FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic
FLToP CTC: Кадровое прореживание токенов через относительный порог для эффективного и экономного по памяти декодирования на разнородных платформах
Системы автоматического распознавания речи (ASR) на основе CTC сталкиваются с вычислительными и памятными узкими местами в среде с ограниченными ресурсами. Традиционные декодеры CTC, требующие до 90% времени обработки в системах (например, wav2vec2-large на GPU L4), сталкиваются с неэффективностью из-за исчерпывающих операций на уровне токенов. В данной работе представлен Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC) — новый алгоритм декодирования, использующий прореживание токенов на уровне кадра, управляемое относительным пороговым значением вероятности. Путём динамического исключения маловероятных токенов на каждом кадре FLToP CTC снижает вычислительные и памятные требования при сохранении незначительного ухудшения WER. На LibriSpeech FLToP CTC достигает ускорения выполнения в 10,5× и сокращения памяти в 2,78× по сравнению со стандартными декодерами CTC. Его простота обеспечивает беспрепятственную интеграцию в декодеры CTC на различных платформах (CPU, GPU и т.д.). FLToP CTC устраняет узкие места CTC, обеспечивая масштабируемость для сред с ограниченными ресурсами и приложений реального времени, повышая доступность и эффективность распознавания речи.
Данное исследование решает проблему вычислительных и памятных узких мест, с которыми сталкиваются системы ASR на основе CTC в среде с ограниченными ресурсами. Традиционные декодеры CTC требуют исчерпывающей обработки всех возможных токенов на каждом временном шаге, что приводит к серьёзным проблемам эффективности.
Вычислительные узкие места: В системах с GPU L4 и кодировщиком wav2vec2-large процесс декодирования CTC может занимать до 90% времени обработки
Ограничения памяти: Традиционные декодеры CTC потребляют огромное количество памяти в моделях с большим словарём
Требования приложений реального времени: Распознавание речи в реальном времени и развёртывание на устройствах с низкими ресурсами предъявляют строгие требования к эффективности декодирования
Разработать универсальный, независимый от платформы алгоритм оптимизации декодирования CTC, который посредством динамического прореживания токенов на уровне кадра значительно повышает эффективность декодирования при сохранении точности распознавания.
Предложение алгоритма FLToP CTC: Динамический алгоритм прореживания токенов на уровне кадра на основе относительного порогового значения вероятности
Независимый от платформы дизайн: Простой и универсальный алгоритм, который может быть беспрепятственно интегрирован в декодеры CTC на различных платформах (CPU, GPU и т.д.)
Значительное повышение производительности: Достижение ускорения выполнения в 10,5× и сокращения памяти в 2,78× на наборе данных LibriSpeech
Анализ статистического поведения: Предоставление углубленного исследования статистического поведения декодеров CTC, обеспечивающего теоретическую поддержку для разработки алгоритма
Входные данные: Последовательность логитов, выводимых моделью CTC [T×V], где T — количество временных шагов, V — размер словаря
Выходные данные: Оптимальная текстовая последовательность
Ограничения: Минимизация вычислительных и памятных затрат при сохранении производительности WER
Динамическое адаптивное прореживание: По сравнению со статическими методами top-N, способен динамически регулировать количество сохраняемых токенов в зависимости от распределения вероятностей каждого кадра
Дизайн относительного порога: Использование пропорционального порога относительно максимальной оценки вместо абсолютного порога повышает адаптивность к различным сценариям
Механизм условного завершения: Механизм раннего выхода (early break) избегает ненужной оценки токенов, дополнительно повышая эффективность
Независимая от платформы реализация: Простой дизайн алгоритма не требует специальной аппаратной поддержки и может быть развёрнут на различных вычислительных платформах
Зависимость от размера словаря: Проверено на небольшом словаре (32 токена), эффективность на больших словарях требует дальнейшей проверки
Недостаточный анализ на других языках: Тестирование в основном проводилось на английском наборе данных, адаптивность к многоязычным сценариям требует проверки
Зависимость от модели: Тестирование в основном проводилось на модели wav2vec2, адаптивность к другим моделям CTC требует проверки
Настройка параметров: Параметры R и N могут требовать настройки для различных сценариев применения
Связанные методы оптимизации: работы в области сжатия моделей и аппаратного ускорения
Общая оценка: Это практически ценная техническая статья, предлагающая простой и эффективный алгоритм FLToP CTC, достигший значительного прогресса в оптимизации декодирования CTC. Хотя есть место для улучшения в диапазоне оценки и теоретическом анализе, её практическая ценность и универсальность делают её значительным вкладом в область распознавания речи.