2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.

academic

FLToP CTC: Кадровое прореживание токенов через относительный порог для эффективного и экономного по памяти декодирования на разнородных платформах

Основная информация

ID статьи: 2510.09085
Название: FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Авторы: Atul Shree, Harshith Jupuru
Классификация: cs.LG cs.SD eess.AS
Дата публикации: 10 октября 2025 г. (отправка на arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09085

Аннотация

Системы автоматического распознавания речи (ASR) на основе CTC сталкиваются с вычислительными и памятными узкими местами в среде с ограниченными ресурсами. Традиционные декодеры CTC, требующие до 90% времени обработки в системах (например, wav2vec2-large на GPU L4), сталкиваются с неэффективностью из-за исчерпывающих операций на уровне токенов. В данной работе представлен Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC) — новый алгоритм декодирования, использующий прореживание токенов на уровне кадра, управляемое относительным пороговым значением вероятности. Путём динамического исключения маловероятных токенов на каждом кадре FLToP CTC снижает вычислительные и памятные требования при сохранении незначительного ухудшения WER. На LibriSpeech FLToP CTC достигает ускорения выполнения в 10,5× и сокращения памяти в 2,78× по сравнению со стандартными декодерами CTC. Его простота обеспечивает беспрепятственную интеграцию в декодеры CTC на различных платформах (CPU, GPU и т.д.). FLToP CTC устраняет узкие места CTC, обеспечивая масштабируемость для сред с ограниченными ресурсами и приложений реального времени, повышая доступность и эффективность распознавания речи.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает проблему вычислительных и памятных узких мест, с которыми сталкиваются системы ASR на основе CTC в среде с ограниченными ресурсами. Традиционные декодеры CTC требуют исчерпывающей обработки всех возможных токенов на каждом временном шаге, что приводит к серьёзным проблемам эффективности.

Значимость проблемы

Вычислительные узкие места: В системах с GPU L4 и кодировщиком wav2vec2-large процесс декодирования CTC может занимать до 90% времени обработки
Ограничения памяти: Традиционные декодеры CTC потребляют огромное количество памяти в моделях с большим словарём
Требования приложений реального времени: Распознавание речи в реальном времени и развёртывание на устройствах с низкими ресурсами предъявляют строгие требования к эффективности декодирования

Ограничения существующих методов

Статические стратегии прореживания: Статическое прореживание top-N, используемое в KenLM и Flashlight, не обладает адаптивностью на уровне кадра
Специфичность платформы: Ускорение, специфичное для GPU, игнорирует сценарии CPU и устройств с ограниченными ресурсами
Зависимость от архитектуры: Методы оптимизации для моделей RNN-T не могут быть напрямую перенесены на архитектуру CTC

Исследовательская мотивация

Разработать универсальный, независимый от платформы алгоритм оптимизации декодирования CTC, который посредством динамического прореживания токенов на уровне кадра значительно повышает эффективность декодирования при сохранении точности распознавания.

Основные вклады

Предложение алгоритма FLToP CTC: Динамический алгоритм прореживания токенов на уровне кадра на основе относительного порогового значения вероятности
Независимый от платформы дизайн: Простой и универсальный алгоритм, который может быть беспрепятственно интегрирован в декодеры CTC на различных платформах (CPU, GPU и т.д.)
Значительное повышение производительности: Достижение ускорения выполнения в 10,5× и сокращения памяти в 2,78× на наборе данных LibriSpeech
Анализ статистического поведения: Предоставление углубленного исследования статистического поведения декодеров CTC, обеспечивающего теоретическую поддержку для разработки алгоритма

Подробное описание метода

Определение задачи

Входные данные: Последовательность логитов, выводимых моделью CTC [T×V], где T — количество временных шагов, V — размер словаря Выходные данные: Оптимальная текстовая последовательность Ограничения: Минимизация вычислительных и памятных затрат при сохранении производительности WER

Архитектура модели

Ядро алгоритма FLToP CTC

Алгоритм использует двухэтапную стратегию прореживания:

Выбор Top-N: Выбор N токенов с наивысшей вероятностью для текущего кадра
Прореживание с относительным порогом: Сохранение только токенов с оценкой выше R × максимальная оценка, где R — параметр относительного порога

Процедура алгоритма

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # Инициализация луча
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # Максимальная оценка
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # Прореживание с относительным порогом
                    break
                # Расширение гипотезы
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

Технические инновации

Динамическое адаптивное прореживание: По сравнению со статическими методами top-N, способен динамически регулировать количество сохраняемых токенов в зависимости от распределения вероятностей каждого кадра
Дизайн относительного порога: Использование пропорционального порога относительно максимальной оценки вместо абсолютного порога повышает адаптивность к различным сценариям
Механизм условного завершения: Механизм раннего выхода (early break) избегает ненужной оценки токенов, дополнительно повышая эффективность
Независимая от платформы реализация: Простой дизайн алгоритма не требует специальной аппаратной поддержки и может быть развёрнут на различных вычислительных платформах

Экспериментальная установка

Наборы данных

Набор данных LibriSpeech: Использование подмножеств dev-clean, dev-other, test-clean, test-other для оценки
Языковая модель: 4-граммная модель KenLM, построенная на основе обучающего набора
Кодировщик: Модель wav2vec2-large, предварительно обученная на данных LibriSpeech и LibriVox и настроенная на 960 часов данных LibriSpeech

Метрики оценки

Word Error Rate (WER): Измерение точности распознавания
Время декодирования: Измерение вычислительной эффективности
Использование памяти: Косвенное измерение через количество лучей

Методы сравнения

Базовая конфигурация: Стандартный декодер CTC, использующий все 32 токена
Прореживание Top-N: Метод статического прореживания top-N
FLToP CTC: Предложенный метод динамического прореживания

Детали реализации

Словарь: 32 токена (26 букв + апостроф + пробел + специальные токены)
Параметры луча: beam-size=1000, beam-threshold=25
Веса языковой модели: lm-weight=1.0, word-score=0.95, sil-score=0.0
Инструменты: Использование flashlight-text, fairseq и KenLM для экспериментов

Экспериментальные результаты

Основные результаты

Статистический анализ выбора токенов

Статистический анализ индексов выбора токенов для всех тестовых образцов показал:

В 99,9823% случаев алгоритм выбирает первые 4 токена, что подтверждает установку N=4
Индекс 0 (токен с наивысшей вероятностью) был выбран 1 123 792 раза, что значительно превышает другие индексы
Средние оценки излучения показывают значительное преимущество первых нескольких токенов

Эксперименты с порогом Top-N (N=1...32)

N=4 достигает оптимального баланса: WER=3.852, превосходя базовый показатель 3.864
Время декодирования растёт линейно: Базовый показатель (N=32) в 3,94× медленнее конфигурации N=4
При N>4 улучшение WER незначительно, что подтверждает обоснованность N=4

Эксперименты с относительным порогом (N=4, изменение R)

Ключевые находки:

R=0.007 обеспечивает оптимальную эффективность: WER=3.843, время декодирования 369,6 секунд
Ускорение в 2,78× по сравнению с методом Top-4, ускорение в 10,5× по сравнению с базовым показателем
R=0.001 обеспечивает лучший WER: 3.831, немного медленнее, чем R=0.007, но всё ещё быстрее Top-4
Диапазон WER: WER остаётся в диапазоне 3.831-4.301 при различных значениях R

Анализ эффективности памяти

FLToP CTC демонстрирует отличные результаты в управлении количеством лучей:

Среднее количество лучей: 214,4 (FLToP CTC) против 596,26 (базовый) против 461,99 (Top-N)
Сокращение памяти: Сокращение в 2,78× по сравнению с базовым показателем, сокращение в 2,15× по сравнению с Top-N
Характеристики распределения: Среднее значение, медиана и квартили значительно ниже, чем у методов сравнения

Абляционные исследования

Влияние значения N: Значительное улучшение производительности от N=1 к N=4, убывающая отдача при N>4
Влияние значения R: R в диапазоне 0.001-0.007 обеспечивает оптимальный баланс эффективности и точности
Комбинированный эффект: Комбинация N=4 и R=0.007 достигает оптимального компромисса между эффективностью и точностью

Связанные работы

Оптимизация декодирования CTC

Методы статического прореживания: KenLM, Flashlight и другие используют фиксированную стратегию top-N
Оптимизация, специфичная для оборудования: Ускорение на GPU, но отсутствует универсальность
Сжатие модели: Снижение вычислений посредством сжатия модели, но может повлиять на точность

Оптимизация RNN-T

Различия архитектуры: Методы оптимизации RNN-T не могут быть напрямую применены к CTC из-за архитектурных различий
Стратегии прореживания: Предоставляют некоторые идеи прореживания, но требуют переработки с учётом особенностей CTC

Традиционные инструменты ASR

Методы HMM/Viterbi: Kaldi, HARPY и другие используют прореживание, зависящее от состояния
Различия в гранулярности: Традиционные методы работают на более высокой гранулярности, тогда как FLToP CTC работает на уровне кадра

Заключение и обсуждение

Основные выводы

Значительное повышение эффективности: FLToP CTC достигает ускорения выполнения в 10,5× и сокращения памяти в 2,78×
Сохранение точности: Сохранение или даже незначительное улучшение производительности WER при значительном повышении эффективности
Универсальная применимость: Простой и универсальный алгоритм, который может быть развёрнут на различных платформах
Дизайн, управляемый статистикой: Параметры алгоритма разработаны на основе углубленного статистического анализа

Ограничения

Зависимость от размера словаря: Проверено на небольшом словаре (32 токена), эффективность на больших словарях требует дальнейшей проверки
Недостаточный анализ на других языках: Тестирование в основном проводилось на английском наборе данных, адаптивность к многоязычным сценариям требует проверки
Зависимость от модели: Тестирование в основном проводилось на модели wav2vec2, адаптивность к другим моделям CTC требует проверки
Настройка параметров: Параметры R и N могут требовать настройки для различных сценариев применения

Будущие направления

Адаптивная регулировка параметров: Разработка методов динамической регулировки значения R на основе характеристик входных данных
Расширение на большие словари: Проверка эффективности алгоритма на больших словарях и многоязычных сценариях
Сквозная оптимизация: Объединение с процессом обучения модели для оптимизации эффективности декодирования
Оптимизация для конкретного оборудования: Дальнейшая оптимизация реализации для конкретных аппаратных платформ

Глубокая оценка

Преимущества

Высокая практическая ценность: Решение реальных узких мест в декодировании CTC с прямым практическим применением
Простой и эффективный метод: Простой дизайн алгоритма с значительными результатами, легко понять и реализовать
Полные эксперименты: Систематический и комплексный дизайн экспериментов от статистического анализа до оценки производительности
Сильная универсальность: Независимый от платформы дизайн обеспечивает широкую применимость
Значительное повышение производительности: Впечатляющие ускорение в 10,5× и сокращение памяти в 2,78×

Недостатки

Ограниченный диапазон оценки: Оценка только на наборе данных LibriSpeech и конкретной модели, отсутствует более широкая проверка
Недостаточный теоретический анализ: Отсутствует анализ сходимости алгоритма и теоретические гарантии
Чувствительность параметров: Выбор параметров R и N может требовать настройки для различных сценариев
Единственный базовый метод сравнения: Сравнение в основном со стандартным декодером CTC, отсутствует сравнение с другими методами оптимизации

Влияние

Технический вклад: Предоставление новых идей и практических методов для оптимизации декодирования CTC
Практическая ценность: Значительное значение для развёртывания ASR в среде с ограниченными ресурсами
Воспроизводимость: Ясное описание алгоритма и относительно простая реализация обеспечивают хорошую воспроизводимость
Потенциал распространения: Сильная универсальность метода обещает широкое применение в промышленности

Применимые сценарии

Среда с ограниченными ресурсами: Мобильные устройства, граничные вычисления и другие сценарии с ограниченными вычислительными ресурсами
Приложения реального времени: Приложения распознавания речи в реальном времени, чувствительные к задержкам
Крупномасштабное развёртывание: Облачные сценарии обслуживания, требующие обработки большого количества запросов на распознавание речи
Встроенные системы: Устройства IoT и другие приложения с жёсткими ограничениями на энергопотребление и память

Библиография

Статья цитирует 32 соответствующих источника, включая:

Фундаментальные работы по теории CTC: Graves et al. (2006), Bourlard & Morgan (1994)
Современные модели ASR: wav2vec 2.0, WavLM
Инструменты оптимизации декодирования: KenLM, Flashlight
Наборы данных: LibriSpeech, LibriVox
Связанные методы оптимизации: работы в области сжатия моделей и аппаратного ускорения

Общая оценка: Это практически ценная техническая статья, предлагающая простой и эффективный алгоритм FLToP CTC, достигший значительного прогресса в оптимизации декодирования CTC. Хотя есть место для улучшения в диапазоне оценки и теоретическом анализе, её практическая ценность и универсальность делают её значительным вкладом в область распознавания речи.