CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
論文ID : 2510.09085タイトル : FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms著者 : Atul Shree, Harshith Jupuru分類 : cs.LG cs.SD eess.AS発表日時 : 2025年10月10日 (arXiv投稿)論文リンク : https://arxiv.org/abs/2510.09085 CTC ベースの自動音声認識(ASR)システムは、リソース制限環境における計算およびメモリのボトルネックに直面している。従来の CTC デコーダは、システム(例えば L4 GPU 上の wav2vec2-large)における処理時間の最大 90% を必要とし、トークンレベルの徹底的な操作により非効率性に直面している。本論文では、接続主義時間分類(CTC)のためのフレームレベルトークン剪枝(FLToP CTC)という新規デコーディングアルゴリズムを提案する。相対閾値確率によって導かれるフレームレベルトークン剪枝を採用することで、FLToP CTC は計算およびメモリ要求を削減しながら、無視できる WER 劣化を維持する。LibriSpeech では、FLToP CTC は標準 CTC デコーダと比較して 10.5 倍の実行時間高速化と 2.78 倍のメモリ削減を達成する。その単純性により、CPU や GPU などのプラットフォーム全体の CTC デコーダへのシームレスな統合が可能である。FLToP CTC は CTC のボトルネックに対処し、リソース制限環境およびリアルタイムアプリケーションのスケーラビリティを提供し、音声認識のアクセシビリティと効率を向上させる。
本研究は、CTC ベースの自動音声認識(ASR)システムがリソース制限環境で直面する計算およびメモリのボトルネック問題に対処することを目的としている。従来の CTC デコーダは、各時間ステップにおいてすべての可能なトークンに対して徹底的な処理を行う必要があり、深刻な効率問題をもたらしている。
計算リソースのボトルネック :L4 GPU と wav2vec2-large エンコーダを備えたシステムでは、CTC デコーディングプロセスが処理時間の最大 90% を占める可能性があるメモリ制限 :従来の CTC デコーダは大語彙モデルにおいて膨大なメモリ消費を示すリアルタイムアプリケーション要件 :リアルタイム音声認識および低リソースデバイスへのデプロイメントは、デコーディング効率に厳格な要件を課す静的剪枝戦略 :KenLM および Flashlight が採用する静的 top-N 剪枝は、フレームレベルの適応性を欠くプラットフォーム特異性 :GPU 特定の加速方案は CPU およびリソース制限デバイスのシナリオを無視しているアーキテクチャ依存性 :RNN-T モデルに対する最適化手法は CTC アーキテクチャに直接転用できない認識精度を維持しながら、動的フレームレベルトークン剪枝を通じてデコーディング効率を大幅に向上させる、汎用的でプラットフォーム非依存の CTC デコーディング最適化アルゴリズムを開発する。
FLToP CTC アルゴリズムの提案 :相対閾値確率に基づく動的フレームレベルトークン剪枝デコーディングアルゴリズムプラットフォーム非依存設計 :アルゴリズムは単純で汎用的であり、CPU や GPU などの各種プラットフォームの CTC デコーダへのシームレスな統合が可能顕著なパフォーマンス向上 :LibriSpeech データセットで 10.5 倍の実行時間高速化と 2.78 倍のメモリ削減を達成統計的動作分析 :CTC デコーダの統計的動作に関する深い研究を提供し、アルゴリズム設計に理論的支援を提供入力 :CTC モデル出力のロジット列 [T×V]、ここで T は時間ステップ数、V は語彙表サイズ
出力 :最適なテキスト列
制約 :WER パフォーマンスを維持しながら計算およびメモリオーバーヘッドを最小化
アルゴリズムは 2 段階の剪枝戦略を採用する:
Top-N 選択 :現在のフレームに対して最高確率の上位 N 個のトークンを選択相対閾値剪枝 :R × 最高スコア より高いスコアを持つトークンのみを保持、ここで R は相対閾値パラメータprocedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
B ← {(ε, 0)} # ビームの初期化
for t in 0...T:
B' ← {}
logits_idx_sorted ← PartialSortDesc(logits[t], N)
logit_t0 ← logits[t][logits_idx_sorted[0]] # 最高スコア
for (prefix, score) in B:
for i in 0...N:
logit_ti ← logits[t][logits_idx_sorted[i]]
if logit_ti ≤ logit_t0 × R: # 相対閾値剪枝
break
# 仮説を拡張
token ← IdToToken(logits_idx_sorted[i])
prefix' ← prefix + token
score' ← score + logit_ti + LM(prefix')
B'.add((prefix', score'))
B ← SelectTopK(B', beam_size, beam_threshold)
return GetHighestScorePrefix(B)
動的適応的剪枝 :静的 top-N 手法と比較して、各フレームの確率分布に応じて保持するトークン数を動的に調整できる相対閾値設計 :絶対閾値ではなく最高スコアに対する相対的な比例閾値を使用し、異なるシナリオ間での適応性を向上させる条件付き終了メカニズム :早期ブレークメカニズムを通じて不要なトークン評価を回避し、効率をさらに向上させるプラットフォーム非依存実装 :アルゴリズム設計は単純であり、特殊なハードウェアサポートを必要とせず、様々な計算プラットフォームにデプロイ可能LibriSpeech データセット :dev-clean、dev-other、test-clean、test-other サブセットを使用して評価言語モデル :訓練セットに基づいて構築された 4-gram KenLM 言語モデルエンコーダ :wav2vec2-large モデル、LibriSpeech および LibriVox データで事前学習され、960 時間の LibriSpeech データで微調整単語誤り率(WER) :認識精度を測定デコーディング時間 :計算効率を測定メモリ使用量 :ビーム数を通じて間接的に測定ベースライン設定 :標準 CTC デコーダ、全 32 個のトークンを使用Top-N 剪枝 :静的 top-N 剪枝手法FLToP CTC :提案された動的剪枝手法語彙表 :32 個のトークン(26 文字 + アポストロフィ + スペース + 特殊トークン)ビームパラメータ :beam-size=1000、beam-threshold=25言語モデル重み :lm-weight=1.0、word-score=0.95、sil-score=0.0ツール :flashlight-text、fairseq、KenLM を使用して実験を実施すべてのテストサンプルのトークン選択インデックスの統計分析により以下が判明:
99.9823% のケースでアルゴリズムが上位 4 個のトークンを選択 、N=4 の設定をサポートインデックス 0(最高確率トークン)は 1,123,792 回選択され、他のインデックスを大幅に上回る 平均エミッション スコアは上位数個のトークンが顕著な優位性を持つことを示す N=4 で最適なバランスを達成 :WER=3.852、ベースラインの 3.864 を上回るデコーディング時間は線形に増加 :ベースライン(N=32)は N=4 設定より 3.94 倍遅いN>4 での WER 改善はわずか 、N=4 の合理性を証明主要な発見:
R=0.007 で最適効率を達成 :WER=3.843、デコーディング時間 369.6 秒Top-4 手法と比較して 2.78 倍高速化 、ベースラインと比較して 10.5 倍高速化R=0.001 で最良の WER :3.831、R=0.007 より若干遅いが依然として Top-4 より高速WER 範囲 :異なる R 値で WER は 3.831~4.301 の範囲内に保持FLToP CTC はビーム数制御の面で優れたパフォーマンスを示す:
平均ビーム数 :214.4(FLToP CTC) vs 596.26(ベースライン) vs 461.99(Top-N)メモリ削減 :ベースラインと比較して 2.78 倍削減、Top-N と比較して 2.15 倍削減分布特性 :平均値、中央値、四分位数はすべて比較手法を大幅に下回るN 値の影響 :N=1 から N=4 でパフォーマンスが大幅に向上、N>4 では利益が逓減R 値の影響 :R が 0.001~0.007 の範囲で最適なパフォーマンスバランスを提供組み合わせ効果 :N=4 と R=0.007 の組み合わせが最適な効率-精度トレードオフを実現静的剪枝手法 :KenLM、Flashlight などが固定 top-N 戦略を採用ハードウェア特定の最適化 :GPU 加速方案だが汎用性に欠けるモデル圧縮 :モデル圧縮を通じた計算削減だが精度に影響する可能性アーキテクチャの相違 :RNN-T の最適化手法はアーキテクチャの相違により CTC に直接適用できない剪枝戦略 :いくつかの剪枝アイデアを提供するが CTC の特性に応じた再設計が必要HMM/Viterbi 手法 :Kaldi、HARPY などが状態依存剪枝を使用粒度の相違 :従来の手法はより高い粒度で動作し、FLToP CTC はフレームレベルで動作顕著な効率向上 :FLToP CTC は 10.5 倍の実行時間高速化と 2.78 倍のメモリ削減を実現精度の維持 :効率を大幅に向上させながら WER パフォーマンスを維持、さらに若干改善汎用適用性 :アルゴリズムは単純で汎用的であり、プラットフォーム間でデプロイ可能統計駆動設計 :深い統計分析に基づくアルゴリズムパラメータ設計語彙表規模への依存 :より小さい語彙表(32 トークン)で検証、大語彙表での効果は今後の検証が必要言語特異性 :主に英語データセットでテスト、多言語適応性は検証が必要モデル依存性 :主に wav2vec2 モデルに基づき、他の CTC モデルの適応性は検証が必要パラメータ調整 :R および N パラメータは異なるアプリケーションシナリオに応じた調整が必要な可能性適応的パラメータ調整 :入力特性に応じて R 値を動的に調整する手法の開発大語彙表への拡張 :より大きい語彙表および多言語シナリオでのアルゴリズム効果の検証エンドツーエンド最適化 :モデル訓練プロセスと組み合わせたデコーディング効率の最適化ハードウェア特定の最適化 :特定のハードウェアプラットフォーム向けのさらなる最適化実装実用価値が高い :CTC デコーディングの実際のボトルネック問題を解決し、直接的な応用価値を持つ手法が簡潔で効果的 :アルゴリズム設計は単純だが効果は顕著で、理解と実装が容易実験が充分 :統計分析からパフォーマンス評価まで、実験設計は体系的で包括的汎用性が強い :プラットフォーム非依存の設計により広範な適用性を持つパフォーマンス向上が顕著 :10.5 倍の加速比と 2.78 倍のメモリ削減は印象的評価範囲が限定的 :LibriSpeech データセットと特定モデルでのみ評価、より広範な検証が不足理論分析が不足 :アルゴリズムの収束性と理論的保証に関する分析が不足パラメータ感度 :R および N パラメータの選択は異なるシナリオに応じた調整が必要な可能性比較基準が単一 :主に標準 CTC デコーダとの比較で、他の最適化手法との比較が不足技術的貢献 :CTC デコーディング最適化に新しい思考と実用的手法を提供実用価値 :リソース制限環境での ASR デプロイメントに重要な意義を持つ再現性 :アルゴリズム記述が明確で実装が比較的単純、良好な再現性を持つ推進可能性 :手法の汎用性が強く、産業界での広範な応用が期待できるリソース制限環境 :モバイルデバイス、エッジコンピューティングなど計算リソースが限定されたシナリオリアルタイムアプリケーション :遅延に敏感なリアルタイム音声認識アプリケーション大規模デプロイメント :大量の音声リクエストを処理する必要があるクラウドサービスシナリオ組み込みシステム :IoT デバイスなど電力とメモリに厳格な制限がある応用論文は 32 篇の関連文献を引用しており、主に以下を含む:
CTC 基礎理論文献:Graves et al. (2006)、Bourlard & Morgan (1994) 最新 ASR モデル:wav2vec 2.0、WavLM デコーディング最適化ツール:KenLM、Flashlight データセット:LibriSpeech、LibriVox 関連最適化手法:モデル圧縮、ハードウェア加速などの領域における重要な研究 総合評価 :これは実用性が非常に高い技術論文であり、提案された FLToP CTC アルゴリズムは単純で効果的であり、CTC デコーディング最適化において顕著な進展を遂行している。評価範囲と理論分析の面でさらなる改善の余地があるものの、その実用価値と汎用性により、ASR 領域における価値のある貢献となっている。