FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic
FLToP CTC: قص الرموز على مستوى الإطار عبر عتبة نسبية لفك تشفير فعال وموفر للذاكرة على منصات متنوعة
تواجه أنظمة التعرف على الكلام المبنية على CTC اختناقات حسابية وذاكرة في البيئات محدودة الموارد. فك التشفير التقليدي لـ CTC، الذي يتطلب ما يصل إلى 90% من وقت المعالجة في الأنظمة (على سبيل المثال، wav2vec2-large على وحدات معالجة الرسومات L4)، يواجه عدم كفاءة بسبب العمليات الشاملة على مستوى الرموز. تقدم هذه الورقة قص الرموز على مستوى الإطار للتصنيف الزمني الاتصالي (FLToP CTC)، وهي خوارزمية فك تشفير جديدة تستخدم قص الرموز على مستوى الإطار موجهة بعتبة احتمالية نسبية. من خلال القضاء الديناميكي على الرموز منخفضة الاحتمالية لكل إطار، يقلل FLToP CTC متطلبات الحساب والذاكرة مع الحفاظ على تدهور معدل الخطأ في الكلمات (WER) ضئيل. على LibriSpeech، يحقق FLToP CTC تسريعاً بمعامل 10.5× وتقليلاً في الذاكرة بمعامل 2.78× مقابل فك التشفير القياسي لـ CTC. تتيح بساطته التكامل السلس في فك التشفير CTC عبر المنصات (وحدات المعالجة المركزية، وحدات معالجة الرسومات، إلخ). يعالج FLToP CTC اختناقات CTC، مما يوفر قابلية التوسع للبيئات محدودة الموارد والتطبيقات في الوقت الفعلي، مما يعزز إمكانية الوصول والكفاءة في التعرف على الكلام.
يهدف هذا البحث إلى حل مشكلة الاختناقات الحسابية والذاكرة التي تواجهها أنظمة التعرف على الكلام التلقائي (ASR) المبنية على CTC في البيئات محدودة الموارد. يتطلب فك التشفير التقليدي لـ CTC معالجة شاملة لجميع الرموز الممكنة في كل خطوة زمنية، مما يؤدي إلى مشاكل كفاءة خطيرة.
تطوير خوارزمية تحسين فك تشفير CTC عامة ومستقلة عن المنصة، من خلال قص الرموز الديناميكي على مستوى الإطار لتحقيق تحسن كبير في كفاءة فك التشفير مع الحفاظ على دقة التعرف.
اقتراح خوارزمية FLToP CTC: خوارزمية فك تشفير ديناميكية لقص الرموز على مستوى الإطار موجهة بعتبة احتمالية نسبية
تصميم مستقل عن المنصة: الخوارزمية بسيطة وعامة، وقابلة للتكامل السلس في فك التشفير CTC على منصات متنوعة (وحدات المعالجة المركزية، وحدات معالجة الرسومات، إلخ)
تحسن كبير في الأداء: تحقيق تسريع بمعامل 10.5× وتقليل الذاكرة بمعامل 2.78× على مجموعة بيانات LibriSpeech
تحليل السلوك الإحصائي: توفير دراسة متعمقة للسلوك الإحصائي لفك التشفير CTC، مما يوفر دعماً نظرياً لتصميم الخوارزمية
الإدخال: سلسلة من logits من نموذج CTC بحجم [T×V]، حيث T هو عدد الخطوات الزمنية و V هو حجم المفردات
الإخراج: أفضل سلسلة نصية
القيود: تقليل النفقات الحسابية والذاكرة مع الحفاظ على أداء WER
تستشهد الورقة بـ 32 مرجعاً ذا صلة، تتضمن بشكل أساسي:
أدبيات نظرية CTC الأساسية: Graves et al. (2006), Bourlard & Morgan (1994)
نماذج ASR الحديثة: wav2vec 2.0, WavLM
أدوات تحسين فك التشفير: KenLM, Flashlight
مجموعات البيانات: LibriSpeech, LibriVox
الأعمال ذات الصلة: أعمال مهمة في مجالات ضغط النموذج والتسريع الأجهزة وغيرها
التقييم الشامل: هذه ورقة عملية قوية جداً، تقترح خوارزمية FLToP CTC بسيطة وفعالة، وحققت تقدماً ملحوظاً في تحسين فك التشفير CTC. على الرغم من وجود مجال للتحسن في نطاق التقييم والتحليل النظري، فإن قيمتها العملية والعمومية تجعلها مساهمة قيمة في مجال التعرف على الكلام.