2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.

academic

FLToP CTC: قص الرموز على مستوى الإطار عبر عتبة نسبية لفك تشفير فعال وموفر للذاكرة على منصات متنوعة

المعلومات الأساسية

معرّف الورقة: 2510.09085
العنوان: FLToP CTC: قص الرموز على مستوى الإطار عبر عتبة نسبية لفك تشفير فعال وموفر للذاكرة على منصات متنوعة
المؤلفون: Atul Shree, Harshith Jupuru
التصنيف: cs.LG cs.SD eess.AS
تاريخ النشر: 10 أكتوبر 2025 (تقديم arXiv)
رابط الورقة: https://arxiv.org/abs/2510.09085

الملخص

تواجه أنظمة التعرف على الكلام المبنية على CTC اختناقات حسابية وذاكرة في البيئات محدودة الموارد. فك التشفير التقليدي لـ CTC، الذي يتطلب ما يصل إلى 90% من وقت المعالجة في الأنظمة (على سبيل المثال، wav2vec2-large على وحدات معالجة الرسومات L4)، يواجه عدم كفاءة بسبب العمليات الشاملة على مستوى الرموز. تقدم هذه الورقة قص الرموز على مستوى الإطار للتصنيف الزمني الاتصالي (FLToP CTC)، وهي خوارزمية فك تشفير جديدة تستخدم قص الرموز على مستوى الإطار موجهة بعتبة احتمالية نسبية. من خلال القضاء الديناميكي على الرموز منخفضة الاحتمالية لكل إطار، يقلل FLToP CTC متطلبات الحساب والذاكرة مع الحفاظ على تدهور معدل الخطأ في الكلمات (WER) ضئيل. على LibriSpeech، يحقق FLToP CTC تسريعاً بمعامل 10.5× وتقليلاً في الذاكرة بمعامل 2.78× مقابل فك التشفير القياسي لـ CTC. تتيح بساطته التكامل السلس في فك التشفير CTC عبر المنصات (وحدات المعالجة المركزية، وحدات معالجة الرسومات، إلخ). يعالج FLToP CTC اختناقات CTC، مما يوفر قابلية التوسع للبيئات محدودة الموارد والتطبيقات في الوقت الفعلي، مما يعزز إمكانية الوصول والكفاءة في التعرف على الكلام.

خلفية البحث والدافع

تعريف المشكلة

يهدف هذا البحث إلى حل مشكلة الاختناقات الحسابية والذاكرة التي تواجهها أنظمة التعرف على الكلام التلقائي (ASR) المبنية على CTC في البيئات محدودة الموارد. يتطلب فك التشفير التقليدي لـ CTC معالجة شاملة لجميع الرموز الممكنة في كل خطوة زمنية، مما يؤدي إلى مشاكل كفاءة خطيرة.

أهمية المشكلة

اختناق الموارد الحسابية: في الأنظمة المزودة بوحدة معالجة رسومات L4 ومشفر wav2vec2-large، قد تستهلك عملية فك التشفير CTC ما يصل إلى 90% من وقت المعالجة
قيود الذاكرة: يستهلك فك التشفير التقليدي لـ CTC ذاكرة ضخمة في نماذج المفردات الكبيرة
متطلبات التطبيقات في الوقت الفعلي: يفرض التعرف على الكلام في الوقت الفعلي ونشر الأجهزة منخفضة الموارد متطلبات صارمة على كفاءة فك التشفير

قيود الطرق الموجودة

استراتيجيات القص الثابتة: تفتقر الطرق مثل KenLM و Flashlight التي تستخدم قص top-N ثابت إلى التكيف على مستوى الإطار
الخصوصية المتعلقة بالمنصة: تتجاهل حلول التسريع الخاصة بوحدة معالجة الرسومات سيناريوهات وحدة المعالجة المركزية والأجهزة المقيدة
الاعتماد على الهندسة المعمارية: لا يمكن نقل طرق التحسين الموجهة لنماذج RNN-T مباشرة إلى بنية CTC

دافع البحث

تطوير خوارزمية تحسين فك تشفير CTC عامة ومستقلة عن المنصة، من خلال قص الرموز الديناميكي على مستوى الإطار لتحقيق تحسن كبير في كفاءة فك التشفير مع الحفاظ على دقة التعرف.

المساهمات الأساسية

اقتراح خوارزمية FLToP CTC: خوارزمية فك تشفير ديناميكية لقص الرموز على مستوى الإطار موجهة بعتبة احتمالية نسبية
تصميم مستقل عن المنصة: الخوارزمية بسيطة وعامة، وقابلة للتكامل السلس في فك التشفير CTC على منصات متنوعة (وحدات المعالجة المركزية، وحدات معالجة الرسومات، إلخ)
تحسن كبير في الأداء: تحقيق تسريع بمعامل 10.5× وتقليل الذاكرة بمعامل 2.78× على مجموعة بيانات LibriSpeech
تحليل السلوك الإحصائي: توفير دراسة متعمقة للسلوك الإحصائي لفك التشفير CTC، مما يوفر دعماً نظرياً لتصميم الخوارزمية

شرح الطريقة

تعريف المهمة

الإدخال: سلسلة من logits من نموذج CTC بحجم [T×V]، حيث T هو عدد الخطوات الزمنية و V هو حجم المفردات الإخراج: أفضل سلسلة نصية القيود: تقليل النفقات الحسابية والذاكرة مع الحفاظ على أداء WER

هندسة النموذج

جوهر خوارزمية FLToP CTC

تستخدم الخوارزمية استراتيجية قص على مرحلتين:

اختيار Top-N: اختيار أفضل N رموز بأعلى احتمالية للإطار الحالي
قص العتبة النسبية: الاحتفاظ فقط بالرموز التي تتجاوز درجاتها R × أعلى درجة، حيث R هو معامل العتبة النسبية

تدفق الخوارزمية

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # تهيئة الشعاع
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # أعلى درجة
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # قص العتبة النسبية
                    break
                # توسيع الفرضية
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

نقاط الابتكار التقني

القص الديناميكي التكيفي: بالمقارنة مع طرق top-N الثابتة، يمكن تعديل عدد الرموز المحتفظ بها ديناميكياً وفقاً لتوزيع الاحتمالية لكل إطار
تصميم العتبة النسبية: استخدام عتبة نسبية بالنسبة إلى أعلى درجة بدلاً من عتبة مطلقة، مما يحسن التكيف عبر السيناريوهات المختلفة
آلية الإنهاء المشروط: تجنب تقييم الرموز غير الضرورية من خلال آلية الكسر المبكر، مما يعزز الكفاءة بشكل أكبر
التنفيذ المستقل عن المنصة: تصميم الخوارزمية بسيط، لا يتطلب دعماً خاصاً للأجهزة، ويمكن نشره على منصات حسابية متنوعة

إعداد التجارب

مجموعات البيانات

مجموعة بيانات LibriSpeech: استخدام مجموعات فرعية dev-clean و dev-other و test-clean و test-other للتقييم
نموذج اللغة: نموذج KenLM 4-gram مبني على مجموعة التدريب
المشفر: نموذج wav2vec2-large، مدرب مسبقاً على بيانات LibriSpeech و LibriVox وضبط دقيق على 960 ساعة من بيانات LibriSpeech

مؤشرات التقييم

معدل الخطأ في الكلمات (WER): قياس دقة التعرف
وقت فك التشفير: قياس الكفاءة الحسابية
استخدام الذاكرة: قياس غير مباشر من خلال عدد الشعاعات

طرق المقارنة

إعدادات الخط الأساسي: فك التشفير القياسي لـ CTC، باستخدام جميع الرموز الـ 32
قص Top-N: طريقة قص top-N الثابتة
FLToP CTC: طريقة القص الديناميكي المقترحة

تفاصيل التنفيذ

المفردات: 32 رمزاً (26 حرفاً + علامة اقتباس + مسافة + رموز خاصة)
معاملات الشعاع: beam-size=1000، beam-threshold=25
أوزان نموذج اللغة: lm-weight=1.0، word-score=0.95، sil-score=0.0
الأدوات: استخدام flashlight-text و fairseq و KenLM للتجارب

نتائج التجارب

النتائج الرئيسية

تحليل إحصائي لاختيار الرموز

من خلال إحصاء مؤشرات اختيار الرموز لجميع عينات الاختبار:

في 99.9823% من الحالات تختار الخوارزمية أفضل 4 رموز، مما يدعم إعداد N=4
يتم اختيار الفهرس 0 (رمز الاحتمالية الأعلى) 1,123,792 مرة، بكثير أكثر من الفهارس الأخرى
تظهر درجات الانبعاث المتوسطة أن أفضل عدة رموز لها ميزة كبيرة

تجارب عتبة Top-N (N=1...32)

يتحقق أفضل توازن عند N=4: WER=3.852، أفضل من الخط الأساسي 3.864
يزداد وقت فك التشفير خطياً: الخط الأساسي (N=32) أبطأ بمعامل 3.94× من إعداد N=4
عند N>4 تحسن WER ضئيل جداً، مما يثبت معقولية N=4

تجارب العتبة النسبية (N=4، تغيير R)

النتائج الرئيسية:

أفضل كفاءة عند R=0.007: WER=3.843، وقت فك التشفير 369.6 ثانية
تسريع بمعامل 2.78× مقابل طريقة Top-4، وتسريع بمعامل 10.5× مقابل الخط الأساسي
أفضل WER عند R=0.001: 3.831، أبطأ قليلاً من R=0.007 لكن لا يزال أسرع من Top-4
نطاق WER: يبقى WER بين 3.831-4.301 عند قيم R المختلفة

تحليل كفاءة الذاكرة

يظهر FLToP CTC أداءً ممتازاً في التحكم في عدد الشعاعات:

متوسط عدد الشعاعات: 214.4 (FLToP CTC) مقابل 596.26 (الخط الأساسي) مقابل 461.99 (Top-N)
تقليل الذاكرة: تقليل بمعامل 2.78× مقابل الخط الأساسي، وتقليل بمعامل 2.15× مقابل Top-N
خصائص التوزيع: المتوسط والوسيط والربيعات جميعها أقل بكثير من طرق المقارنة

تجارب الاستبدال

تأثير قيمة N: تحسن كبير في الأداء من N=1 إلى N=4، مع تناقص الفوائد عند N>4
تأثير قيمة R: توفر R في النطاق 0.001-0.007 أفضل توازن بين الكفاءة والدقة
التأثير المركب: يحقق الجمع بين N=4 و R=0.007 أفضل توازن بين الكفاءة والدقة

الأعمال ذات الصلة

تحسين فك التشفير CTC

طرق القص الثابتة: تستخدم KenLM و Flashlight استراتيجية top-N ثابتة
التحسينات الخاصة بالأجهزة: حلول تسريع وحدة معالجة الرسومات، لكن تفتقر إلى العمومية
ضغط النموذج: تقليل الحساب من خلال ضغط النموذج، لكن قد يؤثر على الدقة

تحسين RNN-T

الاختلافات المعمارية: لا يمكن تطبيق طرق تحسين RNN-T مباشرة على CTC بسبب الاختلافات المعمارية
استراتيجيات القص: توفر بعض أفكار القص لكن تتطلب إعادة تصميم لخصائص CTC

أدوات التعرف على الكلام التقليدية

طرق HMM/Viterbi: تستخدم Kaldi و HARPY قص يعتمد على الحالة
اختلافات الحبيبية: تعمل الطرق التقليدية بحبيبية أعلى، بينما يعمل FLToP CTC على مستوى الإطار

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحسن كبير في الكفاءة: يحقق FLToP CTC تسريعاً بمعامل 10.5× وتقليلاً في الذاكرة بمعامل 2.78×
الحفاظ على الدقة: مع تحسن كبير في الكفاءة، يحافظ على أو يحسن قليلاً أداء WER
القابلية للتطبيق العام: الخوارزمية بسيطة وعامة، قابلة للنشر عبر المنصات
التصميم المدفوع بالإحصائيات: تصميم معاملات الخوارزمية بناءً على تحليل إحصائي متعمق

القيود

الاعتماد على حجم المفردات: تم التحقق على مفردات صغيرة (32 رمزاً)، يتطلب التحقق من التأثير على مفردات أكبر
الخصوصية اللغوية: تم الاختبار بشكل أساسي على مجموعات بيانات باللغة الإنجليزية، يتطلب التحقق من التكيف متعدد اللغات
الاعتماد على النموذج: يعتمد بشكل أساسي على نموذج wav2vec2، يتطلب التحقق من التكيف مع نماذج CTC الأخرى
ضبط المعاملات: قد تتطلب معاملات R و N ضبطاً لسيناريوهات تطبيق مختلفة

الاتجاهات المستقبلية

تعديل المعاملات التكيفي: تطوير طرق لتعديل قيمة R ديناميكياً وفقاً لخصائص الإدخال
توسيع المفردات الكبيرة: التحقق من فعالية الخوارزمية في سيناريوهات المفردات الأكبر والمتعددة اللغات
التحسين الشامل: دمج تحسين كفاءة فك التشفير مع عملية تدريب النموذج
التحسينات الخاصة بالأجهزة: تحسين التنفيذ بشكل أكبر لمنصات أجهزة محددة

التقييم المتعمق

المميزات

قيمة عملية عالية: حل مشكلة الاختناق الفعلي في فك التشفير CTC، بقيمة تطبيقية مباشرة
طريقة بسيطة وفعالة: تصميم خوارزمية بسيط لكن بنتائج ملحوظة، سهل الفهم والتنفيذ
تجارب شاملة: من التحليل الإحصائي إلى تقييم الأداء، تصميم تجريبي منهجي وشامل
قوة عامة قوية: التصميم المستقل عن المنصة يوفر قابلية تطبيق واسعة
تحسن أداء ملحوظ: معامل تسريع 10.5× وتقليل الذاكرة بمعامل 2.78× مثير للإعجاب

أوجه القصور

نطاق التقييم محدود: تم التقييم فقط على مجموعة بيانات LibriSpeech ونموذج محدد، يفتقر إلى التحقق الأوسع
التحليل النظري غير كافٍ: يفتقر إلى تحليل التقارب والضمانات النظرية للخوارزمية
حساسية المعاملات: قد تتطلب معاملات R و N ضبطاً لسيناريوهات تطبيق مختلفة
معايير المقارنة الفردية: المقارنة بشكل أساسي مع فك التشفير القياسي لـ CTC، يفتقر إلى المقارنة مع طرق تحسين أخرى

التأثير

المساهمة التقنية: توفير أفكار وطرق عملية جديدة لتحسين فك التشفير CTC
القيمة العملية: ذات أهمية كبيرة لنشر ASR في البيئات محدودة الموارد
قابلية إعادة الإنتاج: وصف الخوارزمية واضح، التنفيذ نسبياً بسيط، بقابلية إعادة إنتاج جيدة
إمكانية الترويج: الطريقة عامة بقوة، من المتوقع أن تحظى بتطبيق واسع في الصناعة

السيناريوهات المطبقة

البيئات محدودة الموارد: الأجهزة المحمولة والحوسبة الطرفية وغيرها من السيناريوهات ذات الموارد الحسابية المحدودة
التطبيقات في الوقت الفعلي: تطبيقات التعرف على الكلام في الوقت الفعلي الحساسة للتأخير
النشر على نطاق واسع: سيناريوهات معالجة عدد كبير من طلبات الكلام في خدمات سحابية
الأنظمة المدمجة: تطبيقات أجهزة إنترنت الأشياء وغيرها من التطبيقات التي لها قيود صارمة على الطاقة والذاكرة

المراجع

تستشهد الورقة بـ 32 مرجعاً ذا صلة، تتضمن بشكل أساسي:

أدبيات نظرية CTC الأساسية: Graves et al. (2006), Bourlard & Morgan (1994)
نماذج ASR الحديثة: wav2vec 2.0, WavLM
أدوات تحسين فك التشفير: KenLM, Flashlight
مجموعات البيانات: LibriSpeech, LibriVox
الأعمال ذات الصلة: أعمال مهمة في مجالات ضغط النموذج والتسريع الأجهزة وغيرها

التقييم الشامل: هذه ورقة عملية قوية جداً، تقترح خوارزمية FLToP CTC بسيطة وفعالة، وحققت تقدماً ملحوظاً في تحسين فك التشفير CTC. على الرغم من وجود مجال للتحسن في نطاق التقييم والتحليل النظري، فإن قيمتها العملية والعمومية تجعلها مساهمة قيمة في مجال التعرف على الكلام.