FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic
FLToP CTC: विविध प्लेटफॉर्म पर कुशल और मेमोरी-बचत डिकोडिंग के लिए सापेक्ष थ्रेसहोल्ड के माध्यम से फ्रेम-स्तरीय टोकन प्रूनिंग
CTC-आधारित ASR प्रणालियाँ संसाधन-सीमित वातावरण में कम्प्यूटेशनल और मेमोरी बाधाओं का सामना करती हैं। पारंपरिक CTC डिकोडर, जिन्हें प्रणालियों में 90% तक प्रसंस्करण समय की आवश्यकता होती है (उदाहरण के लिए, L4 GPU पर wav2vec2-large), व्यापक टोकन-स्तरीय संचालन के कारण अक्षमताओं का सामना करते हैं। यह पेपर कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन के लिए फ्रेम लेवल टोकन प्रूनिंग (FLToP CTC) प्रस्तुत करता है, एक नवीन डिकोडिंग एल्गोरिदम जो सापेक्ष थ्रेसहोल्ड संभावना द्वारा निर्देशित फ्रेम-स्तरीय टोकन प्रूनिंग को नियोजित करता है। प्रत्येक फ्रेम से कम-संभावना वाले टोकन को गतिशील रूप से समाप्त करके, FLToP CTC नगण्य WER क्षरण बनाए रखते हुए कम्प्यूट और मेमोरी मांग को कम करता है। LibriSpeech पर, FLToP CTC मानक CTC डिकोडर के विरुद्ध 10.5× रनटाइम स्पीडअप और 2.78× मेमोरी में कमी प्राप्त करता है। इसकी सरलता प्लेटफॉर्म (CPU, GPU, आदि) में CTC डिकोडर में निर्बाध एकीकरण को सक्षम बनाती है। FLToP CTC CTC बाधाओं को संबोधित करता है, संसाधन-सीमित वातावरण और वास्तविक समय अनुप्रयोगों के लिए स्केलेबिलिटी प्रदान करता है, भाषण मान्यता पहुंच और दक्षता को बढ़ाता है।
यह अनुसंधान CTC-आधारित स्वचालित भाषण मान्यता (ASR) प्रणालियों द्वारा संसाधन-सीमित वातावरण में सामना की जाने वाली कम्प्यूटेशनल और मेमोरी बाधाओं को हल करने का प्रयास करता है। पारंपरिक CTC डिकोडर को प्रत्येक समय चरण पर सभी संभावित टोकन के लिए व्यापक प्रसंस्करण की आवश्यकता होती है, जिससे गंभीर दक्षता समस्याएं होती हैं।
एक सार्वभौमिक, प्लेटफॉर्म-अज्ञेयवादी CTC डिकोडिंग अनुकूलन एल्गोरिदम विकसित करना, गतिशील फ्रेम-स्तरीय टोकन प्रूनिंग के माध्यम से मान्यता सटीकता बनाए रखते हुए डिकोडिंग दक्षता में उल्लेखनीय सुधार करना।
इनपुट: CTC मॉडल आउटपुट लॉगिट्स अनुक्रम [T×V], जहां T समय चरणों की संख्या है, V शब्दावली आकार है
आउटपुट: इष्टतम पाठ अनुक्रम
बाधाएं: WER प्रदर्शन बनाए रखते हुए कम्प्यूटेशनल और मेमोरी ओवरहेड को कम करना
गतिशील अनुकूलनीय प्रूनिंग: स्थिर top-N विधि की तुलना में, प्रत्येक फ्रेम की संभावना वितरण के आधार पर गतिशील रूप से बनाए रखे गए टोकन की संख्या को समायोजित कर सकता है
सापेक्ष थ्रेसहोल्ड डिजाइन: निरपेक्ष थ्रेसहोल्ड के बजाय उच्चतम स्कोर के संबंध में अनुपात थ्रेसहोल्ड का उपयोग करना, विभिन्न परिदृश्यों में अनुकूलन में सुधार करता है
सशर्त समाप्ति तंत्र: अनावश्यक टोकन मूल्यांकन से बचने के लिए प्रारंभिक ब्रेक तंत्र के माध्यम से, दक्षता को और बढ़ाता है
प्लेटफॉर्म-अज्ञेयवादी कार्यान्वयन: एल्गोरिदम डिजाइन सरल है, विशेष हार्डवेयर समर्थन की आवश्यकता नहीं है, विभिन्न कम्प्यूटिंग प्लेटफॉर्म पर तैनात किया जा सकता है
पेपर 32 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
CTC मूल सिद्धांत साहित्य: Graves et al. (2006), Bourlard & Morgan (1994)
आधुनिक ASR मॉडल: wav2vec 2.0, WavLM
डिकोडिंग अनुकूलन उपकरण: KenLM, Flashlight
डेटासेट: LibriSpeech, LibriVox
संबंधित अनुकूलन विधियां: मॉडल संपीड़न, हार्डवेयर त्वरण आदि क्षेत्रों का महत्वपूर्ण कार्य
समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक तकनीकी पेपर है, जो प्रस्तावित FLToP CTC एल्गोरिदम सरल और प्रभावी है, CTC डिकोडिंग अनुकूलन में महत्वपूर्ण प्रगति प्राप्त की है। हालांकि मूल्यांकन रेंज और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, इसका व्यावहारिक मूल्य और सार्वभौमिकता इसे ASR क्षेत्र में एक मूल्यवान योगदान बनाता है।