2025-11-22T21:25:24.652246

FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

Shree, Jupuru
CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
academic

FLToP CTC: विविध प्लेटफॉर्म पर कुशल और मेमोरी-बचत डिकोडिंग के लिए सापेक्ष थ्रेसहोल्ड के माध्यम से फ्रेम-स्तरीय टोकन प्रूनिंग

मूल जानकारी

  • पेपर ID: 2510.09085
  • शीर्षक: FLToP CTC: विविध प्लेटफॉर्म पर कुशल और मेमोरी-बचत डिकोडिंग के लिए सापेक्ष थ्रेसहोल्ड के माध्यम से फ्रेम-स्तरीय टोकन प्रूनिंग
  • लेखक: अतुल श्री, हर्षिथ जुपुरु
  • वर्गीकरण: cs.LG cs.SD eess.AS
  • प्रकाशन समय: 25 अक्टूबर 2010 (arXiv सबमिशन)
  • पेपर लिंक: https://arxiv.org/abs/2510.09085

सारांश

CTC-आधारित ASR प्रणालियाँ संसाधन-सीमित वातावरण में कम्प्यूटेशनल और मेमोरी बाधाओं का सामना करती हैं। पारंपरिक CTC डिकोडर, जिन्हें प्रणालियों में 90% तक प्रसंस्करण समय की आवश्यकता होती है (उदाहरण के लिए, L4 GPU पर wav2vec2-large), व्यापक टोकन-स्तरीय संचालन के कारण अक्षमताओं का सामना करते हैं। यह पेपर कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन के लिए फ्रेम लेवल टोकन प्रूनिंग (FLToP CTC) प्रस्तुत करता है, एक नवीन डिकोडिंग एल्गोरिदम जो सापेक्ष थ्रेसहोल्ड संभावना द्वारा निर्देशित फ्रेम-स्तरीय टोकन प्रूनिंग को नियोजित करता है। प्रत्येक फ्रेम से कम-संभावना वाले टोकन को गतिशील रूप से समाप्त करके, FLToP CTC नगण्य WER क्षरण बनाए रखते हुए कम्प्यूट और मेमोरी मांग को कम करता है। LibriSpeech पर, FLToP CTC मानक CTC डिकोडर के विरुद्ध 10.5× रनटाइम स्पीडअप और 2.78× मेमोरी में कमी प्राप्त करता है। इसकी सरलता प्लेटफॉर्म (CPU, GPU, आदि) में CTC डिकोडर में निर्बाध एकीकरण को सक्षम बनाती है। FLToP CTC CTC बाधाओं को संबोधित करता है, संसाधन-सीमित वातावरण और वास्तविक समय अनुप्रयोगों के लिए स्केलेबिलिटी प्रदान करता है, भाषण मान्यता पहुंच और दक्षता को बढ़ाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान CTC-आधारित स्वचालित भाषण मान्यता (ASR) प्रणालियों द्वारा संसाधन-सीमित वातावरण में सामना की जाने वाली कम्प्यूटेशनल और मेमोरी बाधाओं को हल करने का प्रयास करता है। पारंपरिक CTC डिकोडर को प्रत्येक समय चरण पर सभी संभावित टोकन के लिए व्यापक प्रसंस्करण की आवश्यकता होती है, जिससे गंभीर दक्षता समस्याएं होती हैं।

समस्या की महत्ता

  1. कम्प्यूटेशनल संसाधन बाधा: L4 GPU और wav2vec2-large एनकोडर से सुसज्जित प्रणालियों में, CTC डिकोडिंग प्रक्रिया प्रसंस्करण समय का 90% तक ले सकती है
  2. मेमोरी सीमाएं: पारंपरिक CTC डिकोडर बड़ी शब्दावली वाले मॉडल में विशाल मेमोरी खपत करते हैं
  3. वास्तविक समय अनुप्रयोग की आवश्यकता: वास्तविक समय भाषण मान्यता और कम-संसाधन डिवाइस तैनाती के लिए डिकोडिंग दक्षता के लिए कठोर आवश्यकताएं हैं

मौजूदा विधियों की सीमाएं

  1. स्थिर प्रूनिंग रणनीति: KenLM और Flashlight द्वारा अपनाई गई स्थिर top-N प्रूनिंग में फ्रेम-स्तरीय अनुकूलन की कमी है
  2. प्लेटफॉर्म विशिष्टता: GPU-विशिष्ट त्वरण योजनाएं CPU और सीमित डिवाइस परिदृश्यों को नजरअंदाज करती हैं
  3. आर्किटेक्चर निर्भरता: RNN-T मॉडल के लिए अनुकूलन विधियां CTC आर्किटेक्चर में सीधे स्थानांतरित नहीं हो सकती हैं

अनुसंधान प्रेरणा

एक सार्वभौमिक, प्लेटफॉर्म-अज्ञेयवादी CTC डिकोडिंग अनुकूलन एल्गोरिदम विकसित करना, गतिशील फ्रेम-स्तरीय टोकन प्रूनिंग के माध्यम से मान्यता सटीकता बनाए रखते हुए डिकोडिंग दक्षता में उल्लेखनीय सुधार करना।

मुख्य योगदान

  1. FLToP CTC एल्गोरिदम प्रस्तुत करना: सापेक्ष थ्रेसहोल्ड संभावना के आधार पर एक गतिशील फ्रेम-स्तरीय टोकन प्रूनिंग डिकोडिंग एल्गोरिदम
  2. प्लेटफॉर्म-अज्ञेयवादी डिजाइन: एल्गोरिदम सरल और सार्वभौमिक है, विभिन्न प्लेटफॉर्म पर CTC डिकोडर में निर्बाध एकीकरण के लिए (CPU, GPU, आदि)
  3. महत्वपूर्ण प्रदर्शन सुधार: LibriSpeech डेटासेट पर 10.5× रनटाइम त्वरण और 2.78× मेमोरी में कमी प्राप्त करना
  4. सांख्यिकीय व्यवहार विश्लेषण: CTC डिकोडर के सांख्यिकीय व्यवहार का गहन अध्ययन प्रदान करना, एल्गोरिदम डिजाइन के लिए सैद्धांतिक समर्थन प्रदान करना

विधि विवरण

कार्य परिभाषा

इनपुट: CTC मॉडल आउटपुट लॉगिट्स अनुक्रम [T×V], जहां T समय चरणों की संख्या है, V शब्दावली आकार है आउटपुट: इष्टतम पाठ अनुक्रम बाधाएं: WER प्रदर्शन बनाए रखते हुए कम्प्यूटेशनल और मेमोरी ओवरहेड को कम करना

मॉडल आर्किटेक्चर

FLToP CTC एल्गोरिदम कोर

एल्गोरिदम दो-चरणीय प्रूनिंग रणनीति को नियोजित करता है:

  1. Top-N चयन: वर्तमान फ्रेम के लिए शीर्ष N उच्चतम संभावना टोकन का चयन करें
  2. सापेक्ष थ्रेसहोल्ड प्रूनिंग: केवल R × उच्चतम स्कोर से अधिक स्कोर वाले टोकन को बनाए रखें, जहां R सापेक्ष थ्रेसहोल्ड पैरामीटर है

एल्गोरिदम प्रवाह

procedure BEAMSEARCHFLTOPCTC(logits, beam_size, beam_threshold, LM, N, R):
    B ← {(ε, 0)}  # beam को प्रारंभ करें
    for t in 0...T:
        B' ← {}
        logits_idx_sorted ← PartialSortDesc(logits[t], N)
        logit_t0 ← logits[t][logits_idx_sorted[0]]  # उच्चतम स्कोर
        
        for (prefix, score) in B:
            for i in 0...N:
                logit_ti ← logits[t][logits_idx_sorted[i]]
                if logit_ti ≤ logit_t0 × R:  # सापेक्ष थ्रेसहोल्ड प्रूनिंग
                    break
                # hypothesis का विस्तार करें
                token ← IdToToken(logits_idx_sorted[i])
                prefix' ← prefix + token
                score' ← score + logit_ti + LM(prefix')
                B'.add((prefix', score'))
        
        B ← SelectTopK(B', beam_size, beam_threshold)
    return GetHighestScorePrefix(B)

तकनीकी नवाचार बिंदु

  1. गतिशील अनुकूलनीय प्रूनिंग: स्थिर top-N विधि की तुलना में, प्रत्येक फ्रेम की संभावना वितरण के आधार पर गतिशील रूप से बनाए रखे गए टोकन की संख्या को समायोजित कर सकता है
  2. सापेक्ष थ्रेसहोल्ड डिजाइन: निरपेक्ष थ्रेसहोल्ड के बजाय उच्चतम स्कोर के संबंध में अनुपात थ्रेसहोल्ड का उपयोग करना, विभिन्न परिदृश्यों में अनुकूलन में सुधार करता है
  3. सशर्त समाप्ति तंत्र: अनावश्यक टोकन मूल्यांकन से बचने के लिए प्रारंभिक ब्रेक तंत्र के माध्यम से, दक्षता को और बढ़ाता है
  4. प्लेटफॉर्म-अज्ञेयवादी कार्यान्वयन: एल्गोरिदम डिजाइन सरल है, विशेष हार्डवेयर समर्थन की आवश्यकता नहीं है, विभिन्न कम्प्यूटिंग प्लेटफॉर्म पर तैनात किया जा सकता है

प्रायोगिक सेटअप

डेटासेट

  • LibriSpeech डेटासेट: मूल्यांकन के लिए dev-clean, dev-other, test-clean, test-other उप-समूह का उपयोग करें
  • भाषा मॉडल: प्रशिक्षण सेट के आधार पर निर्मित 4-gram KenLM भाषा मॉडल
  • एनकोडर: wav2vec2-large मॉडल, LibriSpeech और LibriVox डेटा पर पूर्व-प्रशिक्षित और 960 घंटे LibriSpeech डेटा पर सूक्ष्म-ट्यून किया गया

मूल्यांकन मेट्रिक्स

  • Word Error Rate (WER): मान्यता सटीकता को मापना
  • डिकोडिंग समय: कम्प्यूटेशनल दक्षता को मापना
  • मेमोरी उपयोग: beam संख्या के माध्यम से अप्रत्यक्ष रूप से मापना

तुलना विधियां

  1. Baseline कॉन्फ़िगरेशन: मानक CTC डिकोडर, सभी 32 टोकन का उपयोग करना
  2. Top-N Pruning: स्थिर top-N प्रूनिंग विधि
  3. FLToP CTC: प्रस्तावित गतिशील प्रूनिंग विधि

कार्यान्वयन विवरण

  • शब्दावली: 32 टोकन (26 अक्षर + एपोस्ट्रॉफ + स्पेस + विशेष टोकन)
  • Beam पैरामीटर: beam-size=1000, beam-threshold=25
  • भाषा मॉडल वजन: lm-weight=1.0, word-score=0.95, sil-score=0.0
  • उपकरण: flashlight-text, fairseq और KenLM का उपयोग करके प्रयोग करें

प्रायोगिक परिणाम

मुख्य परिणाम

टोकन चयन सांख्यिकीय विश्लेषण

सभी परीक्षण नमूनों के टोकन चयन सूचकांक के आंकड़ों के माध्यम से:

  • 99.9823% मामलों में एल्गोरिदम शीर्ष 4 टोकन का चयन करता है, N=4 सेटिंग का समर्थन करता है
  • सूचकांक 0 (उच्चतम संभावना टोकन) को 1,123,792 बार चुना गया, अन्य सूचकांकों से बहुत अधिक
  • औसत उत्सर्जन स्कोर दिखाता है कि पहले कुछ टोकन में महत्वपूर्ण लाभ है

Top-N थ्रेसहोल्ड प्रयोग (N=1...32)

  • N=4 पर सर्वोत्तम संतुलन प्राप्त: WER=3.852, baseline के 3.864 से बेहतर
  • डिकोडिंग समय रैखिक रूप से बढ़ता है: baseline (N=32) N=4 कॉन्फ़िगरेशन से 3.94× धीमा है
  • N>4 पर WER सुधार नगण्य है, N=4 की तर्कसंगतता को साबित करता है

सापेक्ष थ्रेसहोल्ड प्रयोग (N=4, R परिवर्तन)

मुख्य निष्कर्ष:

  • R=0.007 पर सर्वोत्तम दक्षता: WER=3.843, डिकोडिंग समय 369.6 सेकंड
  • Top-4 विधि की तुलना में 2.78× तेजी, baseline की तुलना में 10.5× तेजी
  • R=0.001 पर सर्वोत्तम WER: 3.831, R=0.007 से थोड़ा धीमा लेकिन अभी भी Top-4 से तेज
  • WER रेंज: विभिन्न R मानों में WER 3.831-4.301 के बीच रहता है

मेमोरी दक्षता विश्लेषण

FLToP CTC beam संख्या नियंत्रण में उत्कृष्ट प्रदर्शन करता है:

  • औसत beam संख्या: 214.4 (FLToP CTC) बनाम 596.26 (baseline) बनाम 461.99 (Top-N)
  • मेमोरी में कमी: baseline की तुलना में 2.78× कम, Top-N की तुलना में 2.15× कम
  • वितरण विशेषताएं: माध्य, माध्यिका, चतुर्थक सभी तुलना विधियों से महत्वपूर्ण रूप से कम हैं

विलोपन प्रयोग

  1. N मान प्रभाव: N=1 से N=4 तक प्रदर्शन में महत्वपूर्ण सुधार, N>4 पर लाभ घटते हैं
  2. R मान प्रभाव: R 0.001-0.007 रेंज में सर्वोत्तम प्रदर्शन संतुलन प्रदान करता है
  3. संयुक्त प्रभाव: N=4 और R=0.007 का संयोजन सर्वोत्तम दक्षता-सटीकता व्यापार-बंद प्राप्त करता है

संबंधित कार्य

CTC डिकोडिंग अनुकूलन

  • स्थिर प्रूनिंग विधियां: KenLM, Flashlight आदि निश्चित top-N रणनीति का उपयोग करते हैं
  • हार्डवेयर-विशिष्ट अनुकूलन: GPU त्वरण योजनाएं, लेकिन सार्वभौमिकता की कमी है
  • मॉडल संपीड़न: मॉडल संपीड़न के माध्यम से कम्प्यूटेशन को कम करना, लेकिन सटीकता को प्रभावित कर सकता है

RNN-T अनुकूलन

  • आर्किटेक्चर अंतर: RNN-T अनुकूलन विधियां आर्किटेक्चर अंतर के कारण CTC पर सीधे लागू नहीं हो सकती हैं
  • प्रूनिंग रणनीति: कुछ प्रूनिंग विचार प्रदान करता है लेकिन CTC विशेषताओं के लिए पुनः डिजाइन की आवश्यकता है

पारंपरिक ASR उपकरण

  • HMM/Viterbi विधि: Kaldi, HARPY आदि राज्य-निर्भर प्रूनिंग का उपयोग करते हैं
  • दानेदारपन अंतर: पारंपरिक विधियां उच्च दानेदारपन पर संचालित होती हैं, जबकि FLToP CTC फ्रेम-स्तरीय संचालन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. महत्वपूर्ण दक्षता सुधार: FLToP CTC 10.5× रनटाइम त्वरण और 2.78× मेमोरी में कमी प्राप्त करता है
  2. सटीकता संरक्षण: दक्षता में बड़े सुधार के दौरान WER प्रदर्शन को बनाए रखता है या थोड़ा सुधारता है
  3. सार्वभौमिक प्रयोज्यता: एल्गोरिदम सरल और सार्वभौमिक है, क्रॉस-प्लेटफॉर्म तैनाती के लिए
  4. सांख्यिकीय-संचालित डिजाइन: गहन सांख्यिकीय विश्लेषण के आधार पर एल्गोरिदम पैरामीटर डिजाइन करना

सीमाएं

  1. शब्दावली आकार निर्भरता: छोटी शब्दावली (32 टोकन) पर सत्यापित, बड़ी शब्दावली प्रभाव को आगे सत्यापन की आवश्यकता है
  2. भाषा विशिष्टता: मुख्य रूप से अंग्रेजी डेटासेट पर परीक्षण किया गया, बहुभाषी अनुकूलन क्षमता को सत्यापन की आवश्यकता है
  3. मॉडल निर्भरता: मुख्य रूप से wav2vec2 मॉडल पर आधारित, अन्य CTC मॉडल की अनुकूलन क्षमता को सत्यापन की आवश्यकता है
  4. पैरामीटर ट्यूनिंग: R और N पैरामीटर को विभिन्न अनुप्रयोग परिदृश्यों के लिए ट्यून करने की आवश्यकता हो सकती है

भविष्य की दिशाएं

  1. अनुकूलनीय पैरामीटर समायोजन: इनपुट विशेषताओं के आधार पर R मान को गतिशील रूप से समायोजित करने वाली विधि विकसित करना
  2. बड़ी शब्दावली विस्तार: बड़ी शब्दावली और बहुभाषी परिदृश्यों में एल्गोरिदम प्रभाव को सत्यापित करना
  3. अंत-से-अंत अनुकूलन: डिकोडिंग दक्षता को अनुकूलित करने के लिए मॉडल प्रशिक्षण प्रक्रिया को संयोजित करना
  4. हार्डवेयर-विशिष्ट अनुकूलन: विशिष्ट हार्डवेयर प्लेटफॉर्म के लिए कार्यान्वयन को और अनुकूलित करना

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: CTC डिकोडिंग की वास्तविक बाधा समस्या को हल करता है, सीधे अनुप्रयोग मूल्य है
  2. विधि सरल और प्रभावी: एल्गोरिदम डिजाइन सरल है लेकिन प्रभाव महत्वपूर्ण है, समझने और कार्यान्वयन में आसान है
  3. व्यापक प्रयोग: सांख्यिकीय विश्लेषण से प्रदर्शन मूल्यांकन तक, प्रयोग डिजाइन व्यवस्थित और व्यापक है
  4. मजबूत सार्वभौमिकता: प्लेटफॉर्म-अज्ञेयवादी डिजाइन इसे व्यापक प्रयोज्यता देता है
  5. महत्वपूर्ण प्रदर्शन सुधार: 10.5× त्वरण अनुपात और 2.78× मेमोरी में कमी प्रभावशाली है

कमियां

  1. सीमित मूल्यांकन रेंज: केवल LibriSpeech डेटासेट और विशिष्ट मॉडल पर मूल्यांकन, व्यापक सत्यापन की कमी है
  2. अपर्याप्त सैद्धांतिक विश्लेषण: एल्गोरिदम अभिसरण और सैद्धांतिक गारंटी के विश्लेषण की कमी है
  3. पैरामीटर संवेदनशीलता: R और N पैरामीटर का चयन विभिन्न परिदृश्यों के लिए ट्यूनिंग की आवश्यकता हो सकती है
  4. एकल तुलना आधार: मुख्य रूप से मानक CTC डिकोडर के साथ तुलना, अन्य अनुकूलन विधियों के साथ तुलना की कमी है

प्रभाव

  1. तकनीकी योगदान: CTC डिकोडिंग अनुकूलन के लिए नए विचार और व्यावहारिक विधि प्रदान करता है
  2. व्यावहारिक मूल्य: संसाधन-सीमित वातावरण में ASR तैनाती के लिए महत्वपूर्ण है
  3. पुनरुत्पादनीयता: एल्गोरिदम विवरण स्पष्ट है, कार्यान्वयन अपेक्षाकृत सरल है, अच्छी पुनरुत्पादनीयता है
  4. प्रचार क्षमता: विधि सार्वभौमिकता मजबूत है, औद्योगिक क्षेत्र में व्यापक अनुप्रयोग की संभावना है

लागू परिदृश्य

  1. संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग आदि कम्प्यूटेशनल संसाधन वाले परिदृश्य
  2. वास्तविक समय अनुप्रयोग: विलंबता-संवेदनशील वास्तविक समय भाषण मान्यता अनुप्रयोग
  3. बड़े पैमाने पर तैनाती: बड़ी संख्या में भाषण अनुरोधों को संभालने की आवश्यकता वाले क्लाउड सेवा परिदृश्य
  4. एम्बेडेड सिस्टम: IoT डिवाइस आदि जिनके लिए बिजली खपत और मेमोरी पर कठोर प्रतिबंध हैं

संदर्भ

पेपर 32 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

  • CTC मूल सिद्धांत साहित्य: Graves et al. (2006), Bourlard & Morgan (1994)
  • आधुनिक ASR मॉडल: wav2vec 2.0, WavLM
  • डिकोडिंग अनुकूलन उपकरण: KenLM, Flashlight
  • डेटासेट: LibriSpeech, LibriVox
  • संबंधित अनुकूलन विधियां: मॉडल संपीड़न, हार्डवेयर त्वरण आदि क्षेत्रों का महत्वपूर्ण कार्य

समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक तकनीकी पेपर है, जो प्रस्तावित FLToP CTC एल्गोरिदम सरल और प्रभावी है, CTC डिकोडिंग अनुकूलन में महत्वपूर्ण प्रगति प्राप्त की है। हालांकि मूल्यांकन रेंज और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, इसका व्यावहारिक मूल्य और सार्वभौमिकता इसे ASR क्षेत्र में एक मूल्यवान योगदान बनाता है।