2025-11-12T14:58:10.472282

Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation

Nayeem, Tabrej, Deb et al.

Automatic Speech Recognition (ASR) has undergone a profound transformation over the past decade, driven by advances in deep learning. This survey provides a comprehensive overview of the modern era of ASR, charting its evolution from traditional hybrid systems, such as Gaussian Mixture Model-Hidden Markov Models (GMM-HMMs) and Deep Neural Network-HMMs (DNN-HMMs), to the now-dominant end-to-end neural architectures. We systematically review the foundational end-to-end paradigms: Connectionist Temporal Classification (CTC), attention-based encoder-decoder models, and the Recurrent Neural Network Transducer (RNN-T), which established the groundwork for fully integrated speech-to-text systems. We then detail the subsequent architectural shift towards Transformer and Conformer models, which leverage self-attention to capture long-range dependencies with high computational efficiency. A central theme of this survey is the parallel revolution in training paradigms. We examine the progression from fully supervised learning, augmented by techniques like SpecAugment, to the rise of self-supervised learning (SSL) with foundation models such as wav2vec 2.0, which drastically reduce the reliance on transcribed data. Furthermore, we analyze the impact of largescale, weakly supervised models like Whisper, which achieve unprecedented robustness through massive data diversity. The paper also covers essential ecosystem components, including key datasets and benchmarks (e.g., LibriSpeech, Switchboard, CHiME), standard evaluation metrics (e.g., Word Error Rate), and critical considerations for real-world deployment, such as streaming inference, on-device efficiency, and the ethical imperatives of fairness and robustness. We conclude by outlining open challenges and future research directions.

academic

आधुनिक युग में स्वचालित वाक् पहचान: आर्किटेक्चर, प्रशिक्षण, और मूल्यांकन

मूल जानकारी

पेपर ID: 2510.12827
शीर्षक: Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation
लेखक: Md Shamse Tabrej, Kabbojit Jit Deb, Md. Azizul Hakim, Shaonti Goswami (दिल्ली प्रौद्योगिकी विश्वविद्यालय), Md. Nayeem (बांग्लादेश राष्ट्रीय विश्वविद्यालय)
वर्गीकरण: eess.AS cs.AI cs.SD
प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.12827

सारांश

यह पेपर आधुनिक स्वचालित वाक् पहचान (ASR) का एक व्यापक सर्वेक्षण प्रदान करता है, जो पारंपरिक हाइब्रिड प्रणालियों (जैसे GMM-HMM और DNN-HMM) से अंत-से-अंत तंत्रिका आर्किटेक्चर की ओर इसके विकास को ट्रैक करता है। पेपर तीन मौलिक अंत-से-अंत प्रतिमानों की व्यवस्थित समीक्षा करता है: कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC), ध्यान-आधारित एनकोडर-डिकोडर मॉडल और पुनरावर्ती तंत्रिका नेटवर्क ट्रांसड्यूसर (RNN-T), और Transformer और Conformer मॉडल की ओर आर्किटेक्चरल परिवर्तन का विस्तार से वर्णन करता है। लेख प्रशिक्षण प्रतिमानों के क्रांति का विश्लेषण करता है, पूर्ण पर्यवेक्षित शिक्षा से स्व-पर्यवेक्षित शिक्षा (जैसे wav2vec 2.0) और बड़े पैमाने पर कमजोर पर्यवेक्षित मॉडल (जैसे Whisper) के उदय तक। इसके अतिरिक्त, यह महत्वपूर्ण डेटासेट, मूल्यांकन मेट्रिक्स, और व्यावहारिक तैनाती में स्ट्रीमिंग अनुमान, डिवाइस-अंत दक्षता और निष्पक्षता जैसे विचारों को कवर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समाधान की जाने वाली समस्या

स्वचालित वाक् पहचान क्षेत्र पारंपरिक सांख्यिकीय विधियों से गहन शिक्षा की ओर एक मौलिक परिवर्तन का अनुभव कर रहा है, जिसमें आधुनिक ASR के विकास पथ, मूल प्रौद्योगिकियों और भविष्य के रुझानों को व्यवस्थित रूप से समझने की आवश्यकता है।

2. समस्या की महत्ता

ASR आधुनिक मानव-कंप्यूटर इंटरैक्शन की नींव है, जो वॉयस असिस्टेंट, डिक्टेशन सॉफ्टवेयर, वाहन नियंत्रण प्रणाली आदि में व्यापक रूप से लागू होता है
गहन शिक्षा के तीव्र विकास ने ASR प्रदर्शन को महत्वपूर्ण रूप से बेहतर बनाया है, लेकिन तकनीकी विकास तेजी से हो रहा है, जिसमें समय पर व्यापक सारांश की आवश्यकता है
अंत-से-अंत आर्किटेक्चर और नई प्रशिक्षण प्रतिमानों का उदय ASR के विकास मॉडल को बदल गया है

3. मौजूदा विधियों की सीमाएं

पारंपरिक हाइब्रिड प्रणालियां (GMM-HMM, DNN-HMM) जटिल संरचना वाली हैं, जिन्हें कई घटकों को स्वतंत्र रूप से प्रशिक्षित करने की आवश्यकता है
मॉड्यूलर डिजाइन त्रुटि प्रसार की ओर ले जाता है, जिसमें डोमेन विशेषज्ञ ज्ञान की आवश्यकता है
मौजूदा सर्वेक्षण मुख्य रूप से प्रारंभिक प्रौद्योगिकियों पर ध्यान केंद्रित करते हैं, Transformer युग और स्व-पर्यवेक्षित शिक्षा की व्यवस्थित विश्लेषण की कमी है

4. अनुसंधान प्रेरणा

आधुनिक ASR पर केंद्रित एक व्यापक संदर्भ प्रदान करना, आर्किटेक्चर विकास, प्रशिक्षण प्रतिमान क्रांति, तैनाती अभ्यास और नैतिक विचार चार प्रमुख आयामों को एकीकृत करना।

मूल योगदान

व्यवस्थित आर्किटेक्चर समीक्षा: मुख्यधारा के अंत-से-अंत ASR आर्किटेक्चर का व्यापक विश्लेषण, जिसमें CTC, AED, RNN-T और नवीनतम Transformer और Conformer मॉडल शामिल हैं
प्रशिक्षण प्रतिमान की गहन विश्लेषण: पर्यवेक्षित शिक्षा से स्व-पर्यवेक्षित शिक्षा और कमजोर पर्यवेक्षित शिक्षा के विकास प्रक्रिया का विस्तृत ट्रैकिंग
पारिस्थितिकी तंत्र का संपूर्ण दृश्य: महत्वपूर्ण डेटासेट, बेंचमार्क परीक्षण और मूल्यांकन मेट्रिक्स का व्यापक सारांश
व्यावहारिक तैनाती मार्गदर्शन: स्ट्रीमिंग अनुमान, डिवाइस-अंत प्रसंस्करण आदि व्यावहारिक तैनाती चुनौतियों और नैतिक विचारों का विश्लेषण

विधि विवरण

कार्य परिभाषा

ASR कार्य को परिवर्तनशील लंबाई के ऑडियो इनपुट अनुक्रम X = (x₁, ..., xₜ) को परिवर्तनशील लंबाई के पाठ आउटपुट अनुक्रम Y = (y₁, ..., yᵤ) में परिवर्तित करने की मानचित्रण प्रक्रिया के रूप में परिभाषित किया जाता है।

मूल आर्किटेक्चर विश्लेषण

1. कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC)

मूल विचार: "रिक्त" प्रतीक ε का परिचय देकर संरेखण समस्या को हल करना
लाभ: गैर-स्वचालित विशेषता, समानांतर गणना का समर्थन, तेजी से प्रशिक्षण और अनुमान
हानि: सशर्त स्वतंत्रता धारणा भाषा मॉडलिंग क्षमता को सीमित करती है
हानि फलन: सभी वैध संरेखण पथों की संभावना के योग की गतिशील प्रोग्रामिंग एल्गोरिथ्म द्वारा गणना

2. ध्यान-आधारित एनकोडर-डिकोडर (AED)

एनकोडर: ऑडियो विशेषताओं को उच्च-स्तरीय प्रतिनिधित्व H = (h₁, ..., hₜ') में मानचित्रित करता है
डिकोडर: आउटपुट अनुक्रम को स्वचालित रूप से उत्पन्न करता है, ध्यान तंत्र के माध्यम से नरम संरेखण सीखता है
लाभ: आउटपुट अनुक्रम संभावना को सीधे मॉडल करता है, निहित भाषा मॉडल शामिल करता है
हानि: स्वचालित विशेषता डिकोडिंग गति को धीमा करती है

3. पुनरावर्ती तंत्रिका नेटवर्क ट्रांसड्यूसर (RNN-T)

तीन-घटक आर्किटेक्चर:
- ध्वनिक एनकोडर: ऑडियो इनपुट को संसाधित करता है
- भविष्यवाणी नेटवर्क: आंतरिक भाषा मॉडल के रूप में कार्य करता है
- संयुक्त नेटवर्क: अंतिम भविष्यवाणी उत्पन्न करने के लिए दोनों आउटपुट को जोड़ता है
लाभ: स्ट्रीमिंग प्रसंस्करण का स्वाभाविक समर्थन, CTC और AED के लाभों को जोड़ता है

4. Transformer और Conformer आर्किटेक्चर

Transformer: स्व-ध्यान तंत्र का उपयोग करके दीर्घ-श्रेणी निर्भरता को कैप्चर करता है
Conformer: स्व-ध्यान और कनवल्शन को जोड़ता है, वैश्विक और स्थानीय संदर्भ को मॉडल करता है
संरचना: "मैकेरोनी" शैली संरचना को अपनाता है, जिसमें फीड-फॉरवर्ड मॉड्यूल, बहु-सिर स्व-ध्यान, कनवल्शन मॉड्यूल शामिल हैं

प्रशिक्षण प्रतिमान विकास

1. पर्यवेक्षित शिक्षा और डेटा संवर्धन

SpecAugment: लॉग मेल स्पेक्ट्रोग्राम पर सीधे संवर्धन
- समय विकृति: समय अक्ष को यादृच्छिक रूप से विकृत करना
- आवृत्ति मास्किंग: सतत आवृत्ति चैनल को मास्क करना
- समय मास्किंग: सतत समय चरणों को मास्क करना

2. स्व-पर्यवेक्षित शिक्षा (SSL)

wav2vec 2.0 ढांचा:
- पूर्व-प्रशिक्षण: बड़ी मात्रा में अचिह्नित ऑडियो पर प्रशिक्षण, विपरीत शिक्षा कार्य का उपयोग करते हुए
- सूक्ष्म-ट्यूनिंग: कम मात्रा में चिह्नित डेटा पर विशिष्ट कार्य के लिए सूक्ष्म-ट्यूनिंग
डेटा दक्षता: केवल 10 मिनट चिह्नित डेटा के साथ SOTA प्रदर्शन प्राप्त करता है

3. बड़े पैमाने पर कमजोर पर्यवेक्षण

Whisper मॉडल: 68 लाख घंटे बहुभाषी वेब डेटा पर प्रशिक्षित
शून्य-शॉट प्रदर्शन: सूक्ष्म-ट्यूनिंग के बिना कई बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन

प्रायोगिक सेटअप

डेटासेट अवलोकन

डेटासेट	अवधि (घंटे)	वक्ता संख्या	डोमेन विशेषता
LibriSpeech	960	2484	अंग्रेजी ऑडियोबुक
Switchboard	300	543	अंग्रेजी टेलीफोन संवाद
TED-LIUM 3	452	2351	अंग्रेजी व्याख्यान, विविध उच्चारण
CHiME-6	50	20	शोरपूर्ण वातावरण, दूर-क्षेत्र माइक्रोफोन
Common Voice 17.0	>20000	>100k	भीड़-स्रोत, 124 भाषाएं

मूल्यांकन मेट्रिक्स

शब्द त्रुटि दर (WER): WER = (S + D + I) / N
- S: प्रतिस्थापन त्रुटि, D: विलोपन त्रुटि, I: सम्मिलन त्रुटि, N: संदर्भ शब्दों की कुल संख्या
वर्ण त्रुटि दर (CER): गैर-स्पेस-सीमांकित भाषाओं के लिए उपयुक्त
वास्तविक-समय मेट्रिक्स:
- विलंबता: बोलने से प्रतिलेखन पूर्ण होने तक का समय
- वास्तविक-समय कारक (RTF): प्रसंस्करण समय और ऑडियो अवधि का अनुपात

प्रायोगिक परिणाम

LibriSpeech बेंचमार्क प्रदर्शन

मॉडल	test-clean	test-other	टिप्पणी
Conformer-T (with LM)	1.9%	3.9%	गैर-स्ट्रीमिंग, बाहरी भाषा मॉडल
wav2vec 2.0 (LARGE, with LM)	1.8%	3.3%	स्व-पर्यवेक्षित पूर्व-प्रशिक्षण
Whisper (large-v2)	2.7%	5.0%	शून्य-शॉट प्रदर्शन
Streaming Conformer	2.72%	6.47%	स्ट्रीमिंग प्रसंस्करण

मुख्य निष्कर्ष

स्व-पर्यवेक्षित शिक्षा का सफलता: wav2vec 2.0 ने चिह्नित डेटा पर निर्भरता को महत्वपूर्ण रूप से कम किया है
बड़े पैमाने पर कमजोर पर्यवेक्षण की प्रभावशीलता: Whisper शून्य-शॉट सेटिंग में उत्कृष्ट प्रदर्शन करता है
स्ट्रीमिंग और गैर-स्ट्रीमिंग का संतुलन: स्ट्रीमिंग मॉडल वास्तविक-समय बनाए रखते हुए प्रदर्शन में मामूली कमी दिखाते हैं

व्यावहारिक तैनाती विचार

स्ट्रीमिंग ASR

तकनीकी चुनौतियां: वास्तविक-समय प्रसंस्करण की आवश्यकता, विलंबता को कम करना
समाधान:
- RNN-T की एकरस संरेखण विशेषता
- Transformer की खंडित ध्यान तंत्र
- वाक् गतिविधि पहचान (VAD) और अंतबिंदु पहचान

डिवाइस-अंत प्रसंस्करण

लाभ: गोपनीयता सुरक्षा, कम विलंबता, ऑफलाइन उपलब्धता
चुनौतियां: कम्प्यूटेशनल संसाधन और मेमोरी सीमाएं
अनुकूलन तकनीकें:
- परिमाणीकरण: संख्यात्मक सटीकता को कम करना (INT8)
- छंटाई: अनावश्यक कनेक्शन को हटाना

मजबूतता और निष्पक्षता

ध्वनिक मजबूतता

चुनौतियां: पृष्ठभूमि शोर, प्रतिध्वनि आदि ध्वनिक विकृति
समाधान: बहु-स्थिति प्रशिक्षण, बीम-फॉर्मिंग, बड़े पैमाने पर विविध डेटा

जनसांख्यिकीय पूर्वाग्रह

समस्या प्रदर्शन:
- उच्चारण और बोली पूर्वाग्रह: मानक उच्चारण बनाम स्थानीय उच्चारण
- लिंग पूर्वाग्रह: महिला वाक् में उच्च त्रुटि दर
- आयु पूर्वाग्रह: बच्चों और बुजुर्गों की पहचान में कठिनाई
मूल कारण: प्रशिक्षण डेटा में प्रतिनिधित्व की कमी
शमन रणनीति: विविध डेटासेट संग्रह, निष्पक्षता-जागरूक प्रशिक्षण

खुली चुनौतियां और भविष्य की दिशा

1. बहुभाषी और कोड-स्विचिंग ASR

चुनौतियां: कम-संसाधन भाषा डेटा की कमी, कोड-स्विचिंग की जटिलता
दिशा: बहुभाषी मॉडल, क्रॉस-भाषा स्थानांतर शिक्षा

2. गोपनीयता-संरक्षित व्यक्तिगतकरण

आवश्यकता: उपयोगकर्ता-विशिष्ट शब्दावली और उच्चारण के अनुकूल
बाधा: उपयोगकर्ता गोपनीयता सुरक्षा
समाधान: डिवाइस-अंत सूक्ष्म-ट्यूनिंग, संघीय शिक्षा

3. WER से परे मूल्यांकन

सीमा: WER शब्दार्थ प्रभाव अंतर को अनदेखा करता है
विकास दिशा: शब्दार्थ सही मूल्यांकन, अचिह्नित मूल्यांकन विधियां

4. संबंधित वाक् प्रौद्योगिकियां

वाक् भावना पहचान: वक्ता की भावनात्मक स्थिति की पहचान करना
तकनीकी सहयोग: ASR और अन्य वाक् बुद्धिमत्ता कार्यों का अंतर-संलयन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

आर्किटेक्चर विकास: RNN से Transformer/Conformer की छलांग विकास
प्रशिक्षण क्रांति: स्व-पर्यवेक्षित और कमजोर पर्यवेक्षित शिक्षा ने डेटा आवश्यकताओं को मौलिक रूप से बदल दिया है
व्यावहारिकता प्रगति: स्ट्रीमिंग प्रसंस्करण और डिवाइस-अंत तैनाती तकनीकें परिपक्व हो रही हैं
सामाजिक जिम्मेदारी: निष्पक्षता और मजबूतता महत्वपूर्ण विचार बन गए हैं

सीमाएं

सर्वेक्षण का दायरा: मुख्य रूप से अंग्रेजी ASR पर ध्यान केंद्रित, बहुभाषी कवरेज सीमित है
तकनीकी गहराई: कुछ अग्रणी तकनीकों की विस्तृत चर्चा अपर्याप्त है
प्रायोगिक सत्यापन: सर्वेक्षण लेख के रूप में, मूल प्रायोगिक सत्यापन की कमी है

भविष्य की दिशा

तकनीकी संलयन: बहु-मोडल, बहु-कार्य शिक्षा
दक्षता अनुकूलन: अधिक कुशल मॉडल संपीड़न और त्वरण तकनीकें
नैतिक AI: अधिक निष्पक्ष, अधिक व्याख्यायोग्य ASR प्रणाली

गहन मूल्यांकन

शक्तियां

व्यापकता: आधुनिक ASR के सभी महत्वपूर्ण पहलुओं को कवर करता है
व्यवस्थितता: तार्किक स्पष्टता, आर्किटेक्चर से अनुप्रयोग स्तर तक क्रमिक प्रगति
व्यावहारिकता: न केवल सैद्धांतिक विश्लेषण बल्कि तैनाती मार्गदर्शन भी है
दूरदर्शिता: भविष्य के विकास दिशाओं पर गहन विचार
खुलापन: खुले-स्रोत उपकरण और पुनरुत्पादनीय अनुसंधान पर जोर देता है

कमियां

सीमित मौलिकता: सर्वेक्षण लेख के रूप में, मूल तकनीकी योगदान की कमी है
प्रायोगिक अभाव: नए प्रायोगिक सत्यापन या तुलनात्मक विश्लेषण नहीं है
अपर्याप्त गहराई: कुछ तकनीकी विवरण अपेक्षाकृत सतही हैं
समयबद्धता: कुछ संदर्भ साहित्य नए हैं, लेकिन नवीनतम प्रगति की कमी है

प्रभाव

शैक्षणिक मूल्य: ASR शोधकर्ताओं के लिए महत्वपूर्ण संदर्भ प्रदान करता है
शैक्षिक महत्व: इस क्षेत्र के परिचय और उन्नत पाठ के रूप में उपयुक्त
व्यावहारिक मार्गदर्शन: औद्योगिक ASR प्रणाली तैनाती के लिए मार्गदर्शन मूल्य
पुनरुत्पादनीयता: समृद्ध खुले-स्रोत उपकरण लिंक प्रदान करता है

लागू परिदृश्य

अनुसंधान परिचय: ASR क्षेत्र के नए शोधकर्ताओं के लिए महत्वपूर्ण संदर्भ
तकनीकी चयन: इंजीनियरों द्वारा ASR आर्किटेक्चर और प्रशिक्षण विधि चुनना
शैक्षणिक शिक्षण: संबंधित पाठ्यक्रमों के लिए शिक्षण सामग्री
औद्योगिक विश्लेषण: ASR तकनीकी विकास प्रवृत्तियों को समझना

संदर्भ

पेपर 45 महत्वपूर्ण संदर्भों का हवाला देता है, जो CTC, ध्यान तंत्र से लेकर नवीनतम wav2vec 2.0, Whisper आदि मुख्य कार्यों तक फैले हुए हैं, जो पाठकों को पूर्ण तकनीकी विकास पथ प्रदान करते हैं।

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला ASR सर्वेक्षण पेपर है, जो आधुनिक ASR के विकास पथ को व्यवस्थित रूप से समझाता है, विशेष रूप से अंत-से-अंत आर्किटेक्चर और नई प्रशिक्षण प्रतिमानों में गहन विश्लेषण प्रदान करता है। हालांकि सर्वेक्षण लेख के रूप में मूल तकनीकी योगदान की कमी है, लेकिन इसकी व्यापकता, व्यवस्थितता और व्यावहारिकता इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ बनाती है।