2025-11-10T02:55:46.582245

Direction Estimation of Sound Sources Using Microphone Arrays and Signal Strength

Pour, Habibzadeh
Sound-tracking refers to the process of determining the direction from which a sound originates, making it a fundamental component of sound source localization. This capability is essential in a variety of applications, including security systems, acoustic monitoring, and speaker tracking, where accurately identifying the direction of a sound source enables real-time responses, efficient resource allocation, and improved situational awareness. While sound-tracking is closely related to localization, it specifically focuses on identifying the direction of the sound source rather than estimating its exact position in space. Despite its utility, sound-tracking systems face several challenges, such as maintaining directional accuracy and precision, along with the need for sophisticated hardware configurations and complex signal processing algorithms. This paper presents a sound-tracking method using three electret microphones. We estimate the direction of a sound source using a lightweight method that analyzes signals from three strategically placed microphones. By comparing the average power of the received signals, the system infers the most probable direction of the sound. The results indicate that the power level from each microphone effectively determines the sound source direction. Our system employs a straightforward and cost-effective hardware design, ensuring simplicity and affordability in implementation. It achieves a localization error of less than 6 degrees and a precision of 98%. Additionally, its effortless integration with various systems makes it versatile and adaptable. Consequently, this technique presents a robust and reliable solution for sound-tracking and localization, with potential applications spanning diverse domains such as security systems, smart homes, and acoustic monitoring.
academic

माइक्रोफोन ऐरे और सिग्नल शक्ति का उपयोग करके ध्वनि स्रोतों की दिशा का अनुमान

मूल जानकारी

  • पेपर ID: 2507.03466
  • शीर्षक: Direction Estimation of Sound Sources Using Microphone Arrays and Signal Strength
  • लेखक: Mahdi Ali Pour (Sabancı University), Zahra Habibzadeh (University of Tehran)
  • वर्गीकरण: cs.SD cs.SY eess.AS eess.SY
  • प्रकाशन समय: 25 अक्टूबर 10 (arXiv संस्करण)
  • पेपर लिंक: https://arxiv.org/abs/2507.03466
  • कोड लिंक: https://github.com/mahdi943/soundlocalization

सारांश

यह पेपर तीन इलेक्ट्रेट माइक्रोफोन के आधार पर ध्वनि स्रोत की दिशा अनुमान की एक विधि प्रस्तुत करता है। यह विधि तीन रणनीतिक रूप से स्थापित माइक्रोफोन द्वारा प्राप्त संकेतों का विश्लेषण करके, हल्के एल्गोरिदम का उपयोग करके संकेत की औसत शक्ति की तुलना करके ध्वनि स्रोत की सबसे संभावित दिशा का अनुमान लगाती है। सिस्टम सरल और लागत प्रभावी हार्डवेयर डिजाइन का उपयोग करके 6 डिग्री से कम स्थिति त्रुटि और 98% सटीकता प्राप्त करता है। यह तकनीक सुरक्षा प्रणाली, स्मार्ट होम और ध्वनिक निगरानी जैसे कई क्षेत्रों में व्यापक अनुप्रयोग की संभावना रखती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या का समाधान करना

यह अनुसंधान ध्वनि स्रोत दिशा ट्रैकिंग (sound-tracking) समस्या को हल करने का लक्ष्य रखता है, अर्थात् ध्वनि के स्रोत की दिशा निर्धारित करने की प्रक्रिया। पूर्ण ध्वनि स्रोत स्थिति निर्धारण के विपरीत, ध्वनि स्रोत ट्रैकिंग ध्वनि स्रोत की सटीक स्थानिक स्थिति के बजाय दिशा की पहचान पर केंद्रित है।

2. समस्या का महत्व

ध्वनि स्रोत दिशा अनुमान कई अनुप्रयोग क्षेत्रों में महत्वपूर्ण है:

  • स्मार्ट होम सिस्टम: जैसे Amazon Alexa और Google Assistant कमरे में उपयोगकर्ता की स्थिति निर्धारित करने के लिए इस क्षमता का उपयोग करते हैं
  • सुरक्षा निगरानी: वास्तविक समय प्रतिक्रिया और संसाधन आवंटन
  • रोबोटिक्स: खोज और बचाव संचालन और स्वायत्त नेविगेशन
  • ध्वनिक निगरानी: पर्यावरणीय शोर स्रोत ट्रैकिंग

3. मौजूदा विधियों की सीमाएं

पारंपरिक ध्वनि स्रोत स्थिति निर्धारण विधियों में निम्नलिखित समस्याएं हैं:

  • हार्डवेयर जटिलता: बड़े माइक्रोफोन ऐरे और उच्च-अंत प्रोसेसर की आवश्यकता
  • कम्प्यूटेशनल जटिलता: TDOA, बीमफॉर्मिंग आदि विधियां कम्प्यूटेशनल रूप से गहन हैं
  • उच्च लागत: जटिल संकेत प्रसंस्करण एल्गोरिदम और हार्डवेयर कॉन्फ़िगरेशन
  • कमजोर वास्तविक समय प्रदर्शन: वास्तविक समय अनुप्रयोग आवश्यकताओं को पूरा करना कठिन

4. अनुसंधान प्रेरणा

लेखक एक हल्के, लागत प्रभावी विकल्प विकसित करना चाहते हैं जो न्यूनतम हार्डवेयर घटकों और सरल संकेत प्रसंस्करण एल्गोरिदम का उपयोग करता है, जो संसाधन-सीमित वातावरण और तेजी से तैनाती परिदृश्यों के लिए उपयुक्त है।

मुख्य योगदान

  1. संकेत शक्ति के आधार पर हल्के ध्वनि स्रोत दिशा अनुमान विधि प्रस्तुत की: तीन माइक्रोफोन और वेक्टर योग एल्गोरिदम का उपयोग करके सटीक दिशा पहचान प्राप्त की
  2. कम लागत वाली हार्डवेयर प्रणाली डिजाइन की: Arduino और इलेक्ट्रेट माइक्रोफोन के आधार पर, कार्यान्वयन लागत में उल्लेखनीय कमी की
  3. उच्च सटीकता प्रदर्शन प्राप्त की: 6 डिग्री से कम स्थिति त्रुटि और 98% सटीकता
  4. व्यावहारिकता सत्यापित की: वास्तविक परीक्षणों में विधि की प्रभावशीलता और विश्वसनीयता साबित की
  5. ओपन सोर्स कार्यान्वयन प्रदान किया: पूर्ण कोड और हार्डवेयर डिजाइन योजना जारी की

विधि विवरण

कार्य परिभाषा

इनपुट: तीन माइक्रोफोन द्वारा प्राप्त ध्वनि संकेत आउटपुट: ध्वनि स्रोत की दिशा कोण और संकेत शक्ति बाधाएं: वास्तविक समय प्रसंस्करण, कम लागत हार्डवेयर, सरल एल्गोरिदम

मॉडल आर्किटेक्चर

1. हार्डवेयर कॉन्फ़िगरेशन

  • माइक्रोफोन व्यवस्था: तीन इलेक्ट्रेट माइक्रोफोन क्रमशः 0°, 120°, 240° स्थिति में स्थापित
  • दूरी सेटिंग: प्रत्येक माइक्रोफोन केंद्र से 15 सेमी दूरी पर
  • संकेत प्रवर्धन: LM358 ऑपरेशनल एम्पलीफायर का उपयोग करके संकेत को बढ़ाया जाता है
  • नियंत्रक: Arduino Uno R3 माइक्रोकंट्रोलर
  • संकेतक: सर्वो मोटर पहचानी गई ध्वनि स्रोत दिशा की ओर इशारा करता है

2. एल्गोरिदम प्रवाह

मुख्य एल्गोरिदम वेक्टर योग सिद्धांत पर आधारित है:

Algorithm 1: Sound Localization Algorithm
Input: Sound signal S, number of samples N, threshold T
Output: Sound angle, sound magnitude, servo motor position

1. if S > T then
2.   foreach microphone Mi do
3.     Arrayi ← Collect N samples from S
4.     Avgi ← Average of Arrayi
5.     Vi ← Polar vector from Avgi
6.     Ri ← Rectangular form of Vi
7.   end
8.   X ← Σ Ri[0]  // Sum of x-components
9.   Y ← Σ Ri[1]  // Sum of y-components
10.  ResultMag ← √(X² + Y²)
11.  ResultAngle ← atan2(Y,X)
12.  Servo ← ServoPos
13. end

3. गणितीय मॉडल

चरण 1: ध्रुवीय निर्देशांक प्रतिनिधित्व तीन माइक्रोफोन के संकेत को ध्रुवीय निर्देशांक वेक्टर के रूप में दर्शाया जाता है:

  • α = (120°, PowerAvg₁) (1)
  • β = (0°, PowerAvg₂) (2)
  • γ = (240°, PowerAvg₃) (3)

चरण 2: कार्तीय निर्देशांक रूपांतरण

  • R₁ = (rα · cos(θα), rα · sin(θα)) (4)
  • R₂ = (rβ · cos(θβ), rβ · sin(θβ)) (5)
  • R₃ = (rγ · cos(θγ), rγ · sin(θγ)) (6)

चरण 3: वेक्टर योग

  • X = Σᵢ₌₁³ Rxᵢ (7)
  • Y = Σᵢ₌₁³ Ryᵢ (8)

चरण 4: परिणाम गणना

  • ResultMag = √(X² + Y²) (9)
  • ResultAngle = atan2(Y,x) (10)

तकनीकी नवाचार बिंदु

  1. सरलीकृत वेक्टर विधि: जटिल समय विलंब अनुमान और चरण गणना से बचा जाता है
  2. शक्ति तुलना रणनीति: समय अंतर के बजाय सीधे संकेत शक्ति का उपयोग
  3. वास्तविक समय प्रसंस्करण क्षमता: कम नमूना दर (50Hz) पर वास्तविक समय प्रतिक्रिया
  4. लागत अनुकूलन डिजाइन: सस्ते तैयार घटकों का उपयोग

प्रायोगिक सेटअप

डेटासेट

  • ऑडियो स्रोत: 2 सेकंड की फोन द्वारा चलाई गई ऑडियो क्लिप
  • परीक्षण दूरी: ध्वनि स्रोत सिस्टम के केंद्र से 35 सेमी दूरी पर
  • परीक्षण कोण: 20° और 120° दो लक्ष्य कोण
  • प्रयोग संख्या: प्रत्येक कोण के लिए 30 परीक्षण, कुल 60 प्रयोग

मूल्यांकन मेट्रिक्स

  1. सटीकता (Accuracy): अनुमानित कोण और वास्तविक कोण के बीच औसत विचलन
  2. परिशुद्धता (Precision): माप परिणामों का मानक विचलन
  3. प्रतिशत सटीकता: 360° पूर्ण श्रेणी के आधार पर सटीकता प्रतिशत

कार्यान्वयन विवरण

  • नमूना रणनीति: निश्चित संख्या में नमूने संग्रह
  • थ्रेसहोल्ड सेटिंग: पूर्वनिर्धारित संकेत शक्ति थ्रेसहोल्ड
  • डेटा प्रसंस्करण: 6% ट्रिमिंग विषम मानों को हटाने के लिए
  • दृश्य: ध्रुवीय निर्देशांक स्कैटर प्लॉट परिणाम प्रदर्शित करता है

प्रायोगिक परिणाम

मुख्य परिणाम

मेट्रिक120 डिग्री20 डिग्री
परीक्षण संख्या3030
ट्रिम किए गए डेटा2626
सटीकता (डिग्री)5.267.11
परिशुद्धता (डिग्री)3.264.01
सटीकता प्रतिशत98.9%98.8%

विस्तृत विश्लेषण

  1. 120° परीक्षण परिणाम:
    • औसत त्रुटि: 5.26°
    • मानक विचलन: 3.26°
    • सटीकता: 98.9%
  2. 20° परीक्षण परिणाम:
    • औसत त्रुटि: 7.11°
    • मानक विचलन: 4.01°
    • सटीकता: 98.8%

दृश्य परिणाम

प्रायोगिक परिणाम ध्रुवीय निर्देशांक स्कैटर प्लॉट के माध्यम से प्रदर्शित किए जाते हैं, जो दिखाते हैं:

  • लक्ष्य दिशा पर वेक्टर का केंद्रित वितरण
  • मूल से दूरी में परिलक्षित संकेत शक्ति में परिवर्तन
  • पर्यावरणीय शोर और माइक्रोफोन संवेदनशीलता अंतर से प्रेरित मामूली विचलन

प्रायोगिक निष्कर्ष

  1. अच्छी सामंजस्यता: दोनों परीक्षण कोण उच्च स्तर की दिशा अनुमान सामंजस्य दिखाते हैं
  2. स्थिर सटीकता: 98% से अधिक सटीकता विधि की विश्वसनीयता साबित करती है
  3. वास्तविक समय प्रदर्शन: सिस्टम ध्वनि स्रोत परिवर्तनों के लिए वास्तविक समय में प्रतिक्रिया कर सकता है
  4. हार्डवेयर सीमाएं: कम नमूना दर के कारण ध्वनि स्रोत अपेक्षाकृत निकट होना आवश्यक है

संबंधित कार्य

पारंपरिक SSL विधियां

  1. TDOA विधि: कई माइक्रोफोन के बीच संकेत आगमन समय अंतर की गणना
  2. चरण तकनीकें: सेंसर के बीच ऑडियो संकेत के चरण बदलाव का उपयोग
  3. बीमफॉर्मिंग: समय संकेत संरेखण के आधार पर दिशा अनुमान के लिए माइक्रोफोन ऐरे का उपयोग
  4. बेयेसियन फिल्टरिंग: सटीकता में सुधार लेकिन जटिलता में वृद्धि

आधुनिक विधियां

  1. मशीन लर्निंग विधियां: कच्चे या पूर्व-प्रसंस्कृत संकेत डेटा का उपयोग करके ध्वनि दिशा वर्गीकरण
  2. कण फिल्टर: गतिशील वातावरण में वास्तविक समय ट्रैकिंग
  3. शक्ति तुलना: इस पेपर के समान लेकिन आमतौर पर कम सटीकता

इस पेपर के लाभ

मौजूदा विधियों की तुलना में, इस पेपर के लाभ हैं:

  • न्यूनतम हार्डवेयर आवश्यकताएं
  • न्यूनतम एल्गोरिदम जटिलता
  • सर्वोत्तम लागत प्रभावशीलता
  • न्यूनतम तैनाती कठिनाई

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यावहारिकता सत्यापन: तीन माइक्रोफोन और सरल एल्गोरिदम का उपयोग करके सटीक दिशा अनुमान की व्यावहारिकता साबित की
  2. उत्कृष्ट प्रदर्शन: 6 डिग्री से कम स्थिति त्रुटि और 98% सटीकता प्राप्त की
  3. लागत प्रभावशीलता: पारंपरिक जटिल प्रणालियों के लिए कम लागत वाला विकल्प प्रदान किया
  4. व्यावहारिक मूल्य: कई वास्तविक अनुप्रयोग परिदृश्यों के लिए उपयुक्त

सीमाएं

  1. दूरी सीमा: Arduino Uno की कम नमूना दर सीमा के कारण, ध्वनि स्रोत अपेक्षाकृत निकट (35 सेमी) होना आवश्यक है
  2. पर्यावरणीय आवश्यकताएं: शोरपूर्ण वातावरण में मजबूती आगे सत्यापन की प्रतीक्षा में है
  3. हार्डवेयर सीमाएं: Arduino की मेमोरी क्षमता और प्रसंस्करण शक्ति द्वारा सीमित
  4. परीक्षण श्रेणी: प्रयोग केवल नियंत्रित वातावरण में किए गए, बड़े पैमाने पर वास्तविक तैनाती सत्यापन की कमी

भविष्य की दिशाएं

  1. हार्डवेयर अपग्रेड: उच्च नमूना दर और मजबूत प्रसंस्करण क्षमता वाले माइक्रोकंट्रोलर की खोज
  2. एल्गोरिदम अनुकूलन: शोर वातावरण में मजबूती में सुधार के लिए एल्गोरिदम में सुधार
  3. विस्तारित परीक्षण: अधिक वास्तविक परिदृश्यों और शोर स्थितियों में परीक्षण
  4. बहु-सेंसर संलयन: सटीकता में सुधार के लिए अतिरिक्त सेंसर को एकीकृत करना

गहन मूल्यांकन

लाभ

  1. उपयुक्त नवाचार लेकिन व्यावहारिक: हालांकि तकनीकी नवाचार सीमित है, लागत प्रभावशीलता में महत्वपूर्ण लाभ है
  2. तर्कसंगत प्रायोगिक डिजाइन: परीक्षण विधि वैज्ञानिक है, परिणाम विश्वसनीय हैं
  3. उच्च व्यावहारिक मूल्य: संसाधन-सीमित वातावरण के लिए व्यावहारिक समाधान प्रदान करता है
  4. ओपन सोर्स योगदान: पूर्ण कोड और हार्डवेयर डिजाइन प्रदान करता है, पुनरुत्पादन और सुधार को सुविधाजनक बनाता है

कमियां

  1. सीमित तकनीकी गहराई: एल्गोरिदम अपेक्षाकृत सरल है, सैद्धांतिक गहराई की कमी है
  2. सीमित परीक्षण श्रेणी: केवल आदर्श स्थितियों में परीक्षण किया गया, वास्तविक अनुप्रयोग परिदृश्य सत्यापन अपर्याप्त है
  3. तुलनात्मक विश्लेषण की कमी: अन्य कम लागत वाली विधियों के साथ प्रत्यक्ष तुलना की कमी है
  4. अपर्याप्त मजबूती विश्लेषण: शोर, बहु-ध्वनि स्रोत आदि जटिल परिस्थितियों में हैंडलिंग क्षमता विश्लेषण सीमित है

प्रभाव

  1. शैक्षणिक मूल्य: शिक्षण और प्रोटोटाइप विकास के लिए उत्कृष्ट केस प्रदान करता है
  2. इंजीनियरिंग व्यावहारिकता: विशिष्ट अनुप्रयोग परिदृश्यों में बहुत अच्छी व्यावहारिक मूल्य है
  3. लागत लाभ: बजट-सीमित परियोजनाओं के लिए व्यावहारिक समाधान प्रदान करता है
  4. प्रेरणादायक महत्व: विशिष्ट स्थितियों में सरल विधियों की प्रभावशीलता साबित करता है

लागू परिदृश्य

  1. शैक्षणिक परियोजनाएं: विश्वविद्यालय पाठ्यक्रम और छात्र परियोजनाएं
  2. प्रोटोटाइप विकास: तेजी से अवधारणा सत्यापन और प्रोटोटाइप निर्माण
  3. स्मार्ट होम: छोटी श्रेणी के कमरे के अंदर ध्वनि स्रोत ट्रैकिंग
  4. एम्बेडेड अनुप्रयोग: संसाधन-सीमित एम्बेडेड सिस्टम
  5. DIY परियोजनाएं: व्यक्तिगत उत्साही और निर्माता परियोजनाएं

संदर्भ

पेपर ने 28 संबंधित संदर्भों को उद्धृत किया है, जो ध्वनि स्रोत स्थिति निर्धारण, संकेत प्रसंस्करण, रोबोटिक्स और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तकनीकी पृष्ठभूमि प्रदान करते हैं।


समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक इंजीनियरिंग तकनीकी पेपर है, हालांकि सैद्धांतिक नवाचार में सीमित है, लेकिन लागत प्रभावशीलता और व्यावहारिकता में उत्कृष्ट प्रदर्शन करता है। यह कार्य ध्वनि स्रोत दिशा अनुमान के लिए एक सरल, व्यावहारिक और कम लागत वाला समाधान प्रदान करता है, विशेष रूप से शिक्षा, प्रोटोटाइप विकास और संसाधन-सीमित अनुप्रयोग परिदृश्यों के लिए उपयुक्त है।