2025-11-10T02:55:46.582245

Direction Estimation of Sound Sources Using Microphone Arrays and Signal Strength

Pour, Habibzadeh

Sound-tracking refers to the process of determining the direction from which a sound originates, making it a fundamental component of sound source localization. This capability is essential in a variety of applications, including security systems, acoustic monitoring, and speaker tracking, where accurately identifying the direction of a sound source enables real-time responses, efficient resource allocation, and improved situational awareness. While sound-tracking is closely related to localization, it specifically focuses on identifying the direction of the sound source rather than estimating its exact position in space. Despite its utility, sound-tracking systems face several challenges, such as maintaining directional accuracy and precision, along with the need for sophisticated hardware configurations and complex signal processing algorithms. This paper presents a sound-tracking method using three electret microphones. We estimate the direction of a sound source using a lightweight method that analyzes signals from three strategically placed microphones. By comparing the average power of the received signals, the system infers the most probable direction of the sound. The results indicate that the power level from each microphone effectively determines the sound source direction. Our system employs a straightforward and cost-effective hardware design, ensuring simplicity and affordability in implementation. It achieves a localization error of less than 6 degrees and a precision of 98%. Additionally, its effortless integration with various systems makes it versatile and adaptable. Consequently, this technique presents a robust and reliable solution for sound-tracking and localization, with potential applications spanning diverse domains such as security systems, smart homes, and acoustic monitoring.

academic

Оценка направления источников звука с использованием микрофонных решеток и мощности сигнала

Основная информация

ID статьи: 2507.03466
Название: Direction Estimation of Sound Sources Using Microphone Arrays and Signal Strength
Авторы: Махди Али Пур (Университет Сабанджы), Захра Хабибзаде (Университет Тегерана)
Классификация: cs.SD cs.SY eess.AS eess.SY
Дата публикации: 10 октября 2025 г. (версия arXiv)
Ссылка на статью: https://arxiv.org/abs/2507.03466
Ссылка на код: https://github.com/mahdi943/soundlocalization

Аннотация

В данной статье предложен метод оценки направления источника звука на основе трёх электретных микрофонов. Метод анализирует сигналы, полученные тремя стратегически расположенными микрофонами, и использует лёгкий алгоритм сравнения средней мощности сигналов для определения наиболее вероятного направления источника звука. Система использует простую и экономичную конструкцию оборудования, достигая ошибки позиционирования менее 6 градусов и точности 98%. Данная технология имеет широкий потенциал применения в системах безопасности, умных домах и акустическом мониторинге.

Исследовательский контекст и мотивация

1. Решаемая проблема

Данное исследование направлено на решение проблемы отслеживания направления источника звука (sound-tracking), то есть процесса определения направления, из которого исходит звук. В отличие от полной локализации источника звука, отслеживание направления сосредоточено на определении направления источника, а не его точного пространственного положения.

2. Значимость проблемы

Оценка направления источника звука критически важна в нескольких областях применения:

Системы умного дома: такие как Amazon Alexa и Google Assistant используют эту возможность для определения местоположения пользователя в помещении
Системы безопасности: для реального времени реагирования и распределения ресурсов
Робототехника: операции поиска и спасения и автономная навигация
Акустический мониторинг: отслеживание источников окружающего шума

3. Ограничения существующих методов

Традиционные методы локализации источника звука имеют следующие недостатки:

Сложность оборудования: требуют больших микрофонных решеток и высокопроизводительных процессоров
Вычислительная сложность: методы TDOA, формирование луча и другие требуют интенсивных вычислений
Высокая стоимость: сложные алгоритмы обработки сигналов и конфигурация оборудования
Низкая производительность в реальном времени: сложно удовлетворить требования приложений реального времени

4. Исследовательская мотивация

Авторы стремились разработать лёгкий и экономичный альтернативный подход, использующий минимальное количество компонентов оборудования и простые алгоритмы обработки сигналов, пригодный для сред с ограниченными ресурсами и сценариев быстрого развёртывания.

Основные вклады

Предложен лёгкий метод оценки направления источника звука на основе мощности сигнала: использование трёх микрофонов и алгоритма векторного суммирования для точного обнаружения направления
Разработана низкостоимостная аппаратная система: на основе Arduino и электретных микрофонов, значительно снижающая стоимость реализации
Достигнута высокая точность производительности: ошибка позиционирования менее 6 градусов, точность 98%
Подтверждена практическая применимость: реальные испытания доказали эффективность и надёжность метода
Предоставлена реализация с открытым исходным кодом: опубликованы полный код и схема конструкции оборудования

Подробное описание метода

Определение задачи

Входные данные: звуковые сигналы, полученные тремя микрофонами Выходные данные: угол направления источника звука и мощность сигнала Ограничения: обработка в реальном времени, низкостоимостное оборудование, простой алгоритм

Архитектура модели

1. Конфигурация оборудования

Расположение микрофонов: три электретных микрофона расположены под углами 0°, 120° и 240°
Расстояние: каждый микрофон находится на расстоянии 15 см от центра
Усиление сигнала: использование операционного усилителя LM358 для усиления сигнала
Контроллер: микроконтроллер Arduino Uno R3
Индикатор: сервомотор, указывающий на обнаруженное направление источника звука

2. Алгоритмический процесс

Основной алгоритм основан на принципе векторного суммирования:

Алгоритм 1: Алгоритм локализации звука
Входные данные: звуковой сигнал S, количество образцов N, пороговое значение T
Выходные данные: угол звука, амплитуда звука, позиция сервомотора

1. если S > T то
2.   для каждого микрофона Mi выполнить
3.     Arrayi ← Собрать N образцов из S
4.     Avgi ← Среднее значение Arrayi
5.     Vi ← Полярный вектор из Avgi
6.     Ri ← Прямоугольная форма Vi
7.   конец
8.   X ← Σ Ri[0]  // Сумма x-компонент
9.   Y ← Σ Ri[1]  // Сумма y-компонент
10.  ResultMag ← √(X² + Y²)
11.  ResultAngle ← atan2(Y,X)
12.  Servo ← ServoPos
13. конец

3. Математическая модель

Шаг 1: Представление в полярных координатах Сигналы трёх микрофонов представляются как векторы в полярных координатах:

α = (120°, PowerAvg₁) (1)
β = (0°, PowerAvg₂) (2)
γ = (240°, PowerAvg₃) (3)

Шаг 2: Преобразование в прямоугольные координаты

R₁ = (rα · cos(θα), rα · sin(θα)) (4)
R₂ = (rβ · cos(θβ), rβ · sin(θβ)) (5)
R₃ = (rγ · cos(θγ), rγ · sin(θγ)) (6)

Шаг 3: Векторное суммирование

X = Σᵢ₌₁³ Rxᵢ (7)
Y = Σᵢ₌₁³ Ryᵢ (8)

Шаг 4: Расчёт результатов

ResultMag = √(X² + Y²) (9)
ResultAngle = atan2(Y,x) (10)

Технические инновации

Упрощённый векторный метод: избегает сложной оценки временной задержки и расчётов фазы
Стратегия сравнения мощности: прямое использование мощности сигнала вместо временных разностей
Возможность обработки в реальном времени: реальное время отклика при низкой частоте дискретизации (50 Гц)
Оптимизация затрат: использование дешёвых готовых компонентов

Экспериментальная установка

Набор данных

Источник звука: 2-секундные аудиофрагменты, воспроизводимые со смартфона
Расстояние тестирования: источник звука находится на расстоянии 35 см от центра системы
Углы тестирования: два целевых угла 20° и 120°
Количество экспериментов: 30 тестов для каждого угла, всего 60 экспериментов

Метрики оценки

Точность (Accuracy): среднее отклонение оценённого угла от истинного угла
Прецизионность (Precision): стандартное отклонение результатов измерений
Процентная точность: точность на основе полного диапазона 360°

Детали реализации

Стратегия дискретизации: сбор фиксированного количества образцов
Установка порога: предопределённый порог интенсивности сигнала
Обработка данных: обрезка 6% для удаления выбросов
Визуализация: диаграмма рассеяния в полярных координатах для отображения результатов

Результаты экспериментов

Основные результаты

Метрика	120°	20°
Количество тестов	30	30
Данные после обрезки	26	26
Точность (градусы)	5,26	7,11
Прецизионность (градусы)	3,26	4,01
Процентная точность	98,9%	98,8%

Детальный анализ

Результаты тестирования при 120°:
- Средняя ошибка: 5,26°
- Стандартное отклонение: 3,26°
- Точность: 98,9%
Результаты тестирования при 20°:
- Средняя ошибка: 7,11°
- Стандартное отклонение: 4,01°
- Точность: 98,8%

Визуализированные результаты

Результаты экспериментов представлены в виде диаграмм рассеяния в полярных координатах, показывающих:

Концентрированное распределение векторов в направлении цели
Изменение мощности сигнала, отражённое в расстоянии от начала координат
Незначительные отклонения, вызванные окружающим шумом и различиями в чувствительности микрофонов

Экспериментальные выводы

Хорошая согласованность: оба угла тестирования показывают высокую согласованность оценки направления
Стабильная точность: точность выше 98% доказывает надёжность метода
Производительность в реальном времени: система способна реагировать на изменения источника звука в реальном времени
Ограничения оборудования: низкая частота дискретизации требует относительно близкого расположения источника звука

Связанные работы

Традиционные методы SSL

Метод TDOA: расчёт разницы времени прихода сигнала между несколькими микрофонами
Фазовые методы: использование фазовых сдвигов аудиосигнала между датчиками
Формирование луча: использование микрофонной решетки для оценки направления на основе выравнивания временных сигналов
Байесовская фильтрация: повышение точности, но увеличение сложности

Современные методы

Методы машинного обучения: классификация направления звука с использованием исходных или предварительно обработанных данных сигнала
Фильтрация частиц: отслеживание в реальном времени в динамических средах
Сравнение интенсивности: аналогично данной работе, но обычно с более низкой точностью

Преимущества данной работы

По сравнению с существующими методами, преимущества данной работы заключаются в:

Минимальные требования к оборудованию
Минимальная сложность алгоритма
Лучшее соотношение стоимости и производительности
Минимальная сложность развёртывания

Заключение и обсуждение

Основные выводы

Подтверждение осуществимости: доказана возможность точной оценки направления с использованием трёх микрофонов и простого алгоритма
Отличная производительность: достигнута ошибка позиционирования менее 6 градусов и точность 98%
Экономичность: предоставлен низкостоимостный альтернативный вариант традиционным сложным системам
Практическая ценность: применимо к различным реальным сценариям

Ограничения

Ограничения по расстоянию: из-за низкой частоты дискретизации Arduino Uno источник звука должен быть относительно близко (35 см)
Требования к окружающей среде: устойчивость в шумной среде требует дальнейшей проверки
Ограничения оборудования: ограничены объёмом памяти и вычислительной мощностью Arduino
Диапазон тестирования: эксперименты проводились только в контролируемой среде, отсутствует проверка при крупномасштабном практическом развёртывании

Направления будущих исследований

Модернизация оборудования: исследование микроконтроллеров с более высокой частотой дискретизации и большей вычислительной мощностью
Оптимизация алгоритма: улучшение алгоритма для повышения устойчивости в шумной среде
Расширенное тестирование: проведение тестов в большем количестве реальных сценариев и условиях с шумом
Интеграция множественных датчиков: интеграция дополнительных датчиков для повышения точности

Глубокая оценка

Преимущества

Умеренная инновационность, но практичность: хотя технологические инновации ограничены, имеются значительные преимущества в соотношении стоимости и производительности
Разумный дизайн экспериментов: научные методы тестирования, достоверные результаты
Высокая практическая ценность: предоставляет жизнеспособное решение для сред с ограниченными ресурсами
Вклад в открытый исходный код: полный код и схема конструкции облегчают воспроизведение и улучшение

Недостатки

Ограниченная техническая глубина: относительно простой алгоритм, недостаточная теоретическая глубина
Ограниченный диапазон тестирования: тестирование только в идеальных условиях, недостаточная проверка в реальных сценариях применения
Отсутствие сравнительного анализа: отсутствует прямое сравнение с другими низкостоимостными методами
Недостаточный анализ устойчивости: ограниченный анализ способности обработки шума, множественных источников и других сложных ситуаций

Влияние

Образовательная ценность: отличный пример для преподавания и разработки прототипов
Инженерная практичность: хорошая практическая ценность в конкретных сценариях применения
Преимущество в стоимости: жизнеспособное решение для проектов с ограниченным бюджетом
Вдохновляющее значение: доказывает эффективность простых методов в определённых условиях

Применимые сценарии

Образовательные проекты: курсы университетов и студенческие проекты
Разработка прототипов: быстрая проверка концепции и создание прототипов
Умные дома: отслеживание источника звука в небольших помещениях
Встроенные приложения: системы с ограниченными ресурсами
Проекты DIY: проекты любителей и создателей

Список литературы

Статья цитирует 28 связанных источников, охватывающих локализацию источника звука, обработку сигналов, робототехнику и другие области, обеспечивая достаточную теоретическую базу и технический контекст для исследования.

Общая оценка: Это практически ориентированная инженерная статья с ограниченными теоретическими инновациями, но выдающимися показателями в соотношении стоимости и производительности. Данная работа предоставляет простое, жизнеспособное и экономичное решение для оценки направления источника звука, особенно подходящее для образования, разработки прототипов и приложений с ограниченными ресурсами.