Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
- ID статьи: 2510.13308
- Название: Towards Multimodal Query-Based Spatial Audio Source Extraction
- Авторы: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
- Классификация: eess.AS (обработка аудиосигналов)
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13308
Экстракция аудиоисточников на основе запроса направлена на восстановление целевого источника из смешанного аудио в соответствии с условиями запроса. Существующие методы в основном ограничены одноканальным аудио и не полностью используют пространственную информацию из многоканальных записей. В данной работе предлагается структура пространственной экстракции аудиоисточников на основе запроса для восстановления чистого целевого сигнала из смешанного аудио первого порядка амбисоники (FOA). Метод поддерживает аудиоподсказки или текстовые подсказки в качестве условных входных данных, обеспечивая гибкую сквозную экстракцию. Ядром модели является трёхосевой Transformer, совместно моделирующий временные, частотные и пространственно-канальные зависимости. Модель использует встраивания контрастного языково-аудиопредварительного обучения (CLAP), реализуя унифицированное кондиционирование аудио-текста через модуляцию признаков (FiLM). Для устранения дорогостоящих затрат на аннотирование и повышения способности к обобщению предлагается конвейер немаркированных данных, динамически генерирующий пространственно смешанное аудио и соответствующие целевые данные для обучения. Экспериментальные результаты демонстрируют высокое качество разделения, подтверждая эффективность многомодального кондиционирования и трёхосевого моделирования.
Разделение аудиоисточников является фундаментальной задачей обработки аудиосигналов, направленной на восстановление отдельных звуковых событий из сложного смешанного аудио. С развитием иммерсивных медиа, AR/VR, слуховых аппаратов и взаимодействия человека с машиной растёт потребность в обработке пространственного аудио.
- Недостаточное использование пространственной информации: Большинство существующих методов сосредоточены на временном моделировании или представлении время-частота, не полностью используя пространственные сигналы, критически важные для восприятия человеческим слухом
- Обучение, специфичное для класса: Многие системы разделения используют обучение, специфичное для класса, что ограничивает способность к обобщению и применимость в разнообразных реальных сценариях
- Ограничение одноканальностью: Хотя некоторые исследования изучают разделение целевого звука с использованием многомодальных сигналов, они остаются ограниченными одноканальным аудио
- Вызовы в среде с реверберацией: Традиционные методы пространственной фильтрации или формирования луча плохо работают в условиях сильной пространственной реверберации
Разработка структуры, способной совместно захватывать временные и пространственные зависимости при поддержке сквозного разделения на основе запроса, остаётся открытой проблемой. Данная работа направлена на заполнение этого пробела, предлагая методы для надёжного и высокоточного разделения в условиях реверберации и акустической сложности.
- Предложение структуры BSAST: Band-split Spatial Audio Separation Transformer, совместно моделирующий временные, частотные и пространственно-канальные сигналы для надёжной экстракции в условиях реверберации
- Введение механизма кондиционирования CLAP: Механизм кондиционирования запроса на основе CLAP, поддерживающий оба типа запросов — аудио и текст, выходящий за рамки фиксированных установок класса
- Разработка конвейера немаркированных данных: Динамическое генерирование пространственно смешанного аудио и соответствующих целевых данных, повышающее масштабируемость обучения без дорогостоящих ручных аннотаций
- Установление новой парадигмы: Создание новой парадигмы для высокоточного пространственного разделения аудио в иммерсивных приложениях
Дано многоканальное смешанное аудио в формате FOA X∈RC×L (C — количество каналов, L — количество аудиосэмплов), процесс генерирования смешанного аудио определяется как:
X=∑i=1Msi∗Hi+N
где M — количество источников, si — чистый сигнал источника, Hi — соответствующий многоканальный импульсный отклик помещения, * обозначает свёртку, N обозначает ненаправленный фоновый шум.
Цель состоит в оценке соответствующего чистого целевого сигнала из смешанного аудио в соответствии с запросом q (аудиопример или текстовое описание):
s^q=fθ(X,q)
Структура BSAST включает четыре основных модуля:
- Кодировщик с разделением полос: Разделяет спектр на несколько поддиапазонов и извлекает скрытые встраивания
- Модуль кондиционирования CLAP: Внедряет семантическое руководство запроса через FiLM
- Трёхосевой RoPE Transformer: Моделирует зависимости вдоль временного, частотного и канального измерений
- Модуль оценки спектра: Непосредственно предсказывает целевой спектр
Использует стратегию разделения полос для разделения входного спектра на N неперекрывающихся частотных поддиапазонов:
- Преобразует комплексный спектрограмм в вещественную область (разделяет действительную и мнимую части)
- Разделяет на N поддиапазонов Bn∈RC×T×Fn
- Каждый поддиапазон генерирует встраивание Zn∈RC×T×D через нормализацию RMS и линейную проекцию
- Складывает вдоль оси поддиапазона, получая Z∈RC×T×N×D
Использует механизм FiLM для внедрения встраиваний CLAP:
- Встраивание CLAP e∈Rd отображается в 2D-вектор через двухслойную полносвязную сеть
- Разделяется на параметр масштабирования γ и параметр смещения β
- Модуляция признаков: FiLM(Z,γ,β)=γ⊙Z+β
Каждый блок Transformer последовательно применяет осевое внимание вдоль временного, частотного и канального осей:
- Использует RoPE для кодирования зависимостей относительного положения
- Механизм многоголового внимания для обработки взаимодействий по каждой оси
- Остаточные соединения и сети прямого распространения
Непосредственно предсказывает амплитудный спектр целевого источника:
- Каждый поддиапазон генерирует оценочный спектр B^n через MLP
- Объединяет все поддиапазоны вдоль частотной оси
- Агрегирует многоканальную информацию через модуль слияния каналов
- Трёхосевое моделирование: Впервые одновременно моделирует зависимости временного, частотного и пространственного измерений в разделении аудио
- Многомодальные запросы: Унифицированно поддерживает как аудио, так и текстовые запросы, обеспечивая гибкое взаимодействие
- Обучение без разметки: Генерирует псевдозапросы через возмущение встраиваний CLAP без необходимости в параллельных аннотированных данных
- Использование пространственной информации: Полностью использует пространственные сигналы формата FOA для разделения источников
Использует официальный набор данных DCASE 2025 Task 4:
- Чистые источники: Anechoic Sound Event 1K, FSD50K, EARS
- Импульсные отклики помещения: RIR, записанные в формате FOA
- Фоновый шум: FOA-MEIR, FSD50K, ESC-50, DISCO
- Аудиоспецификация: Частота дискретизации 32 кГц, 16-битное квантование
- Смешанное аудио: Длительность 10 секунд, максимум 3 одновременно перекрывающихся события
- SI-SDR (масштабно-инвариантное отношение сигнал-искажение)
- SDR (отношение сигнал-искажение)
- Параметры STFT: Длина окна Ханна 2048, размер сдвига 1024
- Разделение частотных полос: 25 неперекрывающихся поддиапазонов
- Параметры модели: Размерность признаков 128, 8 блоков Transformer, 4 головы внимания
- Оптимизатор: AdamW, скорость обучения 3×10⁻⁴, затухание веса 1×10⁻²
- Обучение: Максимум 300 эпох, 2000 образцов за эпоху
Объединяет потери SI-SDR и L1-реконструкции:
L=LSI-SDR+λL1
где λ=100
| Конфигурация каналов | Аудиоусловие | | Текстовое условие | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| wxyz (полная FOA) | 7.296 | 8.595 | 4.098 | 5.664 |
| w (только всенаправленный канал) | 5.833 | 6.785 | 4.101 | 4.557 |
Ключевые выводы:
- Конфигурация полной FOA значительно превосходит одноканальную конфигурацию, подтверждая важность пространственной информации
- Производительность аудиозапроса превосходит производительность текстового запроса
- Модель хорошо обрабатывает текстовые запросы даже при обучении только с аудиозапросами
| Количество блоков Transformer | Аудиоусловие | | Текстовое условие | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| 4 | 4.791 | 6.273 | 2.435 | 3.052 |
| 6 | 6.426 | 7.752 | 3.871 | 4.459 |
| 8 | 7.296 | 8.595 | 4.098 | 5.664 |
Анализ результатов:
- Увеличение количества блоков Transformer постоянно улучшает производительность
- Конфигурация с 8 блоками достигает оптимальных результатов
- Демонстрирует хорошую масштабируемость модели
На рисунке 2 показаны примеры разделения с использованием текстовых запросов, где модель точно извлекает целевые звуки, такие как "печать" и "наливание", сохраняя высокую точность и чёткость.
Традиционные методы в основном сосредоточены на одноканальном или стереоразделении, достигли прогресса в временном моделировании и представлении время-частота, но недостаточно используют пространственные сигналы.
Недавние исследования изучают разделение целевого звука с использованием многомодальных сигналов, но в основном ограничены одноканальным аудио и не полностью используют пространственную информацию.
Традиционные методы пространственной фильтрации и формирования луча имеют ограниченную производительность в условиях сильной реверберации, требуя более мощных методов глубокого обучения.
- Трёхосевой Transformer эффективно моделирует зависимости время-частота-пространство
- Кондиционирование CLAP обеспечивает гибкие многомодальные запросы
- Конвейер немаркированных данных повышает эффективность обучения и способность к обобщению
- Пространственная информация критически важна для высокого качества разделения аудио
- Проверено только на формате FOA, не расширено на другие многоканальные форматы
- Производительность текстового запроса остаётся ниже производительности аудиозапроса
- Высокая вычислительная сложность требует оптимизации для приложений реального времени
- Надёжность в условиях экстремальной реверберации требует дальнейшей проверки
- Расширение на дополнительные форматы пространственного аудио
- Повышение производительности разделения текстовых запросов
- Сжатие модели и оптимизация ускорения
- Обучение на больших наборах данных
- Сильная техническая инновативность: Впервые предлагает структуру пространственного разделения аудио с трёхосевым моделированием
- Высокая практическая ценность: Поддерживает многомодальные запросы, применимо к иммерсивным приложениям
- Полнота методологии: Формирует полный конвейер от генерирования данных до проектирования модели
- Достаточные эксперименты: Включает абляционные исследования и сравнительный анализ
- Ограниченный диапазон оценки: Проверено только на одном наборе данных
- Вычислительная эффективность: Трёхосевое моделирование увеличивает вычислительную сложность
- Недостаточный теоретический анализ: Отсутствует анализ сходимости и способности к обобщению методологии
- Рассмотрение реального времени: Не обсуждается осуществимость обработки в реальном времени
- Академический вклад: Устанавливает новую парадигму для пространственного разделения аудио
- Перспективы применения: Имеет широкие применения в AR/VR, слуховых аппаратах и других областях
- Воспроизводимость: Предоставляет подробные детали реализации
- Вдохновляющий характер: Предлагает новые идеи для многомодальной обработки аудио
- Иммерсивные медиа: Обработка аудио в среде VR/AR
- Интеллектуальное слухопротезирование: Персонализированное усиление звука
- Системы конференций: Разделение речи в многопользовательских конференциях
- Взаимодействие робота: Понимание звука в сложных средах
Статья цитирует 25 соответствующих работ, охватывающих разделение аудиоисточников, обработку пространственного аудио, глубокое обучение и другие важные области, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Данная работа предлагает инновационную структуру пространственного разделения аудио с полной технической схемой и достаточной экспериментальной проверкой, достигая значительного прогресса в использовании многомодальных запросов и пространственной информации, закладывая основу для иммерсивных аудиоприложений. Несмотря на некоторые ограничения, общий вклад является значительным с важной академической ценностью и перспективами применения.