2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.

Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.

academic

К многомодальной пространственной экстракции аудиоисточников на основе запроса

Основная информация

ID статьи: 2510.13308
Название: Towards Multimodal Query-Based Spatial Audio Source Extraction
Авторы: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
Классификация: eess.AS (обработка аудиосигналов)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13308

Аннотация

Экстракция аудиоисточников на основе запроса направлена на восстановление целевого источника из смешанного аудио в соответствии с условиями запроса. Существующие методы в основном ограничены одноканальным аудио и не полностью используют пространственную информацию из многоканальных записей. В данной работе предлагается структура пространственной экстракции аудиоисточников на основе запроса для восстановления чистого целевого сигнала из смешанного аудио первого порядка амбисоники (FOA). Метод поддерживает аудиоподсказки или текстовые подсказки в качестве условных входных данных, обеспечивая гибкую сквозную экстракцию. Ядром модели является трёхосевой Transformer, совместно моделирующий временные, частотные и пространственно-канальные зависимости. Модель использует встраивания контрастного языково-аудиопредварительного обучения (CLAP), реализуя унифицированное кондиционирование аудио-текста через модуляцию признаков (FiLM). Для устранения дорогостоящих затрат на аннотирование и повышения способности к обобщению предлагается конвейер немаркированных данных, динамически генерирующий пространственно смешанное аудио и соответствующие целевые данные для обучения. Экспериментальные результаты демонстрируют высокое качество разделения, подтверждая эффективность многомодального кондиционирования и трёхосевого моделирования.

Исследовательский контекст и мотивация

Определение задачи

Разделение аудиоисточников является фундаментальной задачей обработки аудиосигналов, направленной на восстановление отдельных звуковых событий из сложного смешанного аудио. С развитием иммерсивных медиа, AR/VR, слуховых аппаратов и взаимодействия человека с машиной растёт потребность в обработке пространственного аудио.

Ограничения существующих методов

Недостаточное использование пространственной информации: Большинство существующих методов сосредоточены на временном моделировании или представлении время-частота, не полностью используя пространственные сигналы, критически важные для восприятия человеческим слухом
Обучение, специфичное для класса: Многие системы разделения используют обучение, специфичное для класса, что ограничивает способность к обобщению и применимость в разнообразных реальных сценариях
Ограничение одноканальностью: Хотя некоторые исследования изучают разделение целевого звука с использованием многомодальных сигналов, они остаются ограниченными одноканальным аудио
Вызовы в среде с реверберацией: Традиционные методы пространственной фильтрации или формирования луча плохо работают в условиях сильной пространственной реверберации

Исследовательская мотивация

Разработка структуры, способной совместно захватывать временные и пространственные зависимости при поддержке сквозного разделения на основе запроса, остаётся открытой проблемой. Данная работа направлена на заполнение этого пробела, предлагая методы для надёжного и высокоточного разделения в условиях реверберации и акустической сложности.

Основные вклады

Предложение структуры BSAST: Band-split Spatial Audio Separation Transformer, совместно моделирующий временные, частотные и пространственно-канальные сигналы для надёжной экстракции в условиях реверберации
Введение механизма кондиционирования CLAP: Механизм кондиционирования запроса на основе CLAP, поддерживающий оба типа запросов — аудио и текст, выходящий за рамки фиксированных установок класса
Разработка конвейера немаркированных данных: Динамическое генерирование пространственно смешанного аудио и соответствующих целевых данных, повышающее масштабируемость обучения без дорогостоящих ручных аннотаций
Установление новой парадигмы: Создание новой парадигмы для высокоточного пространственного разделения аудио в иммерсивных приложениях

Подробное описание методологии

Определение задачи

Дано многоканальное смешанное аудио в формате FOA $X \in \mathbb{R}^{C \times L}$ (C — количество каналов, L — количество аудиосэмплов), процесс генерирования смешанного аудио определяется как:

$X = \sum_{i=1}^{M} s_i * H_i + N$

где M — количество источников, $s_i$ — чистый сигнал источника, $H_i$ — соответствующий многоканальный импульсный отклик помещения, * обозначает свёртку, N обозначает ненаправленный фоновый шум.

Цель состоит в оценке соответствующего чистого целевого сигнала из смешанного аудио в соответствии с запросом q (аудиопример или текстовое описание): $\hat{s}_q = f_\theta(X, q)$

Архитектура модели

1. Обзор системы

Структура BSAST включает четыре основных модуля:

Кодировщик с разделением полос: Разделяет спектр на несколько поддиапазонов и извлекает скрытые встраивания
Модуль кондиционирования CLAP: Внедряет семантическое руководство запроса через FiLM
Трёхосевой RoPE Transformer: Моделирует зависимости вдоль временного, частотного и канального измерений
Модуль оценки спектра: Непосредственно предсказывает целевой спектр

2. Кодировщик с разделением полос

Использует стратегию разделения полос для разделения входного спектра на N неперекрывающихся частотных поддиапазонов:

Преобразует комплексный спектрограмм в вещественную область (разделяет действительную и мнимую части)
Разделяет на N поддиапазонов $B_n \in \mathbb{R}^{C \times T \times F_n}$
Каждый поддиапазон генерирует встраивание $Z_n \in \mathbb{R}^{C \times T \times D}$ через нормализацию RMS и линейную проекцию
Складывает вдоль оси поддиапазона, получая $Z \in \mathbb{R}^{C \times T \times N \times D}$

3. Кондиционирование CLAP

Использует механизм FiLM для внедрения встраиваний CLAP:

Встраивание CLAP $e \in \mathbb{R}^d$ отображается в 2D-вектор через двухслойную полносвязную сеть
Разделяется на параметр масштабирования $\gamma$ и параметр смещения $\beta$
Модуляция признаков: $\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta$

4. Трёхосевой RoPE Transformer

Каждый блок Transformer последовательно применяет осевое внимание вдоль временного, частотного и канального осей:

Использует RoPE для кодирования зависимостей относительного положения
Механизм многоголового внимания для обработки взаимодействий по каждой оси
Остаточные соединения и сети прямого распространения

5. Модуль оценки спектра

Непосредственно предсказывает амплитудный спектр целевого источника:

Каждый поддиапазон генерирует оценочный спектр $\hat{B}_n$ через MLP
Объединяет все поддиапазоны вдоль частотной оси
Агрегирует многоканальную информацию через модуль слияния каналов

Технические инновации

Трёхосевое моделирование: Впервые одновременно моделирует зависимости временного, частотного и пространственного измерений в разделении аудио
Многомодальные запросы: Унифицированно поддерживает как аудио, так и текстовые запросы, обеспечивая гибкое взаимодействие
Обучение без разметки: Генерирует псевдозапросы через возмущение встраиваний CLAP без необходимости в параллельных аннотированных данных
Использование пространственной информации: Полностью использует пространственные сигналы формата FOA для разделения источников

Экспериментальная установка

Наборы данных

Использует официальный набор данных DCASE 2025 Task 4:

Чистые источники: Anechoic Sound Event 1K, FSD50K, EARS
Импульсные отклики помещения: RIR, записанные в формате FOA
Фоновый шум: FOA-MEIR, FSD50K, ESC-50, DISCO
Аудиоспецификация: Частота дискретизации 32 кГц, 16-битное квантование
Смешанное аудио: Длительность 10 секунд, максимум 3 одновременно перекрывающихся события

Метрики оценки

SI-SDR (масштабно-инвариантное отношение сигнал-искажение)
SDR (отношение сигнал-искажение)

Детали реализации

Параметры STFT: Длина окна Ханна 2048, размер сдвига 1024
Разделение частотных полос: 25 неперекрывающихся поддиапазонов
Параметры модели: Размерность признаков 128, 8 блоков Transformer, 4 головы внимания
Оптимизатор: AdamW, скорость обучения 3×10⁻⁴, затухание веса 1×10⁻²
Обучение: Максимум 300 эпох, 2000 образцов за эпоху

Целевая функция обучения

Объединяет потери SI-SDR и L1-реконструкции: $L = L_{\text{SI-SDR}} + \lambda L_1$ где $\lambda = 100$

Экспериментальные результаты

Основные результаты

Конфигурация каналов	Аудиоусловие		Текстовое условие
	SI-SDR	SDR	SI-SDR	SDR
wxyz (полная FOA)	7.296	8.595	4.098	5.664
w (только всенаправленный канал)	5.833	6.785	4.101	4.557

Ключевые выводы:

Конфигурация полной FOA значительно превосходит одноканальную конфигурацию, подтверждая важность пространственной информации
Производительность аудиозапроса превосходит производительность текстового запроса
Модель хорошо обрабатывает текстовые запросы даже при обучении только с аудиозапросами

Абляционные исследования

Количество блоков Transformer	Аудиоусловие		Текстовое условие
	SI-SDR	SDR	SI-SDR	SDR
4	4.791	6.273	2.435	3.052
6	6.426	7.752	3.871	4.459
8	7.296	8.595	4.098	5.664

Анализ результатов:

Увеличение количества блоков Transformer постоянно улучшает производительность
Конфигурация с 8 блоками достигает оптимальных результатов
Демонстрирует хорошую масштабируемость модели

Анализ примеров

На рисунке 2 показаны примеры разделения с использованием текстовых запросов, где модель точно извлекает целевые звуки, такие как "печать" и "наливание", сохраняя высокую точность и чёткость.

Связанные работы

Разделение аудиоисточников

Традиционные методы в основном сосредоточены на одноканальном или стереоразделении, достигли прогресса в временном моделировании и представлении время-частота, но недостаточно используют пространственные сигналы.

Разделение на основе условного запроса

Недавние исследования изучают разделение целевого звука с использованием многомодальных сигналов, но в основном ограничены одноканальным аудио и не полностью используют пространственную информацию.

Обработка пространственного аудио

Традиционные методы пространственной фильтрации и формирования луча имеют ограниченную производительность в условиях сильной реверберации, требуя более мощных методов глубокого обучения.

Заключение и обсуждение

Основные выводы

Трёхосевой Transformer эффективно моделирует зависимости время-частота-пространство
Кондиционирование CLAP обеспечивает гибкие многомодальные запросы
Конвейер немаркированных данных повышает эффективность обучения и способность к обобщению
Пространственная информация критически важна для высокого качества разделения аудио

Ограничения

Проверено только на формате FOA, не расширено на другие многоканальные форматы
Производительность текстового запроса остаётся ниже производительности аудиозапроса
Высокая вычислительная сложность требует оптимизации для приложений реального времени
Надёжность в условиях экстремальной реверберации требует дальнейшей проверки

Будущие направления

Расширение на дополнительные форматы пространственного аудио
Повышение производительности разделения текстовых запросов
Сжатие модели и оптимизация ускорения
Обучение на больших наборах данных

Глубокая оценка

Преимущества

Сильная техническая инновативность: Впервые предлагает структуру пространственного разделения аудио с трёхосевым моделированием
Высокая практическая ценность: Поддерживает многомодальные запросы, применимо к иммерсивным приложениям
Полнота методологии: Формирует полный конвейер от генерирования данных до проектирования модели
Достаточные эксперименты: Включает абляционные исследования и сравнительный анализ

Недостатки

Ограниченный диапазон оценки: Проверено только на одном наборе данных
Вычислительная эффективность: Трёхосевое моделирование увеличивает вычислительную сложность
Недостаточный теоретический анализ: Отсутствует анализ сходимости и способности к обобщению методологии
Рассмотрение реального времени: Не обсуждается осуществимость обработки в реальном времени

Влияние

Академический вклад: Устанавливает новую парадигму для пространственного разделения аудио
Перспективы применения: Имеет широкие применения в AR/VR, слуховых аппаратах и других областях
Воспроизводимость: Предоставляет подробные детали реализации
Вдохновляющий характер: Предлагает новые идеи для многомодальной обработки аудио

Применимые сценарии

Иммерсивные медиа: Обработка аудио в среде VR/AR
Интеллектуальное слухопротезирование: Персонализированное усиление звука
Системы конференций: Разделение речи в многопользовательских конференциях
Взаимодействие робота: Понимание звука в сложных средах

Библиография

Статья цитирует 25 соответствующих работ, охватывающих разделение аудиоисточников, обработку пространственного аудио, глубокое обучение и другие важные области, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Данная работа предлагает инновационную структуру пространственного разделения аудио с полной технической схемой и достаточной экспериментальной проверкой, достигая значительного прогресса в использовании многомодальных запросов и пространственной информации, закладывая основу для иммерсивных аудиоприложений. Несмотря на некоторые ограничения, общий вклад является значительным с важной академической ценностью и перспективами применения.