2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: Свободный от обучения многоагентный фреймворк для глубокого рассуждения над аудио от грубого к точному

Основная информация

ID статьи: 2509.16971
Название: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Авторы: Ян Ронг¹, Чэньсин Ли², Дун Юй², Ли Лю¹ (¹Гуандунский технологический университет Гонконга, ²Tencent AI Lab)
Классификация: cs.SD (Sound), eess.AS (Audio and Speech Processing)
Дата публикации: 15 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2509.16971
Ссылка на код: https://github.com/ryysayhi/AudioGenie-Reasoner

Аннотация

Глубокое рассуждение над аудио является сложной задачей, требующей восприятия экспертного уровня, многошагового логического вывода и интеграции контекстных знаний. Существующие модели демонстрируют разрыв между способностями восприятия аудио и рассуждения из-за отсутствия обучающих данных с явными цепочками рассуждений и недостатка механизмов активного исследования и итеративной оптимизации. Для решения этих проблем в статье предлагается AudioGenie-Reasoner (AGR) — первая унифицированная система, свободная от обучения, которая координирует восприятие и рассуждение на постоянно развивающейся цепочке текстовых доказательств. Ключевая идея заключается в преобразовании парадигмы глубокого рассуждения над аудио в задачу сложного понимания текста, раскрывая полный потенциал больших языковых моделей.

Исследовательский контекст и мотивация

Определение проблемы

Задача глубокого рассуждения над аудио требует от модели:

Восприятие экспертного уровня: точное понимание сложных звуковых сцен
Многошаговое логическое рассуждение: проведение сложных логических выводов
Интеграция контекстных знаний: комплексный анализ с использованием фоновых знаний

Основные вызовы

Дефицит обучающих данных: отсутствие высококачественных данных для рассуждения над аудио с явными цепочками рассуждений; создание таких ресурсов требует больших затрат
Отсутствие механизмов рассуждения: существующие модели лишены механизмов активного исследования и итеративной оптимизации, обычно являясь пассивными получателями информации, генерирующими ответы на основе единственного результата восприятия

Ограничения существующих подходов

Большинство аудиобольших языковых моделей (ALLMs) обучаются только на простых задачах, таких как выравнивание аудио-текста или прямое ответ на вопросы
Способность к рассуждению резко снижается в сложных сценариях со смешанными звуковыми источниками (речь, музыка, звуковые эффекты)
Отсутствует способность диагностировать пробелы в доказательствах, планировать получение недостающей информации или постепенно углублять понимание

Основные вклады

Первая многоагентная система для глубокого рассуждения над аудио: предложена унифицированная система AGR, свободная от обучения, которая координирует восприятие и рассуждение на постоянно развивающейся цепочке текстовых доказательств
Инновация в преобразовании парадигмы: преобразование задачи рассуждения над аудио в задачу понимания текста, разделение восприятия и когнитивных процессов, раскрытие потенциала рассуждения LLM
Фреймворк активной итеративной оптимизации: разработан новый цикл активной итеративной оптимизации документов, динамический поиск недостающей информации через пути, усиленные инструментами, и специализированные агенты
Производительность SOTA: достижение передовых результатов на нескольких эталонах глубокого рассуждения над аудио, значительное превосходство над существующими открытыми моделями

Подробное описание метода

Определение задачи

Дано аудиовход A, вопрос Q и список кандидатов ответов L, цель состоит в выборе правильного ответа и предоставлении подробного процесса рассуждения.

Архитектура модели

1. Преобразование парадигмы: от рассуждения над аудио к пониманию текста

D₀ = F_caption(A)

где F_caption(·) — модуль генерации подписей к аудио, реализованная на основе мощного ALLM, преобразующая исходное аудио A в грубозернистый текстовый документ D₀.

2. Цикл активной итеративной оптимизации документов

Цикл содержит четырех специализированных агентов:

Агент планирования (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

Оценивает, содержит ли текущий документ достаточно доказательств, возвращает флаг состояния s ∈ {Sufficient, Insufficient}.

Агент взаимодействия (Interaction Agent)

P = F_interact(D_i, H_{i+1})

При недостаточности доказательств разрабатывает структурированный план расширения P для получения недостающей информации, включающий три типа операций с инструментами:

Вопросно-ответная система для аудио
Управляемое переформирование подписей
Автоматическое распознавание речи

Агент расширения (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

Выполняет план P, вызывает указанные инструменты для генерации новых доказательств E_new и интегрирует их в существующий документ.

Агент ответа (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

На основе финального оптимизированного документа D_f генерирует окончательный ответ A*, оценку уверенности S_c и подробный процесс рассуждения R.

Технические инновации

Разделение восприятия и когнитивных процессов: элегантное обхождение потребности в специализированных наборах данных для рассуждения над аудио путем преобразования аудио в текст
Цикл "диагностика-планирование-выполнение": преобразование модели из пассивного получателя информации в активного самосовершенствующегося исследователя
Пути, усиленные инструментами: интеграция различных инструментов обработки аудио, поддержка многомодального получения и интеграции информации
Когнитивный процесс от грубого к точному: моделирование человеческого когнитивного процесса от грубого понимания к детальному анализу

Экспериментальная установка

Наборы данных

MMAU-mini: содержит 1000 вопросов закрытого типа, охватывающих три типа аудио: звуки, музыку и речь
MMAR: более сложный эталон, содержащий аудио одного типа и различные смешанные аудио, отфильтрованные до 905 образцов

Метрики оценки

Используются стандартные методы оценки для MMAU и MMAR, сравнение предсказаний модели с истинными ответами с использованием регулярных выражений и сопоставления строк.

Методы сравнения

Открытые модели: серия Audio Flamingo, Qwen2.5-Omni-3B, Kimi-Audio-7B и др.
Коммерческие модели: Gemini-2.5-Flash, Gemini-2.0-Flash и др.
Базовые модели: MiDashengLM-7B, Audio-Reasoner и др.

Детали реализации

ALLM: MiDashengLM-7B
LLM: GPT-4o-2024-08-06
Модель транскрипции: Whisper-Turbo
Максимальное количество итераций: 3
Постобработка: использование GPT-4o для нормализации формата вывода

Результаты экспериментов

Основные результаты

Результаты эталона MMAU-mini:

AGR достигает средней точности 72,60%, превосходя все методы сравнения
Улучшение на 10,3 процентных пункта по сравнению с лучшей открытой моделью
Наиболее значительное улучшение в категории речи (15,0 процентных пункта)

Результаты эталона MMAR:

AGR достигает средней точности 58,85%
Выдающаяся производительность на задачах речи (69,23% против 56,15% у второго лучшего)
Значительное превосходство над существующими открытыми моделями на смешанных типах аудио

Абляционные исследования

Влияние выбора LLM: GPT-4o показывает значительное улучшение по сравнению с GPT-3.5-turbo на наборе данных MMAR
Тестирование замены ALLM: производительность различных ALLM сопоставима, что указывает на эквивалентные текущие возможности восприятия ALLM
Важность цикла итерации: удаление цикла итеративной оптимизации приводит к последовательному снижению производительности всех ALLM

Анализ количества итераций

MMAU-mini: оптимальная производительность достигается за 2 итерации (73,80%)
MMAR: оптимальная производительность достигается за 3 итерации (57,24%)
Чрезмерное количество итераций (4) вводит шум, приводящий к снижению производительности

Анализ случаев

В статье представлен классический случай "День дураков", где другие модели ошибочно интерпретировали его как подлинное заявление об уходе, тогда как AGR благодаря итеративной оптимизации правильно определил это как шутку в День дураков, демонстрируя свои способности к глубокому рассуждению.

Связанные работы

Область понимания аудио

Традиционные методы сосредоточены на выравнивании аудио-текста и прямом ответе на вопросы
Отсутствуют сложные способности к рассуждению, особенно в сценариях со смешанным аудио

Многоагентные системы

Применялись в области NLP, но в области глубокого рассуждения над аудио это первое исследование
Статья впервые вводит MAS в задачу рассуждения над аудио

Применение больших языковых моделей

LLM показывают отличные результаты в текстовом рассуждении
Статья успешно раскрывает потенциал LLM в рассуждении над аудио через преобразование парадигмы

Заключение и обсуждение

Основные выводы

AGR успешно преобразует глубокое рассуждение над аудио в задачу понимания текста, эффективно разделяя восприятие и когнитивные процессы
Цикл активной итеративной оптимизации значительно улучшает способности модели к рассуждению
Механизм многоагентного сотрудничества показывает отличные результаты в задачах рассуждения над аудио

Ограничения

Недостаточное рассуждение на уровне сигнала: текущий фреймворк имеет ограничения в рассуждении о низкоуровневых акустических признаках
Вычислительные затраты: многораундовая итерация и многоагентное сотрудничество увеличивают вычислительные издержки
Зависимость от качества LLM: производительность системы в значительной степени зависит от возможностей используемой LLM

Будущие направления

Разработка более специализированных генераторов доказательств для анализа низкоуровневых акустических признаков
Оптимизация стратегии итерации для снижения вычислительных затрат
Расширение на дополнительные задачи понимания аудио

Глубокая оценка

Преимущества

Инновационное преобразование парадигмы: идея преобразования рассуждения над аудио в понимание текста является новой и эффективной
Системный дизайн: фреймворк многоагентного сотрудничества полностью разработан с четко определенными ролями компонентов
Полные эксперименты: сравнительные эксперименты и абляционные исследования на нескольких эталонах достаточно всеобъемлющи
Высокая практическая ценность: свойство свободы от обучения облегчает развертывание и применение метода

Недостатки

Недостаточный теоретический анализ: отсутствует глубокий теоретический анализ того, почему это преобразование эффективно
Проблемы с вычислительной эффективностью: анализ вычислительных затрат многораундовой итерации недостаточно детален
Неизвестная способность к обобщению: производительность на других типах задач рассуждения над аудио недостаточно проверена
Риск распространения ошибок: последовательная обработка несколькими агентами может привести к накоплению ошибок

Влияние

Академический вклад: впервые вводит многоагентные системы в глубокое рассуждение над аудио, открывая новое направление исследований
Практическая ценность: свойство свободы от обучения и производительность SOTA обеспечивают хорошие перспективы применения
Воспроизводимость: обещание открытого исходного кода способствует последующим исследованиям

Применимые сценарии

Интеллектуальные помощники: диалоговые системы, требующие понимания сложных звуковых сцен
Автономные транспортные средства: системы восприятия окружающей среды, требующие рассуждения над аудио
Анализ контента: автоматическое понимание и классификация аудиоконтента
Образовательные приложения: интеллектуальный анализ и вопросно-ответная система для аудиоматериалов

Библиография

Статья цитирует 20 соответствующих работ, охватывающих несколько областей, включая понимание аудио, многоагентные системы и большие языковые модели, обеспечивая прочную теоретическую базу для исследования.

Резюме: AudioGenie-Reasoner успешно решает ключевые проблемы глубокого рассуждения над аудио благодаря инновационному преобразованию парадигмы и механизму многоагентного сотрудничества, достигая значительного улучшения производительности на нескольких эталонах. Эта работа не только инновационна в техническом плане, но также предоставляет новые идеи и направления для развития области понимания аудио.