AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Rong, Li, Yu et al.
Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.
academic
AudioGenie-Reasoner: Свободный от обучения многоагентный фреймворк для глубокого рассуждения над аудио от грубого к точному
Глубокое рассуждение над аудио является сложной задачей, требующей восприятия экспертного уровня, многошагового логического вывода и интеграции контекстных знаний. Существующие модели демонстрируют разрыв между способностями восприятия аудио и рассуждения из-за отсутствия обучающих данных с явными цепочками рассуждений и недостатка механизмов активного исследования и итеративной оптимизации. Для решения этих проблем в статье предлагается AudioGenie-Reasoner (AGR) — первая унифицированная система, свободная от обучения, которая координирует восприятие и рассуждение на постоянно развивающейся цепочке текстовых доказательств. Ключевая идея заключается в преобразовании парадигмы глубокого рассуждения над аудио в задачу сложного понимания текста, раскрывая полный потенциал больших языковых моделей.
Дефицит обучающих данных: отсутствие высококачественных данных для рассуждения над аудио с явными цепочками рассуждений; создание таких ресурсов требует больших затрат
Отсутствие механизмов рассуждения: существующие модели лишены механизмов активного исследования и итеративной оптимизации, обычно являясь пассивными получателями информации, генерирующими ответы на основе единственного результата восприятия
Первая многоагентная система для глубокого рассуждения над аудио: предложена унифицированная система AGR, свободная от обучения, которая координирует восприятие и рассуждение на постоянно развивающейся цепочке текстовых доказательств
Инновация в преобразовании парадигмы: преобразование задачи рассуждения над аудио в задачу понимания текста, разделение восприятия и когнитивных процессов, раскрытие потенциала рассуждения LLM
Фреймворк активной итеративной оптимизации: разработан новый цикл активной итеративной оптимизации документов, динамический поиск недостающей информации через пути, усиленные инструментами, и специализированные агенты
Производительность SOTA: достижение передовых результатов на нескольких эталонах глубокого рассуждения над аудио, значительное превосходство над существующими открытыми моделями
где F_caption(·) — модуль генерации подписей к аудио, реализованная на основе мощного ALLM, преобразующая исходное аудио A в грубозернистый текстовый документ D₀.
Оценивает, содержит ли текущий документ достаточно доказательств, возвращает флаг состояния s ∈ {Sufficient, Insufficient}.
Агент взаимодействия (Interaction Agent)
P = F_interact(D_i, H_{i+1})
При недостаточности доказательств разрабатывает структурированный план расширения P для получения недостающей информации, включающий три типа операций с инструментами:
Вопросно-ответная система для аудио
Управляемое переформирование подписей
Автоматическое распознавание речи
Агент расширения (Augmentation Agent)
D_{i+1} = D_i ⊕ E_new
Выполняет план P, вызывает указанные инструменты для генерации новых доказательств E_new и интегрирует их в существующий документ.
Агент ответа (Answering Agent)
(A*, S_c, R) = F_answer(D_f, Q, L)
На основе финального оптимизированного документа D_f генерирует окончательный ответ A*, оценку уверенности S_c и подробный процесс рассуждения R.
Разделение восприятия и когнитивных процессов: элегантное обхождение потребности в специализированных наборах данных для рассуждения над аудио путем преобразования аудио в текст
Цикл "диагностика-планирование-выполнение": преобразование модели из пассивного получателя информации в активного самосовершенствующегося исследователя
Пути, усиленные инструментами: интеграция различных инструментов обработки аудио, поддержка многомодального получения и интеграции информации
Когнитивный процесс от грубого к точному: моделирование человеческого когнитивного процесса от грубого понимания к детальному анализу
Используются стандартные методы оценки для MMAU и MMAR, сравнение предсказаний модели с истинными ответами с использованием регулярных выражений и сопоставления строк.
В статье представлен классический случай "День дураков", где другие модели ошибочно интерпретировали его как подлинное заявление об уходе, тогда как AGR благодаря итеративной оптимизации правильно определил это как шутку в День дураков, демонстрируя свои способности к глубокому рассуждению.
Статья цитирует 20 соответствующих работ, охватывающих несколько областей, включая понимание аудио, многоагентные системы и большие языковые модели, обеспечивая прочную теоретическую базу для исследования.
Резюме: AudioGenie-Reasoner успешно решает ключевые проблемы глубокого рассуждения над аудио благодаря инновационному преобразованию парадигмы и механизму многоагентного сотрудничества, достигая значительного улучшения производительности на нескольких эталонах. Эта работа не только инновационна в техническом плане, но также предоставляет новые идеи и направления для развития области понимания аудио.