2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

基本信息

论文ID: 2509.16971
标题: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
作者: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹香港科技大学(广州), ²腾讯AI Lab)
分类: cs.SD (Sound), eess.AS (Audio and Speech Processing)
发表时间: 2025年10月15日 (arXiv v2)
论文链接: https://arxiv.org/abs/2509.16971
代码链接: https://github.com/ryysayhi/AudioGenie-Reasoner

摘要

音频深度推理是一项具有挑战性的任务，需要专家级感知、多步逻辑推理和上下文知识整合。现有模型由于缺乏具有明确推理链的训练数据以及缺乏主动探索和迭代优化机制，在音频感知和推理能力之间存在差距。为解决这些挑战，本文提出了AudioGenie-Reasoner (AGR)，这是首个统一的免训练多智能体系统，能够在不断演进的文本证据链上协调感知和推理。核心思想是通过范式转换将音频深度推理转化为复杂的文本理解任务，从而释放大语言模型的全部潜力。

研究背景与动机

问题定义

音频深度推理任务要求模型具备：

专家级感知能力：准确理解复杂音频场景
多步逻辑推理：进行复杂的逻辑推断
上下文知识整合：结合背景知识进行综合分析

核心挑战

训练数据稀缺：缺乏包含明确推理链的高质量音频推理数据，构建此类数据资源密集
推理机制缺失：现有模型缺乏主动探索和迭代优化机制，通常是被动的信息接收者，基于单次感知结果生成答案

现有方法局限性

大多数音频大语言模型(ALLMs)仅在简单目标上训练，如音频-文本对齐或直接问答
在混合音频源(如语音、音乐、音效)的复杂场景中推理能力急剧下降
缺乏诊断证据缺口、规划获取缺失信息或逐步深化理解的能力

核心贡献

首个音频深度推理多智能体系统：提出了统一的免训练多智能体系统AGR，在不断演进的文本证据链上协调感知和推理
范式转换创新：将音频推理问题转化为文本理解任务，解耦感知和认知，释放LLM的推理潜力
主动迭代优化框架：设计了新颖的主动迭代文档优化循环，通过工具增强路径和专门智能体动态搜索缺失信息
SOTA性能：在多个音频深度推理基准测试中达到最先进性能，显著超越现有开源模型

方法详解

任务定义

给定音频输入A和问题Q以及候选答案列表L，目标是选择正确答案并提供详细推理过程。

模型架构

1. 范式转换：音频推理到文本理解

D₀ = F_caption(A)

其中F_caption(·)是基于强大ALLM实现的音频标题生成模块，将原始音频A转换为粗粒度文本文档D₀。

2. 主动迭代文档优化循环

该循环包含四个专门智能体：

规划智能体 (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

评估当前文档是否包含足够证据，返回状态标志s ∈ {Sufficient, Insufficient}。

交互智能体 (Interaction Agent)

P = F_interact(D_i, H_{i+1})

当证据不足时，制定获取缺失信息的结构化增强计划P，包括三种工具操作：

音频问答
引导式重新标题生成
自动语音识别

增强智能体 (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

执行计划P，调用指定工具生成新证据E_new并整合到现有文档中。

回答智能体 (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

基于最终优化文档D_f生成最终答案A*、置信度分数S_c和详细推理过程R。

技术创新点

感知-认知解耦：通过将音频转换为文本，优雅地绕过了对专门音频推理数据集的需求
"诊断-规划-执行"循环：将模型从被动信息接收者转变为主动的自我改进调查者
工具增强路径：集成多种音频处理工具，支持多模态信息获取和整合
粗到细认知过程：模拟人类认知过程，从粗略理解到详细分析

实验设置

数据集

MMAU-mini：包含1,000个封闭式问题，涵盖声音、音乐、语音三种音频类型
MMAR：更具挑战性的基准，包含单一音频类型和各种混合音频，经过滤后收集到905个样本

评价指标

采用MMAU和MMAR的标准评估方法，使用正则表达式和字符串匹配比较模型预测与真实答案。

对比方法

开源模型：Audio Flamingo系列、Qwen2.5-Omni-3B、Kimi-Audio-7B等
商业模型：Gemini-2.5-Flash、Gemini-2.0-Flash等
基础模型：MiDashengLM-7B、Audio-Reasoner等

实现细节

ALLM：MiDashengLM-7B
LLM：GPT-4o-2024-08-06
转录模型：Whisper-Turbo
最大迭代次数：3次
后处理：使用GPT-4o标准化输出格式

实验结果

主要结果

MMAU-mini基准测试结果：

AGR达到72.60%的平均准确率，超越所有对比方法
相比最佳开源模型提升10.3个百分点
在语音类别上提升最为显著(15.0个百分点)

MMAR基准测试结果：

AGR达到58.85%的平均准确率
在语音任务上表现突出(69.23% vs 次优的56.15%)
在混合音频类型上显著优于现有开源模型

消融实验

LLM选择影响：GPT-4o相比GPT-3.5-turbo在MMAR数据集上提升显著
ALLM替换测试：不同ALLM性能相近，说明当前ALLM感知能力相当
迭代循环重要性：移除迭代优化循环导致所有ALLM性能一致下降

迭代轮数分析

MMAU-mini：2轮迭代达到最佳性能(73.80%)
MMAR：3轮迭代达到最佳性能(57.24%)
过多轮次(4轮)会引入噪声导致性能下降

案例分析

论文展示了一个"April Fools"的经典案例，其他模型错误理解为真实的离开声明，而AGR通过迭代优化正确识别出这是愚人节玩笑，展现了其深度推理能力。

相关工作

音频理解领域

传统方法主要关注音频-文本对齐和直接问答
缺乏复杂推理能力，特别是在混合音频场景中

多智能体系统

在NLP领域已有应用，但在音频深度推理领域尚属首次探索
本文首次将MAS引入音频推理任务

大语言模型应用

LLM在文本推理方面表现优异
本文通过范式转换成功释放了LLM在音频推理中的潜力

结论与讨论

主要结论

AGR成功将音频深度推理转化为文本理解任务，有效解耦了感知和认知
主动迭代优化循环显著提升了模型的推理能力
多智能体协作机制在音频推理任务中表现出色

局限性

信号级推理不足：当前框架在低级声学线索的推理方面仍有限制
计算成本：多轮迭代和多智能体协作增加了计算开销
依赖LLM质量：系统性能很大程度上依赖于所使用的LLM能力

未来方向

开发更专业的证据生成器用于低级声学线索分析
优化迭代策略以减少计算成本
扩展到更多音频理解任务

深度评价

优点

创新的范式转换：将音频推理转化为文本理解的思路新颖且有效
系统性设计：多智能体协作框架设计完整，各组件职责明确
实验充分：在多个基准上的对比实验和消融实验较为全面
实用价值高：免训练特性使得方法易于部署和应用

不足

理论分析不足：缺乏对为什么这种转换有效的深入理论分析
计算效率问题：多轮迭代的计算成本分析不够详细
泛化能力未知：在其他类型音频推理任务上的表现未充分验证
错误传播风险：多智能体链式处理可能存在错误累积问题

影响力

学术贡献：首次将多智能体系统引入音频深度推理，开辟了新的研究方向
实用价值：免训练特性和SOTA性能使其具有良好的应用前景
可复现性：承诺开源代码，有利于后续研究

适用场景

智能助手：需要理解复杂音频场景的对话系统
自动驾驶：需要音频推理的环境感知系统
内容分析：音频内容的自动理解和分类
教育应用：音频材料的智能分析和问答

参考文献

本文引用了20篇相关文献，涵盖了音频理解、多智能体系统、大语言模型等多个领域的重要工作，为研究提供了坚实的理论基础。

总结：AudioGenie-Reasoner通过创新的范式转换和多智能体协作机制，成功解决了音频深度推理中的关键挑战，在多个基准测试中取得了显著的性能提升。该工作不仅在技术上具有创新性，也为音频理解领域的发展提供了新的思路和方向。