AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Rong, Li, Yu et al.
Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.
academic
AudioGenie-Reasoner: 훈련 없는 다중 에이전트 프레임워크를 통한 음성 심층 추론
음성 심층 추론은 전문가 수준의 인지, 다단계 논리 추론 및 맥락 지식 통합이 필요한 도전적인 작업입니다. 기존 모델은 명확한 추론 체인을 포함한 훈련 데이터 부족과 능동적 탐색 및 반복적 최적화 메커니즘 부재로 인해 음성 인지와 추론 능력 간의 격차가 존재합니다. 이러한 과제를 해결하기 위해 본 논문은 AudioGenie-Reasoner (AGR)을 제안합니다. 이는 진화하는 텍스트 증거 체인에서 인지와 추론을 조율할 수 있는 최초의 통합 훈련 없는 다중 에이전트 시스템입니다. 핵심 아이디어는 패러다임 전환을 통해 음성 심층 추론을 복잡한 텍스트 이해 작업으로 변환하여 대규모 언어 모델의 전체 잠재력을 활용하는 것입니다.
본 논문은 음성 이해, 다중 에이전트 시스템, 대규모 언어 모델 등 여러 분야의 중요한 연구를 포함하는 20편의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.
요약: AudioGenie-Reasoner는 혁신적인 패러다임 전환과 다중 에이전트 협력 메커니즘을 통해 음성 심층 추론의 핵심 과제를 성공적으로 해결하고 여러 벤치마크 테스트에서 현저한 성능 향상을 달성했습니다. 이 연구는 기술적으로 혁신적일 뿐만 아니라 음성 이해 분야의 발전을 위한 새로운 사고와 방향을 제공합니다.