AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Rong, Li, Yu et al.
Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.
academic
AudioGenie-Reasoner: Ein trainingsfreies Multi-Agent-Framework für schrittweise Audio-Tiefenreasonierung
Audio-Tiefenreasonierung ist eine anspruchsvolle Aufgabe, die Expertenwissen in der Wahrnehmung, mehrstufiges logisches Schlussfolgern und die Integration von Kontextwissen erfordert. Bestehende Modelle weisen Lücken zwischen Audio-Wahrnehmungs- und Reasonierungsfähigkeiten auf, da ihnen Trainingsdaten mit expliziten Reasonierungsketten fehlen und sie keine aktiven Explorations- und iterativen Optimierungsmechanismen besitzen. Um diese Herausforderungen zu bewältigen, wird AudioGenie-Reasoner (AGR) vorgestellt – das erste einheitliche trainingsfreie Multi-Agent-System, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert. Die Kernidee besteht darin, Audio-Tiefenreasonierung durch einen Paradigmenwechsel in eine komplexe Textverständnisaufgabe umzuwandeln und damit das volle Potenzial großer Sprachmodelle freizusetzen.
Mangel an Trainingsdaten: Fehlende hochwertige Audio-Reasonierungsdaten mit expliziten Reasonierungsketten; deren Erstellung ist ressourcenintensiv
Fehlende Reasonierungsmechanismen: Bestehende Modelle mangelt es an aktiven Explorations- und iterativen Optimierungsmechanismen; sie sind typischerweise passive Informationsempfänger, die Antworten basierend auf einzelnen Wahrnehmungsergebnissen generieren
Die meisten Audio-Großsprachmodelle (ALLMs) werden nur auf einfache Ziele trainiert, wie Audio-Text-Ausrichtung oder direkte Frage-Antwort-Systeme
Die Reasonierungsfähigkeit nimmt in komplexen Szenen mit gemischten Audioquellen (wie Sprache, Musik, Soundeffekte) drastisch ab
Es fehlt die Fähigkeit, Evidenzlücken zu diagnostizieren, die Beschaffung fehlender Informationen zu planen oder das Verständnis schrittweise zu vertiefen
Erstes Multi-Agent-System für Audio-Tiefenreasonierung: Vorstellung eines einheitlichen trainingsfreien Multi-Agent-Systems AGR, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert
Innovation durch Paradigmenwechsel: Umwandlung von Audio-Reasonierungsproblemen in Textverständnisaufgaben, Entkopplung von Wahrnehmung und Kognition, Freisetzung des Reasonierungs-Potenzials von LLMs
Aktives iteratives Optimierungs-Framework: Entwurf einer neuartigen aktiven iterativen Dokumentoptimierungs-Schleife, die durch werkzeuggestützte Pfade und spezialisierte Agenten dynamisch fehlende Informationen sucht
SOTA-Leistung: Erreichen von State-of-the-Art-Leistung auf mehreren Audio-Tiefenreasonierungs-Benchmarks, deutlich überlegen gegenüber bestehenden Open-Source-Modellen
Gegeben seien eine Audio-Eingabe A, eine Frage Q und eine Liste von Kandidatantworten L. Das Ziel besteht darin, die richtige Antwort auszuwählen und einen detaillierten Reasonierungsprozess bereitzustellen.
wobei F_caption(·) ein auf starkem ALLM basierendes Audio-Beschriftungsmodul ist, das das ursprüngliche Audio A in ein grobkörniges Textdokument D₀ umwandelt.
Diese Schleife enthält vier spezialisierte Agenten:
Planungs-Agent (Planning Agent)
(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)
Bewertet, ob das aktuelle Dokument ausreichende Evidenz enthält, und gibt einen Statusflag s ∈ {Sufficient, Insufficient} zurück.
Interaktions-Agent (Interaction Agent)
P = F_interact(D_i, H_{i+1})
Erstellt bei unzureichender Evidenz einen strukturierten Plan P zur Beschaffung fehlender Informationen, einschließlich drei Werkzeugoperationen:
Audio-Frage-Antwort
Gelenkte Neubeschriftung
Automatische Spracherkennung
Augmentierungs-Agent (Augmentation Agent)
D_{i+1} = D_i ⊕ E_new
Führt Plan P aus, ruft angegebene Werkzeuge auf, um neue Evidenz E_new zu generieren und in das bestehende Dokument zu integrieren.
Antwort-Agent (Answering Agent)
(A*, S_c, R) = F_answer(D_f, Q, L)
Generiert basierend auf dem endgültig optimierten Dokument D_f die endgültige Antwort A*, Konfidenz-Score S_c und detaillierten Reasonierungsprozess R.
Entkopplung von Wahrnehmung und Kognition: Elegante Umgehung der Notwendigkeit spezialisierter Audio-Reasonierungs-Datensätze durch Umwandlung von Audio in Text
"Diagnose-Planung-Ausführung"-Schleife: Umwandlung des Modells von passivem Informationsempfänger zu aktivem selbstverbesserndem Ermittler
Werkzeuggestützte Pfade: Integration mehrerer Audio-Verarbeitungswerkzeuge zur Unterstützung multimodaler Informationsbeschaffung und -integration
Schrittweise Kognitiver Prozess: Simulation menschlicher Kognitiver Prozesse von grober Erfassung zu detaillierter Analyse
Verwendung der Standardbewertungsmethoden von MMAU und MMAR mit regulären Ausdrücken und String-Matching zum Vergleich von Modellvorhersagen mit Ground-Truth-Antworten.
Das Paper zeigt einen klassischen "April Fools"-Fall, bei dem andere Modelle fälschlicherweise eine echte Abschiedserklärung interpretierten, während AGR durch iterative Optimierung korrekt erkannte, dass es sich um einen Aprilscherz handelt, was seine Tiefenreasonierungs-Fähigkeiten demonstriert.
Das Paper zitiert 20 relevante Arbeiten, die wichtige Arbeiten aus mehreren Bereichen abdecken, einschließlich Audio-Verständnis, Multi-Agent-Systeme und großer Sprachmodelle, und bietet eine solide theoretische Grundlage für die Forschung.
Zusammenfassung: AudioGenie-Reasoner löst erfolgreich Schlüsselherausforderungen in Audio-Tiefenreasonierung durch innovativen Paradigmenwechsel und Multi-Agent-Kooperationsmechanismen und erreicht signifikante Leistungsverbesserungen auf mehreren Benchmarks. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet auch neue Perspektiven und Richtungen für die Entwicklung des Audio-Verständnis-Bereichs.