2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: Ein trainingsfreies Multi-Agent-Framework für schrittweise Audio-Tiefenreasonierung

Grundinformationen

Paper-ID: 2509.16971
Titel: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Autoren: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹Hongkong University of Science and Technology (Guangzhou), ²Tencent AI Lab)
Klassifizierung: cs.SD (Sound), eess.AS (Audio and Speech Processing)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2509.16971
Code-Link: https://github.com/ryysayhi/AudioGenie-Reasoner

Zusammenfassung

Audio-Tiefenreasonierung ist eine anspruchsvolle Aufgabe, die Expertenwissen in der Wahrnehmung, mehrstufiges logisches Schlussfolgern und die Integration von Kontextwissen erfordert. Bestehende Modelle weisen Lücken zwischen Audio-Wahrnehmungs- und Reasonierungsfähigkeiten auf, da ihnen Trainingsdaten mit expliziten Reasonierungsketten fehlen und sie keine aktiven Explorations- und iterativen Optimierungsmechanismen besitzen. Um diese Herausforderungen zu bewältigen, wird AudioGenie-Reasoner (AGR) vorgestellt – das erste einheitliche trainingsfreie Multi-Agent-System, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert. Die Kernidee besteht darin, Audio-Tiefenreasonierung durch einen Paradigmenwechsel in eine komplexe Textverständnisaufgabe umzuwandeln und damit das volle Potenzial großer Sprachmodelle freizusetzen.

Forschungshintergrund und Motivation

Problemdefinition

Audio-Tiefenreasonierung erfordert von Modellen:

Expertenwissen in der Wahrnehmung: Genaues Verständnis komplexer Audioszenen
Mehrstufiges logisches Schlussfolgern: Durchführung komplexer logischer Schlussfolgerungen
Integration von Kontextwissen: Synthese von Hintergrundwissen für umfassende Analysen

Zentrale Herausforderungen

Mangel an Trainingsdaten: Fehlende hochwertige Audio-Reasonierungsdaten mit expliziten Reasonierungsketten; deren Erstellung ist ressourcenintensiv
Fehlende Reasonierungsmechanismen: Bestehende Modelle mangelt es an aktiven Explorations- und iterativen Optimierungsmechanismen; sie sind typischerweise passive Informationsempfänger, die Antworten basierend auf einzelnen Wahrnehmungsergebnissen generieren

Einschränkungen bestehender Methoden

Die meisten Audio-Großsprachmodelle (ALLMs) werden nur auf einfache Ziele trainiert, wie Audio-Text-Ausrichtung oder direkte Frage-Antwort-Systeme
Die Reasonierungsfähigkeit nimmt in komplexen Szenen mit gemischten Audioquellen (wie Sprache, Musik, Soundeffekte) drastisch ab
Es fehlt die Fähigkeit, Evidenzlücken zu diagnostizieren, die Beschaffung fehlender Informationen zu planen oder das Verständnis schrittweise zu vertiefen

Kernbeiträge

Erstes Multi-Agent-System für Audio-Tiefenreasonierung: Vorstellung eines einheitlichen trainingsfreien Multi-Agent-Systems AGR, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert
Innovation durch Paradigmenwechsel: Umwandlung von Audio-Reasonierungsproblemen in Textverständnisaufgaben, Entkopplung von Wahrnehmung und Kognition, Freisetzung des Reasonierungs-Potenzials von LLMs
Aktives iteratives Optimierungs-Framework: Entwurf einer neuartigen aktiven iterativen Dokumentoptimierungs-Schleife, die durch werkzeuggestützte Pfade und spezialisierte Agenten dynamisch fehlende Informationen sucht
SOTA-Leistung: Erreichen von State-of-the-Art-Leistung auf mehreren Audio-Tiefenreasonierungs-Benchmarks, deutlich überlegen gegenüber bestehenden Open-Source-Modellen

Methodische Details

Aufgabendefinition

Gegeben seien eine Audio-Eingabe A, eine Frage Q und eine Liste von Kandidatantworten L. Das Ziel besteht darin, die richtige Antwort auszuwählen und einen detaillierten Reasonierungsprozess bereitzustellen.

Modellarchitektur

1. Paradigmenwechsel: Von Audio-Reasoning zu Textverständnis

D₀ = F_caption(A)

wobei F_caption(·) ein auf starkem ALLM basierendes Audio-Beschriftungsmodul ist, das das ursprüngliche Audio A in ein grobkörniges Textdokument D₀ umwandelt.

2. Aktive iterative Dokumentoptimierungs-Schleife

Diese Schleife enthält vier spezialisierte Agenten:

Planungs-Agent (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

Bewertet, ob das aktuelle Dokument ausreichende Evidenz enthält, und gibt einen Statusflag s ∈ {Sufficient, Insufficient} zurück.

Interaktions-Agent (Interaction Agent)

P = F_interact(D_i, H_{i+1})

Erstellt bei unzureichender Evidenz einen strukturierten Plan P zur Beschaffung fehlender Informationen, einschließlich drei Werkzeugoperationen:

Audio-Frage-Antwort
Gelenkte Neubeschriftung
Automatische Spracherkennung

Augmentierungs-Agent (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

Führt Plan P aus, ruft angegebene Werkzeuge auf, um neue Evidenz E_new zu generieren und in das bestehende Dokument zu integrieren.

Antwort-Agent (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

Generiert basierend auf dem endgültig optimierten Dokument D_f die endgültige Antwort A*, Konfidenz-Score S_c und detaillierten Reasonierungsprozess R.

Technische Innovationen

Entkopplung von Wahrnehmung und Kognition: Elegante Umgehung der Notwendigkeit spezialisierter Audio-Reasonierungs-Datensätze durch Umwandlung von Audio in Text
"Diagnose-Planung-Ausführung"-Schleife: Umwandlung des Modells von passivem Informationsempfänger zu aktivem selbstverbesserndem Ermittler
Werkzeuggestützte Pfade: Integration mehrerer Audio-Verarbeitungswerkzeuge zur Unterstützung multimodaler Informationsbeschaffung und -integration
Schrittweise Kognitiver Prozess: Simulation menschlicher Kognitiver Prozesse von grober Erfassung zu detaillierter Analyse

Experimentelle Einrichtung

Datensätze

MMAU-mini: Enthält 1.000 geschlossene Fragen, die drei Audio-Typen abdecken: Sound, Musik, Sprache
MMAR: Anspruchsvollerer Benchmark mit einzelnen Audio-Typen und verschiedenen gemischten Audios, gefiltert auf 905 Stichproben

Bewertungsmetriken

Verwendung der Standardbewertungsmethoden von MMAU und MMAR mit regulären Ausdrücken und String-Matching zum Vergleich von Modellvorhersagen mit Ground-Truth-Antworten.

Vergleichsmethoden

Open-Source-Modelle: Audio Flamingo-Serie, Qwen2.5-Omni-3B, Kimi-Audio-7B usw.
Kommerzielle Modelle: Gemini-2.5-Flash, Gemini-2.0-Flash usw.
Basis-Modelle: MiDashengLM-7B, Audio-Reasoner usw.

Implementierungsdetails

ALLM: MiDashengLM-7B
LLM: GPT-4o-2024-08-06
Transkriptions-Modell: Whisper-Turbo
Maximale Iterationen: 3
Nachbearbeitung: Verwendung von GPT-4o zur Normalisierung des Ausgabeformats

Experimentelle Ergebnisse

Hauptergebnisse

MMAU-mini Benchmark-Ergebnisse:

AGR erreicht 72,60% durchschnittliche Genauigkeit und übertrifft alle Vergleichsmethoden
Verbesserung um 10,3 Prozentpunkte gegenüber dem besten Open-Source-Modell
Besonders signifikante Verbesserung in der Sprachkategorie (15,0 Prozentpunkte)

MMAR Benchmark-Ergebnisse:

AGR erreicht 58,85% durchschnittliche Genauigkeit
Hervorragende Leistung bei Sprachaufgaben (69,23% vs. 56,15% des zweitbesten)
Deutlich überlegen gegenüber bestehenden Open-Source-Modellen bei gemischten Audio-Typen

Ablationsstudien

Auswirkung der LLM-Auswahl: GPT-4o zeigt signifikante Verbesserungen gegenüber GPT-3.5-turbo auf dem MMAR-Datensatz
ALLM-Austausch-Test: Ähnliche Leistung verschiedener ALLMs deutet auf vergleichbare aktuelle ALLM-Wahrnehmungsfähigkeiten hin
Wichtigkeit der Iterationsschleife: Das Entfernen der iterativen Optimierungsschleife führt zu konsistenten Leistungseinbußen bei allen ALLMs

Analyse der Iterationsrunden

MMAU-mini: 2 Iterationsrunden erreichen optimale Leistung (73,80%)
MMAR: 3 Iterationsrunden erreichen optimale Leistung (57,24%)
Zu viele Runden (4) führen zu Rauscheinführung und Leistungsabfall

Fallstudien

Das Paper zeigt einen klassischen "April Fools"-Fall, bei dem andere Modelle fälschlicherweise eine echte Abschiedserklärung interpretierten, während AGR durch iterative Optimierung korrekt erkannte, dass es sich um einen Aprilscherz handelt, was seine Tiefenreasonierungs-Fähigkeiten demonstriert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

AGR wandelt Audio-Tiefenreasonierung erfolgreich in eine Textverständnisaufgabe um und entkoppelt effektiv Wahrnehmung und Kognition
Die aktive iterative Optimierungsschleife verbessert die Reasonierungs-Fähigkeiten des Modells erheblich
Der Multi-Agent-Kooperationsmechanismus zeigt hervorragende Leistung bei Audio-Reasonierungs-Aufgaben

Einschränkungen

Unzureichendes Signal-Level-Reasoning: Das aktuelle Framework hat begrenzte Fähigkeiten beim Reasoning über akustische Hinweise auf niedriger Ebene
Rechnerische Kosten: Mehrere Iterationen und Multi-Agent-Kooperation erhöhen den Rechneraufwand
Abhängigkeit von LLM-Qualität: Die Systemleistung hängt stark von den Fähigkeiten des verwendeten LLM ab

Zukünftige Richtungen

Entwicklung spezialisierter Evidenzgeneratoren für die Analyse akustischer Hinweise auf niedriger Ebene
Optimierung von Iterationsstrategien zur Reduzierung der Rechnerkosten
Erweiterung auf weitere Audio-Verständnisaufgaben

Tiefgreifende Bewertung

Stärken

Innovativer Paradigmenwechsel: Der Ansatz, Audio-Reasoning in Textverständnis umzuwandeln, ist neuartig und effektiv
Systematisches Design: Das Multi-Agent-Kooperations-Framework ist vollständig konzipiert mit klaren Komponentenverantwortlichkeiten
Umfangreiche Experimente: Vergleichende Experimente und Ablationsstudien auf mehreren Benchmarks sind relativ umfassend
Hoher praktischer Wert: Die trainingsfreie Eigenschaft ermöglicht einfache Bereitstellung und Anwendung

Mängel

Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum dieser Wandel effektiv ist
Probleme mit Rechnerischer Effizienz: Unzureichend detaillierte Analyse der Rechnerkosten mehrerer Iterationen
Unbekannte Verallgemeinerungsfähigkeit: Leistung bei anderen Arten von Audio-Reasonierungs-Aufgaben nicht ausreichend validiert
Risiko der Fehlerausbreitung: Kettenverarbeitung durch mehrere Agenten könnte zu Fehlerakkumulation führen

Auswirkungen

Akademischer Beitrag: Erstmalige Einführung von Multi-Agent-Systemen in Audio-Tiefenreasonierung, Eröffnung neuer Forschungsrichtungen
Praktischer Wert: Trainingsfreie Eigenschaft und SOTA-Leistung bieten gute Anwendungsaussichten
Reproduzierbarkeit: Zusage zur Veröffentlichung von Code fördert nachfolgende Forschung

Anwendungsszenarien

Intelligente Assistenten: Dialogsysteme, die komplexe Audio-Szenen verstehen müssen
Autonomes Fahren: Umgebungswahrnehmungssysteme, die Audio-Reasoning benötigen
Inhaltsanalyse: Automatisches Verständnis und Klassifizierung von Audio-Inhalten
Bildungsanwendungen: Intelligente Analyse und Frage-Antwort-Systeme für Audio-Material

Literaturverzeichnis

Das Paper zitiert 20 relevante Arbeiten, die wichtige Arbeiten aus mehreren Bereichen abdecken, einschließlich Audio-Verständnis, Multi-Agent-Systeme und großer Sprachmodelle, und bietet eine solide theoretische Grundlage für die Forschung.

Zusammenfassung: AudioGenie-Reasoner löst erfolgreich Schlüsselherausforderungen in Audio-Tiefenreasonierung durch innovativen Paradigmenwechsel und Multi-Agent-Kooperationsmechanismen und erreicht signifikante Leistungsverbesserungen auf mehreren Benchmarks. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet auch neue Perspektiven und Richtungen für die Entwicklung des Audio-Verständnis-Bereichs.