2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.
Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.
academic

AudioGenie-Reasoner: Ein trainingsfreies Multi-Agent-Framework für schrittweise Audio-Tiefenreasonierung

Grundinformationen

  • Paper-ID: 2509.16971
  • Titel: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
  • Autoren: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹Hongkong University of Science and Technology (Guangzhou), ²Tencent AI Lab)
  • Klassifizierung: cs.SD (Sound), eess.AS (Audio and Speech Processing)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2509.16971
  • Code-Link: https://github.com/ryysayhi/AudioGenie-Reasoner

Zusammenfassung

Audio-Tiefenreasonierung ist eine anspruchsvolle Aufgabe, die Expertenwissen in der Wahrnehmung, mehrstufiges logisches Schlussfolgern und die Integration von Kontextwissen erfordert. Bestehende Modelle weisen Lücken zwischen Audio-Wahrnehmungs- und Reasonierungsfähigkeiten auf, da ihnen Trainingsdaten mit expliziten Reasonierungsketten fehlen und sie keine aktiven Explorations- und iterativen Optimierungsmechanismen besitzen. Um diese Herausforderungen zu bewältigen, wird AudioGenie-Reasoner (AGR) vorgestellt – das erste einheitliche trainingsfreie Multi-Agent-System, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert. Die Kernidee besteht darin, Audio-Tiefenreasonierung durch einen Paradigmenwechsel in eine komplexe Textverständnisaufgabe umzuwandeln und damit das volle Potenzial großer Sprachmodelle freizusetzen.

Forschungshintergrund und Motivation

Problemdefinition

Audio-Tiefenreasonierung erfordert von Modellen:

  1. Expertenwissen in der Wahrnehmung: Genaues Verständnis komplexer Audioszenen
  2. Mehrstufiges logisches Schlussfolgern: Durchführung komplexer logischer Schlussfolgerungen
  3. Integration von Kontextwissen: Synthese von Hintergrundwissen für umfassende Analysen

Zentrale Herausforderungen

  1. Mangel an Trainingsdaten: Fehlende hochwertige Audio-Reasonierungsdaten mit expliziten Reasonierungsketten; deren Erstellung ist ressourcenintensiv
  2. Fehlende Reasonierungsmechanismen: Bestehende Modelle mangelt es an aktiven Explorations- und iterativen Optimierungsmechanismen; sie sind typischerweise passive Informationsempfänger, die Antworten basierend auf einzelnen Wahrnehmungsergebnissen generieren

Einschränkungen bestehender Methoden

  • Die meisten Audio-Großsprachmodelle (ALLMs) werden nur auf einfache Ziele trainiert, wie Audio-Text-Ausrichtung oder direkte Frage-Antwort-Systeme
  • Die Reasonierungsfähigkeit nimmt in komplexen Szenen mit gemischten Audioquellen (wie Sprache, Musik, Soundeffekte) drastisch ab
  • Es fehlt die Fähigkeit, Evidenzlücken zu diagnostizieren, die Beschaffung fehlender Informationen zu planen oder das Verständnis schrittweise zu vertiefen

Kernbeiträge

  1. Erstes Multi-Agent-System für Audio-Tiefenreasonierung: Vorstellung eines einheitlichen trainingsfreien Multi-Agent-Systems AGR, das Wahrnehmung und Reasoning auf einer sich ständig entwickelnden Textevidenz-Kette koordiniert
  2. Innovation durch Paradigmenwechsel: Umwandlung von Audio-Reasonierungsproblemen in Textverständnisaufgaben, Entkopplung von Wahrnehmung und Kognition, Freisetzung des Reasonierungs-Potenzials von LLMs
  3. Aktives iteratives Optimierungs-Framework: Entwurf einer neuartigen aktiven iterativen Dokumentoptimierungs-Schleife, die durch werkzeuggestützte Pfade und spezialisierte Agenten dynamisch fehlende Informationen sucht
  4. SOTA-Leistung: Erreichen von State-of-the-Art-Leistung auf mehreren Audio-Tiefenreasonierungs-Benchmarks, deutlich überlegen gegenüber bestehenden Open-Source-Modellen

Methodische Details

Aufgabendefinition

Gegeben seien eine Audio-Eingabe A, eine Frage Q und eine Liste von Kandidatantworten L. Das Ziel besteht darin, die richtige Antwort auszuwählen und einen detaillierten Reasonierungsprozess bereitzustellen.

Modellarchitektur

1. Paradigmenwechsel: Von Audio-Reasoning zu Textverständnis

D₀ = F_caption(A)

wobei F_caption(·) ein auf starkem ALLM basierendes Audio-Beschriftungsmodul ist, das das ursprüngliche Audio A in ein grobkörniges Textdokument D₀ umwandelt.

2. Aktive iterative Dokumentoptimierungs-Schleife

Diese Schleife enthält vier spezialisierte Agenten:

Planungs-Agent (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

Bewertet, ob das aktuelle Dokument ausreichende Evidenz enthält, und gibt einen Statusflag s ∈ {Sufficient, Insufficient} zurück.

Interaktions-Agent (Interaction Agent)

P = F_interact(D_i, H_{i+1})

Erstellt bei unzureichender Evidenz einen strukturierten Plan P zur Beschaffung fehlender Informationen, einschließlich drei Werkzeugoperationen:

  • Audio-Frage-Antwort
  • Gelenkte Neubeschriftung
  • Automatische Spracherkennung

Augmentierungs-Agent (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

Führt Plan P aus, ruft angegebene Werkzeuge auf, um neue Evidenz E_new zu generieren und in das bestehende Dokument zu integrieren.

Antwort-Agent (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

Generiert basierend auf dem endgültig optimierten Dokument D_f die endgültige Antwort A*, Konfidenz-Score S_c und detaillierten Reasonierungsprozess R.

Technische Innovationen

  1. Entkopplung von Wahrnehmung und Kognition: Elegante Umgehung der Notwendigkeit spezialisierter Audio-Reasonierungs-Datensätze durch Umwandlung von Audio in Text
  2. "Diagnose-Planung-Ausführung"-Schleife: Umwandlung des Modells von passivem Informationsempfänger zu aktivem selbstverbesserndem Ermittler
  3. Werkzeuggestützte Pfade: Integration mehrerer Audio-Verarbeitungswerkzeuge zur Unterstützung multimodaler Informationsbeschaffung und -integration
  4. Schrittweise Kognitiver Prozess: Simulation menschlicher Kognitiver Prozesse von grober Erfassung zu detaillierter Analyse

Experimentelle Einrichtung

Datensätze

  1. MMAU-mini: Enthält 1.000 geschlossene Fragen, die drei Audio-Typen abdecken: Sound, Musik, Sprache
  2. MMAR: Anspruchsvollerer Benchmark mit einzelnen Audio-Typen und verschiedenen gemischten Audios, gefiltert auf 905 Stichproben

Bewertungsmetriken

Verwendung der Standardbewertungsmethoden von MMAU und MMAR mit regulären Ausdrücken und String-Matching zum Vergleich von Modellvorhersagen mit Ground-Truth-Antworten.

Vergleichsmethoden

  • Open-Source-Modelle: Audio Flamingo-Serie, Qwen2.5-Omni-3B, Kimi-Audio-7B usw.
  • Kommerzielle Modelle: Gemini-2.5-Flash, Gemini-2.0-Flash usw.
  • Basis-Modelle: MiDashengLM-7B, Audio-Reasoner usw.

Implementierungsdetails

  • ALLM: MiDashengLM-7B
  • LLM: GPT-4o-2024-08-06
  • Transkriptions-Modell: Whisper-Turbo
  • Maximale Iterationen: 3
  • Nachbearbeitung: Verwendung von GPT-4o zur Normalisierung des Ausgabeformats

Experimentelle Ergebnisse

Hauptergebnisse

MMAU-mini Benchmark-Ergebnisse:

  • AGR erreicht 72,60% durchschnittliche Genauigkeit und übertrifft alle Vergleichsmethoden
  • Verbesserung um 10,3 Prozentpunkte gegenüber dem besten Open-Source-Modell
  • Besonders signifikante Verbesserung in der Sprachkategorie (15,0 Prozentpunkte)

MMAR Benchmark-Ergebnisse:

  • AGR erreicht 58,85% durchschnittliche Genauigkeit
  • Hervorragende Leistung bei Sprachaufgaben (69,23% vs. 56,15% des zweitbesten)
  • Deutlich überlegen gegenüber bestehenden Open-Source-Modellen bei gemischten Audio-Typen

Ablationsstudien

  1. Auswirkung der LLM-Auswahl: GPT-4o zeigt signifikante Verbesserungen gegenüber GPT-3.5-turbo auf dem MMAR-Datensatz
  2. ALLM-Austausch-Test: Ähnliche Leistung verschiedener ALLMs deutet auf vergleichbare aktuelle ALLM-Wahrnehmungsfähigkeiten hin
  3. Wichtigkeit der Iterationsschleife: Das Entfernen der iterativen Optimierungsschleife führt zu konsistenten Leistungseinbußen bei allen ALLMs

Analyse der Iterationsrunden

  • MMAU-mini: 2 Iterationsrunden erreichen optimale Leistung (73,80%)
  • MMAR: 3 Iterationsrunden erreichen optimale Leistung (57,24%)
  • Zu viele Runden (4) führen zu Rauscheinführung und Leistungsabfall

Fallstudien

Das Paper zeigt einen klassischen "April Fools"-Fall, bei dem andere Modelle fälschlicherweise eine echte Abschiedserklärung interpretierten, während AGR durch iterative Optimierung korrekt erkannte, dass es sich um einen Aprilscherz handelt, was seine Tiefenreasonierungs-Fähigkeiten demonstriert.

Verwandte Arbeiten

Audio-Verständnis-Bereich

  • Traditionelle Methoden konzentrieren sich hauptsächlich auf Audio-Text-Ausrichtung und direkte Frage-Antwort-Systeme
  • Mangelnde komplexe Reasonierungs-Fähigkeiten, besonders in gemischten Audio-Szenen

Multi-Agent-Systeme

  • Bereits in der NLP angewendet, aber erstmals im Audio-Tiefenreasonierungs-Bereich erforscht
  • Dieses Paper führt MAS erstmals in Audio-Reasonierungs-Aufgaben ein

Anwendungen großer Sprachmodelle

  • LLMs zeigen hervorragende Leistung beim Text-Reasoning
  • Dieses Paper setzt erfolgreich das Potenzial von LLMs im Audio-Reasoning durch Paradigmenwechsel frei

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. AGR wandelt Audio-Tiefenreasonierung erfolgreich in eine Textverständnisaufgabe um und entkoppelt effektiv Wahrnehmung und Kognition
  2. Die aktive iterative Optimierungsschleife verbessert die Reasonierungs-Fähigkeiten des Modells erheblich
  3. Der Multi-Agent-Kooperationsmechanismus zeigt hervorragende Leistung bei Audio-Reasonierungs-Aufgaben

Einschränkungen

  1. Unzureichendes Signal-Level-Reasoning: Das aktuelle Framework hat begrenzte Fähigkeiten beim Reasoning über akustische Hinweise auf niedriger Ebene
  2. Rechnerische Kosten: Mehrere Iterationen und Multi-Agent-Kooperation erhöhen den Rechneraufwand
  3. Abhängigkeit von LLM-Qualität: Die Systemleistung hängt stark von den Fähigkeiten des verwendeten LLM ab

Zukünftige Richtungen

  1. Entwicklung spezialisierter Evidenzgeneratoren für die Analyse akustischer Hinweise auf niedriger Ebene
  2. Optimierung von Iterationsstrategien zur Reduzierung der Rechnerkosten
  3. Erweiterung auf weitere Audio-Verständnisaufgaben

Tiefgreifende Bewertung

Stärken

  1. Innovativer Paradigmenwechsel: Der Ansatz, Audio-Reasoning in Textverständnis umzuwandeln, ist neuartig und effektiv
  2. Systematisches Design: Das Multi-Agent-Kooperations-Framework ist vollständig konzipiert mit klaren Komponentenverantwortlichkeiten
  3. Umfangreiche Experimente: Vergleichende Experimente und Ablationsstudien auf mehreren Benchmarks sind relativ umfassend
  4. Hoher praktischer Wert: Die trainingsfreie Eigenschaft ermöglicht einfache Bereitstellung und Anwendung

Mängel

  1. Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum dieser Wandel effektiv ist
  2. Probleme mit Rechnerischer Effizienz: Unzureichend detaillierte Analyse der Rechnerkosten mehrerer Iterationen
  3. Unbekannte Verallgemeinerungsfähigkeit: Leistung bei anderen Arten von Audio-Reasonierungs-Aufgaben nicht ausreichend validiert
  4. Risiko der Fehlerausbreitung: Kettenverarbeitung durch mehrere Agenten könnte zu Fehlerakkumulation führen

Auswirkungen

  1. Akademischer Beitrag: Erstmalige Einführung von Multi-Agent-Systemen in Audio-Tiefenreasonierung, Eröffnung neuer Forschungsrichtungen
  2. Praktischer Wert: Trainingsfreie Eigenschaft und SOTA-Leistung bieten gute Anwendungsaussichten
  3. Reproduzierbarkeit: Zusage zur Veröffentlichung von Code fördert nachfolgende Forschung

Anwendungsszenarien

  1. Intelligente Assistenten: Dialogsysteme, die komplexe Audio-Szenen verstehen müssen
  2. Autonomes Fahren: Umgebungswahrnehmungssysteme, die Audio-Reasoning benötigen
  3. Inhaltsanalyse: Automatisches Verständnis und Klassifizierung von Audio-Inhalten
  4. Bildungsanwendungen: Intelligente Analyse und Frage-Antwort-Systeme für Audio-Material

Literaturverzeichnis

Das Paper zitiert 20 relevante Arbeiten, die wichtige Arbeiten aus mehreren Bereichen abdecken, einschließlich Audio-Verständnis, Multi-Agent-Systeme und großer Sprachmodelle, und bietet eine solide theoretische Grundlage für die Forschung.


Zusammenfassung: AudioGenie-Reasoner löst erfolgreich Schlüsselherausforderungen in Audio-Tiefenreasonierung durch innovativen Paradigmenwechsel und Multi-Agent-Kooperationsmechanismen und erreicht signifikante Leistungsverbesserungen auf mehreren Benchmarks. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet auch neue Perspektiven und Richtungen für die Entwicklung des Audio-Verständnis-Bereichs.