AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Rong, Li, Yu et al.
Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.
academic
AudioGenie-Reasoner: Un Framework Multi-Agente Senza Addestramento per il Ragionamento Audio Profondo da Grossolano a Fine
Il ragionamento audio profondo è un compito impegnativo che richiede percezione a livello di esperto, ragionamento logico multi-step e integrazione di conoscenze contestuali. I modelli esistenti presentano lacune tra le capacità di percezione audio e ragionamento a causa della mancanza di dati di addestramento con catene di ragionamento esplicite e dell'assenza di meccanismi di esplorazione attiva e ottimizzazione iterativa. Per affrontare queste sfide, questo articolo propone AudioGenie-Reasoner (AGR), il primo sistema multi-agente unificato senza addestramento in grado di coordinare percezione e ragionamento su catene di prove testuali in continua evoluzione. L'idea centrale è trasformare il ragionamento audio profondo in un compito complesso di comprensione del testo attraverso un cambio di paradigma, liberando così il pieno potenziale dei modelli linguistici di grandi dimensioni.
Scarsità di dati di addestramento: Mancanza di dati audio di ragionamento di alta qualità con catene di ragionamento esplicite; la costruzione di tali risorse è ad alta intensità di lavoro
Assenza di meccanismi di ragionamento: I modelli esistenti mancano di meccanismi di esplorazione attiva e ottimizzazione iterativa, agendo tipicamente come ricevitori passivi di informazioni, generando risposte basate su risultati di percezione singoli
La maggior parte dei modelli linguistici audio di grandi dimensioni (ALLMs) sono addestrati solo su obiettivi semplici, come l'allineamento audio-testo o il question-answering diretto
Le capacità di ragionamento diminuiscono drasticamente in scenari complessi con sorgenti audio miste (ad esempio, voce, musica, effetti sonori)
Mancano capacità di diagnosticare lacune di prove, pianificare l'acquisizione di informazioni mancanti o approfondire gradualmente la comprensione
Primo sistema multi-agente per ragionamento audio profondo: Propone un sistema multi-agente unificato senza addestramento AGR che coordina percezione e ragionamento su catene di prove testuali in continua evoluzione
Innovazione nel cambio di paradigma: Trasforma il problema di ragionamento audio in un compito di comprensione del testo, disaccoppiando percezione e cognizione, liberando il potenziale di ragionamento dell'LLM
Framework di ottimizzazione iterativa attiva: Progetta un innovativo ciclo di ottimizzazione dei documenti iterativo attivo che ricerca dinamicamente informazioni mancanti attraverso percorsi potenziati da strumenti e agenti specializzati
Prestazioni SOTA: Raggiunge prestazioni all'avanguardia su più benchmark di ragionamento audio profondo, superando significativamente i modelli open-source esistenti
Dato un input audio A, una domanda Q e un elenco di risposte candidate L, l'obiettivo è selezionare la risposta corretta e fornire un processo di ragionamento dettagliato.
dove F_caption(·) è un modulo di generazione di didascalie audio implementato basato su un potente ALLM, che trasforma l'audio grezzo A in un documento testuale grossolano D₀.
Valuta se il documento corrente contiene prove sufficienti, restituendo un flag di stato s ∈ {Sufficient, Insufficient}.
Agente di Interazione (Interaction Agent)
P = F_interact(D_i, H_{i+1})
Quando le prove sono insufficienti, formula un piano di potenziamento strutturato P per acquisire informazioni mancanti, includendo tre operazioni di strumenti:
Question-answering audio
Generazione di didascalie guidata
Riconoscimento automatico del parlato
Agente di Potenziamento (Augmentation Agent)
D_{i+1} = D_i ⊕ E_new
Esegue il piano P, invoca gli strumenti specificati per generare nuove prove E_new e le integra nel documento esistente.
Agente di Risposta (Answering Agent)
(A*, S_c, R) = F_answer(D_f, Q, L)
Genera la risposta finale A*, il punteggio di confidenza S_c e il processo di ragionamento dettagliato R basato sul documento ottimizzato finale D_f.
Disaccoppiamento percezione-cognizione: Aggira elegantemente la necessità di dataset di ragionamento audio specializzati convertendo l'audio in testo
Ciclo "Diagnosi-Pianificazione-Esecuzione": Trasforma il modello da ricevitore passivo di informazioni a investigatore auto-migliorante attivo
Percorsi potenziati da strumenti: Integra molteplici strumenti di elaborazione audio, supportando l'acquisizione e l'integrazione di informazioni multimodali
Processo cognitivo da grossolano a fine: Simula il processo cognitivo umano, dalla comprensione approssimativa all'analisi dettagliata
Adotta i metodi di valutazione standard di MMAU e MMAR, utilizzando corrispondenza di espressioni regolari e stringhe per confrontare le previsioni del modello con le risposte corrette.
L'articolo presenta un caso classico di "April Fools", dove altri modelli interpretano erroneamente come una vera dichiarazione di partenza, mentre AGR attraverso l'ottimizzazione iterativa identifica correttamente che si tratta di uno scherzo di Aprile, dimostrando le sue capacità di ragionamento profondo.
AGR trasforma con successo il ragionamento audio profondo in un compito di comprensione del testo, disaccoppiando efficacemente percezione e cognizione
Il ciclo di ottimizzazione iterativa attivo migliora significativamente le capacità di ragionamento del modello
Il meccanismo di collaborazione multi-agente mostra eccellenti prestazioni nei compiti di ragionamento audio
L'articolo cita 20 lavori correlati, coprendo importanti contributi nei campi della comprensione audio, sistemi multi-agente e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per la ricerca.
Sintesi: AudioGenie-Reasoner affronta con successo le sfide chiave nel ragionamento audio profondo attraverso un innovativo cambio di paradigma e un meccanismo di collaborazione multi-agente, raggiungendo miglioramenti significativi delle prestazioni su più benchmark. Questo lavoro non solo è innovativo dal punto di vista tecnico, ma fornisce anche nuove prospettive e direzioni per lo sviluppo del campo della comprensione audio.