2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: Un Framework Multi-Agente Senza Addestramento per il Ragionamento Audio Profondo da Grossolano a Fine

Informazioni Fondamentali

ID Articolo: 2509.16971
Titolo: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
Autori: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹Università Tecnologica di Hong Kong (Guangzhou), ²Tencent AI Lab)
Classificazione: cs.SD (Sound), eess.AS (Audio and Speech Processing)
Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2509.16971
Link Codice: https://github.com/ryysayhi/AudioGenie-Reasoner

Riassunto

Il ragionamento audio profondo è un compito impegnativo che richiede percezione a livello di esperto, ragionamento logico multi-step e integrazione di conoscenze contestuali. I modelli esistenti presentano lacune tra le capacità di percezione audio e ragionamento a causa della mancanza di dati di addestramento con catene di ragionamento esplicite e dell'assenza di meccanismi di esplorazione attiva e ottimizzazione iterativa. Per affrontare queste sfide, questo articolo propone AudioGenie-Reasoner (AGR), il primo sistema multi-agente unificato senza addestramento in grado di coordinare percezione e ragionamento su catene di prove testuali in continua evoluzione. L'idea centrale è trasformare il ragionamento audio profondo in un compito complesso di comprensione del testo attraverso un cambio di paradigma, liberando così il pieno potenziale dei modelli linguistici di grandi dimensioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il compito di ragionamento audio profondo richiede ai modelli di possedere:

Capacità di percezione a livello di esperto: Comprendere accuratamente scene audio complesse
Ragionamento logico multi-step: Condurre inferenze logiche complesse
Integrazione di conoscenze contestuali: Combinare conoscenze di background per analisi sintetiche

Sfide Fondamentali

Scarsità di dati di addestramento: Mancanza di dati audio di ragionamento di alta qualità con catene di ragionamento esplicite; la costruzione di tali risorse è ad alta intensità di lavoro
Assenza di meccanismi di ragionamento: I modelli esistenti mancano di meccanismi di esplorazione attiva e ottimizzazione iterativa, agendo tipicamente come ricevitori passivi di informazioni, generando risposte basate su risultati di percezione singoli

Limitazioni degli Approcci Esistenti

La maggior parte dei modelli linguistici audio di grandi dimensioni (ALLMs) sono addestrati solo su obiettivi semplici, come l'allineamento audio-testo o il question-answering diretto
Le capacità di ragionamento diminuiscono drasticamente in scenari complessi con sorgenti audio miste (ad esempio, voce, musica, effetti sonori)
Mancano capacità di diagnosticare lacune di prove, pianificare l'acquisizione di informazioni mancanti o approfondire gradualmente la comprensione

Contributi Fondamentali

Primo sistema multi-agente per ragionamento audio profondo: Propone un sistema multi-agente unificato senza addestramento AGR che coordina percezione e ragionamento su catene di prove testuali in continua evoluzione
Innovazione nel cambio di paradigma: Trasforma il problema di ragionamento audio in un compito di comprensione del testo, disaccoppiando percezione e cognizione, liberando il potenziale di ragionamento dell'LLM
Framework di ottimizzazione iterativa attiva: Progetta un innovativo ciclo di ottimizzazione dei documenti iterativo attivo che ricerca dinamicamente informazioni mancanti attraverso percorsi potenziati da strumenti e agenti specializzati
Prestazioni SOTA: Raggiunge prestazioni all'avanguardia su più benchmark di ragionamento audio profondo, superando significativamente i modelli open-source esistenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un input audio A, una domanda Q e un elenco di risposte candidate L, l'obiettivo è selezionare la risposta corretta e fornire un processo di ragionamento dettagliato.

Architettura del Modello

1. Cambio di Paradigma: Dal Ragionamento Audio alla Comprensione del Testo

D₀ = F_caption(A)

dove F_caption(·) è un modulo di generazione di didascalie audio implementato basato su un potente ALLM, che trasforma l'audio grezzo A in un documento testuale grossolano D₀.

2. Ciclo di Ottimizzazione dei Documenti Iterativo Attivo

Il ciclo contiene quattro agenti specializzati:

Agente di Pianificazione (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

Valuta se il documento corrente contiene prove sufficienti, restituendo un flag di stato s ∈ {Sufficient, Insufficient}.

Agente di Interazione (Interaction Agent)

P = F_interact(D_i, H_{i+1})

Quando le prove sono insufficienti, formula un piano di potenziamento strutturato P per acquisire informazioni mancanti, includendo tre operazioni di strumenti:

Question-answering audio
Generazione di didascalie guidata
Riconoscimento automatico del parlato

Agente di Potenziamento (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

Esegue il piano P, invoca gli strumenti specificati per generare nuove prove E_new e le integra nel documento esistente.

Agente di Risposta (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

Genera la risposta finale A*, il punteggio di confidenza S_c e il processo di ragionamento dettagliato R basato sul documento ottimizzato finale D_f.

Punti di Innovazione Tecnica

Disaccoppiamento percezione-cognizione: Aggira elegantemente la necessità di dataset di ragionamento audio specializzati convertendo l'audio in testo
Ciclo "Diagnosi-Pianificazione-Esecuzione": Trasforma il modello da ricevitore passivo di informazioni a investigatore auto-migliorante attivo
Percorsi potenziati da strumenti: Integra molteplici strumenti di elaborazione audio, supportando l'acquisizione e l'integrazione di informazioni multimodali
Processo cognitivo da grossolano a fine: Simula il processo cognitivo umano, dalla comprensione approssimativa all'analisi dettagliata

Configurazione Sperimentale

Dataset

MMAU-mini: Contiene 1.000 domande a scelta multipla, coprendo tre tipi di audio: suono, musica, voce
MMAR: Un benchmark più impegnativo, contenente tipi di audio singoli e vari audio misti, con 905 campioni dopo il filtraggio

Metriche di Valutazione

Adotta i metodi di valutazione standard di MMAU e MMAR, utilizzando corrispondenza di espressioni regolari e stringhe per confrontare le previsioni del modello con le risposte corrette.

Metodi di Confronto

Modelli open-source: Serie Audio Flamingo, Qwen2.5-Omni-3B, Kimi-Audio-7B, ecc.
Modelli commerciali: Gemini-2.5-Flash, Gemini-2.0-Flash, ecc.
Modelli di base: MiDashengLM-7B, Audio-Reasoner, ecc.

Dettagli di Implementazione

ALLM: MiDashengLM-7B
LLM: GPT-4o-2024-08-06
Modello di trascrizione: Whisper-Turbo
Numero massimo di iterazioni: 3
Post-elaborazione: Utilizzo di GPT-4o per normalizzare il formato di output

Risultati Sperimentali

Risultati Principali

Risultati del Benchmark MMAU-mini:

AGR raggiunge un'accuratezza media del 72,60%, superando tutti i metodi di confronto
Miglioramento di 10,3 punti percentuali rispetto al miglior modello open-source
Il miglioramento più significativo nella categoria voce (15,0 punti percentuali)

Risultati del Benchmark MMAR:

AGR raggiunge un'accuratezza media del 58,85%
Prestazioni eccezionali nei compiti vocali (69,23% vs 56,15% del secondo migliore)
Significativamente superiore ai modelli open-source esistenti su tipi di audio misti

Esperimenti di Ablazione

Impatto della scelta dell'LLM: GPT-4o mostra miglioramenti significativi rispetto a GPT-3.5-turbo sul dataset MMAR
Test di sostituzione dell'ALLM: Prestazioni simili tra diversi ALLM, indicando capacità di percezione comparabili degli ALLM attuali
Importanza del ciclo iterativo: La rimozione del ciclo di ottimizzazione iterativa causa un calo coerente delle prestazioni per tutti gli ALLM

Analisi del Numero di Iterazioni

MMAU-mini: 2 iterazioni raggiungono prestazioni ottimali (73,80%)
MMAR: 3 iterazioni raggiungono prestazioni ottimali (57,24%)
Troppi cicli (4) introducono rumore causando degradazione delle prestazioni

Analisi di Casi Studio

L'articolo presenta un caso classico di "April Fools", dove altri modelli interpretano erroneamente come una vera dichiarazione di partenza, mentre AGR attraverso l'ottimizzazione iterativa identifica correttamente che si tratta di uno scherzo di Aprile, dimostrando le sue capacità di ragionamento profondo.

Lavori Correlati

Campo della Comprensione Audio

I metodi tradizionali si concentrano principalmente sull'allineamento audio-testo e sul question-answering diretto
Mancano capacità di ragionamento complesso, in particolare in scenari audio misti

Sistemi Multi-Agente

Hanno trovato applicazione nel campo dell'NLP, ma rappresentano una prima esplorazione nel ragionamento audio profondo
Questo articolo introduce per la prima volta i MAS nei compiti di ragionamento audio

Applicazioni di Modelli Linguistici di Grandi Dimensioni

Gli LLM mostrano prestazioni eccezionali nel ragionamento testuale
Questo articolo libera con successo il potenziale degli LLM nel ragionamento audio attraverso un cambio di paradigma

Conclusioni e Discussione

Conclusioni Principali

AGR trasforma con successo il ragionamento audio profondo in un compito di comprensione del testo, disaccoppiando efficacemente percezione e cognizione
Il ciclo di ottimizzazione iterativa attivo migliora significativamente le capacità di ragionamento del modello
Il meccanismo di collaborazione multi-agente mostra eccellenti prestazioni nei compiti di ragionamento audio

Limitazioni

Ragionamento insufficiente a livello di segnale: Il framework attuale ha ancora limitazioni nel ragionamento su indizi acustici di basso livello
Costo computazionale: Le iterazioni multiple e la collaborazione multi-agente aumentano il carico computazionale
Dipendenza dalla qualità dell'LLM: Le prestazioni del sistema dipendono in larga misura dalle capacità dell'LLM utilizzato

Direzioni Future

Sviluppare generatori di prove più specializzati per l'analisi di indizi acustici di basso livello
Ottimizzare strategie iterative per ridurre i costi computazionali
Estendere a più compiti di comprensione audio

Valutazione Approfondita

Punti di Forza

Cambio di paradigma innovativo: L'idea di trasformare il ragionamento audio in comprensione del testo è innovativa ed efficace
Progettazione sistematica: Il framework di collaborazione multi-agente è completamente progettato con responsabilità chiare per ogni componente
Esperimenti completi: Gli esperimenti di confronto e ablazione su più benchmark sono relativamente completi
Alto valore pratico: La caratteristica senza addestramento rende il metodo facile da distribuire e applicare

Carenze

Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché questo cambio di paradigma sia efficace
Problemi di efficienza computazionale: L'analisi dei costi computazionali delle iterazioni multiple non è sufficientemente dettagliata
Capacità di generalizzazione sconosciuta: Le prestazioni su altri tipi di compiti di ragionamento audio non sono sufficientemente verificate
Rischio di propagazione degli errori: L'elaborazione in catena multi-agente potrebbe presentare problemi di accumulo di errori

Impatto

Contributo accademico: Introduce per la prima volta i sistemi multi-agente nel ragionamento audio profondo, aprendo una nuova direzione di ricerca
Valore pratico: La caratteristica senza addestramento e le prestazioni SOTA offrono buone prospettive di applicazione
Riproducibilità: L'impegno di open-source del codice facilita la ricerca successiva

Scenari Applicabili

Assistenti intelligenti: Sistemi di dialogo che necessitano di comprendere scene audio complesse
Guida autonoma: Sistemi di percezione ambientale che richiedono ragionamento audio
Analisi dei contenuti: Comprensione e classificazione automatica dei contenuti audio
Applicazioni educative: Analisi intelligente e question-answering di materiali audio

Riferimenti Bibliografici

L'articolo cita 20 lavori correlati, coprendo importanti contributi nei campi della comprensione audio, sistemi multi-agente e modelli linguistici di grandi dimensioni, fornendo una base teorica solida per la ricerca.

Sintesi: AudioGenie-Reasoner affronta con successo le sfide chiave nel ragionamento audio profondo attraverso un innovativo cambio di paradigma e un meccanismo di collaborazione multi-agente, raggiungendo miglioramenti significativi delle prestazioni su più benchmark. Questo lavoro non solo è innovativo dal punto di vista tecnico, ma fornisce anche nuove prospettive e direzioni per lo sviluppo del campo della comprensione audio.