2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: गहन ऑडियो तर्क के लिए एक प्रशिक्षण-मुक्त बहु-एजेंट ढांचा

मूल जानकारी

पेपर ID: 2509.16971
शीर्षक: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
लेखक: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹हांगकांग विज्ञान और प्रौद्योगिकी विश्वविद्यालय (गुआंगझोउ), ²टेनसेंट AI Lab)
वर्गीकरण: cs.SD (ध्वनि), eess.AS (ऑडियो और भाषण प्रसंस्करण)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2509.16971
कोड लिंक: https://github.com/ryysayhi/AudioGenie-Reasoner

सारांश

ऑडियो गहन तर्क एक चुनौतीपूर्ण कार्य है जिसके लिए विशेषज्ञ-स्तरीय धारणा, बहु-चरणीय तार्किक तर्क और संदर्भ ज्ञान एकीकरण की आवश्यकता होती है। मौजूदा मॉडल स्पष्ट तर्क श्रृंखला वाले प्रशिक्षण डेटा की कमी और सक्रिय अन्वेषण तथा पुनरावृत्तिमूलक अनुकूलन तंत्र की कमी के कारण ऑडियो धारणा और तर्क क्षमता के बीच अंतराल का सामना करते हैं। इन चुनौतियों को हल करने के लिए, यह पेपर AudioGenie-Reasoner (AGR) प्रस्तावित करता है, जो पहला एकीकृत प्रशिक्षण-मुक्त बहु-एजेंट प्रणाली है जो विकसित होने वाली पाठ साक्ष्य श्रृंखला पर धारणा और तर्क को समन्वित कर सकता है। मूल विचार प्रतिमान परिवर्तन के माध्यम से ऑडियो गहन तर्क को जटिल पाठ समझ कार्य में परिवर्तित करना है, जिससे बड़े भाषा मॉडल की पूरी क्षमता को मुक्त किया जा सके।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ऑडियो गहन तर्क कार्य के लिए मॉडल में निम्नलिखित क्षमताएं आवश्यक हैं:

विशेषज्ञ-स्तरीय धारणा क्षमता: जटिल ऑडियो परिदृश्यों को सटीक रूप से समझना
बहु-चरणीय तार्किक तर्क: जटिल तार्किक अनुमान करना
संदर्भ ज्ञान एकीकरण: व्यापक विश्लेषण के लिए पृष्ठभूमि ज्ञान को जोड़ना

मुख्य चुनौतियाँ

प्रशिक्षण डेटा की कमी: स्पष्ट तर्क श्रृंखला वाले उच्च-गुणवत्ता वाले ऑडियो तर्क डेटा की कमी, ऐसे संसाधन बनाना संसाधन-गहन है
तर्क तंत्र की कमी: मौजूदा मॉडलों में सक्रिय अन्वेषण और पुनरावृत्तिमूलक अनुकूलन तंत्र की कमी है, आमतौर पर वे निष्क्रिय सूचना प्राप्तकर्ता होते हैं, एकल धारणा परिणाम के आधार पर उत्तर उत्पन्न करते हैं

मौजूदा विधियों की सीमाएं

अधिकांश ऑडियो बड़े भाषा मॉडल (ALLMs) केवल सरल उद्देश्यों पर प्रशिक्षित होते हैं, जैसे ऑडियो-पाठ संरेखण या प्रत्यक्ष प्रश्नोत्तर
मिश्रित ऑडियो स्रोतों (जैसे भाषण, संगीत, ध्वनि प्रभाव) के जटिल परिदृश्यों में तर्क क्षमता में तेजी से गिरावट आती है
साक्ष्य अंतराल का निदान करने, लापता जानकारी प्राप्त करने की योजना बनाने या समझ को क्रमिक रूप से गहरा करने की क्षमता की कमी है

मुख्य योगदान

पहला ऑडियो गहन तर्क बहु-एजेंट प्रणाली: विकसित होने वाली पाठ साक्ष्य श्रृंखला पर धारणा और तर्क को समन्वित करने वाली एकीकृत प्रशिक्षण-मुक्त बहु-एजेंट प्रणाली AGR प्रस्तावित करता है
प्रतिमान परिवर्तन नवाचार: ऑडियो तर्क समस्या को पाठ समझ कार्य में परिवर्तित करता है, धारणा और संज्ञान को अलग करता है, LLM की तर्क क्षमता को मुक्त करता है
सक्रिय पुनरावृत्तिमूलक अनुकूलन ढांचा: उपकरण-संवर्धित पथ और विशेष एजेंटों के माध्यम से गतिशील रूप से लापता जानकारी खोजने के लिए नवीन सक्रिय पुनरावृत्तिमूलक दस्तावेज़ अनुकूलन लूप डिज़ाइन करता है
SOTA प्रदर्शन: कई ऑडियो गहन तर्क बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है, मौजूदा ओपन-सोर्स मॉडल को महत्वपूर्ण रूप से पार करता है

विधि विवरण

कार्य परिभाषा

ऑडियो इनपुट A, प्रश्न Q और उम्मीदवार उत्तर सूची L दी गई है, लक्ष्य सही उत्तर चुनना और विस्तृत तर्क प्रक्रिया प्रदान करना है।

मॉडल आर्किटेक्चर

1. प्रतिमान परिवर्तन: ऑडियो तर्क से पाठ समझ तक

D₀ = F_caption(A)

जहां F_caption(·) शक्तिशाली ALLM के आधार पर लागू ऑडियो कैप्शन जनरेशन मॉड्यूल है, जो मूल ऑडियो A को मोटे-दानेदार पाठ दस्तावेज़ D₀ में परिवर्तित करता है।

2. सक्रिय पुनरावृत्तिमूलक दस्तावेज़ अनुकूलन लूप

इस लूप में चार विशेष एजेंट शामिल हैं:

योजना एजेंट (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

मूल्यांकन करता है कि क्या वर्तमान दस्तावेज़ में पर्याप्त साक्ष्य है, स्थिति ध्वज s ∈ {पर्याप्त, अपर्याप्त} लौटाता है।

अंतःक्रिया एजेंट (Interaction Agent)

P = F_interact(D_i, H_{i+1})

जब साक्ष्य अपर्याप्त हो, तो लापता जानकारी प्राप्त करने के लिए संरचित संवर्धन योजना P तैयार करता है, जिसमें तीन उपकरण संचालन शामिल हैं:

ऑडियो प्रश्नोत्तर
निर्देशित पुनः कैप्शन जनरेशन
स्वचालित भाषण पहचान

संवर्धन एजेंट (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

योजना P को निष्पादित करता है, निर्दिष्ट उपकरणों को कॉल करता है, नए साक्ष्य E_new उत्पन्न करता है और उन्हें मौजूदा दस्तावेज़ में एकीकृत करता है।

उत्तर एजेंट (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

अंतिम अनुकूलित दस्तावेज़ D_f के आधार पर अंतिम उत्तर A*, आत्मविश्वास स्कोर S_c और विस्तृत तर्क प्रक्रिया R उत्पन्न करता है।

तकनीकी नवाचार बिंदु

धारणा-संज्ञान विघटन: ऑडियो को पाठ में परिवर्तित करके, विशेष ऑडियो तर्क डेटासेट की आवश्यकता को सुरुचिपूर्ण तरीके से दरकिनार करता है
"निदान-योजना-निष्पादन" लूप: मॉडल को निष्क्रिय सूचना प्राप्तकर्ता से सक्रिय आत्म-सुधार जांचकर्ता में परिवर्तित करता है
उपकरण-संवर्धित पथ: कई ऑडियो प्रसंस्करण उपकरणों को एकीकृत करता है, बहु-मोडल सूचना प्राप्ति और एकीकरण का समर्थन करता है
मोटे से सूक्ष्म संज्ञानात्मक प्रक्रिया: मानव संज्ञानात्मक प्रक्रिया का अनुकरण करता है, मोटे समझ से विस्तृत विश्लेषण तक

प्रायोगिक सेटअप

डेटासेट

MMAU-mini: 1,000 बंद-अंत प्रश्नों वाला, ध्वनि, संगीत, भाषण के तीन ऑडियो प्रकारों को कवर करता है
MMAR: अधिक चुनौतीपूर्ण बेंचमार्क, एकल ऑडियो प्रकार और विभिन्न मिश्रित ऑडियो युक्त, फ़िल्टर के बाद 905 नमूने एकत्र किए गए

मूल्यांकन मेट्रिक्स

MMAU और MMAR के मानक मूल्यांकन विधि का उपयोग करता है, मॉडल पूर्वानुमान और वास्तविक उत्तरों की तुलना के लिए नियमित अभिव्यक्ति और स्ट्रिंग मिलान का उपयोग करता है।

तुलनात्मक विधियां

ओपन-सोर्स मॉडल: Audio Flamingo श्रृंखला, Qwen2.5-Omni-3B, Kimi-Audio-7B आदि
वाणिज्यिक मॉडल: Gemini-2.5-Flash, Gemini-2.0-Flash आदि
आधार मॉडल: MiDashengLM-7B, Audio-Reasoner आदि

कार्यान्वयन विवरण

ALLM: MiDashengLM-7B
LLM: GPT-4o-2024-08-06
ट्रांसक्रिप्शन मॉडल: Whisper-Turbo
अधिकतम पुनरावृत्ति संख्या: 3 बार
पोस्ट-प्रोसेसिंग: आउटपुट प्रारूप को मानकीकृत करने के लिए GPT-4o का उपयोग

प्रायोगिक परिणाम

मुख्य परिणाम

MMAU-mini बेंचमार्क परीक्षण परिणाम:

AGR 72.60% की औसत सटीकता प्राप्त करता है, सभी तुलनात्मक विधियों को पार करता है
सर्वश्रेष्ठ ओपन-सोर्स मॉडल की तुलना में 10.3 प्रतिशत बिंदु की वृद्धि
भाषण श्रेणी पर सबसे उल्लेखनीय वृद्धि (15.0 प्रतिशत बिंदु)

MMAR बेंचमार्क परीक्षण परिणाम:

AGR 58.85% की औसत सटीकता प्राप्त करता है
भाषण कार्यों पर उत्कृष्ट प्रदर्शन (69.23% बनाम दूसरे सर्वश्रेष्ठ का 56.15%)
मिश्रित ऑडियो प्रकारों पर मौजूदा ओपन-सोर्स मॉडल से महत्वपूर्ण रूप से बेहतर

विलोपन प्रयोग

LLM चयन प्रभाव: GPT-4o, GPT-3.5-turbo की तुलना में MMAR डेटासेट पर महत्वपूर्ण वृद्धि दिखाता है
ALLM प्रतिस्थापन परीक्षण: विभिन्न ALLM समान प्रदर्शन करते हैं, यह दर्शाता है कि वर्तमान ALLM धारणा क्षमता तुलनीय है
पुनरावृत्ति लूप महत्व: पुनरावृत्तिमूलक अनुकूलन लूप को हटाने से सभी ALLM के प्रदर्शन में सामान्य गिरावट आती है

पुनरावृत्ति राउंड विश्लेषण

MMAU-mini: 2 राउंड पुनरावृत्ति सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है (73.80%)
MMAR: 3 राउंड पुनरावृत्ति सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है (57.24%)
अत्यधिक राउंड (4 राउंड) शोर परिचय करते हैं जिससे प्रदर्शन में गिरावट आती है

केस विश्लेषण

पेपर एक "अप्रैल फूल्स" के क्लासिक केस को प्रदर्शित करता है, जहां अन्य मॉडल इसे वास्तविक प्रस्थान कथन के रूप में गलत समझते हैं, जबकि AGR पुनरावृत्तिमूलक अनुकूलन के माध्यम से सही ढंग से पहचानता है कि यह अप्रैल फूल्स मजाक है, इसकी गहन तर्क क्षमता का प्रदर्शन करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

AGR ने ऑडियो गहन तर्क को पाठ समझ कार्य में सफलतापूर्वक परिवर्तित किया, धारणा और संज्ञान को प्रभावी ढंग से अलग किया
सक्रिय पुनरावृत्तिमूलक अनुकूलन लूप ने मॉडल की तर्क क्षमता में महत्वपूर्ण सुधार किया
बहु-एजेंट सहयोग तंत्र ऑडियो तर्क कार्यों में उत्कृष्ट प्रदर्शन करता है

सीमाएं

सिग्नल-स्तरीय तर्क अपर्याप्त: वर्तमान ढांचा निम्न-स्तरीय ध्वनिक संकेतों के तर्क में अभी भी सीमित है
कम्प्यूटेशनल लागत: बहु-राउंड पुनरावृत्ति और बहु-एजेंट सहयोग कम्प्यूटेशनल ओवरहेड बढ़ाते हैं
LLM गुणवत्ता पर निर्भरता: सिस्टम प्रदर्शन बड़े हद तक उपयोग किए गए LLM की क्षमता पर निर्भर है

भविष्य की दिशाएं

निम्न-स्तरीय ध्वनिक संकेत विश्लेषण के लिए अधिक विशेष साक्ष्य जनरेटर विकसित करना
कम्प्यूटेशनल लागत को कम करने के लिए पुनरावृत्ति रणनीति को अनुकूलित करना
अधिक ऑडियो समझ कार्यों तक विस्तार करना

गहन मूल्यांकन

शक्तियां

नवीन प्रतिमान परिवर्तन: ऑडियो तर्क को पाठ समझ में परिवर्तित करने का विचार नवीन और प्रभावी है
व्यवस्थित डिज़ाइन: बहु-एजेंट सहयोग ढांचा पूर्ण रूप से डिज़ाइन किया गया है, प्रत्येक घटक की जिम्मेदारी स्पष्ट है
व्यापक प्रयोग: कई बेंचमार्क पर तुलनात्मक प्रयोग और विलोपन प्रयोग काफी व्यापक हैं
उच्च व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता विधि को तैनात करना और लागू करना आसान बनाती है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए कि यह परिवर्तन प्रभावी क्यों है, गहन सैद्धांतिक विश्लेषण की कमी है
कम्प्यूटेशनल दक्षता समस्या: बहु-राउंड पुनरावृत्ति की कम्प्यूटेशनल लागत विश्लेषण पर्याप्त विस्तृत नहीं है
सामान्यीकरण क्षमता अज्ञात: अन्य प्रकार के ऑडियो तर्क कार्यों पर प्रदर्शन पर्याप्त रूप से सत्यापित नहीं किया गया है
त्रुटि प्रसार जोखिम: बहु-एजेंट श्रृंखला प्रसंस्करण में त्रुटि संचय की समस्या हो सकती है

प्रभाव

शैक्षणिक योगदान: पहली बार बहु-एजेंट प्रणाली को ऑडियो गहन तर्क में पेश करता है, नई अनुसंधान दिशा खोलता है
व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता और SOTA प्रदर्शन इसे अच्छी अनुप्रयोग संभावनाएं देते हैं
पुनरुत्पादनीयता: कोड को ओपन-सोर्स करने का वादा, बाद के अनुसंधान को सुविधा प्रदान करता है

लागू परिदृश्य

बुद्धिमान सहायक: जटिल ऑडियो परिदृश्यों को समझने की आवश्यकता वाली संवाद प्रणाली
स्वचालित ड्राइविंग: ऑडियो तर्क की आवश्यकता वाली पर्यावरण संवेदन प्रणाली
सामग्री विश्लेषण: ऑडियो सामग्री की स्वचालित समझ और वर्गीकरण
शैक्षणिक अनुप्रयोग: ऑडियो सामग्री का बुद्धिमान विश्लेषण और प्रश्नोत्तर

संदर्भ

यह पेपर 20 संबंधित संदर्भों का हवाला देता है, जो ऑडियो समझ, बहु-एजेंट प्रणाली, बड़े भाषा मॉडल आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

सारांश: AudioGenie-Reasoner नवीन प्रतिमान परिवर्तन और बहु-एजेंट सहयोग तंत्र के माध्यम से ऑडियो गहन तर्क में मुख्य चुनौतियों को सफलतापूर्वक हल करता है, कई बेंचमार्क परीक्षणों में उल्लेखनीय प्रदर्शन सुधार प्राप्त करता है। यह कार्य न केवल तकनीकी रूप से नवीन है, बल्कि ऑडियो समझ क्षेत्र के विकास के लिए नई सोच और दिशा भी प्रदान करता है।