2025-11-18T23:07:14.023082

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

Rong, Li, Yu et al.

Audio deep reasoning is a challenging task that requires expert-level perception, multi-step logical inference, and the integration of contextual knowledge. However, existing models suffer from a gap between audio perception and reasoning abilities due to the lack of training data with explicit reasoning chains and the absence of mechanisms for active exploration and iterative refinement. To address these challenges, we propose AudioGenie-Reasoner (AGR), the first unified training-free multi-agent system that coordinates perception and reasoning over an evolving chain of textual evidence. Our key idea is a paradigm shift that transforms audio deep reasoning into complex text understanding task from a new perspective, thereby unlocking the full potential of large language models. Specifically, the design of AGR mimics the human coarse-to-fine cognitive process. It first transforms the input audio into a coarse text-based document. Then, we design a novel proactive iterative document refinement loop, featuring tool-augmented routes and specialized agents, to continuously search for missing information and augment the evidence chain in a coarse-to-fine manner until sufficient question-related information is gathered for making final predictions. Experimental results show that AGR achieves state-of-the-art (SOTA) performance over existing open-source audio deep reasoning models across various benchmarks. The code will be available at https://github.com/ryysayhi/AudioGenie-Reasoner.

academic

AudioGenie-Reasoner: প্রশিক্ষণ-মুক্ত বহু-এজেন্ট কাঠামো অডিও গভীর যুক্তির জন্য

মৌলিক তথ্য

পত্র ID: 2509.16971
শিরোনাম: AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
লেখক: Yan Rong¹, Chenxing Li², Dong Yu², Li Liu¹ (¹হংকং বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয় (গুয়াংঝু), ²টেনসেন্ট AI ল্যাব)
শ্রেণীবিভাগ: cs.SD (সাউন্ড), eess.AS (অডিও এবং বক্তৃতা প্রক্রিয়াকরণ)
প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv v2)
পত্র লিঙ্ক: https://arxiv.org/abs/2509.16971
কোড লিঙ্ক: https://github.com/ryysayhi/AudioGenie-Reasoner

সারসংক্ষেপ

অডিও গভীর যুক্তি একটি চ্যালেঞ্জিং কাজ যা বিশেষজ্ঞ-স্তরের উপলব্ধি, বহু-পদক্ষেপ যুক্তিসঙ্গত অনুমান এবং প্রসঙ্গ জ্ঞান সমন্বয় প্রয়োজন। বিদ্যমান মডেলগুলি স্পষ্ট যুক্তি শৃঙ্খল সহ প্রশিক্ষণ ডেটার অভাব এবং সক্রিয় অন্বেষণ ও পুনরাবৃত্তিমূলক অপ্টিমাইজেশন প্রক্রিয়ার অভাবের কারণে অডিও উপলব্ধি এবং যুক্তি ক্ষমতার মধ্যে ব্যবধান রয়েছে। এই চ্যালেঞ্জগুলি সমাধানের জন্য, এই পত্রটি AudioGenie-Reasoner (AGR) প্রস্তাব করে, যা প্রথম একীভূত প্রশিক্ষণ-মুক্ত বহু-এজেন্ট সিস্টেম যা ক্রমবর্ধমান বিবর্তিত পাঠ্য প্রমাণ শৃঙ্খলে উপলব্ধি এবং যুক্তি সমন্বয় করতে পারে। মূল ধারণা হল প্যারাডাইম রূপান্তরের মাধ্যমে অডিও গভীর যুক্তিকে জটিল পাঠ্য বোঝার কাজে রূপান্তরিত করা, যা বৃহৎ ভাষা মডেলের সম্পূর্ণ সম্ভাবনা মুক্ত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

অডিও গভীর যুক্তি কাজ মডেলকে নিম্নলিখিত ক্ষমতা প্রয়োজন:

বিশেষজ্ঞ-স্তরের উপলব্ধি ক্ষমতা: জটিল অডিও দৃশ্য সঠিকভাবে বোঝা
বহু-পদক্ষেপ যুক্তিসঙ্গত অনুমান: জটিল যুক্তিসঙ্গত অনুমান পরিচালনা করা
প্রসঙ্গ জ্ঞান সমন্বয়: পটভূমি জ্ঞান সহ ব্যাপক বিশ্লেষণ পরিচালনা করা

মূল চ্যালেঞ্জ

প্রশিক্ষণ ডেটা স্বল্পতা: স্পষ্ট যুক্তি শৃঙ্খল সহ উচ্চ-মানের অডিও যুক্তি ডেটার অভাব, এই ধরনের ডেটা সম্পদ তৈরি করা নিবিড়
যুক্তি প্রক্রিয়া অনুপস্থিতি: বিদ্যমান মডেলগুলি সক্রিয় অন্বেষণ এবং পুনরাবৃত্তিমূলক অপ্টিমাইজেশন প্রক্রিয়ার অভাব রয়েছে, সাধারণত নিষ্ক্রিয় তথ্য গ্রহণকারী, একক উপলব্ধির ফলাফলের উপর ভিত্তি করে উত্তর তৈরি করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বেশিরভাগ অডিও বৃহৎ ভাষা মডেল (ALLMs) শুধুমাত্র সহজ লক্ষ্যে প্রশিক্ষিত, যেমন অডিও-পাঠ্য সারিবদ্ধকরণ বা সরাসরি প্রশ্নোত্তর
মিশ্র অডিও উৎস (যেমন বক্তৃতা, সঙ্গীত, সাউন্ড ইফেক্ট) সহ জটিল দৃশ্যে যুক্তি ক্ষমতা তীব্রভাবে হ্রাস পায়
প্রমাণ ব্যবধান নির্ণয়, অনুপস্থিত তথ্য অর্জনের পরিকল্পনা বা ধাপে ধাপে বোঝা গভীর করার ক্ষমতা অনুপস্থিত

মূল অবদান

প্রথম অডিও গভীর যুক্তি বহু-এজেন্ট সিস্টেম: ক্রমবর্ধমান বিবর্তিত পাঠ্য প্রমাণ শৃঙ্খলে উপলব্ধি এবং যুক্তি সমন্বয় করে এমন একীভূত প্রশিক্ষণ-মুক্ত বহু-এজেন্ট সিস্টেম AGR প্রস্তাব করা
প্যারাডাইম রূপান্তর উদ্ভাবন: অডিও যুক্তি সমস্যাকে পাঠ্য বোঝার কাজে রূপান্তরিত করা, উপলব্ধি এবং জ্ঞান বিচ্ছিন্ন করা, LLM এর যুক্তি সম্ভাবনা মুক্ত করা
সক্রিয় পুনরাবৃত্তিমূলক অপ্টিমাইজেশন কাঠামো: উপকরণ-বর্ধিত পথ এবং বিশেষায়িত এজেন্টের মাধ্যমে গতিশীলভাবে অনুপস্থিত তথ্য অনুসন্ধান করে নতুন সক্রিয় পুনরাবৃত্তিমূলক ডকুমেন্ট অপ্টিমাইজেশন লুপ ডিজাইন করা
SOTA কর্মক্ষমতা: একাধিক অডিও গভীর যুক্তি বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করা, বিদ্যমান ওপেন-সোর্স মডেলগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অডিও ইনপুট A, প্রশ্ন Q এবং প্রার্থী উত্তর তালিকা L দেওয়া, লক্ষ্য হল সঠিক উত্তর নির্বাচন করা এবং বিস্তারিত যুক্তি প্রক্রিয়া প্রদান করা।

মডেল স্থাপত্য

1. প্যারাডাইম রূপান্তর: অডিও যুক্তি থেকে পাঠ্য বোঝা

D₀ = F_caption(A)

যেখানে F_caption(·) শক্তিশালী ALLM এর উপর ভিত্তি করে প্রয়োগ করা অডিও ক্যাপশন তৈরি মডিউল, যা মূল অডিও A কে মোটা-দানাদার পাঠ্য ডকুমেন্ট D₀ তে রূপান্তরিত করে।

2. সক্রিয় পুনরাবৃত্তিমূলক ডকুমেন্ট অপ্টিমাইজেশন লুপ

এই লুপে চারটি বিশেষায়িত এজেন্ট রয়েছে:

পরিকল্পনা এজেন্ট (Planning Agent)

(s, H_{i+1}) = F_plan(Q, L, D_i, H_i)

বর্তমান ডকুমেন্টে পর্যাপ্ত প্রমাণ রয়েছে কিনা তা মূল্যায়ন করে, অবস্থা পতাকা s ∈ {পর্যাপ্ত, অপর্যাপ্ত} প্রদান করে।

মিথস্ক্রিয়া এজেন্ট (Interaction Agent)

P = F_interact(D_i, H_{i+1})

প্রমাণ অপর্যাপ্ত হলে, অনুপস্থিত তথ্য অর্জনের জন্য কাঠামোবদ্ধ বর্ধন পরিকল্পনা P তৈরি করে, যা তিন ধরনের সরঞ্জাম অপারেশন অন্তর্ভুক্ত করে:

অডিও প্রশ্নোত্তর
নির্দেশিত পুনরায় ক্যাপশন তৈরি
স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি

বর্ধন এজেন্ট (Augmentation Agent)

D_{i+1} = D_i ⊕ E_new

পরিকল্পনা P সম্পাদন করে, নির্দিষ্ট সরঞ্জাম আহ্বান করে নতুন প্রমাণ E_new তৈরি করে এবং বিদ্যমান ডকুমেন্টে একীভূত করে।

উত্তর এজেন্ট (Answering Agent)

(A*, S_c, R) = F_answer(D_f, Q, L)

চূড়ান্ত অপ্টিমাইজড ডকুমেন্ট D_f এর উপর ভিত্তি করে চূড়ান্ত উত্তর A*, আত্মবিশ্বাস স্কোর S_c এবং বিস্তারিত যুক্তি প্রক্রিয়া R তৈরি করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

উপলব্ধি-জ্ঞান বিচ্ছিন্নকরণ: অডিওকে পাঠ্যে রূপান্তরের মাধ্যমে, বিশেষায়িত অডিও যুক্তি ডেটাসেটের প্রয়োজনীয়তা মার্জিতভাবে এড়িয়ে যাওয়া
"নির্ণয়-পরিকল্পনা-সম্পাদন" লুপ: মডেলকে নিষ্ক্রিয় তথ্য গ্রহণকারী থেকে সক্রিয় স্ব-উন্নতি তদন্তকারীতে রূপান্তরিত করা
সরঞ্জাম-বর্ধিত পথ: একাধিক অডিও প্রক্রিয়াকরণ সরঞ্জাম সংহত করা, বহু-মোডেল তথ্য অধিগ্রহণ এবং সমন্বয় সমর্থন করা
মোটা থেকে সূক্ষ্ম জ্ঞান প্রক্রিয়া: মানব জ্ঞান প্রক্রিয়া অনুকরণ করা, মোটা বোঝা থেকে বিস্তারিত বিশ্লেষণ পর্যন্ত

পরীক্ষামূলক সেটআপ

ডেটাসেট

MMAU-mini: ১,০০০টি বন্ধ প্রশ্ন অন্তর্ভুক্ত করে, শব্দ, সঙ্গীত, বক্তৃতা তিন ধরনের অডিও জুড়ে
MMAR: আরও চ্যালেঞ্জিং বেঞ্চমার্ক, একক অডিও ধরন এবং বিভিন্ন মিশ্র অডিও অন্তর্ভুক্ত করে, ফিল্টারিংয়ের পরে ৯০৫টি নমুনা সংগ্রহ করা হয়েছে

মূল্যায়ন মেট্রিক্স

MMAU এবং MMAR এর মান মূল্যায়ন পদ্ধতি ব্যবহার করে, মডেল পূর্বাভাস এবং সত্য উত্তর তুলনা করতে নিয়মিত অভিব্যক্তি এবং স্ট্রিং ম্যাচিং ব্যবহার করা হয়।

তুলনা পদ্ধতি

ওপেন-সোর্স মডেল: অডিও ফ্ল্যামিংগো সিরিজ, Qwen2.5-Omni-3B, Kimi-Audio-7B ইত্যাদি
বাণিজ্যিক মডেল: Gemini-2.5-Flash, Gemini-2.0-Flash ইত্যাদি
ভিত্তি মডেল: MiDashengLM-7B, Audio-Reasoner ইত্যাদি

বাস্তবায়ন বিবরণ

ALLM: MiDashengLM-7B
LLM: GPT-4o-2024-08-06
ট্রান্সক্রিপশন মডেল: Whisper-Turbo
সর্বোচ্চ পুনরাবৃত্তি সংখ্যা: ৩ বার
পোস্ট-প্রসেসিং: আউটপুট ফর্ম্যাট স্ট্যান্ডার্ডাইজ করতে GPT-4o ব্যবহার করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

MMAU-mini বেঞ্চমার্ক পরীক্ষার ফলাফল:

AGR ৭২.৬০% গড় নির্ভুলতা অর্জন করে, সমস্ত তুলনা পদ্ধতি অতিক্রম করে
সেরা ওপেন-সোর্স মডেলের তুলনায় ১০.৩ শতাংশ পয়েন্ট উন্নতি
বক্তৃতা বিভাগে সবচেয়ে উল্লেখযোগ্য উন্নতি (১৫.০ শতাংশ পয়েন্ট)

MMAR বেঞ্চমার্ক পরীক্ষার ফলাফল:

AGR ৫৮.৮৫% গড় নির্ভুলতা অর্জন করে
বক্তৃতা কাজে চমৎকার কর্মক্ষমতা (৬৯.২৩% বনাম দ্বিতীয় সেরা ৫৬.১৫%)
মিশ্র অডিও ধরনে বিদ্যমান ওপেন-সোর্স মডেলগুলির চেয়ে উল্লেখযোগ্যভাবে উন্নত

বিলোপন পরীক্ষা

LLM নির্বাচন প্রভাব: GPT-4o MMAR ডেটাসেটে GPT-3.5-turbo এর তুলনায় উল্লেখযোগ্য উন্নতি
ALLM প্রতিস্থাপন পরীক্ষা: বিভিন্ন ALLM কর্মক্ষমতা একই রকম, বর্তমান ALLM উপলব্ধি ক্ষমতা সমতুল্য নির্দেশ করে
পুনরাবৃত্তি লুপ গুরুত্ব: পুনরাবৃত্তিমূলক অপ্টিমাইজেশন লুপ সরানো সমস্ত ALLM কর্মক্ষমতা সামঞ্জস্যপূর্ণভাবে হ্রাস করে

পুনরাবৃত্তি রাউন্ড বিশ্লেষণ

MMAU-mini: ২ রাউন্ড পুনরাবৃত্তি সর্বোত্তম কর্মক্ষমতা অর্জন করে (৭৩.৮০%)
MMAR: ৩ রাউন্ড পুনরাবৃত্তি সর্বোত্তম কর্মক্ষমতা অর্জন করে (৫৭.২৪%)
অত্যধিক রাউন্ড (৪ রাউন্ড) শব্দ প্রবর্তন করে কর্মক্ষমতা হ্রাস করে

কেস বিশ্লেষণ

পত্রটি একটি "এপ্রিল ফুলস" ক্লাসিক কেস প্রদর্শন করে, অন্যান্য মডেলগুলি ভুলভাবে সত্যিকারের প্রস্থান বিবৃতি হিসাবে বোঝে, যখন AGR পুনরাবৃত্তিমূলক অপ্টিমাইজেশনের মাধ্যমে সঠিকভাবে এটি এপ্রিল ফুলস মজা হিসাবে চিহ্নিত করে, এর গভীর যুক্তি ক্ষমতা প্রদর্শন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

AGR সফলভাবে অডিও গভীর যুক্তিকে পাঠ্য বোঝার কাজে রূপান্তরিত করে, কার্যকরভাবে উপলব্ধি এবং জ্ঞান বিচ্ছিন্ন করে
সক্রিয় পুনরাবৃত্তিমূলক অপ্টিমাইজেশন লুপ মডেলের যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
বহু-এজেন্ট সহযোগিতা প্রক্রিয়া অডিও যুক্তি কাজে চমৎকার কর্মক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

সংকেত-স্তরের যুক্তি অপর্যাপ্ত: বর্তমান কাঠামো নিম্ন-স্তরের শব্দ সংকেত সূত্রের যুক্তিতে এখনও সীমিত
গণনা খরচ: বহু-রাউন্ড পুনরাবৃত্তি এবং বহু-এজেন্ট সহযোগিতা গণনা ওভারহেড বৃদ্ধি করে
LLM গুণমানের উপর নির্ভরতা: সিস্টেম কর্মক্ষমতা ব্যবহৃত LLM ক্ষমতার উপর অনেকাংশে নির্ভর করে

ভবিষ্যত দিকনির্দেশনা

নিম্ন-স্তরের শব্দ সংকেত বিশ্লেষণের জন্য আরও বিশেষায়িত প্রমাণ জেনারেটর বিকাশ করা
গণনা খরচ কমাতে পুনরাবৃত্তি কৌশল অপ্টিমাইজ করা
আরও অডিও বোঝার কাজে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

উদ্ভাবনী প্যারাডাইম রূপান্তর: অডিও যুক্তিকে পাঠ্য বোঝায় রূপান্তরিত করার ধারণা নতুন এবং কার্যকর
সিস্টেমেটিক ডিজাইন: বহু-এজেন্ট সহযোগিতা কাঠামো সম্পূর্ণভাবে ডিজাইন করা, প্রতিটি উপাদানের দায়িত্ব স্পষ্ট
পর্যাপ্ত পরীক্ষা: একাধিক বেঞ্চমার্কে তুলনা পরীক্ষা এবং বিলোপন পরীক্ষা তুলনামূলকভাবে ব্যাপক
উচ্চ ব্যবহারিক মূল্য: প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য পদ্ধতি স্থাপন এবং প্রয়োগ সহজ করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: এই রূপান্তর কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
গণনা দক্ষতা সমস্যা: বহু-রাউন্ড পুনরাবৃত্তির গণনা খরচ বিশ্লেষণ যথেষ্ট বিস্তারিত নয়
সাধারণীকরণ ক্ষমতা অজানা: অন্যান্য ধরনের অডিও যুক্তি কাজে কর্মক্ষমতা পর্যাপ্তভাবে যাচাই করা হয়নি
ত্রুটি প্রচার ঝুঁকি: বহু-এজেন্ট শৃঙ্খল প্রক্রিয়াকরণে ত্রুটি সংগ্রহের সম্ভাবনা রয়েছে

প্রভাব

একাডেমিক অবদান: প্রথমবার বহু-এজেন্ট সিস্টেম অডিও গভীর যুক্তিতে প্রবর্তন করা, নতুন গবেষণা দিক উন্মোচন করা
ব্যবহারিক মূল্য: প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য এবং SOTA কর্মক্ষমতা এটি ভাল প্রয়োগ সম্ভাবনা প্রদান করে
পুনরুৎপাদনযোগ্যতা: কোড ওপেন-সোর্স করার প্রতিশ্রুতি, পরবর্তী গবেষণা সুবিধা প্রদান করে

প্রযোজ্য দৃশ্য

বুদ্ধিমান সহায়ক: জটিল অডিও দৃশ্য বোঝার প্রয়োজন এমন কথোপকথন সিস্টেম
স্বয়ংক্রিয় চালনা: অডিও যুক্তির প্রয়োজন এমন পরিবেশ উপলব্ধি সিস্টেম
বিষয়বস্তু বিশ্লেষণ: অডিও বিষয়বস্তুর স্বয়ংক্রিয় বোঝা এবং শ্রেণীবিভাগ
শিক্ষা প্রয়োগ: অডিও উপকরণের বুদ্ধিমান বিশ্লেষণ এবং প্রশ্নোত্তর

সংদর্ভ

এই পত্রটি ২০টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, অডিও বোঝা, বহু-এজেন্ট সিস্টেম, বৃহৎ ভাষা মডেল সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সারসংক্ষেপ: AudioGenie-Reasoner উদ্ভাবনী প্যারাডাইম রূপান্তর এবং বহু-এজেন্ট সহযোগিতা প্রক্রিয়ার মাধ্যমে, অডিও গভীর যুক্তিতে মূল চ্যালেঞ্জ সফলভাবে সমাধান করে, একাধিক বেঞ্চমার্ক পরীক্ষায় উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। এই কাজ শুধুমাত্র প্রযুক্তিগতভাবে উদ্ভাবনী নয়, বরং অডিও বোঝার ক্ষেত্রের উন্নয়নের জন্য নতুন চিন্তাভাবনা এবং দিকনির্দেশনা প্রদান করে।