2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic

বিচ্ছুরণ-ভিত্তিক জেনারেটিভ মডেলের সাথে বাণী উন্নতি এবং বিপরীত অনুরণন

মৌলিক তথ্য

  • পেপার আইডি: 2208.05830
  • শিরোনাম: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
  • লেখক: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
  • শ্রেণীবিভাগ: eess.AS (অডিও এবং বাণী প্রক্রিয়াকরণ), cs.LG (যন্ত্র শিক্ষা), cs.SD (শব্দ)
  • প্রকাশনার সময়: ২০২২ সালের আগস্ট (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2208.05830
  • কোড লিঙ্ক: https://github.com/sp-uhh/sgmse

সারসংক্ষেপ

এই পেপারটি লেখকদের পূর্ববর্তী কাজের উপর ভিত্তি করে বিচ্ছুরণ-ভিত্তিক জেনারেটিভ মডেল ব্যবহার করে বাণী উন্নতি সম্পাদন করে। পেপারটি স্টোকাস্টিক ডিফারেনশিয়াল সমীকরণ (SDE) ভিত্তিক বিচ্ছুরণ প্রক্রিয়া বিস্তারিতভাবে উপস্থাপন করে এবং গভীর তাত্ত্বিক বিশ্লেষণ প্রদান করে। প্রচলিত শর্তসাপেক্ষ জেনারেটিভ কাজের বিপরীতে, এই পেপারটি বিশুদ্ধ গাউসিয়ান শব্দ থেকে বিপরীত প্রক্রিয়া শুরু করে না, বরং শব্দযুক্ত বাণী এবং গাউসিয়ান শব্দের মিশ্রণ থেকে শুরু করে। এটি ড্রিফট পদ সহ অগ্রগামী প্রক্রিয়ার সাথে সামঞ্জস্যপূর্ণ, যা পরিষ্কার বাণী থেকে শব্দযুক্ত বাণীর দিকে রূপান্তরিত হয়। গবেষণা দেখায় যে এই পদ্ধতি মাত্র ৩০টি বিচ্ছুরণ ধাপে উচ্চমানের পরিষ্কার বাণী অনুমান তৈরি করতে পারে। নেটওয়ার্ক স্থাপত্য উন্নত করার মাধ্যমে, বাণী উন্নতির কর্মক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে, যা নেটওয়ার্ক এবং আনুষ্ঠানিক পদ্ধতি উভয়ই মূল পদ্ধতির প্রধান সীমাবদ্ধতা প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বাণী উন্নতি শব্দ বা অনুরণন দ্বারা প্রভাবিত অডিও রেকর্ডিং থেকে পরিষ্কার বাণী সংকেত পুনরুদ্ধার করার লক্ষ্য রাখে। এটি একটি ক্লাসিক সংকেত প্রক্রিয়াকরণ সমস্যা যা টেলিফোন যোগাযোগ, শ্রবণ যন্ত্র এবং বাণী স্বীকৃতি ক্ষেত্রে গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. বিচক্ষণ মডেলের সীমাবদ্ধতা:
    • প্রশিক্ষণ ডেটায় সমস্ত সম্ভাব্য শব্দ অবস্থা কভার করা কঠিন
    • অপ্রাকৃতিক বাণী বিকৃতি উৎপন্ন করতে পারে
    • সীমিত সাধারণীকরণ ক্ষমতা
  2. VAE জেনারেটিভ মডেলের সমস্যা:
    • লুপ্ত স্তরের মাত্রা হ্রাসের সীমাবদ্ধতা
    • এনকোডার শব্দযুক্ত ইনপুটের প্রতি সংবেদনশীল
    • রৈখিক শব্দ মডেলের উপর নির্ভরশীল
  3. বিদ্যমান বিচ্ছুরণ মডেলের অপর্যাপ্ততা:
    • CDiffuSE স্পষ্ট পরিবেশগত শব্দ অনুমান প্রয়োজন
    • উচ্চ ফ্রিকোয়েন্সি তথ্য সংরক্ষণ দুর্বল

গবেষণা প্রেরণা

এই পেপারটি একটি বিশুদ্ধ জেনারেটিভ বিচ্ছুরণ মডেল ডিজাইন করার লক্ষ্য রাখে যা পরিষ্কার বাণীর পূর্ব বিতরণ শিখে জটিল STFT ডোমেনে উচ্চমানের বাণী উন্নতি এবং বিপরীত অনুরণন অর্জন করে।

মূল অবদান

  1. উদ্ভাবনী SDE বিচ্ছুরণ প্রক্রিয়া: ড্রিফট পদ সহ স্টোকাস্টিক ডিফারেনশিয়াল সমীকরণ প্রস্তাব করা যা অগ্রগামী প্রক্রিয়াকে পরিষ্কার বাণী থেকে শব্দযুক্ত বাণীতে রূপান্তরিত করে
  2. উন্নত নেটওয়ার্ক স্থাপত্য: মূল জটিল U-Net এর পরিবর্তে NCSN++ স্থাপত্য গ্রহণ করা, কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করা
  3. একীভূত কাঠামো: একই কাঠামো বাণী উন্নতি এবং বিপরীত অনুরণন উভয় কাজ পরিচালনা করতে পারে
  4. ব্যাপক মূল্যায়ন: ক্রস-ডেটাসেট মূল্যায়ন, বাস্তব ডেটা পরীক্ষা এবং বিষয়গত শ্রবণ পরীক্ষা অন্তর্ভুক্ত
  5. দক্ষতা অপ্টিমাইজেশন: বিভিন্ন স্যাম্পলার কনফিগারেশনের মাধ্যমে কর্মক্ষমতা এবং গণনা গতির ভারসাম্য
  6. তাত্ত্বিক বিশ্লেষণ: বিচ্ছুরণ প্রক্রিয়ার বিস্তারিত তাত্ত্বিক ব্যুৎপত্তি এবং বিশ্লেষণ প্রদান করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

  • ইনপুট: শব্দযুক্ত/অনুরণিত বাণী সংকেত yy
  • আউটপুট: পরিষ্কার বাণী সংকেত x0x_0
  • সীমাবদ্ধতা: বাণীর প্রাকৃতিকতা এবং বোধগম্যতা বজায় রাখা

ডেটা প্রতিনিধিত্ব

পেপারটি জটিল STFT ডোমেনে কাজ করে, মাত্রা সংকোচন রূপান্তর ব্যবহার করে: c~=βcαei(c)\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)} যেখানে α(0,1]\alpha \in (0,1] সংকোচন সূচক, βR+\beta \in \mathbb{R}^+ স্কেলিং ফ্যাক্টর।

স্টোকাস্টিক ডিফারেনশিয়াল সমীকরণ ডিজাইন

অগ্রগামী প্রক্রিয়া

রৈখিক SDE সংজ্ঞায়িত করা: dxt=f(xt,y)dt+g(t)dwdx_t = f(x_t, y)dt + g(t)dw

যেখানে:

  • ড্রিফট সহগ: f(xt,y)=γ(yxt)f(x_t, y) = \gamma(y - x_t)
  • বিচ্ছুরণ সহগ: g(t)=σmin(σmaxσmin)t2log(σmaxσmin)g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}

বিপরীত প্রক্রিয়া

সংশ্লিষ্ট বিপরীত SDE: dxt=[f(xt,y)g(t)2sθ(xt,y,t)]dt+g(t)dwˉdx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}

যেখানে sθ(xt,y,t)s_\theta(x_t, y, t) শেখার জন্য প্রয়োজনীয় স্কোর ফাংশন।

প্রশিক্ষণ উদ্দেশ্য

ডিনোইজিং স্কোর ম্যাচিং এর উপর ভিত্তি করে, প্রশিক্ষণ উদ্দেশ্য: argminθEt,(x0,y),z,xt(x0,y)[sθ(xt,y,t)+zσ(t)22]\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]

নেটওয়ার্ক স্থাপত্য

NCSN++ স্থাপত্য গ্রহণ করা, প্রধান বৈশিষ্ট্য:

  1. বহু-রেজোলিউশন U-Net কাঠামো
  2. ক্রমবর্ধমান বৃদ্ধি পথ
  3. বৈশ্বিক মনোযোগ প্রক্রিয়া
  4. সময় এম্বেডিং: ফুরিয়ার এম্বেডিং ব্যবহার করে সময় তথ্য এনকোড করা
  5. অবশিষ্ট ব্লক: BigGAN এর উপর ভিত্তি করে অবশিষ্ট নেটওয়ার্ক ব্লক

পরীক্ষামূলক সেটআপ

ডেটাসেট

  1. WSJ0-CHiME3: WSJ0 পরিষ্কার বাণী এবং CHiME3 শব্দ ব্যবহার করা, SNR পরিসীমা 0-20dB
  2. VB-DMD (VoiceBank-DEMAND): মান বাণী উন্নতি বেঞ্চমার্ক ডেটাসেট
  3. WSJ0-REVERB: pyroomacoustics ব্যবহার করে অনুকরণ করা অনুরণ ডেটা, T60 পরিসীমা 0.4-1.0 সেকেন্ড

মূল্যায়ন মেট্রিক্স

  • সম্পূর্ণ রেফারেন্স মেট্রিক্স: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
  • রেফারেন্স-মুক্ত মেট্রিক্স: DNSMOS, SIG, BAK, OVRL, WVMOS

তুলনামূলক পদ্ধতি

  • জেনারেটিভ মডেল: STCN, DVAE, CDiffuSE, SGMSE (মূল সংস্করণ)
  • বিচক্ষণ মডেল: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

বাস্তবায়ন বিবরণ

  • STFT প্যারামিটার: উইন্ডো দৈর্ঘ্য 510, লাফ দৈর্ঘ্য 128, Hann উইন্ডো
  • SDE প্যারামিটার: σmin=0.05\sigma_{min}=0.05, σmax=0.5\sigma_{max}=0.5, γ=1.5\gamma=1.5
  • প্রশিক্ষণ: 4×Quadro RTX 6000, 160 epoch, শিক্ষার হার 10410^{-4}
  • স্যাম্পলিং: 30 ধাপ বিপরীত প্রক্রিয়া, পূর্বাভাস-সংশোধন স্যাম্পলার

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

বাণী উন্নতি কর্মক্ষমতা (WSJ0-CHiME3)

পদ্ধতিপ্রশিক্ষণ সেটPOLQAPESQSI-SDR
SGMSE+WSJ0-C33.732.9618.3
Conv-TasNetWSJ0-C33.652.9919.9
MetricGAN+WSJ0-C33.523.0310.5
CDiffuSEWSJ0-C33.082.279.2

ক্রস-ডেটাসেট সাধারণীকরণ ক্ষমতা

অমিলিত অবস্থায় (VB-DMD প্রশিক্ষণ, WSJ0-CHiME3 পরীক্ষা), SGMSE+ সমস্ত মেট্রিক্সে অন্যান্য পদ্ধতির চেয়ে উন্নত, উচ্চতর সাধারণীকরণ ক্ষমতা প্রদর্শন করে।

বিপরীত অনুরণ কর্মক্ষমতা (WSJ0-REVERB)

পদ্ধতিPOLQAPESQSI-SDR
SGMSE+3.242.661.6
Conv-TasNet2.411.841.6
GaGNet2.621.98-0.6

অপসারণ পরীক্ষা

স্যাম্পলার কনফিগারেশন অপ্টিমাইজেশন

  • পূর্বাভাস-সংশোধন স্যাম্পলার: 1টি সংশোধন ধাপ সর্বোত্তম কর্মক্ষমতা ভারসাম্য অর্জন করে
  • ধাপ নির্বাচন: 30 ধাপ কর্মক্ষমতা স্যাচুরেশন অর্জন করে
  • গণনা দক্ষতা: RTF 1.77 (বাস্তব সময় প্রক্রিয়াকরণের 1.77 গুণ)

স্থাপত্য উন্নতি প্রভাব

মূল SGMSE এর তুলনায়, SGMSE+ POLQA তে 0.75 উন্নতি এবং PESQ তে 0.68 উন্নতি প্রদর্শন করে, নেটওয়ার্ক স্থাপত্যের গুরুত্ব প্রমাণ করে।

বিষয়গত শ্রবণ পরীক্ষা

MUSHRA পরীক্ষার ফলাফল দেখায় যে SGMSE+ সর্বোচ্চ স্কোর অর্জন করে, বিশেষত অমিলিত অবস্থায় চমৎকার শক্তিশালীতা প্রদর্শন করে।

বাস্তব ডেটা মূল্যায়ন

DNS Challenge 2020 বাস্তব শব্দ ডেটায়, SGMSE+ সমস্ত রেফারেন্স-মুক্ত মেট্রিক্সে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে।

সম্পর্কিত কাজ

বিচক্ষণ মডেল পদ্ধতি

  • সময়-ফ্রিকোয়েন্সি মাস্কিং: আদর্শ বাইনারি মাস্ক বা অনুপাত মাস্ক শেখা
  • জটিল বর্ণালী ম্যাপিং: সরাসরি জটিল STFT সহগ অনুমান করা
  • সময় ডোমেন পদ্ধতি: শেষ থেকে শেষ তরঙ্গফর্ম প্রক্রিয়াকরণ

জেনারেটিভ মডেল পদ্ধতি

  • VAE ভিত্তি: বাণী পূর্ব বিতরণ শেখা, কিন্তু লুপ্ত স্থান হ্রাস দ্বারা সীমিত
  • GAN পদ্ধতি: অন্তর্নিহিত ঘনত্ব অনুমান, কিন্তু প্রশিক্ষণ অস্থিতিশীল
  • বিচ্ছুরণ মডেল: সম্প্রতি উদীয়মান, পুনর্জন্ম এবং সরাসরি মডেলিং দুটি শ্রেণীতে বিভক্ত

বাণীতে বিচ্ছুরণ মডেলের প্রয়োগ

  • বাণী পুনর্জন্ম: CDiffuSE ইত্যাদি পদ্ধতি
  • সরাসরি মডেলিং: এই পেপারের SGMSE সিরিজ পদ্ধতি

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. উন্নত নেটওয়ার্ক স্থাপত্য কর্মক্ষমতা উন্নতির মূল কারণ
  2. জেনারেটিভ মডেল ক্রস-ডেটাসেট সাধারণীকরণে বিচক্ষণ মডেলের চেয়ে উন্নত
  3. একই কাঠামো একাধিক বাণী পুনরুদ্ধার কাজ কার্যকরভাবে পরিচালনা করতে পারে
  4. 30 ধাপ বিচ্ছুরণ প্রক্রিয়া উচ্চমানের বাণী উৎপাদন অর্জন করতে পারে

সীমাবদ্ধতা

  1. গণনা জটিলতা: বিচক্ষণ মডেলের তুলনায় বড় গণনা পরিমাণ
  2. কৃত্রিম নিদর্শন: অত্যন্ত নিম্ন SNR এ "ভয়েসিং" কৃত্রিম নিদর্শন উৎপন্ন করতে পারে
  3. পর্যায় মডেলিং: জটিল মডেলিংয়ের পর্যায় উন্নতি প্রভাব সীমিত
  4. প্যারামিটার সংবেদনশীলতা: SDE প্যারামিটার সাবধানে সামঞ্জস্য প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. বাণী কার্যকলাপ সনাক্তকরণ এবং ফোনিম তথ্য শর্তসাপেক্ষতা যোগ করা
  2. আরও দক্ষ স্যাম্পলিং কৌশল অন্বেষণ করা
  3. ছোট ফ্রেম দৈর্ঘ্যে পর্যায় বৃদ্ধি গবেষণা করা
  4. অন্যান্য বাণী পুনরুদ্ধার কাজে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

  1. তাত্ত্বিক অবদান: সম্পূর্ণ SDE তাত্ত্বিক ব্যুৎপত্তি এবং বিশ্লেষণ প্রদান করা
  2. পদ্ধতি উদ্ভাবন: কাজ অভিযোজনের জন্য চতুর ড্রিফট পদ ডিজাইন
  3. ব্যাপক পরীক্ষা: ক্রস-ডেটাসেট, বাস্তব ডেটা এবং বিষয়গত মূল্যায়ন অন্তর্ভুক্ত
  4. ব্যবহারিক মূল্য: কোড খোলা উৎস, পুনরুৎপাদন এবং প্রয়োগ সুবিধাজনক
  5. স্পষ্ট লেখা: তাত্ত্বিক ব্যুৎপত্তি বিস্তারিত, পরীক্ষা ডিজাইন যুক্তিসঙ্গত

অপর্যাপ্ততা

  1. গণনা দক্ষতা: RTF 1.77, বাস্তব সময়ের কর্মক্ষমতা উন্নতির অপেক্ষায়
  2. কৃত্রিম নিদর্শন সমস্যা: নিম্ন SNR এ "ভয়েসিং" কৃত্রিম নিদর্শন সমাধান প্রয়োজন
  3. প্যারামিটার সমন্বয়: SDE প্যারামিটার ডেটাসেটের জন্য অপ্টিমাইজ প্রয়োজন
  4. তাত্ত্বিক বিশ্লেষণ: অগ্র-পশ্চাদ প্রক্রিয়া অমিলের প্রভাব বিশ্লেষণ অপর্যাপ্ত

প্রভাব

  1. একাডেমিক মূল্য: বাণী প্রক্রিয়াকরণে বিচ্ছুরণ মডেল প্রয়োগের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করা
  2. ব্যবহারিক মূল্য: একাধিক বেঞ্চমার্ক ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করা
  3. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং অডিও নমুনা প্রদান করা
  4. অনুপ্রেরণামূলক: অন্যান্য বাণী পুনরুদ্ধার কাজের জন্য সাধারণ কাঠামো প্রদান করা

প্রযোজ্য পরিস্থিতি

  1. বাণী উন্নতি: টেলিফোন যোগাযোগ, শ্রবণ যন্ত্র
  2. বিপরীত অনুরণন: ঘরের ভিতরে বাণী রেকর্ডিং পরবর্তী প্রক্রিয়াকরণ
  3. বাণী পুনরুদ্ধার: ঐতিহাসিক রেকর্ডিং মেরামত
  4. প্রাক-প্রক্রিয়াকরণ: বাণী স্বীকৃতি সিস্টেমের সামনের শেষ প্রক্রিয়াকরণ

তথ্যসূত্র

পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, প্রধান অন্তর্ভুক্ত:

  • Song et al. (2021): Score-based generative modeling through stochastic differential equations
  • Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
  • Vincent (2011): A connection between score matching and denoising autoencoders
  • Anderson (1982): Reverse-time diffusion equation models

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চমানের গবেষণা পেপার যা তাত্ত্বিক উদ্ভাবন, পদ্ধতি ডিজাইন এবং পরীক্ষামূলক যাচাইকরণে চমৎকার পারফরম্যান্স প্রদর্শন করে। পেপারটি সফলভাবে বিচ্ছুরণ মডেল বাণী উন্নতি কাজে প্রয়োগ করে, চতুর SDE ডিজাইন এবং নেটওয়ার্ক স্থাপত্য উন্নতির মাধ্যমে, বিচক্ষণ মডেলের সমতুল্য কর্মক্ষমতা অর্জন করে, একই সাথে সাধারণীকরণ ক্ষমতায় উন্নত পারফরম্যান্স প্রদর্শন করে। গণনা দক্ষতা এবং কৃত্রিম নিদর্শন সমস্যা থাকা সত্ত্বেও, এর তাত্ত্বিক অবদান এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ কাজ করে তোলে।