2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

শ্রেণিবদ্ধ বিস্তার ভাষা মডেলের মাধ্যমে পরবর্তী শব্দার্থিক স্কেল পূর্বাভাস

মৌলিক তথ্য

পেপার আইডি: 2510.08632
শিরোনাম: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
লেখক: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
শ্রেণীবিভাগ: cs.CL cs.LG
প্রকাশনা সম্মেলন: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
পেপার লিংক: https://arxiv.org/abs/2510.08632

সারসংক্ষেপ

এই পেপারটি শ্রেণিবদ্ধ বিস্তার ভাষা মডেল (HDLM) উপস্থাপন করে—ভাষা মডেলিংয়ের জন্য একটি নতুন ধরনের বিচ্ছিন্ন বিস্তার মডেল। HDLM একটি শ্রেণিবদ্ধ শব্দভান্ডারের উপর ভিত্তি করে তৈরি, যেখানে বিস্তারিত শব্দার্থিক সহ নিম্ন-স্তরের টোকেনগুলি সম্পূর্ণভাবে মোটা-দানাদার অর্থ সহ উচ্চ-স্তরের টোকেনগুলিতে ম্যাপ করা হয়। এগিয়ে যাওয়ার প্রক্রিয়ায়, প্রতিটি টোকেন একটি সময়সূচী অনুযায়ী স্বাধীনভাবে আরও বিমূর্ত শব্দার্থিক সহ উচ্চ-স্তরের পূর্বপুরুষে বিঘ্নিত হয়, যখন বিপরীত প্রক্রিয়ায়, মডেল ক্রমান্বয়ে পরবর্তী আরও বিস্তারিত শব্দার্থিক পূর্বাভাস দেয়। HDLM ভাষা মডেলিংয়ের জন্য একটি সাধারণ সময়-পরিবর্তনশীল পরবর্তী শব্দার্থিক স্কেল পূর্বাভাস প্রক্রিয়া প্রদান করে। লেখকরা বিস্তার প্রমাণ নিম্ন সীমা (ELBO) এর একটি বন্ধ-ফর্ম অভিব্যক্তি উদ্ভাবন করেছেন এবং প্রমাণ করেছেন যে HDLM নমনীয়ভাবে প্রয়োগ করা যায়, যখন বিদ্যমান MDLM কে একটি বিশেষ ক্ষেত্র হিসাবে অন্তর্ভুক্ত করে।

গবেষণা পটভূমি এবং প্রেরণা

1. সমাধান করার সমস্যা

বিদ্যমান বিচ্ছিন্ন বিস্তার ভাষা মডেলগুলি বেশ কয়েকটি মৌলিক সীমাবদ্ধতা রয়েছে:

মাস্ক বিস্তার: সমস্ত মাস্কড টোকেনের একই মাস্ক এম্বেডিং রয়েছে, সমৃদ্ধ শব্দার্থিক অভাব; ইতিমধ্যে উত্পাদিত টোকেনগুলি স্ব-সংশোধন করতে পারে না
ইউনিফর্ম বিস্তার: একই টোকেন শোরগোল পর্যায়ে শোরগোল হিসাবে কাজ করে কিন্তু ডিকোডিং সময়ে অর্থপূর্ণ হয়ে ওঠে, যা শব্দার্থিক অসামঞ্জস্য এবং বিভ্রান্তির দিকে পরিচালিত করে

2. সমস্যার গুরুত্ব

স্বয়ংক্রিয় হ্রাসকারী ভাষা মডেলগুলি বর্তমানে অত্যাধুনিক পদ্ধতি হলেও, তাদের পরবর্তী-টোকেন পূর্বাভাস স্কিম মৌলিকভাবে পূর্বে উত্পাদিত টোকেনগুলি সংশোধন করার ক্ষমতা সীমাবদ্ধ করে। বিস্তার মডেলগুলি তাদের ক্রমান্বয়ে ডিনোইজিং এবং পরিমার্জন ক্ষমতার জন্য মনোযোগ আকর্ষণ করছে, কিন্তু বিদ্যমান বিচ্ছিন্ন বিস্তার পদ্ধতিগুলি ভাষা মডেলিংয়ে এখনও উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে।

3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

MDLM এবং MD4: মাস্কড টোকেনগুলি সমৃদ্ধ শব্দার্থিক অভাব করে, স্ব-সংশোধন করতে পারে না
ইউনিফর্ম বিচ্ছিন্ন বিস্তার: দুর্বল কর্মক্ষমতা, শব্দার্থিক অসামঞ্জস্য
GIDD: যদিও মাস্ক এবং ইউনিফর্ম শোরগোল একীভূত করে, শোরগোল টোকেনগুলি এখনও সমৃদ্ধ শব্দার্থিক অভাব করে, স্ব-সংশোধন ক্ষমতা সীমিত

4. গবেষণা প্রেরণা

লেখকরা শব্দার্থিক শ্রেণিবিন্যাস প্রবর্তনের মাধ্যমে বিস্তার মডেলগুলির সুবিধাগুলি সর্বাধিক করার প্রস্তাব দেন, যা নির্বিচারে ক্রম উত্পাদন এবং ক্রমান্বয়ে স্ব-পরিমার্জন সক্ষম করে, ভিজ্যুয়াল স্বয়ংক্রিয় হ্রাসকারী মডেল (VAR) এ পরবর্তী-স্কেল পূর্বাভাসের অনুরূপ।

মূল অবদান

HDLM ফ্রেমওয়ার্ক প্রস্তাব: একটি সাধারণ এবং নমনীয় বিচ্ছিন্ন বিস্তার ভাষা মডেলিং ফ্রেমওয়ার্ক, সময়-পরিবর্তনশীল পরবর্তী শব্দার্থিক স্কেল পূর্বাভাসের মাধ্যমে বাস্তবায়িত
কঠোর তাত্ত্বিক ভিত্তি স্থাপন: ক্রমাগত-সময় মার্কভ চেইন (CTMC) ফ্রেমওয়ার্কের উপর ভিত্তি করে, শ্রেণিবদ্ধ বিচ্ছিন্ন বিস্তারের জন্য বন্ধ-ফর্ম ELBO উদ্ভাবন
সামঞ্জস্যতা প্রমাণ: তাত্ত্বিকভাবে প্রমাণ করে যে MDLM হল HDLM এর একটি বিশেষ ক্ষেত্র, ফ্রেমওয়ার্কের সার্বজনীনতা প্রদর্শন করে
ব্যবহারিক কৌশল প্রস্তাব: তাত্ত্বিক অন্তর্দৃষ্টির উপর ভিত্তি করে উন্নত প্রশিক্ষণ এবং নমুনা কৌশল প্রস্তাব করে
কর্মক্ষমতা উন্নতি অর্জন: পাঠ্য প্রজন্ম পরীক্ষায় ক্রমাগত ভিত্তিরেখার চেয়ে কম যাচাইকরণ এবং উত্পাদন বিভ্রান্তি প্রদর্শন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

HDLM এর কাজ হল শোরগোল ইনপুট দেওয়া অবস্থায়, শ্রেণিবদ্ধ শব্দার্থিক কাঠামোর মাধ্যমে ক্রমান্বয়ে আরও বিস্তারিত টোকেনগুলির পূর্বাভাস দেওয়া, যতক্ষণ না মূল শব্দভান্ডার পুনরুদ্ধার করা হয়। ইনপুট হল বিভিন্ন স্তরের শোরগোল টোকেন, আউটপুট হল শব্দ-স্তরের পূর্বাভাস বিতরণ।

মডেল আর্কিটেকচার

1. শ্রেণিবদ্ধ শব্দভান্ডার ডিজাইন

শব্দভান্ডার স্তর: পরিষ্কার শব্দ টোকেন x থেকে ক্লাস্টার টোকেন c থেকে মাস্ক টোকেন m এর শ্রেণিবদ্ধ কাঠামো: x → c → m
ম্যাপিং সম্পর্ক: সম্পূর্ণ ফাংশন c = Γx এর মাধ্যমে নিম্ন-স্তরের টোকেনগুলি উচ্চ-স্তরের টোকেনগুলিতে ম্যাপ করা হয়, যেখানে Γ ∈ R^{|C|×|V|}

2. এগিয়ে যাওয়ার প্রক্রিয়া

এগিয়ে যাওয়ার প্রক্রিয়ার প্রান্তিক বিতরণ হল:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

যেখানে β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. CTMC ফ্রেমওয়ার্ক

সময় অ-সমজাতীয় জেনারেটর ম্যাট্রিক্স হল:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. বিপরীত প্রক্রিয়া

মান বিপরীত প্রক্রিয়া ব্যবহার করে:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. শব্দার্থিক শ্রেণিবদ্ধ কাঠামো

ক্রমান্বয়ে শব্দার্থিক: মধ্যবর্তী স্তরগুলি আংশিকভাবে ডিকোড করা টোকেন হিসাবে দেখা যায়, একক মাস্ক টোকেনের চেয়ে আরও সমৃদ্ধ শব্দার্থিক প্রদান করে
নমনীয় ডিকোডিং: মোটা-দানাদার শব্দার্থিকে অনিশ্চয়তা আরও বড় ডিকোডিং নমনীয়তার অনুমতি দেয়

2. বন্ধ-ফর্ম ELBO উদ্ভাবন

উদ্ভাবিত প্রশিক্ষণ ক্ষতি দুটি ক্রস-এন্ট্রপি ক্ষতির একটি ওজনযুক্ত সমন্বয়:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. র্যান্ডম বিঘ্ন প্রক্রিয়া

বিঘ্ন সম্ভাবনা ξ < 1 প্রবর্তন করে, যা শব্দ টোকেনগুলিকে সম্ভাবনা 1-ξ এর সাথে ভুল ক্লাস্টারে রূপান্তরিত করে, মডেলের স্ব-সংশোধন ক্ষমতা উন্নত করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রধান ডেটাসেট: OpenWebText (OWT), 131B প্রশিক্ষণ টোকেন সহ
অতিরিক্ত ডেটাসেট: LM1B (33B টোকেন) পরিপূরক যাচাইকরণের জন্য
প্রসঙ্গ দৈর্ঘ্য: 512 টোকেন, বাক্য প্যাকিং ব্যবহার করা হয় না

মূল্যায়ন মেট্রিক্স

যাচাইকরণ বিভ্রান্তি (Valid. PPL): OWT যাচাইকরণ সেটে বিভ্রান্তি
উত্পাদন বিভ্রান্তি (Gen. PPL): GPT2-large কে রেফারেন্স মডেল হিসাবে ব্যবহার করে উত্পাদিত নমুনা মূল্যায়ন করা
ডাউনস্ট্রিম কাজ: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande ইত্যাদি

তুলনা পদ্ধতি

স্বয়ংক্রিয় হ্রাসকারী মডেল: GPT-2, Llama-110M
বিচ্ছিন্ন বিস্তার মডেল: SEDD, MDLM, GIDD+

বাস্তবায়ন বিবরণ

মডেল আর্কিটেকচার: DiT আর্কিটেকচার, ছোট (170M প্যারামিটার) এবং বেস (425M প্যারামিটার)
অপ্টিমাইজার: Adam (β=(0.9,0.99)), শেখার হার 5×10^{-4}
প্রশিক্ষণ পদক্ষেপ: 500k পদক্ষেপ, ব্যাচ আকার 512
ওজন ক্লিপিং: ক্ষতি ওজন w_{t,m}, w_{t,c} কে 2.0 বা 10.0 এ ক্লিপ করে অপ্টিমাইজেশন স্থিতিশীল করতে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	প্রশিক্ষণ টোকেন	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

মূল আবিষ্কার:

HDLM-small যাচাইকরণ এবং উত্পাদন বিভ্রান্তি উভয় ক্ষেত্রেই অন্যান্য বিচ্ছিন্ন বিস্তার পদ্ধতির চেয়ে উন্নত
HDLM-base 19.22 বিভ্রান্তি অর্জন করে, স্বয়ংক্রিয় হ্রাসকারী মডেল কর্মক্ষমতা অতিক্রম করে বা মিলিয়ে দেয়

বিলোপ পরীক্ষা

1. ক্লাস্টার সংখ্যা প্রভাব

সর্বোত্তম ক্লাস্টার সংখ্যা প্রায় 64-128 (শব্দভান্ডার আকারের বর্গমূলের প্রায়)
n=1 হলে MDLM কর্মক্ষমতা পুনরুদ্ধার করে, তাত্ত্বিক বিশ্লেষণ যাচাই করে

2. র্যান্ডম বিঘ্ন প্রভাব

ξ=0.9 এ উত্পাদন বিভ্রান্তি 51% হ্রাস পায় (144.2 থেকে 69.76 এ)
ξ=0.8 এ উত্পাদন বিভ্রান্তি 62% হ্রাস পায় (54.15 এ)
স্ব-সংশোধন ক্ষমতার উল্লেখযোগ্য উন্নতি প্রমাণ করে

3. এগিয়ে যাওয়ার প্রক্রিয়া সময়সূচী

γ মান যত বড়, একক-পদক্ষেপ ডিনোইজিং কাজ তত কঠিন, কিন্তু প্রকৃত অনুমান কর্মক্ষমতা আরও ভাল
γ=3 এ সর্বোত্তম উত্পাদন বিভ্রান্তি 135.9 অর্জন করে

ডাউনস্ট্রিম কাজ কর্মক্ষমতা

একাধিক বোঝার কাজে, HDLM-small গড় নির্ভুলতা 39.62% অর্জন করে, GIDD এর 38.53% এর চেয়ে উন্নত, শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

HDLM "পরবর্তী শব্দার্থিক স্কেল পূর্বাভাস" স্কিমের মাধ্যমে বিচ্ছিন্ন বিস্তার ভাষা মডেলিং কার্যকরভাবে উন্নত করে
শ্রেণিবদ্ধ শব্দার্থিক কাঠামো ঐতিহ্যবাহী মাস্কের চেয়ে আরও সমৃদ্ধ মধ্যবর্তী প্রতিনিধিত্ব প্রদান করে
র্যান্ডম বিঘ্ন প্রক্রিয়া মডেলের স্ব-সংশোধন ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করে
তাত্ত্বিক ফ্রেমওয়ার্ক ভাল সার্বজনীনতা এবং সম্প্রসারণযোগ্যতা রয়েছে

সীমাবদ্ধতা

ক্লাস্টার গুণমান নির্ভরতা: বর্তমানে পূর্বনির্ধারিত K-means ক্লাস্টারিং ব্যবহার করে, ক্লাস্টার গুণমান কর্মক্ষমতায় উল্লেখযোগ্য প্রভাব ফেলে
গণনা জটিলতা: বহু-স্তরের কাঠামো প্রশিক্ষণ এবং অনুমানের গণনা ওভারহেড বৃদ্ধি করতে পারে
হাইপারপ্যারামিটার সংবেদনশীলতা: প্রশিক্ষণ স্থিতিশীল করতে ওজন ক্লিপিং ইত্যাদি হাইপারপ্যারামিটার সাবধানে সামঞ্জস্য করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

আরও জটিল শ্রেণিবদ্ধ কাঠামো শেখার পদ্ধতি অন্বেষণ করুন (যেমন DeepSets)
একাধিক মধ্যবর্তী স্তরের বাস্তবায়ন এবং অপ্টিমাইজেশন গবেষণা করুন
ফ্রেমওয়ার্ক বৃহত্তর স্কেলের ভাষা মডেলে প্রসারিত করুন
মাল্টিমোডাল কাজে প্রয়োগ অন্বেষণ করুন

গভীর মূল্যায়ন

সুবিধা

কঠোর তাত্ত্বিক অবদান: সম্পূর্ণ CTMC তাত্ত্বিক ফ্রেমওয়ার্ক এবং কঠোর গাণিতিক উদ্ভাবন প্রদান করে
শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো শব্দার্থিক শ্রেণিবদ্ধ কাঠামো বিচ্ছিন্ন বিস্তার ভাষা মডেলে প্রবর্তন করে
ব্যাপক পরীক্ষামূলক ডিজাইন: ব্যাপক বিলোপ গবেষণা এবং তুলনা পরীক্ষা অন্তর্ভুক্ত করে
উচ্চ ব্যবহারিক মূল্য: প্রস্তাবিত কৌশল বিদ্যমান বিস্তার মডেল ফ্রেমওয়ার্কে সরাসরি প্রয়োগ করা যায়

অপূর্ণতা

স্কেল সীমাবদ্ধতা: পরীক্ষা প্রধানত মাঝারি এবং ছোট স্কেল মডেলে পরিচালিত হয়, বড় স্কেল যাচাইকরণ অপর্যাপ্ত
সহজ ক্লাস্টারিং পদ্ধতি: বর্তমান শব্দার্থিক ক্লাস্টারিং পদ্ধতি তুলনামূলকভাবে মৌলিক, কর্মক্ষমতা সীমা সীমাবদ্ধ করতে পারে
উত্পাদন গুণমান মূল্যায়ন: প্রধানত বিভ্রান্তি মেট্রিক্সের উপর নির্ভর করে, মানব মূল্যায়ন এবং বৈচিত্র্য বিশ্লেষণ অভাব করে

প্রভাব

একাডেমিক অবদান: বিচ্ছিন্ন বিস্তার ভাষা মডেলিংয়ের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং বাস্তবায়ন করা সহজ, বাস্তব প্রয়োগে প্রচার করার সম্ভাবনা রয়েছে
পুনরুৎপাদনযোগ্যতা: লেখকরা সম্পূর্ণ কোড বাস্তবায়ন এবং বিস্তারিত পরীক্ষামূলক সেটআপ প্রদান করেন

প্রযোজ্য পরিস্থিতি

পাঠ্য প্রজন্ম কাজ: বিশেষত ক্রমান্বয়ে পরিমার্জন প্রয়োজন এমন প্রজন্ম পরিস্থিতিতে উপযুক্ত
নিয়ন্ত্রিত পাঠ্য প্রজন্ম: শ্রেণিবদ্ধ কাঠামো বিভিন্ন দানাদারিতার নিয়ন্ত্রণ বাস্তবায়ন সুবিধা দেয়
পাঠ্য সম্পাদনা এবং সংশোধন: স্ব-সংশোধন ক্ষমতা এটি পাঠ্য পরিবর্তন কাজের জন্য উপযুক্ত করে তোলে

রেফারেন্স

পেপারটি বিস্তার মডেল, ভাষা মডেলিং এবং বিচ্ছিন্ন অবস্থা স্থান মডেলিং ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে D3PM, MDLM, GIDD ইত্যাদি মূল ভিত্তি কাজ এবং GPT সিরিজ, BERT ইত্যাদি ক্লাসিক ভাষা মডেল রয়েছে।