2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

চাংক-ডিস্টিল্ড ল্যাঙ্গুয়েজ মডেলিং

মৌলিক তথ্য

  • পেপার আইডি: 2501.00343
  • শিরোনাম: চাংক-ডিস্টিল্ড ল্যাঙ্গুয়েজ মডেলিং
  • লেখক: ইয়ানহং লি (শিকাগো বিশ্ববিদ্যালয় ও টিটিআইসি), কারেন লিভেস্কু (টয়োটা টেকনোলজিক্যাল ইনস্টিটিউট অ্যাট শিকাগো), জিয়াওয়েই ঝো (টিটিআইসি ও স্টোনি ব্রুক বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL cs.AI
  • প্রকাশনার সময়: ২০২৪ সালের ৩১ ডিসেম্বর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2501.00343

সারসংক্ষেপ

এই পেপারটি চাংক-ডিস্টিল্ড ল্যাঙ্গুয়েজ মডেলিং (সিডি-এলএম) প্রস্তাব করে, যা বর্তমান বড় ভাষা মডেলের দুটি মূল চ্যালেঞ্জ সমাধানের জন্য একটি পাঠ্য প্রজন্ম পদ্ধতি: টোকেন-স্তরের প্রজন্মের অদক্ষতা এবং নতুন ডেটা ও জ্ঞানের সাথে খাপ খাওয়ানোর কঠিনতা। এই পদ্ধতিটি গভীর নেটওয়ার্ক-ভিত্তিক এলএলএম-কে সহজ পুনরুদ্ধার মডিউলের সাথে একত্রিত করে, যা একক ডিকোডিং ধাপে একাধিক-টোকেন পাঠ্য চাংক উৎপন্ন করতে অনুমতি দেয়। এর পুনরুদ্ধার কাঠামো মডেল বা ডোমেইন-নির্দিষ্ট ডেটা সংরক্ষণাগার নমনীয় নির্মাণ সমর্থন করে, যা বিদ্যমান মডেলের অভ্যন্তরীণ জ্ঞান এবং মানব-মন্তব্যকৃত কর্পাসের বিশেষজ্ঞ অন্তর্দৃষ্টি উভয়ই ব্যবহার করতে পারে। এই অভিযোজনযোগ্যতা অতিরিক্ত প্রশিক্ষণ ছাড়াই ভাষা মডেল বিতরণের উপর নিয়ন্ত্রণ বৃদ্ধি করতে অনুমতি দেয়।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

  1. প্রজন্ম দক্ষতা সমস্যা: বর্তমান এলএলএম স্বয়ংক্রিয় রিগ্রেসিভ ট্রান্সফর্মার আর্কিটেকচারের উপর ভিত্তি করে, ক্রমানুসারে টোকেন-দ্বারা-টোকেন পাঠ্য উৎপন্ন করে, যা অনুমান দক্ষতা সীমাবদ্ধ করে
  2. জ্ঞান অভিযোজন কঠিনতা: প্রশিক্ষণের পরে মডেল পরামিতি আপডেট করার জন্য ব্যয়বহুল ডেটা এবং গণনা সম্পদ প্রয়োজন, নতুন জ্ঞান গতিশীলভাবে একীভূত করা কঠিন

সমস্যার গুরুত্ব

  • বিদ্যমান সমাধানগুলির সীমাবদ্ধতা রয়েছে: অনুমানমূলক ডিকোডিং গতি বৃদ্ধি করতে পারে কিন্তু স্থির মডেল বিতরণ বজায় রাখে; পুনরুদ্ধার-বর্ধিত প্রজন্ম অভিযোজনযোগ্যতা উন্নত করতে পারে কিন্তু সাধারণত কোনো দক্ষতা লাভ নেই
  • দক্ষতা এবং কর্মক্ষমতা উভয় সমস্যা সমাধানের জন্য একটি একীভূত সমাধান প্রয়োজন

মূল অন্তর্দৃষ্টি

পেপারটি পর্যবেক্ষণ করে যে এলএলএম অনুরূপ প্রসঙ্গে প্রায়শই পুনরাবৃত্তিমূলক পাঠ্য চাংক উৎপন্ন করে, যা টোকেন ক্রমে উচ্চ সম্ভাব্যতা প্ল্যাটফর্ম প্রদর্শন করে, যা নির্দেশ করে যে মডেলের নির্দিষ্ট বহু-টোকেন সমন্বয়ের জন্য শক্তিশালী স্মৃতি রয়েছে।

মূল অবদান

  1. সিডি-এলএম কাঠামো প্রস্তাব: প্রজন্ম দক্ষতা এবং মডেলিং কর্মক্ষমতা উভয়ই বৃদ্ধি করার প্রথম পুনরুদ্ধার-বর্ধিত ভাষা মডেলিং পদ্ধতি
  2. নমনীয় চাংক নিষ্কাশন প্রক্রিয়া ডিজাইন: তিনটি প্রয়োগ পরিস্থিতি সমর্থন করে (জ্ঞান পাতন, স্ব-পাতন, বিশেষজ্ঞ পাতন)
  3. দক্ষ পুনরুদ্ধার আর্কিটেকচার নির্মাণ: ট্রাই কাঠামো-ভিত্তিক ডেটা সংরক্ষণাগার এবং প্রসঙ্গ মিলান প্রক্রিয়া
  4. সম্ভাব্যতা গণনা অ্যালগরিদম উদ্ভাবন: সম্পূর্ণ ক্রম সম্ভাব্যতা গণনার জন্য গতিশীল প্রোগ্রামিং অ্যালগরিদম প্রদান করা
  5. ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক কাজে দক্ষতা এবং কর্মক্ষমতার দ্বিগুণ উন্নতি প্রদর্শন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রদত্ত উপসর্গ ক্রম x<nx_{<n}, সিডি-এলএম প্রতিটি প্রজন্ম পদক্ষেপে নির্বাচন করে:

  • পুনরুদ্ধৃত পাঠ্য চাংক cnc_n গ্রহণ করা (একাধিক টোকেন প্রজন্ম পদক্ষেপ এড়িয়ে যাওয়া)
  • চাংক প্রত্যাখ্যান করা এবং ভিত্তি এলএম ব্যবহার করে একক টোকেন উৎপন্ন করা

মডেল আর্কিটেকচার

১. সম্ভাব্যতা প্রজন্ম মডেল

সিডি-এলএম দ্বিমুখী র্যান্ডম ভেরিয়েবল znz_n প্রবর্তন করে যা অবস্থান nn-এ পুনরুদ্ধার চাংক ব্যবহার করা হয় কিনা তা নিয়ন্ত্রণ করে:

p(zn=1)=qnp(z_n = 1) = q_n

প্রজন্ম প্রক্রিয়া:

  • যদি zn=1z_n = 1: চাংক cnc_n গ্রহণ করা, দৈর্ঘ্য τn\tau_n
  • যদি zn=0z_n = 0: ভিত্তি এলএম ব্যবহার করে একক টোকেন উৎপন্ন করা

২. চাংক ডেটা সংরক্ষণাগার নির্মাণ

ডেটা সংরক্ষণাগার D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, যেখানে:

  • ri=(ui,vi)r_i = (u_i, v_i): uiu_i পূর্ববর্তী প্রসঙ্গ, viv_i প্রবেশ টোকেন
  • sis_i: পাঠ্য চাংক
  • ট্রাই কাঠামো {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} ব্যবহার করে সংরক্ষণ করা, প্রতিটি TwT_w টোকেন ww দিয়ে শুরু হওয়া সমস্ত চাংক সংরক্ষণ করে

৩. অভিযোজনযোগ্য চাংক পুনরুদ্ধার

চাংক প্রস্তাব মডেল G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n):

(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$$ যেখানে $\text{sim}(\cdot, \cdot)$ কোসাইন সাদৃশ্য, $g_\phi(\cdot)$ সাদৃশ্য থেকে গ্রহণ সম্ভাব্যতার ম্যাপিং ফাংশন। ### প্রযুক্তিগত উদ্ভাবন পয়েন্ট 1. **কঠোর সিদ্ধান্ত প্রক্রিয়া**: কেএনএন-এলএম-এর নরম মিশ্রণের বিপরীতে, সিডি-এলএম বহু-টোকেন চাংকের জন্য কঠোর সিদ্ধান্ত নেয় 2. **প্রবেশ টোকেন সীমাবদ্ধতা**: পূর্ববর্তী টোকেনকে প্রবেশ বিন্দু হিসাবে ব্যবহার করে অনুসন্ধান স্থান সীমাবদ্ধ করা, পুনরুদ্ধার দক্ষতা উন্নত করা 3. **প্রশিক্ষণ-মুক্ত ডিজাইন**: সম্পূর্ণ কাঠামোর জন্য অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, যেকোনো প্রস্তুত এলএম-এর সাথে ব্যবহার করা যায় 4. **তিনটি পাতন মোড**: - **কেসিডি-এলএম**: আরও শক্তিশালী মডেল থেকে জ্ঞান পাতন - **এসসিডি-এলএম**: স্ব-স্মৃতি দক্ষতা বৃদ্ধি - **ইসিডি-এলএম**: বিশেষজ্ঞ-মন্তব্যকৃত জ্ঞান একীভূত করা ## পরীক্ষামূলক সেটআপ ### ডেটাসেট 1. **ভাষা মডেলিং**: উইকিটেক্সট-১০৩, গিটহাব কোড (ডকারফাইল) 2. **ডোমেইন অভিযোজন**: মেডিকেল ইন্সট্রাকশন ডেটাসেট, পাইল-অফ-ল (ফেডারেল রেজিস্টার) 3. **দক্ষতা পরীক্ষা**: এমটি-বেঞ্চ-৮০, এমটি-বেঞ্চ-১০ 4. **জ্ঞান ইনজেকশন**: অ্যালান টিউরিং উইকিপিডিয়া পৃষ্ঠা, সংশ্লেষিত পিআইআই ডেটা ### মূল্যায়ন সূচক - **কর্মক্ষমতা**: বিভ্রান্তি (পিপিএল), মাউভ স্কোর, রুজ-এল, ব্লিউর্ট - **দক্ষতা**: টোকেন সময় সাশ্রয় (টিটিএস), ফরওয়ার্ড পাস সাশ্রয় (এফপিএস) - **গুণমান**: এলএলএম-অ্যাজ-এ-জাজ মূল্যায়ন, মানব প্রবাহিততা মূল্যায়ন ### তুলনামূলক পদ্ধতি - কেএনএন-এলএম, রেটোমেটন (অ-প্যারামেট্রিক পদ্ধতি) - রেস্ট (অনুমানমূলক ডিকোডিং পদ্ধতি) - সরাসরি সূক্ষ্ম-সুর করা ভিত্তি মডেল ### বাস্তবায়ন বিবরণ - চাংক নিষ্কাশন থ্রেশহোল্ড $\gamma \in [0.3, 0.9]$ - সাদৃশ্য থ্রেশহোল্ড $\eta$ যাচাইকরণ সেট দ্বারা অপ্টিমাইজ করা - প্রসঙ্গ দৈর্ঘ্য: ৬৪ টোকেন - বিভাজিত রৈখিক ফাংশন $g_\phi$ হিসাবে ব্যবহার করা ## পরীক্ষামূলক ফলাফল ### প্রধান ফলাফল #### ১. জ্ঞান পাতন (কেসিডি-এলএম) জিপিটি-২ ছোট (১৩৭এম) → জিপিটি-২ এক্সএল (১.৫বি) পাতন পরীক্ষায়: | ডেটাসেট | ভিত্তি এলএম | কেসিডি-এলএম | উন্নতি | |--------|---------|---------|------| | উইকিটেক্সট | ৩৪.৮৩ | ২২.৯০ | ৩৪.২% | | মেডিকেল | ৫১.৬৮ | ২৪.৯৫ | ৫১.৭% | | আইন | ১১.৪১ | ৮.২৪ | ২৭.৮% | | কোড | ১০৬.৪৪ | ৫০.৭৭ | ৫২.৩% | #### ২. স্ব-পাতন দক্ষতা (এসসিডি-এলএম) এমটি-বেঞ্চ-৮০-এ দক্ষতা উন্নতি: | মডেল | টিটিএস উন্নতি | এফপিএস উন্নতি | |------|---------|---------| | জিপিটি-২-এক্সএল | ১৯.৫৯% | ৪৩.৩৩% | | লামা-২ | ১৪.৮৯% | ৩২.৩২% | | মিস্ট্রাল | ১১.৭৫% | ২৪.৫২% | #### ३. বিশেষজ্ঞ পাতন (ইসিডি-এলএম) অ্যালান টিউরিং জ্ঞান প্রশ্নোত্তরে সত্তা কভারেজ উন্নতি: | মডেল | গড় সত্তা সংখ্যা উন্নতি | অনন্য সত্তা উন্নতি | |------|----------------|--------------| | জিপিটি২-এক্সএল | ৪৬.৮% | ৪২.২% | | লামা-२ | ১३.५% | १७.७% | | মিস্ট্রাল | १८.५% | ११.९% | ### বিলোপন পরীক্ষা 1. **চাংক নিষ্কাশন থ্রেশহোল্ড প্রভাব**: নিম্ন থ্রেশহোল্ড (০.३-०.४) বেশিরভাগ কাজে সেরা কর্মক্ষমতা 2. **ডেটা সংরক্ষণাগার আকার**: সিডি-এলএম শুধুমাত্র কেএনএন-এলএম-এর ३०-४०% সংরক্ষণ স্থান প্রয়োজন 3. **পুনরুদ্ধার ফ্রিকোয়েন্সি**: প্রতিটি পুনরুদ্ধার শুধুমাত্র ০.०००३-०.०१% ডেটা সংরক্ষণাগার অনুসন্ধান করে ### কেস বিশ্লেষণ প্রজন্ম উদাহরণ দেখায় যে সিডি-এলএম পারে: - প্রাকৃতিকভাবে পুনরুদ্ধৃত পাঠ্য চাংক একীভূত করা - সাদৃশ্য থ্রেশহোল্ডের মাধ্যমে চাংক ব্যবহার ফ্রিকোয়েন্সি নিয়ন্ত্রণ করা - উৎপাদিত পাঠ্যের সংযোগ এবং প্রবাহিততা বজায় রাখা ## সম্পর্কিত কাজ ### অ-প্যারামেট্রিক ভাষা মডেলিং - কেএনএন-এলএম: প্রতিটি টোকেন অবস্থানে পুনরুদ্ধার, বড় গণনা ওভারহেড - এনপিএম: সম্পূর্ণ অ-প্যারামেট্রিক, প্যারামেট্রিক জ্ঞান অভাব ### অনুমানমূলক ডিকোডিং - রেস্ট: পুনরুদ্ধার খসড়া টোকেন ক্রম, কিন্তু এলএলএম যাচাইকরণ প্রয়োজন - ঐতিহ্যবাহী অনুমানমূলক ডিকোডিং: শুধুমাত্র গতি বৃদ্ধি, কর্মক্ষমতা উন্নতি নেই ### পুনরুদ্ধার-বর্ধিত প্রজন্ম - দানাদারিতা দ্বারা শ্রেণীবিভাগ: নথি-স্তর, বাক্যাংশ-স্তর, টোকেন-স্তর - সিডি-এলএম বাক্যাংশ-স্তরের অন্তর্গত, কিন্তু কঠোর সিদ্ধান্ত এবং দক্ষতা সুবিধা রয়েছে ## উপসংহার এবং আলোচনা ### প্রধান উপসংহার 1. সিডি-এলএম দক্ষতা এবং কর্মক্ষমতার দ্বিগুণ উন্নতি সফলভাবে অর্জন করে 2. প্রশিক্ষণ-মুক্ত ডিজাইন বিদ্যমান এলএম-এ স্থাপনা সহজ করে 3. তিনটি পাতন মোড বৈচিত্র্যময় প্রয়োগ পরিস্থিতি সমর্থন করে 4. একাধিক কাজে বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল ### সীমাবদ্ধতা 1. **পুনরুদ্ধার ওভারহেড**: যদিও কেএনএন-এলএম-এর চেয়ে বেশি দক্ষ, তবুও পুনরুদ্ধার বিলম্ব বিদ্যমান 2. **চাংক গুণমান নির্ভরতা**: কর্মক্ষমতা বড় পরিমাণে চাংক নিষ্কাশন গুণমানের উপর নির্ভর করে 3. **ডোমেইন অভিযোজনযোগ্যতা**: নির্দিষ্ট ডোমেইনের জন্য বিশেষায়িত ডেটা সংরক্ষণাগার নির্মাণ প্রয়োজন 4. **স্মৃতি প্রয়োজনীয়তা**: বড় আকারের ডেটা সংরক্ষণাগার এখনও উল্লেখযোগ্য স্মৃতি প্রয়োজন ### ভবিষ্যত দিকনির্দেশনা 1. **পুনরুদ্ধার অপ্টিমাইজেশন**: পরিমাণীকরণ, ডেটা সংরক্ষণাগার প্রুনিং, বিকল্প অনুসন্ধান কৌশল 2. **গতিশীল চাংক নিষ্কাশন**: রিয়েল-টাইম অভিযোজনযোগ্য চাংক সনাক্তকরণ প্রক্রিয়া 3. **মাল্টিমোডাল সম্প্রসারণ**: ছবি, অডিও ইত্যাদি মোডে সম্প্রসারণ 4. **প্রশিক্ষণযোগ্য উপাদান**: কর্মক্ষমতা আরও অপ্টিমাইজ করার জন্য শেখার যোগ্য পরামিতি প্রবর্তন ## গভীর মূল্যায়ন ### শক্তি 1. **শক্তিশালী উদ্ভাবনী**: দক্ষতা এবং কর্মক্ষমতা সমস্যা একযোগে সমাধানের প্রথম পুনরুদ্ধার-বর্ধিত পদ্ধতি 2. **তাত্ত্বিকভাবে সম্পূর্ণ**: সম্পূর্ণ সম্ভাব্যতা মডেলিং এবং গণনা কাঠামো প্রদান করা 3. **ব্যাপক পরীক্ষা**: একাধিক কাজ, মডেল এবং মূল্যায়ন মাত্রা কভার করা 4. **উচ্চ ব্যবহারিকতা**: প্রশিক্ষণ-মুক্ত ডিজাইন বাস্তব স্থাপনা সুবিধাজনক করে 5. **স্পষ্ট লেখা**: প্রযুক্তিগত বর্ণনা নির্ভুল, পরীক্ষামূলক সেটআপ বিস্তারিত ### অপূর্ণতা 1. **পুনরুদ্ধার দক্ষতা**: খাঁটি প্যারামেট্রিক পদ্ধতির তুলনায় এখনও অতিরিক্ত ওভারহেড রয়েছে 2. **হাইপারপ্যারামিটার সংবেদনশীলতা**: একাধিক থ্রেশহোল্ড পরামিতি সাবধানে সুর করা প্রয়োজন 3. **দীর্ঘ পাঠ্য প্রক্রিয়াকরণ**: দীর্ঘ ক্রম প্রজন্মে প্রভাব মূল্যায়ন অপর্যাপ্ত 4. **তাত্ত্বিক বিশ্লেষণ**: সংযোগ এবং জটিলতার তাত্ত্বিক গ্যারান্টি অভাব ### প্রভাব 1. **একাডেমিক মূল্য**: পুনরুদ্ধার-বর্ধিত ভাষা মডেলিংয়ের জন্য নতুন প্যারাডাইম প্রদান করা 2. **ব্যবহারিক মূল্য**: সম্পদ-সীমাবদ্ধ পরিস্থিতিতে গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা 3. **পুনরুৎপাদনযোগ্যতা**: কোড এবং ডেটা ওপেন-সোর্স করার প্রতিশ্রুতি, পুনরুৎপাদন সুবিধাজনক করে 4. **অনুপ্রেরণা**: ভবিষ্যত সম্পর্কিত গবেষণার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করা ### প্রযোজ্য পরিস্থিতি 1. **সম্পদ-সীমাবদ্ধ পরিবেশ**: ছোট মডেলের বড় মডেলের কাছাকাছি কর্মক্ষমতা প্রয়োজন হলে 2. **ডোমেইন অভিযোজন**: নির্দিষ্ট ডোমেইন জ্ঞানে দ্রুত খাপ খাওয়ানো প্রয়োজন হলে 3. **রিয়েল-টাইম সিস্টেম**: অনুমান গতিতে উচ্চ প্রয়োজনীয়তা সহ প্রয়োগ 4. **জ্ঞান আপডেট**: নতুন জ্ঞান গতিশীলভাবে একীভূত করা প্রয়োজন হলে ## রেফারেন্স পেপারটি পুনরুদ্ধার-বর্ধিত প্রজন্ম, অনুমানমূলক ডিকোডিং, অ-প্যারামেট্রিক ভাষা মডেলিং এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যা সিডি-এলএম ডিজাইনের জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং তুলনামূলক বেঞ্চমার্ক প্রদান করে। --- **সামগ্রিক মূল্যায়ন**: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা উদ্ভাবনী সিডি-এলএম কাঠামো প্রস্তাব করে, তাত্ত্বিক মডেলিং, প্রযুক্তিগত বাস্তবায়ন এবং পরীক্ষামূলক যাচাইকরণে চমৎকার কর্মক্ষমতা প্রদর্শন করে। এই পদ্ধতিটি এলএলএম দক্ষতা এবং অভিযোজনযোগ্যতা সমস্যা সমাধানে গুরুত্বপূর্ণ মূল্য রাখে এবং বাস্তব প্রয়োগে উল্লেখযোগ্য প্রভাব ফেলার সম্ভাবনা রয়েছে।