We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- পেপার আইডি: 2501.00343
- শিরোনাম: চাংক-ডিস্টিল্ড ল্যাঙ্গুয়েজ মডেলিং
- লেখক: ইয়ানহং লি (শিকাগো বিশ্ববিদ্যালয় ও টিটিআইসি), কারেন লিভেস্কু (টয়োটা টেকনোলজিক্যাল ইনস্টিটিউট অ্যাট শিকাগো), জিয়াওয়েই ঝো (টিটিআইসি ও স্টোনি ব্রুক বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.CL cs.AI
- প্রকাশনার সময়: ২০২৪ সালের ৩১ ডিসেম্বর (arXiv প্রি-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2501.00343
এই পেপারটি চাংক-ডিস্টিল্ড ল্যাঙ্গুয়েজ মডেলিং (সিডি-এলএম) প্রস্তাব করে, যা বর্তমান বড় ভাষা মডেলের দুটি মূল চ্যালেঞ্জ সমাধানের জন্য একটি পাঠ্য প্রজন্ম পদ্ধতি: টোকেন-স্তরের প্রজন্মের অদক্ষতা এবং নতুন ডেটা ও জ্ঞানের সাথে খাপ খাওয়ানোর কঠিনতা। এই পদ্ধতিটি গভীর নেটওয়ার্ক-ভিত্তিক এলএলএম-কে সহজ পুনরুদ্ধার মডিউলের সাথে একত্রিত করে, যা একক ডিকোডিং ধাপে একাধিক-টোকেন পাঠ্য চাংক উৎপন্ন করতে অনুমতি দেয়। এর পুনরুদ্ধার কাঠামো মডেল বা ডোমেইন-নির্দিষ্ট ডেটা সংরক্ষণাগার নমনীয় নির্মাণ সমর্থন করে, যা বিদ্যমান মডেলের অভ্যন্তরীণ জ্ঞান এবং মানব-মন্তব্যকৃত কর্পাসের বিশেষজ্ঞ অন্তর্দৃষ্টি উভয়ই ব্যবহার করতে পারে। এই অভিযোজনযোগ্যতা অতিরিক্ত প্রশিক্ষণ ছাড়াই ভাষা মডেল বিতরণের উপর নিয়ন্ত্রণ বৃদ্ধি করতে অনুমতি দেয়।
- প্রজন্ম দক্ষতা সমস্যা: বর্তমান এলএলএম স্বয়ংক্রিয় রিগ্রেসিভ ট্রান্সফর্মার আর্কিটেকচারের উপর ভিত্তি করে, ক্রমানুসারে টোকেন-দ্বারা-টোকেন পাঠ্য উৎপন্ন করে, যা অনুমান দক্ষতা সীমাবদ্ধ করে
- জ্ঞান অভিযোজন কঠিনতা: প্রশিক্ষণের পরে মডেল পরামিতি আপডেট করার জন্য ব্যয়বহুল ডেটা এবং গণনা সম্পদ প্রয়োজন, নতুন জ্ঞান গতিশীলভাবে একীভূত করা কঠিন
- বিদ্যমান সমাধানগুলির সীমাবদ্ধতা রয়েছে: অনুমানমূলক ডিকোডিং গতি বৃদ্ধি করতে পারে কিন্তু স্থির মডেল বিতরণ বজায় রাখে; পুনরুদ্ধার-বর্ধিত প্রজন্ম অভিযোজনযোগ্যতা উন্নত করতে পারে কিন্তু সাধারণত কোনো দক্ষতা লাভ নেই
- দক্ষতা এবং কর্মক্ষমতা উভয় সমস্যা সমাধানের জন্য একটি একীভূত সমাধান প্রয়োজন
পেপারটি পর্যবেক্ষণ করে যে এলএলএম অনুরূপ প্রসঙ্গে প্রায়শই পুনরাবৃত্তিমূলক পাঠ্য চাংক উৎপন্ন করে, যা টোকেন ক্রমে উচ্চ সম্ভাব্যতা প্ল্যাটফর্ম প্রদর্শন করে, যা নির্দেশ করে যে মডেলের নির্দিষ্ট বহু-টোকেন সমন্বয়ের জন্য শক্তিশালী স্মৃতি রয়েছে।
- সিডি-এলএম কাঠামো প্রস্তাব: প্রজন্ম দক্ষতা এবং মডেলিং কর্মক্ষমতা উভয়ই বৃদ্ধি করার প্রথম পুনরুদ্ধার-বর্ধিত ভাষা মডেলিং পদ্ধতি
- নমনীয় চাংক নিষ্কাশন প্রক্রিয়া ডিজাইন: তিনটি প্রয়োগ পরিস্থিতি সমর্থন করে (জ্ঞান পাতন, স্ব-পাতন, বিশেষজ্ঞ পাতন)
- দক্ষ পুনরুদ্ধার আর্কিটেকচার নির্মাণ: ট্রাই কাঠামো-ভিত্তিক ডেটা সংরক্ষণাগার এবং প্রসঙ্গ মিলান প্রক্রিয়া
- সম্ভাব্যতা গণনা অ্যালগরিদম উদ্ভাবন: সম্পূর্ণ ক্রম সম্ভাব্যতা গণনার জন্য গতিশীল প্রোগ্রামিং অ্যালগরিদম প্রদান করা
- ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক কাজে দক্ষতা এবং কর্মক্ষমতার দ্বিগুণ উন্নতি প্রদর্শন করা
প্রদত্ত উপসর্গ ক্রম x<n, সিডি-এলএম প্রতিটি প্রজন্ম পদক্ষেপে নির্বাচন করে:
- পুনরুদ্ধৃত পাঠ্য চাংক cn গ্রহণ করা (একাধিক টোকেন প্রজন্ম পদক্ষেপ এড়িয়ে যাওয়া)
- চাংক প্রত্যাখ্যান করা এবং ভিত্তি এলএম ব্যবহার করে একক টোকেন উৎপন্ন করা
সিডি-এলএম দ্বিমুখী র্যান্ডম ভেরিয়েবল zn প্রবর্তন করে যা অবস্থান n-এ পুনরুদ্ধার চাংক ব্যবহার করা হয় কিনা তা নিয়ন্ত্রণ করে:
p(zn=1)=qn
প্রজন্ম প্রক্রিয়া:
- যদি zn=1: চাংক cn গ্রহণ করা, দৈর্ঘ্য τn
- যদি zn=0: ভিত্তি এলএম ব্যবহার করে একক টোকেন উৎপন্ন করা
ডেটা সংরক্ষণাগার D={(ri,si)}i=1∣D∣, যেখানে:
- ri=(ui,vi): ui পূর্ববর্তী প্রসঙ্গ, vi প্রবেশ টোকেন
- si: পাঠ্য চাংক
- ট্রাই কাঠামো {Tw1,Tw2,...,Tw∣V∣} ব্যবহার করে সংরক্ষণ করা, প্রতিটি Tw টোকেন w দিয়ে শুরু হওয়া সমস্ত চাংক সংরক্ষণ করে
চাংক প্রস্তাব মডেল G(x<n)→(cn,qn):
\begin{align}
(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\
q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*)))
\end{align}
যেখানে sim(⋅,⋅) কোসাইন সাদৃশ্য, gϕ(⋅) সাদৃশ্য থেকে গ্রহণ সম্ভাব্যতার ম্যাপিং ফাংশন।
- কঠোর সিদ্ধান্ত প্রক্রিয়া: কেএনএন-এলএম-এর নরম মিশ্রণের বিপরীতে, সিডি-এলএম বহু-টোকেন চাংকের জন্য কঠোর সিদ্ধান্ত নেয়
- প্রবেশ টোকেন সীমাবদ্ধতা: পূর্ববর্তী টোকেনকে প্রবেশ বিন্দু হিসাবে ব্যবহার করে অনুসন্ধান স্থান সীমাবদ্ধ করা, পুনরুদ্ধার দক্ষতা উন্নত করা
- প্রশিক্ষণ-মুক্ত ডিজাইন: সম্পূর্ণ কাঠামোর জন্য অতিরিক্ত প্রশিক্ষণের প্রয়োজন নেই, যেকোনো প্রস্তুত এলএম-এর সাথে ব্যবহার করা যায়
- তিনটি পাতন মোড:
- কেসিডি-এলএম: আরও শক্তিশালী মডেল থেকে জ্ঞান পাতন
- এসসিডি-এলএম: স্ব-স্মৃতি দক্ষতা বৃদ্ধি
- ইসিডি-এলএম: বিশেষজ্ঞ-মন্তব্যকৃত জ্ঞান একীভূত করা
- ভাষা মডেলিং: উইকিটেক্সট-১০৩, গিটহাব কোড (ডকারফাইল)
- ডোমেইন অভিযোজন: মেডিকেল ইন্সট্রাকশন ডেটাসেট, পাইল-অফ-ল (ফেডারেল রেজিস্টার)
- দক্ষতা পরীক্ষা: এমটি-বেঞ্চ-৮০, এমটি-বেঞ্চ-১০
- জ্ঞান ইনজেকশন: অ্যালান টিউরিং উইকিপিডিয়া পৃষ্ঠা, সংশ্লেষিত পিআইআই ডেটা
- কর্মক্ষমতা: বিভ্রান্তি (পিপিএল), মাউভ স্কোর, রুজ-এল, ব্লিউর্ট
- দক্ষতা: টোকেন সময় সাশ্রয় (টিটিএস), ফরওয়ার্ড পাস সাশ্রয় (এফপিএস)
- গুণমান: এলএলএম-অ্যাজ-এ-জাজ মূল্যায়ন, মানব প্রবাহিততা মূল্যায়ন
- কেএনএন-এলএম, রেটোমেটন (অ-প্যারামেট্রিক পদ্ধতি)
- রেস্ট (অনুমানমূলক ডিকোডিং পদ্ধতি)
- সরাসরি সূক্ষ্ম-সুর করা ভিত্তি মডেল
- চাংক নিষ্কাশন থ্রেশহোল্ড γ∈[0.3,0.9]
- সাদৃশ্য থ্রেশহোল্ড η যাচাইকরণ সেট দ্বারা অপ্টিমাইজ করা
- প্রসঙ্গ দৈর্ঘ্য: ৬৪ টোকেন
- বিভাজিত রৈখিক ফাংশন gϕ হিসাবে ব্যবহার করা
জিপিটি-২ ছোট (১৩৭এম) → জিপিটি-২ এক্সএল (১.৫বি) পাতন পরীক্ষায়:
| ডেটাসেট | ভিত্তি এলএম | কেসিডি-এলএম | উন্নতি |
|---|
| উইকিটেক্সট | ৩৪.৮৩ | ২২.৯০ | ৩৪.২% |
| মেডিকেল | ৫১.৬৮ | ২৪.৯৫ | ৫১.৭% |
| আইন | ১১.৪১ | ৮.২৪ | ২৭.৮% |
| কোড | ১০৬.৪৪ | ৫০.৭৭ | ৫২.৩% |
এমটি-বেঞ্চ-৮০-এ দক্ষতা উন্নতি:
| মডেল | টিটিএস উন্নতি | এফপিএস উন্নতি |
|---|
| জিপিটি-২-এক্সএল | ১৯.৫৯% | ৪৩.৩৩% |
| লামা-২ | ১৪.৮৯% | ৩২.৩২% |
| মিস্ট্রাল | ১১.৭৫% | ২৪.৫২% |
অ্যালান টিউরিং জ্ঞান প্রশ্নোত্তরে সত্তা কভারেজ উন্নতি:
| মডেল | গড় সত্তা সংখ্যা উন্নতি | অনন্য সত্তা উন্নতি |
|---|
| জিপিটি২-এক্সএল | ৪৬.৮% | ৪২.২% |
| লামা-२ | ১३.५% | १७.७% |
| মিস্ট্রাল | १८.५% | ११.९% |
- চাংক নিষ্কাশন থ্রেশহোল্ড প্রভাব: নিম্ন থ্রেশহোল্ড (০.३-०.४) বেশিরভাগ কাজে সেরা কর্মক্ষমতা
- ডেটা সংরক্ষণাগার আকার: সিডি-এলএম শুধুমাত্র কেএনএন-এলএম-এর ३०-४०% সংরক্ষণ স্থান প্রয়োজন
- পুনরুদ্ধার ফ্রিকোয়েন্সি: প্রতিটি পুনরুদ্ধার শুধুমাত্র ০.०००३-०.०१% ডেটা সংরক্ষণাগার অনুসন্ধান করে
প্রজন্ম উদাহরণ দেখায় যে সিডি-এলএম পারে:
- প্রাকৃতিকভাবে পুনরুদ্ধৃত পাঠ্য চাংক একীভূত করা
- সাদৃশ্য থ্রেশহোল্ডের মাধ্যমে চাংক ব্যবহার ফ্রিকোয়েন্সি নিয়ন্ত্রণ করা
- উৎপাদিত পাঠ্যের সংযোগ এবং প্রবাহিততা বজায় রাখা
- কেএনএন-এলএম: প্রতিটি টোকেন অবস্থানে পুনরুদ্ধার, বড় গণনা ওভারহেড
- এনপিএম: সম্পূর্ণ অ-প্যারামেট্রিক, প্যারামেট্রিক জ্ঞান অভাব
- রেস্ট: পুনরুদ্ধার খসড়া টোকেন ক্রম, কিন্তু এলএলএম যাচাইকরণ প্রয়োজন
- ঐতিহ্যবাহী অনুমানমূলক ডিকোডিং: শুধুমাত্র গতি বৃদ্ধি, কর্মক্ষমতা উন্নতি নেই
- দানাদারিতা দ্বারা শ্রেণীবিভাগ: নথি-স্তর, বাক্যাংশ-স্তর, টোকেন-স্তর
- সিডি-এলএম বাক্যাংশ-স্তরের অন্তর্গত, কিন্তু কঠোর সিদ্ধান্ত এবং দক্ষতা সুবিধা রয়েছে
- সিডি-এলএম দক্ষতা এবং কর্মক্ষমতার দ্বিগুণ উন্নতি সফলভাবে অর্জন করে
- প্রশিক্ষণ-মুক্ত ডিজাইন বিদ্যমান এলএম-এ স্থাপনা সহজ করে
- তিনটি পাতন মোড বৈচিত্র্যময় প্রয়োগ পরিস্থিতি সমর্থন করে
- একাধিক কাজে বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল
- পুনরুদ্ধার ওভারহেড: যদিও কেএনএন-এলএম-এর চেয়ে বেশি দক্ষ, তবুও পুনরুদ্ধার বিলম্ব বিদ্যমান
- চাংক গুণমান নির্ভরতা: কর্মক্ষমতা বড় পরিমাণে চাংক নিষ্কাশন গুণমানের উপর নির্ভর করে
- ডোমেইন অভিযোজনযোগ্যতা: নির্দিষ্ট ডোমেইনের জন্য বিশেষায়িত ডেটা সংরক্ষণাগার নির্মাণ প্রয়োজন
- স্মৃতি প্রয়োজনীয়তা: বড় আকারের ডেটা সংরক্ষণাগার এখনও উল্লেখযোগ্য স্মৃতি প্রয়োজন
- পুনরুদ্ধার অপ্টিমাইজেশন: পরিমাণীকরণ, ডেটা সংরক্ষণাগার প্রুনিং, বিকল্প অনুসন্ধান কৌশল
- গতিশীল চাংক নিষ্কাশন: রিয়েল-টাইম অভিযোজনযোগ্য চাংক সনাক্তকরণ প্রক্রিয়া
- মাল্টিমোডাল সম্প্রসারণ: ছবি, অডিও ইত্যাদি মোডে সম্প্রসারণ
- প্রশিক্ষণযোগ্য উপাদান: কর্মক্ষমতা আরও অপ্টিমাইজ করার জন্য শেখার যোগ্য পরামিতি প্রবর্তন
- শক্তিশালী উদ্ভাবনী: দক্ষতা এবং কর্মক্ষমতা সমস্যা একযোগে সমাধানের প্রথম পুনরুদ্ধার-বর্ধিত পদ্ধতি
- তাত্ত্বিকভাবে সম্পূর্ণ: সম্পূর্ণ সম্ভাব্যতা মডেলিং এবং গণনা কাঠামো প্রদান করা
- ব্যাপক পরীক্ষা: একাধিক কাজ, মডেল এবং মূল্যায়ন মাত্রা কভার করা
- উচ্চ ব্যবহারিকতা: প্রশিক্ষণ-মুক্ত ডিজাইন বাস্তব স্থাপনা সুবিধাজনক করে
- স্পষ্ট লেখা: প্রযুক্তিগত বর্ণনা নির্ভুল, পরীক্ষামূলক সেটআপ বিস্তারিত
- পুনরুদ্ধার দক্ষতা: খাঁটি প্যারামেট্রিক পদ্ধতির তুলনায় এখনও অতিরিক্ত ওভারহেড রয়েছে
- হাইপারপ্যারামিটার সংবেদনশীলতা: একাধিক থ্রেশহোল্ড পরামিতি সাবধানে সুর করা প্রয়োজন
- দীর্ঘ পাঠ্য প্রক্রিয়াকরণ: দীর্ঘ ক্রম প্রজন্মে প্রভাব মূল্যায়ন অপর্যাপ্ত
- তাত্ত্বিক বিশ্লেষণ: সংযোগ এবং জটিলতার তাত্ত্বিক গ্যারান্টি অভাব
- একাডেমিক মূল্য: পুনরুদ্ধার-বর্ধিত ভাষা মডেলিংয়ের জন্য নতুন প্যারাডাইম প্রদান করা
- ব্যবহারিক মূল্য: সম্পদ-সীমাবদ্ধ পরিস্থিতিতে গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা
- পুনরুৎপাদনযোগ্যতা: কোড এবং ডেটা ওপেন-সোর্স করার প্রতিশ্রুতি, পুনরুৎপাদন সুবিধাজনক করে
- অনুপ্রেরণা: ভবিষ্যত সম্পর্কিত গবেষণার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করা
- সম্পদ-সীমাবদ্ধ পরিবেশ: ছোট মডেলের বড় মডেলের কাছাকাছি কর্মক্ষমতা প্রয়োজন হলে
- ডোমেইন অভিযোজন: নির্দিষ্ট ডোমেইন জ্ঞানে দ্রুত খাপ খাওয়ানো প্রয়োজন হলে
- রিয়েল-টাইম সিস্টেম: অনুমান গতিতে উচ্চ প্রয়োজনীয়তা সহ প্রয়োগ
- জ্ঞান আপডেট: নতুন জ্ঞান গতিশীলভাবে একীভূত করা প্রয়োজন হলে
পেপারটি পুনরুদ্ধার-বর্ধিত প্রজন্ম, অনুমানমূলক ডিকোডিং, অ-প্যারামেট্রিক ভাষা মডেলিং এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যা সিডি-এলএম ডিজাইনের জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং তুলনামূলক বেঞ্চমার্ক প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা উদ্ভাবনী সিডি-এলএম কাঠামো প্রস্তাব করে, তাত্ত্বিক মডেলিং, প্রযুক্তিগত বাস্তবায়ন এবং পরীক্ষামূলক যাচাইকরণে চমৎকার কর্মক্ষমতা প্রদর্শন করে। এই পদ্ধতিটি এলএলএম দক্ষতা এবং অভিযোজনযোগ্যতা সমস্যা সমাধানে গুরুত্বপূর্ণ মূল্য রাখে এবং বাস্তব প্রয়োগে উল্লেখযোগ্য প্রভাব ফেলার সম্ভাবনা রয়েছে।