2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: LLM এবং MT এর জন্য অত্যন্ত বৃহৎ-স্কেল বহুভাষিক সম্পদ। একক এবং দ্বিভাষিক ডেটা, বহুভাষিক মূল্যায়ন এবং প্রাক-প্রশিক্ষিত মডেল

মৌলিক তথ্য

  • পেপার আইডি: 2511.01066
  • শিরোনাম: HPLT 3.0: LLM এবং MT এর জন্য অত্যন্ত বৃহৎ-স্কেল বহুভাষিক সম্পদ। একক এবং দ্বিভাষিক ডেটা, বহুভাষিক মূল্যায়ন এবং প্রাক-প্রশিক্ষিত মডেল
  • লেখক: স্টেফান ওপেন এবং একাধিক ইউরোপীয় একাডেমিক প্রতিষ্ঠানের গবেষকরা
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনার সময়: ২০২৫ সালের নভেম্বর
  • পেপার লিঙ্ক: https://arxiv.org/abs/2511.01066

সারসংক্ষেপ

এই পেপারটি HPLT 3.0 প্রকল্প উপস্থাপন করে, যা প্রায় ২০০টি ভাষার জন্য উন্মুক্ত, অতি-বৃহৎ-স্কেল, উচ্চ-মানের এবং সমৃদ্ধ-টীকাযুক্ত পাঠ্য ডেটাসেট প্রদানের লক্ষ্যে একটি উদ্যোগ। এই ডেটাসেটে ৩০ ট্রিলিয়ন টোকেন রয়েছে, যা সম্ভবত বর্তমানে সবচেয়ে বড় জনসাধারণের জন্য উপলব্ধ বহুভাষিক LLM প্রাক-প্রশিক্ষণ ডেটাসেট সংগ্রহ। ডেটাসেটটি বিভিন্ন ওয়েব ক্রলার থেকে উৎপন্ন এবং সম্পূর্ণ ওপেন-সোর্স প্রসেসিং পাইপলাইনের সাথে সজ্জিত, যাতে ডকুমেন্ট নির্বাচন, পাঠ্য নিষ্কাশন, ভাষা সনাক্তকরণ, ডিডুপ্লিকেশন এবং গুণমান মূল্যায়ন কার্যকারিতা অন্তর্ভুক্ত।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

  1. ডেটা স্বল্পতা: বৃহৎ-স্কেল উচ্চ-মানের বহুভাষিক প্রাক-প্রশিক্ষণ ডেটা সাধারণত বড় এন্টারপ্রাইজ দ্বারা নিয়ন্ত্রিত হয়, একাডেমিক সম্প্রদায়ের কাছে অ্যাক্সেসযোগ্য সম্পদের অভাব রয়েছে
  2. ভাষাগত অসমতা: বিদ্যমান ডেটাসেটগুলি প্রধানত ইংরেজির দিকে পক্ষপাতী, অন্যান্য ভাষা বিশেষত কম-সম্পদ ভাষার ডেটা গুরুতরভাবে অপর্যাপ্ত
  3. গুণমান নিয়ন্ত্রণ: ওয়েব-স্ক্র্যাপ করা ডেটার গুণমান অসমান, সিস্টেমেটিক পরিষ্কার এবং ফিল্টারিং প্রক্রিয়ার প্রয়োজন
  4. মূল্যায়ন মান: একীভূত বহুভাষিক মডেল মূল্যায়ন কাঠামোর অভাব

গবেষণার গুরুত্ব

  • AI এর গণতন্ত্রীকরণ: উন্মুক্ত বৃহৎ-স্কেল ডেটাসেটের মাধ্যমে LLM গবেষণা ও উন্নয়নের প্রবেশদ্বার হ্রাস করা
  • বহুভাষিক ন্যায্যতা: কম-সম্পদ ভাষার জন্য আরও প্রশিক্ষণ ডেটা প্রদান করা, ভাষাগত বৈচিত্র্য প্রচার করা
  • একাডেমিক গবেষণা: গবেষণা সম্প্রদায়কে পুনরুৎপাদনযোগ্য পরীক্ষামূলক ভিত্তি প্রদান করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • C4, FineWeb ইত্যাদি ডেটাসেটগুলি প্রধানত ইংরেজিতে ফোকাস করে
  • MADLAD-400 এর মতো বহুভাষিক ডেটাসেটগুলি তুলনামূলকভাবে ছোট স্কেলের
  • একীভূত ডেটা প্রসেসিং এবং মূল্যায়ন মানদণ্ডের অভাব

মূল অবদান

  1. ৩০ ট্রিলিয়ন টোকেনের অতি-বৃহৎ-স্কেল বহুভাষিক ডেটাসেট নির্মাণ, প্রায় ২০০টি ভাষা কভার করে
  2. সম্পূর্ণ ওপেন-সোর্স ডেটা প্রসেসিং পাইপলাইন উন্নয়ন, যাতে পাঠ্য নিষ্কাশন, ভাষা সনাক্তকরণ, ডিডুপ্লিকেশন এবং গুণমান মূল্যায়ন অন্তর্ভুক্ত
  3. HPLT-E বহুভাষিক মূল্যায়ন কাঠামো প্রস্তাব, ৯টি ইউরোপীয় ভাষার ১২৭টি কাজ অন্তর্ভুক্ত করে
  4. ৫৭টি একক-ভাষা এনকোডার-ডিকোডার মডেল প্রশিক্ষণ এবং একাধিক GPT-শৈলী রেফারেন্স মডেল
  5. বৃহৎ-স্কেল সমান্তরাল পাঠ্য ডেটাসেট নির্মাণ, স্বয়ংক্রিয় খনন এবং মেশিন অনুবাদ সংশ্লেষণ ডেটা অন্তর্ভুক্ত করে
  6. ব্যাপক ডেটা গুণমান বিশ্লেষণ প্রদান, পরিসংখ্যানগত বিশ্লেষণ এবং মানব পরীক্ষা অন্তর্ভুক্ত করে

পদ্ধতি বিস্তারিত

ডেটা সংগ্রহ এবং প্রসেসিং পাইপলাইন

কাঁচা ডেটা উৎস

  • ইন্টারনেট আর্কাইভ (IA): ২০১২-২০২০ সালের ক্রলার ডেটার ৩.৩ PB
  • কমন ক্রল (CC): ৫৭টি সম্পূর্ণ স্ন্যাপশট (২০১৪-২০২৫), প্রায় ৭.২ PB মোট পরিমাণ

মূল প্রসেসিং পদক্ষেপ

  1. পাঠ্য নিষ্কাশন
    • HTML পাঠ্য নিষ্কাশনের জন্য Trafilatura ফ্রেমওয়ার্ক ব্যবহার করা
    • হাইপারপ্যারামিটার সেটিংস অপ্টিমাইজ করা, গতির চেয়ে নিষ্কাশন গুণমানকে অগ্রাধিকার দেওয়া
  2. ভাষা সনাক্তকরণ
    • ভাষা পূর্বাভাসের জন্য OpenLID-v2 মডেল গ্রহণ করা
    • Flores+ মূল্যায়ন সেটে ভাষা লেবেল সমর্থন করা
    • প্রাক-প্রসেসিং প্রবাহ উন্নত করা: স্পেস স্ট্যান্ডার্ডাইজেশন, ছোট হাতের অক্ষর, অ-শব্দ অক্ষর অপসারণ
  3. ডিডুপ্লিকেশন প্রক্রিয়া
    • ইংরেজি, রুশ এবং চীনা ছাড়া সমস্ত ভাষার জন্য MinHash-ভিত্তিক গ্লোবাল আনুমানিক ডিডুপ্লিকেশন প্রয়োগ করা
    • বড় ভাষার জন্য ক্রলার-অনুযায়ী ডিডুপ্লিকেশন ব্যবহার করা গণনামূলক দক্ষতা বৃদ্ধির জন্য
  4. গুণমান মূল্যায়ন এবং টীকা
    • ওয়েব ডকস স্কোরার (WDS): হিউরিস্টিক ডকুমেন্ট ফিল্টারিং পদ্ধতি একীভূত করা
    • নিবন্ধন লেবেল: ১০৪টি ভাষার জন্য টেক্সট রেজিস্টার লেবেল যোগ করতে Turku ওয়েব রেজিস্টার শ্রেণীবিভাজক ব্যবহার করা
    • WDS গ্রেড: ডকুমেন্টগুলিকে গুণমান অনুযায়ী {5,6,7,8,9,10} ছয়টি গ্রেডে বিভক্ত করা

ডেটা প্যাকেজিং এবং প্রকাশনা

  • প্রতিটি ভাষার ডকুমেন্টগুলিকে WDS গ্রেড অনুযায়ী বিনিয়ে এবং গ্লোবালভাবে সাজানো
  • Zstandard সংকুচিত JSONlines ফরম্যাট ব্যবহার করা
  • মোট প্রায় ৫০TB ডেটা, ৩০০০টি ফাইলে বিতরণ করা

পরীক্ষামূলক সেটআপ

HPLT-E মূল্যায়ন কাঠামো

ভাষা নির্বাচন

নয়টি ইউরোপীয় ভাষা নির্বাচন করা: ইংরেজি, স্পেনীয়, ফরাসি, জার্মান, ইতালিয়ান, চেক, ফিনিশ, নরওয়েজিয়ান, ইউক্রেনীয় ইত্যাদি

মডেল প্রশিক্ষণ কনফিগারেশন

  • আর্কিটেকচার: Llama আর্কিটেকচারের ডিকোডার মডেল
  • স্কেল: ২.১৫B প্যারামিটার, ২৪ স্তর, ৩২টি মনোযোগ হেড
  • প্রশিক্ষণ ডেটা: প্রতিটি ভাষার জন্য ১০০B টোকেন
  • সিকোয়েন্স দৈর্ঘ্য: ২০৪৮
  • প্রশিক্ষণ প্ল্যাটফর্ম: LUMI সুপারকম্পিউটার, ১৬ নোড AMD MI250x GPU

মূল্যায়ন কাজ

১২৭টি ভাষা বোঝাপড়া এবং উৎপাদন কাজ অন্তর্ভুক্ত করে:

  • পাঠ্য অন্তর্ভুক্তি
  • সাধারণ জ্ঞান যুক্তি
  • ভাষা-নির্দিষ্ট এবং বিশ্ব জ্ঞান
  • প্যারাফ্রেসিং
  • পড়ার বোঝাপড়া
  • অনুভূতি বিশ্লেষণ
  • বিষাক্ততা সনাক্তকরণ
  • সত্যতা মূল্যায়ন

এনকোডার-ডিকোডার মডেল

মডেল কনফিগারেশন

  • আর্কিটেকচার: T5-base (প্রায় ২৭৫M প্যারামিটার)
  • ভাষা কভারেজ: ৫৭টি ভাষা
  • ভাষা পরিবার: ১৪টি ভাষা পরিবার জুড়ে বিস্তৃত

মূল্যায়ন কাজ

  1. নাম সত্তা স্বীকৃতি: WikiAnn বেঞ্চমার্ক পরীক্ষা
  2. ভাষা ক্ষমতা: MultiBLiMP বেঞ্চমার্ক পরীক্ষা

পরীক্ষামূলক ফলাফল

ডেটাসেট তুলনামূলক বিশ্লেষণ

ডেটাসেটইংরেজি ডকুমেন্টইংরেজি টোকেনবহুভাষিক ডকুমেন্টবহুভাষিক টোকেনমোট টোকেন
HPLT 3.0১৮B১৬T১১B১৩T২৯T
FineWeb২৪B১৭T৫.০B৪.९T२२T
HPLT 2.0४.४B३.९T६.१B७.२T११T
MADLAD-400१.५B१.७T२.१B२.७T४.४T

বহুভাষিক LLM মূল্যায়ন ফলাফল

ডেটাসেট কর্মক্ষমতা তুলনা

HPLT-E কাঠামো অনুযায়ী মূল্যায়ন করা, মডেল কর্মক্ষমতা ক্রম:

  1. MADLAD-400: সর্বোচ্চ বহুভাষিক স্কোর
  2. HPLT 3.0: দ্বিতীয় স্থান, পূর্ববর্তী সংস্করণের চেয়ে উল্লেখযোগ্যভাবে ভাল
  3. HPLT 2.0 এবং FineWeb: তুলনীয় কর্মক্ষমতা

WDS গুণমান গ্রেড পরীক্ষা

  • নিম্ন-মানের ডেটা (নিচের WDS গ্রেড): মডেল কর্মক্ষমতা স্পষ্টভাবে হ্রাস করে
  • উচ্চ-মানের ডেটা (শীর্ষ WDS গ্রেড): র্যান্ডম স্যাম্পলিং কর্মক্ষমতার সাথে তুলনীয়, সম্ভবত বৈচিত্র্যের অভাবের কারণে
  • র্যান্ডম স্যাম্পলিং: স্পেনীয় এবং ফরাসিতে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে

এনকোডার-ডিকোডার মডেল ফলাফল

নাম সত্তা স্বীকৃতি (WikiAnn F1 স্কোর)

ভাষাHPLT T5mT5-baseBERT HPLT
কাতালান९२.७८७.४९४.५
চেক९१.६८५.२९१.८
ইংরেজি८२.१७७.६८२.७
বাস্ক९२.०८२.८९२.९
ফিনিশ९०.३१.८९१.६

ভাষা ক্ষমতা (MultiBLIMP নির্ভুলতা)

ভাষাHPLT T5mT5-basemT5-xxl
কাতালান९५.६९१.६९३.०
চেক९५.९८८.८९३.४
ইংরেজি९४.२९०.६९५.३
বাস্ক९७.४९४.९९६.०

গড় কর্মক্ষমতা: HPLT T5 মডেল MultiBLIMP-এ ९३.५% অর্জন করে, mT5-base এর ८६.८% থেকে উল্লেখযোগ্যভাবে ভাল

ডেটা গুণমান বিশ্লেষণ

মানব পরীক্ষা ফলাফল (২৪টি ভাষা)

  • পর্নোগ্রাফিক সামগ্রী: বেশিরভাগ ভাষায় ২% এর নিচে
  • ভাষা সনাক্তকরণ ত্রুটি: সামগ্রিকভাবে কম, কিন্তু বসনিয়ান ডেটাসেট প্রধানত সার্বিয়ান, অ্যাস্টুরিয়ান প্রায়ই স্পেনীয় ধারণ করে
  • অ-প্রাকৃতিক পাঠ্য: ভাষা জুড়ে বিভিন্ন, আংশিকভাবে টীকা মানদণ্ডের বিষয়গত প্রতিফলন
  • পাঠ্য ত্রুটি: নেভিগেশন উপাদান, কাটা পাঠ্য অন্তর্ভুক্ত, অনুপাত ভাষা অনুযায়ী পরিবর্তিত হয়

পরিসংখ্যানগত বৈশিষ্ট্য উন্নতি

  • অনন্য অনুচ্ছেদ অনুপাত: HPLT 3.0 এ ७३% বনাম HPLT 2.0 এ ५२%, গ্লোবাল ডিডুপ্লিকেশনের প্রভাব প্রতিফলিত করে
  • ডোমেইন বৈচিত্র্য: HPLT 2.0 এর তুলনায় Wikipedia পৃষ্ঠার অতিরিক্ত প্রতিনিধিত্ব হ্রাস পেয়েছে
  • ভৌগোলিক TLD বিতরণ: ভাষা ব্যবহারের অঞ্চলের সাথে উচ্চ সম্পর্ক

সম্পর্কিত কাজ

বৃহৎ-স্কেল প্রাক-প্রশিক্ষণ ডেটাসেট

  • C4: Google এবং Allen AI এর ইংরেজি-প্রধান ডেটাসেট
  • FineWeb: Hugging Face এর উচ্চ-মানের ওয়েব ডেটা
  • MADLAD-400: Google এর ৪০০-ভাষা ডেটাসেট
  • Nemotron-CC: Nvidia এর Common Crawl পরিমার্জিত ডেটা

বহুভাষিক মডেল মূল্যায়ন

  • বিদ্যমান বেঞ্চমার্ক: বেশিরভাগ ইংরেজি বা কম সংখ্যক উচ্চ-সম্পদ ভাষার দিকে পক্ষপাতী
  • মূল্যায়ন চ্যালেঞ্জ: প্রম্পট সংবেদনশীলতা, ক্রস-ভাষা সামঞ্জস্য, সাংস্কৃতিক পক্ষপাত ইত্যাদি

ডেটা প্রসেসিং প্রযুক্তি

  • পাঠ্য নিষ্কাশন: Trafilatura ইত্যাদি সরঞ্জামের উন্নয়ন
  • ভাষা সনাক্তকরণ: ঐতিহ্যবাহী পদ্ধতি থেকে গভীর শেখার মডেল পর্যন্ত
  • ডিডুপ্লিকেশন প্রযুক্তি: সঠিক মিলান থেকে আনুমানিক মিলান পদ্ধতি পর্যন্ত

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

  1. স্কেল অগ্রগতি: HPLT 3.0 ৩০ ট্রিলিয়ন টোকেন সহ সর্ববৃহৎ জনসাধারণের বহুভাষিক প্রাক-প্রশিক্ষণ ডেটাসেট
  2. গুণমান উন্নতি: উন্নত প্রসেসিং পাইপলাইন উল্লেখযোগ্যভাবে ডেটা গুণমান উন্নত করে, মডেল কর্মক্ষমতায় প্রতিফলিত
  3. মূল্যায়ন উদ্ভাবন: HPLT-E কাঠামো বহুভাষিক মডেল মূল্যায়নের জন্য নতুন মান প্রদান করে
  4. মডেল অবদান: ৫৭টি একক-ভাষা এনকোডার-ডিকোডার মডেল সম্প্রদায়কে ব্যবহারিক সরঞ্জাম প্রদান করে

সীমাবদ্ধতা

  1. গুণমান মূল্যায়ন: মানব পরীক্ষা সত্ত্বেও, বৃহৎ-স্কেল ডেটার গুণমান মূল্যায়ন এখনও চ্যালেঞ্জ
  2. ভাষা কভারেজ: প্রায় ২০০টি ভাষা সমর্থন সত্ত্বেও, সম্পদ বিতরণ এখনও অসমান
  3. মূল্যায়ন পরিসীমা: HPLT-E কাঠামো বর্তমানে শুধুমাত্র ৯টি ইউরোপীয় ভাষা কভার করে
  4. গণনামূলক সম্পদ: বৃহৎ-স্কেল প্রশিক্ষণের জন্য বিশাল গণনামূলক সম্পদ প্রয়োজন, পুনরুৎপাদনযোগ্যতা সীমিত করে

ভবিষ্যত দিকনির্দেশনা

  1. ডেটা সম্প্রসারণ: ২০২৬ সালের প্রাথমিকে ArchiveBot ডেটা অন্তর্ভুক্ত করে সম্প্রসারিত সংস্করণ প্রকাশের পরিকল্পনা
  2. মূল্যায়ন সম্প্রসারণ: HPLT-E কাঠামো আরও ভাষা এবং কাজে সম্প্রসারিত করা
  3. গুণমান উন্নতি: ডেটা প্রসেসিং পাইপলাইন এবং গুণমান নিয়ন্ত্রণ প্রক্রিয়া ক্রমাগত অপ্টিমাইজ করা
  4. প্রয়োগ গবেষণা: কম-সম্পদ ভাষায় সংশ্লেষিত ডেটার প্রয়োগ প্রভাব অন্বেষণ করা

গভীর মূল্যায়ন

সুবিধা

  1. অভূতপূর্ব স্কেল: জনসাধারণের ডেটাসেটে ৩০ ট্রিলিয়ন টোকেন প্রথম শ্রেণীর
  2. উন্মুক্ত স্বচ্ছতা: সম্পূর্ণ ওপেন-সোর্স পাইপলাইন এবং বিস্তারিত প্রযুক্তিগত ডকুমেন্টেশন
  3. সিস্টেমেটিকতা: ডেটা সংগ্রহ থেকে মডেল প্রশিক্ষণ পর্যন্ত সম্পূর্ণ ইকোসিস্টেম
  4. গুণমান নিয়ন্ত্রণ: বহু-স্তরীয় গুণমান মূল্যায়ন এবং মানব যাচাইকরণ প্রক্রিয়া
  5. ব্যবহারিক মূল্য: সরাসরি ব্যবহারযোগ্য প্রাক-প্রশিক্ষিত মডেল প্রদান করে

অপূর্ণতা

  1. গণনামূলক প্রবেশদ্বার: যদিও ডেটা উন্মুক্ত, বড় মডেল প্রশিক্ষণ এখনও বিশাল গণনামূলক সম্পদ প্রয়োজন
  2. গুণমান অসমতা: বিভিন্ন ভাষার ডেটা গুণমান এবং পরিমাণে উল্লেখযোগ্য পার্থক্য
  3. মূল্যায়ন সীমাবদ্ধতা: মানব মূল্যায়ন নমুনা তুলনামূলকভাবে ছোট, সম্ভাব্য পক্ষপাত থাকতে পারে
  4. সাংস্কৃতিক পক্ষপাত: ওয়েব ডেটার অন্তর্নিহিত ভৌগোলিক এবং সাংস্কৃতিক পক্ষপাত সম্পূর্ণভাবে দূর করা কঠিন

প্রভাব

  1. একাডেমিক অবদান: বহুভাষিক NLP গবেষণার জন্য গুরুত্বপূর্ণ অবকাঠামো প্রদান করে
  2. শিল্প প্রভাব: বহুভাষিক AI অ্যাপ্লিকেশন উন্নয়নের প্রবেশদ্বার হ্রাস করে
  3. সামাজিক মূল্য: ভাষাগত বৈচিত্র্য এবং AI প্রযুক্তির গণতন্ত্রীকরণ প্রচার করে
  4. মান নির্ধারণ: HPLT-E মূল্যায়ন কাঠামো শিল্প মান হতে পারে

প্রযোজ্য পরিস্থিতি

  1. বহুভাষিক LLM প্রাক-প্রশিক্ষণ: বড় ভাষা মডেল প্রাক-প্রশিক্ষণের জন্য সরাসরি ব্যবহার
  2. নির্দিষ্ট ভাষা মডেল: কম-সম্পদ ভাষার জন্য বিশেষায়িত মডেল উন্নয়ন
  3. ক্রস-ভাষা গবেষণা: ভাষাবিজ্ঞান এবং কম্পিউটেশনাল ভাষাবিজ্ঞান গবেষণা সমর্থন করে
  4. মেশিন অনুবাদ: সমান্তরাল কর্পাস এবং একক-ভাষা ডেটা প্রদান করে
  5. শিক্ষা প্রয়োগ: ভাষা শেখা এবং শিক্ষার জন্য সম্পদ প্রদান করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ডেটা প্রসেসিং উদ্ভাবন

  1. গ্লোবাল ডিডুপ্লিকেশন: ক্রলার জুড়ে গ্লোবাল আনুমানিক ডিডুপ্লিকেশন, ডেটা বৈচিত্র্য উন্নত করে
  2. গুণমান স্তরীকরণ: WDS স্কোরিং সিস্টেম সূক্ষ্ম-দানাদার গুণমান নিয়ন্ত্রণ প্রদান করে
  3. বহু-মাত্রিক টীকা: নিবন্ধন লেবেল, গুণমান মূল্যায়ন, PII সনাক্তকরণ ইত্যাদি একাধিক টীকা একত্রিত করে

মূল্যায়ন পদ্ধতি উদ্ভাবন

  1. বহু-প্রম্পট ডিজাইন: প্রতিটি কাজে ৩-৭টি মানব-লিখিত প্রম্পট সমর্থন করে, প্রম্পট সংবেদনশীলতা হ্রাস করে
  2. কাজ নির্বাচন মান: একঘেয়েতা, স্থিতিশীলতা ইত্যাদি সাতটি মানদণ্ডের উপর ভিত্তি করে মূল্যায়ন কাজ নির্বাচন করে
  3. সমন্বয় পদ্ধতি: গড় স্কোর, র‍্যাঙ্কিং এবং Borda গণনার একাধিক সমন্বয় পদ্ধতি একত্রিত করে

মডেল প্রশিক্ষণ উদ্ভাবন

  1. ভাষা-নির্দিষ্ট মডেল: ৫৭টি ভাষার জন্য আলাদাভাবে বিশেষায়িত এনকোডার-ডিকোডার মডেল প্রশিক্ষণ দেওয়া
  2. মধ্যবর্তী চেকপয়েন্ট: প্রশিক্ষণ প্রক্রিয়ায় মধ্যবর্তী চেকপয়েন্ট প্রদান করে, শেখার প্রক্রিয়া গবেষণা সমর্থন করে
  3. সংশ্লেষিত ডেটা: মেশিন অনুবাদের মাধ্যমে অতিরিক্ত প্রাক-প্রশিক্ষণ ডেটা উৎপন্ন করে

সংদর্ভ

এই পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

  • Raffel et al. (2020): T5 মডেল এবং C4 ডেটাসেট
  • Penedo et al. (2024, 2025): FineWeb ডেটাসেট সিরিজ
  • Kudugunta et al. (2023): MADLAD-400 ডেটাসেট
  • Burchell et al. (2025): HPLT 2.0 ডেটাসেট
  • একাধিক বহুভাষিক মূল্যায়ন বেঞ্চমার্ক সম্পর্কিত পেপার

সারসংক্ষেপ: HPLT 3.0 প্রকল্প বহুভাষিক NLP ক্ষেত্রের একটি গুরুত্বপূর্ণ মাইলফলক প্রতিনিধিত্ব করে, শুধুমাত্র ডেটা স্কেলে অগ্রগতি অর্জন করেনি, বরং উন্মুক্তা, গুণমান নিয়ন্ত্রণ এবং মূল্যায়ন মানদণ্ডে নতুন মানদণ্ড স্থাপন করেছে। যদিও এখনও কিছু সীমাবদ্ধতা রয়েছে, তবে বহুভাষিক AI প্রযুক্তির গণতন্ত্রীকরণ এবং উন্নয়ন প্রচারে এর গুরুত্বপূর্ণ তাৎপর্য রয়েছে।