এই পেপারটি BabyBabelLM উপস্থাপন করে, যা একটি বহুভাষিক ডেটাসেট সংগ্রহ যা জন্ম থেকে মাতৃভাষা অর্জনের সময়কাল পর্যন্ত মানুষের সংস্পর্শে আসা ভাষাগত পরিবেশের অনুকরণ করার জন্য ডিজাইন করা হয়েছে। গবেষকরা সাবধানে উন্নয়নমূলকভাবে সম্ভাব্য প্রাক-প্রশিক্ষণ ডেটা পরিকল্পনা করেছেন, যার লক্ষ্য ৪৫টি ভাষার প্রতিটির জন্য ১০০ মিলিয়ন ইংরেজি শব্দের সমতুল্য সামগ্রী প্রদান করা। একই সাথে একটি মূল্যায়ন স্যুট সংকলন করা হয়েছে এবং প্রতিটি ভাষার জন্য ভিত্তিরেখা মডেল প্রশিক্ষণ দেওয়া হয়েছে। BabyBabelLM বহুভাষিক প্রাক-প্রশিক্ষণ এবং জ্ঞানীয় মডেলিং গবেষণা প্রচার করার লক্ষ্য রাখে।
বর্তমান ভাষা মডেল গবেষণা প্রধানত স্কেল সম্প্রসারণের উপর দৃষ্টি নিবদ্ধ করে, বৃহত্তর মডেল এবং আরও বেশি প্রশিক্ষণ ডেটার সন্ধান করে, কিন্তু এই প্রবণতা ভাষা শেখার মৌলিক প্রশ্নগুলিকে উপেক্ষা করে। মানুষ শৈশবকাল থেকে প্রাপ্তবয়স্ক পর্যন্ত ১০০ মিলিয়নেরও কম ইংরেজি শব্দের সংস্পর্শে এসে ভাষাগত দক্ষতা অর্জন করে, যা ১০০ ট্রিলিয়নেরও বেশি শব্দের প্রয়োজন হয় এমন আধুনিক ভাষা মডেলের সাথে বেশ কয়েকটি মাত্রার পার্থক্য তৈরি করে।
১. ডেটা দক্ষতা সমস্যা: সীমিত ডেটা বাজেটের অধীনে কীভাবে দক্ষ ভাষা মডেলিং অর্জন করা যায় তা অন্বেষণ করা ২. উন্নয়নমূলক সম্ভাব্যতা: মানুষের ভাষা অধিগ্রহণ প্রক্রিয়ার সাথে সামঞ্জস্যপূর্ণ প্রশিক্ষণ ডেটা রচনা অধ্যয়ন করা ३. বহুভাষিক কভারেজ: BabyLM চ্যালেঞ্জের পরিধি প্রসারিত করা, ইংরেজি থেকে বহুভাষিক পরিবেশে ४. জ্ঞানীয় মডেলিং: মানুষের ভাষা অধিগ্রহণ এবং ভাষা মডেল শেখার মধ্যে সম্পর্ক বোঝার জন্য সংস্থান প্রদান করা
१. ४५টি ভাষা জুড়ে উন্নয়নমূলকভাবে সম্ভাব্য প্রাক-প্রশিক্ষণ ডেটাসেট নির্মাণ করা, তিনটি স্তরে ডেটা পরিমাণ দ্বারা বিভক্ত (১০০M, १०M, १M ইংরেজি সমতুল্য শব্দ) २. ওপেন-সোর্স ডেটা সম্প্রসারণ পাইপলাইন প্রদান করা, সম্প্রদায়কে নতুন ভাষা যোগ করতে এবং বিদ্যমান ডেটাসেট প্রসারিত করতে সমর্থন করে ३. ব্যাপক বহুভাষিক মূল্যায়ন স্যুট সংকলন করা, আনুষ্ঠানিক এবং কার্যকরী ভাষাগত দক্ষতা জুড়ে বিস্তৃত ४. ४५টি একক-ভাষিক মডেল, ७টি দ্বিভাষিক মডেল এবং १টি বহুভাষিক মডেল প্রশিক্ষণ দেওয়া ভিত্তিরেখা হিসাবে ५. সম্প্রদায়-চালিত সহযোগিতা কাঠামো প্রতিষ্ঠা করা, ক্রমাগত ডেটাসেট সম্প্রসারণ এবং উন্নতি প্রচার করে
প্রতিটি ভাষার ডেটা সংগ্রহ সেই ভাষার সাথে পরিচিত গবেষকদের দ্বারা পরিচালিত হয়, ডেটা গুণমান এবং সাংস্কৃতিক অভিযোজন নিশ্চিত করে।
१. প্রতিলিপি ডেটা (Transcription)
२. শিক্ষামূলক সামগ্রী (Education)
३. বই, উইকি, সংবাদ (Books, Wiki, News)
४. সাবটাইটেল (Subtitles)
५. প্যাডিং ডেটা (Padding)
ভাষা দায়িত্বশীল দ্বারা নির্দিষ্ট ভাষা এবং ডেটা প্রয়োজন অনুযায়ী প্রাথমিক প্রক্রিয়াকরণ।
१. স্ট্যান্ডার্ডাইজেশন: ইউনিকোড, হোয়াইটস্পেস, বিরাম চিহ্ন স্ট্যান্ডার্ডাইজেশন २. বিভাগ-নির্দিষ্ট প্রক্রিয়াকরণ:
१. সম্ভাব্যতা যাচাইকরণ: ४५টি ভাষার উন্নয়নমূলকভাবে সম্ভাব্য ডেটাসেট সফলভাবে নির্মাণ করা, বহুভাষিক BabyLM গবেষণার সম্ভাব্যতা প্রমাণ করে २. ডেটা পরিমাণ প্রভাব: আরও উন্নয়নমূলক সম্ভাব্য ডেটা প্রকৃতপক্ষে ব্যাকরণগত শেখার ক্ষমতা উন্নত করে, বিশেষত MultiBLiMP কাজে ३. দ্বিভাষিক সুবিধা: জ্ঞান-নিবিড় কাজে, দ্বিভাষিক প্রশিক্ষণ সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি নিয়ে আসে ४. আর্কিটেকচার পছন্দ: ছোট-স্কেল ডেটা সেটিংসে, GPT-२ আর্কিটেকচার GPT-BERT এর চেয়ে উন্নত
१. ভাষা কভারেজ অসমতা: ४५টি ভাষা জুড়ে বিস্তৃত হওয়া সত্ত্বেও, আফ্রিকান ভাষা এবং ছোট ভাষা এখনও প্রতিনিধিত্ব অপর্যাপ্ত २. ডেটা রচনা পার্থক্য: বিভিন্ন ভাষার উন্নয়নমূলক সম্ভাব্য ডেটার অনুপাত উল্লেখযোগ্যভাবে পরিবর্তিত হয়, ক্রস-ভাষাগত তুলনা প্রভাবিত করতে পারে ३. মূল্যায়ন সম্পদ সীমাবদ্ধতা: সমস্ত ভাষা জুড়ে মান-ভিত্তিক মূল্যায়ন বেঞ্চমার্কের অভাব ४. ডেটা সাদৃশ্য: ডেটাসেট শুধুমাত্র প্রকৃত শিশু ভাষা ইনপুটের একটি মোটামুটি অনুমান
१. ভাষা কভারেজ সম্প্রসারণ: বিশেষত আফ্রিকান ভাষা এবং অন্যান্য কম-সম্পদ ভাষা २. ডেটা গুণমান উন্নতি: আরও উচ্চ-মানের শিশু-নির্দেশিত ভাষা ডেটা সংগ্রহ ३. মান-ভিত্তিক মূল্যায়ন: ক্রস-ভাষাগত সামঞ্জস্যপূর্ণ মূল্যায়ন কাঠামো উন্নয়ন ४. বহুভাষিক ক্ষমতা গবেষণা: দ্বিভাষিক এবং বহুভাষিক অধিগ্রহণ প্রক্রিয়া গভীরভাবে অধ্যয়ন
१. সিস্টেমেটিক অবদান: প্রথমবারের মতো বৃহৎ-স্কেল বহুভাষিক উন্নয়নমূলক সম্ভাব্য ডেটাসেট সিস্টেমেটিকভাবে নির্মাণ २. সম্প্রদায় ভিত্তিক: টেকসই সম্প্রদায়-চালিত ডেটা সংগ্রহ কাঠামো প্রতিষ্ঠা ३. পদ্ধতিগত কঠোরতা: ক্রস-ভাষাগত ডেটা পরিমাণ তুলনীয়তা নিশ্চিত করতে বাইট-মূল্য পদ্ধতি ব্যবহার ४. উচ্চ খোলামেলাতা: সম্পূর্ণ ডেটা, কোড এবং মডেল প্রদান করে, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করে ५. উচ্চ ব্যবহারিক মূল্য: বহুভাষিক জ্ঞানীয় মডেলিং এবং ডেটা দক্ষতা গবেষণার জন্য গুরুত্বপূর্ণ সংস্থান প্রদান করে
१. ডেটা গুণমান অসমতা: বিভিন্ন ভাষার উন্নয়নমূলক সম্ভাব্য ডেটার অনুপাত উল্লেখযোগ্যভাবে পরিবর্তিত হয় २. মডেল কর্মক্ষমতা সীমিত: ভিত্তিরেখা মডেল বেশিরভাগ কাজে র্যান্ডম স্তরের কাছাকাছি কর্মক্ষমতা ३. মূল্যায়ন কভারেজ অসম্পূর্ণ: কিছু ভাষা পর্যাপ্ত মূল্যায়ন বেঞ্চমার্ক অভাব ४. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কেন নির্দিষ্ট ভাষা বা কাজ আরও ভাল পারফর্ম করে তার গভীর বিশ্লেষণ অভাব
१. ক্ষেত্র অবদান: বহুভাষিক উন্নয়নমূলক সম্ভাব্য ডেটাসেটের শূন্যতা পূরণ করে, সম্পর্কিত গবেষণা উন্নয়ন চালিত করে २. ব্যবহারিক মূল্য: কম-সম্পদ ভাষার ভাষা মডেল গবেষণার জন্য গুরুত্বপূর্ণ শুরু প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন-সোর্স সংস্থান গবেষণার পুনরুৎপাদনযোগ্যতা এবং স্কেলেবিলিটি নিশ্চিত করে ४. সম্প্রদায় নির্মাণ: টেকসই সহযোগিতা কাঠামো প্রতিষ্ঠা করে, দীর্ঘমেয়াদী উন্নয়ন প্রচার করে
१. জ্ঞানীয় ভাষাবিজ্ঞান গবেষণা: মানুষের ভাষা অধিগ্রহণ এবং মেশিন শেখার সম্পর্ক অন্বেষণ २. কম-সম্পদ ভাষা মডেলিং: সম্পদ-সীমিত ভাষার জন্য প্রশিক্ষণ শুরু প্রদান করে ३. বহুভাষিক শিক্ষা: দ্বিভাষিক এবং বহুভাষিক শেখার গবেষণা সমর্থন করে ४. ডেটা দক্ষতা গবেষণা: সীমিত ডেটা বাজেটের অধীনে মডেল প্রশিক্ষণ কৌশল গবেষণা
१. বাইট-মূল্য ক্যালিব্রেশন: বিভিন্ন ভাষার ডেটা পরিমাণ সামঞ্জস্য করতে UTF-८ এনকোডিং আকার ব্যবহার করে, ন্যায্য তুলনা নিশ্চিত করে २. স্তরবিন্যাসিত ডেটা সংগঠন: উপলব্ধ ডেটা পরিমাণ অনুযায়ী ভাষা তিনটি স্তরে বিভক্ত করে, কভারেজ এবং ডেটা গুণমান ভারসাম্য রাখে ३. সম্প্রদায়-চালিত গুণমান নিয়ন্ত্রণ: প্রতিটি ভাষা মাতৃভাষী বা দক্ষ ব্যবহারকারী দ্বারা পরিচালিত হয়, সাংস্কৃতিক এবং ভাষাগত অভিযোজন নিশ্চিত করে
१. দ্বৈত-মোড মূল্যায়ন: শূন্য-শট এবং সূক্ষ্ম-সুর মূল্যায়ন সংমিশ্রণ করে, মডেল ক্ষমতা ব্যাপকভাবে পরীক্ষা করে २. ক্রস-ভাষাগত সামঞ্জস্য: MultiBLiMP এর মতো সরঞ্জাম ব্যবহার করে মূল্যায়নের ক্রস-ভাষাগত তুলনীয়তা নিশ্চিত করে ३. ক্ষমতা শ্রেণীবিভাগ মূল্যায়ন: আনুষ্ঠানিক ভাষাগত ক্ষমতা এবং কার্যকরী ভাষাগত ক্ষমতার মূল্যায়ন আলাদা করে
१. সম্পূর্ণ সম্পদ প্রকাশনা: ডেটা, কোড, মডেল সম্পূর্ণ ওপেন-সোর্স २. স্কেলেবল ডিজাইন: সম্প্রদায় অবদান সমর্থন করতে মান-ভিত্তিক পাইপলাইন প্রদান করে ३. স্বচ্ছ ডকুমেন্টেশন: ডেটা উৎস, লাইসেন্স এবং পূর্ব-প্রক্রিয়াকরণ তথ্যের বিস্তারিত
এই কাজ বহুভাষিক ভাষা মডেল গবেষণা এবং জ্ঞানীয় ভাষাবিজ্ঞান ক্রস-ডিসিপ্লিনারি ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে, একটি টেকসই গবেষণা প্ল্যাটফর্ম প্রতিষ্ঠা করে, মানুষের ভাষা অধিগ্রহণ প্রক্রিয়ার গভীর বোঝাপড়া চালিত করার প্রত্যাশা করে।