2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

অসম্ভাব্য বাইগ্রাম বাইট-লেভেল টোকেনাইজারে অসম্পূর্ণ টোকেনের দুর্বলতা প্রকাশ করে

মৌলিক তথ্য

পেপার আইডি: 2410.23684
শিরোনাম: অসম্ভাব্য বাইগ্রাম বাইট-লেভেল টোকেনাইজারে অসম্পূর্ণ টোকেনের দুর্বলতা প্রকাশ করে
লেখক: ইউজিন জ্যাং (নর্থইস্টার্ন বিশ্ববিদ্যালয়), কিমিন লি (কেআইএসটি), জিন-উ চুং (এস২ডাব্লু ইনক.), কিউনটে পার্ক (এস२ডাব্লু ইনক.), সেউংওন শিন (কেআইএসটি)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
প্রকাশনার সময়: অক্টোবর ২০२৪ (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2410.23684

সারসংক্ষেপ

এই পেপারটি বাইট-লেভেল বাইট পেয়ার এনকোডিং (বিপিই) টোকেনাইজারে অসম্পূর্ণ টোকেনের দুর্বলতা সমস্যা নিয়ে গবেষণা করে। লেখকরা আবিষ্কার করেছেন যে এই স্বাধীন বাইট সম্বলিত অসম্পূর্ণ টোকেনগুলি সংলগ্ন টোকেনের উপর গুরুতরভাবে নির্ভরশীল এবং অপরিচিত টোকেনের সাথে যুক্ত হলে সমস্যা সৃষ্টি করে। "অসম্ভাব্য বাইগ্রাম" (অসম্ভাব্য বাইগ্রাম) নির্মাণের মাধ্যমে—অর্থাৎ অসম্পূর্ণ টোকেনের বিতরণ-বাহ্যিক সমন্বয়—লেখকরা প্রমাণ করেছেন যে এই দুর্বলতা উল্লেখযোগ্য হ্যালুসিনেশন আচরণের দিকে পরিচালিত করে। পরীক্ষাগুলি দেখায় যে বিকল্প টোকেনাইজেশন পদ্ধতি ব্যবহার করার সময়, একই বাক্যাংশের হ্যালুসিনেশন হার উল্লেখযোগ্যভাবে হ্রাস পায় (Llama3.1-এ ৯০% হ্রাস)।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই পেপারটি যে মূল সমস্যাটি সমাধান করতে চায় তা হল বাইট-লেভেল বিপিই টোকেনাইজারে অসম্পূর্ণ টোকেনের দুর্বলতা, যা বড় ভাষা মডেলগুলিতে হ্যালুসিনেশন আচরণ সৃষ্টি করে।

সমস্যার গুরুত্ব

১. টোকেনাইজেশনের মূল ভূমিকা: টোকেনাইজেশন মানব-পাঠযোগ্য পাঠ্য এবং মডেল-প্রক্রিয়াযোগ্য বিচ্ছিন্ন টোকেনের মধ্যে সংযোগের একটি মূল পদক্ষেপ २. বিদ্যমান নিরাপত্তা ঝুঁকি: সাম্প্রতিক গবেষণা দেখায় যে টোকেনাইজারগুলি মডেলের অনুপযুক্ত আচরণ প্ররোচিত করতে দূষিতভাবে ব্যবহার করা যেতে পারে ३. বাস্তব ক্ষতি: টোকেনাইজেশন সমস্যা ডেটা অখণ্ডতা হ্রাস, প্রতিকূল আক্রমণ, মডেল ফিঙ্গারপ্রিন্টিং ইত্যাদি নিরাপত্তা ঝুঁকি সৃষ্টি করতে পারে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান গবেষণা প্রধানত অপ্রশিক্ষিত "ত্রুটি টোকেন" (গ্লিচ টোকেন) এর উপর দৃষ্টি নিবদ্ধ করে
কাঠামোগত টোকেনাইজেশন সমস্যার সিস্টেমেটিক বিশ্লেষণের অভাব
বাইট-লেভেল বিপিইর অক্ষর সীমানা-অজ্ঞেয়বাদ কাঠামোগত দুর্বল টোকেন তৈরি করতে পারে

গবেষণা প্রেরণা

লেখকরা অনুমান করেন যে অসম্পূর্ণ টোকেনগুলি তাদের কাঠামোগত বৈশিষ্ট্যের কারণে, অপরিচিত সংলগ্ন টোকেনের সাথে যুক্ত হলে দুর্বলতা প্রদর্শন করে, এমনকি যদি এই টোকেনগুলি নিজেরাই পর্যাপ্তভাবে প্রশিক্ষিত হয়।

মূল অবদান

१. অসম্পূর্ণ টোকেনের দুর্বলতা চিহ্নিত করা: বাইট-লেভেল বিপিই টোকেনাইজারে অসম্পূর্ণ টোকেনের কাঠামোগত বৈশিষ্ট্য এবং সম্ভাব্য সমস্যাগুলির সিস্টেমেটিক বিশ্লেষণ २. "অসম্ভাব্য বাইগ্রাম" ধারণা প্রস্তাব করা: অসম্পূর্ণ টোকেনের দুর্বলতা প্রকাশ করার জন্য একটি নতুন আক্রমণ পদ্ধতি ডিজাইন করা ३. ক্রস-মডেল যাচাইকরণ পরিচালনা করা: ৫টি প্রধান বড় ভাষা মডেলে এই দুর্বলতার সর্বজনীন উপস্থিতি যাচাই করা ४. প্রশমন কৌশল প্রদান করা: বিকল্প টোকেনাইজেশন পদ্ধতির মাধ্যমে সমস্যার সমাধানযোগ্যতা প্রমাণ করা এবং প্রতিরোধমূলক ব্যবস্থা প্রস্তাব করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: অসম্পূর্ণ টোকেন সম্বলিত পাঠ্য বাক্যাংশ আউটপুট: পুনরাবৃত্ত কাজে মডেলের প্রতিক্রিয়া লক্ষ্য: মডেলকে ইনপুট বাক্যাংশ সঠিকভাবে পুনরাবৃত্তি করতে অক্ষম করে এমন টোকেন সমন্বয় চিহ্নিত করা

অসম্পূর্ণ টোকেন বিশ্লেষণ পদ্ধতি

१. কাঠামোগত বিশ্লেষণ

ইউটিএফ-८ এনকোডিং বিশ্লেষণ: ইউটিএফ-८ মাল্টি-বাইট অক্ষরের শুরু বাইট এবং ধারাবাহিকতা বাইট কাঠামোর উপর ভিত্তি করে
উপসর্গ/প্রত্যয় শ্রেণীবিভাগ:
- উপসর্গ টোকেন: স্বাধীন বাইট দিয়ে শেষ হয়, অতিরিক্ত বাইট প্রয়োজন অক্ষর সম্পূর্ণ করতে
- প্রত্যয় টোকেন: স্বাধীন বাইট দিয়ে শুরু হয়, অক্ষর সম্পূর্ণ করার জন্য প্রয়োজনীয় বাইট প্রদান করে

२. বাইগ্রাম নির্মাণ প্রবাহ

ধাপ १: কাঠামোগত বিশ্লেষণ
- টোকেনে শুরু বাইট এবং ধারাবাহিকতা বাইট চিহ্নিত করা
- টোকেনের প্রয়োজনীয় বা প্রদত্ত বাইট সংখ্যা নির্ধারণ করা

ধাপ २: সামঞ্জস্য মিলান
- কাঠামোগতভাবে পরিপূরক টোকেন জোড়া খুঁজে বের করা
- সমন্বয় বৈধ ইউনিকোড অক্ষর গঠন নিশ্চিত করা

ধাপ ३: সম্ভাব্যতা যাচাইকরণ
- ডিকোড-এনকোড পরীক্ষা সম্পাদন করা
- উৎপন্ন স্ট্রিং প্রত্যাশিত অনুযায়ী টোকেনাইজ হয় তা যাচাই করা

অসম্ভাব্য বাইগ্রামের বৈশিষ্ট্য

१. বহুভাষিকতা: সমন্বয়ের অক্ষরগুলি বিভিন্ন ইউনিকোড স্ক্রিপ্ট সিস্টেম থেকে আসে २. বিতরণ-বাহ্যিক বৈশিষ্ট্য: এই ক্রস-স্ক্রিপ্ট সমন্বয় প্রশিক্ষণ ডেটায় অত্যন্ত অসম্ভাব্য ३. কাঠামোগত নির্ভরতা: দুটি টোকেন বৈধ অক্ষর গঠনের জন্য সহযোগিতা করতে হবে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. সিস্টেমেটিক দুর্বলতা আবিষ্কার: প্রথমবারের মতো বাইট-লেভেল বিপিইর কাঠামোগত দুর্বলতা সিস্টেমেটিকভাবে চিহ্নিত করা २. নির্ভুল আক্রমণ নির্মাণ: ইউটিএফ-८ এনকোডিং নিয়মের উপর ভিত্তি করে নির্ভুলভাবে আক্রমণ নমুনা নির্মাণ করা ३. প্রশিক্ষণ গুণমান স্বাধীনতা: প্রমাণ করা যে এমনকি প্রশিক্ষিত টোকেনগুলিও দুর্বল হতে পারে

পরীক্ষামূলক সেটআপ

মডেল নির্বাচন

বাইট-লেভেল বিপিই ব্যবহার করে এমন ৫টি নির্দেশনা সূক্ষ্ম-সুর করা মডেল পরীক্ষা করা হয়েছে:

Meta-Llama-3.1-8B-Instruct (শব্দভাণ্ডার ১२८k, १२२४টি অসম্পূর্ণ টোকেন)
EXAONE-3.0-7.8B-Instruct (শব্দভাণ্ডার १०२k, १२२२টি অসম্পূর্ণ টোকেন)
Qwen2.5-32B-Instruct (শব্দভাণ্ডার १५१k, १३२०টি অসম্পূর্ণ টোকেন)
Mistral-Nemo-Instruct-2407 (শব্দভাণ্ডার १३१k, १३०७টি অসম্পূর্ণ টোকেন)
C4AI-Command-R-v01 (শব্দভাণ্ডার २५५k, २९५६টি অসম্পূর্ণ টোকেন)

মূল্যায়ন কাজের ডিজাইন

লক্ষ্য বাক্যাংশ পুনরাবৃত্তি করার মডেলের ক্ষমতা পরীক্ষা করতে ४টি প্রম্পট টেমপ্লেট ব্যবহার করা হয়েছে:

কাজের ধরন	প্রম্পট টেমপ্লেট
সরাসরি পুনরাবৃত্তি	"এই বাক্যাংশটি ঠিক পুনরাবৃত্তি করুন: '{Phrase}'"
সংজ্ঞা অনুসন্ধান	"'{Phrase}' এর অর্থ কী?"
জ্ঞান অনুসন্ধান	"আজ আমি '{Phrase}' সম্পর্কে শুনেছি। আপনি কি জানেন এর অর্থ কী?"
কোড পরিস্থিতি	ব্যবহারকারীর নাম তালিকা আউটপুট সহ পাইথন কোড

টোকেন নির্বাচন কৌশল

१. প্রশিক্ষণ গুণমান ফিল্টারিং: Land এবং Bartolo (२०२४) এর এম্বেডিং হিউরিস্টিক পদ্ধতি ব্যবহার করে অপ্রশিক্ষিত টোকেন বাদ দেওয়া २. প্রশিক্ষিত টোকেনে ফোকাস করা: শুধুমাত্র শব্দভাণ্ডারে প্রশিক্ষণ গুণমান র্যাঙ্কিং শীর্ষ ५०% এর টোকেন ব্যবহার করা ३. অসম্ভাব্য বাইগ্রাম নির্মাণ: প্রতিটি মডেলের জন্য সর্বোচ্চ १००টি অসম্ভাব্য বাইগ্রাম নির্মাণ করা

বেসলাইন তুলনা

প্রতিটি অসম্ভাব্য বাইগ্রামের জন্য সম্পূর্ণ টোকেনের নিয়ন্ত্রণ গ্রুপ নির্মাণ করা:

প্রশিক্ষণ স্তর অনুরূপ কিন্তু সম্পূর্ণ টোকেন বিকল্প নির্বাচন করা
নিয়ন্ত্রণ পরীক্ষার ন্যায্যতা নিশ্চিত করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	অসম্ভাব্য বাইগ্রাম হ্যালুসিনেশন হার	বেসলাইন বাইগ্রাম হ্যালুসিনেশন হার
Llama 3.1	४८/१०० (४८%)	०/१००(०%)
Exaone	७७/१०० (७७%)	२०/१०० (२०%)
Qwen2.5	३३/१०० (३३%)	०/१०० (०%)
Mistral-Nemo	५२/७१ (७३%)	१/७१ (१%)
Command-R	४९/१०० (४९%)	८/१०० (८%)

মূল আবিষ্কার: অসম্পূর্ণ টোকেন দ্বারা গঠিত অসম্ভাব্য বাইগ্রামগুলি সমস্ত মডেলে উল্লেখযোগ্যভাবে উচ্চতর হ্যালুসিনেশন হার প্রদর্শন করে।

বিকল্প টোকেনাইজেশন পরীক্ষার ফলাফল

মডেল	মূল টোকেনাইজেশন হ্যালুসিনেশন হার	বিকল্প টোকেনাইজেশন হ্যালুসিনেশন হার	উন্নতির মাত্রা
Llama 3.1	०.४८	०.०५	↓९०%
Exaone	०.७७	०.५०	↓३५%
Qwen2.5	०.३३	०.१२	↓६४%
Mistral-Nemo	०.७३	०.०१	↓९८%
Command-R	०.४९	०.५५	কোন উন্নতি নেই

গুরুত্বপূর্ণ আবিষ্কার: Command-R ছাড়া, সমস্ত মডেল বিকল্প টোকেনাইজেশন ব্যবহার করার সময় হ্যালুসিনেশন হার উল্লেখযোগ্যভাবে হ্রাস পায়, যা সমস্যা প্রকৃতপক্ষে অসম্পূর্ণ টোকেন থেকে উদ্ভূত হয় তা প্রমাণ করে।

ভাষা বিতরণ বিশ্লেষণ

অসম্ভাব্য বাইগ্রামগুলি বিভিন্ন ভাষার জোড়া সমন্বয় কভার করে
উচ্চ-সম্পদ মাল্টি-বাইট স্ক্রিপ্ট (চীনা, কোরিয়ান, রাশিয়ান) সর্বোচ্চ ফ্রিকোয়েন্সিতে প্রদর্শিত হয়
বিভিন্ন মডেলের ভাষা জোড়া বিতরণ উল্লেখযোগ্যভাবে পৃথক (Exaone-এ १७টি ভাষার জোড়া, Command-R-এ মাত্র ३টি)

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. অসম্পূর্ণ টোকেনে সিস্টেমেটিক দুর্বলতা বিদ্যমান: এমনকি প্রশিক্ষিত হলেও, অসম্পূর্ণ টোকেনগুলি নির্দিষ্ট সমন্বয়ে হ্যালুসিনেশন সৃষ্টি করতে সহজ २. সমস্যা প্রশিক্ষণ থেকে নয় টোকেনাইজেশন থেকে উদ্ভূত: বিকল্প টোকেনাইজেশন সমস্যা উল্লেখযোগ্যভাবে উন্নত করে, যা মূল কারণ টোকেন কাঠামোতে রয়েছে তা প্রমাণ করে ३. প্রভাব ব্যাপক: এই সমস্যা একাধিক প্রধান মডেলে সর্বজনীনভাবে বিদ্যমান

বাস্তব ঝুঁকি

१. কোড এবং ডেটা প্রক্রিয়াকরণ: পরিবর্তনশীল নাম বা নির্দিষ্ট মান সম্পূর্ণতা ক্ষতিগ্রস্ত করতে পারে २. প্রতিকূল অ-পুনরাবৃত্তিযোগ্যতা: আক্রমণকারীরা অ-পুনরাবৃত্তিযোগ্য বাক্যাংশ ব্যবহার করে এলএলএম এজেন্টের হস্তক্ষেপ এড়াতে পারে ३. মডেল ফিঙ্গারপ্রিন্টিং: অনামী এলএলএম সেবার পিছনের স্থাপত্য চিহ্নিত করতে ব্যবহার করা যায়

প্রশমন কৌশল

१. শব্দভাণ্ডার ছাঁটাই: মডেল প্রশিক্ষণের আগে অসম্পূর্ণ টোকেন অপসারণ করা २. সীমাবদ্ধ বিপিই মার্জ: টোকেনাইজার প্রশিক্ষণের সময় অক্ষর সীমানা সম্মান করা ३. অক্ষর-স্তরের টোকেনাইজেশন: সম্পূর্ণ ইউনিকোড কভারেজের প্রয়োজন নেই এমন মডেলের জন্য, অক্ষর-স্তরের টোকেনাইজেশন একটি বিকল্প

সীমাবদ্ধতা

१. মূল্যায়ন পরিসীমা: শুধুমাত্র বাক্যাংশ-স্তরের হ্যালুসিনেশনে সীমাবদ্ধ, তথ্যগত হ্যালুসিনেশন সিস্টেমেটিকভাবে মূল্যায়ন করা হয়নি २. ভাষা বিশেষজ্ঞতা: পরীক্ষার বাক্যাংশগুলি একাধিক ভাষা কভার করে, লেখকদের দক্ষতার বাইরে ३. মডেল-নির্দিষ্টতা: Command-R মডেলের অস্বাভাবিক ফলাফল আরও গবেষণার প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. আরও নিরাপদ টোকেনাইজার ডিজাইন: অসম্পূর্ণ টোকেন এড়ায় এমন টোকেনাইজেশন পদ্ধতি বিকাশ করা २. দৃঢ়তা মূল্যায়ন: টোকেনাইজার দুর্বলতার আরও ব্যাপক মূল্যায়ন কাঠামো প্রতিষ্ঠা করা ३. প্রতিরক্ষা প্রক্রিয়া গবেষণা: রানটাইম সনাক্তকরণ এবং প্রশমন কৌশল অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

१. সমস্যা চিহ্নিতকরণের মৌলিকতা: প্রথমবারের মতো বাইট-লেভেল বিপিইর কাঠামোগত দুর্বলতা সিস্টেমেটিকভাবে চিহ্নিত করা २. পদ্ধতির কঠোরতা: ইউটিএফ-८ এনকোডিং নিয়মের উপর ভিত্তি করে নির্ভুল আক্রমণ নির্মাণ, সুসংগঠিত পরীক্ষা ডিজাইন ३. পরীক্ষার ব্যাপকতা: একাধিক মডেল এবং ভাষা জুড়ে যাচাইকরণ, বিশ্বাসযোগ্য ফলাফল ४. ব্যবহারিক মূল্য: নির্দিষ্ট প্রশমন কৌশল এবং নিরাপত্তা সুপারিশ প্রদান করা

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণের অভাব: অসম্পূর্ণ টোকেনগুলি কেন আরও দুর্বল তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব २. Command-R অস্বাভাবিকতা অব্যাখ্যাত: এই মডেলের অস্বাভাবিক ফলাফলের বিশ্লেষণ যথেষ্ট গভীর নয় ३. মূল্যায়ন মেট্রিক সীমাবদ্ধতা: শুধুমাত্র পুনরাবৃত্তি কাজ ব্যবহার করে মূল্যায়ন, বাস্তব ক্ষতি সম্পূর্ণভাবে প্রতিফলিত নাও করতে পারে ४. দীর্ঘমেয়াদী প্রভাব অজানা: এই দুর্বলতা মডেলের অন্যান্য ক্ষমতার উপর প্রভাব মূল্যায়ন করা হয়নি

প্রভাব

१. একাডেমিক অবদান: টোকেনাইজার নিরাপত্তা গবেষণার জন্য নতুন দিকনির্দেশনা খোলা २. ব্যবহারিক মূল্য: মডেল বিকাশকারীদের জন্য গুরুত্বপূর্ণ নিরাপত্তা বিবেচনা প্রদান করা ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, পরীক্ষা পুনরুৎপাদনযোগ্য ४. নীতি তাৎপর্য: ভবিষ্যত টোকেনাইজার ডিজাইন মান প্রভাবিত করতে পারে

প্রযোজ্য পরিস্থিতি

१. মডেল নিরাপত্তা মূল্যায়ন: বিদ্যমান মডেলের টোকেনাইজার দুর্বলতা মূল্যায়নের জন্য २. টোকেনাইজার ডিজাইন: আরও নিরাপদ টোকেনাইজার বিকাশ নির্দেশনা ३. প্রতিকূল পরীক্ষা: মডেল দৃঢ়তা পরীক্ষার অংশ হিসাবে ४. নিরাপত্তা অডিট: এলএলএম স্থাপনার আগে নিরাপত্তা পরীক্ষায় ব্যবহার করা

তথ্যসূত্র

মূল তথ্যসূত্র:

Land, S. & Bartolo, M. (२०२४). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (२०२०). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (२०१६). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (२०२४). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা বাইট-লেভেল বিপিই টোকেনাইজারের একটি গুরুত্বপূর্ণ নিরাপত্তা ত্রুটি চিহ্নিত করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর মৌলিকতা, পরীক্ষার কঠোরতা এবং ব্যবহারিক মূল্য এটিকে টোকেনাইজার নিরাপত্তা গবেষণা ক্ষেত্রে একটি গুরুত্বপূর্ণ অবদান করে তোলে। এই গবেষণা বড় ভাষা মডেলের নিরাপত্তা এবং দৃঢ়তা উন্নত করার জন্য উল্লেখযোগ্য তাৎপর্য রাখে।