পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) সিস্টেমগুলি দীর্ঘ ইনপুট সিকোয়েন্সের কারণে গুরুতর প্রথম টোকেন সময় (TTFT) বাধার সম্মুখীন হয়। বিদ্যমান KV ক্যাশ পুনর্ব্যবহার পদ্ধতিগুলি মৌলিক ট্রেড-অফের সম্মুখীন: উপসর্গ ক্যাশিং একই উপসর্গের প্রয়োজন কিন্তু RAG পরিস্থিতিতে বিরল, যখন সরাসরি প্রাক-গণনা ব্লক-মধ্যস্থ মনোযোগের অভাব এবং পুনরাবৃত্ত মনোযোগ সমন্বয়ের কারণে গুণমান ত্যাগ করে। এই পেপারটি CacheClip ফ্রেমওয়ার্ক প্রস্তাব করে, যা সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন, ভাগ করা উপসর্গ অপসারণ অপ্রয়োজনীয় মনোযোগ সমন্বয়, এবং স্থানীয় সামঞ্জস্য বজায় রাখার জন্য গ্রুপিং কৌশলের মাধ্যমে দ্রুত TTFT এবং উচ্চ প্রজন্মের গুণমান অর্জন করে। পরীক্ষাগুলি দেখায় যে CacheClip যথাক্রমে NIAH এবং LongBench-এ সম্পূর্ণ মনোযোগ কর্মক্ষমতার ৯৪.৮% এবং ৮৫.০% বজায় রাখে, প্রাক-পূরণ সময়ে ১.৯২× পর্যন্ত ত্বরণ অর্জন করে।
RAG সিস্টেমগুলির মুখোমুখি মূল সমস্যা হল প্রথম টোকেন সময় (TTFT) বাধা। বৃহৎ সংখ্যক পুনরুদ্ধৃত ডকুমেন্ট ব্লক (সাধারণত ৪K-১৬K টোকেন) প্রক্রিয়া করার প্রয়োজনীয়তার কারণে, প্রাক-পূরণ পর্যায়ে মনোযোগ গণনা দ্বিঘাত জটিলতা প্রদর্শন করে, যা ব্যবহারকারীর অভিজ্ঞতা হ্রাস করে। উদাহরণস্বরূপ, A100 GPU-তে ২০০K ইনপুট টোকেন প্রক্রিয়া করার জন্য ২০ সেকেন্ডের বেশি TTFT প্রয়োজন।
১. উপসর্গ ক্যাশিং: সম্পূর্ণ অভিন্ন উপসর্গের প্রয়োজন, কিন্তু RAG পরিস্থিতিতে পুনরুদ্ধৃত ব্লকগুলি প্রায়শই পরিবর্তিত হয়, প্রকৃত পুনর্ব্যবহার হার কম २. সরাসরি প্রাক-গণনা: প্রতিটি ব্লকের KV ক্যাশ স্বাধীনভাবে গণনা করার পরে সংযুক্ত করা, দুটি মূল সমস্যা বিদ্যমান:
এমন একটি পদ্ধতির প্রয়োজন যা উল্লেখযোগ্যভাবে অনুমান ত্বরান্বিত করতে পারে এবং প্রজন্মের গুণমান বজায় রাখতে পারে, বিশেষত ক্রস-ডকুমেন্ট যুক্তির প্রয়োজনীয় জটিল RAG কাজগুলিতে।
१. মূল পর্যবেক্ষণ: ছোট সহায়ক LLM-এর শেষ স্তরের মনোযোগ বিতরণ বড় প্রধান মডেলের সাথে অত্যন্ত সমান, গুরুত্বপূর্ণ টোকেন দক্ষতার সাথে চিহ্নিত করতে ব্যবহার করা যেতে পারে २. CacheClip ফ্রেমওয়ার্ক: তিনটি প্রযুক্তি একীভূত করা একটি নতুন ফ্রেমওয়ার্ক:
ব্যবহারকারীর প্রশ্ন এবং পুনরুদ্ধৃত ডকুমেন্ট ব্লকের সেট দেওয়া, লক্ষ্য হল প্রজন্মের গুণমান বজায় রেখে প্রাক-পূরণ বিলম্ব কমানো। ইনপুট হল প্রশ্ন q এবং ডকুমেন্ট ব্লক সেট {D₁, D₂, ..., Dₙ}, আউটপুট হল উচ্চ-মানের প্রতিক্রিয়া।
[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] থেকে
[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]-এ পুনর্বিন্যাস করুন१. RULER: পুনরুদ্ধার বিভাগের সূচক মধ্যে সুই (NIAH) সম্প্রসারিত সংস্করণ
२. LongBench: দীর্ঘ প্রসঙ্গ বোঝার মানদণ্ড
१. সম্পূর্ণ মনোযোগ: সম্পূর্ণ মনোযোগ গণনা (উপরের সীমা) २. সরাসরি পুনর্ব্যবহার: সরাসরি KV ক্যাশ সংযুক্ত করা ३. APE: ভাগ করা উপসর্গ + মনোযোগ তাপমাত্রা সমন্বয় ४. CacheBlend: প্রাথমিক স্তর-ভিত্তিক নির্বাচনী পুনঃগণনা
| পদ্ধতি | multifieldqa_zh | 2wikimqa | hotpotqa |
|---|---|---|---|
| সম্পূর্ণ মনোযোগ | ६४.९३ | ५४.३६ | ५९.७१ |
| CacheClip | ५८.०५ | ४२.७७ | ५१.३२ |
| CacheBlend | ५७.३४ | ४१.०८ | ४४.११ |
| APE | ५९.७० | ३८.३४ | ४५.२९ |
মনোযোগ বিতরণ সাদৃশ্য বিশ্লেষণের মাধ্যমে (KL বিচ্যুতি, Jaccard সূচক) প্রমাণ করে যে ছোট সহায়ক মডেল বড় মডেলের মনোযোগ প্যাটার্ন কার্যকরভাবে অনুমান করতে পারে।
RULER-single2 কাজে, CacheBlend "৫৬৬३६२" আউটপুট করে সঠিক উত্তর "৫६६३६२३" এর পরিবর্তে, কারণ শুধুমাত্র কিছু টোকেন পুনঃগণনা করা হয়। CacheClip এর গ্রুপিং কৌশল নিশ্চিত করে যে সম্পূর্ণ সংখ্যা একসাথে প্রক্রিয়া করা হয়, এই ধরনের ত্রুটি এড়ায়।
१. সূক্ষ্ম-সুর পদ্ধতি: Block Attention, TurboRAG, KVLink স্থানীয় মনোযোগের সাথে খাপ খাইয়ে নিতে সূক্ষ্ম-সুর করে, কিন্তু উচ্চ খরচ এবং উচ্চ-মানের ডেটাসেটের প্রয়োজন २. ক্যাশ ক্যালিব্রেশন: APE এবং Zhang ইত্যাদি ভাগ করা উপসর্গের মাধ্যমে মনোযোগ সামঞ্জস্য উন্নত করে ३. নির্বাচনী পুনঃগণনা: CacheBlend প্রাথমিক স্তরের সংকেতের উপর ভিত্তি করে টোকেন নির্বাচন করে, Cache-Craft একাধিক সংস্করণ ক্যাশ সংরক্ষণ করে
H2O, Quest, PyramidKV ইত্যাদি পদ্ধতি ডিকোডিং পর্যায়ে গুরুত্বপূর্ণ টোকেন সনাক্ত করে, প্রাক-পূরণ পর্যায়ে টোকেন নির্বাচনের জন্য অনুপ্রেরণা প্রদান করে।
१. CacheClip সফলভাবে RAG সিস্টেমে দক্ষতা এবং গুণমানের মধ্যে ট্রেড-অফ সমাধান করে २. সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন কৌশল কার্যকর এবং দক্ষ ३. গ্রুপিং কৌশল প্রসঙ্গ সম্পূর্ণতা বজায় রাখার জন্য গুরুত্বপূর্ণ ४. সিস্টেম ডিজাইন অতিরিক্ত GPU ওভারহেড এড়ায়, ব্যবহারিক মূল্য রয়েছে
१. বর্তমান পরীক্ষা প্রধানত ८K সিকোয়েন্স দৈর্ঘ্যে যাচাই করা হয়, দীর্ঘতর সিকোয়েন্সের কর্মক্ষমতা আরও যাচাইয়ের প্রয়োজন २. সহায়ক মডেল এবং প্রধান মডেলের মধ্যে সর্বোত্তম ম্যাচিং কৌশল এখনও অন্বেষণ করা প্রয়োজন ३. বিভিন্ন ডোমেন এবং কাজের ধরনের সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায় রয়েছে
१. দীর্ঘতর সিকোয়েন্স এবং আরও মডেল আর্কিটেকচারে সম্প্রসারণ করুন २. সহায়ক মডেল নির্বাচন এবং সূক্ষ্ম-সুর কৌশল অপ্টিমাইজ করুন ३. গতিশীল পুনঃগণনা অনুপাত সমন্বয় অ্যালগরিদম অন্বেষণ করুন ४. মাল্টি-GPU পরিবেশে সিস্টেম অপ্টিমাইজেশন গবেষণা করুন
१. প্রযুক্তিগত উদ্ভাবন শক্তিশালী: সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচনের ধারণা উপন্যাস, দৃঢ় তাত্ত্বিক ভিত্তি রয়েছে २. পরীক্ষামূলক ডিজাইন সম্পূর্ণ: একাধিক ডেটাসেট, বিস্তারিত বিলোপন পরীক্ষা এবং কেস বিশ্লেষণ অন্তর্ভুক্ত করে ३. ব্যবহারিক মূল্য উচ্চ: সম্পূর্ণ সিস্টেম ডিজাইন সমাধান প্রদান করে, প্রকৃত স্থাপনা সীমাবদ্ধতা বিবেচনা করে ४. কর্মক্ষমতা উন্নতি উল্লেখযোগ্য: উচ্চ গুণমান বজায় রেখে প্রায় २ গুণ ত্বরণ অর্জন করে
१. মূল্যায়ন পরিসীমা সীমিত: প্রধানত ८K সিকোয়েন্সে পরীক্ষা করা হয়, অতি-দীর্ঘ সিকোয়েন্স যাচাইকরণের অভাব २. সহায়ক মডেল ওভারহেড: যদিও CPU ব্যবহার করে, তবুও সিস্টেম জটিলতা বৃদ্ধি করে ३. সাধারণীকরণ যাচাইকরণ অপর্যাপ্ত: প্রধানত নির্দিষ্ট মডেল সমন্বয়ে যাচাই করা হয়, ক্রস-আর্কিটেকচার সাধারণীকরণ স্পষ্ট নয়
१. একাডেমিক অবদান: RAG সিস্টেম অপ্টিমাইজেশনের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে २. ব্যবহারিক মূল্য: সরাসরি উৎপাদন পরিবেশে প্রয়োগযোগ্য, প্রকৃত সমস্যা সমাধান করে ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, বাস্তবায়ন বিবরণ যথেষ্ট
१. দ্রুত প্রতিক্রিয়া প্রয়োজনীয় ইন্টারেক্টিভ RAG অ্যাপ্লিকেশন २. উচ্চ সমসাময়িক RAG সেবা সিস্টেম ३. সম্পদ সীমিত কিন্তু গুণমান বজায় রাখা প্রয়োজনীয় স্থাপনা পরিবেশ ४. ক্রস-ডকুমেন্ট যুক্তি প্রয়োজনীয় জটিল প্রশ্ন পরিস্থিতি
পেপারটি ४४টি সম্পর্কিত কাজ উদ্ধৃত করে, LLM অনুমান অপ্টিমাইজেশন, মনোযোগ প্রক্রিয়া, RAG সিস্টেম ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ গবেষণা অন্তর্ভুক্ত করে, এই কাজের জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।