Hardware accelerators, especially those designed for tensor processing, have become ubiquitous in today's computing landscape. However, even with significant efforts in building compilers, programming these tensor accelerators remains challenging, leaving much of their potential underutilized. Recently, large language models (LLMs), trained on large amounts of code, have shown significant promise in code generation and optimization tasks, but generating low-resource languages, such as specialized tensor accelerator code still poses a significant challenge. We tackle this challenge with Autocomp, an approach that empowers accelerator programmers to leverage domain knowledge and hardware feedback to optimize code via an automated LLM-driven search. We accomplish this by: 1) formulating each optimization pass as a structured two-phase prompt, divided into planning and code generation phases, 2) inserting domain knowledge during planning via a concise and adaptable optimization menu, and 3) integrating correctness and performance metrics from hardware as feedback at each search iteration. Across three distinct hardware platforms, we demonstrate that Autocomp-optimized code runs 5.6x faster than the vendor-provided library (Gemmini), outperforms expert-level hand-tuned code by 1.9x (AWS Trainium), and achieves 3.8x higher performance than a machine learning-based cost model for GPUs (NVIDIA L40S). Additionally, we demonstrate that optimization schedules generated from Autocomp can be reused across similar tensor operations, improving speedups by up to 24% under a fixed sample budget.
academic- পেপার আইডি: 2505.18574
- শিরোনাম: Autocomp: A Powerful and Portable Code Optimizer for Tensor Accelerators
- লেখক: Charles Hong, Sahil Bhatia, Alvin Cheung, Yakun Sophia Shao (UC Berkeley)
- শ্রেণীবিভাগ: cs.PL cs.AI cs.AR cs.LG
- প্রকাশনা অবস্থা: প্রি-প্রিন্ট। পর্যালোচনাধীন।
- পেপার লিঙ্ক: https://arxiv.org/abs/2505.18574
হার্ডওয়্যার এক্সিলারেটর, বিশেষত টেনসর প্রসেসিংয়ের জন্য ডিজাইন করা এক্সিলারেটরগুলি, আজকের কম্পিউটিং পরিবেশে সর্বব্যাপী হয়ে উঠেছে। তবে কম্পাইলার নির্মাণে ব্যাপক প্রচেষ্টা সত্ত্বেও, এই টেনসর এক্সিলারেটরগুলি প্রোগ্রাম করা এখনও চ্যালেঞ্জিং, যার ফলে এর সম্ভাবনার বেশিরভাগ অপ্রয়োজনীয় থাকে। এই পেপারটি Autocomp প্রস্তাব করে, যা স্বয়ংক্রিয় LLM-চালিত অনুসন্ধানের মাধ্যমে কোড অপটিমাইজ করার একটি পদ্ধতি, যা এক্সিলারেটর প্রোগ্রামারদের ডোমেইন জ্ঞান এবং হার্ডওয়্যার প্রতিক্রিয়া ব্যবহার করতে সক্ষম করে। এই পদ্ধতিটি তিনটি মূল প্রযুক্তির মাধ্যমে বাস্তবায়িত হয়: 1) প্রতিটি অপটিমাইজেশন প্রক্রিয়াকে পরিকল্পনা এবং কোড প্রজন্ম পর্যায়ে বিভক্ত একটি কাঠামোগত দুই-পর্যায়ের প্রম্পটে প্রণয়ন করা; 2) পরিকল্পনা পর্যায়ে একটি সংক্ষিপ্ত এবং অভিযোজনযোগ্য অপটিমাইজেশন মেনু মাধ্যমে ডোমেইন জ্ঞান সন্নিবেশ করা; 3) প্রতিটি অনুসন্ধান পুনরাবৃত্তিতে হার্ডওয়্যার থেকে সঠিকতা এবং কর্মক্ষমতা মেট্রিক্স প্রতিক্রিয়া হিসাবে একীভূত করা।
টেনসর এক্সিলারেটর প্রোগ্রামিং এর প্রধান চ্যালেঞ্জগুলি অন্তর্ভুক্ত করে:
- প্রোগ্রামিং জটিলতা: সাধারণ CPU প্রোগ্রামিং থেকে ভিন্ন, টেনসর এক্সিলারেটরগুলি ডেটা আন্দোলন, কনফিগারেশন অবস্থা এবং অপারেশন সময়সূচীর স্পষ্ট ব্যবস্থাপনা প্রয়োজন
- কম্পাইলার অভিযোজন খরচ: নতুন হার্ডওয়্যার প্ল্যাটফর্মের জন্য ঐতিহ্যবাহী কম্পাইলার অভিযোজন ব্যাপক প্রকৌশল কাজ প্রয়োজন, সফটওয়্যার উন্নয়ন খরচ নতুন হার্ডওয়্যার উন্নয়ন খরচের 40-50% গঠন করে
- অপটিমাইজেশন সময়সূচী সমস্যা: কোন অপটিমাইজেশনগুলি প্রয়োগ করতে হবে এবং কোন ক্রমে প্রয়োগ করতে হবে তা নির্ধারণের সংমিশ্রণগত বিস্ফোরণ সমস্যা
- কম-সম্পদ ভাষা চ্যালেঞ্জ: বিশেষায়িত এক্সিলারেটরের নির্দেশ সেট আর্কিটেকচার (ISA) এবং DSL গুলি LLM প্রশিক্ষণ কর্পাসে অপর্যাপ্তভাবে প্রতিনিধিত্ব করা হয়
- ঐতিহ্যবাহী কম্পাইলার: XLA, TVM, Triton ইত্যাদি শুধুমাত্র কয়েকটি হার্ডওয়্যার ব্যাকএন্ড সমর্থন করে, প্রধানত CPU এবং GPU
- DSL পদ্ধতি: Halide, Exo ইত্যাদি টেনসর গণনা প্রকাশের জন্য আদিম প্রদান করে, কিন্তু অপটিমাইজেশন বোঝা এখনও প্রোগ্রামারের উপর থাকে
- ডেটা-চালিত পদ্ধতি: প্রশিক্ষণের জন্য বিপুল পরিমাণ কর্মক্ষমতা ডেটা প্রয়োজন, যা ডোমেইন-নির্দিষ্ট হার্ডওয়্যার এক্সিলারেটরদের জন্য অত্যন্ত বিরল
- সরাসরি LLM প্রয়োগ: কম-সম্পদ এক্সিলারেটর ভাষার জন্য, শূন্য-শট কোড প্রজন্ম অত্যন্ত অবিশ্বাস্য
- প্রথম LLM-চালিত কম-সম্পদ টেনসর এক্সিলারেটর কোড অপটিমাইজেশন পদ্ধতি: বিশেষায়িত হার্ডওয়্যার এক্সিলারেটরের জন্য বিশেষভাবে ডিজাইন করা Autocomp ফ্রেমওয়ার্ক প্রস্তাব করা
- অত্যন্ত পোর্টেবল অপটিমাইজেশন ফ্রেমওয়ার্ক: প্রম্পট সংশোধনের মাধ্যমে নতুন হার্ডওয়্যার প্ল্যাটফর্মে অভিযোজন, প্রকৌশল খরচ উল্লেখযোগ্যভাবে হ্রাস করা
- উৎকৃষ্ট কর্মক্ষমতা: তিনটি ভিন্ন হার্ডওয়্যার প্ল্যাটফর্মে বিদ্যমান পদ্ধতিগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করা
- সময়সূচী পুনর্ব্যবহার প্রক্রিয়া: অপটিমাইজেশন সময়সূচীগুলি অনুরূপ টেনসর অপারেশনের মধ্যে পুনর্ব্যবহারযোগ্য, নমুনা দক্ষতা উন্নত করা
ইনপুট: অপ্টিমাইজ করা হয়নি এমন টেনসর এক্সিলারেটর কোড
আউটপুট: কার্যকরভাবে সমতুল্য কিন্তু কর্মক্ষমতা-অপ্টিমাইজড কোড
সীমাবদ্ধতা: শব্দার্থগত সমতুল্যতা বজায় রাখা, হার্ডওয়্যার যাচাইকরণের মাধ্যমে সঠিকতা নিশ্চিত করা
প্রম্পট কাঠামো অন্তর্ভুক্ত করে:
- এক্সিলারেটর ISA বর্ণনা: নির্দেশ শব্দার্থ, মেমরি ঠিকানা নির্দিষ্টকরণ, হার্ডওয়্যার কাঠামো বর্ণনা
- বর্তমান কোড: অপ্টিমাইজ করার জন্য কোড
- কর্মক্ষমতা প্রতিক্রিয়া: বিলম্ব (চক্র সংখ্যা), মেমরি ব্যবহার হার ইত্যাদি মেট্রিক্স
- অপটিমাইজেশন মেনু: পূর্বনির্ধারিত উচ্চ-স্তরের অপটিমাইজেশন বিকল্প (যেমন লুপ টাইলিং, পুনর্বিন্যাস, ফিউশন ইত্যাদি)
- অনুসন্ধান পুনরাবৃত্তি তথ্য: বর্তমান পুনরাবৃত্তি সংখ্যা, অপটিমাইজেশন পছন্দ গাইড করার জন্য
প্রম্পট কাঠামো অন্তর্ভুক্ত করে:
- এক্সিলারেটর ISA বর্ণনা: পর্যায় 1 এর মতো
- বর্তমান কোড: পর্যায় 1 এর মতো
- উৎপাদিত পরিকল্পনা: পর্যায় 1 আউটপুটের নির্দিষ্ট অপটিমাইজেশন পরিকল্পনা
- প্রসঙ্গ শেখার উদাহরণ: জটিল অপটিমাইজেশনের জন্য কোড উদাহরণ (যেমন টাইলিং)
- বাস্তবায়ন নির্দেশনা: পরিকল্পনা প্রয়োগ এবং অপ্টিমাইজড কোড আউটপুট করার প্রাকৃতিক ভাষা নির্দেশনা
- প্রস্থ B=6 এর বান্ডেল অনুসন্ধান, একাধিক অপটিমাইজেশন ট্র্যাজেক্টরি সমান্তরালভাবে অন্বেষণ করা
- সঠিকতা ফিল্টারিং: কার্যকরী পরীক্ষা স্যুটের মাধ্যমে প্রার্থী কোড যাচাই করা
- কর্মক্ষমতা নির্বাচন: শুধুমাত্র প্যারেন্ট নোডের চেয়ে ভাল কর্মক্ষমতা সহ প্রার্থী রাখা
- পুনরাবৃত্তিমূলক অপটিমাইজেশন: নির্দিষ্ট বাজেট T পুনরাবৃত্তির অনুসন্ধান প্রক্রিয়া
- অপটিমাইজেশন মেনু ড্রপআউট: প্রতিটি পরিকল্পনার সময় অংশ মেনু বিকল্প র্যান্ডমভাবে সরানো (70% সম্ভাবনা)
- LLM একীকরণ: একাধিক LLM জুড়ে অনুরোধ বিতরণ করে প্রতিক্রিয়া বৈচিত্র্য বৃদ্ধি করা
- রিয়েল-টাইম কর্মক্ষমতা মেট্রিক্স (বিলম্ব, মেমরি ব্যবহার হার) পরবর্তী অপটিমাইজেশন পছন্দ গাইড করা
- চক্র-নির্ভুল সিমুলেশন বা চিপ-স্তরের কর্মক্ষমতা পরিমাপ
- উচ্চ-মানের সময়সূচী ক্রম রেকর্ড করা
- অনুরূপ টেনসর অপারেশনের জন্য পরিচিত সময়সূচী পুনর্ব্যবহার করা (একই দিক অনুপাত বা ভাগ করা মাত্রা)
- হালকা-ওজন অনুসন্ধানের পরে আরও অপটিমাইজেশন করা
- Gemmini: খোলা উৎস এক্সিলারেটর জেনারেটর, সিস্টোলিক অ্যারে এবং ভেক্টর-শৈলী টেনসর এক্সিলারেটর সমর্থন করে
- AWS Trainium: বাণিজ্যিক উচ্চ-কর্মক্ষমতা টেনসর এক্সিলারেটর, Neuron Kernel Interface (NKI) ব্যবহার করে
- NVIDIA L40S GPU: আধুনিক ডেটা সেন্টার GPU, বিশেষায়িত Tensor Core অন্তর্ভুক্ত করে
- Gemmini: ResNet-50 এর GEMM এবং কনভোলিউশন, TinyMPC মডেল ভবিষ্যদ্বাণী নিয়ন্ত্রণ
- Trainium: টিউটোরিয়াল-স্তরের এবং উন্নত গভীর শেখার অপারেটর (RMSNorm, LayerNorm, GEMM, Mamba ইত্যাদি)
- GPU: KernelBench স্তর 1 বেঞ্চমার্ক পরীক্ষা
- উচ্চ-স্তরের সফটওয়্যার লাইব্রেরি: Gemmini সফটওয়্যার লাইব্রেরি, PyTorch NeuronX, PyTorch
- অপ্টিমাইজ করা হয়নি এমন নিম্ন-স্তরের কোড: Exo অপ্টিমাইজ করা হয়নি, nki-samples টিউটোরিয়াল কোড
- হাতে-কলমে অপ্টিমাইজড কোড: বিশেষজ্ঞ-স্তরের ম্যানুয়াল টিউনিং বাস্তবায়ন
- ML খরচ মডেল: TVM MetaSchedule (GPU)
- হার্ডওয়্যার FSM: Gemmini হার্ডওয়্যার সীমিত অবস্থা মেশিন (রেফারেন্স আপার বাউন্ড)
- GEMM বেঞ্চমার্ক: Gemmini সফটওয়্যার লাইব্রেরির তুলনায় 5.6× উন্নতি, বিশেষজ্ঞ হাতে-কলমে অপ্টিমাইজড কোড 1.4× অতিক্রম করা
- কনভোলিউশন বেঞ্চমার্ক: সফটওয়্যার লাইব্রেরির তুলনায় 2.6× উন্নতি, হাতে-কলমে অপ্টিমাইজড 1.1× অতিক্রম করা
- সূক্ষ্ম-দানাদার রৈখিক বীজগণিত: অপ্টিমাইজ করা হয়নি এমন কোডের 2.7× অতিক্রম করা, এমনকি বিশেষজ্ঞ-অপ্টিমাইজড হার্ডওয়্যার FSM বাস্তবায়ন 1.6× অতিক্রম করা (ফরওয়ার্ড পাস)
- টিউটোরিয়াল কর্মভার: হাতে-কলমে অপ্টিমাইজড কোড 1.36× অতিক্রম করা (জ্যামিতিক গড়), PyTorch NeuronX কম্পাইল করা কোড 13.52× অতিক্রম করা
- উন্নত কর্মভার: বিশেষজ্ঞ-স্তরের অপ্টিমাইজড কোড 1.9× অতিক্রম করা (জ্যামিতিক গড়), 1D গভীর কনভোলিউশন 17.37× পর্যন্ত উন্নতি
- KernelBench বেঞ্চমার্ক: PyTorch 2.05× অতিক্রম করা (জ্যামিতিক গড়), TVM MetaSchedule 3.8× অতিক্রম করা
- সমস্ত বেঞ্চমার্কে PyTorch এর চেয়ে উন্নত, যখন TVM শুধুমাত্র 2টি বেঞ্চমার্কে PyTorch এর চেয়ে উন্নত
বিস্তারিত বিলোপন পরীক্ষার মাধ্যমে প্রতিটি উপাদানের গুরুত্ব যাচাই করা হয়েছে:
- এক্সিলারেটর ISA: সরানোর পরে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়, কিন্তু এখনও উন্নতি অর্জন করতে পারে
- অপটিমাইজেশন মেনু: সম্পূর্ণভাবে প্রয়োজনীয়, সরানোর পরে অপটিমাইজেশন কর্মক্ষমতা সম্পূর্ণভাবে বিফল হয়
- মেনু ড্রপআউট: কর্মক্ষমতায় উল্লেখযোগ্য প্রভাব, মডেলকে সীমিত মেনু বিকল্পের দিকে পক্ষপাত থেকে প্রতিরোধ করে
- LLM একীকরণ: গুরুত্বপূর্ণ বৈচিত্র্য প্রদান করে, একক মডেল কর্মক্ষমতা কম
- হার্ডওয়্যার কর্মক্ষমতা প্রতিক্রিয়া: সহায়ক কিন্তু সীমিত প্রভাব, কারণ অপটিমাইজেশন মেনু ইতিমধ্যে প্রাসঙ্গিক মেট্রিক্স অন্তর্ভুক্ত করে
- 100 নমুনা বাজেটে: পুনর্ব্যবহার সময়সূচী 4.6× ত্বরণ অর্জন করে, পুনর্ব্যবহার ছাড়া শুধুমাত্র 3.7×
- 200 নমুনা বাজেটে: পুনর্ব্যবহার সময়সূচী 5.0× ত্বরণ অর্জন করে, পুনর্ব্যবহার ছাড়া শুধুমাত্র 4.2×
- সময়সূচীর সাধারণীকরণযোগ্যতা প্রমাণ করে, অনুরূপ বেঞ্চমার্কের অনুসন্ধান খরচ কার্যকরভাবে হ্রাস করতে পারে
- কর্মক্ষমতা মডেল: Timeloop, MAESTRO উচ্চ-স্তরের হার্ডওয়্যার আর্কিটেকচার মডেল ব্যবহার করে
- স্বয়ংক্রিয় পদ্ধতি: মেশিন লার্নিং, রৈখিক প্রোগ্রামিং, ব্ল্যাক-বক্স অপটিমাইজেশন, শক্তিশালী শেখা
- সীমাবদ্ধতা: বিদ্যমান বিমূর্ততা বাস্তবায়ন-নির্দিষ্ট এবং নির্দেশ-স্তরের অপটিমাইজেশন উপেক্ষা করে
- প্রয়োগের পরিসীমা: বিবর্তনীয় অনুসন্ধান, পুনরুদ্ধার-বর্ধিত প্রজন্ম, পুনরাবৃত্তিমূলক অপটিমাইজেশন, মডেল পোস্ট-প্রশিক্ষণ
- সিস্টেম-স্তরের অপটিমাইজেশন: CUDA, SIMD অন্তর্নিহিত ফাংশন
- গবেষণা শূন্যতা: বিশেষায়িত হার্ডওয়্যার (CPU/GPU নয়) এর জন্য LLM কোড অপটিমাইজেশনের অভাব
- LLM-চালিত অপটিমাইজেশনের কার্যকারিতা: Autocomp একাধিক হার্ডওয়্যার প্ল্যাটফর্মে ঐতিহ্যবাহী পদ্ধতিগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করে
- অত্যন্ত উচ্চ পোর্টেবিলিটি: শুধুমাত্র প্রম্পট সংশোধনের মাধ্যমে নতুন হার্ডওয়্যারে অভিযোজন, প্রকৌশল খরচ অত্যন্ত কম
- সময়সূচী পুনর্ব্যবহারের মূল্য: অপটিমাইজেশন সময়সূচী ভাল সাধারণীকরণযোগ্যতা প্রদর্শন করে, অনুরূপ বেঞ্চমার্কের নমুনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করতে পারে
- দুই-পর্যায়ের ডিজাইনের প্রয়োজনীয়তা: পরিকল্পনা এবং বাস্তবায়ন পর্যায় পৃথক করা জটিল অপটিমাইজেশন কাজের সাফল্যের হার উন্নত করে
- ডোমেইন জ্ঞানের গুরুত্ব: অপটিমাইজেশন মেনু দ্বারা প্রদত্ত ডোমেইন বিশেষজ্ঞতা কর্মক্ষমতার জন্য অপরিহার্য
- হার্ডওয়্যার প্রতিক্রিয়ার মূল্য: রিয়েল-টাইম কর্মক্ষমতা মেট্রিক্স অপটিমাইজেশন দিক নির্বাচন কার্যকরভাবে গাইড করে
- LLM ক্ষমতার উপর নির্ভরতা: পদ্ধতির কর্মক্ষমতা অন্তর্নিহিত LLM এর কোড প্রজন্ম এবং যুক্তিযুক্ততার ক্ষমতা দ্বারা সীমাবদ্ধ
- অনুসন্ধান খরচ: একাধিক LLM কল এবং হার্ডওয়্যার সিমুলেশন প্রয়োজন, গণনা খরচ তুলনামূলকভাবে বেশি
- ডোমেইন-নির্দিষ্টতা: অপটিমাইজেশন মেনু বিভিন্ন হার্ডওয়্যার প্ল্যাটফর্মের জন্য হাতে-কলমে ডিজাইন করা প্রয়োজন
- মূল্যায়ন পরিসীমা: প্রধানত টেনসর গণনা কর্মভারে কেন্দ্রীভূত, অন্যান্য ধরনের গণনার প্রযোজ্যতা অজানা
- স্বয়ংক্রিয় মেনু প্রজন্ম: অপটিমাইজেশন মেনু স্বয়ংক্রিয়ভাবে নির্মাণের পদ্ধতি গবেষণা করা
- ক্রস-প্ল্যাটফর্ম সময়সূচী স্থানান্তর: বিভিন্ন হার্ডওয়্যার প্ল্যাটফর্মের মধ্যে সময়সূচী জ্ঞান স্থানান্তর অন্বেষণ করা
- খরচ দক্ষতা অপটিমাইজেশন: অনুসন্ধান প্রক্রিয়ায় LLM কল এবং হার্ডওয়্যার সিমুলেশনের সংখ্যা হ্রাস করা
- বিস্তৃত প্রয়োগ: টেনসর-নয় এমন গণনার অন্যান্য বিশেষায়িত এক্সিলারেটরে সম্প্রসারণ করা
- শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো LLM কে কম-সম্পদ টেনসর এক্সিলারেটর কোড অপটিমাইজেশনে প্রয়োগ করা, প্রযুক্তিগত পথ উদ্ভাবনী
- উচ্চ ব্যবহারিক মূল্য: বাস্তব প্রকৌশল ব্যথার পয়েন্ট সমাধান করা, নতুন হার্ডওয়্যারের সফটওয়্যার উন্নয়ন খরচ উল্লেখযোগ্যভাবে হ্রাস করা
- ব্যাপক পরীক্ষা: তিনটি ভিন্ন হার্ডওয়্যার প্ল্যাটফর্মে সম্পূর্ণ মূল্যায়ন, ফলাফল প্রভাবশালী
- পদ্ধতি সাধারণত্ব: ফ্রেমওয়ার্ক ডিজাইন ভাল স্কেলেবিলিটি এবং পোর্টেবিলিটি প্রদর্শন করে
- উৎকৃষ্ট কর্মক্ষমতা: একাধিক বেঞ্চমার্কে বিদ্যমান সেরা পদ্ধতিগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করা
- গণনা খরচ: বিপুল সংখ্যক LLM কল এবং হার্ডওয়্যার সিমুলেশন প্রয়োজন, ব্যবহারিক প্রয়োগ সীমাবদ্ধ করতে পারে
- মানব ডিজাইন নির্ভরতা: অপটিমাইজেশন মেনু এখনও বিশেষজ্ঞ জ্ঞান হাতে-কলমে ডিজাইন প্রয়োজন, স্বয়ংক্রিয়করণ স্তর সীমিত
- মূল্যায়ন সীমাবদ্ধতা: প্রধানত নির্দিষ্ট ধরনের টেনসর গণনায় কেন্দ্রীভূত, সাধারণীকরণযোগ্যতা যাচাই করা প্রয়োজন
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পদ্ধতির সংগ্রহ এবং সর্বোত্তমতার জন্য তাত্ত্বিক গ্যারান্টির অভাব
- একাডেমিক মূল্য: LLM এর বিশেষায়িত হার্ডওয়্যার কম্পাইলার অপটিমাইজেশন ক্ষেত্রে প্রয়োগ উদ্বোধন করা, গুরুত্বপূর্ণ একাডেমিক তাৎপর্য
- শিল্প প্রভাব: নতুন হার্ডওয়্যারের সফটওয়্যার স্ট্যাক উন্নয়ন খরচ উল্লেখযোগ্যভাবে হ্রাস করার সম্ভাবনা, গুরুত্বপূর্ণ শিল্প মূল্য
- পুনরুৎপাদনযোগ্যতা: লেখকরা বাস্তবায়ন এবং প্রম্পট খোলা উৎস করার প্রতিশ্রুতি দিয়েছেন, পরবর্তী গবেষণা সুবিধা
- অনুপ্রেরণা: অন্যান্য বিশেষায়িত হার্ডওয়্যারের কম্পাইলার অপটিমাইজেশনের জন্য নতুন প্রযুক্তিগত পথ প্রদান করা
- নতুন হার্ডওয়্যার প্রোটোটাইপ উন্নয়ন: নতুন ডিজাইন করা টেনসর এক্সিলারেটরের জন্য দ্রুত অপ্টিমাইজড কোড প্রজন্ম
- DSL কম্পাইলার নির্মাণ: ঐতিহ্যবাহী কম্পাইলারের পরিপূরক বা বিকল্প সমাধান
- কর্মক্ষমতা টিউনিং সরঞ্জাম: বিকাশকারীদের বিদ্যমান এক্সিলারেটর কোড অপটিমাইজ করতে সহায়তা করা
- গবেষণা এবং শিক্ষা: এক্সিলারেটর প্রোগ্রামিং এবং অপটিমাইজেশনের জন্য স্বয়ংক্রিয় সরঞ্জাম প্রদান করা
পেপারটি সম্পর্কিত কাজের বিস্তৃত উদ্ধৃতি অন্তর্ভুক্ত করে, প্রধানত:
- হার্ডওয়্যার এক্সিলারেটর ডিজাইন (Gemmini, TPU, Trainium ইত্যাদি)
- কম্পাইলার এবং DSL (XLA, TVM, Halide, Exo ইত্যাদি)
- LLM কোড প্রজন্ম (CodeGen, Codex ইত্যাদি)
- স্বয়ংক্রিয় অপটিমাইজেশন পদ্ধতি (শক্তিশালী শেখা, বিবর্তনীয় অ্যালগরিদম ইত্যাদি)
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা LLM এর বিশেষায়িত হার্ডওয়্যার কম্পাইলার অপটিমাইজেশনের এই উদীয়মান আন্তঃবিভাগীয় ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। পদ্ধতি উদ্ভাবনী, পরীক্ষামূলক মূল্যায়ন ব্যাপক, ব্যবহারিক মূল্য উল্লেখযোগ্য। যদিও গণনা খরচ এবং স্বয়ংক্রিয়করণ স্তরে উন্নতির জায়গা রয়েছে, তবে এটি ক্ষেত্রের উন্নয়নের জন্য নতুন দিকনির্দেশনা খুলে দেয় এবং গুরুত্বপূর্ণ একাডেমিক এবং শিল্প মূল্য রাখে।