2025-11-12T23:04:10.380766

LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models

Huang, Zhao, Chen
The rapid development of large language models (LLMs) has revolutionized software testing, particularly fuzz testing, by automating the generation of diverse and effective test inputs. This advancement holds great promise for improving software reliability. Meanwhile, the introduction of MOJO, a high-performance AI programming language blending Python's usability with the efficiency of C and C++, presents new opportunities to enhance AI model scalability and programmability. However, as a new language, MOJO lacks comprehensive testing frameworks and a sufficient corpus for LLM-based testing, which exacerbates model hallucination. In this case, LLMs will generate syntactically valid but semantically incorrect code, significantly reducing the effectiveness of fuzz testing. To address this challenge, we propose MOJOFuzzer, the first adaptive LLM-based fuzzing framework designed for zero-shot learning environments of emerging programming languages. MOJOFuzzer integrates a mutil-phase framework that systematically eliminates low-quality generated inputs before execution, significantly improving test case validity. Furthermore, MOJOFuzzer dynamically adapts LLM prompts based on runtime feedback for test case mutation, enabling an iterative learning process that continuously enhances fuzzing efficiency and bug detection performance. Our experimental results demonstrate that MOJOFuzzer significantly enhances test validity, API coverage, and bug detection performance, outperforming traditional fuzz testing and state-of-the-art LLM-based fuzzing approaches. Using MOJOFuzzer, we have conducted a first large-scale fuzz testing evaluation of MOJO, uncorvering 13 previous unknown bugs. This study not only advances the field of LLM-driven software testing but also establishes a foundational methodology for leveraging LLMs in the testing of emerging programming languages.
academic

LLMs are All You Need? MOJO এর জন্য Fuzz Testing উন্নত করা বড় ভাষা মডেলের সাথে

মৌলিক তথ্য

  • পেপার আইডি: 2510.10179
  • শিরোনাম: LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models
  • লেখক: Linghan Huang, Peizhou Zhao, Huaming Chen (সিডনি বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.SE (সফটওয়্যার ইঞ্জিনিয়ারিং), cs.AI (কৃত্রিম বুদ্ধিমত্তা)
  • প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10179

সারসংক্ষেপ

বড় ভাষা মডেল (LLMs) এর দ্রুত উন্নয়ন স্বয়ংক্রিয়ভাবে বৈচিত্র্যময় এবং কার্যকর পরীক্ষার ইনপুট তৈরি করে সফটওয়্যার পরীক্ষা, বিশেষত ফাজ টেস্টিং এ বিপ্লব ঘটিয়েছে। একই সাথে, MOJO একটি উচ্চ-কর্মক্ষমতা সম্পন্ন AI প্রোগ্রামিং ভাষা হিসেবে Python এর সহজবোধ্যতা এবং C/C++ এর দক্ষতা একত্রিত করে, AI মডেলের স্কেলেবিলিটি এবং প্রোগ্রামযোগ্যতা বৃদ্ধির নতুন সুযোগ প্রদান করে। তবে, একটি নতুন ভাষা হিসেবে, MOJO ব্যাপক পরীক্ষা কাঠামো এবং পর্যাপ্ত LLM প্রশিক্ষণ কর্পাস অভাব করে, যা মডেল হ্যালুসিনেশন সমস্যা বৃদ্ধি করে। এই চ্যালেঞ্জ মোকাবেলায়, এই পেপারটি MOJOFuzzer প্রস্তাব করে, যা নতুন প্রোগ্রামিং ভাষার জন্য জিরো-শট লার্নিং পরিবেশে ডিজাইন করা প্রথম অভিযোজনশীল LLM ফাজ টেস্টিং ফ্রেমওয়ার্ক। পরীক্ষামূলক ফলাফল দেখায় যে MOJOFuzzer পরীক্ষার কার্যকারিতা, API কভারেজ এবং ত্রুটি সনাক্তকরণ কর্মক্ষমতায় ঐতিহ্যবাহী ফাজ টেস্টিং এবং অত্যাধুনিক LLM-ভিত্তিক ফাজ টেস্টিং পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত, MOJO তে ১৩টি অজানা ত্রুটি সফলভাবে আবিষ্কার করেছে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণা যে মূল সমস্যা সমাধান করে তা হল নতুন প্রোগ্রামিং ভাষার ফাজ টেস্টিং চ্যালেঞ্জ, বিশেষত জিরো-শট লার্নিং পরিবেশে যেখানে পর্যাপ্ত প্রশিক্ষণ ডেটা অনুপস্থিত।

সমস্যার গুরুত্ব

১. AI উন্নয়ন চাহিদা: স্বয়ংচালিত গাড়ি, চিকিৎসা নির্ণয়, আর্থিক সেবা ইত্যাদি গুরুত্বপূর্ণ ক্ষেত্রে AI এর ব্যাপক প্রয়োগের সাথে, দক্ষ প্রোগ্রামিং ভাষার সমর্থন প্রয়োজন ২. MOJO ভাষার সম্ভাবনা: MOJO Python এর তুলনায় ৬৮,০০০ গুণ দ্রুত কর্মক্ষমতা অর্জন করতে পারে, যা AI উন্নয়নের জন্য একটি গুরুত্বপূর্ণ হাতিয়ার ३. পরীক্ষা কাঠামোর অভাব: একটি নতুন ভাষা হিসেবে, MOJO পরিপক্ক পরীক্ষা কাঠামোর অভাব করে, অসনাক্ত সফটওয়্যার ত্রুটি এবং নিরাপত্তা দুর্বলতা রয়েছে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. ঐতিহ্যবাহী LLM ফাজ টেস্টার বিশাল পরিমাণ ডোমেইন-নির্দিষ্ট প্রশিক্ষণ ডেটার উপর নির্ভর করে, নতুন ভাষায় প্রয়োগ সীমিত করে २. মডেল হ্যালুসিনেশন সমস্যা: জিরো-শট পরিবেশে, LLM সিনট্যাক্সগতভাবে সঠিক কিন্তু শব্দার্থগতভাবে ত্রুটিপূর্ণ কোড তৈরি করতে পারে ३. লক্ষ্যভিত্তিক অভাব: বিদ্যমান সরঞ্জাম MOJO ভাষার বৈশিষ্ট্যের জন্য বিশেষভাবে অপ্টিমাইজ করা হয়নি

গবেষণা প্রেরণা

MOJO ভাষার জন্য প্রথম বিশেষায়িত LLM ফাজ টেস্টিং ফ্রেমওয়ার্ক উন্নয়ন, উদ্ভাবনী প্রম্পট ইঞ্জিনিয়ারিং এবং সূক্ষ্ম-সুর প্রযুক্তির মাধ্যমে, জিরো-শট লার্নিং পরিবেশে কার্যকর ত্রুটি সনাক্তকরণ অর্জন।

মূল অবদান

१. প্রথম জিরো-শট LLM ফাজ টেস্টিং ফ্রেমওয়ার্ক: MOJOFuzzer জিরো-শট লার্নিং পরিবেশের জন্য ডিজাইন করা প্রথম LLM-চালিত ফাজ টেস্টিং ফ্রেমওয়ার্ক, কার্যকরভাবে LLM হ্যালুসিনেশন সমস্যা হ্রাস করে

२. বহু-পর্যায়ের গুণমান নিয়ন্ত্রণ প্রক্রিয়া: সিস্টেমেটিক নিম্ন-মানের ইনপুট ফিল্টারিং প্রক্রিয়া একীভূত করে, পরীক্ষার ক্ষেত্রের কার্যকারিতা উল্লেখযোগ্যভাবে উন্নত করে

३. অভিযোজনশীল পরিবর্তন কৌশল: রানটাইম প্রতিক্রিয়ার উপর ভিত্তি করে LLM প্রম্পট গতিশীলভাবে সামঞ্জস্য করে, পুনরাবৃত্তিমূলক শেখার প্রক্রিয়া বাস্তবায়ন করে

४. বাস্তব ত্রুটি আবিষ্কার: MOJO তে ১३টি অজানা ত্রুটি সফলভাবে আবিষ্কার করেছে, যার মধ্যে ৯টি অফিসিয়ালি নিশ্চিত এবং সংশোধিত হয়েছে

५. কর্মক্ষমতা উল্লেখযোগ্য উন্নতি: পরীক্ষার কার্যকারিতা (৯৮%), API কভারেজ (৭७.३%) এবং ত্রুটি সনাক্তকরণ ক্ষমতায় বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: MOJO প্রোগ্রামিং ভাষা পরিবেশ এবং সীমিত সিনট্যাক্স নিয়ম, ঐতিহাসিক ত্রুটি প্রতিবেদন আউটপুট: MOJO ত্রুটি ট্রিগার করতে পারে এমন কার্যকর পরীক্ষার ক্ষেত্র সীমাবদ্ধতা: জিরো-শট লার্নিং পরিবেশ, বিশাল MOJO-নির্দিষ্ট প্রশিক্ষণ ডেটা নেই

মডেল আর্কিটেকচার

সামগ্রিক ফ্রেমওয়ার্ক

MOJOFuzzer বহু-পর্যায়ের আর্কিটেকচার গ্রহণ করে, যাতে নিম্নলিখিত মূল উপাদান রয়েছে:

१. ডেটা প্রস্তুতি পর্যায়

  • GitHub এবং অফিসিয়াল ডকুমেন্টেশন থেকে প্রায় ३০০টি ত্রুটি প্রতিবেদন এবং १,५००টি সিনট্যাক্স নমুনা সংগ্রহ করা
  • ডেটা পরিষ্কার এবং মানক প্রক্রিয়াকরণ

२. আরম্ভকরণ পর্যায়

  • প্রম্পট ব্যাংক (Prompt Bank): কাঠামোগত প্রম্পট টেমপ্লেট সংরক্ষণ করে
  • সিড ব্যাংক (Seed Bank): পরীক্ষার বীজ উৎপাদন এবং সংরক্ষণ পরিচালনা করে

३. পরিবর্তন কৌশল

  • পরিবর্তন স্কোরিং প্রক্রিয়া: API কল সংখ্যা এবং কোড জটিলতার উপর ভিত্তি করে স্কোর গণনা করে
  • অর্ধ-পরিবর্তন (Half Mutation): উচ্চ-স্কোর বীজের জন্য কোড-স্তরের পরিবর্তন
  • সম্পূর্ণ পরিবর্তন (Full Mutation): নিম্ন-স্কোর বীজের জন্য প্রম্পট-স্তরের পরিবর্তন

মূল প্রযুক্তিগত বিবরণ

পরিবর্তন স্কোরিং সূত্র:

S_mutation = N_API + C_complexity

যেখানে:

  • N_API: API কল সংখ্যা
  • C_complexity: কোড জটিলতা স্কোর (সময় জটিলতা O(1) থেকে O(n³) এর জন্য বিভিন্ন স্কোর বরাদ্দ করা হয়)

প্রম্পট ইঞ্জিনিয়ারিং কৌশল: চেইন-অফ-থট (CoT) এবং ভূমিকা প্রম্পট প্রযুক্তি ব্যবহার করে, ৫টি মূল উপাদান অন্তর্ভুক্ত করে: १. সিনট্যাক্স বিশ্লেষণ নির্দেশনা २. ভূমিকা-ভিত্তিক কাঠামো ३. স্বয়ংক্রিয় ডেটা ফিল্টারিং ४. বিষয়বস্তু সংক্ষিপ্তকরণ ५. প্রম্পট বীজ উৎপাদন

সূক্ষ্ম-সুর কৌশল

LLAMA2 13B মডেল ব্যবহার করে দুই-পর্যায়ের সূক্ষ্ম-সুর: १. প্রথম পর্যায়: MOJO সিনট্যাক্স ডেটাসেটের উপর ভিত্তি করে ভাষা কাঠামো শিখা २. দ্বিতীয় পর্যায়: ঐতিহাসিক ত্রুটি রেকর্ডের উপর ভিত্তি করে ত্রুটি প্যাটার্ন শিখা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. জিরো-শট অভিযোজনযোগ্যতা: প্রথমবারের মতো বিশাল প্রশিক্ষণ ডেটা অভাবে কার্যকর LLM ফাজ টেস্টিং বাস্তবায়ন २. দ্বি-স্তরের পরিবর্তন প্রক্রিয়া: কোড-স্তর এবং প্রম্পট-স্তরের পরিবর্তন একত্রিত করে, পরীক্ষার বৈচিত্র্য বৃদ্ধি করে ३. অভিযোজনশীল স্কোরিং সিস্টেম: বীজ গুণমান গতিশীলভাবে মূল্যায়ন করে, সম্পদ বরাদ্দ অপ্টিমাইজ করে ४. বহু-পর্যায়ের গুণমান নিয়ন্ত্রণ: সিস্টেমেটিকভাবে নিম্ন-মানের ইনপুট ফিল্টার করে, হ্যালুসিনেশন সমস্যা হ্রাস করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • MOJO সিনট্যাক্স ডেটা: প্রায় १,५००টি সিনট্যাক্স নিয়ম এবং কোড উদাহরণ
  • ঐতিহাসিক ত্রুটি প্রতিবেদন: GitHub থেকে প্রায় ३००টি ত্রুটি রেকর্ড
  • পরীক্ষা পরিবেশ: MOJO কম্পাইলার এবং রানটাইম পরিবেশ

মূল্যায়ন মেট্রিক্স

१. অনন্য কার্যকর প্রোগ্রাম সংখ্যা: সিনট্যাক্স এবং শব্দার্থগতভাবে সঠিক পরীক্ষা প্রোগ্রামের অনুপাত २. পরিবর্তন দক্ষতা: পরীক্ষার বৈচিত্র্য, কার্যকারিতা এবং ত্রুটি সনাক্তকরণ ক্ষমতার উন্নতি ३. API কভারেজ: পরীক্ষার সময় আহ্বান করা অনন্য MOJO API ফাংশন সংখ্যা ४. সনাক্ত করা ত্রুটি সংখ্যা: আবিষ্কৃত বিভিন্ন সফটওয়্যার ত্রুটি সংখ্যা

তুলনামূলক পদ্ধতি

  • ঐতিহ্যবাহী পদ্ধতি: MojoCoder
  • LLM ফাজ টেস্টার: Fuzz4All, TitanFuzz
  • সাধারণ LLM: GPT-4o, LLAMA3-8B, LLAMA2-7B

বাস্তবায়ন বিবরণ

  • হার্ডওয়্যার প্ল্যাটফর্ম: NVIDIA A6000 Ada
  • সূক্ষ্ম-সুর প্রযুক্তি: LoRA (Low-Rank Adaptation)
  • সর্বোচ্চ পুনরাবৃত্তি সংখ্যা: १০ রাউন্ড
  • পরিবর্তন থ্রেশহোল্ড: অর্ধ-পরিবর্তন/সম্পূর্ণ পরিবর্তনের বিভাজন বিন্দু হিসেবে স্কোর ५०

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

API কভারেজ তুলনা

মডেলAPI কভারেজ
MOJOFuzzer७७.३%
Fine-tuned MojoCoder६८.२%
Fuzz4All३७.८%
TitanFuzz१७.२%
GPT-4o२५.६%

কার্যকর প্রোগ্রাম উৎপাদন হার

মডেলকার্যকর প্রোগ্রাম হার
MOJOFuzzer९८%
Mojo-Coder-it 7B६६.४%
GPT-4o~२५%
LLaMA3-8B~१०%
LLaMA2-7B~१०%

ত্রুটি আবিষ্কার ক্ষমতা

  • মোট আবিষ্কৃত ত্রুটি: १३টি অজানা ত্রুটি
  • নিশ্চিত এবং সংশোধিত: ९টি ত্রুটি MOJO দল দ্বারা নিশ্চিত এবং সংশোধিত
  • ত্রুটির ধরন: র্যান্ডম নম্বর জেনারেটর ত্রুটি, Python লাইব্রেরি ইন্টিগ্রেশন সমস্যা ইত্যাদি অন্তর্ভুক্ত

বিলোপন পরীক্ষা

বিলোপন গবেষণা তিনটি মূল উপাদানের অবদান মূল্যায়ন করেছে:

উপাদান কনফিগারেশনহ্যালুসিনেশন হারকার্যকর কোড হারশব্দার্থগত সঠিকতা
বেসলাইন४०%६०%५०%
শুধুমাত্র প্রম্পট ইঞ্জিনিয়ারিং (PE)२८%७५%६५%
শুধুমাত্র সূক্ষ্ম-সুর (FT)१५%८८%७८%
শুধুমাত্র অর্ধ-পরিবর্তন (HM)३५%६८%५५%
PE + FT८%९५%८८%
PE + FT + HM (সম্পূর্ণ)५%९८%९०%

কেস বিশ্লেষণ

আবিষ্কৃত মূল ত্রুটির উদাহরণ:

१. র্যান্ডম নম্বর জেনারেটর ত্রুটি:

  • random_si64, random_float64, random_ui64 ফাংশন সর্বদা নির্দিষ্ট মান ফেরত দেয়
  • র্যান্ডম নম্বর উৎপাদনের সঠিকতা প্রভাবিত করে

२. Python লাইব্রেরি ইন্টিগ্রেশন ত্রুটি:

  • numpy ফাংশন আহ্বানের সময় মডিউল প্রাপ্তি ব্যর্থতা ঘটে
  • MOJO এবং Python লাইব্রেরি ইন্টিগ্রেশনের অন্তর্নিহিত যুক্তি ত্রুটি প্রদর্শন করে

পরীক্ষামূলক আবিষ্কার

१. সূক্ষ্ম-সুরের গুরুত্বপূর্ণ ভূমিকা: সূক্ষ্ম-সুর হ্যালুসিনেশন সমস্যা হ্রাসের জন্য সবচেয়ে কার্যকর একক কারণ २. উপাদান সহযোগিতা প্রভাব: তিনটি উপাদান একসাথে ব্যবহার করলে সর্বোত্তম ফলাফল পাওয়া যায় ३. জিরো-শট লার্নিং সম্ভাব্যতা: বিশাল প্রশিক্ষণ ডেটা অভাবে কার্যকর পরীক্ষা পরিচালনার সম্ভাবনা প্রমাণ করে

সম্পর্কিত কাজ

LLM ফাজ টেস্টিং উন্নয়ন

१. LLM-ভিত্তিক ফাজ টেস্টার: TitanFuzz, ChatAFL, Fuzz4All ইত্যাদি বীজ উৎপাদন এবং পরিবর্তন উন্নত করতে LLM ব্যবহার করে २. সূক্ষ্ম-সুর ফাজ টেস্টার: FuzzGPT ইত্যাদি ডোমেইন-নির্দিষ্ট ডেটা দিয়ে সূক্ষ্ম-সুর করে কার্যকারিতা বৃদ্ধি করে ३. ঐতিহ্যবাহী ফাজ টেস্টিং: OSS-Fuzz ইত্যাদি ঐতিহ্যবাহী সরঞ্জাম নতুন ভাষায় সীমাবদ্ধতা

এই পেপারের সুবিধা

বিদ্যমান কাজের তুলনায়, MOJOFuzzer এর প্রধান সুবিধা: १. জিরো-শট ক্ষমতা: বিশাল প্রাক-প্রশিক্ষণ ডেটার প্রয়োজন নেই २. দ্বি-স্তরের পরিবর্তন: কোড এবং প্রম্পট স্তরে একযোগে পরিবর্তন ३. অভিযোজনশীল প্রক্রিয়া: রানটাইম প্রতিক্রিয়ার উপর ভিত্তি করে কৌশল গতিশীলভাবে সামঞ্জস্য করে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. MOJOFuzzer নতুন প্রোগ্রামিং ভাষার ফাজ টেস্টিং চ্যালেঞ্জ সফলভাবে সমাধান করেছে २. জিরো-শট LLM ফাজ টেস্টিং বাস্তব প্রয়োগে সম্ভব ३. সূক্ষ্ম-সুর, প্রম্পট ইঞ্জিনিয়ারিং এবং অভিযোজনশীল পরিবর্তন একত্রিত পদ্ধতি একক প্রযুক্তির চেয়ে উল্লেখযোগ্যভাবে উন্নত

সীমাবদ্ধতা

१. সময় কার্যকারিতা হুমকি: উন্নত LLM ক্রমান্বয়ে MOJO জ্ঞান একীভূত করার সাথে সাথে, জিরো-শট সুবিধা হ্রাস পেতে পারে २. ডেটা নির্ভরতা: এখনও ন্যূনতম পরিমাণ সিনট্যাক্স নিয়ম এবং ত্রুটি প্রতিবেদন প্রয়োজন ३. গণনা সম্পদ চাহিদা: সূক্ষ্ম-সুর এবং অনুমান প্রক্রিয়া উচ্চ গণনা খরচ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. সম্পূর্ণ স্বয়ংক্রিয়করণ: সম্পূর্ণ স্বয়ংক্রিয় ফাজ টেস্টিং দিকে উন্নয়ন २. আরও নতুন ভাষা: অন্যান্য নতুন প্রোগ্রামিং ভাষায় পদ্ধতি সম্প্রসারণ ३. প্রাক-প্রশিক্ষণ ডেটাসেট অপ্টিমাইজেশন: সীমিত প্রশিক্ষণ ডেটা আরও ভালভাবে ব্যবহার করার উপায় গবেষণা করা

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী উদ্ভাবনী: নতুন ভাষার জন্য প্রথম জিরো-শট LLM ফাজ টেস্টিং ফ্রেমওয়ার্ক २. উচ্চ ব্যবহারিক মূল্য: १३টি বাস্তব ত্রুটি সফলভাবে আবিষ্কার করেছে, পদ্ধতির কার্যকারিতা প্রমাণ করে ३. সম্পূর্ণ প্রযুক্তি সমাধান: ডেটা সংগ্রহ থেকে ত্রুটি সনাক্তকরণ পর্যন্ত সম্পূর্ণ পাইপলাইন ४. ব্যাপক পরীক্ষা: ব্যাপক তুলনামূলক পরীক্ষা এবং বিলোপন গবেষণা অন্তর্ভুক্ত ५. স্পষ্ট লেখা: প্রযুক্তিগত বিবরণ সঠিকভাবে বর্ণিত, পরীক্ষা ডিজাইন যুক্তিসঙ্গত

অপূর্ণতা

१. সীমিত মূল্যায়ন পরিসর: প্রধানত MOJO ভাষার উপর ফোকাস করে, সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায় २. বেসলাইন তুলনা: কিছু বেসলাইন পদ্ধতি সর্বোত্তম পছন্দ নাও হতে পারে ३. দীর্ঘমেয়াদী কার্যকারিতা: MOJO ইকোসিস্টেম পরিপক্ক হওয়ার সাথে সাথে, পদ্ধতির সুবিধা হ্রাস পেতে পারে ४. গণনা খরচ বিশ্লেষণ: বিস্তারিত গণনা সম্পদ খরচ বিশ্লেষণের অভাব

প্রভাব

१. একাডেমিক অবদান: নতুন ভাষা পরীক্ষার জন্য গুরুত্বপূর্ণ পদ্ধতিগত ভিত্তি প্রদান করেছে २. ব্যবহারিক মূল্য: সরাসরি MOJO ভাষা উন্নতিতে সহায়তা করেছে, তাৎক্ষণিক প্রভাব রয়েছে ३. পুনরুৎপাদনযোগ্যতা: লেখকরা কোড এবং ডেটা ওপেন-সোর্স করার প্রতিশ্রুতি দিয়েছেন, পরবর্তী গবেষণা সহজতর করে ४. ক্ষেত্র অগ্রগতি: নতুন উদীয়মান প্রযুক্তির জন্য আরও AI পরীক্ষা পদ্ধতি তৈরি করতে পারে

প্রযোজ্য পরিস্থিতি

१. নতুন প্রোগ্রামিং ভাষা: পরিপক্ক পরীক্ষা কাঠামোর অভাব করে এমন প্রোগ্রামিং ভাষা २. জিরো-শট পরীক্ষা পরিবেশ: প্রশিক্ষণ ডেটা বিরল পরীক্ষা পরিস্থিতি ३. AI সিস্টেম পরীক্ষা: দক্ষ পরীক্ষা সরঞ্জাম প্রয়োজন এমন AI উন্নয়ন পরিবেশ ४. নিরাপত্তা-গুরুত্বপূর্ণ সিস্টেম: সম্ভাব্য ত্রুটি আবিষ্কার প্রয়োজন এমন গুরুত্বপূর্ণ প্রয়োগ

সংদর্ভ

পেপারটি ৫८টি সম্পর্কিত সংদর্ভ উদ্ধৃত করেছে, যা LLM, ফাজ টেস্টিং, সফটওয়্যার ইঞ্জিনিয়ারিং ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের সফটওয়্যার ইঞ্জিনিয়ারিং গবেষণা পেপার, যা বাস্তব সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে, কঠোর পরীক্ষা ডিজাইন এবং বিশ্বাসযোগ্য ফলাফল সহ। এই কাজ শুধুমাত্র প্রযুক্তিগতভাবে অগ্রগামী নয়, বরং নতুন প্রযুক্তির পরীক্ষার জন্য একটি কার্যকর পদ্ধতিগত ভিত্তি প্রদান করে, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।