2025-11-20T05:01:15.151274

LOOPerSet: A Large-Scale Dataset for Data-Driven Polyhedral Compiler Optimization

Merouani, Boudaoud, Baghdadi
The advancement of machine learning for compiler optimization, particularly within the polyhedral model, is constrained by the scarcity of large-scale, public performance datasets. This data bottleneck forces researchers to undertake costly data generation campaigns, slowing down innovation and hindering reproducible research learned code optimization. To address this gap, we introduce LOOPerSet, a new public dataset containing 28 million labeled data points derived from 220,000 unique, synthetically generated polyhedral programs. Each data point maps a program and a complex sequence of semantics-preserving transformations (such as fusion, skewing, tiling, and parallelism)to a ground truth performance measurement (execution time). The scale and diversity of LOOPerSet make it a valuable resource for training and evaluating learned cost models, benchmarking new model architectures, and exploring the frontiers of automated polyhedral scheduling. The dataset is released under a permissive license to foster reproducible research and lower the barrier to entry for data-driven compiler optimization.
academic

LOOPerSet: ডেটা-চালিত পলিহেড্রাল কম্পাইলার অপটিমাইজেশনের জন্য একটি বৃহৎ-স্কেল ডেটাসেট

মৌলিক তথ্য

  • পেপার আইডি: 2510.10209
  • শিরোনাম: LOOPerSet: ডেটা-চালিত পলিহেড্রাল কম্পাইলার অপটিমাইজেশনের জন্য একটি বৃহৎ-স্কেল ডেটাসেট
  • লেখক: মাসিনিসা মেরোয়ানি, আফিফ বুদাউদ, রিয়াদ বাগদাদি (নিউইয়র্ক বিশ্ববিদ্যালয় আবু ধাবি)
  • শ্রেণীবিভাগ: cs.PL (প্রোগ্রামিং ভাষা), cs.LG (মেশিন লার্নিং), cs.PF (কর্মক্ষমতা)
  • প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10209

সারসংক্ষেপ

পলিহেড্রাল মডেলে মেশিন লার্নিং কম্পাইলার অপটিমাইজেশনের উন্নয়ন বৃহৎ-স্কেল জনসাধারণের কর্মক্ষমতা ডেটাসেটের স্বল্পতা দ্বারা সীমাবদ্ধ। এই ডেটা বাধা গবেষকদের ব্যয়বহুল ডেটা উৎপাদন কার্যক্রম পরিচালনা করতে বাধ্য করে, যা উদ্ভাবনের গতি হ্রাস করে এবং পুনরুৎপাদনযোগ্য কোড অপটিমাইজেশন গবেষণায় বাধা সৃষ্টি করে। এই সমস্যা সমাধানের জন্য, লেখকরা LOOPerSet প্রবর্তন করেছেন, যা ২২ লক্ষ অনন্য সংশ্লেষিত উৎপাদিত পলিহেড্রাল প্রোগ্রাম থেকে উদ্ভূত ২.৮ কোটি লেবেলযুক্ত ডেটা পয়েন্ট সহ একটি নতুন জনসাধারণের ডেটাসেট। প্রতিটি ডেটা পয়েন্ট প্রোগ্রাম এবং জটিল শব্দার্থগত সংরক্ষণকারী রূপান্তর ক্রম (যেমন সংমিশ্রণ, তির্যক, খণ্ডীকরণ এবং সমান্তরালকরণ) বাস্তব কর্মক্ষমতা পরিমাপের সাথে (সম্পাদন সময়) ম্যাপ করে। LOOPerSet এর স্কেল এবং বৈচিত্র্য এটিকে শেখার খরচ মডেল প্রশিক্ষণ এবং মূল্যায়ন, নতুন মডেল আর্কিটেকচার বেঞ্চমার্কিং এবং স্বয়ংক্রিয় পলিহেড্রাল সময়সূচীর সীমান্ত অন্বেষণের জন্য একটি মূল্যবান সম্পদ করে তোলে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

পলিহেড্রাল মডেল জটিল লুপ রূপান্তর প্রকাশ এবং প্রয়োগের জন্য একটি শক্তিশালী কাঠামো প্রদান করে, যা বৈজ্ঞানিক গণনা এবং উচ্চ-কর্মক্ষমতা অ্যাপ্লিকেশন অপটিমাইজেশনের জন্য গুরুত্বপূর্ণ। তবে, প্রধান চ্যালেঞ্জ হল বৈধ রূপান্তর ক্রমের বিশাল অনুসন্ধান স্থানে নেভিগেট করা এবং প্রদত্ত হার্ডওয়্যার লক্ষ্যে সর্বোত্তম কর্মক্ষমতা প্রদানকারী রূপান্তর ক্রম খুঁজে পাওয়া।

সমস্যার গুরুত্ব

১. ঐতিহ্যবাহী পদ্ধতির সীমাবদ্ধতা: বিদ্যমান বিশ্লেষণাত্মক খরচ মডেল এবং অনুমানী পদ্ধতিগুলি যদিও সার্বজনীন এবং পরিচালনাযোগ্য, অপটিমাইজেশন এবং অন্তর্নিহিত সিস্টেমের মধ্যে সূক্ষ্ম অ-রৈখিক মিথস্ক্রিয়া ক্যাপচার করতে অসুবিধা পায় ২. ডেটা-চালিত পদ্ধতির সম্ভাবনা: মেশিন লার্নিং পদ্ধতি বৃহৎ পরিমাণ কর্মক্ষমতা ডেটা দ্বারা প্রশিক্ষিত হয়ে বাস্তব হার্ডওয়্যারে রূপান্তর খরচ-সুবিধার আরও সূক্ষ্ম বোঝাপড়া বিকাশ করতে পারে ३. ডেটা স্বল্পতা বাধা: বৃহৎ-স্কেল জনসাধারণের কর্মক্ষমতা ডেটাসেটের অভাব ডেটা-চালিত কম্পাইলার অপটিমাইজেশন গবেষণাকে গুরুতরভাবে সীমাবদ্ধ করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. ডেটা উৎপাদন খরচ বেশি: গবেষণা দলগুলিকে ব্যয়বহুল এবং সময়সাপেক্ষ ডেটা উৎপাদন কার্যক্রম পরিচালনা করতে হয় २. দুর্বল পুনরুৎপাদনযোগ্যতা: জনসাধারণের ডেটাসেটের অভাব কঠোর পদ্ধতি তুলনায় বাধা সৃষ্টি করে ३. উচ্চ গবেষণা প্রবেশদ্বার: উচ্চ ডেটা সংগ্রহ খরচ সম্ভাব্য অবদানকারীদের ক্ষেত্রে প্রবেশ থেকে বাধা দেয়

মূল অবদান

१. বৃহৎ-স্কেল জনসাধারণ ডেটাসেট: ২২ লক্ষ অনন্য সংশ্লেষিত পলিহেড্রাল প্রোগ্রাম থেকে উদ্ভূত ২.৮ কোটি লেবেলযুক্ত ডেটা পয়েন্ট সহ LOOPerSet ডেটাসেট নির্মাণ २. বৈচিত্র্য নিশ্চিতকরণ: বহু-পর্যায়ের র্যান্ডমাইজেশন প্রোগ্রাম জেনারেটরের মাধ্যমে কাঠামোগত বৈচিত্র্য নিশ্চিত করা, নির্দিষ্ট বেঞ্চমার্কের প্রতি পক্ষপাত এড়ানো ३. প্রাসঙ্গিকতা-নির্দেশিত নমুনা: প্রাসঙ্গিকতা-গাইডেড রূপান্তর স্থান নমুনা কৌশল গ্রহণ করা, ডেটাসেটে প্রকৃত দরকারী অপটিমাইজেশন ক্রম অন্তর্ভুক্ত নিশ্চিত করা ४. কঠোর যাচাইকরণ: মান-সংরক্ষিত গাছ সম্পাদনা দূরত্ব ইত্যাদি পরিমাণগত পদ্ধতির মাধ্যমে ডেটাসেটের বৈচিত্র্য এবং নতুনত্ব যাচাই করা ५. খোলা অ্যাক্সেস: উদার লাইসেন্সের অধীনে প্রকাশ করা, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করা এবং ডেটা-চালিত কম্পাইলার অপটিমাইজেশনের প্রবেশদ্বার হ্রাস করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি বৃহৎ-স্কেল, বৈচিত্র্যময় ডেটাসেট নির্মাণ করা, যেখানে প্রতিটি ডেটা পয়েন্ট অন্তর্ভুক্ত করে:

  • ইনপুট: পলিহেড্রাল প্রোগ্রাম প্রতিনিধিত্ব + রূপান্তর ক্রম
  • আউটপুট: বাস্তব হার্ডওয়্যারে কর্মক্ষমতা পরিমাপ (সম্পাদন সময়)
  • সীমাবদ্ধতা: সমস্ত রূপান্তর শব্দার্থগত সঠিকতা সংরক্ষণ করতে হবে

ডেটা উৎপাদন পাইপলাইন

१. প্রোগ্রাম স্থান নমুনা: সংশ্লেষিত প্রোগ্রাম জেনারেটর

বহু-পর্যায়ের র্যান্ডমাইজেশন প্রক্রিয়া:

লুপ কাঠামো উৎপাদন:

  • শীর্ষ-স্তরের লুপ নেস্টিং সংখ্যা সম্ভাব্যতামূলকভাবে নির্ধারণ করা
  • প্রতিটি নেস্টিংয়ের কাঠামো পুনরাবৃত্তিমূলকভাবে নির্মাণ করা
  • আয়তক্ষেত্রাকার এবং অ-আয়তক্ষেত্রাকার (ত্রিভুজাকার, ট্র্যাপেজয়েড) পুনরাবৃত্তি ডোমেইন উৎপাদন করা
  • লুপ সীমানা ধ্রুবক বা বাহ্যিক লুপ পুনরাবৃত্তিকারীর ফাংশন হতে পারে

গণনা স্থাপনা এবং ক্রম:

  • লুপ নেস্টিংয়ে গণনা র্যান্ডমভাবে স্থাপন করা
  • একই স্তরে গণনা এবং সাব-নেস্টিং আন্তঃসংযুক্ত করা যেতে পারে
  • প্রতিটি গণনার জন্য ডেটা প্রকার বরাদ্দ করা (३२/६४-বিট ফ্লোটিং পয়েন্ট বা পূর্ণসংখ্যা)

মেমরি অ্যাক্সেস এবং অভিব্যক্তি উৎপাদন:

  • মেমরি প্যাটার্ন: বৈচিত্র্যময় মেমরি অ্যাক্সেস প্যাটার্ন তৈরি করা, সাধারণ পরিচয় ম্যাপিং থেকে জটিল বহু-মাত্রিক টেমপ্লেট (তারকা, ক্রস) এবং ধ্রুবক অফসেট অ্যাক্সেস পর্যন্ত
  • পাটিগণিত অভিব্যক্তি: অভিব্যক্তি গাছ র্যান্ডমভাবে সংমিশ্রণ করে গণনা যুক্তি তৈরি করা, মেমরি অ্যাক্সেস এবং স্কেলার মান একত্রিত করা, সাধারণ পাটিগণিত অপারেটর এবং গাণিতিক ফাংশন ব্যবহার করা

সামঞ্জস্য এবং যাচাইকরণ পরীক্ষা:

  • তুচ্ছ কাজ সনাক্ত এবং প্রতিরোধ করা (গণনা অপ্রয়োজনীয় লুপ, মৃত লেখা ইত্যাদি)
  • সংশ্লেষিত প্রোগ্রাম বাক্যতাত্ত্বিক এবং গণনামূলকভাবে অর্থপূর্ণ নিশ্চিত করা

२. রূপান্তর স্থান নমুনা: প্রাসঙ্গিকতা-নির্দেশিত অন্বেষণ

LOOPer স্বয়ংক্রিয় সময়সূচীর সম্পাদন-গাইডেড অনুসন্ধান প্রক্রিয়া ব্যবহার করে বান্ডেল অনুসন্ধান পরিচালনা করা, মূল পলিহেড্রাল অপটিমাইজেশনের প্রতিশ্রুতিশীল ক্রম অন্বেষণ করা:

  • লুপ সংমিশ্রণ (Loop Fusion)
  • তির্যক (Skewing)
  • বিনিময় (Interchange)
  • বিপরীতকরণ (Reversal)
  • খণ্ডীকরণ (Tiling)
  • সমান্তরালকরণ (Parallelization)
  • প্রসারণ (Unrolling)

বৈধতা যাচাইকরণ: মান পলিহেড্রাল নির্ভরতা বিশ্লেষণ ব্যবহার করে সমস্ত রূপান্তর ক্রম শব্দার্থগত সঠিকতা সংরক্ষণ নিশ্চিত করা।

३. কর্মক্ষমতা লেবেল উৎপাদন

  • Tiramisu কম্পাইলার ফ্রেমওয়ার্ক ব্যবহার করে সম্পাদনযোগ্য ফাইল উৎপাদন করা
  • দ্বি-সকেট Intel Xeon E5-2695 v2 প্রসেসর সিস্টেমে সম্পাদন করা
  • পরিমাপ স্থিতিশীলতা নিশ্চিত করতে প্রতিটি প্রোগ্রাম সংস্করণ সর্বোচ্চ ३০ বার সম্পাদন করা
  • সিস্টেম শব্দ মোকাবেলা করতে সম্পূর্ণ সম্পাদন সময় তালিকা রেকর্ড করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. কাঠামোগত বৈচিত্র্য সর্বাধিকীকরণ: পুনরাবৃত্তিমূলক সম্ভাব্যতামূলক উৎপাদন প্রক্রিয়ার মাধ্যমে প্রোগ্রাম কাঠামোর বিস্তৃত কভারেজ নিশ্চিত করা २. প্রাসঙ্গিকতা-নির্দেশিত নমুনা: র্যান্ডম নমুনার অদক্ষতা এড়ানো, প্রকৃত কম্পাইলার বিবেচনা করবে এমন রূপান্তর ক্রমে ফোকাস করা ३. পরিমাণগত বৈচিত্র্য যাচাইকরণ: মান-সংরক্ষিত গাছ সম্পাদনা দূরত্ব ইত্যাদি আনুষ্ঠানিক পদ্ধতি ব্যবহার করে ডেটাসেট গুণমান যাচাই করা ४. হার্ডওয়্যার অভিযোজনযোগ্যতা ডিজাইন: প্রাক-প্রশিক্ষণ এবং স্থানান্তর শেখা সমর্থন করা, নতুন আর্কিটেকচার অভিযোজন খরচ হ্রাস করা

পরীক্ষামূলক সেটআপ

ডেটাসেট স্কেল

  • মোট প্রোগ্রাম সংখ্যা: প্রায় २२ লক্ষ অনন্য প্রোগ্রাম
  • মোট ডেটা পয়েন্ট: ২.८ কোটিরও বেশি লেবেলযুক্ত উদাহরণ
  • প্রতি প্রোগ্রাম সময়সূচী: মধ্যমা ७०
  • ডেটা উৎপাদন কর্মপরিমাণ: প্রায় ७.१ লক্ষ CPU ঘণ্টা
  • ত্বরণ পরিসীমা: ०.०००४× থেকে १२३०×

হার্ডওয়্যার প্ল্যাটফর্ম

  • লক্ষ্য আর্কিটেকচার: দ্বি-সকেট Intel Xeon E5-2695 v2 প্রসেসর সিস্টেম
  • পরিমাপ পদ্ধতি: প্রতিটি প্রোগ্রাম সংস্করণ সর্বোচ্চ ३० বার সম্পাদন করা, সম্পাদন সময় বিতরণ রেকর্ড করা

যাচাইকরণ পদ্ধতি

  • কাঠামোগত সাদৃশ্য: মান-সংরক্ষিত গাছ সম্পাদনা দূরত্ব (nTED) ব্যবহার করে প্রোগ্রামের মধ্যে কাঠামোগত সাদৃশ্য পরিমাপ করা
  • বেঞ্চমার্ক তুলনা: PolyBench স্যুটের সাথে পরিমাণগত তুলনা বিশ্লেষণ
  • বৈশিষ্ট্য স্থান বিশ্লেষণ: প্রধান উপাদান বিশ্লেষণ (PCA) ব্যবহার করে २० মাত্রার বৈশিষ্ট্য স্থানের ভিজ্যুয়ালাইজেশন

পরীক্ষামূলক ফলাফল

ডেটাসেট পরিসংখ্যান বৈশিষ্ট্য

কাঠামোগত বৈচিত্র্য:

  • १४% প্রোগ্রামে কমপক্ষে একটি অ-আয়তক্ষেত্রাকার পুনরাবৃত্তি ডোমেইন রয়েছে
  • লুপ গভীরতা, মেমরি রেফারেন্স প্যাটার্ন এবং শাখা ফ্যাক্টর দীর্ঘ-লেজ বিতরণ উপস্থাপন করে
  • মেমরি দখল, ভিত্তিরেখা সম্পাদন সময় এবং মোট পুনরাবৃত্তি ডোমেইন ভলিউম একাধিক পরিমাণ জুড়ে বিস্তৃত

কর্মক্ষমতা বিতরণ:

  • পরিমাপ করা ত্বরণ অনুপাত ১.०× এর চারপাশে কেন্দ্রীভূত একটি তীক্ষ্ণ বিতরণ উপস্থাপন করে
  • ডান লেজ দক্ষ রূপান্তর ক্রমের অস্তিত্ব প্রদর্শন করে
  • বাম লেজ ক্ষতিকারক সময়সূচী ক্যাপচার করে

বৈচিত্র্য যাচাইকরণ ফলাফল

PolyBench এর সাথে তুলনা:

  • কোন পুনরাবৃত্তি নিশ্চিতকরণ: ন্যূনতম nTED দূরত্ব কখনও শূন্য নয়, সবচেয়ে সমান seidel-2d (nTED=०.०२२)
  • বিস্তৃত কাঠামো স্থান: সংশ্লেষিত প্রোগ্রাম এবং বেঞ্চমার্কের মধ্যে মধ্যমা দূরত্ব (०.५३७) PolyBench অভ্যন্তরীণ মধ্যমা দূরত্ব (०.४६७) এর চেয়ে বেশি
  • বৈশিষ্ট্য স্থান কভারেজ: PCA ভিজ্যুয়ালাইজেশন PolyBench প্রোগ্রাম LOOPerSet বৈশিষ্ট্য ক্লাউডের ঘন অঞ্চলে অবস্থিত দেখায়

বিতরণ তুলনা:

  • ক্রমবর্ধমান বিতরণ ফাংশন সংশ্লেষিত প্রোগ্রাম এবং বেঞ্চমার্কের মধ্যে দূরত্ব বিতরণ বেঞ্চমার্ক অভ্যন্তরীণ দূরত্ব বিতরণের চেয়ে ক্রমাগত কম দেখায়
  • LOOPerSet বিদ্যমান বেঞ্চমার্কের চেয়ে বিস্তৃত এবং আরও বৈচিত্র্যময় কাঠামো স্থান অন্বেষণ করেছে তা নির্দেশ করে

সম্পর্কিত কাজ

পলিহেড্রাল কম্পাইলার অপটিমাইজেশন

  • ঐতিহ্যবাহী পদ্ধতি: PLUTO, PolyOpt, GRAPHITE ইত্যাদি বিশ্লেষণাত্মক খরচ মডেল-ভিত্তিক পদ্ধতি
  • শেখার পদ্ধতি: Tiramisu স্বয়ংক্রিয় সময়সূচী, TVM/Ansor, Halide অপটিমাইজার ইত্যাদি ডেটা-চালিত পদ্ধতি

কর্মক্ষমতা ডেটাসেট

  • বিদ্যমান সীমাবদ্ধতা: বৃহৎ-স্কেল জনসাধারণের পলিহেড্রাল অপটিমাইজেশন কর্মক্ষমতা ডেটাসেটের অভাব
  • সম্পর্কিত সম্পদ: TpuGraphs ইত্যাদি টেনসর গণনা গ্রাফ কর্মক্ষমতা পূর্বাভাস ডেটাসেট

প্রোগ্রাম সংশ্লেষণ

  • বেঞ্চমার্ক: PolyBench ইত্যাদি মান বেঞ্চমার্ক স্যুটের সীমাবদ্ধতা
  • সংশ্লেষণ পদ্ধতি: কম্পাইলার গবেষণায় র্যান্ডম প্রোগ্রাম উৎপাদনের প্রয়োগ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ডেটা বাধা সমাধান: LOOPerSet পলিহেড্রাল কম্পাইলার অপটিমাইজেশন গবেষণায় ডেটা স্বল্পতার সমস্যা কার্যকরভাবে সমাধান করে २. গুণমান নিশ্চিতকরণ: কঠোর বৈচিত্র্য বিশ্লেষণ এবং প্রাসঙ্গিকতা-নির্দেশিত নমুনার মাধ্যমে ডেটাসেট গুণমান নিশ্চিত করা ३. সম্প্রদায় সম্পদ: গবেষণা সম্প্রদায়কে অবিলম্বে ব্যবহারযোগ্য বৃহৎ-স্কেল বেঞ্চমার্ক প্ল্যাটফর্ম প্রদান করা

সীমাবদ্ধতা

१. হার্ডওয়্যার নির্দিষ্টতা: কর্মক্ষমতা লেবেল Intel Xeon E5-2695 v2 আর্কিটেকচারের জন্য নির্দিষ্ট २. সংশ্লেষিত প্রোগ্রাম সীমাবদ্ধতা: যদিও বৈচিত্র্যময়, সমস্ত বাস্তব-বিশ্ব প্রোগ্রাম প্যাটার্ন সম্পূর্ণরূপে কভার করতে পারে না ३. রূপান্তর স্থান: LOOPer সিস্টেম দ্বারা সমর্থিত রূপান্তর প্রকারের সীমাবদ্ধ

ভবিষ্যত দিকনির্দেশনা

१. ক্রস-আর্কিটেকচার সম্প্রসারণ: GPU এবং অন্যান্য CPU মাইক্রোআর্কিটেকচারে কর্মক্ষমতা লেবেল উৎপাদন করা २. স্থানান্তর শেখা গবেষণা: শূন্য-শট বা কম-শট সাধারণীকরণ গবেষণা করতে ডেটাসেট ব্যবহার করা ३. নতুন মডেল আর্কিটেকচার: GNN, Transformer ইত্যাদি নতুন খরচ মডেল আর্কিটেকচার অন্বেষণ করা ४. ব্যাখ্যাযোগ্যতা গবেষণা: মডেল ব্যর্থতা প্যাটার্ন বিশ্লেষণ করা, সাধারণীকরণ ক্ষমতা উন্নত করা

গভীর মূল্যায়ন

সুবিধা

१. অভূতপূর্ব স্কেল: २.८ কোটি ডেটা পয়েন্টের স্কেল এই ক্ষেত্রে অভূতপূর্ব २. পদ্ধতি কঠোর: বহু-পর্যায়ের উৎপাদন পাইপলাইন এবং পরিমাণগত যাচাইকরণ পদ্ধতি বৈজ্ঞানিকভাবে কঠোর ३. উচ্চ ব্যবহারিক মূল্য: প্রাসঙ্গিকতা-নির্দেশিত নমুনা ডেটাসেটের প্রকৃত প্রয়োগ মূল্য নিশ্চিত করে ४. শক্তিশালী খোলাপন: CC-BY ४.० লাইসেন্স এবং Hugging Face প্ল্যাটফর্ম সহজ অ্যাক্সেসযোগ্যতা নিশ্চিত করে ५. পুনরুৎপাদনযোগ্যতা: বিস্তারিত ডেটা ফর্ম্যাট বর্ণনা এবং সরঞ্জাম সমর্থন

অপূর্ণতা

१. আর্কিটেকচার নির্ভরতা: কর্মক্ষমতা লেবেল একক হার্ডওয়্যার প্ল্যাটফর্মে সীমাবদ্ধ २. সীমিত যাচাইকরণ: বাস্তব অ্যাপ্লিকেশনে যাচাইকরণের অভাব ३. উৎপাদন পক্ষপাত: সংশ্লেষিত প্রোগ্রাম সিস্টেমগত পক্ষপাত থাকতে পারে ४. রূপান্তর কভারেজ: রূপান্তর প্রকার বিদ্যমান সরঞ্জাম সমর্থন দ্বারা সীমাবদ্ধ

প্রভাব

१. একাডেমিক অবদান: ডেটা-চালিত কম্পাইলার অপটিমাইজেশন গবেষণার জন্য অবকাঠামো প্রদান করা २. ব্যবহারিক মূল্য: নতুন গবেষকদের প্রবেশদ্বার উল্লেখযোগ্যভাবে হ্রাস করা ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি তুলনা এবং ফলাফল পুনরুৎপাদন প্রচার করা ४. দীর্ঘমেয়াদী প্রভাব: সম্ভবত এই ক্ষেত্রকে আরও ডেটা-চালিত দিকে চালিত করা

প্রযোজ্য দৃশ্যকল্প

१. খরচ মডেল প্রশিক্ষণ: বিভিন্ন মেশিন লার্নিং খরচ মডেল প্রশিক্ষণ এবং মূল্যায়ন করা २. আর্কিটেকচার তুলনা: বিভিন্ন মডেল আর্কিটেকচার এবং বৈশিষ্ট্যকরণ পদ্ধতি বেঞ্চমার্ক করা ३. স্থানান্তর শেখা: নতুন আর্কিটেকচার অভিযোজন সমর্থন করতে প্রাক-প্রশিক্ষণ ডেটাসেট হিসাবে কাজ করা ४. অনুমানী আবিষ্কার: ডেটা খনন মাধ্যমে নতুন কম্পাইলার অনুমানী আবিষ্কার করা ५. ব্যাখ্যাযোগ্যতা গবেষণা: মডেল আচরণ এবং ব্যর্থতা প্যাটার্ন বিশ্লেষণ করা

ডেটাসেট অ্যাক্সেস তথ্য

  • অ্যাক্সেস ঠিকানা: https://huggingface.co/datasets/Mascinissa/LOOPerSet
  • ডেটা ফর্ম্যাট: JSON Lines (.jsonl)
  • লাইসেন্স চুক্তি: Creative Commons Attribution 4.0 International (CC-BY 4.0)
  • সংস্করণ নির্বাচন:
    • সম্পূর্ণ সংস্করণ: २.८ কোটি ডেটা পয়েন্ট
    • সংক্ষিপ্ত সংস্করণ: १ কোটি ডেটা পয়েন্ট (LOOPer পেপার পরীক্ষার সাথে সামঞ্জস্যপূর্ণ)

LOOPerSet ডেটাসেট পলিহেড্রাল কম্পাইলার অপটিমাইজেশন গবেষণা ক্ষেত্রে একটি গুরুত্বপূর্ণ মাইলফলক প্রতিনিধিত্ব করে, বৃহৎ-স্কেল, উচ্চ-মানের জনসাধারণ ডেটাসেট প্রদান করে, এই ক্ষেত্রের উন্নয়ন উল্লেখযোগ্যভাবে চালিত করতে এবং গবেষণা প্রবেশদ্বার হ্রাস করতে প্রতিশ্রুতিশীল। এর কঠোর নির্মাণ পদ্ধতি এবং খোলা অ্যাক্সেস পদ্ধতি এটিকে ভবিষ্যত সম্পর্কিত গবেষণার জন্য একটি মূল্যবান সম্পদ করে তোলে।