2025-11-20T05:01:15.151274

LOOPerSet: A Large-Scale Dataset for Data-Driven Polyhedral Compiler Optimization

Merouani, Boudaoud, Baghdadi
The advancement of machine learning for compiler optimization, particularly within the polyhedral model, is constrained by the scarcity of large-scale, public performance datasets. This data bottleneck forces researchers to undertake costly data generation campaigns, slowing down innovation and hindering reproducible research learned code optimization. To address this gap, we introduce LOOPerSet, a new public dataset containing 28 million labeled data points derived from 220,000 unique, synthetically generated polyhedral programs. Each data point maps a program and a complex sequence of semantics-preserving transformations (such as fusion, skewing, tiling, and parallelism)to a ground truth performance measurement (execution time). The scale and diversity of LOOPerSet make it a valuable resource for training and evaluating learned cost models, benchmarking new model architectures, and exploring the frontiers of automated polyhedral scheduling. The dataset is released under a permissive license to foster reproducible research and lower the barrier to entry for data-driven compiler optimization.
academic

LOOPerSet: डेटा-संचालित पॉलीहेड्रल कंपाइलर अनुकूलन के लिए एक बड़े पैमाने पर डेटासेट

बुनियादी जानकारी

  • पेपर ID: 2510.10209
  • शीर्षक: LOOPerSet: डेटा-संचालित पॉलीहेड्रल कंपाइलर अनुकूलन के लिए एक बड़े पैमाने पर डेटासेट
  • लेखक: Massinissa Merouani, Afif Boudaoud, Riyadh Baghdadi (न्यूयॉर्क विश्वविद्यालय अबू धाबी)
  • वर्गीकरण: cs.PL (प्रोग्रामिंग भाषाएं), cs.LG (मशीन लर्निंग), cs.PF (प्रदर्शन)
  • प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10209

सारांश

पॉलीहेड्रल मॉडल में मशीन लर्निंग कंपाइलर अनुकूलन के विकास को बड़े पैमाने पर सार्वजनिक प्रदर्शन डेटासेट की कमी से बाधित किया जा रहा है। यह डेटा बाधा शोधकर्ताओं को महंगी डेटा पीढ़ी गतिविधियों में संलग्न होने के लिए मजबूर करती है, जो नवाचार को धीमा करती है और पुनरुत्पादनीय कोड अनुकूलन अनुसंधान में बाधा डालती है। इस समस्या को हल करने के लिए, लेखकों ने LOOPerSet का परिचय दिया है, जो 2.8 करोड़ लेबल किए गए डेटा बिंदुओं वाला एक नया सार्वजनिक डेटासेट है, जो 22 लाख अद्वितीय सिंथेटिक रूप से उत्पन्न पॉलीहेड्रल प्रोग्राम से प्राप्त है। प्रत्येक डेटा बिंदु प्रोग्राम और जटिल शब्दार्थ-संरक्षण परिवर्तन अनुक्रमों (जैसे फ्यूजन, स्क्यूइंग, टाइलिंग और समानांतरीकरण) को वास्तविक प्रदर्शन माप (निष्पादन समय) से मैप करता है। LOOPerSet का पैमाना और विविधता इसे लागत मॉडल प्रशिक्षण, नई मॉडल आर्किटेक्चर की बेंचमार्किंग और स्वचालित पॉलीहेड्रल शेड्यूलिंग की सीमाओं की खोज के लिए एक मूल्यवान संसाधन बनाती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

पॉलीहेड्रल मॉडल जटिल लूप परिवर्तनों को व्यक्त करने और लागू करने के लिए एक शक्तिशाली ढांचा प्रदान करता है, जो वैज्ञानिक कंप्यूटिंग और उच्च-प्रदर्शन अनुप्रयोगों के अनुकूलन के लिए महत्वपूर्ण है। हालांकि, मुख्य चुनौती यह है कि कानूनी परिवर्तन अनुक्रमों के विशाल खोज स्थान में नेविगेट कैसे करें और दिए गए हार्डवेयर लक्ष्य पर सर्वोत्तम प्रदर्शन प्रदान करने वाले परिवर्तन अनुक्रम को खोजें।

समस्या की महत्ता

  1. पारंपरिक विधियों की सीमाएं: मौजूदा विश्लेषणात्मक लागत मॉडल और अनुमानी विधियां, हालांकि सामान्य और प्रबंधनीय हैं, अनुकूलन और अंतर्निहित प्रणाली के बीच सूक्ष्म गैर-रैखिक इंटरैक्शन को पकड़ना मुश्किल है
  2. डेटा-संचालित विधियों की क्षमता: मशीन लर्निंग विधियां बड़ी मात्रा में प्रदर्शन डेटा के साथ प्रशिक्षण के माध्यम से वास्तविक हार्डवेयर पर परिवर्तन लागत-प्रभावशीलता की अधिक सूक्ष्म समझ विकसित कर सकती हैं
  3. डेटा की कमी की बाधा: बड़े पैमाने पर सार्वजनिक प्रदर्शन डेटासेट की कमी डेटा-संचालित कंपाइलर अनुकूलन अनुसंधान को गंभीर रूप से बाधित करती है

मौजूदा विधियों की सीमाएं

  1. डेटा पीढ़ी की उच्च लागत: अनुसंधान दल को महंगी और समय-गहन डेटा पीढ़ी गतिविधियों में संलग्न होना पड़ता है
  2. खराब पुनरुत्पादनीयता: सार्वजनिक डेटासेट की कमी कठोर विधि तुलना में बाधा डालती है
  3. उच्च अनुसंधान बाधा: उच्च डेटा संग्रह लागत संभावित योगदानकर्ताओं को क्षेत्र में प्रवेश करने से रोकती है

मुख्य योगदान

  1. बड़े पैमाने पर सार्वजनिक डेटासेट: 2.8 करोड़ लेबल किए गए डेटा बिंदुओं वाला LOOPerSet डेटासेट बनाया गया, जो 22 लाख अद्वितीय सिंथेटिक पॉलीहेड्रल प्रोग्राम से प्राप्त है
  2. विविधता सुनिश्चितता: बहु-चरणीय यादृच्छिकीकरण प्रोग्राम जनरेटर के माध्यम से संरचनात्मक विविधता सुनिश्चित करता है, विशिष्ट बेंचमार्क के प्रति पूर्वाग्रह से बचता है
  3. प्रासंगिकता-निर्देशित नमूनाकरण: परिवर्तन स्थान नमूनाकरण के लिए प्रासंगिकता-निर्देशित रणनीति अपनाता है, यह सुनिश्चित करता है कि डेटासेट में व्यावहारिक रूप से उपयोगी अनुकूलन अनुक्रम शामिल हैं
  4. कठोर सत्यापन: मानकीकृत ट्री संपादन दूरी जैसी मात्रात्मक विधियों के माध्यम से डेटासेट की विविधता और नवीनता को सत्यापित करता है
  5. खुली पहुंच: उदार लाइसेंस के तहत जारी किया गया, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है और डेटा-संचालित कंपाइलर अनुकूलन की बाधा को कम करता है

विधि विवरण

कार्य परिभाषा

एक बड़े पैमाने पर, विविध डेटासेट बनाना, जहां प्रत्येक डेटा बिंदु में शामिल है:

  • इनपुट: पॉलीहेड्रल प्रोग्राम प्रतिनिधित्व + परिवर्तन अनुक्रम
  • आउटपुट: वास्तविक हार्डवेयर पर प्रदर्शन माप (निष्पादन समय)
  • बाधा: सभी परिवर्तनों को शब्दार्थ सही रखना चाहिए

डेटा पीढ़ी पाइपलाइन

1. प्रोग्राम स्पेस नमूनाकरण: सिंथेटिक प्रोग्राम जनरेटर

बहु-चरणीय यादृच्छिकीकरण प्रक्रिया:

लूप संरचना पीढ़ी:

  • शीर्ष-स्तरीय लूप नेस्टिंग की संख्या के लिए संभाव्य निर्णय
  • प्रत्येक नेस्टिंग की संरचना को पुनरावर्ती रूप से बनाता है
  • आयताकार और गैर-आयताकार (त्रिकोणीय, समलम्बाकार) पुनरावृत्ति डोमेन उत्पन्न करता है
  • लूप सीमाएं स्थिरांक या बाहरी लूप पुनरावृत्तियों के कार्य हो सकती हैं

गणना प्लेसमेंट और क्रमबद्धता:

  • लूप नेस्टिंग में गणना को यादृच्छिक रूप से रखता है
  • एक ही स्तर पर गणना और उप-नेस्टिंग को इंटरलीव कर सकता है
  • प्रत्येक गणना को डेटा प्रकार (32/64-बिट फ्लोटिंग पॉइंट या पूर्णांक) निर्दिष्ट करता है

मेमोरी एक्सेस और अभिव्यक्ति पीढ़ी:

  • मेमोरी पैटर्न: विविध मेमोरी एक्सेस पैटर्न बनाता है, सरल पहचान मैपिंग से लेकर जटिल बहु-आयामी टेम्पलेट (स्टार, क्रॉस) और स्थिर ऑफसेट एक्सेस तक
  • अंकगणितीय अभिव्यक्तियां: अभिव्यक्ति पेड़ों को यादृच्छिक रूप से संयोजित करके गणना तर्क बनाता है, मेमोरी एक्सेस और स्केलर मानों को सामान्य अंकगणितीय ऑपरेटर और गणितीय कार्यों के साथ जोड़ता है

सामंजस्य और सत्यापन जांच:

  • तुच्छ कार्य (अनावश्यक लूप, मृत लेखन आदि) का पता लगाता है और रोकता है
  • सुनिश्चित करता है कि सिंथेटिक प्रोग्राम वाक्य विन्यास और गणनात्मक रूप से सार्थक हैं

2. परिवर्तन स्पेस नमूनाकरण: प्रासंगिकता-निर्देशित अन्वेषण

LOOPer स्वचालित शेड्यूलर के निष्पादन-निर्देशित खोज तंत्र का उपयोग करके बीम खोज के साथ महत्वपूर्ण पॉलीहेड्रल अनुकूलन के आशाजनक अनुक्रमों की खोज करता है:

  • लूप फ्यूजन (Loop Fusion)
  • स्क्यूइंग (Skewing)
  • इंटरचेंज (Interchange)
  • रिवर्सल (Reversal)
  • टाइलिंग (Tiling)
  • समानांतरीकरण (Parallelization)
  • अनरोलिंग (Unrolling)

कानूनीता सत्यापन: मानक पॉलीहेड्रल निर्भरता विश्लेषण का उपयोग करके यह सुनिश्चित करता है कि सभी परिवर्तन अनुक्रम शब्दार्थ सही रहते हैं।

3. प्रदर्शन लेबल पीढ़ी

  • Tiramisu कंपाइलर ढांचे का उपयोग करके निष्पादन योग्य फाइलें उत्पन्न करता है
  • डुअल-सॉकेट Intel Xeon E5-2695 v2 प्रोसेसर सिस्टम पर निष्पादन करता है
  • माप स्थिरता सुनिश्चित करने के लिए प्रत्येक प्रोग्राम संस्करण को अधिकतम 30 बार निष्पादित करता है
  • सिस्टम शोर से निपटने के लिए पूर्ण निष्पादन समय सूची रिकॉर्ड करता है

तकनीकी नवाचार बिंदु

  1. संरचनात्मक विविधता अधिकतमकरण: पुनरावर्ती संभाव्य पीढ़ी प्रक्रिया के माध्यम से प्रोग्राम संरचना के व्यापक कवरेज को सुनिश्चित करता है
  2. प्रासंगिकता-निर्देशित नमूनाकरण: यादृच्छिक नमूनाकरण की अक्षमता से बचता है, वास्तविक कंपाइलर द्वारा विचार किए जाने वाले परिवर्तन अनुक्रमों पर ध्यान केंद्रित करता है
  3. मात्रात्मक विविधता सत्यापन: मानकीकृत ट्री संपादन दूरी जैसी औपचारिक विधियों का उपयोग करके डेटासेट गुणवत्ता को सत्यापित करता है
  4. हार्डवेयर अनुकूलन डिजाइन: पूर्व-प्रशिक्षण और स्थानांतरण शिक्षा का समर्थन करता है, नई आर्किटेक्चर अनुकूलन लागत को कम करता है

प्रायोगिक सेटअप

डेटासेट आकार

  • कुल प्रोग्राम संख्या: लगभग 22 लाख अद्वितीय प्रोग्राम
  • कुल डेटा बिंदु: 2.8 करोड़ से अधिक लेबल किए गए उदाहरण
  • प्रति प्रोग्राम शेड्यूल: माध्यिका 70
  • डेटा पीढ़ी कार्यभार: लगभग 7.1 लाख CPU घंटे
  • त्वरण अनुपात सीमा: 0.0004× से 1230×

हार्डवेयर प्लेटफॉर्म

  • लक्ष्य आर्किटेक्चर: डुअल-सॉकेट Intel Xeon E5-2695 v2 प्रोसेसर सिस्टम
  • माप विधि: प्रत्येक प्रोग्राम संस्करण को अधिकतम 30 बार निष्पादित करता है, निष्पादन समय वितरण रिकॉर्ड करता है

सत्यापन विधि

  • संरचनात्मक समानता: प्रोग्राम के बीच संरचनात्मक समानता को मापने के लिए मानकीकृत ट्री संपादन दूरी (nTED) का उपयोग करता है
  • बेंचमार्क तुलना: PolyBench सूट के साथ मात्रात्मक तुलनात्मक विश्लेषण
  • विशेषता स्पेस विश्लेषण: 20-आयामी विशेषता स्पेस के दृश्य के लिए प्रमुख घटक विश्लेषण (PCA) का उपयोग करता है

प्रायोगिक परिणाम

डेटासेट सांख्यिकीय विशेषताएं

संरचनात्मक विविधता:

  • 14% प्रोग्राम में कम से कम एक गैर-आयताकार पुनरावृत्ति डोमेन है
  • लूप गहराई, मेमोरी संदर्भ पैटर्न और शाखा कारक लंबी-पूंछ वितरण प्रस्तुत करते हैं
  • मेमोरी व्यवसाय, आधारभूत निष्पादन समय और कुल पुनरावृत्ति डोमेन वॉल्यूम कई परिमाण के आदेशों में फैले हुए हैं

प्रदर्शन वितरण:

  • मापा गया त्वरण अनुपात 1.0× के चारों ओर केंद्रित एक तीव्र वितरण प्रस्तुत करता है
  • दाहिनी पूंछ कुशल परिवर्तन अनुक्रमों की उपस्थिति प्रदर्शित करती है
  • बाईं पूंछ हानिकारक शेड्यूलिंग के मामलों को पकड़ती है

विविधता सत्यापन परिणाम

PolyBench के साथ तुलना:

  • कोई दोहराव नहीं पुष्टि: न्यूनतम nTED दूरी कभी शून्य नहीं है, सबसे समान seidel-2d है (nTED=0.022)
  • व्यापक संरचना स्पेस: सिंथेटिक प्रोग्राम और बेंचमार्क के बीच माध्यिका दूरी (0.537) PolyBench के भीतर माध्यिका दूरी (0.467) से अधिक है
  • विशेषता स्पेस कवरेज: PCA दृश्य दिखाता है कि PolyBench प्रोग्राम LOOPerSet विशेषता क्लाउड के घने क्षेत्र के भीतर स्थित हैं

वितरण तुलना:

  • संचयी वितरण फलन दिखाता है कि सिंथेटिक प्रोग्राम और बेंचमार्क के बीच दूरी वितरण लगातार बेंचमार्क के भीतर दूरी वितरण से कम है
  • यह सुझाता है कि LOOPerSet मौजूदा बेंचमार्क की तुलना में व्यापक, अधिक विविध संरचना स्पेस की खोज करता है

संबंधित कार्य

पॉलीहेड्रल कंपाइलर अनुकूलन

  • पारंपरिक विधियां: PLUTO, PolyOpt, GRAPHITE आदि विश्लेषणात्मक लागत मॉडल पर आधारित विधियां
  • शिक्षण विधियां: Tiramisu स्वचालित शेड्यूलर, TVM/Ansor, Halide अनुकूलक आदि डेटा-संचालित विधियां

प्रदर्शन डेटासेट

  • मौजूदा सीमाएं: बड़े पैमाने पर सार्वजनिक पॉलीहेड्रल अनुकूलन प्रदर्शन डेटासेट की कमी
  • संबंधित संसाधन: TpuGraphs जैसे टेंसर कंप्यूटिंग ग्राफ प्रदर्शन भविष्यवाणी डेटासेट

प्रोग्राम संश्लेषण

  • बेंचमार्क: PolyBench जैसे मानक बेंचमार्क सूट की सीमाएं
  • सिंथेटिक विधियां: कंपाइलर अनुसंधान में यादृच्छिक प्रोग्राम पीढ़ी का अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. डेटा बाधा समाधान: LOOPerSet पॉलीहेड्रल कंपाइलर अनुकूलन अनुसंधान में डेटा कमी की समस्या को प्रभावी ढंग से हल करता है
  2. गुणवत्ता आश्वासन: कठोर विविधता विश्लेषण और प्रासंगिकता-निर्देशित नमूनाकरण के माध्यम से डेटासेट गुणवत्ता सुनिश्चित करता है
  3. सामुदायिक संसाधन: अनुसंधान समुदाय को तुरंत उपयोग के लिए तैयार बड़े पैमाने पर बेंचमार्किंग प्लेटफॉर्म प्रदान करता है

सीमाएं

  1. हार्डवेयर विशिष्टता: प्रदर्शन लेबल Intel Xeon E5-2695 v2 आर्किटेक्चर के लिए विशिष्ट हैं
  2. सिंथेटिक प्रोग्राम सीमाएं: हालांकि विविध, सभी वास्तविक दुनिया के प्रोग्राम पैटर्न को पूरी तरह से कवर नहीं कर सकते हैं
  3. परिवर्तन स्पेस: LOOPer सिस्टम द्वारा समर्थित परिवर्तन प्रकारों तक सीमित है

भविष्य की दिशाएं

  1. क्रॉस-आर्किटेक्चर विस्तार: GPU और अन्य CPU माइक्रोआर्किटेक्चर पर प्रदर्शन लेबल उत्पन्न करता है
  2. स्थानांतरण शिक्षा अनुसंधान: शून्य-शॉट या कम-शॉट सामान्यीकरण का अध्ययन करने के लिए डेटासेट का उपयोग करता है
  3. नई मॉडल आर्किटेक्चर: GNN, Transformer आदि नई लागत मॉडल आर्किटेक्चर की खोज करता है
  4. व्याख्या योग्यता अनुसंधान: मॉडल विफलता पैटर्न का विश्लेषण करता है, सामान्यीकरण क्षमता में सुधार करता है

गहन मूल्यांकन

लाभ

  1. अभूतपूर्व पैमाना: 2.8 करोड़ डेटा बिंदुओं का पैमाना इस क्षेत्र में अभूतपूर्व है
  2. विधि कठोरता: बहु-चरणीय पीढ़ी पाइपलाइन और मात्रात्मक सत्यापन विधि वैज्ञानिक रूप से कठोर हैं
  3. उच्च व्यावहारिक मूल्य: प्रासंगिकता-निर्देशित नमूनाकरण डेटासेट की व्यावहारिक अनुप्रयोग मूल्य सुनिश्चित करता है
  4. मजबूत खुलापन: CC-BY 4.0 लाइसेंस और Hugging Face प्लेटफॉर्म सहज पहुंच सुनिश्चित करते हैं
  5. पुनरुत्पादनीयता: विस्तृत डेटा प्रारूप विनिर्देश और उपकरण समर्थन

कमियां

  1. आर्किटेक्चर निर्भरता: प्रदर्शन लेबल एकल हार्डवेयर प्लेटफॉर्म तक सीमित हैं
  2. सीमित सत्यापन: वास्तविक अनुप्रयोगों में सत्यापन की कमी
  3. पीढ़ी पूर्वाग्रह: सिंथेटिक प्रोग्राम में व्यवस्थित पूर्वाग्रह हो सकते हैं
  4. परिवर्तन कवरेज: परिवर्तन प्रकार मौजूदा उपकरण समर्थन तक सीमित हैं

प्रभाव

  1. शैक्षणिक योगदान: डेटा-संचालित कंपाइलर अनुकूलन अनुसंधान के लिए बुनियादी ढांचा प्रदान करता है
  2. व्यावहारिक मूल्य: नए शोधकर्ताओं के लिए प्रवेश बाधा को काफी कम करता है
  3. पुनरुत्पादनीयता: विधि तुलना और परिणाम पुनरुत्पादन को बढ़ावा देता है
  4. दीर्घकालीन प्रभाव: संभवतः क्षेत्र को अधिक डेटा-संचालित दिशा में विकसित कर सकता है

लागू परिदृश्य

  1. लागत मॉडल प्रशिक्षण: विभिन्न मशीन लर्निंग लागत मॉडल को प्रशिक्षित और मूल्यांकन करता है
  2. आर्किटेक्चर तुलना: विभिन्न मॉडल आर्किटेक्चर और विशेषता विधियों की बेंचमार्किंग करता है
  3. स्थानांतरण शिक्षा: नई आर्किटेक्चर अनुकूलन का समर्थन करने के लिए पूर्व-प्रशिक्षण डेटासेट के रूप में कार्य करता है
  4. अनुमानी खोज: डेटा खनन के माध्यम से नई कंपाइलर अनुमानी खोज करता है
  5. व्याख्या योग्यता अनुसंधान: मॉडल व्यवहार और विफलता पैटर्न का विश्लेषण करता है

डेटासेट पहुंच जानकारी

  • पहुंच पता: https://huggingface.co/datasets/Mascinissa/LOOPerSet
  • डेटा प्रारूप: JSON Lines (.jsonl)
  • लाइसेंस समझौता: Creative Commons Attribution 4.0 International (CC-BY 4.0)
  • संस्करण विकल्प:
    • पूर्ण संस्करण: 2.8 करोड़ डेटा बिंदु
    • संक्षिप्त संस्करण: 1 करोड़ डेटा बिंदु (LOOPer पेपर प्रयोगों के साथ सुसंगत)

LOOPerSet डेटासेट पॉलीहेड्रल कंपाइलर अनुकूलन अनुसंधान क्षेत्र में एक महत्वपूर्ण मील का पत्थर का प्रतिनिधित्व करता है। बड़े पैमाने पर, उच्च-गुणवत्ता वाले सार्वजनिक डेटासेट प्रदान करके, यह क्षेत्र के विकास को काफी हद तक आगे बढ़ाने और अनुसंधान बाधा को कम करने की संभावना रखता है। इसकी कठोर निर्माण विधि और खुली पहुंच विधि इसे भविष्य के संबंधित अनुसंधान के लिए एक मूल्यवान संसाधन बनाती है।