Preparation of Fractal-Inspired Computational Architectures for Advanced Large Language Model Analysis
Mittal, Ignatov, Timofte
It introduces FractalNet, a fractal-inspired computational architectures for advanced large language model analysis that mainly challenges model diversity on a large scale in an efficient manner. The new set-up involves a template-driven generator, runner, and evaluation framework that, through systematic permutations of convolutional, normalization, activation, and dropout layers, can create more than 1,200 variants of neural networks. Fractal templates allow for structural recursion and multi-column pathways, thus, models become deeper and wider in a balanced way. Training utilizes PyTorch, Automatic Mixed Precision (AMP), and gradient checkpointing and is carried out on the CIFAR-10 dataset for five epochs. The outcomes show that fractal-based architectures are capable of strong performance and are computationally efficient. The paper positions fractal design as a feasible and resource-efficient method of automated architecture exploration.
academic
फ्रैक्टल-प्रेरित कम्प्यूटेशनल आर्किटेक्चर की तैयारी उन्नत बड़े भाषा मॉडल विश्लेषण के लिए
यह पेपर FractalNet प्रस्तुत करता है, जो एक फ्रैक्टल-प्रेरित कम्प्यूटेशनल आर्किटेक्चर है जिसका उपयोग तंत्रिका नेटवर्क मॉडल विविधता को बड़े पैमाने पर कुशलतापूर्वक खोजने के लिए किया जाता है। इस प्रणाली में टेम्पलेट-संचालित जनरेटर, रनर और मूल्यांकन ढांचा शामिल है, जो कनवोल्यूशनल लेयर्स, नॉर्मलाइजेशन लेयर्स, सक्रियण फ़ंक्शन और ड्रॉपआउट लेयर्स को व्यवस्थित रूप से व्यवस्थित करके 1,200 से अधिक तंत्रिका नेटवर्क वेरिएंट बना सकता है। फ्रैक्टल टेम्पलेट संरचनात्मक पुनरावृत्ति और बहु-स्तंभ पथ का समर्थन करते हैं, जो मॉडल को संतुलित तरीके से गहरा और चौड़ा करने में सक्षम बनाते हैं। प्रशिक्षण PyTorch, स्वचालित मिश्रित परिशुद्धता (AMP) और ग्रेडिएंट चेकपॉइंटिंग तकनीकों का उपयोग करके CIFAR-10 डेटासेट पर 5 एपोक के लिए किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि फ्रैक्टल-आधारित आर्किटेक्चर मजबूत प्रदर्शन और कम्प्यूटेशनल दक्षता प्राप्त कर सकते हैं, जो फ्रैक्टल डिजाइन को स्वचालित आर्किटेक्चर अन्वेषण के लिए एक व्यवहार्य और संसाधन-कुशल विधि के रूप में स्थापित करते हैं।
गहन शिक्षा में सफलता काफी हद तक नेटवर्क आर्किटेक्चर डिजाइन में नवाचार पर निर्भर करती है, लेकिन आर्किटेक्चर को मैनुअल रूप से डिजाइन करने की प्रक्रिया अत्यंत धीमी है और बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। मौजूदा स्वचालित तंत्रिका आर्किटेक्चर जनरेशन विधियां (जैसे NAS और AutoML) अच्छी अनुकूलन क्षमता रखती हैं, लेकिन आमतौर पर निम्नलिखित समस्याओं का सामना करती हैं:
गहन शिक्षा मॉडल की जटिलता बढ़ने के साथ, आर्किटेक्चर स्पेस की मैनुअल खोज अव्यावहारिक हो जाती है। स्वचालित आर्किटेक्चर खोज निम्नलिखित के लिए महत्वपूर्ण है:
मॉडल विकास चक्र में तेजी लाना
ऐसे नवीन आर्किटेक्चर की खोज करना जिन्हें मानव डिजाइनर अनदेखा कर सकते हैं
संसाधन-सीमित वातावरण में कुशल मॉडल डिजाइन प्राप्त करना
FractalNet फ्रैक्टल की स्व-समानता और स्तरीय पुनरावृत्ति की अवधारणा का लाभ उठाता है, जो एक व्याख्यात्मक, कम्प्यूटेशनल रूप से कुशल और स्केलेबल आर्किटेक्चर जनरेशन विधि प्रदान करता है, जो दक्षता और व्याख्यात्मकता के बीच मौजूदा विधियों के अंतर को भरता है।
FractalNet फ्रेमवर्क प्रस्तावित करना: एक संपूर्ण टेम्पलेट-संचालित स्वचालित तंत्रिका आर्किटेक्चर जनरेशन और मूल्यांकन प्रणाली जो 1,200 से अधिक नेटवर्क वेरिएंट को व्यवस्थित रूप से उत्पन्न कर सकती है
फ्रैक्टल डिजाइन सिद्धांत: फ्रैक्टल की पुनरावर्ती संरचना और बहु-स्तंभ पथ को तंत्रिका आर्किटेक्चर डिजाइन में शामिल करना, गहराई और चौड़ाई का संतुलित विस्तार प्राप्त करना
कुशल प्रशिक्षण रणनीति: स्वचालित मिश्रित परिशुद्धता (AMP) और ग्रेडिएंट चेकपॉइंटिंग तकनीकों को एकीकृत करना, सीमित हार्डवेयर संसाधनों के तहत बड़े पैमाने पर आर्किटेक्चर अन्वेषण प्राप्त करना
व्यवस्थित मूल्यांकन ढांचा: मानकीकृत जनरेट-ट्रेन-मूल्यांकन प्रक्रिया स्थापित करना, दोहराए जाने योग्य बड़े पैमाने पर आर्किटेक्चर प्रयोग सक्षम करना
प्रायोगिक सत्यापन: CIFAR-10 डेटासेट पर फ्रेमवर्क की प्रभावशीलता को सत्यापित करना, सर्वश्रेष्ठ मॉडल बेसलाइन की तुलना में 8 प्रतिशत अंक में सुधार दिखाता है (72.2% से 80.18%)
LLM एकीकरण: बड़े भाषा मॉडल (DeepSeek-R1-Distill-Qwen-7B) को आर्किटेक्चर जनरेशन प्रक्रिया में एकीकृत करना, बुद्धिमान स्वचालित डिजाइन प्राप्त करना
इनपुट: आर्किटेक्चर कॉन्फ़िगरेशन पैरामीटर (फ्रैक्टल गहराई N, स्तंभ चौड़ाई num_columns, लेयर प्रकार संयोजन)
आउटपुट: संपूर्ण प्रशिक्षणयोग्य तंत्रिका नेटवर्क आर्किटेक्चर और इसके प्रदर्शन मेट्रिक्स
बाधाएं: सीमित GPU मेमोरी और कम्प्यूटेशनल समय के भीतर आर्किटेक्चर वेरिएंट की बड़ी संख्या उत्पन्न और मूल्यांकन करना
शुरुआत → जनरेटर आर्किटेक्चर कॉन्फ़िगरेशन उत्पन्न करता है
→ टेम्पलेट फ्रैक्टल डिजाइन सिद्धांत लागू करता है
→ रनर प्रशिक्षण और सत्यापन निष्पादित करता है
→ प्रदर्शन लॉग और मॉडल सहेजना
→ परिणाम विश्लेषण और तुलना → अंत
संपूर्ण प्रक्रिया एक कसकर एकीकृत स्वचालित लूप बनाती है, मानव हस्तक्षेप को कम करती है।
हालांकि पेपर में स्पष्ट विलोपन प्रयोग अनुभाग नहीं है, लेकिन 1,200 वेरिएंट की व्यवस्थित खोज के माध्यम से, निहित रूप से बड़े पैमाने पर विलोपन किया गया है:
गहराई का प्रभाव:
N=3-4: इष्टतम प्रदर्शन
N≥5: मेमोरी समाप्ति और ग्रेडिएंट अस्थिरता
चौड़ाई का प्रभाव:
num_columns=3-4: सर्वश्रेष्ठ संतुलन
num_columns≥7: अत्यधिक संसाधन खपत
लेयर अनुक्रम प्रभाव:
विभिन्न लेयर व्यवस्था संयोजन विभिन्न प्रदर्शन उत्पन्न करते हैं
कुछ असंगत लेयर अनुक्रम सीखने की विफलता का कारण बनते हैं (सटीकता ≈0.1)
फ्रेमवर्क प्रभावशीलता: FractalNet ने 1,200 से अधिक अद्वितीय कनवोल्यूशनल मॉडल सफलतापूर्वक उत्पन्न और प्रशिक्षित किए, जो टेम्पलेट-संचालित संश्लेषण पाइपलाइन की व्यवहार्यता को प्रमाणित करता है
प्रदर्शन सुधार: सर्वश्रेष्ठ कॉन्फ़िगरेशन CIFAR-10 पर 80.18% सत्यापन सटीकता तक पहुंचता है, बेसलाइन की तुलना में 8 प्रतिशत अंक में सुधार
कम्प्यूटेशनल दक्षता: AMP और ग्रेडिएंट चेकपॉइंटिंग तकनीकों के माध्यम से, सीमित हार्डवेयर पर बड़े पैमाने पर आर्किटेक्चर अन्वेषण प्राप्त किया गया
स्थिर अभिसरण: 97% मॉडल सफलतापूर्वक प्रशिक्षण पूरा करते हैं, औसत सत्यापन सटीकता 83% से अधिक है
डिजाइन सिद्धांत: फ्रैक्टल की पुनरावर्ती संरचना तेजी से सीखने और सामान्यीकरण को बढ़ावा दे सकती है, मध्यम गहराई और चौड़ाई के कॉन्फ़िगरेशन सर्वश्रेष्ठ प्रदर्शन प्राप्त करते हैं
Kochnev et al. (2025): "NNGPT: Rethinking AutoML with Large Language Models" - LLM-सहायक AutoML संबंधित कार्य
Goodarzi et al. (2025): "LEMUR Neural Network Dataset: Towards Seamless AutoML" - LEMUR डेटासेट और पारिस्थितिकी तंत्र
Larsson et al. (2017): "FractalNet: Ultra-Deep Neural Networks without Residuals" - मूल फ्रैक्टल नेटवर्क डिजाइन
Krizhevsky et al. (2012): "ImageNet classification with deep convolutional neural networks" - AlexNet, गहन शिक्षा आधार
Huang et al. (2017): "Densely connected convolutional networks" - DenseNet, संबंधित आर्किटेक्चर डिजाइन
Kaggle CIFAR-10: डेटासेट स्रोत और बेंचमार्क परीक्षण
सारांश: FractalNet विशेष रूप से संसाधन-सीमित अनुसंधान वातावरण के लिए एक व्यावहारिक स्वचालित आर्किटेक्चर अन्वेषण विधि प्रदान करता है। हालांकि विधि नवाचार सीमित है, लेकिन इंजीनियरिंग कार्यान्वयन परिपक्व है, बड़े पैमाने पर प्रयोग मूल्यवान प्रायोगिक साक्ष्य प्रदान करता है। पेपर का मुख्य मूल्य फ्रैक्टल डिजाइन और स्वचालित जनरेशन के संयोजन की व्यवहार्यता प्रदर्शित करना है, जो बाद के अनुसंधान के लिए एक विस्तारणीय फ्रेमवर्क आधार प्रदान करता है।