2025-11-12T17:13:10.726463

Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware

Mu, Shi, Wang et al.

LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.

academic

Faver: फंक्शन एब्सट्रैक्टेड वेरिफाइएबल मिडलवेयर के साथ LLM-आधारित RTL जनरेशन को बूस्ट करना

बुनियादी जानकारी

पेपर ID: 2510.08664
शीर्षक: Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
लेखक: Jianan Mu, Mingyu Shi, Yining Wang, Tianmeng Yang, Bin Sun, Xing Hu, Jing Ye, Huawei Li
वर्गीकरण: cs.SE cs.AI
प्रकाशन तिथि: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08664

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) आधारित RTL कोड जनरेशन की सटीकता की समस्या को संबोधित करता है और एक फंक्शन एब्सट्रैक्टेड वेरिफाइएबल मिडलवेयर (Faver) प्रस्तावित करता है। यह विधि LLM-अनुकूल कोड संरचना को नियम-आधारित टेम्पलेट के साथ जोड़कर, सर्किट सत्यापन के विवरण को अलग करती है, जिससे LLM कार्यक्षमता पर ध्यान केंद्रित कर सकता है। SFT मॉडल और ओपन-सोर्स मॉडल के प्रयोगों में, Faver ने मॉडल की जनरेशन सटीकता को 14% तक बढ़ाया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

RTL डिज़ाइन चिप डिज़ाइन में सबसे कम स्वचालित और सबसे श्रम-गहन चरण है। हालांकि LLM RTL जनरेशन में संभावना दिखाता है, लेकिन उच्च-स्तरीय विनिर्देश और RTL के बीच विशाल शब्दार्थ अंतराल के कारण, साथ ही सीमित प्रशिक्षण डेटा के कारण, मौजूदा मॉडल जनरेशन सटीकता में खराब प्रदर्शन करते हैं।

2. समस्या की महत्ता

RTL डिज़ाइन एकीकृत सर्किट डिज़ाइन प्रवाह में एक महत्वपूर्ण बाधा है
स्वचालित RTL जनरेशन चिप डिज़ाइन दक्षता में उल्लेखनीय सुधार कर सकता है
मौजूदा विधियां "डिज़ाइन और सत्यापन" के मानव अनुभव का प्रभावी ढंग से उपयोग नहीं कर सकती हैं

3. मौजूदा विधियों की सीमाएं

सीधा LLM निर्णय: विनिर्देश के आधार पर कार्यक्षमता को सत्यापित करने के लिए मजबूत तर्क उपकरणों की कमी
RTL testbench जनरेशन: testbench डेटा डिज़ाइन डेटा की तुलना में अधिक दुर्लभ है, और जनरेशन कठिनाई RTL डिज़ाइन के बराबर है
सरल Python सत्यापन: हार्डवेयर और सॉफ्टवेयर समय-स्थान कणों में बहुत भिन्न हैं, जिससे सह-सत्यापन कठिन है

4. अनुसंधान प्रेरणा

मानव डिज़ाइन अनुभव में "डिज़ाइन और सत्यापन" विधि से सीखना, लेकिन हार्डवेयर सत्यापन में LLM की अंतर्निहित कठिनाइयों को हल करने की आवश्यकता है, विशेष रूप से समय-संबंधित चर और परीक्षण उत्तेजना जनरेशन की चुनौतियां।

मुख्य योगदान

Faver फ्रेमवर्क प्रस्तावित करना: LLM को सर्किट को सत्यापित करने के लिए उच्च-स्तरीय शब्दार्थ कोड लिखने की अनुमति देता है और डिज़ाइन और सत्यापन फ्रेमवर्क से लाभ उठाता है
फंक्शन-क्लास एब्सट्रैक्शन टेम्पलेट डिज़ाइन करना: हार्डवेयर डिज़ाइन में घड़ी और रजिस्टर शब्दार्थ को ईवेंट-संचालित Python/C फंक्शन क्लास में मैप करना, हार्डवेयर और सॉफ्टवेयर सत्यापन के बीच समय-स्थान अंतराल को कम करना
प्रायोगिक सत्यापन: कई परीक्षण सेट और LLM पर साबित करना कि Faver LLM-आधारित RTL जनरेशन सटीकता को 14% तक बढ़ाता है
सैद्धांतिक विश्लेषण: सिस्टम सफलता दर और प्रतिक्रिया सत्यता दर के लिए गणितीय मॉडल प्रदान करना

विधि विवरण

कार्य परिभाषा

इनपुट: प्राकृतिक भाषा विनिर्देश द्वारा वर्णित हार्डवेयर कार्यक्षमता आवश्यकताएं आउटपुट: कार्यात्मक रूप से सही और सत्यापित RTL (Verilog) कोड बाधाएं: जनरेट किया गया RTL वाक्य-विन्यास और कार्यक्षमता दोनों में सही होना चाहिए

मॉडल आर्किटेक्चर

Faver फ्रेमवर्क में चार मुख्य चरण हैं:

1. सत्यापन विनिर्देश जनरेशन (Verification Specification Generation)

I/O पोर्ट को संरक्षित रखना: समान इनपुट आउटपुट पोर्ट परिभाषा को बनाए रखना
कार्यक्षमता एब्सट्रैक्शन: RTL के टोपोलॉजी कनेक्शन को सॉफ्टवेयर के इनपुट आउटपुट प्रोसेसिंग लॉजिक में परिवर्तित करना
सीमा विश्लेषण: RTL की सीमा शर्तों का विश्लेषण करना और सत्यापन विनिर्देश में गणना करना

2. क्लास टेम्पलेट-आधारित संदर्भ मॉडल जनरेशन

मुख्य डिज़ाइन:

class ref_model(Model):
    def __init__(self):
        global state_flag0, state_flag1  # रजिस्टर को वैश्विक चर में मैप करना
    
    @driver_hook()
    def reset(self):  # समर्पित रीसेट फंक्शन
        pass
    
    @driver_hook() 
    def step(self):   # एकीकृत कार्यक्षमता इंटरफेस
        pass
    
    def func1(self):  # अन्य कार्यक्षमता फंक्शन
        pass

मुख्य तकनीकें:

रजिस्टर से वैश्विक चर मैपिंग: हार्डवेयर रजिस्टर को क्लास-स्तरीय वैश्विक चर में मैप करना
घड़ी को ईवेंट के रूप में: घड़ी के उर्ध्वगामी किनारे को "call step" ईवेंट के रूप में देखना
एकीकृत इंटरफेस: step फंक्शन के माध्यम से विभिन्न मॉड्यूल तक एकीकृत पहुंच

3. स्तरीय परीक्षण उत्तेजना जनरेशन

LLM-नियम सहयोग तंत्र:

उच्च-स्तरीय योजना: LLM परीक्षण योजना डिज़ाइन करता है, कार्यक्षमता स्थान के व्यापक कवरेज को सुनिश्चित करता है
समय-संबंधित डेटा जनरेशन: LLM मजबूत कार्यक्षमता संबंध वाले समय-संबंधित इनपुट डेटा जनरेट करता है
नियम-आधारित परिशोधन:
- नियम-आधारित रीसेट फंक्शन सम्मिलित करना
- डेटा प्रवाह पर सीमा जांच और सुधार

4. सहयोगी सिमुलेशन और पुनरावृत्तिमूलक अनुकूलन

सटीक मिलान के लिए Python-Verilog सहयोगी सिमुलेशन का उपयोग करना
तरंग वर्ण-स्तरीय तुलना, त्रुटि प्रकारों का वर्गीकरण (कार्यक्षमता त्रुटि, समय-संबंधित बेमेल, सीमा शर्त समस्याएं)
पुनरावृत्ति थ्रेशोल्ड 5 पर सेट करना, अनंत लूप से बचना

तकनीकी नवाचार बिंदु

शब्दार्थ अंतराल पुल: कार्यक्षमता एब्सट्रैक्शन के माध्यम से सर्किट टोपोलॉजी को सॉफ्टवेयर लॉजिक में परिवर्तित करना
समय-संबंधित चर निष्कर्षण: हार्डवेयर समय-संबंधित अवधारणा को सॉफ्टवेयर ईवेंट-संचालित मॉडल में नवीन रूप से मैप करना
स्तरीय सत्यापन रणनीति: LLM की उच्च-स्तरीय शब्दार्थ क्षमता और नियम प्रणाली की सटीकता को जोड़ना

प्रायोगिक सेटअप

डेटासेट

RTLLM: शैक्षणिक RTL कोड जनरेशन बेंचमार्क परीक्षण सेट
VerilogEval: एक अन्य व्यापक रूप से उपयोग किया जाने वाला Verilog कोड जनरेशन मूल्यांकन डेटासेट
स्व-संग्रहीत SFT डेटा: 5000 से अधिक प्राकृतिक भाषा विवरण और RTL कोड युग्मों का डेटासेट

मूल्यांकन मेट्रिक्स

Pass@1: एकल जनरेशन की पास दर
Pass@5: पांच जनरेशन में कम से कम एक पास की सफलता दर
sys_sel_pass@1: डिज़ाइन और सत्यापन प्रणाली द्वारा एकल डिज़ाइन आउटपुट की पास दर
sys_inner_pass@5: पांच आंतरिक पुनरावृत्तियों में किसी भी डिज़ाइन के पास होने की सफलता दर

तुलनात्मक विधियां

आधार मॉडल:

DeepSeek-R1-0528, Kimi K2, GPT-4O, QWQ-32B
Qwen2.5-Coder-32B-Instruct

SFT मॉडल:

CodeV श्रृंखला, RTLCoder-Mistral-7B, CraftRTL-SC2-15B
Qwen2.5-7B-SFT (स्व-प्रशिक्षित)

सत्यापन आधार:

baseline-V: LLM द्वारा जनरेट किया गया Verilog testbench
baseline-L: निर्णायक के रूप में LLM
baseline-P: LLM द्वारा जनरेट किया गया Python testbench (बिना Faver)

कार्यान्वयन विवरण

Toffee का उपयोग (Verilator-आधारित Python-Verilog सहयोगी सिमुलेशन प्लेटफॉर्म)
लगातार विफलता थ्रेशोल्ड 5 पर सेट करना
कम्प्यूटेशनल ओवरहेड को कम करने के लिए LoRA विधि का उपयोग करके SFT प्रशिक्षण

प्रायोगिक परिणाम

मुख्य परिणाम

उल्लेखनीय प्रदर्शन सुधार:

DeepSeek-R1-0528 RTLLM पर: Pass@1 74% से sys_sel_pass@1 के 83% तक
Qwen2.5-7B-SFT: sys_inner_pass@5 मूल मॉडल की तुलना में 14% सुधार
आधार मॉडल आम तौर पर लगभग 10% की पास दर में सुधार प्राप्त करते हैं

क्रॉस-मॉडल सामंजस्य: सभी परीक्षण मॉडल दोनों डेटासेट पर सुसंगत सुधार दिखाते हैं, Faver की सार्वभौमिक प्रभावकारिता को साबित करते हैं।

विलोपन प्रयोग

घटक योगदान विश्लेषण:

Faver- (परीक्षण उत्तेजना जनरेशन के बिना): औसत 2.75% सुधार
पूर्ण Faver: 12% तक सुधार
साबित करता है कि संदर्भ मॉडल जनरेशन और स्तरीय परीक्षण उत्तेजना जनरेशन दोनों प्रदर्शन सुधार में महत्वपूर्ण योगदान देते हैं

सत्यापनकर्ता प्रदर्शन विश्लेषण

सटीकता मेट्रिक्स:

True Positive False Positive से काफी अधिक है
True Negative False Negative से काफी अधिक है
सैद्धांतिक विश्लेषण में a > b और c > d की शर्तों को सत्यापित करता है

पुनरावृत्तिमूलक सुधार प्रभाव:

Faver-DeepSeek-R1-0528 पुनरावृत्ति प्रक्रिया में स्थिर सटीकता सुधार दिखाता है
मूल DeepSeek-R1-0528 की सटीकता यादृच्छिक उतार-चढ़ाव पैटर्न दिखाती है

केस विश्लेषण

कनवोल्यूशन कर्नल डिज़ाइन के उदाहरण के साथ:

कार्यक्षमता एब्सट्रैक्शन: गुणक और योजक के टोपोलॉजी कनेक्शन को कनवोल्यूशन ऑपरेशन में एब्सट्रैक्ट करना
सीमा प्रोसेसिंग: 8-बिट डेटा चौड़ाई बाधा और आयाम मिलान समस्याओं की पहचान करना
समय-संबंधित मैपिंग: घड़ी-संचालित बिट स्ट्रीम को step फंक्शन कॉल अनुक्रम में परिवर्तित करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Faver ने सॉफ्टवेयर सत्यापन प्रथाओं और हार्डवेयर डिज़ाइन की समय-संबंधित स्थिति निर्भरता विशेषताओं को सफलतापूर्वक पुल किया है
कार्यक्षमता-स्तरीय सटीक सत्यापन प्रतिक्रिया हार्डवेयर डिज़ाइन वातावरण में LLM आउटपुट में सुधार के लिए महत्वपूर्ण है
स्तरीय सत्यापन रणनीति LLM की शब्दार्थ क्षमता और नियम प्रणाली की सटीकता को प्रभावी ढंग से जोड़ती है

सीमाएं

पुनरावृत्ति थ्रेशोल्ड सीमा: निश्चित 5 पुनरावृत्ति थ्रेशोल्ड सभी जटिलता स्तरों के डिज़ाइन के लिए उपयुक्त नहीं हो सकता है
नियम प्रणाली निर्भरता: सीमा जांच और रीसेट लॉजिक को अभी भी पूर्वनिर्धारित नियमों की आवश्यकता है
डेटासेट सीमा: मूल्यांकन मुख्य रूप से अपेक्षाकृत सरल शैक्षणिक बेंचमार्क पर किया जाता है

भविष्य की दिशाएं

अधिक जटिल हार्डवेयर डिज़ाइन तक विस्तार (जैसे प्रोसेसर, SoC)
स्व-अनुकूली पुनरावृत्ति थ्रेशोल्ड और अधिक बुद्धिमान त्रुटि वर्गीकरण
मौजूदा EDA टूलचेन के साथ एकीकरण

गहन मूल्यांकन

लाभ

तकनीकी नवाचार: LLM में हार्डवेयर सत्यापन में समय-संबंधित समस्या को पहली बार व्यवस्थित रूप से हल करना, क्लास टेम्पलेट और ईवेंट-संचालित मॉडल के माध्यम से प्रभावी शब्दार्थ मैपिंग प्राप्त करना
प्रायोगिक पूर्णता: कई मॉडल, डेटासेट पर व्यापक मूल्यांकन, विलोपन प्रयोग और सैद्धांतिक विश्लेषण सहित
व्यावहारिक मूल्य: संपूर्ण ओपन-सोर्स कार्यान्वयन प्रदान करना, अच्छी पुनरुत्पादनीयता के साथ
सैद्धांतिक समर्थन: सिस्टम सफलता दर के लिए गणितीय मॉडल प्रदान करना, विधि के सैद्धांतिक आधार को बढ़ाना

कमियां

मूल्यांकन दायरा: मुख्य रूप से शैक्षणिक बेंचमार्क पर मूल्यांकन, औद्योगिक-स्तरीय जटिल डिज़ाइन सत्यापन की कमी
नियम प्रणाली: अभी भी सीमा जांच के लिए पूर्वनिर्धारित नियमों पर निर्भर है, स्वचालन की डिग्री सीमित है
विस्तारशीलता: बहुत जटिल हार्डवेयर डिज़ाइन के लिए विधि की विस्तारशीलता पूरी तरह से सत्यापित नहीं है

प्रभाव

शैक्षणिक योगदान: LLM-आधारित हार्डवेयर डिज़ाइन क्षेत्र के लिए नया सत्यापन प्रतिमान प्रदान करना
व्यावहारिक मूल्य: मौजूदा RTL डिज़ाइन प्रवाह में सीधे लागू किया जा सकता है, तत्काल प्रभाव के साथ
पुनरुत्पादनीयता: ओपन-सोर्स उपकरणों के आधार पर कार्यान्वयन, अनुसंधान समुदाय के लिए पुनरुत्पादन और विस्तार में सुविधा

लागू परिदृश्य

मध्यम जटिलता के डिजिटल सर्किट डिज़ाइन
तेजी से प्रोटोटाइप सत्यापन की आवश्यकता वाले हार्डवेयर विकास
शैक्षणिक और अनुसंधान वातावरण में RTL कोड जनरेशन
मौजूदा EDA उपकरणों के लिए सहायक सत्यापन उपकरण के रूप में

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का संदर्भ देता है, जिनमें शामिल हैं:

ChipGPT, ChipNeMo आदि विशेष हार्डवेयर डिज़ाइन LLM
VerilogCoder, MAGE आदि डिज़ाइन और सत्यापन विधियां
RTLLM, VerilogEval आदि मानक मूल्यांकन बेंचमार्क
Toffee, Verilator आदि सहयोगी सिमुलेशन उपकरण

समग्र मूल्यांकन: यह LLM-आधारित RTL जनरेशन क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। नवीन कार्यक्षमता एब्सट्रैक्शन मिडलवेयर डिज़ाइन के माध्यम से, सॉफ्टवेयर-हार्डवेयर सत्यापन के बीच शब्दार्थ अंतराल समस्या को प्रभावी ढंग से हल करता है, प्रायोगिक परिणाम convincing हैं, अच्छी व्यावहारिक मूल्य और शैक्षणिक प्रभाव के साथ।