Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
Mu, Shi, Wang et al.
LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.
academic
Faver: Verbesserung der LLM-basierten RTL-Generierung mit funktionsabstrakter verifizierbarer Middleware
Dieses Paper adressiert das Problem der Genauigkeit bei der RTL-Codegenerierung basierend auf großen Sprachmodellen (LLM) und schlägt eine funktionsabstrakte verifizierbare Middleware (Faver) vor. Die Methode entkoppelt die Details der Schaltkreisverifikation durch die Kombination von LLM-freundlichen Codestrukturen mit regelbasierten Vorlagen, wodurch sich das LLM auf die Funktionalität selbst konzentrieren kann. In Experimenten mit SFT-Modellen und Open-Source-Modellen verbessert Faver die Generierungsgenauigkeit des Modells um bis zu 14%.
RTL-Design ist die am wenigsten automatisierte und arbeitsintensivste Phase des Chip-Designs. Obwohl LLMs Potenzial bei der RTL-Generierung zeigen, führt die große semantische Kluft zwischen hochrangigen Spezifikationen und RTL sowie begrenzte Trainingsdaten zu schlechter Generierungsgenauigkeit bei bestehenden Modellen.
Direkte LLM-Beurteilung: Mangel an robusten Inferenzwerkzeugen zur Funktionsverifikation basierend auf Spezifikationen
RTL-Testbench-Generierung: Testbench-Daten sind seltener als Designdaten, und die Generierungsschwierigkeit ist vergleichbar mit RTL-Design
Einfache Python-Verifikation: Große Unterschiede zwischen Hardware und Software in Zeit- und Raumgranularität führen zu Co-Verifikationsschwierigkeiten
Lehren aus der menschlichen Designerfahrung in der "Design- und Verifikations"-Methode nutzen, aber die inhärenten Schwierigkeiten von LLMs bei der Hardwareverifikation lösen, insbesondere die Herausforderungen bei zeitabhängigen Variablen und Teststimulus-Generierung.
Faver-Framework vorgestellt: Ermöglicht LLMs, hochrangigen semantischen Code zur Schaltkreisverifikation zu schreiben und von Design- und Verifikationsrahmen zu profitieren
Funktions-Klassen-Abstraktionsvorlagen entworfen: Bildet Takt- und Register-Semantik in Hardware-Design auf ereignisgesteuerte Python/C-Funktionsklassen ab, um die Zeit-Raum-Kluft zwischen Hardware- und Software-Verifikation zu reduzieren
Experimentelle Validierung: Demonstriert auf mehreren Testsets und LLMs, dass Faver die LLM-basierte RTL-Generierungsgenauigkeit um bis zu 14% verbessert
Theoretische Analyse: Bietet mathematische Modelle für Systemerfolgquote und Feedback-Wahrheitsquote
Eingabe: Natürlichsprachliche Spezifikation von Hardwarefunktionsanforderungen
Ausgabe: Funktional korrekte und verifizierte RTL (Verilog) Code
Einschränkungen: Der generierte RTL muss syntaktisch und funktional korrekt sein
DeepSeek-R1-0528 auf RTLLM: Pass@1 von 74% auf sys_sel_pass@1 von 83% verbessert
Qwen2.5-7B-SFT: sys_inner_pass@5 um 14% gegenüber Originalmodell verbessert
Basismodelle zeigen durchschnittlich etwa 10% Verbesserung der Erfolgsquote
Modellübergreifende Konsistenz:
Alle getesteten Modelle zeigen konsistente Verbesserungen auf beiden Datensätzen, was die universelle Wirksamkeit von Faver beweist.
Technische Innovativität: Erste systematische Lösung des Zeitproblems von LLMs bei der Hardwareverifikation durch Klassenvorlagen und ereignisgesteuerte Modelle mit effektiver semantischer Abbildung
Experimentelle Vollständigkeit: Umfassende Bewertung auf mehreren Modellen und Datensätzen, einschließlich Ablationsstudien und theoretischer Analyse
Praktischer Wert: Bereitstellung einer vollständigen Open-Source-Implementierung mit guter Reproduzierbarkeit
Theoretische Unterstützung: Mathematische Modelle für Systemerfolgquote erhöhen die theoretische Grundlage der Methode
Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
ChipGPT, ChipNeMo und andere spezialisierte Hardware-Design-LLMs
VerilogCoder, MAGE und andere Design- und Verifikationsmethoden
RTLLM, VerilogEval und andere Standard-Evaluierungs-Benchmarks
Toffee, Verilator und andere Co-Simulations-Tools
Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der LLM-basierten RTL-Generierung. Durch das innovative Design einer funktionsabstrakten Middleware wird die semantische Kluft zwischen Software- und Hardware-Verifikation effektiv gelöst, die Ergebnisse sind überzeugend und das Paper hat guten praktischen Wert und akademischen Einfluss.