2025-11-12T17:13:10.726463

Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware

Mu, Shi, Wang et al.

LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.

academic

Faver: Verbesserung der LLM-basierten RTL-Generierung mit funktionsabstrakter verifizierbarer Middleware

Grundinformationen

Paper-ID: 2510.08664
Titel: Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
Autoren: Jianan Mu, Mingyu Shi, Yining Wang, Tianmeng Yang, Bin Sun, Xing Hu, Jing Ye, Huawei Li
Klassifizierung: cs.SE cs.AI
Veröffentlichungsdatum: 9. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.08664

Zusammenfassung

Dieses Paper adressiert das Problem der Genauigkeit bei der RTL-Codegenerierung basierend auf großen Sprachmodellen (LLM) und schlägt eine funktionsabstrakte verifizierbare Middleware (Faver) vor. Die Methode entkoppelt die Details der Schaltkreisverifikation durch die Kombination von LLM-freundlichen Codestrukturen mit regelbasierten Vorlagen, wodurch sich das LLM auf die Funktionalität selbst konzentrieren kann. In Experimenten mit SFT-Modellen und Open-Source-Modellen verbessert Faver die Generierungsgenauigkeit des Modells um bis zu 14%.

Forschungshintergrund und Motivation

1. Kernproblem

RTL-Design ist die am wenigsten automatisierte und arbeitsintensivste Phase des Chip-Designs. Obwohl LLMs Potenzial bei der RTL-Generierung zeigen, führt die große semantische Kluft zwischen hochrangigen Spezifikationen und RTL sowie begrenzte Trainingsdaten zu schlechter Generierungsgenauigkeit bei bestehenden Modellen.

2. Bedeutung des Problems

RTL-Design ist ein kritischer Engpass im Integrationschaltkreis-Designfluss
Automatisierte RTL-Generierung kann die Chip-Designeffizienz erheblich verbessern
Bestehende Methoden nutzen die menschliche Erfahrung in "Design und Verifikation" nicht effektiv

3. Einschränkungen bestehender Methoden

Direkte LLM-Beurteilung: Mangel an robusten Inferenzwerkzeugen zur Funktionsverifikation basierend auf Spezifikationen
RTL-Testbench-Generierung: Testbench-Daten sind seltener als Designdaten, und die Generierungsschwierigkeit ist vergleichbar mit RTL-Design
Einfache Python-Verifikation: Große Unterschiede zwischen Hardware und Software in Zeit- und Raumgranularität führen zu Co-Verifikationsschwierigkeiten

4. Forschungsmotivation

Lehren aus der menschlichen Designerfahrung in der "Design- und Verifikations"-Methode nutzen, aber die inhärenten Schwierigkeiten von LLMs bei der Hardwareverifikation lösen, insbesondere die Herausforderungen bei zeitabhängigen Variablen und Teststimulus-Generierung.

Kernbeiträge

Faver-Framework vorgestellt: Ermöglicht LLMs, hochrangigen semantischen Code zur Schaltkreisverifikation zu schreiben und von Design- und Verifikationsrahmen zu profitieren
Funktions-Klassen-Abstraktionsvorlagen entworfen: Bildet Takt- und Register-Semantik in Hardware-Design auf ereignisgesteuerte Python/C-Funktionsklassen ab, um die Zeit-Raum-Kluft zwischen Hardware- und Software-Verifikation zu reduzieren
Experimentelle Validierung: Demonstriert auf mehreren Testsets und LLMs, dass Faver die LLM-basierte RTL-Generierungsgenauigkeit um bis zu 14% verbessert
Theoretische Analyse: Bietet mathematische Modelle für Systemerfolgquote und Feedback-Wahrheitsquote

Methodendetails

Aufgabendefinition

Eingabe: Natürlichsprachliche Spezifikation von Hardwarefunktionsanforderungen Ausgabe: Funktional korrekte und verifizierte RTL (Verilog) Code Einschränkungen: Der generierte RTL muss syntaktisch und funktional korrekt sein

Modellarchitektur

Das Faver-Framework umfasst vier Schlüsselschritte:

1. Verifikationsspezifikationsgenerierung

I/O-Ports beibehalten: Beibehaltung derselben Ein-/Ausgabeport-Definitionen
Funktionsabstraktion: Umwandlung der RTL-Topologieverbindungen in Software-Ein-/Ausgabeverarbeitungslogik
Grenzwertanalyse: Analyse der RTL-Grenzbedingungen und Aufzählung in der Verifikationsspezifikation

2. Referenzmodellgenerierung basierend auf Klassenvorlagen

Kerndesign:

class ref_model(Model):
    def __init__(self):
        global state_flag0, state_flag1  # Register auf globale Variablen abgebildet
    
    @driver_hook()
    def reset(self):  # Dedizierte Reset-Funktion
        pass
    
    @driver_hook() 
    def step(self):   # Einheitliche Funktionsschnittstelle
        pass
    
    def func1(self):  # Weitere Funktionsfunktionen
        pass

Schlüsseltechniken:

Register-zu-globale-Variable-Abbildung: Abbildung von Hardware-Registern auf Klassen-Ebene globale Variablen
Takt als Ereignis: Behandlung der Taktflanke als "call step"-Ereignis
Einheitliche Schnittstelle: Einheitlicher Zugriff auf Module über die step-Funktion

3. Hierarchische Teststimulus-Generierung

LLM-Regel-Kooperationsmechanismus:

Hochrangige Planung: LLM entwirft Testplan zur Gewährleistung umfassender Funktionsraumabdeckung
Zeitabhängige Datengenerierung: LLM generiert zeitabhängige Eingabedaten mit starker funktionaler Korrelation
Regelbasierte Verfeinerung:
- Einfügung regelbasierter Reset-Funktionen
- Grenzwertprüfung und Korrektur des Datenflusses

4. Co-Simulation und iterative Optimierung

Python-Verilog-Co-Simulation für präzise Übereinstimmung
Zeichenweise Wellenformvergleich, Klassifizierung von Fehlertypen (Funktionsfehler, Zeitmismatch, Grenzwertprobleme)
Iterationsschwelle auf 5 gesetzt, um Endlosschleife zu vermeiden

Technische Innovationen

Semantische-Kluft-Überbrückung: Umwandlung von Schaltkreistopologie in Software-Logik durch Funktionsabstraktion
Zeitabhängige-Variable-Extraktion: Innovative Abbildung von Hardware-Zeitkonzepten auf ereignisgesteuerte Software-Modelle
Hierarchische Verifikationsstrategie: Kombination der hochrangigen semantischen Fähigkeiten von LLMs mit der Präzision von Regelsystemen

Experimentelle Einrichtung

Datensätze

RTLLM: Akademischer RTL-Codegenerations-Benchmark
VerilogEval: Weiterer verbreiteter Verilog-Codegenerations-Evaluierungsdatensatz
Selbst gesammelte SFT-Daten: Über 5000 Paare von natürlichsprachlichen Beschreibungen und RTL-Code

Bewertungsmetriken

Pass@1: Erfolgsquote bei einmaliger Generierung
Pass@5: Erfolgsquote bei mindestens einmaligem Erfolg in fünf Generierungen
sys_sel_pass@1: Erfolgsquote des Design- und Verifikationssystems bei Ausgabe eines einzelnen Designs
sys_inner_pass@5: Erfolgsquote bei mindestens einem Design in fünf inneren Iterationen

Vergleichsmethoden

Basismodelle:

DeepSeek-R1-0528, Kimi K2, GPT-4O, QWQ-32B
Qwen2.5-Coder-32B-Instruct

SFT-Modelle:

CodeV-Serie, RTLCoder-Mistral-7B, CraftRTL-SC2-15B
Qwen2.5-7B-SFT (selbsttrainiert)

Verifikations-Baselines:

baseline-V: LLM-generierte Verilog-Testbench
baseline-L: LLM als Bewerter
baseline-P: LLM-generierte Python-Testbench (ohne Faver)

Implementierungsdetails

Verwendung von Toffee (Verilator-basierte Python-Verilog-Co-Simulations-Plattform)
Schwelle für kontinuierliche Fehler auf 5 gesetzt
LoRA-Methode für SFT-Training zur Reduzierung von Rechenaufwand

Experimentelle Ergebnisse

Hauptergebnisse

Signifikante Leistungsverbesserung:

DeepSeek-R1-0528 auf RTLLM: Pass@1 von 74% auf sys_sel_pass@1 von 83% verbessert
Qwen2.5-7B-SFT: sys_inner_pass@5 um 14% gegenüber Originalmodell verbessert
Basismodelle zeigen durchschnittlich etwa 10% Verbesserung der Erfolgsquote

Modellübergreifende Konsistenz: Alle getesteten Modelle zeigen konsistente Verbesserungen auf beiden Datensätzen, was die universelle Wirksamkeit von Faver beweist.

Ablationsstudien

Komponentenbeitragsanalyse:

Faver- (ohne Teststimulus-Generierung): Durchschnittliche Verbesserung von 2,75%
Vollständiges Faver: Verbesserung bis zu 12%
Beweist, dass sowohl Referenzmodellgenerierung als auch hierarchische Teststimulus-Generierung wichtig zur Leistungsverbesserung beitragen

Verifikator-Leistungsanalyse

Genauigkeitsindikatoren:

True Positive deutlich höher als False Positive
True Negative deutlich höher als False Negative
Validiert die Bedingungen a > b und c > d in der theoretischen Analyse

Iterative Verbesserungseffekte:

Faver-DeepSeek-R1-0528 zeigt stabile Genauigkeitsverbesserung während des Iterationsprozesses
Originalmodell DeepSeek-R1-0528 zeigt zufällige Genauigkeitsschwankungen

Fallstudien

Am Beispiel des Faltungskern-Designs:

Funktionsabstraktion: Umwandlung der Topologieverbindung von Multiplizierer und Addierer in Faltungsoperation
Grenzwertbehandlung: Identifikation von 8-Bit-Datenbreitenbeschränkung und Dimensionsabstimmungsproblemen
Zeitmapping: Umwandlung von taktgesteuerten Bitströmen in step-Funktionsaufrufreihenfolgen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Faver überbrückt erfolgreich Software-Verifikationspraktiken mit zeitabhängigen Zustandseigenschaften des Hardware-Designs
Funktionsebenen-präzise Verifikationsfeedback ist entscheidend für die Verbesserung der LLM-Ausgabe in Hardware-Designumgebungen
Hierarchische Verifikationsstrategie kombiniert effektiv die semantischen Fähigkeiten von LLMs mit der Präzision von Regelsystemen

Einschränkungen

Iterationsschwellen-Beschränkung: Die Festlegung einer festen Iterationsschwelle von 5 ist möglicherweise nicht für alle Designkomplexitäten geeignet
Regelsystem-Abhängigkeit: Grenzwertprüfung und Reset-Logik erfordern weiterhin vordefinierte Regeln
Datensatz-Einschränkung: Bewertung erfolgt hauptsächlich auf relativ einfachen akademischen Benchmarks

Zukünftige Richtungen

Erweiterung auf komplexere Hardware-Designs (z.B. Prozessoren, SoCs)
Adaptive Iterationsschwellen und intelligentere Fehlerklassifizierung
Integration mit bestehenden EDA-Tool-Ketten

Tiefgreifende Bewertung

Stärken

Technische Innovativität: Erste systematische Lösung des Zeitproblems von LLMs bei der Hardwareverifikation durch Klassenvorlagen und ereignisgesteuerte Modelle mit effektiver semantischer Abbildung
Experimentelle Vollständigkeit: Umfassende Bewertung auf mehreren Modellen und Datensätzen, einschließlich Ablationsstudien und theoretischer Analyse
Praktischer Wert: Bereitstellung einer vollständigen Open-Source-Implementierung mit guter Reproduzierbarkeit
Theoretische Unterstützung: Mathematische Modelle für Systemerfolgquote erhöhen die theoretische Grundlage der Methode

Mängel

Bewertungsumfang: Hauptsächlich auf akademischen Benchmarks bewertet, fehlt Verifikation von industriellen komplexen Designs
Regelsystem: Weiterhin abhängig von vordefinierten Regeln für Grenzwertprüfung, begrenzte Automatisierung
Skalierbarkeit: Skalierbarkeit der Methode für sehr komplexe Hardware-Designs noch nicht vollständig validiert

Einflussfaktor

Akademischer Beitrag: Bietet neues Verifikationsparadigma für LLM-basierte Hardware-Design-Forschung
Praktischer Wert: Kann direkt auf bestehende RTL-Design-Flüsse angewendet werden mit unmittelbarem Einfluss
Reproduzierbarkeit: Basierend auf Open-Source-Tools implementiert, erleichtert Reproduktion und Erweiterung durch Forschungsgemeinschaft

Anwendungsszenarien

Mittlere Komplexität digitaler Schaltkreisdesign
Hardware-Entwicklung, die schnelle Prototyp-Verifikation erfordert
RTL-Codegenerierung in Bildungs- und Forschungsumgebungen
Als Hilfs-Verifikationswerkzeug für bestehende EDA-Tools

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

ChipGPT, ChipNeMo und andere spezialisierte Hardware-Design-LLMs
VerilogCoder, MAGE und andere Design- und Verifikationsmethoden
RTLLM, VerilogEval und andere Standard-Evaluierungs-Benchmarks
Toffee, Verilator und andere Co-Simulations-Tools

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der LLM-basierten RTL-Generierung. Durch das innovative Design einer funktionsabstrakten Middleware wird die semantische Kluft zwischen Software- und Hardware-Verifikation effektiv gelöst, die Ergebnisse sind überzeugend und das Paper hat guten praktischen Wert und akademischen Einfluss.