2025-11-12T17:13:10.726463

Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware

Mu, Shi, Wang et al.
LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.
academic

Faver: Verbesserung der LLM-basierten RTL-Generierung mit funktionsabstrakter verifizierbarer Middleware

Grundinformationen

  • Paper-ID: 2510.08664
  • Titel: Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
  • Autoren: Jianan Mu, Mingyu Shi, Yining Wang, Tianmeng Yang, Bin Sun, Xing Hu, Jing Ye, Huawei Li
  • Klassifizierung: cs.SE cs.AI
  • Veröffentlichungsdatum: 9. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.08664

Zusammenfassung

Dieses Paper adressiert das Problem der Genauigkeit bei der RTL-Codegenerierung basierend auf großen Sprachmodellen (LLM) und schlägt eine funktionsabstrakte verifizierbare Middleware (Faver) vor. Die Methode entkoppelt die Details der Schaltkreisverifikation durch die Kombination von LLM-freundlichen Codestrukturen mit regelbasierten Vorlagen, wodurch sich das LLM auf die Funktionalität selbst konzentrieren kann. In Experimenten mit SFT-Modellen und Open-Source-Modellen verbessert Faver die Generierungsgenauigkeit des Modells um bis zu 14%.

Forschungshintergrund und Motivation

1. Kernproblem

RTL-Design ist die am wenigsten automatisierte und arbeitsintensivste Phase des Chip-Designs. Obwohl LLMs Potenzial bei der RTL-Generierung zeigen, führt die große semantische Kluft zwischen hochrangigen Spezifikationen und RTL sowie begrenzte Trainingsdaten zu schlechter Generierungsgenauigkeit bei bestehenden Modellen.

2. Bedeutung des Problems

  • RTL-Design ist ein kritischer Engpass im Integrationschaltkreis-Designfluss
  • Automatisierte RTL-Generierung kann die Chip-Designeffizienz erheblich verbessern
  • Bestehende Methoden nutzen die menschliche Erfahrung in "Design und Verifikation" nicht effektiv

3. Einschränkungen bestehender Methoden

  • Direkte LLM-Beurteilung: Mangel an robusten Inferenzwerkzeugen zur Funktionsverifikation basierend auf Spezifikationen
  • RTL-Testbench-Generierung: Testbench-Daten sind seltener als Designdaten, und die Generierungsschwierigkeit ist vergleichbar mit RTL-Design
  • Einfache Python-Verifikation: Große Unterschiede zwischen Hardware und Software in Zeit- und Raumgranularität führen zu Co-Verifikationsschwierigkeiten

4. Forschungsmotivation

Lehren aus der menschlichen Designerfahrung in der "Design- und Verifikations"-Methode nutzen, aber die inhärenten Schwierigkeiten von LLMs bei der Hardwareverifikation lösen, insbesondere die Herausforderungen bei zeitabhängigen Variablen und Teststimulus-Generierung.

Kernbeiträge

  1. Faver-Framework vorgestellt: Ermöglicht LLMs, hochrangigen semantischen Code zur Schaltkreisverifikation zu schreiben und von Design- und Verifikationsrahmen zu profitieren
  2. Funktions-Klassen-Abstraktionsvorlagen entworfen: Bildet Takt- und Register-Semantik in Hardware-Design auf ereignisgesteuerte Python/C-Funktionsklassen ab, um die Zeit-Raum-Kluft zwischen Hardware- und Software-Verifikation zu reduzieren
  3. Experimentelle Validierung: Demonstriert auf mehreren Testsets und LLMs, dass Faver die LLM-basierte RTL-Generierungsgenauigkeit um bis zu 14% verbessert
  4. Theoretische Analyse: Bietet mathematische Modelle für Systemerfolgquote und Feedback-Wahrheitsquote

Methodendetails

Aufgabendefinition

Eingabe: Natürlichsprachliche Spezifikation von Hardwarefunktionsanforderungen Ausgabe: Funktional korrekte und verifizierte RTL (Verilog) Code Einschränkungen: Der generierte RTL muss syntaktisch und funktional korrekt sein

Modellarchitektur

Das Faver-Framework umfasst vier Schlüsselschritte:

1. Verifikationsspezifikationsgenerierung

  • I/O-Ports beibehalten: Beibehaltung derselben Ein-/Ausgabeport-Definitionen
  • Funktionsabstraktion: Umwandlung der RTL-Topologieverbindungen in Software-Ein-/Ausgabeverarbeitungslogik
  • Grenzwertanalyse: Analyse der RTL-Grenzbedingungen und Aufzählung in der Verifikationsspezifikation

2. Referenzmodellgenerierung basierend auf Klassenvorlagen

Kerndesign:

class ref_model(Model):
    def __init__(self):
        global state_flag0, state_flag1  # Register auf globale Variablen abgebildet
    
    @driver_hook()
    def reset(self):  # Dedizierte Reset-Funktion
        pass
    
    @driver_hook() 
    def step(self):   # Einheitliche Funktionsschnittstelle
        pass
    
    def func1(self):  # Weitere Funktionsfunktionen
        pass

Schlüsseltechniken:

  • Register-zu-globale-Variable-Abbildung: Abbildung von Hardware-Registern auf Klassen-Ebene globale Variablen
  • Takt als Ereignis: Behandlung der Taktflanke als "call step"-Ereignis
  • Einheitliche Schnittstelle: Einheitlicher Zugriff auf Module über die step-Funktion

3. Hierarchische Teststimulus-Generierung

LLM-Regel-Kooperationsmechanismus:

  • Hochrangige Planung: LLM entwirft Testplan zur Gewährleistung umfassender Funktionsraumabdeckung
  • Zeitabhängige Datengenerierung: LLM generiert zeitabhängige Eingabedaten mit starker funktionaler Korrelation
  • Regelbasierte Verfeinerung:
    • Einfügung regelbasierter Reset-Funktionen
    • Grenzwertprüfung und Korrektur des Datenflusses

4. Co-Simulation und iterative Optimierung

  • Python-Verilog-Co-Simulation für präzise Übereinstimmung
  • Zeichenweise Wellenformvergleich, Klassifizierung von Fehlertypen (Funktionsfehler, Zeitmismatch, Grenzwertprobleme)
  • Iterationsschwelle auf 5 gesetzt, um Endlosschleife zu vermeiden

Technische Innovationen

  1. Semantische-Kluft-Überbrückung: Umwandlung von Schaltkreistopologie in Software-Logik durch Funktionsabstraktion
  2. Zeitabhängige-Variable-Extraktion: Innovative Abbildung von Hardware-Zeitkonzepten auf ereignisgesteuerte Software-Modelle
  3. Hierarchische Verifikationsstrategie: Kombination der hochrangigen semantischen Fähigkeiten von LLMs mit der Präzision von Regelsystemen

Experimentelle Einrichtung

Datensätze

  • RTLLM: Akademischer RTL-Codegenerations-Benchmark
  • VerilogEval: Weiterer verbreiteter Verilog-Codegenerations-Evaluierungsdatensatz
  • Selbst gesammelte SFT-Daten: Über 5000 Paare von natürlichsprachlichen Beschreibungen und RTL-Code

Bewertungsmetriken

  • Pass@1: Erfolgsquote bei einmaliger Generierung
  • Pass@5: Erfolgsquote bei mindestens einmaligem Erfolg in fünf Generierungen
  • sys_sel_pass@1: Erfolgsquote des Design- und Verifikationssystems bei Ausgabe eines einzelnen Designs
  • sys_inner_pass@5: Erfolgsquote bei mindestens einem Design in fünf inneren Iterationen

Vergleichsmethoden

Basismodelle:

  • DeepSeek-R1-0528, Kimi K2, GPT-4O, QWQ-32B
  • Qwen2.5-Coder-32B-Instruct

SFT-Modelle:

  • CodeV-Serie, RTLCoder-Mistral-7B, CraftRTL-SC2-15B
  • Qwen2.5-7B-SFT (selbsttrainiert)

Verifikations-Baselines:

  • baseline-V: LLM-generierte Verilog-Testbench
  • baseline-L: LLM als Bewerter
  • baseline-P: LLM-generierte Python-Testbench (ohne Faver)

Implementierungsdetails

  • Verwendung von Toffee (Verilator-basierte Python-Verilog-Co-Simulations-Plattform)
  • Schwelle für kontinuierliche Fehler auf 5 gesetzt
  • LoRA-Methode für SFT-Training zur Reduzierung von Rechenaufwand

Experimentelle Ergebnisse

Hauptergebnisse

Signifikante Leistungsverbesserung:

  • DeepSeek-R1-0528 auf RTLLM: Pass@1 von 74% auf sys_sel_pass@1 von 83% verbessert
  • Qwen2.5-7B-SFT: sys_inner_pass@5 um 14% gegenüber Originalmodell verbessert
  • Basismodelle zeigen durchschnittlich etwa 10% Verbesserung der Erfolgsquote

Modellübergreifende Konsistenz: Alle getesteten Modelle zeigen konsistente Verbesserungen auf beiden Datensätzen, was die universelle Wirksamkeit von Faver beweist.

Ablationsstudien

Komponentenbeitragsanalyse:

  • Faver- (ohne Teststimulus-Generierung): Durchschnittliche Verbesserung von 2,75%
  • Vollständiges Faver: Verbesserung bis zu 12%
  • Beweist, dass sowohl Referenzmodellgenerierung als auch hierarchische Teststimulus-Generierung wichtig zur Leistungsverbesserung beitragen

Verifikator-Leistungsanalyse

Genauigkeitsindikatoren:

  • True Positive deutlich höher als False Positive
  • True Negative deutlich höher als False Negative
  • Validiert die Bedingungen a > b und c > d in der theoretischen Analyse

Iterative Verbesserungseffekte:

  • Faver-DeepSeek-R1-0528 zeigt stabile Genauigkeitsverbesserung während des Iterationsprozesses
  • Originalmodell DeepSeek-R1-0528 zeigt zufällige Genauigkeitsschwankungen

Fallstudien

Am Beispiel des Faltungskern-Designs:

  1. Funktionsabstraktion: Umwandlung der Topologieverbindung von Multiplizierer und Addierer in Faltungsoperation
  2. Grenzwertbehandlung: Identifikation von 8-Bit-Datenbreitenbeschränkung und Dimensionsabstimmungsproblemen
  3. Zeitmapping: Umwandlung von taktgesteuerten Bitströmen in step-Funktionsaufrufreihenfolgen

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. LLM-basierte RTL-Generierung: ChipGPT, ChipNeMo, BetterV und andere spezialisierte Modelle
  2. Design- und Verifikationsmethoden: VerilogCoder, MAGE und andere, die Verifikationsfeedback nutzen
  3. RTL-Verifikation: VerilogReader und andere, die sich auf Testvektorgenerierung konzentrieren

Vorteile dieses Papers

  • Erste systematische Lösung der Zeit-Raum-Kluft bei Python-RTL-Co-Verifikation
  • Bereitstellung eines vollständigen End-to-End-Verifikationsrahmens statt Abhängigkeit von manuellen Testplattformen
  • Vermeidung der Einschränkungen einfacher Ausgabevorhersagemethoden durch Funktionsabstraktion

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Faver überbrückt erfolgreich Software-Verifikationspraktiken mit zeitabhängigen Zustandseigenschaften des Hardware-Designs
  2. Funktionsebenen-präzise Verifikationsfeedback ist entscheidend für die Verbesserung der LLM-Ausgabe in Hardware-Designumgebungen
  3. Hierarchische Verifikationsstrategie kombiniert effektiv die semantischen Fähigkeiten von LLMs mit der Präzision von Regelsystemen

Einschränkungen

  1. Iterationsschwellen-Beschränkung: Die Festlegung einer festen Iterationsschwelle von 5 ist möglicherweise nicht für alle Designkomplexitäten geeignet
  2. Regelsystem-Abhängigkeit: Grenzwertprüfung und Reset-Logik erfordern weiterhin vordefinierte Regeln
  3. Datensatz-Einschränkung: Bewertung erfolgt hauptsächlich auf relativ einfachen akademischen Benchmarks

Zukünftige Richtungen

  1. Erweiterung auf komplexere Hardware-Designs (z.B. Prozessoren, SoCs)
  2. Adaptive Iterationsschwellen und intelligentere Fehlerklassifizierung
  3. Integration mit bestehenden EDA-Tool-Ketten

Tiefgreifende Bewertung

Stärken

  1. Technische Innovativität: Erste systematische Lösung des Zeitproblems von LLMs bei der Hardwareverifikation durch Klassenvorlagen und ereignisgesteuerte Modelle mit effektiver semantischer Abbildung
  2. Experimentelle Vollständigkeit: Umfassende Bewertung auf mehreren Modellen und Datensätzen, einschließlich Ablationsstudien und theoretischer Analyse
  3. Praktischer Wert: Bereitstellung einer vollständigen Open-Source-Implementierung mit guter Reproduzierbarkeit
  4. Theoretische Unterstützung: Mathematische Modelle für Systemerfolgquote erhöhen die theoretische Grundlage der Methode

Mängel

  1. Bewertungsumfang: Hauptsächlich auf akademischen Benchmarks bewertet, fehlt Verifikation von industriellen komplexen Designs
  2. Regelsystem: Weiterhin abhängig von vordefinierten Regeln für Grenzwertprüfung, begrenzte Automatisierung
  3. Skalierbarkeit: Skalierbarkeit der Methode für sehr komplexe Hardware-Designs noch nicht vollständig validiert

Einflussfaktor

  1. Akademischer Beitrag: Bietet neues Verifikationsparadigma für LLM-basierte Hardware-Design-Forschung
  2. Praktischer Wert: Kann direkt auf bestehende RTL-Design-Flüsse angewendet werden mit unmittelbarem Einfluss
  3. Reproduzierbarkeit: Basierend auf Open-Source-Tools implementiert, erleichtert Reproduktion und Erweiterung durch Forschungsgemeinschaft

Anwendungsszenarien

  • Mittlere Komplexität digitaler Schaltkreisdesign
  • Hardware-Entwicklung, die schnelle Prototyp-Verifikation erfordert
  • RTL-Codegenerierung in Bildungs- und Forschungsumgebungen
  • Als Hilfs-Verifikationswerkzeug für bestehende EDA-Tools

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

  • ChipGPT, ChipNeMo und andere spezialisierte Hardware-Design-LLMs
  • VerilogCoder, MAGE und andere Design- und Verifikationsmethoden
  • RTLLM, VerilogEval und andere Standard-Evaluierungs-Benchmarks
  • Toffee, Verilator und andere Co-Simulations-Tools

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen im Bereich der LLM-basierten RTL-Generierung. Durch das innovative Design einer funktionsabstrakten Middleware wird die semantische Kluft zwischen Software- und Hardware-Verifikation effektiv gelöst, die Ergebnisse sind überzeugend und das Paper hat guten praktischen Wert und akademischen Einfluss.