2025-11-12T17:13:10.726463

Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware

Mu, Shi, Wang et al.
LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.
academic

Faver: 関数抽象化可検証ミドルウェアによるLLMベースRTL生成の高速化

基本情報

  • 論文ID: 2510.08664
  • タイトル: Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
  • 著者: Jianan Mu, Mingyu Shi, Yining Wang, Tianmeng Yang, Bin Sun, Xing Hu, Jing Ye, Huawei Li
  • 分類: cs.SE cs.AI
  • 発表日: 2025年10月9日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08664

要約

本論文は、大規模言語モデル(LLM)ベースのRTLコード生成の精度問題に対処するため、関数抽象化可検証ミドルウェア(Faver)を提案する。本手法は、LLMフレンドリーなコード構造とルールベースのテンプレートを組み合わせることで、回路検証の詳細を分離し、LLMが機能そのものに集中できるようにする。SFTモデルとオープンソースモデルの実験において、Faver は生成精度を最大14%向上させた。

研究背景と動機

1. 中核的問題

RTL設計は、チップ設計において自動化の程度が最も低く、最も人的資源を消費するフェーズである。LLMはRTL生成において潜在性を示しているが、高級仕様とRTLの間に存在する大きな意味論的ギャップ、および限定的な訓練データのため、既存モデルは生成精度の面で不十分である。

2. 問題の重要性

  • RTL設計は集積回路設計フローの重要なボトルネック
  • RTL生成の自動化はチップ設計効率を大幅に向上させることができる
  • 既存手法は「設計と検証」の人間の経験を効果的に活用できない

3. 既存手法の限界

  • 直接的なLLM判定: 仕様に基づいて機能を検証するための堅牢な推論ツールが不足
  • RTL testbench生成: testbenchデータは設計データより稀少であり、生成難度はRTL設計と同等
  • 単純なPython検証: ハードウェアとソフトウェアの時空粒度の差異が大きく、共検証が困難

4. 研究動機

人間の設計経験における「設計と検証」手法から着想を得るが、LLMのハードウェア検証における固有の困難、特にタイミング関連変数とテスト刺激生成の課題に対処する必要がある。

中核的貢献

  1. Faverフレームワークの提案: LLMが高級意味論コードを記述して回路を検証し、設計と検証フレームワークから恩恵を受けることを可能にする
  2. 関数クラス抽象化テンプレートの設計: ハードウェア設計のクロックとレジスタ意味論をイベント駆動型のPython/C関数クラスにマッピングし、ハードウェアとソフトウェア検証間の時空ギャップを削減
  3. 実験検証: 複数のテストセットとLLMにおいてFaverがLLMベースのRTL生成精度を最大14%向上させることを実証
  4. 理論分析: システム成功率と反馬力真実率の数学モデルを提供

手法の詳細

タスク定義

入力: 自然言語仕様で記述されたハードウェア機能要件 出力: 機能的に正確で検証を通過したRTL (Verilog)コード 制約: 生成されたRTLは構文と機能の両面で正確である必要がある

モデルアーキテクチャ

Faverフレームワークは4つの重要なステップで構成される:

1. 検証仕様生成 (Verification Specification Generation)

  • I/Oポート保持: 同じ入出力ポート定義を保持
  • 機能抽象化: RTLのトポロジ接続をソフトウェアの入出力処理ロジックに変換
  • 境界分析: RTLの境界条件を分析し、検証仕様で列挙

2. クラステンプレートベースの参照モデル生成

中核設計:

class ref_model(Model):
    def __init__(self):
        global state_flag0, state_flag1  # レジスタをグローバル変数にマッピング
    
    @driver_hook()
    def reset(self):  # 専用リセット関数
        pass
    
    @driver_hook() 
    def step(self):   # 統一機能インターフェース
        pass
    
    def func1(self):  # その他の機能関数
        pass

主要技術:

  • レジスタからグローバル変数へのマッピング: ハードウェアレジスタをクラスレベルのグローバル変数にマッピング
  • クロックをイベントとして: クロック立ち上がりを「call step」イベントとして扱う
  • 統一インターフェース: step関数を通じて各モジュールへの統一的なアクセス

3. 階層的テスト刺激生成

LLM-ルール協調メカニズム:

  • 高級計画: LLMがテスト計画を設計し、機能空間の包括的カバレッジを確保
  • 時系列データ生成: LLMが強い機能相関性を持つ時系列入力データを生成
  • ルールベースの精密化:
    • ルールベースのリセット関数を挿入
    • データフローに対する境界チェックと修正を実行

4. 協調シミュレーションと反復最適化

  • Python-Verilog協調シミュレーションを使用した精密マッチング
  • 波形の文字レベル比較、エラータイプの分類(機能エラー、タイミング不一致、境界条件問題)
  • 反復閾値を5回に設定し、無限ループを回避

技術的革新点

  1. 意味論的ギャップの橋渡し: 機能抽象化を通じて回路トポロジをソフトウェアロジックに変換
  2. タイミング変数抽出: ハードウェアタイミング概念をソフトウェアイベント駆動モデルに革新的にマッピング
  3. 階層的検証戦略: LLMの高級意味論能力とルールシステムの精密性を結合

実験設定

データセット

  • RTLLM: 学術界のRTLコード生成ベンチマークテストセット
  • VerilogEval: 広く使用されているVerilogコード生成評価データセット
  • 自己収集SFTデータ: 5000以上の自然言語記述とRTLコードペアのデータセット

評価指標

  • Pass@1: 単一生成の通過率
  • Pass@5: 5回の生成中少なくとも1回通過する成功率
  • sys_sel_pass@1: 設計と検証システムが単一設計を出力する通過率
  • sys_inner_pass@5: 5回の内部反復中いずれかの設計が通過する成功率

比較手法

基礎モデル:

  • DeepSeek-R1-0528, Kimi K2, GPT-4O, QWQ-32B
  • Qwen2.5-Coder-32B-Instruct

SFTモデル:

  • CodeVシリーズ, RTLCoder-Mistral-7B, CraftRTL-SC2-15B
  • Qwen2.5-7B-SFT (自己訓練)

検証ベースライン:

  • baseline-V: LLMが生成するVerilog testbench
  • baseline-L: 判定器としてのLLM
  • baseline-P: LLMが生成するPython testbench (Faverなし)

実装詳細

  • Toffee (VerilatorベースのPython-Verilog協調シミュレーションプラットフォーム)を使用
  • 連続失敗閾値を5に設定
  • 計算コスト削減のためLoRA手法を採用したSFT訓練

実験結果

主要結果

顕著な性能向上:

  • DeepSeek-R1-0528 (RTLLM上): Pass@1が74%からsys_sel_pass@1の83%に向上
  • Qwen2.5-7B-SFT: sys_inner_pass@5が元のモデルから14%向上
  • 基礎モデル全般で約10%の通過率向上を達成

クロスモデル一貫性: すべてのテストモデルが両データセット上で一貫した改善を示し、Faverの汎用的有効性を証明

アブレーション実験

コンポーネント貢献分析:

  • Faver- (テスト刺激生成なし): 平均2.75%向上
  • 完全なFaver: 最大12%向上
  • 参照モデル生成と階層的テスト刺激生成の両方が性能向上に重要な貢献をすることを証明

検証器性能分析

精度指標:

  • True Positiveが False Positiveを大幅に上回る
  • True Negativeが False Negativeを大幅に上回る
  • 理論分析のa > bおよびc > dの条件を検証

反復改善効果:

  • Faver-DeepSeek-R1-0528は反復プロセス中に安定した精度向上を示す
  • 元のDeepSeek-R1-0528の精度はランダムな変動パターンを示す

ケース分析

畳み込みカーネル設計の例:

  1. 機能抽象化: 乗算器と加算器のトポロジ接続を畳み込み操作に抽象化
  2. 境界処理: 8ビットデータ幅制約と次元マッチング問題を識別
  3. タイミングマッピング: クロック駆動ビットストリームをstep関数呼び出しシーケンスに変換

関連研究

主要研究方向

  1. LLMベースRTL生成: ChipGPT, ChipNeMo, BetterVなどの専門モデル
  2. 設計と検証手法: VerilogCoder, MAGEなど検証フィードバックを採用する手法
  3. RTL検証: VerilogReaderなどテストベクトル生成に焦点を当てた研究

本論文の優位性

  • Python-RTL協調検証の時空ギャップ問題を初めて体系的に解決
  • 手動テストプラットフォームに依存するのではなく、完全なエンドツーエンド検証フレームワークを提供
  • 機能抽象化により単純な出力予測手法の限界を回避

結論と考察

主要結論

  1. Faverはソフトウェア検証実践とハードウェア設計のタイミング状態依存特性を成功裏に橋渡しする
  2. 機能レベルの精密検証フィードバックはハードウェア設計環境におけるLLM出力の改善に重要
  3. 階層的検証戦略はLLMの意味論能力とルールシステムの精密性を効果的に結合

限界

  1. 反復閾値の制限: 固定の5回反復閾値がすべての複雑度の設計に適用可能でない可能性
  2. ルールシステムへの依存: 境界チェックとリセットロジックは依然として事前定義ルールが必要
  3. データセット限界: 評価は比較的単純な学術ベンチマークで主に実施

今後の方向性

  1. より複雑なハードウェア設計(プロセッサ、SoC等)への拡張
  2. 適応的反復閾値とより知的なエラー分類
  3. 既存EDAツールチェーンとの統合

深度評価

利点

  1. 技術的革新性: LLMのハードウェア検証におけるタイミング問題を初めて体系的に解決し、クラステンプレートとイベント駆動モデルを通じて効果的な意味論マッピングを実現
  2. 実験の充実性: 複数のモデル、データセット上で包括的評価を実施、アブレーション実験と理論分析を含む
  3. 実用的価値: 完全なオープンソース実装を提供し、優れた再現性を有する
  4. 理論的支援: システム成功率の数学モデルを提供し、手法の理論的基礎を強化

不足点

  1. 評価範囲: 主に学術ベンチマークで評価、産業級複雑設計の検証が不足
  2. ルールシステム: 依然として事前定義ルールによる境界チェックに依存、自動化程度に限界
  3. 拡張性: 非常に複雑なハードウェア設計に対する手法の拡張性が十分検証されていない

影響力

  1. 学術的貢献: LLMベースハードウェア設計分野に新しい検証パラダイムを提供
  2. 実用的価値: 既存RTL設計フローに直接適用可能で、即座のインパクトを有する
  3. 再現性: オープンソースツールに基づいて実装され、研究コミュニティによる再現と拡張が容易

適用シナリオ

  • 中程度の複雑度のデジタル回路設計
  • 迅速なプロトタイプ検証が必要なハードウェア開発
  • 教育および研究環境におけるRTLコード生成
  • 既存EDAツールの補助検証ツールとして

参考文献

論文は本分野の重要な研究を引用しており、以下を含む:

  • ChipGPT, ChipNeMoなどの専門ハードウェア設計LLM
  • VerilogCoder, MAGEなどの設計と検証手法
  • RTLLM, VerilogEvalなどの標準評価ベンチマーク
  • Toffee, Verilatorなどの協調シミュレーションツール

総合評価: これはLLMベースRTL生成分野における重要な貢献を有する高品質論文である。革新的な関数抽象化ミドルウェア設計を通じて、ソフトウェアとハードウェア検証間の意味論的ギャップ問題を効果的に解決し、実験結果は説得力があり、優れた実用的価値と学術的影響力を有する。