2025-11-12T17:13:10.726463

Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware

Mu, Shi, Wang et al.

LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.

academic

Faver: 함수 추상화 검증 가능 미들웨어를 통한 LLM 기반 RTL 생성 성능 향상

기본 정보

논문 ID: 2510.08664
제목: Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
저자: Jianan Mu, Mingyu Shi, Yining Wang, Tianmeng Yang, Bin Sun, Xing Hu, Jing Ye, Huawei Li
분류: cs.SE cs.AI
발표 시간: 2025년 10월 9일 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2510.08664

초록

본 논문은 대규모 언어 모델(LLM) 기반 RTL 코드 생성의 정확성 문제를 해결하기 위해 함수 추상화 검증 가능 미들웨어(Faver)를 제안합니다. 이 방법은 LLM 친화적 코드 구조와 규칙 기반 템플릿을 결합하여 회로 검증의 세부 사항을 분리함으로써 LLM이 기능 자체에 집중할 수 있도록 합니다. SFT 모델과 오픈소스 모델에 대한 실험에서 Faver는 모델의 생성 정확도를 최대 14%까지 향상시켰습니다.

연구 배경 및 동기

1. 핵심 문제

RTL 설계는 칩 설계에서 자동화 수준이 가장 낮고 인력 소비가 가장 많은 단계입니다. LLM이 RTL 생성에서 잠재력을 보여주고 있지만, 고수준 명세와 RTL 사이의 거대한 의미론적 격차와 제한된 훈련 데이터로 인해 기존 모델의 생성 정확성이 부족합니다.

2. 문제의 중요성

RTL 설계는 집적 회로 설계 흐름의 핵심 병목
RTL 생성 자동화는 칩 설계 효율을 크게 향상시킬 수 있음
기존 방법은 "설계 및 검증"의 인간 경험을 효과적으로 활용하지 못함

3. 기존 방법의 한계

직접 LLM 판단: 명세를 기반으로 기능을 검증하는 견고한 추론 도구 부족
RTL 테스트벤치 생성: 테스트벤치 데이터가 설계 데이터보다 더 희소하며, 생성 난이도가 RTL 설계와 동등함
단순 Python 검증: 하드웨어와 소프트웨어의 시공간 입도 차이로 인한 공동 검증의 어려움

4. 연구 동기

인간 설계 경험의 "설계 및 검증" 방법론을 차용하되, LLM의 하드웨어 검증 고유의 어려움, 특히 시간 관련 변수와 테스트 자극 생성의 과제를 해결해야 함.

핵심 기여

Faver 프레임워크 제안: LLM이 고수준 의미론적 코드를 작성하여 회로를 검증하고 설계 및 검증 프레임워크의 이점을 활용할 수 있도록 함
함수-클래스 추상화 템플릿 설계: 하드웨어 설계의 클록과 레지스터 의미론을 이벤트 기반 Python/C 함수 클래스로 매핑하여 하드웨어와 소프트웨어 검증 간의 시공간 격차 감소
실험 검증: 다양한 테스트 세트와 LLM에서 Faver가 LLM 기반 RTL 생성 정확도를 최대 14%까지 향상시킴을 증명
이론적 분석: 시스템 성공률과 피드백 진정성률의 수학적 모델 제공

방법론 상세 설명

작업 정의

입력: 자연언어 명세로 기술된 하드웨어 기능 요구사항 출력: 기능적으로 정확하고 검증을 통과한 RTL (Verilog) 코드 제약: 생성된 RTL은 구문 및 기능적으로 정확해야 함

모델 아키텍처

Faver 프레임워크는 네 가지 핵심 단계로 구성됩니다:

1. 검증 명세 생성 (Verification Specification Generation)

I/O 포트 유지: 동일한 입출력 포트 정의 유지
기능 추상화: RTL의 위상 연결을 소프트웨어의 입출력 처리 로직으로 변환
경계 분석: RTL의 경계 조건을 분석하고 검증 명세에 열거

2. 클래스 템플릿 기반 참조 모델 생성

핵심 설계:

class ref_model(Model):
    def __init__(self):
        global state_flag0, state_flag1  # 레지스터를 전역 변수로 매핑
    
    @driver_hook()
    def reset(self):  # 전용 리셋 함수
        pass
    
    @driver_hook() 
    def step(self):   # 통합 기능 인터페이스
        pass
    
    def func1(self):  # 기타 기능 함수
        pass

핵심 기술:

레지스터-전역 변수 매핑: 하드웨어 레지스터를 클래스 수준 전역 변수로 매핑
클록을 이벤트로: 클록 상승 엣지를 "call step" 이벤트로 취급
통합 인터페이스: step 함수를 통한 각 모듈에 대한 통합 접근

3. 계층적 테스트 자극 생성

LLM-규칙 협력 메커니즘:

고수준 계획: LLM이 테스트 계획을 설계하여 기능 공간의 포괄적 커버리지 보장
시간 데이터 생성: LLM이 강한 기능 상관성을 가진 시간 입력 데이터 생성
규칙 기반 정제:
- 규칙 기반 리셋 함수 삽입
- 데이터 흐름에 대한 경계 검사 및 수정

4. 협동 시뮬레이션 및 반복 최적화

Python-Verilog 협동 시뮬레이션을 사용한 정확한 매칭
파형 문자 수준 비교, 오류 유형 분류 (기능 오류, 시간 불일치, 경계 조건 문제)
반복 임계값을 5회로 설정하여 무한 루프 방지

기술 혁신점

의미론적 격차 교량: 기능 추상화를 통해 회로 위상을 소프트웨어 로직으로 변환
시간 변수 추출: 하드웨어 시간 개념을 소프트웨어 이벤트 기반 모델로 혁신적으로 매핑
계층적 검증 전략: LLM의 고수준 의미론적 능력과 규칙 시스템의 정확성 결합

실험 설정

데이터셋

RTLLM: 학계 RTL 코드 생성 벤치마크 테스트 세트
VerilogEval: 광범위하게 사용되는 또 다른 Verilog 코드 생성 평가 데이터셋
자체 수집 SFT 데이터: 5000개 이상의 자연언어 설명과 RTL 코드 쌍 데이터셋

평가 지표

Pass@1: 단일 생성의 통과율
Pass@5: 5회 생성 중 최소 1회 통과의 성공률
sys_sel_pass@1: 설계 및 검증 시스템이 단일 설계를 출력할 때의 통과율
sys_inner_pass@5: 5회 내부 반복 중 임의의 설계가 통과할 성공률

비교 방법

기본 모델:

DeepSeek-R1-0528, Kimi K2, GPT-4O, QWQ-32B
Qwen2.5-Coder-32B-Instruct

SFT 모델:

CodeV 시리즈, RTLCoder-Mistral-7B, CraftRTL-SC2-15B
Qwen2.5-7B-SFT (자체 훈련)

검증 기준선:

baseline-V: LLM이 생성한 Verilog 테스트벤치
baseline-L: 판단자로서의 LLM
baseline-P: LLM이 생성한 Python 테스트벤치 (Faver 없음)

구현 세부사항

Toffee (Verilator 기반 Python-Verilog 협동 시뮬레이션 플랫폼) 사용
연속 실패 임계값을 5로 설정
계산 오버헤드 감소를 위해 LoRA 방법으로 SFT 훈련 수행

실험 결과

주요 결과

현저한 성능 향상:

DeepSeek-R1-0528 (RTLLM): Pass@1에서 74%에서 sys_sel_pass@1의 83%로 향상
Qwen2.5-7B-SFT: sys_inner_pass@5가 원본 모델 대비 14% 향상
기본 모델들이 전반적으로 약 10%의 통과율 향상 달성

모델 간 일관성: 모든 테스트 모델이 두 데이터셋에서 일관된 개선을 보여주어 Faver의 범용 유효성을 증명.

절제 실험

구성 요소 기여도 분석:

Faver- (테스트 자극 생성 없음): 평균 2.75% 향상
완전한 Faver: 최대 12% 향상
참조 모델 생성과 계층적 테스트 자극 생성이 모두 성능 향상에 중요한 기여함을 증명

검증자 성능 분석

정확성 지표:

참 양성이 거짓 양성보다 현저히 높음
참 음성이 거짓 음성보다 현저히 높음
이론 분석의 a > b 및 c > d 조건 검증

반복 개선 효과:

Faver-DeepSeek-R1-0528이 반복 과정에서 안정적인 정확도 향상 표시
원본 DeepSeek-R1-0528의 정확도는 무작위 변동 패턴 표시

사례 분석

합성곱 커널 설계를 예로 들면:

기능 추상화: 승수기와 가산기의 위상 연결을 합성곱 연산으로 추상화
경계 처리: 8비트 데이터 폭 제약 및 차원 일치 문제 식별
시간 매핑: 클록 구동 비트스트림을 step 함수 호출 시퀀스로 변환

결론 및 토론

주요 결론

Faver는 소프트웨어 검증 실무와 하드웨어 설계의 시간 상태 의존성 특성을 성공적으로 교량
기능 수준의 정확한 검증 피드백이 하드웨어 설계 환경에서 LLM 출력 개선에 중요
계층적 검증 전략이 LLM의 의미론적 능력과 규칙 시스템의 정확성을 효과적으로 결합

한계

반복 임계값 제한: 고정된 5회 반복 임계값이 모든 복잡도의 설계에 적합하지 않을 수 있음
규칙 시스템 의존성: 경계 검사 및 리셋 로직이 여전히 사전 정의된 규칙 필요
데이터셋 한계: 평가가 주로 상대적으로 단순한 학계 벤치마크에서 수행됨

향후 방향

더 복잡한 하드웨어 설계 (예: 프로세서, SoC)로 확장
적응형 반복 임계값 및 더 지능형 오류 분류
기존 EDA 도구 체인과의 통합

심층 평가

장점

기술 혁신성: LLM의 하드웨어 검증 시간 문제를 처음으로 체계적으로 해결하며, 클래스 템플릿과 이벤트 기반 모델을 통한 효과적인 의미론적 매핑 구현
실험 충분성: 다양한 모델, 데이터셋에서 포괄적 평가 수행, 절제 실험 및 이론 분석 포함
실용적 가치: 완전한 오픈소스 구현 제공으로 우수한 재현성 보유
이론적 지원: 시스템 성공률의 수학적 모델 제공으로 방법의 이론적 기초 강화

부족한 점

평가 범위: 주로 학계 벤치마크에서 평가되며, 산업 수준의 복잡한 설계 검증 부족
규칙 시스템: 경계 검사를 위해 여전히 사전 정의된 규칙에 의존하여 자동화 수준 제한
확장성: 매우 복잡한 하드웨어 설계에 대한 방법의 확장성이 충분히 검증되지 않음

영향력

학술 기여: LLM 기반 하드웨어 설계 분야에 새로운 검증 패러다임 제공
실용적 가치: 기존 RTL 설계 흐름에 직접 적용 가능하여 즉각적인 영향 보유
재현성: 오픈소스 도구 기반 구현으로 연구 커뮤니티의 재현 및 확장 용이

적용 시나리오

중간 복잡도의 디지털 회로 설계
빠른 프로토타입 검증이 필요한 하드웨어 개발
교육 및 연구 환경의 RTL 코드 생성
기존 EDA 도구의 보조 검증 도구로 활용

참고문헌

논문은 해당 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:

ChipGPT, ChipNeMo 등 전문 하드웨어 설계 LLM
VerilogCoder, MAGE 등 설계 및 검증 방법
RTLLM, VerilogEval 등 표준 평가 벤치마크
Toffee, Verilator 등 협동 시뮬레이션 도구

종합 평가: 이는 LLM 기반 RTL 생성 분야에서 중요한 기여를 하는 고품질 논문입니다. 혁신적인 함수 추상화 미들웨어 설계를 통해 소프트웨어-하드웨어 검증 간의 의미론적 격차 문제를 효과적으로 해결하며, 설득력 있는 실험 결과와 우수한 실용적 가치 및 학술적 영향력을 보유하고 있습니다.