Faver: Boosting LLM-based RTL Generation with Function Abstracted Verifiable Middleware
Mu, Shi, Wang et al.
LLM-based RTL generation is an interesting research direction, as it holds the potential to liberate the least automated stage in the current chip design. However, due to the substantial semantic gap between high-level specifications and RTL, coupled with limited training data, existing models struggle with generation accuracy. Drawing on human experience, design with verification helps improving accuracy. However, as the RTL testbench data are even more scarce, it is not friendly for LLMs. Although LLMs excel at higher-level languages like Python/C, they have a huge semantic gap from RTL. When implementing the same functionality, Python/C code and hardware code differ significantly in the spatiotemporal granularity, requiring the LLM not only to consider high-level functional semantics but also to ensure the low-level details align with the circuit code. It is not an easy task. In this paper, we propose a function abstracted verifiable middleware (Faver) that streamlines RTL verification in LLM-based workflows. By mixing LLM-friendly code structures with a rule-based template, Faver decouples the details of circuit verification, allowing the LLM to focus on the functionality itself. In our experiments on the SFT model and open-source models, Faver improved the model's generation accuracy by up to 14%.
academic
Faver: Повышение генерации RTL на основе LLM с помощью функционально абстрактного проверяемого промежуточного слоя
В данной работе предлагается функционально абстрактный проверяемый промежуточный слой (Faver) для решения проблемы точности генерации RTL-кода на основе больших языковых моделей (LLM). Метод объединяет благоприятную для LLM структуру кода с шаблонами на основе правил, разделяя детали верификации схемы, что позволяет LLM сосредоточиться на самой функциональности. В экспериментах с моделями SFT и открытыми моделями Faver повышает точность генерации модели на 14%.
Проектирование RTL является наименее автоматизированным и наиболее трудоёмким этапом проектирования микросхем. Хотя LLM демонстрируют потенциал в генерации RTL, существующие модели показывают плохую точность генерации из-за огромной семантической пропасти между высокоуровневыми спецификациями и RTL, а также ограниченности обучающих данных.
Прямое суждение LLM: отсутствие надёжных инструментов рассуждения для верификации функциональности на основе спецификации
Генерация RTL testbench: данные testbench более редки, чем данные проектирования, и сложность генерации сравнима с проектированием RTL
Простая верификация на Python: огромные различия между аппаратным и программным обеспечением в пространственно-временной гранулярности затрудняют совместную верификацию
Заимствование методологии "проектирования и верификации" из человеческого опыта проектирования, но с необходимостью решения врождённых трудностей LLM в верификации аппаратного обеспечения, особенно в отношении переменных, связанных с синхронизацией, и генерации тестовых стимулов.
Предложение фреймворка Faver: позволяет LLM писать высокоуровневый семантический код для верификации схемы и извлекать выгоду из фреймворка проектирования и верификации
Разработка функционально-классовых абстрактных шаблонов: отображение семантики часов и регистров в аппаратном проектировании на управляемые событиями классы функций Python/C, сокращение пространственно-временной пропасти между верификацией аппаратного и программного обеспечения
Экспериментальная верификация: доказательство того, что Faver повышает точность генерации RTL на основе LLM на 14% на нескольких тестовых наборах и LLM
Теоретический анализ: предоставление математических моделей для системной успешности и истинности обратной связи
Вход: описание требований функциональности аппаратного обеспечения на естественном языке
Выход: функционально корректный и прошедший верификацию RTL-код (Verilog)
Ограничения: сгенерированный RTL должен быть синтаксически и функционально корректным
Мостик семантической пропасти: преобразование топологии схемы в логику программного обеспечения посредством функциональной абстракции
Извлечение переменных синхронизации: инновационное отображение концепций синхронизации аппаратного обеспечения на модель, управляемую событиями программного обеспечения
Иерархическая стратегия верификации: объединение высокоуровневых семантических возможностей LLM и точности системы на основе правил
DeepSeek-R1-0528 на RTLLM: Pass@1 повышается с 74% до sys_sel_pass@1 83%
Qwen2.5-7B-SFT: sys_inner_pass@5 повышается на 14% по сравнению с исходной моделью
Базовые модели обычно получают улучшение коэффициента успешности примерно на 10%
Согласованность между моделями:
Все протестированные модели показывают последовательное улучшение на обоих наборах данных, что доказывает универсальную эффективность Faver.
Faver успешно мостит практику верификации программного обеспечения и характеристики зависимости временного состояния в проектировании аппаратного обеспечения
Обратная связь верификации на функциональном уровне критична для улучшения выходных данных LLM в среде проектирования аппаратного обеспечения
Иерархическая стратегия верификации эффективно объединяет семантические возможности LLM и точность системы на основе правил
Техническая инновативность: первое систематическое решение проблемы синхронизации LLM при верификации аппаратного обеспечения, эффективное семантическое отображение посредством классовых шаблонов и модели, управляемой событиями
Полнота экспериментов: комплексная оценка на нескольких моделях и наборах данных, включая абляционные эксперименты и теоретический анализ
Практическая ценность: предоставление полной реализации с открытым исходным кодом, хорошая воспроизводимость
Теоретическая поддержка: предоставление математической модели системной успешности, усиление теоретической базы метода
Статья цитирует важные работы в этой области, включая:
ChipGPT, ChipNeMo и другие специализированные LLM для проектирования аппаратного обеспечения
VerilogCoder, MAGE и другие методы проектирования и верификации
RTLLM, VerilogEval и другие стандартные эталоны оценки
Toffee, Verilator и другие инструменты совместного моделирования
Общая оценка: Это высококачественная статья с важным вкладом в область генерации RTL на основе LLM. Благодаря инновационному дизайну функционально абстрактного промежуточного слоя, она эффективно решает проблему семантической пропасти между верификацией программного и аппаратного обеспечения. Результаты экспериментов убедительны, метод имеет хорошую практическую ценность и академическое влияние.