2025-11-16T11:28:23.447951

Patentformer: A demonstration of AI-assisted automated patent drafting

Mudhiganti, Wang, Yang et al.

Patent drafting presents significant challenges due to its reliance on the extensive experience and specialized expertise of patent attorneys, who must possess both legal acumen and technical understanding of an invention to craft patent applications in a formal legal writing style. This paper presents a demonstration of Patentformer, an AI-powered automated patent drafting platform designed to support patent attorneys by rapidly producing high-quality patent applications adhering to legal writing standards.

academic

Patentformer: A demonstration of AI-assisted automated patent drafting

基本信息

论文ID: 2510.09752
标题: Patentformer: A demonstration of AI-assisted automated patent drafting
作者: Sai Krishna Reddy Mudhiganti, Juanyan Wang, Ruo Yang, Manali Sharma (Samsung Semiconductor, Inc.)
分类: cs.LG cs.AI cs.CY
发表时间/会议: EMNLP 2024 Industry Track
论文链接: https://arxiv.org/abs/2510.09752

专利起草成本高昂：传统专利起草平均成本超过1万美元，需要专利律师具备法律和技术双重专业知识
专利文档复杂性：专利文档包含多个组织严密的部分（标题、摘要、权利要求、说明书等），需要精确的法律写作风格
现有LLM的局限性：通用大语言模型在生成专利说明书方面存在显著挑战

问题的重要性

专利说明书是专利文档中最重要的部分，需要大量努力起草
每个权利要求必须得到说明书的明确支持
专利文档与一般文本在法律和技术性质上存在根本差异

现有方法的局限性

领域适应性差：大多数预训练LLM未在专利数据上训练，难以适应精确的写作风格和法律要求
长度限制：专利说明书通常跨越多页，而LLM受到固定token限制（512、1024、2048或4096 tokens）
复杂关系处理：专利包含权利要求和图纸描述之间的复杂关系，一般LLM难以处理

核心贡献

开发并部署了Patentformer平台：可在https://patentformer.com访问，接受专利权利要求和相应图纸文本作为输入，生成高质量的专利说明书
构建了专门的训练数据：包含1,006,494个样本的Patent-2015-2024-G06F数据集，并公开发布在HuggingFace
开发了数据增强方法：将纯文本转换为丰富表示的专门训练数据构建方法，显著提升输出质量
进行了用户研究：定量评估Patentformer在生成专利说明书方面的有效性

方法详解

任务定义

给定专利文档P，包含：

l个权利要求序列：C = {c₁, c₂, ..., cₗ}
m个说明书段落：S = {s₁, s₂, ..., sₘ}
t个图纸图像：I = {i₁, i₂, ..., iₜ}
t个图纸简要描述：B = {b₁, b₂, ..., bₜ}
组件名称-编号对：N = {n₁, n₂, ..., nₜ}

任务目标：使用权利要求C、图纸描述B和组件名称-编号对N作为输入，生成输出说明书S。

模型架构

1. 输入处理

权利要求处理：用户上传权利要求文本C和相应图纸I
图纸处理：自动识别关键组件及其编号N'
文本增强：将输入转换为增强表示T' = (C', B', N')

2. 映射接口

提供用户界面定义权利要求和图纸特征之间的关系
基于余弦相似度、BLEU-1和BLEU-2分数的自动匹配策略
使用0.1阈值选择每个权利要求特征的前5个匹配组件

3. 生成模块

使用T5-11B模型在专利数据上fine-tuning
处理结构化文本输入元组T' = (C', N', B')
生成增强版专利说明书S'
后处理步骤使输出符合标准专利写作约定

技术创新点

数据增强方法：不使用原始文本T = (C, B, N)，而是设计丰富版本T' = (C', B', N')进行训练
专门化训练：在USPTO专利数据上fine-tuning T5-11B模型，学习专利写作的风格和结构约定
交互式映射：提供用户友好的界面建立权利要求与图纸组件之间的对应关系
自动化流程：从输入处理到最终输出的端到端自动化专利起草流程

实验设置

数据集

Patent-2015-2024-G06F：首个包含专利说明书、权利要求和图纸的数据集
规模：1,006,494个训练样本
来源：USPTO 2015-2024年G06F CPC类别专利
处理：文本截断至512 tokens

评价指标

用户研究中采用四个正交维度评分（0-100分）：

语言质量：文档的语言表达和写作质量
法律质量：符合法律要求和专利写作标准
图纸描述质量：对图纸的准确描述能力
技术质量：技术内容的准确性和完整性

对比方法

与最先进的通用LLM baseline进行比较（详细结果见Wang et al., 2024）

实现细节

模型：T5-11B
训练策略：在预训练版本基础上fine-tuning
硬件：支持GPU加速，无GPU时自动切换到CPU
后处理：使用Wang et al. (2024)定义的策略

实验结果

主要结果

用户研究基于30次生成的评分结果：

质量维度	平均分数	表现评价
法律质量	~95分	接近满分，最重要方面
语言质量	~85分	良好的文档生成能力
图纸描述质量	~60分	有改进空间
技术质量	~65分	中等水平