2025-11-16T11:28:23.447951

Patentformer: A demonstration of AI-assisted automated patent drafting

Mudhiganti, Wang, Yang et al.

Patent drafting presents significant challenges due to its reliance on the extensive experience and specialized expertise of patent attorneys, who must possess both legal acumen and technical understanding of an invention to craft patent applications in a formal legal writing style. This paper presents a demonstration of Patentformer, an AI-powered automated patent drafting platform designed to support patent attorneys by rapidly producing high-quality patent applications adhering to legal writing standards.

academic

Patentformer : Une démonstration de la rédaction automatisée de brevets assistée par l'IA

Informations de base

ID de l'article : 2510.09752
Titre : Patentformer: A demonstration of AI-assisted automated patent drafting
Auteurs : Sai Krishna Reddy Mudhiganti, Juanyan Wang, Ruo Yang, Manali Sharma (Samsung Semiconductor, Inc.)
Classification : cs.LG cs.AI cs.CY
Date de publication/Conférence : EMNLP 2024 Industry Track
Lien de l'article : https://arxiv.org/abs/2510.09752

Résumé

La rédaction de brevets présente des défis majeurs car elle dépend de l'expérience et des connaissances approfondies des agents de brevets, qui doivent posséder à la fois une acuité juridique et une compréhension technique de l'invention pour rédiger les demandes de brevet dans un style juridique formel. Cet article présente Patentformer, une plateforme de rédaction de brevets automatisée pilotée par l'IA, conçue pour soutenir les agents de brevets en générant rapidement des demandes de brevet de haute qualité conformes aux normes de rédaction juridique.

Contexte de recherche et motivation

Problèmes à résoudre

Coût élevé de la rédaction de brevets : Le coût moyen de la rédaction traditionnelle de brevets dépasse 10 000 dollars et nécessite que les agents de brevets possèdent une double expertise juridique et technique
Complexité des documents de brevet : Les documents de brevet contiennent plusieurs sections organisées de manière rigoureuse (titre, résumé, revendications, description, etc.), nécessitant un style de rédaction juridique précis
Limitations des LLM existants : Les modèles de langage de grande taille généralistes présentent des défis importants dans la génération de descriptions de brevets

Importance du problème

La description de brevet est la partie la plus importante d'un document de brevet et nécessite un effort considérable pour sa rédaction
Chaque revendication doit être explicitement soutenue par la description
Les documents de brevet diffèrent fondamentalement des textes généraux par leur nature juridique et technique

Limitations des approches existantes

Mauvaise adaptation au domaine : La plupart des LLM pré-entraînés n'ont pas été formés sur des données de brevets et ont du mal à s'adapter au style d'écriture précis et aux exigences juridiques
Limitations de longueur : Les descriptions de brevets s'étendent généralement sur plusieurs pages, tandis que les LLM sont limités par un nombre fixe de tokens (512, 1024, 2048 ou 4096 tokens)
Traitement des relations complexes : Les brevets contiennent des relations complexes entre les revendications et les descriptions de dessins, difficiles à traiter par les LLM généralistes

Contributions principales

Développement et déploiement de la plateforme Patentformer : Accessible sur https://patentformer.com, acceptant les revendications de brevet et le texte des dessins correspondants comme entrée, générant des descriptions de brevet de haute qualité
Construction d'un ensemble de données d'entraînement spécialisé : L'ensemble de données Patent-2015-2024-G06F contenant 1 006 494 échantillons, publié publiquement sur HuggingFace
Développement de méthodes d'augmentation de données : Méthodes de construction de données d'entraînement spécialisées convertissant le texte brut en représentations enrichies, améliorant significativement la qualité de la sortie
Réalisation d'une étude utilisateur : Évaluation quantitative de l'efficacité de Patentformer dans la génération de descriptions de brevets

Détails méthodologiques

Définition de la tâche

Étant donné un document de brevet P, contenant :

l séquences de revendications : C = {c₁, c₂, ..., cₗ}
m paragraphes de description : S = {s₁, s₂, ..., sₘ}
t images de dessins : I = {i₁, i₂, ..., iₜ}
t brèves descriptions de dessins : B = {b₁, b₂, ..., bₜ}
Paires nom de composant-numéro : N = {n₁, n₂, ..., nₜ}

Objectif de la tâche : Utiliser les revendications C, les descriptions de dessins B et les paires nom de composant-numéro N comme entrée pour générer la description de sortie S.

Architecture du modèle

1. Traitement des entrées

Traitement des revendications : Les utilisateurs téléchargent le texte des revendications C et les images de dessins correspondantes I
Traitement des dessins : Identification automatique des composants clés et de leurs numéros N'
Enrichissement du texte : Conversion des entrées en représentation enrichie T' = (C', B', N')

2. Interface de mappage

Fournit une interface utilisateur pour définir les relations entre les revendications et les caractéristiques des dessins
Stratégie de correspondance automatique basée sur la similarité cosinus et les scores BLEU-1 et BLEU-2
Utilise un seuil de 0,1 pour sélectionner les 5 meilleurs composants correspondants pour chaque caractéristique de revendication

3. Module de génération

Utilise le modèle T5-11B fine-tuné sur des données de brevets
Traite les tuples d'entrée de texte structuré T' = (C', N', B')
Génère une description de brevet enrichie S'
Étapes de post-traitement pour que la sortie se conforme aux conventions standard de rédaction de brevets

Points d'innovation technique

Méthode d'augmentation de données : Plutôt que d'utiliser le texte brut T = (C, B, N), une version enrichie T' = (C', B', N') est conçue pour l'entraînement
Entraînement spécialisé : Fine-tuning du modèle T5-11B sur les données de brevets de l'USPTO, apprenant les conventions de style et de structure de la rédaction de brevets
Mappage interactif : Fournit une interface conviviale pour établir les correspondances entre les revendications et les composants des dessins
Processus automatisé : Automatisation de bout en bout du processus de rédaction de brevets, du traitement des entrées à la sortie finale

Configuration expérimentale

Ensemble de données

Patent-2015-2024-G06F : Premier ensemble de données contenant des descriptions de brevets, des revendications et des dessins
Échelle : 1 006 494 échantillons d'entraînement
Source : Brevets de la catégorie CPC G06F de l'USPTO 2015-2024
Traitement : Troncature du texte à 512 tokens

Métriques d'évaluation

L'étude utilisateur emploie quatre dimensions d'évaluation orthogonales (score 0-100) :

Qualité linguistique : Expression linguistique et qualité de rédaction du document
Qualité juridique : Conformité aux exigences juridiques et aux normes de rédaction de brevets
Qualité de la description des dessins : Capacité à décrire avec précision les dessins
Qualité technique : Exactitude et complétude du contenu technique

Méthodes de comparaison

Comparaison avec les meilleurs LLM généralistes de référence (résultats détaillés dans Wang et al., 2024)

Détails d'implémentation

Modèle : T5-11B
Stratégie d'entraînement : Fine-tuning basé sur la version pré-entraînée
Matériel : Support de l'accélération GPU, basculement automatique vers CPU sans GPU
Post-traitement : Utilisation de la stratégie définie par Wang et al. (2024)

Résultats expérimentaux

Résultats principaux

Résultats d'évaluation de l'étude utilisateur basés sur 30 générations :

Dimension de qualité	Score moyen	Évaluation de performance
Qualité juridique	~95 points	Proche de la note maximale, aspect le plus important
Qualité linguistique	~85 points	Bonne capacité de génération de documents
Qualité de la description des dessins	~60 points	Espace pour amélioration
Qualité technique	~65 points	Niveau moyen

Analyse de performance

Temps d'exécution

Configuration	CPU	GPU (A100)	Cas d'utilisation réel (GPU)
Temps (secondes)	3152,4±160,00	92±5,79	807±449,25

Précision du mappage automatique

Precision@5 : 0,565
Precision@3 : 0,6
Évaluation basée sur environ 6 000 échantillons

Résultats expérimentaux

Qualité juridique exceptionnelle : En tant qu'aspect le plus important de la rédaction de brevets, la qualité juridique approche la note maximale, démontrant que le modèle a bien appris les caractéristiques des documents juridiques
Expression linguistique satisfaisante : Même avec l'utilisation de tokens spéciaux chiffrant les entrées lors du fine-tuning, les utilisateurs sont satisfaits de la qualité linguistique
Limitations multimodales : La qualité de la description des dessins et de la qualité technique sont relativement faibles, principalement en raison de :
- Le modèle actuel utilise le texte de description des dessins plutôt que de traiter directement les images
- Le modèle est un modèle texte-à-texte, manquant de capacité de compréhension multimodale

Travaux connexes

Principaux domaines de recherche

Génération de texte de brevet :
- Lee & Hsiang (2020) : Fine-tuning de GPT-2 pour générer les revendications de brevet
- Jiang et al. (2024) : Génération de revendications de brevet à partir de descriptions détaillées
- Christofidellis et al. (2022) : Patent Generative Transformer (PGT)
Résumé de texte de brevet :
- Génération de titre (Souza et al., 2021)
- Génération de résumé (Guoliang et al., 2023 ; Zhu et al., 2023)
- Résumé de l'état de la technique (Lee & Hsiang, 2020c)
Transformation de texte structuré :
- Utilisation des métadonnées structurelles au sein des documents de brevet pour guider la génération de texte
- Méthodes de contrôle de la génération de texte de brevet basées sur la recherche sémantique

Unicité de cet article

À la connaissance des auteurs, Patentformer est la première plateforme générant des descriptions de brevet complètes et de haute qualité à partir de revendications et de texte de dessins.

Conclusion et discussion

Conclusions principales

Patentformer démontre avec succès la faisabilité de la rédaction automatisée de brevets assistée par l'IA
Grâce à des méthodes de construction de données spécialisées et au fine-tuning, il est possible de générer des descriptions de brevet de haute qualité conformes aux exigences juridiques et techniques
L'étude utilisateur confirme l'efficacité du système en termes de qualité linguistique et juridique

Limitations

Absence de capacité multimodale : Le système actuel dépend des descriptions de dessins fournies par l'utilisateur et ne peut pas comprendre directement les images
Qualité technique limitée : Il existe encore une marge d'amélioration en termes d'exactitude et de complétude du contenu technique
Capacité de traitement des dessins : Manque de capacité de compréhension visuelle directe des dessins de brevet

Directions futures

Développement de modèles multimodaux : Intégration de Large Vision-Language Models (LVLMs) pour l'interprétation automatique des informations textuelles et visuelles
Automatisation de la génération de dessins : Utilisation de modèles de génération d'images comme Stable Diffusion pour générer automatiquement des dessins de brevet selon les entrées utilisateur
Automatisation de bout en bout : Réduction des besoins d'entrée manuelle, améliorant davantage l'efficacité de la rédaction de brevets

Évaluation approfondie

Points forts

Forte praticité : Résout les problèmes réels de l'industrie des brevets avec une valeur commerciale claire
Innovation méthodologique : Les stratégies d'augmentation de données et les méthodes d'entraînement spécialisé présentent une innovation technique
Système complet : Fournit une solution complète du traitement des entrées à la sortie finale, incluant une interface interactive conviviale
Évaluation suffisante : Évaluation par étude utilisateur experte dans des scénarios d'application réels
Contribution open-source : Publication publique d'un ensemble de données de brevets à grande échelle, favorisant le développement de la recherche dans le domaine

Insuffisances

Échelle d'évaluation limitée : L'étude utilisateur est basée sur 30 générations d'un seul expert, l'échantillon d'évaluation est relativement petit
Absence de multimodalité : L'incapacité à traiter les informations d'image est une limitation significative, affectant la qualité de la description des dessins et la qualité technique
Limitation du domaine : Entraîné uniquement sur les brevets de la catégorie G06F, la capacité de généralisation reste à vérifier
Considérations de coût : Le coût d'exécution GPU et la consommation de temps pourraient devenir des facteurs limitants lors du déploiement réel

Impact

Contribution au domaine : Première réalisation de la génération automatique de descriptions de brevets complètes, ouvrant une nouvelle direction pour le domaine de l'IA des brevets
Valeur pratique : Peut réduire considérablement les coûts de rédaction de brevets et améliorer l'efficacité du travail des agents de brevets
Reproductibilité : Fournit un système de démonstration en ligne et un ensemble de données public, avec bonne reproductibilité
Impact industriel : En tant que recherche industrielle de Samsung, elle possède un fort potentiel de conversion industrielle

Scénarios d'application

Outil d'assistance pour les agents de brevets : Aide les agents de brevets à générer rapidement des brouillons, améliorant l'efficacité du travail
Départements de brevets d'entreprise : Automatisation des processus de demande de brevet dans les grandes entreprises technologiques
Agences de conseil en brevets : Amélioration de l'efficacité et de la qualité des services de conseil en brevets
Institutions de recherche et développement : Assistance aux chercheurs dans la compréhension des normes et exigences de rédaction de brevets

Références

Cet article s'appuie principalement sur les travaux importants dans les domaines connexes de la génération de texte de brevet, des modèles de langage de grande taille et des exigences juridiques en matière de brevets, notamment :

Wang et al. (2024) : Algorithme principal de Patentformer
Raffel et al. (2020) : Fondements du modèle T5
Plusieurs recherches connexes sur la génération de texte de brevet (série Lee & Hsiang, Jiang et al., Christofidellis et al.)

Évaluation globale : Ceci est un article de haute qualité fortement orienté vers l'application pratique provenant du secteur industriel, possédant une importance pionnière dans le domaine de l'IA des brevets. Bien qu'il présente des limitations en matière de traitement multimodal et d'échelle d'évaluation, son innovation technique et sa valeur pratique en font une contribution importante au domaine.