2025-11-16T11:28:23.447951

Patentformer: A demonstration of AI-assisted automated patent drafting

Mudhiganti, Wang, Yang et al.
Patent drafting presents significant challenges due to its reliance on the extensive experience and specialized expertise of patent attorneys, who must possess both legal acumen and technical understanding of an invention to craft patent applications in a formal legal writing style. This paper presents a demonstration of Patentformer, an AI-powered automated patent drafting platform designed to support patent attorneys by rapidly producing high-quality patent applications adhering to legal writing standards.
academic

Patentformer : Une démonstration de la rédaction automatisée de brevets assistée par l'IA

Informations de base

  • ID de l'article : 2510.09752
  • Titre : Patentformer: A demonstration of AI-assisted automated patent drafting
  • Auteurs : Sai Krishna Reddy Mudhiganti, Juanyan Wang, Ruo Yang, Manali Sharma (Samsung Semiconductor, Inc.)
  • Classification : cs.LG cs.AI cs.CY
  • Date de publication/Conférence : EMNLP 2024 Industry Track
  • Lien de l'article : https://arxiv.org/abs/2510.09752

Résumé

La rédaction de brevets présente des défis majeurs car elle dépend de l'expérience et des connaissances approfondies des agents de brevets, qui doivent posséder à la fois une acuité juridique et une compréhension technique de l'invention pour rédiger les demandes de brevet dans un style juridique formel. Cet article présente Patentformer, une plateforme de rédaction de brevets automatisée pilotée par l'IA, conçue pour soutenir les agents de brevets en générant rapidement des demandes de brevet de haute qualité conformes aux normes de rédaction juridique.

Contexte de recherche et motivation

Problèmes à résoudre

  1. Coût élevé de la rédaction de brevets : Le coût moyen de la rédaction traditionnelle de brevets dépasse 10 000 dollars et nécessite que les agents de brevets possèdent une double expertise juridique et technique
  2. Complexité des documents de brevet : Les documents de brevet contiennent plusieurs sections organisées de manière rigoureuse (titre, résumé, revendications, description, etc.), nécessitant un style de rédaction juridique précis
  3. Limitations des LLM existants : Les modèles de langage de grande taille généralistes présentent des défis importants dans la génération de descriptions de brevets

Importance du problème

  • La description de brevet est la partie la plus importante d'un document de brevet et nécessite un effort considérable pour sa rédaction
  • Chaque revendication doit être explicitement soutenue par la description
  • Les documents de brevet diffèrent fondamentalement des textes généraux par leur nature juridique et technique

Limitations des approches existantes

  1. Mauvaise adaptation au domaine : La plupart des LLM pré-entraînés n'ont pas été formés sur des données de brevets et ont du mal à s'adapter au style d'écriture précis et aux exigences juridiques
  2. Limitations de longueur : Les descriptions de brevets s'étendent généralement sur plusieurs pages, tandis que les LLM sont limités par un nombre fixe de tokens (512, 1024, 2048 ou 4096 tokens)
  3. Traitement des relations complexes : Les brevets contiennent des relations complexes entre les revendications et les descriptions de dessins, difficiles à traiter par les LLM généralistes

Contributions principales

  1. Développement et déploiement de la plateforme Patentformer : Accessible sur https://patentformer.com, acceptant les revendications de brevet et le texte des dessins correspondants comme entrée, générant des descriptions de brevet de haute qualité
  2. Construction d'un ensemble de données d'entraînement spécialisé : L'ensemble de données Patent-2015-2024-G06F contenant 1 006 494 échantillons, publié publiquement sur HuggingFace
  3. Développement de méthodes d'augmentation de données : Méthodes de construction de données d'entraînement spécialisées convertissant le texte brut en représentations enrichies, améliorant significativement la qualité de la sortie
  4. Réalisation d'une étude utilisateur : Évaluation quantitative de l'efficacité de Patentformer dans la génération de descriptions de brevets

Détails méthodologiques

Définition de la tâche

Étant donné un document de brevet P, contenant :

  • l séquences de revendications : C = {c₁, c₂, ..., cₗ}
  • m paragraphes de description : S = {s₁, s₂, ..., sₘ}
  • t images de dessins : I = {i₁, i₂, ..., iₜ}
  • t brèves descriptions de dessins : B = {b₁, b₂, ..., bₜ}
  • Paires nom de composant-numéro : N = {n₁, n₂, ..., nₜ}

Objectif de la tâche : Utiliser les revendications C, les descriptions de dessins B et les paires nom de composant-numéro N comme entrée pour générer la description de sortie S.

Architecture du modèle

1. Traitement des entrées

  • Traitement des revendications : Les utilisateurs téléchargent le texte des revendications C et les images de dessins correspondantes I
  • Traitement des dessins : Identification automatique des composants clés et de leurs numéros N'
  • Enrichissement du texte : Conversion des entrées en représentation enrichie T' = (C', B', N')

2. Interface de mappage

  • Fournit une interface utilisateur pour définir les relations entre les revendications et les caractéristiques des dessins
  • Stratégie de correspondance automatique basée sur la similarité cosinus et les scores BLEU-1 et BLEU-2
  • Utilise un seuil de 0,1 pour sélectionner les 5 meilleurs composants correspondants pour chaque caractéristique de revendication

3. Module de génération

  • Utilise le modèle T5-11B fine-tuné sur des données de brevets
  • Traite les tuples d'entrée de texte structuré T' = (C', N', B')
  • Génère une description de brevet enrichie S'
  • Étapes de post-traitement pour que la sortie se conforme aux conventions standard de rédaction de brevets

Points d'innovation technique

  1. Méthode d'augmentation de données : Plutôt que d'utiliser le texte brut T = (C, B, N), une version enrichie T' = (C', B', N') est conçue pour l'entraînement
  2. Entraînement spécialisé : Fine-tuning du modèle T5-11B sur les données de brevets de l'USPTO, apprenant les conventions de style et de structure de la rédaction de brevets
  3. Mappage interactif : Fournit une interface conviviale pour établir les correspondances entre les revendications et les composants des dessins
  4. Processus automatisé : Automatisation de bout en bout du processus de rédaction de brevets, du traitement des entrées à la sortie finale

Configuration expérimentale

Ensemble de données

  • Patent-2015-2024-G06F : Premier ensemble de données contenant des descriptions de brevets, des revendications et des dessins
  • Échelle : 1 006 494 échantillons d'entraînement
  • Source : Brevets de la catégorie CPC G06F de l'USPTO 2015-2024
  • Traitement : Troncature du texte à 512 tokens

Métriques d'évaluation

L'étude utilisateur emploie quatre dimensions d'évaluation orthogonales (score 0-100) :

  1. Qualité linguistique : Expression linguistique et qualité de rédaction du document
  2. Qualité juridique : Conformité aux exigences juridiques et aux normes de rédaction de brevets
  3. Qualité de la description des dessins : Capacité à décrire avec précision les dessins
  4. Qualité technique : Exactitude et complétude du contenu technique

Méthodes de comparaison

Comparaison avec les meilleurs LLM généralistes de référence (résultats détaillés dans Wang et al., 2024)

Détails d'implémentation

  • Modèle : T5-11B
  • Stratégie d'entraînement : Fine-tuning basé sur la version pré-entraînée
  • Matériel : Support de l'accélération GPU, basculement automatique vers CPU sans GPU
  • Post-traitement : Utilisation de la stratégie définie par Wang et al. (2024)

Résultats expérimentaux

Résultats principaux

Résultats d'évaluation de l'étude utilisateur basés sur 30 générations :

Dimension de qualitéScore moyenÉvaluation de performance
Qualité juridique~95 pointsProche de la note maximale, aspect le plus important
Qualité linguistique~85 pointsBonne capacité de génération de documents
Qualité de la description des dessins~60 pointsEspace pour amélioration
Qualité technique~65 pointsNiveau moyen

Analyse de performance

Temps d'exécution

ConfigurationCPUGPU (A100)Cas d'utilisation réel (GPU)
Temps (secondes)3152,4±160,0092±5,79807±449,25

Précision du mappage automatique

  • Precision@5 : 0,565
  • Precision@3 : 0,6
  • Évaluation basée sur environ 6 000 échantillons

Résultats expérimentaux

  1. Qualité juridique exceptionnelle : En tant qu'aspect le plus important de la rédaction de brevets, la qualité juridique approche la note maximale, démontrant que le modèle a bien appris les caractéristiques des documents juridiques
  2. Expression linguistique satisfaisante : Même avec l'utilisation de tokens spéciaux chiffrant les entrées lors du fine-tuning, les utilisateurs sont satisfaits de la qualité linguistique
  3. Limitations multimodales : La qualité de la description des dessins et de la qualité technique sont relativement faibles, principalement en raison de :
    • Le modèle actuel utilise le texte de description des dessins plutôt que de traiter directement les images
    • Le modèle est un modèle texte-à-texte, manquant de capacité de compréhension multimodale

Travaux connexes

Principaux domaines de recherche

  1. Génération de texte de brevet :
    • Lee & Hsiang (2020) : Fine-tuning de GPT-2 pour générer les revendications de brevet
    • Jiang et al. (2024) : Génération de revendications de brevet à partir de descriptions détaillées
    • Christofidellis et al. (2022) : Patent Generative Transformer (PGT)
  2. Résumé de texte de brevet :
    • Génération de titre (Souza et al., 2021)
    • Génération de résumé (Guoliang et al., 2023 ; Zhu et al., 2023)
    • Résumé de l'état de la technique (Lee & Hsiang, 2020c)
  3. Transformation de texte structuré :
    • Utilisation des métadonnées structurelles au sein des documents de brevet pour guider la génération de texte
    • Méthodes de contrôle de la génération de texte de brevet basées sur la recherche sémantique

Unicité de cet article

À la connaissance des auteurs, Patentformer est la première plateforme générant des descriptions de brevet complètes et de haute qualité à partir de revendications et de texte de dessins.

Conclusion et discussion

Conclusions principales

  1. Patentformer démontre avec succès la faisabilité de la rédaction automatisée de brevets assistée par l'IA
  2. Grâce à des méthodes de construction de données spécialisées et au fine-tuning, il est possible de générer des descriptions de brevet de haute qualité conformes aux exigences juridiques et techniques
  3. L'étude utilisateur confirme l'efficacité du système en termes de qualité linguistique et juridique

Limitations

  1. Absence de capacité multimodale : Le système actuel dépend des descriptions de dessins fournies par l'utilisateur et ne peut pas comprendre directement les images
  2. Qualité technique limitée : Il existe encore une marge d'amélioration en termes d'exactitude et de complétude du contenu technique
  3. Capacité de traitement des dessins : Manque de capacité de compréhension visuelle directe des dessins de brevet

Directions futures

  1. Développement de modèles multimodaux : Intégration de Large Vision-Language Models (LVLMs) pour l'interprétation automatique des informations textuelles et visuelles
  2. Automatisation de la génération de dessins : Utilisation de modèles de génération d'images comme Stable Diffusion pour générer automatiquement des dessins de brevet selon les entrées utilisateur
  3. Automatisation de bout en bout : Réduction des besoins d'entrée manuelle, améliorant davantage l'efficacité de la rédaction de brevets

Évaluation approfondie

Points forts

  1. Forte praticité : Résout les problèmes réels de l'industrie des brevets avec une valeur commerciale claire
  2. Innovation méthodologique : Les stratégies d'augmentation de données et les méthodes d'entraînement spécialisé présentent une innovation technique
  3. Système complet : Fournit une solution complète du traitement des entrées à la sortie finale, incluant une interface interactive conviviale
  4. Évaluation suffisante : Évaluation par étude utilisateur experte dans des scénarios d'application réels
  5. Contribution open-source : Publication publique d'un ensemble de données de brevets à grande échelle, favorisant le développement de la recherche dans le domaine

Insuffisances

  1. Échelle d'évaluation limitée : L'étude utilisateur est basée sur 30 générations d'un seul expert, l'échantillon d'évaluation est relativement petit
  2. Absence de multimodalité : L'incapacité à traiter les informations d'image est une limitation significative, affectant la qualité de la description des dessins et la qualité technique
  3. Limitation du domaine : Entraîné uniquement sur les brevets de la catégorie G06F, la capacité de généralisation reste à vérifier
  4. Considérations de coût : Le coût d'exécution GPU et la consommation de temps pourraient devenir des facteurs limitants lors du déploiement réel

Impact

  1. Contribution au domaine : Première réalisation de la génération automatique de descriptions de brevets complètes, ouvrant une nouvelle direction pour le domaine de l'IA des brevets
  2. Valeur pratique : Peut réduire considérablement les coûts de rédaction de brevets et améliorer l'efficacité du travail des agents de brevets
  3. Reproductibilité : Fournit un système de démonstration en ligne et un ensemble de données public, avec bonne reproductibilité
  4. Impact industriel : En tant que recherche industrielle de Samsung, elle possède un fort potentiel de conversion industrielle

Scénarios d'application

  1. Outil d'assistance pour les agents de brevets : Aide les agents de brevets à générer rapidement des brouillons, améliorant l'efficacité du travail
  2. Départements de brevets d'entreprise : Automatisation des processus de demande de brevet dans les grandes entreprises technologiques
  3. Agences de conseil en brevets : Amélioration de l'efficacité et de la qualité des services de conseil en brevets
  4. Institutions de recherche et développement : Assistance aux chercheurs dans la compréhension des normes et exigences de rédaction de brevets

Références

Cet article s'appuie principalement sur les travaux importants dans les domaines connexes de la génération de texte de brevet, des modèles de langage de grande taille et des exigences juridiques en matière de brevets, notamment :

  • Wang et al. (2024) : Algorithme principal de Patentformer
  • Raffel et al. (2020) : Fondements du modèle T5
  • Plusieurs recherches connexes sur la génération de texte de brevet (série Lee & Hsiang, Jiang et al., Christofidellis et al.)

Évaluation globale : Ceci est un article de haute qualité fortement orienté vers l'application pratique provenant du secteur industriel, possédant une importance pionnière dans le domaine de l'IA des brevets. Bien qu'il présente des limitations en matière de traitement multimodal et d'échelle d'évaluation, son innovation technique et sa valeur pratique en font une contribution importante au domaine.