2025-11-16T11:28:23.447951

Patentformer: A demonstration of AI-assisted automated patent drafting

Mudhiganti, Wang, Yang et al.
Patent drafting presents significant challenges due to its reliance on the extensive experience and specialized expertise of patent attorneys, who must possess both legal acumen and technical understanding of an invention to craft patent applications in a formal legal writing style. This paper presents a demonstration of Patentformer, an AI-powered automated patent drafting platform designed to support patent attorneys by rapidly producing high-quality patent applications adhering to legal writing standards.
academic

Patentformer: عرض توضيحي للصياغة الآلية للبراءات بمساعدة الذكاء الاصطناعي

المعلومات الأساسية

  • معرّف الورقة: 2510.09752
  • العنوان: Patentformer: عرض توضيحي للصياغة الآلية للبراءات بمساعدة الذكاء الاصطناعي
  • المؤلفون: Sai Krishna Reddy Mudhiganti, Juanyan Wang, Ruo Yang, Manali Sharma (Samsung Semiconductor, Inc.)
  • التصنيف: cs.LG cs.AI cs.CY
  • وقت النشر/المؤتمر: EMNLP 2024 Industry Track
  • رابط الورقة: https://arxiv.org/abs/2510.09752

الملخص

تواجه صياغة براءات الاختراع تحديات كبيرة لأنها تعتمد على الخبرة العميقة والمعرفة المتخصصة لمحامي براءات الاختراع، الذين يجب أن يمتلكوا حدساً قانونياً وفهماً تقنياً للاختراع، مع صياغة طلبات براءات الاختراع بأسلوب كتابة قانونية رسمية. تعرض هذه الورقة Patentformer، وهي منصة صياغة براءات اختراع مؤتمتة مدفوعة بالذكاء الاصطناعي، مصممة لدعم محامي براءات الاختراع من خلال توليد سريع لطلبات براءات اختراع عالية الجودة تتوافق مع معايير الكتابة القانونية.

خلفية البحث والدافع

المشاكل المراد حلها

  1. تكاليف صياغة براءات الاختراع المرتفعة: يتجاوز متوسط تكلفة صياغة براءات الاختراع التقليدية 10,000 دولار أمريكي، مما يتطلب من محامي براءات الاختراع امتلاك خبرة قانونية وتقنية مزدوجة
  2. تعقيد وثائق براءات الاختراع: تحتوي وثائق براءات الاختراع على أقسام منظمة بدقة متعددة (العنوان والملخص والمطالبات والوصف التفصيلي وغيرها)، مما يتطلب أسلوب كتابة قانونية دقيق
  3. قيود نماذج اللغة الكبيرة الحالية: تواجه نماذج اللغة الكبيرة العامة تحديات كبيرة في توليد وصف براءات الاختراع

أهمية المشكلة

  • يعتبر وصف براءات الاختراع الجزء الأكثر أهمية في وثيقة براءة الاختراع، ويتطلب جهداً كبيراً في الصياغة
  • يجب أن تكون كل مطالبة مدعومة بشكل صريح من قبل الوصف التفصيلي
  • تختلف وثائق براءات الاختراع بشكل جوهري عن النصوص العامة من حيث الطبيعة القانونية والتقنية

قيود الطرق الموجودة

  1. ضعف التكيف مع المجال: لم يتم تدريب معظم نماذج اللغة الكبيرة المدربة مسبقاً على بيانات براءات الاختراع، مما يجعل من الصعب التكيف مع أسلوب الكتابة الدقيق والمتطلبات القانونية
  2. قيود الطول: عادة ما يمتد وصف براءات الاختراع عبر صفحات متعددة، بينما تقتصر نماذج اللغة الكبيرة على حد أقصى ثابت من الرموز (512 أو 1024 أو 2048 أو 4096 رموز)
  3. معالجة العلاقات المعقدة: تحتوي براءات الاختراع على علاقات معقدة بين المطالبات ووصف الرسومات، مما يصعب على نماذج اللغة الكبيرة العامة معالجته

المساهمات الأساسية

  1. تطوير ونشر منصة Patentformer: يمكن الوصول إليها على https://patentformer.com، وتقبل مطالبات براءات الاختراع والنصوص المقابلة للرسومات كمدخلات، وتوليد وصف براءات اختراع عالي الجودة
  2. بناء بيانات تدريب متخصصة: مجموعة بيانات Patent-2015-2024-G06F تحتوي على 1,006,494 عينة، ونشرها علناً على HuggingFace
  3. تطوير طرق تعزيز البيانات: طرق متخصصة لبناء بيانات التدريب تحول النصوص النقية إلى تمثيلات غنية، مما يحسن بشكل كبير جودة المخرجات
  4. إجراء دراسة المستخدمين: تقييم كمي لفعالية Patentformer في توليد وصف براءات الاختراع

شرح الطريقة

تعريف المهمة

بالنظر إلى وثيقة براءة اختراع P، تحتوي على:

  • l من تسلسلات المطالبات: C = {c₁, c₂, ..., cₗ}
  • m من فقرات الوصف التفصيلي: S = {s₁, s₂, ..., sₘ}
  • t من صور الرسومات: I = {i₁, i₂, ..., iₜ}
  • t من الأوصاف الموجزة للرسومات: B = {b₁, b₂, ..., bₜ}
  • أزواج أسماء المكونات والأرقام: N = {n₁, n₂, ..., nₜ}

الهدف من المهمة: استخدام المطالبات C وأوصاف الرسومات B وأزواج أسماء المكونات والأرقام N كمدخلات، لتوليد وصف تفصيلي للمخرجات S.

معمارية النموذج

1. معالجة المدخلات

  • معالجة المطالبات: يقوم المستخدم برفع نص المطالبات C والرسومات المقابلة I
  • معالجة الرسومات: التعرف التلقائي على المكونات الرئيسية وأرقامها N'
  • تعزيز النصوص: تحويل المدخلات إلى تمثيل معزز T' = (C', B', N')

2. واجهة الربط

  • توفير واجهة مستخدم لتحديد العلاقات بين ميزات المطالبات وميزات الرسومات
  • استراتيجية مطابقة تلقائية بناءً على تشابه جيب التمام ودرجات BLEU-1 و BLEU-2
  • استخدام عتبة 0.1 لاختيار أفضل 5 مكونات مطابقة لكل ميزة مطالبة

3. وحدة التوليد

  • استخدام نموذج T5-11B المضبوط بدقة على بيانات براءات الاختراع
  • معالجة مدخلات النصوص المنظمة T' = (C', N', B')
  • توليد وصف براءات اختراع معزز S'
  • خطوات المعالجة اللاحقة لجعل المخرجات متوافقة مع اتفاقيات الكتابة القانونية القياسية

نقاط الابتكار التقني

  1. طريقة تعزيز البيانات: بدلاً من استخدام النصوص الأصلية T = (C, B, N)، يتم تصميم نسخة غنية T' = (C', B', N') للتدريب
  2. التدريب المتخصص: ضبط دقيق لنموذج T5-11B على بيانات براءات الاختراع من USPTO، لتعلم أسلوب واتفاقيات هيكل كتابة براءات الاختراع
  3. الربط التفاعلي: توفير واجهة سهلة الاستخدام لإنشاء المراسلات بين المطالبات ومكونات الرسومات
  4. العملية المؤتمتة: صياغة براءات اختراع مؤتمتة من طرف إلى طرف، من معالجة المدخلات إلى المخرجات النهائية

إعداد التجارب

مجموعة البيانات

  • Patent-2015-2024-G06F: أول مجموعة بيانات تحتوي على وصف براءات الاختراع والمطالبات والرسومات
  • الحجم: 1,006,494 عينة تدريب
  • المصدر: براءات اختراع فئة G06F من USPTO للفترة 2015-2024
  • المعالجة: اختزال النصوص إلى 512 رموز

مقاييس التقييم

تم استخدام أربعة أبعاد متعامدة للتقييم في دراسة المستخدمين (درجات من 0-100):

  1. جودة اللغة: جودة التعبير اللغوي والكتابة في الوثيقة
  2. الجودة القانونية: التوافق مع المتطلبات القانونية ومعايير كتابة براءات الاختراع
  3. جودة وصف الرسومات: القدرة على وصف الرسومات بدقة
  4. الجودة التقنية: دقة واكتمال المحتوى التقني

طرق المقارنة

المقارنة مع أحدث نماذج لغة كبيرة عامة (انظر النتائج التفصيلية في Wang et al., 2024)

تفاصيل التنفيذ

  • النموذج: T5-11B
  • استراتيجية التدريب: ضبط دقيق على الإصدار المدرب مسبقاً
  • الأجهزة: دعم تسريع GPU، مع التبديل التلقائي إلى CPU بدون GPU
  • المعالجة اللاحقة: استخدام الاستراتيجية المحددة في Wang et al. (2024)

نتائج التجارب

النتائج الرئيسية

نتائج التقييم من دراسة المستخدمين بناءً على 30 توليد:

بعد الجودةمتوسط الدرجةتقييم الأداء
الجودة القانونية~95 درجةقريب من الدرجة الكاملة، الجانب الأكثر أهمية
جودة اللغة~85 درجةقدرة جيدة على توليد الوثائق
جودة وصف الرسومات~60 درجةهناك مجال للتحسين
الجودة التقنية~65 درجةمستوى متوسط

تحليل الأداء

وقت التشغيل

الإعدادCPUGPU (A100)حالة الاستخدام الفعلية (GPU)
الوقت (ثانية)3152.4±160.0092±5.79807±449.25

دقة الربط التلقائي

  • Precision@5: 0.565
  • Precision@3: 0.6
  • التقييم بناءً على حوالي 6,000 عينة

نتائج التجارب

  1. جودة قانونية ممتازة: باعتبارها الجانب الأكثر أهمية في صياغة براءات الاختراع، تقترب الجودة القانونية من الدرجة الكاملة، مما يثبت أن النموذج تعلم بشكل جيد ميزات الوثائق القانونية
  2. تعبير لغوي جيد: حتى مع استخدام رموز خاصة لتشفير المدخلات أثناء عملية الضبط الدقيق، أبدى المستخدمون رضاً عن جودة اللغة
  3. قيود المعالجة متعددة الأنماط: يرجع انخفاض جودة وصف الرسومات والجودة التقنية بشكل أساسي إلى:
    • يستخدم النموذج الحالي نصوص وصف الرسومات بدلاً من معالجة الصور مباشرة
    • النموذج هو نموذج نص إلى نص، يفتقر إلى القدرة على فهم متعدد الأنماط

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. توليد نصوص براءات الاختراع:
    • Lee & Hsiang (2020): ضبط دقيق لـ GPT-2 لتوليد مطالبات براءات الاختراع
    • Jiang et al. (2024): توليد مطالبات براءات الاختراع من الأوصاف التفصيلية
    • Christofidellis et al. (2022): محول براءات الاختراع التوليدي (PGT)
  2. تلخيص نصوص براءات الاختراع:
    • توليد العناوين (Souza et al., 2021)
    • توليد الملخصات (Guoliang et al., 2023; Zhu et al., 2023)
    • تلخيص الحالة الفنية السابقة (Lee & Hsiang, 2020c)
  3. تحويل النصوص المنظمة:
    • الاستفادة من بيانات وصف المستندات المنظمة داخل براءات الاختراع لتوجيه توليد النصوص
    • طرق التحكم في توليد نصوص براءات الاختراع بناءً على البحث الدلالي

تفرد هذه الورقة

حسب معرفة المؤلفين، يعتبر Patentformer أول منصة لتوليد وصف براءات اختراع كامل وعالي الجودة من المطالبات ونصوص الرسومات.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. أثبت Patentformer بنجاح جدوى صياغة براءات الاختراع المؤتمتة بمساعدة الذكاء الاصطناعي
  2. من خلال طرق بناء البيانات المتخصصة والضبط الدقيق، يمكن توليد وصف براءات اختراع عالي الجودة يتوافق مع المتطلبات القانونية والتقنية
  3. أثبتت دراسة المستخدمين فعالية النظام من حيث جودة اللغة والجودة القانونية

القيود

  1. غياب القدرة على معالجة متعددة الأنماط: يعتمد النظام الحالي على أوصاف الرسومات المقدمة من المستخدم، ولا يمكنه فهم الصور مباشرة
  2. جودة تقنية محدودة: لا تزال هناك مجالات للتحسين من حيث دقة واكتمال المحتوى التقني
  3. قدرة معالجة الرسومات: يفتقر إلى القدرة على الفهم البصري المباشر لرسومات براءات الاختراع

الاتجاهات المستقبلية

  1. تطوير نماذج متعددة الأنماط: دمج نماذج اللغة والرؤية الكبيرة (LVLMs)، لتحقيق التفسير التلقائي للمعلومات النصية والبصرية
  2. أتمتة توليد الرسومات: الاستفادة من نماذج توليد الصور مثل Stable Diffusion، لتوليد رسومات براءات الاختراع تلقائياً بناءً على مدخلات المستخدم
  3. الأتمتة من طرف إلى طرف: تقليل متطلبات الإدخال اليدوي، لتحسين كفاءة صياغة براءات الاختراع بشكل أكبر

التقييم المتعمق

المميزات

  1. قوة عملية عالية: يحل مشاكل فعلية في صناعة براءات الاختراع، مع قيمة تجارية واضحة
  2. ابتكار الطريقة: استراتيجية تعزيز البيانات وطرق التدريب المتخصصة تتمتع بابتكار تقني
  3. اكتمال النظام: توفير حل شامل من المدخلات إلى المخرجات، بما في ذلك واجهة تفاعلية سهلة الاستخدام
  4. تقييم شامل: إجراء تقييم من قبل خبراء المستخدمين في سيناريوهات التطبيق الفعلية
  5. مساهمة مفتوحة المصدر: نشر مجموعة بيانات براءات اختراع واسعة النطاق، مما يعزز تطوير البحث في المجال

أوجه القصور

  1. نطاق التقييم محدود: تعتمد دراسة المستخدمين على 30 توليد من قبل خبير واحد، مما يجعل عينة التقييم صغيرة نسبياً
  2. غياب معالجة متعددة الأنماط: عدم القدرة على معالجة المعلومات الصورية يعتبر قيداً كبيراً، مما يؤثر على جودة وصف الرسومات والجودة التقنية
  3. قيود المجال: تم التدريب فقط على براءات اختراع فئة G06F، مما يثير تساؤلات حول القدرة على التعميم
  4. اعتبارات التكلفة: قد تصبح تكاليف تشغيل GPU والوقت المستهلك عاملاً محدداً في النشر الفعلي

التأثير

  1. مساهمة المجال: أول تحقيق لتوليد وصف براءات اختراع كامل، مما يفتح اتجاهاً جديداً في مجال براءات الاختراع والذكاء الاصطناعي
  2. القيمة العملية: يمكن أن يقلل بشكل كبير من تكاليف صياغة براءات الاختراع، ويحسن كفاءة عمل محامي براءات الاختراع
  3. قابلية التكرار: توفير نظام عرض توضيحي عبر الإنترنت ومجموعة بيانات عامة، مع قابلية جيدة للتكرار
  4. التأثير الصناعي: باعتبارها بحثاً صناعياً من Samsung، تتمتع بإمكانية تحويل صناعي قوية

السيناريوهات المطبقة

  1. أداة مساعدة لمحامي براءات الاختراع: مساعدة محامي براءات الاختراع على توليد المسودات الأولية بسرعة، وتحسين كفاءة العمل
  2. أقسام براءات الاختراع بالشركات: أتمتة عمليات طلب براءات الاختراع الداخلية بالشركات التكنولوجية الكبيرة
  3. وكالات براءات الاختراع: تحسين كفاءة وجودة خدمات براءات الاختراع
  4. مؤسسات البحث والتطوير: مساعدة الباحثين على فهم معايير كتابة براءات الاختراع والمتطلبات

المراجع

تستند هذه الورقة بشكل أساسي إلى الأعمال المهمة في مجالات توليد نصوص براءات الاختراع ونماذج اللغة الكبيرة والمتطلبات القانونية لبراءات الاختراع، بما في ذلك:

  • Wang et al. (2024): خوارزمية Patentformer الأساسية
  • Raffel et al. (2020): أساس نموذج T5
  • عدة أبحاث متعلقة بتوليد نصوص براءات الاختراع (سلسلة Lee & Hsiang, Jiang et al., Christofidellis et al.)

التقييم الإجمالي: هذه ورقة بحثية صناعية عالية الجودة ذات توجه عملي قوي، وتتمتع بأهمية رائدة في مجال براءات الاختراع والذكاء الاصطناعي. على الرغم من وجود قيود في معالجة متعددة الأنماط ونطاق التقييم، فإن ابتكارها التقني وقيمتها العملية تجعلها مساهمة مهمة في هذا المجال.