Patent drafting presents significant challenges due to its reliance on the extensive experience and specialized expertise of patent attorneys, who must possess both legal acumen and technical understanding of an invention to craft patent applications in a formal legal writing style. This paper presents a demonstration of Patentformer, an AI-powered automated patent drafting platform designed to support patent attorneys by rapidly producing high-quality patent applications adhering to legal writing standards.
- পেপার আইডি: 2510.09752
- শিরোনাম: Patentformer: A demonstration of AI-assisted automated patent drafting
- লেখক: Sai Krishna Reddy Mudhiganti, Juanyan Wang, Ruo Yang, Manali Sharma (Samsung Semiconductor, Inc.)
- শ্রেণীবিভাগ: cs.LG cs.AI cs.CY
- প্রকাশনার সময়/সম্মেলন: EMNLP 2024 Industry Track
- পেপার লিংক: https://arxiv.org/abs/2510.09752
পেটেন্ট খসড়া প্রস্তুতি একটি উল্লেখযোগ্য চ্যালেঞ্জের সম্মুখীন কারণ এটি পেটেন্ট আইনজীবীদের সমৃদ্ধ অভিজ্ঞতা এবং বিশেষজ্ঞতার উপর নির্ভর করে, যাদের আইনি তীক্ষ্ণতা এবং আবিষ্কারের প্রযুক্তিগত বোঝাপড়া থাকতে হবে যাতে আনুষ্ঠানিক আইনি লেখার শৈলীতে পেটেন্ট আবেদন খসড়া করা যায়। এই পেপারটি Patentformer প্রদর্শন করে, যা একটি কৃত্রিম বুদ্ধিমত্তা-চালিত স্বয়ংক্রিয় পেটেন্ট খসড়া প্ল্যাটফর্ম যা আইনি লেখার মান মেনে চলে এমন উচ্চমানের পেটেন্ট আবেদন দ্রুত তৈরি করে পেটেন্ট আইনজীবীদের সমর্থন করার জন্য ডিজাইন করা হয়েছে।
- পেটেন্ট খসড়া প্রস্তুতির উচ্চ খরচ: ঐতিহ্যবাহী পেটেন্ট খসড়া প্রস্তুতির গড় খরচ ১০,০০০ ডলারের বেশি, যার জন্য পেটেন্ট আইনজীবীদের আইনি এবং প্রযুক্তিগত উভয় বিশেষজ্ঞতা প্রয়োজন
- পেটেন্ট নথির জটিলতা: পেটেন্ট নথিতে একাধিক সুসংগঠিত অংশ রয়েছে (শিরোনাম, সারসংক্ষেপ, দাবি, বর্ণনা ইত্যাদি), যার জন্য নির্ভুল আইনি লেখার শৈলী প্রয়োজন
- বিদ্যমান LLM-এর সীমাবদ্ধতা: সাধারণ বৃহৎ ভাষা মডেলগুলি পেটেন্ট বর্ণনা তৈরিতে উল্লেখযোগ্য চ্যালেঞ্জের সম্মুখীন হয়
- পেটেন্ট বর্ণনা পেটেন্ট নথির সবচেয়ে গুরুত্বপূর্ণ অংশ, যার জন্য ব্যাপক প্রচেষ্টা প্রয়োজন
- প্রতিটি দাবি অবশ্যই বর্ণনা দ্বারা স্পষ্টভাবে সমর্থিত হতে হবে
- পেটেন্ট নথি এবং সাধারণ পাঠ্য আইনি এবং প্রযুক্তিগত প্রকৃতিতে মৌলিকভাবে আলাদা
- দুর্বল ডোমেইন অভিযোজন: বেশিরভাগ প্রাক-প্রশিক্ষিত LLM পেটেন্ট ডেটায় প্রশিক্ষিত নয়, নির্ভুল লেখার শৈলী এবং আইনি প্রয়োজনীয়তার সাথে খাপ খাওয়াতে অসুবিধা
- দৈর্ঘ্যের সীমাবদ্ধতা: পেটেন্ট বর্ণনা সাধারণত একাধিক পৃষ্ঠা জুড়ে বিস্তৃত, যখন LLM-গুলি নির্দিষ্ট টোকেন সীমাবদ্ধতার সাথে আবদ্ধ (৫১২, ১০২৪, ২০৪৮ বা ৪০৯৬ টোকেন)
- জটিল সম্পর্ক প্রক্রিয়াকরণ: পেটেন্টে দাবি এবং চিত্র বর্ণনার মধ্যে জটিল সম্পর্ক রয়েছে, যা সাধারণ LLM-এর জন্য কঠিন
- Patentformer প্ল্যাটফর্ম বিকাশ এবং স্থাপনা: https://patentformer.com-এ অ্যাক্সেসযোগ্য, পেটেন্ট দাবি এবং সংশ্লিষ্ট চিত্র পাঠ্য ইনপুট হিসাবে গ্রহণ করে এবং উচ্চমানের পেটেন্ট বর্ণনা তৈরি করে
- বিশেষায়িত প্রশিক্ষণ ডেটা নির্মাণ: ১,০০৬,৪৯৪টি নমুনা সহ Patent-2015-2024-G06F ডেটাসেট, এবং HuggingFace-এ জনসাধারণের জন্য প্রকাশিত
- ডেটা বর্ধন পদ্ধতি বিকাশ: বিশুদ্ধ পাঠ্যকে সমৃদ্ধ প্রতিনিধিত্বে রূপান্তরের বিশেষায়িত প্রশিক্ষণ ডেটা নির্মাণ পদ্ধতি, যা আউটপুট গুণমান উল্লেখযোগ্যভাবে উন্নত করে
- ব্যবহারকারী গবেষণা পরিচালনা: পেটেন্ট বর্ণনা তৈরিতে Patentformer-এর কার্যকারিতার পরিমাণগত মূল্যায়ন
একটি পেটেন্ট নথি P দেওয়া, যাতে রয়েছে:
- l টি দাবি ক্রম: C = {c₁, c₂, ..., cₗ}
- m টি বর্ণনা অনুচ্ছেদ: S = {s₁, s₂, ..., sₘ}
- t টি চিত্র ছবি: I = {i₁, i₂, ..., iₜ}
- t টি চিত্র সংক্ষিপ্ত বর্ণনা: B = {b₁, b₂, ..., bₜ}
- উপাদান নাম-সংখ্যা জোড়া: N = {n₁, n₂, ..., nₜ}
কাজের লক্ষ্য: দাবি C, চিত্র বর্ণনা B এবং উপাদান নাম-সংখ্যা জোড়া N ইনপুট হিসাবে ব্যবহার করে আউটপুট বর্ণনা S তৈরি করা।
- দাবি প্রক্রিয়াকরণ: ব্যবহারকারী দাবি পাঠ্য C এবং সংশ্লিষ্ট চিত্র I আপলোড করে
- চিত্র প্রক্রিয়াকরণ: মূল উপাদান এবং তাদের সংখ্যা N' স্বয়ংক্রিয়ভাবে চিহ্নিত করা
- পাঠ্য বর্ধন: ইনপুটকে বর্ধিত প্রতিনিধিত্বে রূপান্তর T' = (C', B', N')
- দাবি এবং চিত্র বৈশিষ্ট্যের মধ্যে সম্পর্ক সংজ্ঞায়িত করার জন্য ব্যবহারকারী ইন্টারফেস প্রদান করা
- কোসাইন সাদৃশ্য, BLEU-1 এবং BLEU-2 স্কোরের উপর ভিত্তি করে স্বয়ংক্রিয় ম্যাচিং কৌশল
- প্রতিটি দাবি বৈশিষ্ট্যের জন্য শীর্ষ ৫টি ম্যাচিং উপাদান নির্বাচনের জন্য ০.১ থ্রেশহোল্ড ব্যবহার করা
- পেটেন্ট ডেটায় সূক্ষ্ম-সুর করা T5-11B মডেল ব্যবহার করা
- কাঠামোগত পাঠ্য ইনপুট টাপল T' = (C', N', B') প্রক্রিয়া করা
- বর্ধিত সংস্করণ পেটেন্ট বর্ণনা S' তৈরি করা
- আউটপুটকে মান পেটেন্ট লেখার সম্মেলনের সাথে সামঞ্জস্যপূর্ণ করার জন্য পরবর্তী প্রক্রিয়াকরণ পদক্ষেপ
- ডেটা বর্ধন পদ্ধতি: মূল পাঠ্য T = (C, B, N) ব্যবহার না করে, প্রশিক্ষণের জন্য সমৃদ্ধ সংস্করণ T' = (C', B', N') ডিজাইন করা
- বিশেষায়িত প্রশিক্ষণ: USPTO পেটেন্ট ডেটায় T5-11B মডেল সূক্ষ্ম-সুর করা, পেটেন্ট লেখার শৈলী এবং কাঠামো সম্মেলন শিখা
- ইন্টারেক্টিভ ম্যাপিং: দাবি এবং চিত্র উপাদানের মধ্যে সংযোগ স্থাপনের জন্য ব্যবহারকারী-বান্ধব ইন্টারফেস প্রদান করা
- স্বয়ংক্রিয় প্রক্রিয়া: ইনপুট প্রক্রিয়াকরণ থেকে চূড়ান্ত আউটপুট পর্যন্ত সম্পূর্ণ স্বয়ংক্রিয় পেটেন্ট খসড়া প্রক্রিয়া
- Patent-2015-2024-G06F: পেটেন্ট বর্ণনা, দাবি এবং চিত্র সহ প্রথম ডেটাসেট
- স্কেল: ১,০০৬,৪৯৪টি প্রশিক্ষণ নমুনা
- উৎস: USPTO 2015-2024 G06F CPC বিভাগ পেটেন্ট
- প্রক্রিয়াকরণ: পাঠ্য ৫১২ টোকেনে ছাঁটাই করা
ব্যবহারকারী গবেষণায় চারটি অর্থোগোনাল মাত্রায় স্কোরিং (০-১০০ পয়েন্ট):
- ভাষাগত গুণমান: নথির ভাষাগত অভিব্যক্তি এবং লেখার গুণমান
- আইনি গুণমান: আইনি প্রয়োজনীয়তা এবং পেটেন্ট লেখার মান মেনে চলা
- চিত্র বর্ণনা গুণমান: চিত্রের নির্ভুল বর্ণনার ক্ষমতা
- প্রযুক্তিগত গুণমান: প্রযুক্তিগত বিষয়বস্তুর নির্ভুলতা এবং সম্পূর্ণতা
অত্যাধুনিক সাধারণ LLM baseline-এর সাথে তুলনা (বিস্তারিত ফলাফল Wang et al., 2024 দেখুন)
- মডেল: T5-11B
- প্রশিক্ষণ কৌশল: প্রাক-প্রশিক্ষিত সংস্করণের ভিত্তিতে সূক্ষ্ম-সুর করা
- হার্ডওয়্যার: GPU ত্বরণ সমর্থন, GPU ছাড়াই CPU-তে স্বয়ংক্রিয় স্যুইচ
- পরবর্তী প্রক্রিয়াকরণ: Wang et al. (2024) দ্বারা সংজ্ঞায়িত কৌশল ব্যবহার করা
ব্যবহারকারী গবেষণা ৩০টি প্রজন্মের স্কোরিং ফলাফলের উপর ভিত্তি করে:
| গুণমান মাত্রা | গড় স্কোর | কর্মক্ষমতা মূল্যায়ন |
|---|
| আইনি গুণমান | ~৯৫ পয়েন্ট | প্রায় সম্পূর্ণ স্কোর, সবচেয়ে গুরুত্বপূর্ণ দিক |
| ভাষাগত গুণমান | ~৮৫ পয়েন্ট | নথি তৈরির ভাল ক্ষমতা |
| চিত্র বর্ণনা গুণমান | ~৬০ পয়েন্ট | উন্নতির জায়গা রয়েছে |
| প্রযুক্তিগত গুণমান | ~৬৫ পয়েন্ট | মধ্যম স্তর |
| সেটআপ | CPU | GPU (A100) | প্রকৃত ব্যবহার কেস (GPU) |
|---|
| সময় (সেকেন্ড) | 3152.4±160.00 | 92±5.79 | 807±449.25 |
- Precision@5: 0.565
- Precision@3: 0.6
- প্রায় ৬,০০০টি নমুনার উপর ভিত্তি করে মূল্যায়ন
- উৎকৃষ্ট আইনি গুণমান: পেটেন্ট খসড়া প্রস্তুতির সবচেয়ে গুরুত্বপূর্ণ দিক হিসাবে, আইনি গুণমান প্রায় সম্পূর্ণ স্কোর, যা প্রমাণ করে যে মডেল আইনি নথির বৈশিষ্ট্য ভালভাবে শিখেছে
- ভাল ভাষাগত অভিব্যক্তি: সূক্ষ্ম-সুর করার প্রক্রিয়ায় বিশেষ টোকেন এনক্রিপশন ইনপুট ব্যবহার করা সত্ত্বেও, ব্যবহারকারীরা ভাষাগত গুণমানে সন্তুষ্ট
- বহুমোডাল সীমাবদ্ধতা: চিত্র বর্ণনা এবং প্রযুক্তিগত গুণমান তুলনামূলকভাবে কম, প্রধানত কারণ:
- বর্তমান মডেল চিত্র বর্ণনা পাঠ্য ব্যবহার করে সরাসরি চিত্র প্রক্রিয়া করে না
- মডেল পাঠ্য-থেকে-পাঠ্য মডেল, বহুমোডাল বোঝার ক্ষমতা অভাব
- পেটেন্ট পাঠ্য প্রজন্ম:
- Lee & Hsiang (2020): GPT-2 সূক্ষ্ম-সুর করা পেটেন্ট দাবি তৈরি করা
- Jiang et al. (2024): বিস্তারিত বর্ণনা থেকে পেটেন্ট দাবি তৈরি করা
- Christofidellis et al. (2022): Patent Generative Transformer (PGT)
- পেটেন্ট পাঠ্য সারসংক্ষেপ:
- শিরোনাম প্রজন্ম (Souza et al., 2021)
- সারসংক্ষেপ প্রজন্ম (Guoliang et al., 2023; Zhu et al., 2023)
- বিদ্যমান প্রযুক্তি সারসংক্ষেপ (Lee & Hsiang, 2020c)
- কাঠামোগত পাঠ্য রূপান্তর:
- পাঠ্য প্রজন্ম নির্দেশনার জন্য পেটেন্ট নথি অভ্যন্তরীণ কাঠামো মেটাডেটা ব্যবহার করা
- শব্দার্থ অনুসন্ধানের উপর ভিত্তি করে পেটেন্ট পাঠ্য প্রজন্ম নিয়ন্ত্রণ পদ্ধতি
লেখকদের জ্ঞান অনুযায়ী, Patentformer দাবি এবং চিত্র পাঠ্য থেকে সম্পূর্ণ উচ্চমানের পেটেন্ট বর্ণনা তৈরি করার প্রথম প্ল্যাটফর্ম।
- Patentformer কৃত্রিম বুদ্ধিমত্তা-সহায়ক স্বয়ংক্রিয় পেটেন্ট খসড়া প্রস্তুতির সম্ভাব্যতা সফলভাবে প্রদর্শন করেছে
- বিশেষায়িত ডেটা নির্মাণ পদ্ধতি এবং সূক্ষ্ম-সুর করার মাধ্যমে, আইনি এবং প্রযুক্তিগত প্রয়োজনীয়তা পূরণ করে এমন উচ্চমানের পেটেন্ট বর্ণনা তৈরি করা সম্ভব
- ব্যবহারকারী গবেষণা ভাষাগত এবং আইনি গুণমানের দিক থেকে সিস্টেমের কার্যকারিতা নিশ্চিত করেছে
- বহুমোডাল ক্ষমতার অভাব: বর্তমান সিস্টেম ব্যবহারকারী-প্রদত্ত চিত্র বর্ণনার উপর নির্ভর করে, সরাসরি চিত্র বুঝতে পারে না
- সীমিত প্রযুক্তিগত গুণমান: প্রযুক্তিগত বিষয়বস্তুর নির্ভুলতা এবং সম্পূর্ণতার দিক থেকে এখনও উন্নতির অবকাশ রয়েছে
- চিত্র প্রক্রিয়াকরণ ক্ষমতা: পেটেন্ট চিত্রের সরাসরি দৃশ্য বোঝার ক্ষমতার অভাব
- বহুমোডাল মডেল বিকাশ: বৃহৎ দৃষ্টি-ভাষা মডেল (LVLMs) একীভূত করা, পাঠ্য এবং দৃশ্য তথ্যের স্বয়ংক্রিয় ব্যাখ্যা অর্জন করা
- চিত্র প্রজন্ম স্বয়ংক্রিয়করণ: Stable Diffusion ইত্যাদি চিত্র প্রজন্ম মডেল ব্যবহার করে, ব্যবহারকারী ইনপুটের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে পেটেন্ট চিত্র তৈরি করা
- সম্পূর্ণ স্বয়ংক্রিয় প্রক্রিয়া: ম্যানুয়াল ইনপুট প্রয়োজনীয়তা হ্রাস করা, পেটেন্ট খসড়া প্রস্তুতির দক্ষতা আরও উন্নত করা
- শক্তিশালী ব্যবহারিকতা: পেটেন্ট শিল্পের প্রকৃত ব্যথার পয়েন্ট সমাধান করে, স্পষ্ট বাণিজ্যিক মূল্য রয়েছে
- পদ্ধতিগত উদ্ভাবন: ডেটা বর্ধন কৌশল এবং বিশেষায়িত প্রশিক্ষণ পদ্ধতি প্রযুক্তিগত উদ্ভাবন রয়েছে
- সম্পূর্ণ সিস্টেম: ইনপুট থেকে আউটপুট পর্যন্ত সম্পূর্ণ সমাধান প্রদান করে, ব্যবহারকারী-বান্ধব ইন্টারেক্টিভ ইন্টারফেস সহ
- পর্যাপ্ত মূল্যায়ন: বিশেষজ্ঞ ব্যবহারকারী গবেষণার মাধ্যমে প্রকৃত প্রয়োগ পরিস্থিতিতে মূল্যায়ন করা হয়েছে
- ওপেন সোর্স অবদান: বৃহৎ-স্কেল পেটেন্ট ডেটাসেট জনসাধারণের জন্য প্রকাশ করা, ক্ষেত্র গবেষণা উন্নয়ন প্রচার করা
- সীমিত মূল্যায়ন স্কেল: ব্যবহারকারী গবেষণা শুধুমাত্র একজন বিশেষজ্ঞের ৩০টি প্রজন্মের উপর ভিত্তি করে, মূল্যায়ন নমুনা তুলনামূলকভাবে ছোট
- বহুমোডাল অভাব: চিত্র তথ্য প্রক্রিয়া করতে অক্ষমতা একটি উল্লেখযোগ্য সীমাবদ্ধতা, চিত্র বর্ণনা এবং প্রযুক্তিগত গুণমানকে প্রভাবিত করে
- ডোমেইন সীমাবদ্ধতা: শুধুমাত্র G06F বিভাগ পেটেন্টে প্রশিক্ষিত, সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন
- খরচ বিবেচনা: GPU চালু খরচ এবং সময় খরচ প্রকৃত স্থাপনায় সীমাবদ্ধ কারণ হতে পারে
- ক্ষেত্র অবদান: সম্পূর্ণ পেটেন্ট বর্ণনার স্বয়ংক্রিয় প্রজন্ম প্রথমবারের মতো অর্জন করা, পেটেন্ট কৃত্রিম বুদ্ধিমত্তা ক্ষেত্রের জন্য নতুন দিকনির্দেশনা খুলে দেওয়া
- ব্যবহারিক মূল্য: পেটেন্ট খসড়া প্রস্তুতির খরচ উল্লেখযোগ্যভাবে হ্রাস করতে পারে, পেটেন্ট আইনজীবীদের কাজের দক্ষতা উন্নত করতে পারে
- পুনরুৎপাদনযোগ্যতা: অনলাইন প্রদর্শনী সিস্টেম এবং জনসাধারণের ডেটাসেট প্রদান করা, ভাল পুনরুৎপাদনযোগ্যতা রয়েছে
- শিল্প প্রভাব: Samsung থেকে শিল্প গবেষণা হিসাবে, শক্তিশালী শিল্প রূপান্তর সম্ভাবনা রয়েছে
- পেটেন্ট আইনজীবী সহায়ক সরঞ্জাম: পেটেন্ট আইনজীবীদের দ্রুত খসড়া তৈরি করতে সাহায্য করা, কাজের দক্ষতা উন্নত করা
- এন্টারপ্রাইজ পেটেন্ট বিভাগ: বড় প্রযুক্তি কোম্পানির অভ্যন্তরীণ পেটেন্ট আবেদন প্রক্রিয়া স্বয়ংক্রিয়করণ
- পেটেন্ট এজেন্সি: পেটেন্ট এজেন্সি সেবার দক্ষতা এবং গুণমান উন্নত করা
- গবেষণা প্রতিষ্ঠান: গবেষণাকর্মীদের পেটেন্ট লেখার নিয়ম এবং প্রয়োজনীয়তা বুঝতে সাহায্য করা
এই পেপারটি প্রধানত পেটেন্ট পাঠ্য প্রজন্ম, বৃহৎ ভাষা মডেল এবং পেটেন্ট আইনি প্রয়োজনীয়তা ইত্যাদি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উল্লেখ করেছে, যার মধ্যে রয়েছে:
- Wang et al. (2024): Patentformer মূল অ্যালগরিদম
- Raffel et al. (2020): T5 মডেল ভিত্তি
- একাধিক পেটেন্ট পাঠ্য প্রজন্ম সম্পর্কিত গবেষণা (Lee & Hsiang সিরিজ, Jiang et al., Christofidellis et al.)
সামগ্রিক মূল্যায়ন: এটি একটি শক্তিশালী ব্যবহারিক দিকনির্দেশনা সহ উচ্চমানের শিল্প গবেষণা পেপার, পেটেন্ট কৃত্রিম বুদ্ধিমত্তা ক্ষেত্রে যুগান্তকারী তাৎপর্য রয়েছে। যদিও বহুমোডাল প্রক্রিয়াকরণ এবং মূল্যায়ন স্কেলের দিক থেকে সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।