2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.

To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.

academic

Thunder-DeID: কোরিয়ান আদালত রায়ের জন্য নির্ভুল এবং দক্ষ ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক

মৌলিক তথ্য

পেপার আইডি: 2506.15266
শিরোনাম: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
লেখক: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (সিউল জাতীয় বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
প্রকাশনার সময়: ২০২৫ সালের ১৬ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2506.15266v3

সারসংক্ষেপ

বিচারিক প্রকাশ্যতা এবং ব্যক্তিগত ডেটা সুরক্ষার মধ্যে ভারসাম্য নিশ্চিত করার জন্য, কোরিয়ান বিচার বিভাগ আদালত রায় জনসাধারণের কাছে প্রকাশ করার আগে ডি-আইডেন্টিফিকেশন প্রক্রিয়া বাধ্যতামূলক করেছে। তবে, বর্তমান ডি-আইডেন্টিফিকেশন প্রক্রিয়া কঠোর আইনি প্রয়োজনীয়তা মেনে চলার সাথে সাথে বৃহৎ আকারের আদালত রায় প্রক্রিয়াকরণে অপর্যাপ্ত। অতিরিক্তভাবে, ব্যক্তিগত সনাক্তকারীর আইনি সংজ্ঞা এবং শ্রেণীবিভাগ অস্পষ্ট, যা প্রযুক্তিগত সমাধানের জন্য অনুপযুক্ত। এই চ্যালেঞ্জগুলি সমাধানের জন্য, এই পেপারটি Thunder-DeID ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক প্রস্তাব করে, যা প্রাসঙ্গিক আইন ও প্রবিধান এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ। নির্দিষ্টভাবে, এই পেপারটি (i) মন্তব্যকৃত রায় এবং সংশ্লিষ্ট সত্তা উল্লেখ তালিকা সহ প্রথম কোরিয়ান আইনি ডেটাসেট নির্মাণ এবং প্রকাশ করে, (ii) ব্যক্তিগত সনাক্তকারী তথ্য (PII) এর একটি পদ্ধতিগত শ্রেণীবিভাগ স্কিম প্রবর্তন করে, (iii) একটি সম্পূর্ণ গভীর স্নায়ু নেটওয়ার্ক (DNN) ডি-আইডেন্টিফিকেশন পাইপলাইন বিকাশ করে। পরীক্ষামূলক ফলাফল দেখায় যে মডেলটি আদালত রায় ডি-আইডেন্টিফিকেশন কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা কোরিয়ান আদালত রায় ডি-আইডেন্টিফিকেশনের তিনটি মূল সমস্যা সমাধানের লক্ষ্য রাখে:

দক্ষতা বাধা: মানব পদ্ধতির উপর অত্যধিক নির্ভরতা প্রশাসনিক বোঝা এবং রায় প্রকাশে বিলম্ব ঘটায়, কোরিয়ান জনসাধারণের রায়ের অ্যাক্সেসযোগ্যতা উল্লেখযোগ্যভাবে কম
প্রযুক্তিগত কর্মক্ষমতা হ্রাস: ২০১৯-২০২৫ সালের মধ্যে, বিদ্যমান স্বয়ংক্রিয় ডি-আইডেন্টিফিকেশন সরঞ্জামের সামগ্রিক নির্ভুলতা মাত্র ৮-১৫%
আইনি সংজ্ঞা অস্পষ্টতা: বর্তমান আইন ব্যক্তিগত সনাক্তকারীর শ্রেণীবিভাগ এবং সংজ্ঞা অস্পষ্ট, বিশেষত স্বয়ংক্রিয় প্রযুক্তি সমাধানের জন্য অনুপযুক্ত

গবেষণার গুরুত্ব

আদালত প্রক্রিয়ার প্রকাশ্যতা কোরিয়া সহ অনেক দেশের সংবিধানে নির্ধারিত একটি গুরুত্বপূর্ণ গণতান্ত্রিক নীতি। কোরিয়া আদালত পরিবেশে বেনামীকরণের প্রয়োজন এমন ব্যক্তিগত সনাক্তকারীর পরিসীমা আরও বিস্তৃত এবং শর্তাবলী আরও কঠোর। বিচারিক স্বচ্ছতা এবং গোপনীয়তা সুরক্ষার ভারসাম্য রক্ষার জন্য কার্যকর ডি-আইডেন্টিফিকেশন প্রযুক্তি অত্যন্ত গুরুত্বপূর্ণ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

প্রম্পট-ভিত্তিক LLM পদ্ধতি: মূল বাক্যের কাঠামো পরিবর্তন করে, বাক্য এবং প্রসঙ্গ বিকৃতির ঝুঁকি রয়েছে
API সীমাবদ্ধতা: গোপনীয়তা এবং তথ্য নিরাপত্তার কারণে, কোরিয়ান সরকার সংস্থা ChatGPT এর মতো API পরিষেবা ব্যবহার সীমাবদ্ধ করে
স্কেল প্রক্রিয়াকরণ ক্ষমতা অপর্যাপ্ত: বিদ্যমান পদ্ধতি বৃহৎ আকারের আদালত রায় কার্যকরভাবে পরিচালনা করতে পারে না

মূল অবদান

প্রথম কোরিয়ান আইনি ডেটাসেট: ৬,৭০০টি মন্তব্যকৃত রায় (দেওয়ানি, ফৌজদারি, প্রশাসনিক মামলা অন্তর্ভুক্ত) এবং ৪৮,৩০৬টি নামকৃত সত্তা সহ দ্বিমুখী ডেটাসেট তৈরি করা
ত্রিস্তরীয় PII শ্রেণীবিভাগ ফ্রেমওয়ার্ক: ৪৮,৩০৬টি নামকৃত সত্তার আবেগপূর্ণ বিশ্লেষণের উপর ভিত্তি করে, একটি পদ্ধতিগত ব্যক্তিগত সনাক্তকারী তথ্য শ্রেণীবিভাগ স্কিম প্রস্তাব করা
বিশেষায়িত টোকেনাইজার: মরফোলজিক্যাল বিশ্লেষক Mecab-ko কে বাইট পেয়ার এনকোডিং (BPE) এর সাথে একীভূত করা, কোরিয়ান ভাষার অনন্য বৈশিষ্ট্য ব্যবহার করা
সম্পূর্ণ DNN পাইপলাইন: একটি সম্পূর্ণ ডি-আইডেন্টিফিকেশন ফ্রেমওয়ার্ক বিকাশ করা, আদালত রায় ডি-আইডেন্টিফিকেশন কাজে সর্বোত্তম কর্মক্ষমতা অর্জন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: ব্যক্তিগত সনাক্তকারী তথ্য সহ মূল কোরিয়ান আদালত রায় পাঠ্য আউটপুট: ডি-আইডেন্টিফাইড রায় পাঠ্য, যেখানে সংবেদনশীল তথ্য উপযুক্তভাবে প্রতিস্থাপিত বা সরানো হয়েছে সীমাবদ্ধতা: কোরিয়ান প্রাসঙ্গিক আইন ও প্রবিধান মেনে চলতে হবে (যেমন কোরিয়ান ফৌজদারি প্রক্রিয়া আইন ৫৯-৩ ধারা, দেওয়ানি প্রক্রিয়া আইন ১৬৩-২ ধারা ইত্যাদি)

মডেল আর্কিটেকচার

১. ডেটা নির্মাণ প্রক্রিয়া

বেনামী রায় → প্লেসহোল্ডার সনাক্তকরণ এবং মন্তব্য → PII শ্রেণীবিভাগ স্কিম → প্রতিস্থাপন তালিকা উৎপাদন → প্রশিক্ষণ ডেটা উৎপাদন

২. Thunder-DeID মডেল পরিবার

DeBERTa-v3 আর্কিটেকচারের উপর ভিত্তি করে, তিনটি আকারের মডেল অন্তর্ভুক্ত:

Thunder-DeID-370M: ৩.৭০ মিলিয়ন পরামিতি, লুকানো মাত্রা ১০২৪, ২৪ স্তরের ট্রান্সফর্মার
Thunder-DeID-800M: ৮০০ মিলিয়ন পরামিতি, লুকানো মাত্রা ১২৮০, ৩৬ স্তরের ট্রান্সফর্মার
Thunder-DeID-1.5B: ১.৫ বিলিয়ন পরামিতি, লুকানো মাত্রা ২০৪৮, ২৪ স্তরের ট্রান্সফর্মার

৩. টোকেনাইজেশন কৌশল

Mecab-ko মরফোলজিক্যাল বিশ্লেষক এবং BPE একীভূত করা:

Mecab-ko: কোরিয়ান আঠালো ভাষা মরফোলজি পরিচালনা করা, শব্দমূল এবং সহায়ক শব্দ নির্ভুলভাবে আলাদা করা
BPE: শব্দভাণ্ডার বাইরের (OOV) সমস্যা সমাধান করা, অদেখা শব্দ উপশব্দ ইউনিট হিসাবে প্রতিনিধিত্ব করা

৪. প্রশিক্ষণ ডেটা উৎপাদন অ্যালগরিদম

# সিউডোকোড উদাহরণ
def generate_training_data(annotated_text, replacement_lists):
    # ১. বিশেষ চিহ্ন জোড়া সনাক্ত করা
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # ২. প্লেসহোল্ডার স্ক্যান এবং প্রতিস্থাপন করা
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # ৩. লেবেল ক্রম উৎপাদন করা
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ত্রিস্তরীয় PII শ্রেণীবিভাগ ব্যবস্থা:
- প্রথম স্তর: সরাসরি সনাক্তকারী বনাম আধা-সনাক্তকারী
- দ্বিতীয় স্তর: ১৬টি উপ-বিভাগ (যেমন ব্যক্তির নাম, ভৌগোলিক তথ্য, সংস্থা ইত্যাদি)
- তৃতীয় স্তর: ৮০টি সূক্ষ্ম-দানাদার বিভাগ, ৭২৯টি লেবেলের সাথে সংযুক্ত
কোরিয়ান ভাষা-বিশেষায়িত টোকেনাইজেশন:
- Mecab-ko ব্যবহার করে "홍길동이" কে "홍길동"+"이" তে নির্ভুলভাবে আলাদা করা
- শুধুমাত্র লক্ষ্য সত্তা ডি-আইডেন্টিফাই করা নিশ্চিত করা, সহায়ক শব্দ সম্পূর্ণতা বজায় রাখা
ডেটা বর্ধন কৌশল:
- প্রতি-এপোক প্রতিস্থাপন: প্রতিটি এপোকে বিভিন্ন সত্তা উল্লেখ প্রতিস্থাপন করা, ডেটা বৈচিত্র্য বৃদ্ধি করা
- একক প্রতিস্থাপন: স্থির প্রতিস্থাপন, তুলনা ভিত্তি হিসাবে

পরীক্ষামূলক সেটআপ

ডেটাসেট

আকার: ৬,৭০০টি রায় (দেওয়ানি ৩,০০০, ফৌজদারি ৩,০০০, প্রশাসনিক ৭০০)
সত্তা সংখ্যা: ৪৮,৩০৬টি মন্তব্যকৃত সত্তা
ডেটা উৎস: কোরিয়ান সরকার আইন বিভাগ, AI-hub, জনসাধারণের ডেটাসেট
বিভাজন অনুপাত: প্রশিক্ষণ ৮০%, যাচাইকরণ ১০%, পরীক্ষা ১০%

মূল্যায়ন মেট্রিক্স

বাইনারি টোকেন স্তর: মডেল ডি-আইডেন্টিফাই করার প্রয়োজন এমন টোকেন সনাক্ত করার ক্ষমতা পরিমাপ করা
টোকেন স্তর: নির্দিষ্ট সত্তা ধরনের জন্য মডেলের শ্রেণীবিভাগ নির্ভুলতা পরিমাপ করা
মেট্রিক্স: নির্ভুলতা, স্মরণ, F1-স্কোর

তুলনা পদ্ধতি

Polyglot-Ko (১.৩B পরামিতি): কোরিয়ান-বিশেষায়িত ভাষা মডেল
EXAONE-3.5 (২.৪B পরামিতি): কোরিয়ান-বিশেষায়িত ডিকোডার মডেল

বাস্তবায়ন বিবরণ

প্রাক-প্রশিক্ষণ কর্পাস: ৭৬.৭GB দ্বিভাষিক কর্পাস (কোরিয়ান + ইংরেজি)
ক্রম দৈর্ঘ্য: ৫১২→২০৪৮ টোকেন
অপ্টিমাইজার: AdamW, β=(০.৯, ০.৯৯৯)
শেখার হার সময়সূচী: প্রথম ১০% ধাপ প্রি-ওয়ার্মিং + কোসাইন ক্ষয়
হার্ডওয়্যার: ৩২×NVIDIA H100 80GB GPUs

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	পরামিতি	বাইনারি টোকেন স্তর F1	টোকেন স্তর Micro F1
Polyglot-ko	1.3B	0.9701	0.8765
EXAONE	2.4B	0.9677	0.8752
Thunder-DeID-370M	370M	0.9654	0.8871
Thunder-DeID-800M	800M	0.9791	0.9105
Thunder-DeID-1.5B	1.5B	0.9808	0.9071

মূল অনুসন্ধান

উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: Thunder-DeID সমস্ত আকারে ভিত্তি মডেলকে অতিক্রম করে
প্রতি-এপোক সুবিধা: প্রতি-এপোক প্রতিস্থাপন কৌশল সমস্ত মডেলে একক প্রতিস্থাপনের চেয়ে উল্লেখযোগ্যভাবে ভাল
স্কেল প্রভাব: এমনকি সবচেয়ে ছোট Thunder-DeID-370M টোকেন স্তরের মেট্রিক্সে বৃহত্তর ভিত্তি মডেলকে অতিক্রম করে
ব্যবহারিক যুগান্তকারী: কোরিয়ান জাতীয় আদালত প্রশাসনিক বিভাগের বিদ্যমান সিস্টেমের ৮-১৫% নির্ভুলতার তুলনায়, একটি বিশাল উন্নতি অর্জন করা

ত্রুটি বিশ্লেষণ

মডেল কম-ফ্রিকোয়েন্সি লেবেল সনাক্তকরণে দুর্বলতা রয়েছে:

প্রায়শই "뷔페(বুফে)" কে "기계설비회사(যন্ত্রপাতি সরঞ্জাম কোম্পানি)" হিসাবে ভুলভাবে শ্রেণীবদ্ধ করা
"불특정제품명(অনির্দিষ্ট পণ্যের নাম)" এবং "불특정회사명(অনির্দিষ্ট কোম্পানির নাম)" এ বিভ্রান্তি রয়েছে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

Thunder-DeID কোরিয়ান আদালত রায় ডি-আইডেন্টিফিকেশনের প্রযুক্তিগত চ্যালেঞ্জ সফলভাবে সমাধান করেছে
ত্রিস্তরীয় PII শ্রেণীবিভাগ স্কিম আইনি পাঠ্য ডি-আইডেন্টিফিকেশনের জন্য একটি পদ্ধতিগত কাঠামো প্রদান করে
কোরিয়ান ভাষা-বিশেষায়িত টোকেনাইজেশন এবং ডেটা বর্ধন কৌশল মডেল কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
এই কাজে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে, প্রকৃত স্থাপনার সম্ভাবনা রয়েছে

সীমাবদ্ধতা

ডেটা সীমাবদ্ধতা: আইনি সীমাবদ্ধতার কারণে, প্রকৃত বিশ্ব মূল্যায়নের জন্য মূল অবিচ্ছিন্ন রায় পেতে পারে না
ডোমেইন সীমাবদ্ধতা: মডেল দেওয়ানি, ফৌজদারি, প্রশাসনিক আইনের জন্য বিশেষভাবে প্রশিক্ষিত, অন্যান্য আইনি ক্ষেত্রে সাধারণীকরণ ক্ষমতা অজানা
প্রসঙ্গ সংবেদনশীলতা: আইনি ডি-আইডেন্টিফিকেশন অত্যন্ত প্রসঙ্গ-নির্ভর, মডেল বিভিন্ন আইনি বিরোধ ধরনে কর্মক্ষমতা হ্রাস পেতে পারে

ভবিষ্যত দিকনির্দেশনা

সংশ্লেষিত ডেটা উৎপাদন: প্রকৃত আদালত রায়ের কাছাকাছি সংশ্লেষিত ডেটা বর্ধন পদ্ধতি বিকাশ করা
ক্রস-ডোমেইন অভিযোজন: বিভিন্ন আইনি ক্ষেত্রে মডেল কর্মক্ষমতা মূল্যায়ন এবং উন্নতি করা
প্রকৃত স্থাপনা: কোরিয়ান বিচার সংস্থার সাথে প্রকৃত স্থাপনা পরীক্ষার জন্য সহযোগিতা করা

গভীর মূল্যায়ন

শক্তি

বাস্তব অর্থ উল্লেখযোগ্য: কোরিয়ান বিচার ব্যবস্থার প্রকৃত ব্যথার পয়েন্ট সমাধান করে, সরাসরি সামাজিক মূল্য রয়েছে
প্রযুক্তিগত উদ্ভাবনী: কোরিয়ান ভাষা-বিশেষায়িত টোকেনাইজেশন, ত্রিস্তরীয় PII শ্রেণীবিভাগ, ডেটা বর্ধন কৌশল সবই উদ্ভাবনী
পরীক্ষা সম্পূর্ণতা: ব্যাপক অ্যাবলেশন পরীক্ষা, একাধিক ভিত্তি তুলনা, বিস্তারিত ত্রুটি বিশ্লেষণ
ডেটাসেট অবদান: প্রথম কোরিয়ান আইনি ডি-আইডেন্টিফিকেশন ডেটাসেট, ক্ষেত্র উন্নয়ন প্রচার করে
আইনি সম্মতি: কোরিয়ান প্রাসঙ্গিক আইন ও প্রবিধান কঠোরভাবে মেনে চলে, ব্যবহারিকতা নিশ্চিত করে

অপূর্ণতা

মূল্যায়ন সীমাবদ্ধতা: প্রকৃত ডেটায় যাচাই করতে পারে না, ডোমেইন-মধ্যে ব্যবধান ঝুঁকি রয়েছে
পুনরুৎপাদনযোগ্যতা: কিছু বাস্তবায়ন বিবরণ (যেমন নির্দিষ্ট প্রতিস্থাপন তালিকা নির্মাণ) যথেষ্ট বিস্তারিত নয়
গণনা খরচ: বৃহৎ আকারের GPU সম্পদ প্রয়োজন, প্রকৃত প্রয়োগ সীমাবদ্ধ করতে পারে
সাধারণীকরণ ক্ষমতা: কোরিয়ান ভাষার বাইরে প্রয়োগযোগ্যতা অজানা

প্রভাব

একাডেমিক অবদান: আইনি NLP এবং ডি-আইডেন্টিফিকেশন গবেষণার জন্য নতুন বেঞ্চমার্ক এবং পদ্ধতি প্রদান করে
ব্যবহারিক মূল্য: কোরিয়ান বিচার ব্যবস্থার দক্ষতা এবং স্বচ্ছতা উল্লেখযোগ্যভাবে উন্নত করার সম্ভাবনা রয়েছে
আন্তর্জাতিক রেফারেন্স: অন্যান্য দেশের আইনি পাঠ্য ডি-আইডেন্টিফিকেশনের জন্য রেফারেন্স ফ্রেমওয়ার্ক প্রদান করে
প্রযুক্তি প্রচার: কোরিয়ান NLP প্রযুক্তির গুরুত্বপূর্ণ অগ্রগতি

প্রয়োগযোগ্য পরিস্থিতি

বিচার সংস্থা: আদালত রায়ের স্বয়ংক্রিয় ডি-আইডেন্টিফিকেশন প্রক্রিয়াকরণ
আইনি গবেষণা: বৃহৎ আকারের আইনি পাঠ্য বিশ্লেষণ এবং গবেষণা
সরকার বিভাগ: অন্যান্য পাঠ্য ডি-আইডেন্টিফিকেশন প্রয়োজন এমন জনসেবা
একাডেমিক গবেষণা: আইনি NLP, গোপনীয়তা সুরক্ষা ইত্যাদি সম্পর্কিত গবেষণা

তথ্যসূত্র

এই পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

চিকিৎসা ডি-আইডেন্টিফিকেশনের ক্লাসিক কাজ (Uzuner et al., 2007; Liu et al., 2017)
বিভিন্ন দেশের আইনি পাঠ্য ডি-আইডেন্টিফিকেশন গবেষণা (Niklaus et al., 2023; Salierno et al., 2024)
কোরিয়ান NLP ভিত্তি কাজ (Park et al., 2020; Ko et al., 2023)
প্রাসঙ্গিক আইন ও নীতি নথি

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের প্রয়োগ-ভিত্তিক গবেষণা পেপার, যা শুধুমাত্র প্রযুক্তিগতভাবে উদ্ভাবনী নয়, বরং প্রকৃত সামাজিক সমস্যা সমাধান করে। পেপারটির প্রকৌশল মূল্য এবং একাডেমিক মূল্য উভয়ই সমান গুরুত্বপূর্ণ, আইনি NLP ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। কিছু সীমাবদ্ধতা থাকলেও, এটি একটি উল্লেখযোগ্য এবং চমৎকার কাজ।