2025-11-23T23:25:17.435156

Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments

Hahm, Kim, Lee et al.
To ensure a balance between open access to justice and personal data protection, the South Korean judiciary mandates the de-identification of court judgments before they can be publicly disclosed. However, the current de-identification process is inadequate for handling court judgments at scale while adhering to strict legal requirements. Additionally, the legal definitions and categorizations of personal identifiers are vague and not well-suited for technical solutions. To tackle these challenges, we propose a de-identification framework called Thunder-DeID, which aligns with relevant laws and practices. Specifically, we (i) construct and release the first Korean legal dataset containing annotated judgments along with corresponding lists of entity mentions, (ii) introduce a systematic categorization of Personally Identifiable Information (PII), and (iii) develop an end-to-end deep neural network (DNN)-based de-identification pipeline. Our experimental results demonstrate that our model achieves state-of-the-art performance in the de-identification of court judgments.
academic

Thunder-DeID: إطار عمل دقيق وفعال لإلغاء تحديد الهوية في أحكام المحاكم الكورية

المعلومات الأساسية

  • معرّف الورقة: 2506.15266
  • العنوان: Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments
  • المؤلفون: Sungeun Hahm, Heejin Kim, Gyuseong Lee, Hyunji M. Park, Jaejin Lee (جامعة سيول الوطنية)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 16 أكتوبر 2025 (نسخة arXiv التمهيدية)
  • رابط الورقة: https://arxiv.org/abs/2506.15266v3

الملخص

لضمان التوازن بين الإفصاح القضائي وحماية البيانات الشخصية، تتطلب السلطات القضائية الكورية إجراء معالجة إلغاء تحديد الهوية قبل الإفصاح العام عن أحكام المحاكم. ومع ذلك، تفتقر عمليات إلغاء تحديد الهوية الحالية إلى القدرة على معالجة أحكام المحاكم على نطاق واسع مع الامتثال الصارم للمتطلبات القانونية. علاوة على ذلك، فإن التعريف القانوني والتصنيف للمعرّفات الشخصية غامض وغير مناسب للحلول التقنية. لمعالجة هذه التحديات، تقدم هذه الورقة إطار عمل Thunder-DeID لإلغاء تحديد الهوية، والذي يتوافق مع القوانين واللوائح ذات الصلة والممارسات العملية. على وجه التحديد، تقوم الورقة بـ: (i) بناء ونشر أول مجموعة بيانات قانونية كورية تحتوي على أحكام معلَّمة وقوائم الإشارات الكيانية المقابلة، (ii) تقديم مخطط تصنيف منهجي للمعلومات التي تحدد الهوية الشخصية (PII)، (iii) تطوير خط أنابيب شبكة عصبية عميقة (DNN) شامل لإلغاء تحديد الهوية. تُظهر النتائج التجريبية أن النموذج حقق أداءً متقدماً في مهمة إلغاء تحديد الهوية في أحكام المحاكم.

السياق البحثي والدافع

تعريف المشكلة

يهدف هذا البحث إلى حل ثلاث مشاكل أساسية في إلغاء تحديد الهوية في أحكام المحاكم الكورية:

  1. اختناق الكفاءة: الاعتماد المفرط على الطرق اليدوية يؤدي إلى عبء إداري وتأخير في نشر الأحكام، مما يؤدي إلى إمكانية وصول منخفضة بشكل ملحوظ للأحكام من قبل الجمهور الكوري
  2. ضعف الأداء التقني: خلال الفترة من 2019-2025، كان معدل الدقة الإجمالي لأدوات إلغاء تحديد الهوية الآلية الموجودة فقط 8-15%
  3. غموض التعريف القانوني: التعريف والتصنيف الحالي للمعرّفات الشخصية في القانون غامض، وغير مناسب بشكل خاص للحلول التقنية الآلية

أهمية البحث

إن علانية الإجراءات القضائية هي مبدأ ديمقراطي مهم ينص عليه الدستور في العديد من الدول بما فيها كوريا. تتطلب كوريا نطاقاً أوسع وشروطاً أكثر صرامة للمعرّفات الشخصية التي تحتاج إلى إخفاء الهوية في السياق القضائي. تعتبر تقنية إلغاء تحديد الهوية الفعالة حاسمة لتحقيق التوازن بين الشفافية القضائية وحماية الخصوصية.

قيود الطرق الموجودة

  • طرق LLM القائمة على المحفزات: تغيّر بنية الجملة الأصلية، مع وجود خطر تشويه الجملة والسياق
  • قيود واجهة برمجة التطبيقات: تقيد المؤسسات الحكومية الكورية استخدام خدمات واجهة برمجة التطبيقات مثل ChatGPT لأسباب تتعلق بالخصوصية وأمان المعلومات
  • عدم كفاية القدرة على المعالجة على نطاق واسع: لا يمكن للطرق الموجودة التعامل بفعالية مع أحكام المحاكم على نطاق واسع

المساهمات الأساسية

  1. أول مجموعة بيانات قانونية كورية: إنشاء مجموعة بيانات ثنائية الأجزاء تحتوي على 6,700 حكم معلَّم (تغطي الحالات المدنية والجنائية والإدارية) و48,306 كيان مسمى
  2. إطار تصنيف PII ثلاثي المستويات: بناءً على التحليل الاستقرائي لـ 48,306 كيان مسمى، تقديم مخطط تصنيف منهجي للمعلومات التي تحدد الهوية الشخصية
  3. معالج رموز متخصص: دمج محلل الأشكال Mecab-ko مع ترميز البايتات الزوجي (BPE)، مع الاستفادة من الميزات الفريدة للغة الكورية
  4. خط أنابيب DNN شامل: تطوير إطار عمل كامل لإلغاء تحديد الهوية، يحقق أفضل أداء في مهمة إلغاء تحديد الهوية في أحكام المحاكم

شرح الطريقة

تعريف المهمة

الإدخال: نص حكم محكمة كوري أصلي يحتوي على معلومات تحدد الهوية الشخصية الإخراج: نص حكم تم إلغاء تحديد هويته، حيث يتم استبدال أو حذف المعلومات الحساسة بشكل مناسب القيود: يجب أن تتوافق مع اللوائح القانونية الكورية ذات الصلة (مثل المادة 59-3 من قانون الإجراءات الجنائية الكوري، المادة 163-2 من قانون الإجراءات المدنية، إلخ)

معمارية النموذج

1. عملية بناء البيانات

أحكام مجهولة الهوية → كشف واضح للعناصر النائبة → مخطط تصنيف PII → توليد قوائم الاستبدال → توليد بيانات التدريب

2. عائلة نماذج Thunder-DeID

بناءً على معمارية DeBERTa-v3، تتضمن ثلاثة أحجام من النماذج:

  • Thunder-DeID-370M: 370 مليون معامل، بُعد مخفي 1024، 24 طبقة Transformer
  • Thunder-DeID-800M: 800 مليون معامل، بُعد مخفي 1280، 36 طبقة Transformer
  • Thunder-DeID-1.5B: 1.5 مليار معامل، بُعد مخفي 2048، 24 طبقة Transformer

3. استراتيجية معالجة الرموز

دمج محلل الأشكال Mecab-ko مع BPE:

  • Mecab-ko: معالجة الأشكال اللاصقة للغة الكورية، فصل دقيق للجذور والمساعدات
  • BPE: حل مشكلة المفردات خارج الجدول (OOV)، تمثيل الكلمات غير المرئية كوحدات فرعية

4. خوارزمية توليد بيانات التدريب

# مثال الكود الزائف
def generate_training_data(annotated_text, replacement_lists):
    # 1. تحديد أزواج العلامات الخاصة
    start_tokens, end_tokens = detect_markers(annotated_text)
    
    # 2. المسح والاستبدال العنصري للعناصر النائبة
    for start_token, end_token in zip(start_tokens, end_tokens):
        placeholder_range = extract_range(start_token, end_token)
        entity_type = get_entity_type(start_token)
        replacement = sample_from_list(replacement_lists[entity_type])
        replace_placeholder(placeholder_range, replacement)
    
    # 3. توليد تسلسل التسميات
    label_sequence = generate_labels(replaced_text)
    return tokenized_sequence, label_sequence

نقاط الابتكار التقني

  1. نظام تصنيف PII ثلاثي المستويات:
    • المستوى الأول: معرّفات مباشرة مقابل معرّفات شبه مباشرة
    • المستوى الثاني: 16 فئة فرعية (مثل أسماء الأشخاص والمعلومات الجغرافية والمنظمات وغيرها)
    • المستوى الثالث: 80 فئة دقيقة الحبيبات، تقابل 729 تسمية
  2. معالجة رموز متخصصة للغة الكورية:
    • الاستفادة من Mecab-ko لفصل دقيق لـ "홍길동이" إلى "홍길동" + "이"
    • ضمان إلغاء تحديد الهوية فقط للكيانات المستهدفة، مع الحفاظ على سلامة المساعدات
  3. استراتيجية تعزيز البيانات:
    • استبدال Per-Epoch: استبدال كيانات مختلفة في كل epoch، مما يزيد من تنوع البيانات
    • استبدال Single: استبدال ثابت، كخط أساس للمقارنة

إعداد التجارب

مجموعة البيانات

  • الحجم: 6,700 حكم (3,000 مدني، 3,000 جنائي، 700 إداري)
  • عدد الكيانات: 48,306 كيان معلَّم
  • مصدر البيانات: قسم التشريعات الحكومي الكوري، AI-hub، مجموعات البيانات العامة
  • نسبة التقسيم: 80% تدريب، 10% تحقق، 10% اختبار

مؤشرات التقييم

  1. المستوى الثنائي للرمز: قياس قدرة النموذج على تحديد الرموز التي تحتاج إلى إلغاء تحديد الهوية
  2. مستوى الرمز: قياس دقة النموذج في تصنيف أنواع الكيانات المحددة
  3. المؤشرات: الدقة والاستدعاء ودرجة F1

طرق المقارنة

  • Polyglot-Ko (1.3 مليار معامل): نموذج لغة متخصص للغة الكورية
  • EXAONE-3.5 (2.4 مليار معامل): نموذج فك تشفير متخصص للغة الكورية

تفاصيل التنفيذ

  • مدونة التدريب المسبق: 76.7 جيجابايت من المدونة ثنائية اللغة (كورية + إنجليزية)
  • طول التسلسل: 512 → 2048 رمز
  • المُحسِّن: AdamW، β=(0.9, 0.999)
  • جدول معدل التعلم: الإحماء لأول 10% من الخطوات + تحلل جيبي
  • الأجهزة: 32 × NVIDIA H100 80GB GPUs

نتائج التجارب

النتائج الرئيسية

النموذجعدد المعاملاتدرجة F1 للرمز الثنائيدرجة F1 الدقيقة لمستوى الرمز
Polyglot-ko1.3B0.97010.8765
EXAONE2.4B0.96770.8752
Thunder-DeID-370M370M0.96540.8871
Thunder-DeID-800M800M0.97910.9105
Thunder-DeID-1.5B1.5B0.98080.9071

النتائج الرئيسية

  1. تحسن أداء كبير: يتفوق Thunder-DeID على جميع نماذج الأساس في جميع الأحجام
  2. ميزة Per-Epoch: استراتيجية استبدال Per-Epoch تتفوق بشكل ملحوظ على استبدال Single في جميع النماذج
  3. تأثير الحجم: حتى أصغر Thunder-DeID-370M يتفوق على نماذج الأساس الأكبر في مؤشرات مستوى الرمز
  4. اختراق عملي: مقارنة بمعدل الدقة الحالي 8-15% لنظام قسم الإدارة بالمحكمة الوطنية الكورية، يحقق تحسناً هائلاً

تحليل الأخطاء

يُظهر النموذج نقاطاً ضعيفة في التعرف على التسميات منخفضة التكرار:

  • غالباً ما يصنف "뷔페(مطعم بوفيه)" بشكل خاطئ على أنه "기계설비회사(شركة معدات ميكانيكية)"
  • يوجد التباس بين "불특정제품명(اسم منتج غير محدد)" و "불특정회사명(اسم شركة غير محدد)"

الأعمال ذات الصلة

إلغاء تحديد الهوية الطبية

  • إرشادات HIPAA: طريقة Safe Harbor والحكم الخبير
  • التطور التقني: الأنظمة القائمة على القواعد → BiLSTM-CRF → BERT → LLM
  • القيود: تحد لوائح HIPAA من النشر العملي لـ LLM

إلغاء تحديد الهوية في أحكام المحاكم

مقارنة الأداء عبر الدول:

  • العربية: F1=96.14%
  • الألمانية/الفرنسية/الإيطالية: F1=92.40%
  • الإسبانية: F1=91.90%
  • الهندية: F1=91.10%
  • الإيطالية: F1=88.60%

تملأ هذه الورقة الفراغ في إلغاء تحديد الهوية للنصوص القانونية الكورية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجح Thunder-DeID في حل التحديات التقنية لإلغاء تحديد الهوية في أحكام المحاكم الكورية
  2. يوفر مخطط تصنيف PII ثلاثي المستويات إطار عمل منهجي لإلغاء تحديد الهوية في النصوص القانونية
  3. تحسّن استراتيجيات معالجة الرموز المتخصصة للغة الكورية وتعزيز البيانات أداء النموذج بشكل كبير
  4. حقق أداءً متقدماً في هذه المهمة، مع إمكانية النشر العملي

القيود

  1. قيود البيانات: بسبب القيود القانونية، لا يمكن الحصول على أحكام أصلية غير مجهولة الهوية لإجراء تقييم في العالم الحقيقي
  2. القيود الإقليمية: تم تدريب النموذج بشكل خاص على القانون المدني والجنائي والإداري، وقدرة التعميم على مجالات قانونية أخرى غير معروفة
  3. حساسية السياق: يعتمد إلغاء تحديد الهوية القانوني بشكل كبير على السياق، وقد تنخفض أداء النموذج على أنواع نزاعات قانونية مختلفة

الاتجاهات المستقبلية

  1. توليد البيانات الاصطناعية: تطوير طرق تعزيز البيانات الاصطناعية الأقرب إلى أحكام المحاكم الحقيقية
  2. التكيف عبر المجالات: تقييم وتحسين أداء النموذج عبر مجالات قانونية مختلفة
  3. النشر العملي: التعاون مع المؤسسات القضائية الكورية لإجراء اختبارات النشر العملي

التقييم المتعمق

المميزات

  1. أهمية عملية كبيرة: حل نقاط الضعف الفعلية في النظام القضائي الكوري، مع قيمة اجتماعية مباشرة
  2. الابتكار التقني: معالجة الرموز المتخصصة للغة الكورية وتصنيف PII ثلاثي المستويات واستراتيجيات تعزيز البيانات كلها مبتكرة
  3. كفاية التجارب: تجارب استئصالية شاملة ومقارنات خطوط أساس متعددة وتحليل أخطاء مفصل
  4. مساهمة مجموعة البيانات: أول مجموعة بيانات قانونية كورية لإلغاء تحديد الهوية، تعزز تطور المجال
  5. الامتثال القانوني: الامتثال الصارم للوائح القانونية الكورية ذات الصلة، مما يضمن الجدوى العملية

أوجه القصور

  1. قيود التقييم: عدم القدرة على التحقق من البيانات الحقيقية، مع وجود خطر الفجوة بين المجالات
  2. قابلية إعادة الإنتاج: بعض تفاصيل التنفيذ (مثل بناء قوائم الاستبدال المحددة) لم يتم وصفها بتفصيل كافٍ
  3. التكلفة الحسابية: تتطلب موارد GPU واسعة النطاق، قد تحد من التطبيق العملي
  4. القدرة على التعميم: قابلية التطبيق على لغات غير الكورية غير معروفة

التأثير

  1. المساهمة الأكاديمية: توفير معيار جديد وطرق لأبحاث NLP القانونية وإلغاء تحديد الهوية
  2. القيمة العملية: من المتوقع أن يحسّن بشكل كبير كفاءة وشفافية النظام القضائي الكوري
  3. الاستعارة الدولية: توفير إطار عمل مرجعي لإلغاء تحديد الهوية في النصوص القانونية في دول أخرى
  4. نشر التكنولوجيا: تقدم مهم في تكنولوجيا NLP للغة الكورية

السيناريوهات القابلة للتطبيق

  1. المؤسسات القضائية: معالجة آلية لإلغاء تحديد الهوية في أحكام المحاكم
  2. البحث القانوني: تحليل وبحث النصوص القانونية على نطاق واسع
  3. الأقسام الحكومية: خدمات عامة أخرى تتطلب إلغاء تحديد الهوية للنصوص
  4. البحث الأكاديمي: أبحاث ذات صلة بـ NLP القانوني وحماية الخصوصية

المراجع

تستشهد هذه الورقة بأعمال ذات صلة متعددة مهمة، بما في ذلك:

  • الأعمال الكلاسيكية في إلغاء تحديد الهوية الطبية (Uzuner et al., 2007; Liu et al., 2017)
  • أبحاث إلغاء تحديد الهوية في النصوص القانونية في دول مختلفة (Niklaus et al., 2023; Salierno et al., 2024)
  • الأعمال الأساسية في NLP للغة الكورية (Park et al., 2020; Ko et al., 2023)
  • الوثائق القانونية والسياسات ذات الصلة

التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو التطبيق، لا تتمتع فقط بالابتكار التقني بل تحل أيضاً مشكلة اجتماعية فعلية. تجمع الورقة بين القيمة الهندسية والقيمة الأكاديمية، وتقدم مساهمة مهمة لمجال NLP القانوني. على الرغم من وجود بعض القيود، فإن المميزات تفوق العيوب، وهي عمل ممتاز يستحق الاهتمام.