2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.
Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
academic

السعادة هي مشاركة المفردات: دراسة في طرق النقل الصوتي

المعلومات الأساسية

  • معرّف الورقة: 2510.10827
  • العنوان: السعادة هي مشاركة المفردات: دراسة في طرق النقل الصوتي
  • المؤلفون: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 12 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.10827

الملخص

أصبح النقل الصوتي (Transliteration) طريقة واعدة لسد الفجوات بين اللغات المختلفة في معالجة اللغات الطبيعية متعددة اللغات، وخاصة بالنسبة للغات التي تستخدم أنظمة كتابة غير لاتينية. تحقق هذه الدراسة في مدى مساهمة مشاركة الكتابة والمفردات المتداخلة والفونولوجيا المشتركة في أداء النماذج متعددة اللغات. من خلال استخدام ثلاث طرق نقل صوتي (الرومنة والنسخ الفونيمي والتشفير البديل) بالإضافة إلى الإملاء كمجموعة تحكم، تم تقييم النماذج على مهمتي التعرف على الكيانات المسماة (NER) والاستدلال اللغوي الطبيعي (NLI). أظهرت النتائج أن الرومنة تتفوق بشكل ملحوظ على أنواع الإدخال الأخرى في 7 من 8 إعدادات تقييم، وهو ما يتوافق بشكل أساسي مع فرضيات المؤلفين. يشير التحليل الإضافي إلى أن مشاركة رموز فرعية أطول مع اللغات المدربة مسبقاً تسمح بالاستفادة بشكل أفضل من قدرات النموذج.

خلفية البحث والدافع

المشكلة الأساسية

تركز هذه الدراسة على حل مشكلة حاجز الكتابة (Script Barrier)، وهي ظاهرة يواجه فيها النموذج متعدد اللغات صعوبة في مشاركة المعرفة بين اللغات عند التعامل مع أنظمة كتابة مختلفة بسبب عدم تطابق التمثيل المدخل.

أهمية المشكلة

  1. العدالة متعددة اللغات: معظم نماذج اللغة المدربة مسبقاً تعتمد بشكل أساسي على النصوص اللاتينية، مع دعم غير كافٍ للغات غير اللاتينية
  2. عوائق نقل المعرفة: حتى في النماذج متعددة اللغات واسعة النطاق، يظل نقل المعرفة بين أنظمة الكتابة المختلفة صعباً
  3. عدم التوازن في الموارد: اللغات غير اللاتينية عادة ما تكون أقل توفراً للموارد، وتحتاج إلى طرق أفضل للنقل عبر اللغات

قيود الطرق الموجودة

  1. نقص التحليل المنهجي: على الرغم من فعالية طرق النقل الصوتي (مثل الرومنة وتحويل الفونيمات) في الممارسة العملية، إلا أن هناك نقصاً في الفهم العميق لأسباب فعاليتها
  2. الخلط بين العوامل: لم تتمكن الدراسات السابقة من فصل مساهمات العوامل المختلفة في النقل الصوتي بوضوح
  3. نطاق التقييم المحدود: تركزت معظم الدراسات على اللغات المتشابهة (مثل عائلة اللغات الهندية)، مع نقص في التنوع اللغوي

دافع البحث

يطرح المؤلفون السؤال الأساسي: هل هي مشاركة الكتابة نفسها أم المعلومات اللغوية المشفرة في الكتابة التي تساعد النموذج على التكيف مع لغات أخرى؟

المساهمات الأساسية

  1. إطار نظري: تحديد ثلاثة عوامل رئيسية لفعالية النقل الصوتي - مشاركة مجموعة الأحرف، ومشاركة مجموعة الرموز، ومشاركة الفونولوجيا
  2. تجارب منهجية: إجراء تجارب تدريب تحكمية على أربع مجموعات لغوية وأربعة أنواع إدخال
  3. تحليل متعمق: الكشف عن الآليات التي تنتج بها طرق النقل الصوتي المختلفة أنماط تداخل مختلفة من خلال تحليل تداخل المفردات
  4. نتائج مهمة: إثبات الدور الحاسم لمشاركة الرموز الأطول في التكيف عبر اللغات، مع تقديم مفهوم تغطية المفردات

شرح الطريقة

تعريف المهمة

الهدف من البحث هو فهم كيفية تأثير العوامل المختلفة في النقل الصوتي على أداء النموذج متعدد اللغات على اللغات غير المرئية. الإدخال عبارة عن نصوص معالجة بطرق نقل صوتي مختلفة، والإخراج هو أداء المهام اللاحقة.

العوامل الثلاثة الرئيسية

1. مشاركة مجموعة الأحرف (Shared Character Set)

  • التعريف: يقلل النقل الصوتي من خلال توحيد مجموعة الأحرف من الأحرف والأنماط الفريدة التي يحتاج المشفر إلى التقاطها
  • الدور: يقلل بشكل كبير من نسبة الرموز غير المعروفة (UNK)

2. مشاركة مجموعة الرموز (Shared Token Set)

  • التعريف: ينتج النقل الصوتي رموز فرعية مشتركة عبر اللغات (الطول > 1)
  • الأهمية: تسلسلات الأحرف أكثر احتمالاً من الأحرف الفردية لاحتواء معلومات دلالية

3. مشاركة الفونولوجيا (Shared Phonology)

  • التعريف: درجة المعلومات الفونولوجية المشفرة بواسطة طريقة النقل الصوتي
  • الدور: يجعل الكلمات ذات النطق المتشابه تحتوي على تمثيلات متشابهة، مما يسهل التعرف على الكلمات المشتقة والمستعارة

أربعة أنواع إدخال

نوع الإدخالمشاركة الأحرفمشاركة الرموزمشاركة الفونولوجيا
Ortho (الإملاء)---
IPA (الأبجدية الصوتية الدولية)±±+
Rom (الرومنة)++±
Cipher (التشفير البديل)+--

تحويل IPA

  • استخدام أداة Epitran لتحويل قائم على القواعد من الرسم إلى الفونيم (G2P)
  • يدعم أكثر من 100 لغة، مما يضمن الاتساق والجدوى العملية
  • على الرغم من أنه يعتمد على الأحرف اللاتينية، فإن الاختلافات في مكتبات الفونيمات بين اللغات تؤدي إلى مشاركة جزئية لمجموعات الأحرف والرموز

الرومنة (Rom)

  • استخدام أداة Uroman لتحويل أنواع مختلفة من الكتابة إلى أحرف لاتينية
  • الحفاظ على الشكل الأصلي للغات اللاتينية
  • تشفير المعلومات الصوتية ولكن ليس بدقة IPA

التشفير البديل (Cipher)

  • تطبيق تشفير قيصر على النص الروماني
  • استخدام قواعد إزاحة مختلفة لكل لغة
  • إزالة المعلومات الفونولوجية مع الحفاظ على مشاركة مجموعة الأحرف

استراتيجية اختيار اللغة

بناءً على حساب التشابه اللغوي باستخدام lang2vec، تم بناء أربع مجموعات لغوية:

  • sim-same: لغات متشابهة + كتابة متطابقة
  • sim-div: لغات متشابهة + كتابة مختلفة
  • dissim-same: لغات مختلفة + كتابة متطابقة
  • dissim-div: لغات مختلفة + كتابة مختلفة

يأخذ التشابه في الاعتبار الخصائص النحوية والجغرافية والوراثية والمعجمية.

إعداد التجارب

مجموعات البيانات

  • التدريب المسبق: مدونة ويكيبيديا، مع تحديد حوالي 10 ملايين كلمة لكل لغة
  • المهام اللاحقة:
    • NER: مجموعة بيانات WikiAnn
    • NLI: مجموعة بيانات XNLI

إعدادات النموذج

  • الهندسة المعمارية: مشفر Transformer قائم على XLM-R
  • عدد المعاملات: حوالي 109 مليون معامل
  • حجم المفردات: 30K (SentencePiece BPE)
  • التدريب: تدريب 16 نموذجاً من الصفر (4 أنواع إدخال × 4 مجموعات لغوية)

تحليل تداخل المفردات

صيغة حساب نسبة التداخل: OverlapRatio(lt,Ls)=maxlLsSlSltSlt\text{OverlapRatio}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}

نسبة التداخل المقسمة حسب الطول: {xSlsSltlen(x)=m}Slt\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}

نتائج التجارب

النتائج الرئيسية

أداء مهمة NER

  • اللغات غير المرئية: تتفوق Rom بشكل ملحوظ على الطرق الأخرى في جميع مجموعات اللغات
  • اللغات المرئية: تتطابق أداء Rom مع Ortho
  • الدلالة الإحصائية: Rom مقابل أنواع الإدخال الأخرى p<0.05

أداء مهمة NLI

  • اللغات غير المرئية: جميع طرق النقل الصوتي تتفوق على Ortho، مع أفضل أداء لـ Rom
  • اللغات المرئية: لا توجد فروقات ذات دلالة إحصائية بين أنواع الإدخال

النتائج الرئيسية

  1. ارتباط رموز UNK: ارتباط سلبي قوي بين نسبة UNK في اللغات غير المرئية والأداء
  2. فوائد النقل الصوتي: تظهر بشكل أساسي في اللغات التي تستخدم كتابة غير مرئية
  3. الاتساق: تتفوق Rom في 7 من 8 إعدادات تقييم

التحليل المتعمق

1. دور مشاركة مجموعة الأحرف

  • يقلل النقل الصوتي من خلال توحيد مساحة الأحرف من نسبة UNK بشكل كبير
  • يحقق Cipher، على الرغم من عدم وجود معلومات دلالية، مكاسب كبيرة بمجرد مشاركة الأحرف
  • يوجد ارتباط سلبي بين نسبة UNK ودرجة F1

2. أهمية طول الرمز

النتيجة الأساسية:

  • يرتبط تداخل الرموز القصيرة (بما فيها الأحرف الفردية) بشكل سلبي بالأداء
  • يرتبط تداخل الرموز الطويلة بشكل إيجابي بالأداء
  • ينتج Rom أكثر الرموز الطويلة، مما يفسر أدائه المتفوق

تحليل تغطية المفردات:

  • تحقق Rom أعلى تغطية في الرموز بطول 2-4
  • يحسن استخدام مساحة المفردات بشكل أفضل من قدرة النموذج
  • تفسر تغطية المفردات الفروقات في الأداء بشكل أفضل من خصوبة المشفر

3. المسار غير المباشر لمشاركة الفونولوجيا

  • يفتقر Cipher إلى المعلومات الفونولوجية، مما يجعل من الصعب إنتاج رموز طويلة
  • على الرغم من وجود المزيد من رموز UNK، ينتج IPA رموز مشتركة أطول في اللغات غير المرئية
  • تعزز مشاركة الفونولوجيا تكوين الرموز الطويلة من خلال تعيين الشكل والمعنى المتسق

الأعمال ذات الصلة

دراسات حاجز الكتابة

  • تواجه النماذج متعددة اللغات الكبيرة تحديات عند التعامل مع الكتابة غير المرئية أو الممثلة بشكل ناقص
  • يحظى النقل الصوتي باهتمام متزايد كوسيلة فعالة لتحسين النقل عبر اللغات

طرق النقل الصوتي

  • الرومنة: الاستفادة من هيمنة الأحرف اللاتينية في النماذج المدربة مسبقاً
  • تحويل G2P: تحويل النص إلى تمثيل IPA الفونيمي
  • القيود الموجودة: تركز في الغالب على اللغات المتشابهة، مع نقص في تحليل التنوع اللغوي

دراسات تداخل المفردات

  • تسمح مشاركة الوحدات المعجمية/الفرعية للنموذج بإعادة استخدام التمثيلات المتعلمة
  • تعيق نسبة الرموز UNK العالية النقل وتقلل أداء المهام اللاحقة
  • توفر هذه الدراسة تحليلاً أكثر دقة من خلال تقسيم الطول

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. الرومنة هي الأمثل: تتفوق بشكل ملحوظ على طرق النقل الصوتي الأخرى في معظم الإعدادات
  2. الرموز الطويلة حاسمة: مشاركة الرموز الأطول أكثر أهمية من التداخل على مستوى الأحرف
  3. شرح الآلية: يعيد النقل الصوتي تشكيل توزيع الرموز مما يجعل النماذج متعددة اللغات أكثر قابلية للتكيف

القيود

  1. نطاق النموذج: اختبار نموذج Transformer واحد فقط ومخطط رموز فرعية واحد
  2. الاعتماد على الأدوات: قد تتأثر النتائج بأداء أدوات الرومنة و G2P المحددة
  3. نطاق التقييم: قد يكون من الضروري التحقق على نماذج على مستوى الأحرف أو البايت

الاتجاهات المستقبلية

  1. التوسع إلى هندسات نماذج مختلفة ومخططات رموز
  2. استكشاف تأثير أدوات النقل الصوتي الأخرى
  3. دراسة تأثير توزيع طول الرمز على المهام المختلفة

التقييم المتعمق

المزايا

  1. المساهمة النظرية: أول تفكيك منهجي للعوامل الرئيسية لفعالية النقل الصوتي
  2. تصميم التجارب: تصميم تجارب تحكمية صارمة مع متغيرات تحكم واضحة
  3. عمق التحليل: يوفر تحليل تقسيم الطول لتداخل المفردات رؤى جديدة
  4. القيمة العملية: توفير إرشادات لاختيار طرق النقل الصوتي في معالجة اللغات الطبيعية متعددة اللغات

أوجه القصور

  1. قيود النطاق: التقييم على مهمتين فقط، مع عدم التأكد من القابلية للتعميم
  2. تغطية اللغة: على الرغم من التنوع اللغوي، فإن عدد اللغات نسبياً محدود
  3. الشرح النظري: الشرح النظري لسبب فعالية الرموز الطويلة غير كافٍ

التأثير

  1. المساهمة الأكاديمية: توفير إطار تحليل جديد لبحث النقل الصوتي
  2. القيمة العملية: توجيه تطبيقات النماذج متعددة اللغات للغات منخفضة الموارد
  3. قابلية الاستنساخ: وصف مفصل للطرق والإعدادات التجريبية يسهل الاستنساخ

السيناريوهات المعمول بها

  1. معالجة اللغات الطبيعية متعددة اللغات: مناسبة بشكل خاص للتطبيقات التي تتضمن كتابة غير لاتينية
  2. اللغات منخفضة الموارد: توفير استراتيجية نقل تعلم فعالة للغات ذات الموارد الشحيحة
  3. استرجاع المعلومات عبر اللغات: يساعد التمثيل الموحد على المطابقة عبر اللغات

المراجع

تستشهد الورقة بعدة أعمال مهمة، بما في ذلك:

  • XLM-R (Conneau et al., 2020): نموذج التدريب المسبق متعدد اللغات
  • Epitran (Mortensen et al., 2018): أداة تحويل G2P
  • Uroman (Hermjakob et al., 2018): أداة الرومنة العامة
  • WikiAnn (Pan et al., 2017): مجموعة بيانات NER متعددة اللغات

توفر هذه الدراسة من خلال تجارب تحكمية منهجية وتحليل متعمق رؤى مهمة لفهم آليات عمل النقل الصوتي في معالجة اللغات الطبيعية متعددة اللغات، وخاصة اكتشاف الدور الحاسم لمشاركة الرموز الطويلة في التكيف عبر اللغات، مما يساهم بقيمة في كل من التطور النظري والتطبيق العملي في هذا المجال.