2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic

توليد وتطبيق الارتباط النطقي النصي التلقائي للانحياز السياقي

المعلومات الأساسية

  • معرّف الورقة: 2501.00804
  • العنوان: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
  • المؤلفون: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
  • التصنيف: eess.AS (معالجة الصوت والكلام)، cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 1 يناير 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2501.00804

الملخص

يعتبر التمييز الفعال بين الارتباطات النطقية المختلفة للنصوص المكتوبة مسألة مهمة في الصوتيات اللغوية. تقليديًا، يتم الحصول على هذه الارتباطات النطقية من خلال قواميس النطق المصممة يدويًا. تقترح هذه الورقة منهجًا يعتمد على البيانات للحصول تلقائيًا على هذه الارتباطات النطقية، يُسمى الارتباط النطقي النصي التلقائي (ATPC). يتطلب هذا المنهج إشرافًا مماثلًا لتدريب أنظمة التعرف التلقائي على الكلام من طرف إلى طرف (E2E-ASR)، أي الكلام والنصوص المقابلة المُشروحة. أولاً، يتم استخدام خوارزمية مُقدّر الطابع الزمني للتدريب التكراري (ITSE) لمحاذاة الكلام مع رموز النص المُشروح المقابلة. بعد ذلك، يتم استخدام مشفّر الكلام لتحويل الكلام إلى تضمينات صوتية. أخيرًا، يتم الحصول على ATPC من خلال مقارنة مسافات التضمينات الصوتية لرموز نصية مختلفة. تُظهر نتائج التجارب على اللغة الصينية أن ATPC يعزز أداء E2E-ASR في الانحياز السياقي، ويوفر آمالاً للهجات أو اللغات التي تفتقر إلى قواميس النطق اليدوية.

الخلفية البحثية والدافع

تعريف المشكلة

تتمثل المشكلة الأساسية التي يسعى هذا البحث إلى حلها في كيفية الحصول تلقائيًا على الارتباطات النطقية بين رموز النص، وهي تحدٍ مهم في الصوتيات اللغوية. تعتمد الطرق التقليدية على قواميس النطق المصممة يدويًا لإنشاء هذه الارتباطات، لكن هذا النهج له قيود واضحة.

أهمية المشكلة

يلعب الارتباط النطقي دورًا حاسمًا في عدة مهام معالجة اللغة:

  1. التعرف التلقائي على الكلام (ASR): يعتبر النمذجة النطقية الدقيقة حاسمة لدقة التعرف
  2. تحويل النص إلى كلام (TTS): يتطلب معلومات نطقية دقيقة لتوليد كلام طبيعي
  3. التعرف على الانحياز السياقي: يتطلب فهمًا دقيقًا للارتباطات النطقية للتعامل مع المفردات المحددة

قيود الطرق الموجودة

  1. الاعتماد على القواموس اليدوية: تتطلب الطرق التقليدية قواميس نطق كبيرة مبنية يدويًا
  2. الخصوصية اللغوية: تتطلب كل لغة تصميم قاموس متخصص
  3. كثافة العمل اليدوي: عملية البناء اليدوي تستغرق وقتًا وجهدًا كبيرين
  4. عدم كفاية التغطية: يصعب تغطية متغيرات الهجات والمفردات المتخصصة

دافع البحث

على الرغم من أن نماذج E2E-ASR حققت تقدمًا كبيرًا في نمذجة الكلام إلى النص، إلا أنها لا تزال تفتقر إلى النمذجة الفعالة للارتباطات النطقية من النص إلى النص، خاصة في سيناريوهات الانحياز السياقي التي تتطلب فهمًا نطقيًا دقيقًا.

المساهمات الأساسية

  1. اقتراح طريقة ATPC: اقتراح أول طريقة تعتمد على البيانات لتوليد الارتباطات النطقية النصية التلقائية دون الحاجة إلى قواموس نطق يدوية
  2. إطار إشراف موحد: استخدام نفس إشارات الإشراف مثل E2E-ASR (أزواج الكلام والنص)، مما يقلل تكاليف التشريح الإضافية
  3. عملية توليد ثلاثية المراحل: تصميم خط أنابيب ATPC كامل يتضمن المحاذاة واستخراج التضمينات وحساب الارتباط
  4. التحقق التجريبي: التحقق من فعالية ATPC في مهام الانحياز السياقي على مجموعات البيانات الصينية
  5. الموارد مفتوحة المصدر: توفير مصفوفة ATPC الصينية كمورد عام

شرح الطريقة

تعريف المهمة

الإدخال: إشارة الكلام والنص المُشروح المقابل
الإخراج: مصفوفة الارتباط النطقي بين رموز النص
القيود: لا تتطلب قاموس نطق إضافي أو معرفة متخصصة

معمارية النموذج

يتضمن توليد ATPC ثلاث مراحل رئيسية:

1. محاذاة النص والكلام القائمة على ITSE

  • الهدف: الحصول على طوابع زمنية دقيقة للبداية والنهاية لكل حرف
  • الطريقة: استخدام خوارزمية مُقدّر الطابع الزمني للتدريب التكراري (ITSE)
  • المزايا:
    • توفير طوابع زمنية دقيقة للبداية والنهاية مقارنة بـ CTC
    • عدم الحاجة إلى قاموس نطق مقارنة بـ GMM-HMM
    • محاذاة على مستوى الرمز بناءً على E2E-ASR

2. استخراج وتقسيم التضمينات الصوتية

  • استخراج التضمينات: استخدام نموذج التمثيل الصوتي متعدد اللغات لاستخراج التضمينات على مستوى الجملة
  • اختيار النموذج: تم اختبار طبقات مختلفة من XLSR-53 والإصدار المُضبوط على IPA
  • استراتيجية التقسيم: تقسيم التضمينات بناءً على نتائج المحاذاة بدلاً من تقسيم الصوت
  • إعدادات التردد: تردد استخراج 50 هرتز (إطار واحد كل 20 ميلي ثانية)

3. حساب الارتباط النطقي

  • مقياس المسافة: استخدام خوارزمية الالتواء الديناميكي للوقت (DTW)
  • بناء مجموعة التضمينات: اختيار عشوائي لـ E=100 تضمين لكل حرف
  • استراتيجية التصفية: حذف الأحرف التي تظهر أقل من 3 مرات
  • حساب المسافة:
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

حيث يمثل cj و ck الحرف j والحرف k على التوالي، و M و N هما عدد التضمينات المقابلة.

نقاط الابتكار التقني

  1. محاذاة بدون قاموس: تحقيق محاذاة دقيقة بدون الحاجة إلى قاموس نطق باستخدام خوارزمية ITSE
  2. استراتيجية تقسيم التضمينات: تقسيم في فضاء التضمينات بدلاً من فضاء الصوت، مما يحافظ على المعلومات السياقية
  3. مقياس مسافة DTW: معالجة فعالة لحساب المسافة بين التضمينات ذات الأطوال المختلفة
  4. التدريب المسبق متعدد اللغات: الاستفادة من قدرة النماذج متعددة اللغات على التمثيل عبر اللغات

إعداد التجارب

مجموعات البيانات

  1. مجموعة فرعية من BABEL: لتدريب نموذج التمثيل الصوتي
    • تحتوي على كلام هاتفي حواري متعدد اللغات من 23 لغة
    • اللغات تشمل: الكانتونية، الآسامية، البنغالية، البشتو وغيرها
  2. مجموعة تدريب Aishell-2: لتدريب ITSE وتوليد ATPC
    • مجموعة بيانات كلام صينية
    • التحقق من الأداء عبر اللغات
  3. مجموعة بيانات الانحياز السياقي Aishell-1: لتقييم فعالية ATPC
    • مجموعة التطوير: 1334 جملة، 600 كلمة ساخنة
    • مجموعة الاختبار: 235 جملة، 161 كلمة ساخنة

مؤشرات التقييم

  1. القدرة على التمييز النطقي:
    • مسافة DTW بين الكلمات المتجانسة والكلمات غير المتجانسة
    • درجة التشتت النسبي (Relative Disparity)
  2. أداء الانحياز السياقي:
    • معدل خطأ الأحرف (CER)
    • معدل خطأ الأحرف المنحازة (B-CER)
    • معدل خطأ الأحرف غير المنحازة (U-CER)
    • الاستدعاء/الدقة/درجة F للكلمات الساخنة (R/P/F)

طرق المقارنة

  1. الدمج السطحي: طريقة رسم الفضاء المرجح المحدود (WFST) القائمة على فك التشفير السياقي
  2. الانحياز العميق: شبكة التنبؤ بالعبارات السياقية (CPPN) القائمة على بنية AED-CTC
  3. القاموس اليدوي: الطريقة التي تستخدم قاموس النطق المصنوع يدويًا

تفاصيل التنفيذ

  • نموذج العمود الفقري: XLSR-53، مُضبوط على مهمة التعرف على IPA في BABEL
  • اختيار طبقة التضمين: تُظهر التضمينات من الطبقة 15 أفضل أداء
  • دالة المسافة: المسافة الكوسينية أفضل من المسافة الإقليدية
  • إعداد الحد الأدنى: حد الانحياز السياقي 1.07
  • حجم المصفوفة: مصفوفة ATPC بحجم 3711×3711

نتائج التجارب

النتائج الرئيسية

تقييم القدرة على التمييز النطقي

النموذجالمسافة الإقليديةالمسافة الكوسينيةدرجة التشتت النسبي
XLSR-layer15متجانسة:105.67، غير متجانسة:131.66متجانسة:0.183، غير متجانسة:0.25819.7% / 29.1%
IPA-layer15متجانسة:394.47، غير متجانسة:499.87متجانسة:0.136، غير متجانسة:0.19121.1% / 28.8%

النتائج الرئيسية:

  • يتفوق النموذج المُضبوط على IPA باستمرار على XLSR-53 في التمييز النطقي
  • تُظهر التضمينات من الطبقة 15 أفضل أداء في معظم الحالات
  • المسافة الكوسينية متفوقة باستمرار على المسافة الإقليدية

تأثير الانحياز السياقي

الطريقةCER (U-CER/B-CER)درجة F (الاستدعاء/الدقة)
الخط الأساسي13.8 (7.3/41.8)44 (28/99)
ATPC12.0 (7.3/32.4)68 (53/96)
C-g + ATPC10.3 (7.7/21.5)80 (70/94)
C-g + القاموس اليدوي8.9 (7.4/15.3)86 (77/98)

تحسينات الأداء:

  • انخفاض نسبي في CER بنسبة 13.0% مقارنة بالخط الأساسي
  • انخفاض نسبي في B-CER بنسبة 22.5%
  • زيادة استدعاء الكلمات الساخنة بنسبة 25%
  • زيادة درجة F بنسبة 24%

تجارب الاستئصال

مقارنة التضمينات من طبقات مختلفة

تُظهر التجارب أن التضمينات من الطبقة 15 تحقق أفضل أداء في مهام التمييز النطقي، وقد يكون ذلك لأن هذه الطبقة تحقق أفضل توازن بين الميزات الصوتية والميزات الكلامية وهوية الكلمات والمعلومات الدلالية للكلمات.

مقارنة دوال المسافة

المسافة الكوسينية متفوقة على المسافة الإقليدية في جميع التكوينات، مع تحسن ملحوظ في درجة التشتت النسبي (مثل IPA-layer15 من 21.1% إلى 28.8%).

تحليل الحالات

تصور مصفوفة ATPC

من خلال تحليل التصور، تم اكتشاف:

  • مسافة DTW منخفضة نسبيًا بين الكلمات المتجانسة "刮"(gua1) و"瓜"(gua1)
  • مسافة DTW عالية نسبيًا بين الكلمات غير المتجانسة "爱"(ai4) و"途"(tu2)
  • تعكس المصفوفة بشكل عام الارتباطات النطقية بين الأحرف الصينية

نتائج التجارب

  1. القدرة على نقل التعلم عبر اللغات: يمكن للنماذج المدربة على بيانات متعددة اللغات أن تنقل بشكل فعال إلى اللغة الصينية
  2. الاختلافات في التمثيل على مستوى الطبقات: تشفر الطبقات المختلفة أنواعًا مختلفة من المعلومات، والطبقات الوسيطة أكثر ملاءمة للنمذجة النطقية
  3. أهمية مقياس المسافة: المسافة الكوسينية أكثر ملاءمة لالتقاط التشابه النطقي
  4. التحقق من الجدوى العملية: يمكن لـ ATPC كوحدة قابلة للإدراج والتشغيل أن تحسن بشكل فعال أداء ASR

الأعمال ذات الصلة

أبحاث النمذجة النطقية

تعتمد النمذجة النطقية التقليدية بشكل أساسي على:

  1. أنظمة HMM-GMM: تتطلب قواموس نطق مفصلة ومحاذاة فونيمية
  2. طرق التعلم العميق: لا تزال تعتمد على موارد نطقية مبنية يدويًا
  3. الأنظمة من طرف إلى طرف: على الرغم من تقليل الاعتماد على التمثيلات الوسيطة، إلا أنها لا تزال تفتقر إلى نمذجة الارتباطات النطقية

طرق الانحياز السياقي

  1. الدمج السطحي: دمج المعلومات السياقية في مرحلة فك التشفير
  2. الانحياز العميق: دمج آليات الوعي السياقي داخل النموذج
  3. مساهمة هذه الورقة: توفير طريقة جديدة لنمذجة الارتباطات النطقية

تعلم التمثيل الصوتي

  1. التعلم الذاتي الإشراف: توفر نماذج مثل wav2vec و XLSR تمثيلات صوتية قوية
  2. النماذج متعددة اللغات: توفر أساسًا لنمذجة النطق عبر اللغات
  3. تحليل الطبقات: تلتقط الطبقات المختلفة معلومات في مستويات تجريد مختلفة

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: نجحت ATPC في تحقيق توليد تلقائي للارتباطات النطقية دون الحاجة إلى قاموس يدوي
  2. تحسن الأداء: تحقيق تحسينات كبيرة في مهام الانحياز السياقي
  3. القيمة العملية: توفير حل للغات والهجات التي تفتقر إلى موارد نطقية
  4. قابلية الإدراج والتشغيل: سهولة التكامل كوحدة إضافية في أنظمة ASR الموجودة

القيود

  1. نقص التحليل النظري: عدم وجود شرح نظري عميق لسبب فعالية هذه الطريقة
  2. قيود التقييم: التقييم الأساسي على اللغة الصينية، وقدرة التعميم متعددة اللغات لم تُتحقق بشكل كامل
  3. الكفاءة الحسابية: التعقيد الزمني العالي لحساب DTW
  4. نقص تحليل الأخطاء: عدم التحليل العميق لحالات الفشل والأنماط الخاطئة

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال النمذجة النطقية
  2. التطبيق العملي: قيمة مهمة لأنظمة ASR للغات الموارد الشحيحة
  3. نشر التكنولوجيا: الطريقة بسيطة وسهلة التنفيذ، مما يسهل نشرها
  4. مشاركة الموارد: توفير مصفوفة ATPC مفتوحة المصدر كمورد قيم للمجتمع

السيناريوهات المناسبة

  1. اللغات الموارد الشحيحة: اللغات أو الهجات التي تفتقر إلى قواموس نطق
  2. النشر السريع: السيناريوهات التي تتطلب بناء نظام ASR بسرعة
  3. الانحياز السياقي: التطبيقات التي تحتاج إلى التعامل مع المفردات المتخصصة أو الكلمات الساخنة
  4. الأنظمة متعددة اللغات: بناء نظام معالجة كلام موحد متعدد اللغات

المراجع

تستشهد الورقة بـ 26 مرجعًا مهمًا، تغطي:

  • الأعمال الكلاسيكية في التعرف على الكلام و TTS
  • أحدث التطورات في ASR من طرف إلى طرف
  • الأبحاث ذات الصلة بالانحياز السياقي
  • الإنجازات الرائدة في تعلم التمثيل الصوتي
  • المساهمات المهمة في معالجة الكلام متعددة اللغات

التقييم الشامل: هذا عمل بحثي ذو قيمة عملية مهمة، يقترح طريقة مبتكرة تعتمد على البيانات لحل المشكلة العملية لنمذجة الارتباطات النطقية. على الرغم من وجود مجال للتحسن في العمق النظري والتحقق متعدد اللغات، فإن بساطة الطريقة وجدواها العملية تمنحها آفاقًا تطبيقية جيدة.