يتطلب تحسين تحليل السلامة الجوية تقنيات مبتكرة لاستخراج رؤى قيمة من بيانات النصوص الغنية في تقارير الحوادث. تستكشف هذه الورقة تطبيق أربع تقنيات نمذجة مواضيع مشهورة، وهي التحليل الدلالي الكامن الاحتمالي (pLSA)، والتحليل الدلالي الكامن (LSA)، وتخصيص ديريشليه الكامن (LDA)، وتحليل المصفوفات غير السالبة (NMF)، لتحليل السرديات النصية لحوادث الطيران في مجموعة بيانات الهيئة الأسترالية لسلامة النقل (ATSB). يفحص البحث قدرة كل تقنية على الكشف عن هياكل المواضيع الكامنة في البيانات، مما يوفر لمتخصصي السلامة منهجاً منظماً للحصول على رؤى قابلة للتنفيذ. من خلال التحليل المقارن، لا يعرض هذا البحث فقط إمكانات هذه الأساليب في السلامة الجوية، بل يوضح أيضاً مزاياها وقيودها الفردية.
تلعب الصناعة الجوية دوراً حاسماً في النقل العالمي، والسلامة تظل الأولوية الأساسية. مع التوسع المستمر للأنشطة الجوية، هناك حاجة لتحليل كميات كبيرة من بيانات النصوص في تقارير الحوادث لاستخراج رؤى السلامة. تواجه الطرق التقليدية للتحليل اليدوي التحديات التالية:
تهدف هذه الورقة إلى توفير إرشادات لمتخصصي السلامة الجوية حول اختيار طريقة التحليل المناسبة من خلال مقارنة أربع تقنيات نمذجة مواضيع رئيسية، وتعزيز تطبيق تقنيات معالجة اللغة الطبيعية في مجال السلامة الجوية.
الإدخال: السرديات النصية لتقارير حوادث/أحداث الطيران من ATSB الإخراج: المواضيع المحددة والكلمات الرئيسية لها، حيث يمثل كل موضوع نوعاً معيناً من أحداث السلامة الهدف: مقارنة أربع تقنيات نمذجة مواضيع في الكشف عن هياكل المواضيع الكامنة في تقارير السلامة الجوية
يستخدم البحث خط أنابيب معالجة اللغة الطبيعية الكامل:
تحديد 10 مواضيع تغطي:
يظهر تحليل التباين المفسر التغيير في التباين مع زيادة عدد المواضيع، والمواضيع المحددة تشمل:
| التقنية | المزايا | العيوب |
|---|---|---|
| pLSA | اكتشاف موضوع شامل، قابلية تفسير قوية، رؤى قابلة للتنفيذ | اعتماد على البيانات، قابلية توسع محدودة، تداخل الموضوع |
| LSA | تقليل الأبعاد، تقليل الضوضاء، تحسين استرجاع المعلومات | هيكل كامن محدود، اعتماد على المعالجة المسبقة، التعقيد |
| LDA | نموذج توليدي، توزيع الموضوع، علاقات المستند-الموضوع | حساسية المعاملات الفائقة، صعوبة تفسير الموضوع، التعقيد |
| NMF | قيود غير سالبة، قابلية توسع، مواضيع قابلة للتفسير | مقتصر على البيانات الموجبة، صعوبة معالجة البيانات المتفرقة، اختيار الموضوع اليدوي |
مقارنة بالبحوث الموجودة، تقدم هذه الورقة للمرة الأولى مقارنة منظمة لأداء أربع تقنيات نمذجة مواضيع على نفس مجموعة بيانات السلامة الجوية، مما يوفر إرشادات أكثر شمولاً لاختيار التقنية.
تستشهد هذه الورقة بـ 24 مرجعاً ذا صلة، تشمل بشكل أساسي:
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال تطبيق تقنيات نمذجة المواضيع في السلامة الجوية. تتمتع الورقة بمنهجية صارمة وتصميم تجريبي كامل وتوفر إرشادات قيمة للتطبيق العملي. على الرغم من وجود مجال للتحسن في التقييم الكمي والتحقق الإحصائي، فإن الورقة بشكل عام تقدم مساهمة مهمة للبحث والتطبيق في هذا المجال.