2025-11-13T23:28:11.258985

Ensemble data assimilation to diagnose AI-based weather prediction model: A case with ClimaX version 0.3.1

Kotsuki, Shiraishi, Okazaki
Artificial intelligence (AI)-based weather prediction research is growing rapidly and has shown to be competitive with the advanced dynamic numerical weather prediction models. However, research combining AI-based weather prediction models with data assimilation remains limited partially because long-term sequential data assimilation cycles are required to evaluate data assimilation systems. This study proposes using ensemble data assimilation for diagnosing AI-based weather prediction models, and marked the first successful implementation of ensemble Kalman filter with AI-based weather prediction models. Our experiments with an AI-based model ClimaX demonstrated that the ensemble data assimilation cycled stably for the AI-based weather prediction model using covariance inflation and localization techniques within the ensemble Kalman filter. While ClimaX showed some limitations in capturing flow-dependent error covariance compared to dynamical models, the AI-based ensemble forecasts provided reasonable and beneficial error covariance in sparsely observed regions. In addition, ensemble data assimilation revealed that error growth based on ensemble ClimaX predictions was weaker than that of dynamical NWP models, leading to higher inflation factors. A series of experiments demonstrated that ensemble data assimilation can be used to diagnose properties of AI weather prediction models such as physical consistency and accurate error growth representation.
academic

استخدام تمثيل البيانات الجماعي لتشخيص نموذج التنبؤ بالطقس القائم على الذكاء الاصطناعي: حالة مع ClimaX الإصدار 0.3.1

المعلومات الأساسية

  • معرّف الورقة: 2407.17781
  • العنوان: استخدام تمثيل البيانات الجماعي لتشخيص نموذج التنبؤ بالطقس القائم على الذكاء الاصطناعي: حالة مع ClimaX الإصدار 0.3.1
  • المؤلفون: Shunji Kotsuki, Kenta Shiraishi, Atsushi Okazaki (جامعة تشيبا)
  • التصنيف: cs.LG stat.AP
  • وقت النشر: يوليو 2024
  • رابط الورقة: https://arxiv.org/abs/2407.17781

الملخص

يتطور البحث في التنبؤ بالطقس القائم على الذكاء الاصطناعي (AI) بسرعة، وقد أظهر قدرة تنافسية مع نماذج التنبؤ العددي الديناميكي المتقدمة. ومع ذلك، لا تزال الدراسات التي تجمع بين نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي وتمثيل البيانات محدودة، جزئياً لأن تقييم أنظمة تمثيل البيانات يتطلب حلقات تمثيل بيانات متسلسلة طويلة الأجل. تقترح هذه الدراسة استخدام تمثيل البيانات الجماعي لتشخيص نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي، وتحقق بنجاح للمرة الأولى من دمج مرشح كالمان المحول المحلي (LETKF) مع نموذج التنبؤ بالطقس القائم على الذكاء الاصطناعي. تُظهر التجارب القائمة على نموذج ClimaX أنه من خلال استخدام تضخيم التباين والتقنيات المحلية في مرشح كالمان الجماعي، يمكن لتمثيل البيانات الجماعي أن يعمل بشكل مستقر في حلقات متكررة. على الرغم من أن ClimaX يواجه قيوداً مقارنة بالنماذج الديناميكية في التقاط مصفوفات التباين المعتمدة على التدفق، فإن التنبؤ الجماعي القائم على الذكاء الاصطناعي يوفر مصفوفات تباين معقولة ومفيدة في المناطق ذات الملاحظات النادرة. علاوة على ذلك، يكشف تمثيل البيانات الجماعي أن نمو الخطأ بناءً على التنبؤ الجماعي لـ ClimaX أضعف من نماذج التنبؤ العددي الديناميكي، مما يؤدي إلى عوامل تضخيم أعلى. تثبت سلسلة من التجارب أن تمثيل البيانات الجماعي يمكن استخدامه لتشخيص خصائص نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي مثل الاتساق الفيزيائي والتمثيل الدقيق لنمو الخطأ.

خلفية البحث والدافع

خلفية المشكلة

  1. تصاعد تهديدات الطقس القاسي: الأحداث الجوية القاسية الناجمة عن تغير المناخ تزداد حدة، وقد صنفها المنتدى الاقتصادي العالمي كأخطر تهديد عالمي
  2. التطور السريع للتنبؤ بالطقس القائم على الذكاء الاصطناعي: منذ إطلاق Google DeepMind لـ GraphCast في ديسمبر 2022، نما البحث في التنبؤ بالطقس باستخدام التعلم العميق بسرعة، بما في ذلك Pangu-Weather من Huawei و ClimaX و Stormer من Microsoft و FourCastNet من Nvidia
  3. تأخر البحث في تمثيل البيانات: على الرغم من أن نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي يمكنها الآن التنافس مع أحدث نماذج التنبؤ العددي، فإن الدراسات التي تجمع بين نماذج الذكاء الاصطناعي وتمثيل البيانات لا تزال محدودة

دافع البحث

  1. التحديات التقنية: متطلبات تجارب تمثيل البيانات المتسلسلة طويلة الأجل تجعل تقييم أنظمة تمثيل البيانات لنماذج الذكاء الاصطناعي صعباً
  2. الفجوات المنهجية: على الرغم من وجود أبحاث تجمع بين تمثيل البيانات المتغير ونماذج الذكاء الاصطناعي، لا توجد حالات ناجحة لدمج مرشح كالمان الجماعي مع نماذج الذكاء الاصطناعي
  3. احتياجات التشخيص: الحاجة إلى طرق فعالة لتشخيص خصائص نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي، مثل الاتساق الفيزيائي وتمثيل نمو الخطأ

المساهمات الأساسية

  1. الإنجاز الأول: دمج ناجح للمرة الأولى لمرشح كالمان المحول المحلي (LETKF) مع نموذج التنبؤ بالطقس القائم على الذكاء الاصطناعي (ClimaX)
  2. التشغيل المستقر في حلقات متكررة: إثبات أن تمثيل البيانات الجماعي لنموذج الذكاء الاصطناعي يمكن أن يعمل بشكل مستقر لمدة سنة واحدة من خلال تضخيم التباين والتقنيات المحلية
  3. إنشاء إطار تشخيصي: إنشاء إطار عمل لاستخدام تمثيل البيانات الجماعي لتشخيص خصائص نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي
  4. النتائج المهمة: الكشف عن القيود المقارنة لنموذج الذكاء الاصطناعي مقابل النماذج الديناميكية من حيث نمو الخطأ والاتساق الفيزيائي
  5. التحسينات التقنية: توسيع ClimaX لدعم التنبؤ بمتغيرات إضافية لتلبية متطلبات تمثيل البيانات

شرح تفصيلي للطريقة

تعريف المهمة

المهمة الأساسية للدراسة هي تطبيق تقنيات تمثيل البيانات الجماعية على نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي لتشخيص خصائصها وتقييم أدائها في أنظمة تمثيل البيانات. المدخلات هي بيانات الملاحظات الجوية والتنبؤات من نموذج الذكاء الاصطناعي، والمخرجات هي حقول التحليل بعد التمثيل.

معمارية النموذج

نموذج ClimaX

  • المعمارية الأساسية: نموذج تنبؤ جوي عالمي قائم على محول الرؤية (ViT)
  • إعدادات الدقة: نقاط شبكة 64×32 (5.625°×5.625°)، 7 طبقات عمودية (900, 850, 700, 600, 500, 250, 50 hPa)
  • المكونات الرئيسية: ترميز المتغيرات (variable tokenization) وتجميع المتغيرات (variable aggregation)
  • التحسينات الموسعة: توسيع المتغيرات المتنبأ بها الافتراضية من 5 إلى مجموعة المتغيرات الكاملة الموضحة في الجدول 1، لدعم متطلبات تمثيل البيانات

نظام تمثيل البيانات LETKF

معادلة تحديث مصفوفة الحالة الجماعية:

X^a = x̄^b · 1^T + δX^b P̃^a (Y^T R^-1 (y^o - H(X^b) · 1^T) + √(m-1) P̃^a^(1/2))

حيث مصفوفة التباين:

P̃^a = (I + Y^T R^-1 Y)^-1

دالة التوطين:

l = {exp(-dh²/Lh² - dv²/Lv²)  إذا كان dh ≤ 2√(10/3)Lh و dv ≤ 2√(10/3)Lv
     0                        وإلا}

نقاط الابتكار التقني

  1. التكامل النظامي: دمج ناجح للمرة الأولى لـ LETKF مع نموذج التنبؤ بالطقس القائم على الذكاء الاصطناعي، مطور بناءً على نظام SPEEDY-LETKF
  2. توسيع النموذج: توسيع ClimaX لدعم مجموعة المتغيرات الكاملة المطلوبة لتمثيل البيانات
  3. طريقة التشخيص: استخدام مقاييس مثل مقياس التوطين الأمثل وعامل التضخيم لتشخيص خصائص نموذج الذكاء الاصطناعي
  4. تصميم شبكة الملاحظات: استخدام شبكة ملاحظات مشابهة لملاحظات الرادار الجوي، مع ملاحظات درجة الحرارة والرياح في 7 طبقات في محطات الملاحظات

إعداد التجربة

مجموعة البيانات

  • بيانات التدريب: بيانات WeatherBench من 2006-2015 للتدريب، 2016 للتحقق
  • بيانات التجربة: بيانات 2017 لتجارب تمثيل البيانات (لم تُستخدم في التدريب)
  • الشروط الأولية: اختيار 20 عضو جماعي من الشروط الأولية من بيانات WeatherBench لعام 2006

مؤشرات التقييم

  • RMSE: جذر متوسط الخطأ التربيعي العالمي المتوسط
  • فرق MAE: فرق متوسط الخطأ المطلق بين حقل التحليل والتخمين الأول
  • عامل التضخيم: عامل تضخيم التباين التكيفي بناءً على إحصائيات فضاء الملاحظات
  • معامل الارتباط الشاذ: مؤشر أداء النموذج أثناء عملية التدريب

طرق المقارنة

  • تجارب الحساسية لمقاييس التوطين الأفقي المختلفة (Lh = 400, 500, 600, 700, 800 km)
  • مقارنة عوامل التضخيم مع نماذج التنبؤ العددي الديناميكي (SPEEDY)

تفاصيل التنفيذ

  • حجم الجماعة: 20 عضو
  • فترة تمثيل البيانات: 6 ساعات
  • مقياس التوطين العمودي: Lv = 1.0 (log Pa)
  • خطأ الملاحظة: الانحراف المعياري لدرجة الحرارة والرياح 1.0، الانحراف المعياري للرطوبة النسبية 0.1، الانحراف المعياري لضغط السطح 1.0

نتائج التجربة

النتائج الرئيسية

تحليل الاستقرار

  • الحلقات الناجحة: ظلت التجارب مع Lh = 500, 600, 700 km مستقرة طوال عام 2017
  • تباعد المرشح: ظهر تباعد المرشح مع Lh = 800 km بعد سبتمبر 2017
  • الأداء دون الأمثل: استمر Lh = 400 km في تقليل RMSE لكن الأداء كانت دون الأمثل

مقياس التوطين الأمثل

  • الإعداد الأمثل: حقق Lh = 600 km أقل RMSE تحليل على معظم المتغيرات
  • التحسن الملحوظ: أظهرت درجة الحرارة وضغط السطح انخفاضاً ملحوظاً في خطأ التحليل
  • قيود الرياح: لم تظهر الرياح الزونية والميريدية تحسناً واضحاً، بل ساءت قليلاً

تحليل الأنماط المكانية

  • تحسن نقاط الملاحظات: تحسنت الرياح الزونية ودرجة الحرارة بشكل عام في نقاط الشبكة التي تحتوي على ملاحظات
  • تدهور المناطق المحيطة: ظهر تدهور طفيف في المناطق المحيطة بمحطات الملاحظات (مثل المحيط المتجمد الشمالي والسواحل الأمريكية واليابانية)
  • ميزة نصف الكرة الجنوبي: أظهرت الارتفاعات الجهدية وضغط السطح تحسناً في مناطق نصف الكرة الجنوبي ذات الملاحظات النادرة

النتائج المهمة

خصائص عامل التضخيم

  • احتياجات التضخيم العالية: يتطلب ClimaX عوامل تضخيم أعلى من النماذج الديناميكية (يظهر الشكل 6 متوسطاً عالمياً حوالي 1.4-1.6)
  • نمو الخطأ الضعيف: يشير إلى أن نمو الخطأ في نموذج الذكاء الاصطناعي أضعف من نماذج التنبؤ العددي الديناميكي
  • خصائص الفوضى الضعيفة: متسقة مع نتائج Selz و Craig (2022)، لا يمكن لنموذج الذكاء الاصطناعي إعادة إنتاج تأثير الفراشة بدقة

قيود الاتساق الفيزيائي

  • قيود التنبؤ قصير الأجل: لا يمكن لـ ClimaX إجراء تكامل طبيعي طويل الأجل، وينحرف تدريجياً عن الغلاف الجوي الحقيقي بعد 6 ساعات من التنبؤ
  • توليد حقول غير فيزيائية: ينتج التنبؤ طويل الأجل حقول طقس غير واقعية من الناحية الأرصادية (مثل درجات حرارة منخفضة جداً فوق المحيط الهادئ)
  • مشكلة الجاذب: لا يمكن لنموذج الذكاء الاصطناعي العودة إلى مسار جاذب معقول من الناحية الأرصادية

الأعمال ذات الصلة

تطور التنبؤ بالطقس القائم على الذكاء الاصطناعي

  • GraphCast: العمل الرائد من Google DeepMind
  • النماذج التجارية: Pangu-Weather (Huawei)، ClimaX/Stormer (Microsoft)، FourCastNet (Nvidia)
  • معمارية ViT: تعتمد معظم نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي على معمارية محول الرؤية

طرق تمثيل البيانات

  • الطرق المتغيرة: التشابه الرياضي مع نماذج الذكاء الاصطناعي، وجود أبحاث حول دمج 4DVar
  • الطرق الجماعية: أول دمج ناجح لـ EnKF مع نماذج الذكاء الاصطناعي في هذه الدراسة
  • تمثيل البيانات بالتعلم العميق: بدأ استخدام الشبكات العصبية مؤخراً لحل مشاكل تمثيل البيانات العكسية

الخلاصات والمناقشة

الخلاصات الرئيسية

  1. الجدوى التقنية: يمكن دمج تمثيل البيانات الجماعي بشكل مستقر مع نماذج التنبؤ بالطقس القائمة على الذكاء الاصطناعي والعمل في حلقات متكررة
  2. قيمة التشخيص: تمثيل البيانات الجماعي هو أداة فعالة لتشخيص خصائص نماذج الذكاء الاصطناعي
  3. تحديد القيود: نماذج الذكاء الاصطناعي تواجه نقصاً في التقاط مصفوفات التباين المعتمدة على التدفق وتمثيل نمو الخطأ
  4. ميزة المناطق النادرة: يوفر التنبؤ الجماعي القائم على الذكاء الاصطناعي مصفوفات تباين معقولة في المناطق ذات الملاحظات النادرة

القيود

  1. قيود الدقة: تم إجراء التجارب فقط بدقة منخفضة (5.625°)، مما يحد من الجدوى العملية
  2. الملاحظات المحاكاة: استخدام بيانات ملاحظات محاكاة بدلاً من الملاحظات الحقيقية، مع وجود فجوة عن التطبيق الفعلي
  3. نموذج واحد: تم اختبار نموذج ClimaX فقط، والقابلية العامة للنتائج تحتاج إلى التحقق
  4. نقص التحليل النظري: التفسيرات النظرية لقيود نموذج الذكاء الاصطناعي سطحية نسبياً

التأثير

  1. التأثير الأكاديمي: فتح اتجاه جديد لدمج التنبؤ بالطقس القائم على الذكاء الاصطناعي مع تمثيل البيانات
  2. القيمة العملية: توفير مرجع مهم لتطوير أنظمة التنبؤ بالطقس القائمة على الذكاء الاصطناعي التشغيلية
  3. المساهمة المنهجية: إنشاء إطار عمل لاستخدام تمثيل البيانات لتشخيص نماذج الذكاء الاصطناعي
  4. قابلية الاستنساخ القوية: الكود المفتوح الكامل يسهل الأبحاث اللاحقة

السيناريوهات المعمول بها

  1. تقييم نماذج الذكاء الاصطناعي: مناسب لتشخيص خصائص نماذج التنبؤ بالطقس المختلفة القائمة على الذكاء الاصطناعي
  2. بحث تمثيل البيانات: توفير أساس لتطوير أنظمة تمثيل البيانات لنماذج الذكاء الاصطناعي
  3. الأنظمة المختلطة: يمكن استخدامه لتصميم أنظمة تنبؤ مختلطة بين الذكاء الاصطناعي والنماذج الفيزيائية
  4. البحث التعليمي: بمثابة حالة دراسية مهمة لتعليم الأرصاد الجوية بالذكاء الاصطناعي

المراجع

  1. Lam, R., et al. (2023): تعلم التنبؤ الماهر بالطقس العالمي متوسط المدى. Science, 382(6677), 1416-1421.
  2. Bi, K., et al. (2023): التنبؤ الدقيق بالطقس العالمي متوسط المدى باستخدام الشبكات العصبية ثلاثية الأبعاد. Nature, 619(7970), 533-538.
  3. Hunt, B. R., et al. (2007): تمثيل بيانات فعال للفوضى الزمكانية: مرشح كالمان المحول المحلي الجماعي. Physica D, 230(1-2), 112-126.
  4. Nguyen, T., et al. (2023): ClimaX: نموذج أساسي للطقس والمناخ. arXiv preprint arXiv:2301.10343.

تتمتع هذه الورقة بأهمية رائدة في دمج التنبؤ بالطقس القائم على الذكاء الاصطناعي مع تمثيل البيانات. على الرغم من وجود بعض القيود التقنية، فإنها تضع أساساً مهماً لتطور هذا المجال، وتتمتع بقيمة أكاديمية عالية وإمكانية عملية كبيرة.