2025-11-11T14:34:09.551839

VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics

Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic

VayuChat: واجهة محادثة مدعومة بنموذج لغة كبير لتحليلات بيانات جودة الهواء

المعلومات الأساسية

  • معرّف الورقة: 2511.01046
  • العنوان: VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
  • المؤلفون: Vedant Acharya, Abhay Pisharodi, Rishabh Mondal, Mohammad Rafiuddin, Nipun Batra
  • التصنيف: cs.CL (الحوسبة واللغة)
  • وقت النشر/المؤتمر: CODS 2025 (المؤتمر الدولي الثالث عشر لعلوم البيانات)
  • رابط الورقة: https://arxiv.org/abs/2511.01046
  • نشر النظام: https://huggingface.co/spaces/SustainabilityLabIITGN/VayuChat

الملخص

يؤدي تلوث الهواء في الهند إلى وفيات مبكرة لحوالي 1.6 مليون شخص سنويًا، لكن صناع القرار يواجهون صعوبة في تحويل البيانات المشتتة إلى أساس للقرارات. تتطلب الأدوات الموجودة مهارات متخصصة وتوفر فقط لوحات معلومات ثابتة، مما يعجز عن معالجة أسئلة السياسة الحاسمة. تقدم هذه الورقة VayuChat، وهو نظام حواري قادر على الإجابة عن أسئلة باللغة الطبيعية حول جودة الهواء والأرصاد الجوية وبرامج السياسة، مع توفير أكواد Python قابلة للتنفيذ وتصورات تفاعلية. يدمج VayuChat بيانات محطات المجلس المركزي لمكافحة التلوث (CPCB)، وبيانات الديموغرافيا على مستوى الولاية، وسجلات تمويل الخطة الوطنية للهواء النظيف (NCAP)، ويقدمها من خلال واجهة موحدة مدعومة بنموذج لغة كبير. يمكّن النظام صناع السياسات والباحثين والمواطنين من إجراء تحليلات بيئية معقدة من خلال محادثة بسيطة.

خلفية البحث والدافع

تعريف المشكلة

  1. أزمة صحية عامة حادة: يؤدي تلوث الهواء في الهند إلى 1.6 مليون وفاة مبكرة سنويًا، مع تقليل متوسط العمر المتوقع بأكثر من 5 سنوات بسبب التعرض للجزيئات الدقيقة (PM2.5)
  2. عوائق استخدام البيانات: رغم أن CPCB يجمع بيانات قياسات الملوثات الوطنية بشكل مستمر، فإن تحويل البيانات الخام إلى رؤى ذات صلة بالسياسة في الوقت المناسب يظل صعبًا
  3. عتبة تقنية عالية: تتطلب الأدوات الموجودة معرفة متخصصة، وتوفر وظائف تصور محدودة فقط، أو تتعامل مع نطاق ضيق من المهام

قيود الطرق الموجودة

  • تتطلب مهارات تقنية متخصصة للاستخدام
  • توفر لوحات معلومات ثابتة تفتقر إلى التفاعلية
  • غير قادرة على التعامل مع تحليلات معقدة عبر مجموعات البيانات
  • لا تزال الاستعلامات البسيطة مثل "كيف تغيرت مستويات PM2.5 في دلهي العام الماضي؟" صعبة الإجابة
  • تتطلب الأسئلة السياسية مثل "أي المدن خفضت PM2.5 أكثر نسبة إلى تمويل NCAP؟" دمج بيانات التلوث والتمويل والسكان

دافع البحث

الاستفادة من قدرات نماذج اللغة الكبيرة في فهم اللغة الطبيعية وتوليد الأكواد لبناء نظام قادر على:

  • خفض العتبة التقنية لتحليل البيانات البيئية
  • توفير نتائج تحليل شفافة وقابلة للتكرار
  • دمج البيانات المتعددة المصادر والمتغايرة
  • دعم الاستعلامات المعقدة ذات الصلة بالسياسة

المساهمات الأساسية

  1. بناء أول نظام حواري مدعوم بـ LLM لتحليل جودة الهواء: يمكن لـ VayuChat التعامل مع الاستعلامات باللغة الطبيعية وتوليد أكواد Python قابلة للتنفيذ ونتائج التصور
  2. دمج بيانات بيئية متعددة المصادر: يدمج بيانات ملاحظات جودة الهواء والأرصاد الجوية من CPCB (2017-2024)، وبيانات السكان والمساحة على مستوى الولاية، وسجلات تخصيص تمويل NCAP
  3. توفير آلية شفافة لتوليد الأكواد: يقلل من الهلوسة من خلال توليد أكواد Python بدلاً من النتائج المباشرة، مما يضمن قابلية التحقق والتكرار
  4. دعم أنواع متعددة من التحليلات: بما في ذلك الاستعلامات المباشرة وتوليد الرسوم البيانية وتحليل الارتباط وتقييم التأثير السياسي
  5. التحقق من خلال حالات واقعية: عرض القيمة العملية للنظام من خلال تحليل متعمق لأزمة تلوث الهواء في دلهي في ديسمبر 2024

شرح الطريقة

تعريف المهمة

الإدخال: استعلام باللغة الطبيعية من المستخدم يتعلق بجودة الهواء أو البيانات الأرصادية أو تحليل السياسة الإخراج:

  • أكواد Python قابلة للتنفيذ
  • نتائج تحليل البيانات (نصية أو جداول أو مخططات تصور)
  • إجابة مباشرة على الاستعلام

القيود:

  • يجب أن يعتمد الكود على مخطط مجموعة بيانات محدد مسبقًا
  • يجب أن تكون النتائج قابلة للتحقق والتكرار
  • دعم مقارنة التقييم عبر نماذج LLM متعددة

معمارية النظام

تصميم الواجهة الأمامية

توفر VayuChat واجهة قائمة على المتصفح تحتوي على أربع وحدات وظائف أساسية:

  1. محدد النموذج: يدعم نماذج متعددة من أحدث التقنيات (GPT-OSS 20B/120B، Qwen3-32B، سلسلة Llama، DeepSeek-R1، Gemini وغيرها)
  2. خيارات الاستعلام السريع: قوالب أسئلة محددة مسبقًا تتعلق بجودة الهواء
  3. إدخال الاستعلام المخصص: يدعم إدخال المستخدم لأي استعلام باللغة الطبيعية
  4. منطقة عرض الكود: عرض كود Python المُنتج لضمان الشفافية

عملية المعالجة الخلفية

استعلام المستخدم → دمج الفجوات النظامية → توليد الكود بـ LLM → التنفيذ في بيئة محمية → عرض النتائج

دمج مجموعات البيانات

مجموعة بيانات CPCB:

  • النطاق الزمني: 2017-2024
  • مؤشرات الملوثات: PM2.5، PM10، NO، NO2، NOx، NH3، SO2، CO، الأوزون (الوحدات: μg/m³ وغيرها)
  • متغيرات الأرصاد الجوية: درجة الحرارة، الرطوبة النسبية، سرعة الرياح، اتجاه الرياح، الهطول، الإشعاع الشمسي، الضغط الجوي، السرعة العمودية للرياح
  • بيانات وصفية للمحطات: المدينة والولاية ومعرّف المحطة المخصص من CPCB

بيانات السكان على مستوى الولاية:

  • تغطي 31 منطقة هندية
  • تتضمن بيانات التعداد السكاني لعام 2011
  • معلومات المساحة (km²)
  • تحديد المناطق الاتحادية

بيانات تمويل NCAP:

  • النطاق الزمني: 2019-2022
  • تسجيل توزيع التمويل لكل مدينة حسب السنة المالية
  • حالة استخدام التمويل اعتبارًا من يونيو 2022

نقاط الابتكار التقني

1. آلية تقليل الهلوسة القائمة على توليد الأكواد

الطرق التقليدية التي توفر بيانات جداول خام مباشرة إلى LLM تميل إلى إنتاج هلوسة، تعتمد VayuChat على الاستراتيجيات التالية:

  • توفير وصف مخطط مجموعة البيانات في الفجوة النظامية
  • يولد LLM أكواد Python بدلاً من الإجابات المباشرة
  • ضمان دقة النتائج من خلال تنفيذ الكود

2. معمارية دعم نماذج متعددة

  • دمج النماذج مفتوحة المصدر (عبر Groq Cloud API) والنماذج التجارية (عبر Gemini API)
  • دعم مقارنة أداء النموذج
  • اختيار النموذج الأنسب لأنواع الاستعلامات المختلفة

3. بيئة تنفيذ كود آمنة

  • تنفيذ الكود المُنتج في بيئة محمية
  • منع المخاطر الأمنية المحتملة للنظام
  • التقاط النتائج تلقائيًا ودمجها في الاستجابة

إعداد التجارب

تفاصيل مجموعة البيانات

شبكة مراقبة CPCB:

  • تغطي أكثر من 500 محطة مراقبة وطنية
  • 37 محطة مراقبة في دلهي للدراسة الحالة
  • تكرار القياس اليومي، مع تضمين علامات مراقبة الجودة

معايير التقييم:

  • بناء معيار VayuBench للتقييم (التفاصيل تتجاوز نطاق هذه الورقة)
  • التحقق من السيناريوهات الفعلية بالتعاون مع خبراء تحليل جودة الهواء

تقييم قدرات النظام

تدعم VayuChat ثلاث فئات رئيسية من الاستعلامات:

الاستعلامات المباشرة:

  • "أي مدينة لديها أعلى PM2.5 في عام 2023؟"
  • "عرض مستويات SO2 في دلهي"

توليد الرسوم البيانية:

  • "رسم اتجاه PM2.5 في مومباي"
  • "مقارنة مستويات الأوزون في البنجاب وغوجارات"

استعلامات التحليل:

  • "تحليل الارتباط بين سرعة الرياح و PM2.5"
  • "تقييم تأثير NCAP على جودة الهواء"

نتائج التجارب

دراسة حالة أزمة جودة الهواء في دلهي

تعاونت الورقة مع محللي جودة الهواء لاستخدام VayuChat في التحقيق من أسباب الارتفاع الحاد في التلوث الشديد في دلهي في ديسمبر 2024، مما يوضح القيمة التطبيقية الفعلية للنظام.

1. تحديد أيام التلوث الأكثر شدة

الاستعلام: "ما هي أسوأ أيام التلوث في دلهي في ديسمبر 2024؟"

النتائج:

التاريخPM2.5 (μg/m³)
2024-12-18344.59
2024-12-19341.46
2024-12-17330.25
2024-12-20291.46
2024-12-22285.98

2. تحليل العلاقة بين سرعة الرياح والتلوث

الاستعلام: "استخدم مخطط السلاسل الزمنية لمقارنة مستويات التلوث وسرعة الرياح في أسبوع التلوث الأكثر شدة في دلهي في ديسمبر 2024 مع 15 يومًا قبله وبعده"

الاكتشافات الرئيسية:

  • ارتباط سلبي واضح بين سرعة الرياح و PM2.5
  • عندما تنخفض سرعة الرياح إلى أقل من 1.0 m/s، يتجاوز PM2.5 300 μg/m³
  • حتى الانخفاض الطفيف في سرعة الرياح (0.6 m/s) يمكن أن يؤدي إلى تدهور سريع في جودة الهواء من "سيئة جدًا" إلى "حرجة"

3. مقارنة تاريخية لمدة خمس سنوات

الاستعلام: "رسم ومقارنة أسبوع التلوث في دلهي في ديسمبر 2024 مع البيانات من السنوات الخمس السابقة"

الاكتشافات:

  • سرعة الرياح في عام 2024 أفضل قليلاً مقارنة بالسنوات السابقة
  • PM2.5 وسرعة الرياح يظهران ارتباطًا سلبيًا قويًا في عامي 2019 و 2020
  • سجل عام 2023 أقل سرعة رياح (0.6 m/s)
  • كان مستوى PM2.5 في عام 2021 الأعلى (325 μg/m³)

4. تحليل الارتباط بين ملوثات متعددة

الاستعلام: "تحليل الارتباط بين CO و NO2 و PM2.5 في دلهي في ديسمبر منذ عام 2017"

مصفوفة الارتباط:

الملوثCONO2PM2.5
CO10.30.47
NO20.310.34
PM2.50.470.341

الرؤى: PM2.5 يظهر أقوى ارتباط مع CO (r=0.47)، مما يشير إلى أن المصادر المشتركة مثل انبعاثات المركبات وحرق المحاصيل والانبعاثات الصناعية تدفع أحداث التلوث المتزامنة.

أداء النظام

  • معالجة ناجحة لاستعلامات تحليل معقدة متعددة الخطوات
  • توليد مخططات تصور دقيقة
  • توفير أكواد Python قابلة للتحقق
  • دعم سير عمل تحليل كامل من تحديد الأزمة إلى الرؤى الميكانيكية

الأعمال ذات الصلة

أدوات تحليل البيانات البيئية

  • حزمة openair R: أداة متخصصة لتحليل بيانات جودة الهواء، لكنها تتطلب مهارات برمجة R
  • لوحة معلومات CPCB الرسمية: توفر بيانات فعلية لكن بوظائف محدودة، تفتقر إلى قدرات التحليل العميق
  • أدوات ذكاء الأعمال التقليدية: تتطلب مهارات متخصصة للتكوين، يصعب التعامل مع الاستعلامات باللغة الطبيعية

توليد الأكواد بـ LLM

  • قدرات GPT-3/4: تظهر أداء ممتازة في مهام البرمجة العامة، لكن تفتقر إلى التحسين الخاص بالمجال
  • نماذج اتباع التعليمات: تظهر إمكانية في مهام الاستدلال على الجداول، لكن التطبيقات في المجال البيئي محدودة
  • الاستدلال على الجداول بدون عينات: التقنيات ذات الصلة توفر أساسًا لطريقة هذه الورقة

تحليل البيانات الحواري

هذه الورقة هي الأولى المتخصصة في نظام حواري مدعوم بـ LLM لتحليل البيانات البيئية، مما يملأ فجوة في هذا المجال.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الجدوى التقنية: يمكن لـ LLM معالجة استعلامات تحليل بيانات بيئية معقدة بفعالية، مع ضمان دقة النتائج من خلال آلية توليد الأكواد
  2. القيمة العملية: دعم النظام بنجاح لتحليل متعمق لأزمة تلوث الهواء في دلهي، مما يوضح الإمكانية التطبيقية
  3. تحسين إمكانية الوصول: خفض كبير للعتبة التقنية لتحليل البيانات البيئية، مما يمكّن المستخدمين غير التقنيين من إجراء تحليلات معقدة

القيود

  1. نطاق تغطية البيانات: يعتمد حاليًا بشكل أساسي على بيانات CPCB الهندية، مع تغطية جغرافية محدودة
  2. عدم كفاية الفورية: لم يتم دمج تدفقات البيانات الفعلية بعد، التحليل يعتمد على البيانات التاريخية
  3. الاعتماد على النموذج: أداء النظام تعتمد على قدرة نموذج LLM الأساسي على توليد الأكواد
  4. معالجة الاستعلامات المعقدة: لم يتم تنفيذ تحليل الاستعلام التلقائي والاستدلال متعدد الخطوات بعد

الاتجاهات المستقبلية

  1. دمج البيانات الفعلية: دمج تدفقات بيانات جودة الهواء الفعلية من خلال واجهات برمجية
  2. توسيع البيانات: إضافة بيانات إعادة التحليل ERA5 والمنتجات الفضائية واستخدام الأراضي وقوائم الانبعاثات
  3. ضبط النموذج: تحسين متخصص للنموذج للمجال البيئي
  4. سير عمل الاستدلال التلقائي: تنفيذ تحليل الاستعلام التلقائي والتحليل متعدد الخطوات للاستعلامات المعقدة

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول نظام حواري مدعوم بـ LLM لتحليل البيانات البيئية، مع مسار تقني جديد
  2. قيمة عملية عالية: عرض القيمة التطبيقية الفعلية من خلال حالة دلهي، ذات أهمية كبيرة لصنع السياسات
  3. حل تقني معقول: تصميم تقليل الهلوسة من خلال توليد الأكواد قابل للتطبيق علميًا
  4. اكتمال النظام: تشكيل حلقة مغلقة كاملة من دمج البيانات واختيار النموذج إلى عرض النتائج
  5. شفافية عالية: توفير الأكواد المُنتجة، مما يضمن قابلية التحقق والتكرار

أوجه القصور

  1. تقييم غير كافٍ: تفاصيل VayuBench لم تُعرض في النص، مع نقص في التقييم الكمي للأداء
  2. تحليل حالات محدود: يعتمد بشكل أساسي على حالة دلهي الفردية، مع نقص في التحقق الأوسع
  3. تفاصيل تقنية غير كافية: وصف غير كافٍ للتفاصيل التقنية الحاسمة مثل ضبط LLM وهندسة الفجوات
  4. آلية معالجة الأخطاء: لم تتم مناقشة استراتيجيات معالجة أخطاء توليد الأكواد أو فشل التنفيذ بالتفصيل
  5. تقييم تجربة المستخدم: نقص في ردود فعل المستخدمين الفعليين وتقييمات الرضا

التأثير

  1. المساهمة الأكاديمية: توفير مرجع مهم لتطبيق LLM في المجال العلمي البيئي
  2. القيمة الاجتماعية: المساعدة في تحسين كفاءة استخدام البيانات البيئية، دعم اتخاذ قرارات سياسية أفضل
  3. التوضيح التقني: توفير أفكار تصميم لأنظمة تحليل البيانات المتخصصة الأخرى
  4. الانفتاح: نشر النظام علنًا، مما يعزز نشر التكنولوجيا والتطبيق

السيناريوهات القابلة للتطبيق

  1. اتخاذ القرارات الحكومية: صنع السياسات وتقييم المشاريع في أقسام البيئة
  2. البحث الأكاديمي: البحث في العلوم البيئية والصحة العامة
  3. وسائل الإعلام الإخبارية: التقارير الإخبارية المدفوعة بالبيانات حول البيئة
  4. التثقيف العام: زيادة الوعي العام بمشاكل جودة الهواء
  5. منظمات المجتمع المدني: الإشراف البيئي والأنشطة الدعوية

المراجع

تستشهد هذه الورقة بـ 15 مرجعًا ذا صلة، تغطي تقنيات أساسيات LLM وأدوات تحليل البيانات البيئية والتأثيرات الصحية لتلوث الهواء وجوانب أخرى متعددة، مما توفر أساسًا نظريًا كافيًا ومراجع مقارنة للبحث.


التقييم الشامل: هذه ورقة ممتازة تجمع بين الابتكار التقني والتطبيق العملي، مع أهمية رائدة في تطبيق LLM في المجال العلمي البيئي. تصميم النظام معقول، وتحليل الحالات الفعلية متعمق، وله قيمة مهمة في حل مشكلة استخدام البيانات البيئية في الدول النامية مثل الهند. على الرغم من وجود مجال للتحسين في التقييم والتفاصيل التقنية، فإن المساهمة الإجمالية كبيرة، مع آفاق تطبيق وترويج جيدة.