VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic
VayuChat: واجهة محادثة مدعومة بنموذج لغة كبير لتحليلات بيانات جودة الهواء
يؤدي تلوث الهواء في الهند إلى وفيات مبكرة لحوالي 1.6 مليون شخص سنويًا، لكن صناع القرار يواجهون صعوبة في تحويل البيانات المشتتة إلى أساس للقرارات. تتطلب الأدوات الموجودة مهارات متخصصة وتوفر فقط لوحات معلومات ثابتة، مما يعجز عن معالجة أسئلة السياسة الحاسمة. تقدم هذه الورقة VayuChat، وهو نظام حواري قادر على الإجابة عن أسئلة باللغة الطبيعية حول جودة الهواء والأرصاد الجوية وبرامج السياسة، مع توفير أكواد Python قابلة للتنفيذ وتصورات تفاعلية. يدمج VayuChat بيانات محطات المجلس المركزي لمكافحة التلوث (CPCB)، وبيانات الديموغرافيا على مستوى الولاية، وسجلات تمويل الخطة الوطنية للهواء النظيف (NCAP)، ويقدمها من خلال واجهة موحدة مدعومة بنموذج لغة كبير. يمكّن النظام صناع السياسات والباحثين والمواطنين من إجراء تحليلات بيئية معقدة من خلال محادثة بسيطة.
أزمة صحية عامة حادة: يؤدي تلوث الهواء في الهند إلى 1.6 مليون وفاة مبكرة سنويًا، مع تقليل متوسط العمر المتوقع بأكثر من 5 سنوات بسبب التعرض للجزيئات الدقيقة (PM2.5)
عوائق استخدام البيانات: رغم أن CPCB يجمع بيانات قياسات الملوثات الوطنية بشكل مستمر، فإن تحويل البيانات الخام إلى رؤى ذات صلة بالسياسة في الوقت المناسب يظل صعبًا
عتبة تقنية عالية: تتطلب الأدوات الموجودة معرفة متخصصة، وتوفر وظائف تصور محدودة فقط، أو تتعامل مع نطاق ضيق من المهام
بناء أول نظام حواري مدعوم بـ LLM لتحليل جودة الهواء: يمكن لـ VayuChat التعامل مع الاستعلامات باللغة الطبيعية وتوليد أكواد Python قابلة للتنفيذ ونتائج التصور
دمج بيانات بيئية متعددة المصادر: يدمج بيانات ملاحظات جودة الهواء والأرصاد الجوية من CPCB (2017-2024)، وبيانات السكان والمساحة على مستوى الولاية، وسجلات تخصيص تمويل NCAP
توفير آلية شفافة لتوليد الأكواد: يقلل من الهلوسة من خلال توليد أكواد Python بدلاً من النتائج المباشرة، مما يضمن قابلية التحقق والتكرار
دعم أنواع متعددة من التحليلات: بما في ذلك الاستعلامات المباشرة وتوليد الرسوم البيانية وتحليل الارتباط وتقييم التأثير السياسي
التحقق من خلال حالات واقعية: عرض القيمة العملية للنظام من خلال تحليل متعمق لأزمة تلوث الهواء في دلهي في ديسمبر 2024
تعاونت الورقة مع محللي جودة الهواء لاستخدام VayuChat في التحقيق من أسباب الارتفاع الحاد في التلوث الشديد في دلهي في ديسمبر 2024، مما يوضح القيمة التطبيقية الفعلية للنظام.
الاستعلام: "تحليل الارتباط بين CO و NO2 و PM2.5 في دلهي في ديسمبر منذ عام 2017"
مصفوفة الارتباط:
الملوث
CO
NO2
PM2.5
CO
1
0.3
0.47
NO2
0.3
1
0.34
PM2.5
0.47
0.34
1
الرؤى: PM2.5 يظهر أقوى ارتباط مع CO (r=0.47)، مما يشير إلى أن المصادر المشتركة مثل انبعاثات المركبات وحرق المحاصيل والانبعاثات الصناعية تدفع أحداث التلوث المتزامنة.
تستشهد هذه الورقة بـ 15 مرجعًا ذا صلة، تغطي تقنيات أساسيات LLM وأدوات تحليل البيانات البيئية والتأثيرات الصحية لتلوث الهواء وجوانب أخرى متعددة، مما توفر أساسًا نظريًا كافيًا ومراجع مقارنة للبحث.
التقييم الشامل: هذه ورقة ممتازة تجمع بين الابتكار التقني والتطبيق العملي، مع أهمية رائدة في تطبيق LLM في المجال العلمي البيئي. تصميم النظام معقول، وتحليل الحالات الفعلية متعمق، وله قيمة مهمة في حل مشكلة استخدام البيانات البيئية في الدول النامية مثل الهند. على الرغم من وجود مجال للتحسين في التقييم والتفاصيل التقنية، فإن المساهمة الإجمالية كبيرة، مع آفاق تطبيق وترويج جيدة.