VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic
VayuChat: वायु गुणवत्ता डेटा विश्लेषण के लिए एक LLM-संचालित संवादी इंटरफेस
भारत में प्रतिवर्ष वायु प्रदूषण के कारण लगभग 1.6 मिलियन लोगों की समय से पहले मृत्यु होती है, लेकिन नीति निर्माताओं को बिखरे हुए डेटा को निर्णय साक्ष्य में परिवर्तित करने में कठिनाई होती है। मौजूदा उपकरणों को विशेषज्ञ कौशल की आवश्यकता है और केवल स्थिर डैशबोर्ड प्रदान करते हैं, जो महत्वपूर्ण नीति प्रश्नों को संबोधित नहीं कर सकते। यह पेपर VayuChat प्रस्तावित करता है, जो एक संवादी प्रणाली है जो वायु गुणवत्ता, मौसम विज्ञान और नीति कार्यक्रमों के बारे में प्राकृतिक भाषा प्रश्नों का उत्तर दे सकती है, और कार्यान्वयन योग्य Python कोड और इंटरैक्टिव दृश्य प्रदान करती है। VayuChat केंद्रीय प्रदूषण नियंत्रण बोर्ड (CPCB) निगरानी स्टेशन डेटा, राज्य-स्तरीय जनसांख्यिकीय डेटा और राष्ट्रीय स्वच्छ वायु योजना (NCAP) निधि रिकॉर्ड को एकीकृत करता है, जो बड़ी भाषा मॉडल द्वारा संचालित एकीकृत इंटरफेस के माध्यम से सेवा प्रदान करता है। यह मंच नीति निर्माताओं, शोधकर्ताओं और नागरिकों को सरल संवाद के माध्यम से जटिल पर्यावरणीय विश्लेषण करने में सक्षम बनाता है।
गंभीर सार्वजनिक स्वास्थ्य संकट: भारत में वायु प्रदूषण प्रतिवर्ष 1.6 मिलियन लोगों की समय से पहले मृत्यु का कारण बनता है, PM2.5 जोखिम से जीवन प्रत्याशा में 5 वर्ष से अधिक की कमी होती है
डेटा उपयोग में बाधाएं: यद्यपि CPCB राष्ट्रव्यापी प्रदूषक माप डेटा का निरंतर संग्रह करता है, फिर भी कच्चे डेटा को समय पर नीति-संबंधित अंतर्दृष्टि में परिवर्तित करना कठिन है
उच्च तकनीकी बाधा: मौजूदा उपकरणों को विशेषज्ञ ज्ञान की आवश्यकता है, केवल सीमित दृश्य कार्यक्षमता प्रदान करते हैं, या केवल संकीर्ण कार्य सीमा को संभालते हैं
स्थिर डैशबोर्ड प्रदान करते हैं, इंटरैक्टिविटी की कमी है
जटिल क्रॉस-डेटासेट विश्लेषण को संभालने में असमर्थ
सरल प्रश्न जैसे "पिछले साल दिल्ली में PM2.5 कैसे बदला?" का उत्तर देना अभी भी कठिन है
नीति प्रश्न जैसे "कौन से शहरों ने NCAP निधि के सापेक्ष PM2.5 में सबसे अधिक कमी की है?" को प्रदूषण, निधि और जनसांख्यिकीय डेटा को एकीकृत करने की आवश्यकता है
वायु गुणवत्ता विश्लेषण के लिए पहली LLM-संचालित संवादी प्रणाली का निर्माण: VayuChat प्राकृतिक भाषा प्रश्नों को संभाल सकता है और कार्यान्वयन योग्य Python कोड और दृश्य परिणाम उत्पन्न कर सकता है
बहु-स्रोत पर्यावरणीय डेटा का एकीकरण: CPCB वायु गुणवत्ता और मौसम संबंधी अवलोकन डेटा (2017-2024), राज्य-स्तरीय जनसंख्या और क्षेत्र डेटा, NCAP निधि आवंटन रिकॉर्ड को एकीकृत किया
पारदर्शी कोड जनरेशन तंत्र प्रदान करना: सीधे परिणाम आउटपुट के बजाय Python कोड जनरेट करके भ्रम को कम करना, परिणामों की सत्यापनीयता और पुनरुत्पादनीयता सुनिश्चित करना
विश्लेषण के कई प्रकारों का समर्थन: प्रत्यक्ष प्रश्न, ग्राफ जनरेशन, सहसंबंध विश्लेषण और नीति प्रभाव मूल्यांकन सहित
व्यावहारिक केस अध्ययन सत्यापन: दिसंबर 2024 में दिल्ली वायु प्रदूषण संकट के गहन विश्लेषण के माध्यम से सिस्टम के व्यावहारिक मूल्य को प्रदर्शित करना
यह पेपर वायु गुणवत्ता विश्लेषकों के साथ सहयोग करके, VayuChat का उपयोग करके दिसंबर 2024 में दिल्ली में गंभीर प्रदूषण वृद्धि के कारणों की जांच करता है, जो सिस्टम के व्यावहारिक अनुप्रयोग मूल्य को प्रदर्शित करता है।
प्रश्न: "दिसंबर 2024 में दिल्ली के सबसे प्रदूषित सप्ताह और उससे पहले और बाद के 15 दिनों के प्रदूषण स्तर और पवन गति की तुलना करने के लिए समय श्रृंखला ग्राफ का उपयोग करें"
मुख्य निष्कर्ष:
पवन गति और PM2.5 के बीच स्पष्ट नकारात्मक सहसंबंध है
जब पवन गति 1.0 m/s से नीचे गिरती है, तो PM2.5 300 μg/m³ से अधिक हो जाता है
यहां तक कि पवन गति में मामूली कमी (0.6 m/s) भी वायु गुणवत्ता को "बहुत खराब" से "गंभीर" तक तेजी से बिगाड़ सकती है
प्रश्न: "2017 के बाद से दिल्ली के दिसंबर में CO, NO2 और PM2.5 के सहसंबंध का विश्लेषण करें"
सहसंबंध मैट्रिक्स:
प्रदूषक
CO
NO2
PM2.5
CO
1
0.3
0.47
NO2
0.3
1
0.34
PM2.5
0.47
0.34
1
अंतर्दृष्टि: PM2.5 का CO के साथ सबसे मजबूत सहसंबंध है (r=0.47), जो यह दर्शाता है कि वाहन उत्सर्जन, पराली जलाना और औद्योगिक उत्सर्जन जैसे सामान्य स्रोत समकालिक प्रदूषण घटनाओं को चलाते हैं।
तकनीकी व्यवहार्यता: LLM जटिल पर्यावरणीय डेटा विश्लेषण प्रश्नों को प्रभावी ढंग से संभाल सकते हैं, कोड जनरेशन तंत्र के माध्यम से परिणाम सटीकता सुनिश्चित करते हैं
व्यावहारिक मूल्य: सिस्टम ने दिल्ली वायु प्रदूषण संकट के गहन विश्लेषण को सफलतापूर्वक समर्थन किया, वास्तविक अनुप्रयोग क्षमता प्रदर्शित की
पहुंच में सुधार: पर्यावरणीय डेटा विश्लेषण के लिए तकनीकी बाधा को काफी कम किया, गैर-तकनीकी उपयोगकर्ताओं को जटिल विश्लेषण करने में सक्षम बनाया
यह पेपर 15 संबंधित संदर्भों का हवाला देता है, जो LLM मौलिक तकनीक, पर्यावरणीय डेटा विश्लेषण उपकरण, वायु प्रदूषण स्वास्थ्य प्रभाव आदि कई पहलुओं को कवर करते हैं, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलनात्मक संदर्भ प्रदान करते हैं।
समग्र मूल्यांकन: यह तकनीकी नवाचार और व्यावहारिक अनुप्रयोग के संयोजन वाला एक उत्कृष्ट पेपर है, जो पर्यावरण विज्ञान क्षेत्र में LLM अनुप्रयोग में अग्रणी महत्व रखता है। सिस्टम डिजाइन उचित है, वास्तविक केस विश्लेषण गहन है, भारत जैसे विकासशील देशों में पर्यावरणीय डेटा उपयोग समस्या को हल करने के लिए महत्वपूर्ण मूल्य है। यद्यपि मूल्यांकन और तकनीकी विवरण के पहलुओं में सुधार की गुंजाइश है, लेकिन समग्र योगदान महत्वपूर्ण है, और इसमें अच्छी प्रचार और अनुप्रयोग संभावनाएं हैं।