VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic
VayuChat: Eine LLM-gestützte Konversationsschnittstelle für die Luftqualitätsdatenanalyse
In Indien führt Luftverschmutzung jährlich zu etwa 1,6 Millionen vorzeitigen Todesfällen, doch Entscheidungsträger haben Schwierigkeiten, verstreute Daten in Entscheidungsgrundlagen umzuwandeln. Bestehende Werkzeuge erfordern Fachkenntnisse und bieten nur statische Dashboards, ohne kritische politische Fragen zu adressieren. Dieser Beitrag präsentiert VayuChat, ein Konversationssystem, das Fragen zur Luftqualität, Meteorologie und Politikprogrammen in natürlicher Sprache beantworten kann und ausführbaren Python-Code sowie interaktive Visualisierungen bereitstellt. VayuChat integriert Daten von Überwachungsstationen der Central Pollution Control Board (CPCB), Bevölkerungsdaten auf Staatsebene und Finanzierungsunterlagen des National Clean Air Plan (NCAP) über eine von großen Sprachmodellen angetriebene einheitliche Schnittstelle. Die Plattform ermöglicht es Politikern, Forschern und Bürgern, komplexe Umweltanalysen durch einfache Konversation durchzuführen.
Schwerwiegende Krise der öffentlichen Gesundheit: Luftverschmutzung in Indien führt jährlich zu 1,6 Millionen vorzeitigen Todesfällen; PM2,5-Exposition reduziert die Lebenserwartung um über 5 Jahre
Hindernisse bei der Datennutzung: Obwohl die CPCB kontinuierlich nationale Schadstoffmessungen erfasst, bleibt die Umwandlung von Rohdaten in zeitnahe politikrelevante Erkenntnisse schwierig
Hohe technische Hürden: Bestehende Werkzeuge erfordern Fachkenntnisse, bieten begrenzte Visualisierungsfunktionen oder behandeln nur enge Aufgabenbereiche
Erfordern spezialisierte technische Fähigkeiten zur Verwendung
Bieten statische Dashboards ohne Interaktivität
Können keine komplexen datensatzübergreifenden Analysen durchführen
Einfache Abfragen wie „Wie hat sich PM2,5 in Delhi im letzten Jahr verändert?" sind schwer zu beantworten
Politische Fragen wie „Welche Städte haben PM2,5 relativ zur NCAP-Finanzierung am meisten reduziert?" erfordern die Integration von Verschmutzungs-, Finanzierungs- und Bevölkerungsdaten
Entwicklung des ersten LLM-gestützten Konversationssystems für Luftqualitätsanalyse: VayuChat kann Abfragen in natürlicher Sprache verarbeiten und ausführbaren Python-Code sowie Visualisierungsergebnisse generieren
Integration mehrerer Umweltdatenquellen: Kombination von CPCB-Luftqualitäts- und Meteorologiebeobachtungsdaten (2017-2024), Bevölkerungs- und Flächendaten auf Staatsebene, NCAP-Finanzierungsverteilungsunterlagen
Transparenter Codegenerierungsmechanismus: Durch die Generierung von Python-Code anstelle direkter Ausgaben werden Halluzinationen reduziert und die Verifizierbarkeit sowie Reproduzierbarkeit der Ergebnisse gewährleistet
Validierung durch praktische Fallstudien: Tiefgreifende Analyse der Luftverschmutzungskrise in Delhi im Dezember 2024 demonstriert den praktischen Wert des Systems
Der Beitrag zeigt durch Zusammenarbeit mit Luftqualitätsanalysten die Verwendung von VayuChat zur Untersuchung der Ursachen der schwerwiegenden Verschmutzungszunahme im Dezember 2024 in Delhi und demonstriert den praktischen Anwendungswert des Systems.
Abfrage: „Verwende ein Zeitreihendiagramm, um die Verschmutzungswerte und Windgeschwindigkeiten der am stärksten verschmutzten Woche im Dezember 2024 mit den 15 Tagen davor und danach zu vergleichen"
Wichtigste Erkenntnisse:
Windgeschwindigkeit und PM2,5 zeigen eine deutliche negative Korrelation
Wenn die Windgeschwindigkeit unter 1,0 m/s fällt, übersteigt PM2,5 300 μg/m³
Selbst ein kleiner Rückgang der Windgeschwindigkeit (0,6 m/s) kann die Luftqualität schnell von „sehr schlecht" zu „kritisch" verschlechtern
Abfrage: „Analysiere die Korrelation zwischen CO, NO2 und PM2,5 im Dezember in Delhi seit 2017"
Korrelationsmatrix:
Schadstoff
CO
NO2
PM2,5
CO
1
0,3
0,47
NO2
0,3
1
0,34
PM2,5
0,47
0,34
1
Erkenntnisse: PM2,5 zeigt die stärkste Korrelation mit CO (r=0,47), was darauf hindeutet, dass gemeinsame Quellen wie Fahrzeugemissionen, Strohverbrennung und Industrieemissionen synchrone Verschmutzungsereignisse verursachen.
Technische Machbarkeit: LLMs können komplexe Umweltdatenabfragen effektiv verarbeiten; der Codegenerierungsmechanismus gewährleistet Ergebnisgenauigkeit
Praktischer Wert: Das System unterstützte erfolgreich die tiefgreifende Analyse der Luftverschmutzungskrise in Delhi und zeigt reales Anwendungspotenzial
Verbesserte Zugänglichkeit: Senkt erheblich die technischen Hürden der Umweltdatenanalyse und ermöglicht es nicht-technischen Benutzern, komplexe Analysen durchzuführen
Hohe Innovativität: Erstes LLM-gestütztes Konversationsanalysesystem für Umweltdaten mit neuartiger technischer Route
Hoher praktischer Wert: Demonstration des realen Anwendungswerts durch die Delhi-Verschmutzungsfallstudie mit wichtiger Bedeutung für die Politikgestaltung
Vernünftige technische Lösung: Der Designansatz zur Halluzinationsreduktion durch Codegenerierung ist wissenschaftlich fundiert und praktikabel
Systemische Vollständigkeit: Bildet einen vollständigen Kreislauf von Datenintegration, Modellauswahl bis zur Ergebnisanzeige
Hohe Transparenz: Bereitstellung generierten Codes gewährleistet Verifizierbarkeit und Reproduzierbarkeit der Ergebnisse
Der Beitrag zitiert 15 relevante Literaturquellen, die LLM-Grundlagentechnologie, Werkzeuge zur Umweltdatenanalyse, Gesundheitsauswirkungen von Luftverschmutzung und andere Aspekte abdecken und eine ausreichende theoretische Grundlage und Vergleichsreferenzen für die Forschung bieten.
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das technische Innovation mit praktischer Anwendung verbindet und bahnbrechende Bedeutung für die Anwendung von LLMs in der Umweltwissenschaft hat. Das Systemdesign ist vernünftig, die praktische Fallstudienanalyse ist tiefgreifend, und es hat wichtigen Wert für die Lösung von Umweltdatennutzungsproblemen in Entwicklungsländern wie Indien. Obwohl es Raum für Verbesserungen in der Bewertung und technischen Details gibt, ist der Gesamtbeitrag erheblich und hat gute Aussichten für Förderung und Anwendung.