VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic
VayuChat: Un'Interfaccia Conversazionale Alimentata da LLM per l'Analisi dei Dati sulla Qualità dell'Aria
In India, l'inquinamento atmosferico causa circa 1,6 milioni di morti premature ogni anno, ma i responsabili delle politiche faticano a trasformare i dati dispersi in prove decisionali. Gli strumenti esistenti richiedono competenze specializzate e forniscono solo dashboard statici, incapaci di affrontare questioni politiche critiche. Questo articolo propone VayuChat, un sistema conversazionale in grado di rispondere a domande in linguaggio naturale sulla qualità dell'aria, meteorologia e programmi politici, fornendo codice Python eseguibile e visualizzazioni interattive. VayuChat integra i dati delle stazioni di monitoraggio della Commissione Centrale per il Controllo dell'Inquinamento (CPCB), i dati demografici a livello statale e i registri dei finanziamenti del Piano Nazionale per l'Aria Pulita (NCAP), fornendoli attraversun'interfaccia unificata alimentata da modelli di linguaggio di grandi dimensioni. La piattaforma consente ai responsabili delle politiche, ai ricercatori e ai cittadini di condurre analisi ambientali complesse attraverso semplici conversazioni.
Crisi sanitaria pubblica grave: L'inquinamento atmosferico in India causa 1,6 milioni di morti premature ogni anno, con l'esposizione a PM2.5 che riduce l'aspettativa di vita di oltre 5 anni
Ostacoli all'utilizzo dei dati: Sebbene il CPCB raccolga continuamente misurazioni nazionali degli inquinanti, rimane difficile trasformare i dati grezzi in intuizioni tempestive e rilevanti per le politiche
Elevate barriere tecniche: Gli strumenti esistenti richiedono conoscenze specializzate, forniscono solo funzionalità di visualizzazione limitate o affrontano solo ambiti di compiti ristretti
Richiedono competenze tecniche specializzate per l'utilizzo
Forniscono dashboard statici, privi di interattività
Non riescono a gestire analisi complesse tra set di dati
Semplici query come "Come è cambiato il PM2.5 a Delhi l'anno scorso?" rimangono difficili da rispondere
Questioni politiche come "Quali città hanno ridotto il PM2.5 più di altre rispetto ai finanziamenti NCAP?" richiedono l'integrazione di dati su inquinamento, finanziamenti e popolazione
Sfruttare le capacità di comprensione del linguaggio naturale e generazione di codice dei modelli di linguaggio di grandi dimensioni per costruire un sistema in grado di:
Ridurre le barriere tecniche nell'analisi dei dati ambientali
Fornire risultati di analisi trasparenti e riproducibili
Integrare dati eterogenei da più fonti
Supportare query complesse rilevanti per le politiche
Sviluppo del primo sistema conversazionale alimentato da LLM per l'analisi della qualità dell'aria: VayuChat è in grado di elaborare query in linguaggio naturale e generare codice Python eseguibile e risultati di visualizzazione
Integrazione di dati ambientali da più fonti: Integra i dati di osservazione della qualità dell'aria e meteorologici del CPCB (2017-2024), i dati demografici e di area a livello statale, i registri di allocazione dei finanziamenti NCAP
Fornitura di un meccanismo trasparente di generazione del codice: Riducendo le allucinazioni attraverso la generazione di codice Python piuttosto che output diretto, garantendo la verificabilità e la riproducibilità dei risultati
Supporto per molteplici tipi di analisi: Incluse query dirette, generazione di grafici, analisi di correlazione e valutazione dell'impatto politico
Validazione attraverso casi di studio reali: Dimostrazione del valore pratico del sistema attraverso un'analisi approfondita della crisi dell'inquinamento atmosferico a Delhi nel dicembre 2024
Indicatori di inquinanti: PM2.5, PM10, NO, NO2, NOx, NH3, SO2, CO, ozono (unità: μg/m³, ecc.)
Variabili meteorologiche: temperatura dell'aria, umidità relativa, velocità del vento, direzione del vento, precipitazioni, radiazione solare, pressione atmosferica, velocità del vento verticale
Metadati della stazione: città, stato, ID stazione assegnato dal CPCB
Dati Demografici a Livello Statale:
Copertura di 31 regioni indiane
Inclusione dei dati del censimento del 2011
Informazioni sull'area (km²)
Identificazione dei territori dell'unione
Dati di Finanziamento NCAP:
Intervallo temporale: 2019-2022
Registrazione della distribuzione dei finanziamenti per città per anno fiscale
Stato dell'utilizzo dei finanziamenti fino a giugno 2022
Gli approcci tradizionali che forniscono direttamente dati di tabelle grezze agli LLM sono soggetti ad allucinazioni. VayuChat adotta le seguenti strategie:
Fornitura della descrizione dello schema del set di dati nel prompt di sistema
Generazione di codice Python da parte dell'LLM piuttosto che risposte dirette
Garantire l'accuratezza dei risultati attraverso l'esecuzione del codice
Questo articolo, attraverso la collaborazione con analisti della qualità dell'aria, utilizza VayuChat per indagare le cause dell'improvviso aumento dell'inquinamento grave a Delhi nel dicembre 2024, dimostrando il valore pratico del sistema.
Query: "Utilizza un grafico di serie temporali per confrontare i livelli di inquinamento e velocità del vento della settimana più inquinata di Delhi nel dicembre 2024 con i 15 giorni precedenti e successivi"
Scoperte Chiave:
Correlazione negativa evidente tra velocità del vento e PM2.5
Quando la velocità del vento scende al di sotto di 1,0 m/s, il PM2.5 supera 300 μg/m³
Anche una piccola diminuzione della velocità del vento (0,6 m/s) può causare il rapido deterioramento della qualità dell'aria da "molto scarsa" a "grave"
Query: "Analizza la correlazione tra CO, NO2 e PM2.5 a Delhi nel dicembre dal 2017 in poi"
Matrice di Correlazione:
Inquinante
CO
NO2
PM2.5
CO
1
0.3
0.47
NO2
0.3
1
0.34
PM2.5
0.47
0.34
1
Intuizioni: Il PM2.5 mostra la correlazione più forte con il CO (r=0.47), indicando che fonti comuni come emissioni veicolari, combustione di residui di colture e emissioni industriali guidano eventi di inquinamento sincronizzati.
Questo articolo è il primo sistema conversazionale alimentato da LLM specificamente dedicato all'analisi dei dati ambientali, colmando un vuoto in questo campo.
Fattibilità Tecnica: Gli LLM possono elaborare efficacemente query complesse di analisi dei dati ambientali, garantendo l'accuratezza dei risultati attraverso meccanismi di generazione del codice
Valore Pratico: Il sistema ha supportato con successo l'analisi approfondita della crisi dell'inquinamento atmosferico a Delhi, dimostrando il potenziale di applicazione pratica
Miglioramento dell'Accessibilità: Riduzione significativa delle barriere tecniche nell'analisi dei dati ambientali, consentendo agli utenti non tecnici di condurre analisi complesse
Forte Innovatività: Primo sistema di analisi conversazionale alimentato da LLM per dati ambientali, con approccio tecnico innovativo
Alto Valore Pratico: Dimostrazione del valore di applicazione pratica attraverso il caso di studio dell'inquinamento a Delhi, di grande importanza per la formulazione delle politiche
Soluzione Tecnica Ragionevole: L'approccio di riduzione delle allucinazioni attraverso la generazione di codice è scientificamente fattibile
Completezza del Sistema: Formazione di un ciclo completo dall'integrazione dei dati, selezione del modello alla visualizzazione dei risultati
Alta Trasparenza: Fornitura di codice generato, garantendo la verificabilità e la riproducibilità dei risultati
Valutazione Incompleta: I dettagli di VayuBench non sono mostrati nel testo, mancanza di valutazione quantitativa delle prestazioni
Analisi di Casi Limitata: Principalmente basata su un singolo caso a Delhi, mancanza di validazione più ampia
Dettagli Tecnici Insufficienti: Descrizione non sufficientemente dettagliata di tecniche chiave come la messa a punto dell'LLM e l'ingegneria dei prompt
Meccanismo di Gestione degli Errori: Discussione insufficiente sulle strategie di gestione degli errori di generazione del codice o dei fallimenti di esecuzione
Valutazione dell'Esperienza Utente: Mancanza di feedback da utenti reali e valutazione della soddisfazione
Questo articolo cita 15 articoli correlati, coprendo tecnologie fondamentali degli LLM, strumenti di analisi dei dati ambientali, effetti sulla salute dell'inquinamento atmosferico e altri aspetti, fornendo una base teorica sufficiente e riferimenti comparativi per la ricerca.
Valutazione Complessiva: Questo è un eccellente articolo che combina innovazione tecnica e applicazione pratica, con significato pioneristico nell'applicazione degli LLM al campo della scienza ambientale. Il sistema è ben progettato, l'analisi dei casi reali è approfondita e ha un valore importante per risolvere il problema dell'utilizzo dei dati ambientali nei paesi in via di sviluppo come l'India. Sebbene ci sia spazio per miglioramenti nella valutazione e nei dettagli tecnici, il contributo complessivo è significativo e ha buone prospettive di promozione e applicazione.