2025-11-11T14:34:09.551839

VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics

Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic

VayuChat: Un'Interfaccia Conversazionale Alimentata da LLM per l'Analisi dei Dati sulla Qualità dell'Aria

Informazioni Fondamentali

  • ID Articolo: 2511.01046
  • Titolo: VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
  • Autori: Vedant Acharya, Abhay Pisharodi, Rishabh Mondal, Mohammad Rafiuddin, Nipun Batra
  • Classificazione: cs.CL (Computation and Language)
  • Data di Pubblicazione/Conferenza: CODS 2025 (13ª Conferenza Internazionale sulla Scienza dei Dati)
  • Link dell'Articolo: https://arxiv.org/abs/2511.01046
  • Distribuzione del Sistema: https://huggingface.co/spaces/SustainabilityLabIITGN/VayuChat

Riassunto

In India, l'inquinamento atmosferico causa circa 1,6 milioni di morti premature ogni anno, ma i responsabili delle politiche faticano a trasformare i dati dispersi in prove decisionali. Gli strumenti esistenti richiedono competenze specializzate e forniscono solo dashboard statici, incapaci di affrontare questioni politiche critiche. Questo articolo propone VayuChat, un sistema conversazionale in grado di rispondere a domande in linguaggio naturale sulla qualità dell'aria, meteorologia e programmi politici, fornendo codice Python eseguibile e visualizzazioni interattive. VayuChat integra i dati delle stazioni di monitoraggio della Commissione Centrale per il Controllo dell'Inquinamento (CPCB), i dati demografici a livello statale e i registri dei finanziamenti del Piano Nazionale per l'Aria Pulita (NCAP), fornendoli attraversun'interfaccia unificata alimentata da modelli di linguaggio di grandi dimensioni. La piattaforma consente ai responsabili delle politiche, ai ricercatori e ai cittadini di condurre analisi ambientali complesse attraverso semplici conversazioni.

Contesto della Ricerca e Motivazione

Definizione del Problema

  1. Crisi sanitaria pubblica grave: L'inquinamento atmosferico in India causa 1,6 milioni di morti premature ogni anno, con l'esposizione a PM2.5 che riduce l'aspettativa di vita di oltre 5 anni
  2. Ostacoli all'utilizzo dei dati: Sebbene il CPCB raccolga continuamente misurazioni nazionali degli inquinanti, rimane difficile trasformare i dati grezzi in intuizioni tempestive e rilevanti per le politiche
  3. Elevate barriere tecniche: Gli strumenti esistenti richiedono conoscenze specializzate, forniscono solo funzionalità di visualizzazione limitate o affrontano solo ambiti di compiti ristretti

Limitazioni degli Approcci Esistenti

  • Richiedono competenze tecniche specializzate per l'utilizzo
  • Forniscono dashboard statici, privi di interattività
  • Non riescono a gestire analisi complesse tra set di dati
  • Semplici query come "Come è cambiato il PM2.5 a Delhi l'anno scorso?" rimangono difficili da rispondere
  • Questioni politiche come "Quali città hanno ridotto il PM2.5 più di altre rispetto ai finanziamenti NCAP?" richiedono l'integrazione di dati su inquinamento, finanziamenti e popolazione

Motivazione della Ricerca

Sfruttare le capacità di comprensione del linguaggio naturale e generazione di codice dei modelli di linguaggio di grandi dimensioni per costruire un sistema in grado di:

  • Ridurre le barriere tecniche nell'analisi dei dati ambientali
  • Fornire risultati di analisi trasparenti e riproducibili
  • Integrare dati eterogenei da più fonti
  • Supportare query complesse rilevanti per le politiche

Contributi Principali

  1. Sviluppo del primo sistema conversazionale alimentato da LLM per l'analisi della qualità dell'aria: VayuChat è in grado di elaborare query in linguaggio naturale e generare codice Python eseguibile e risultati di visualizzazione
  2. Integrazione di dati ambientali da più fonti: Integra i dati di osservazione della qualità dell'aria e meteorologici del CPCB (2017-2024), i dati demografici e di area a livello statale, i registri di allocazione dei finanziamenti NCAP
  3. Fornitura di un meccanismo trasparente di generazione del codice: Riducendo le allucinazioni attraverso la generazione di codice Python piuttosto che output diretto, garantendo la verificabilità e la riproducibilità dei risultati
  4. Supporto per molteplici tipi di analisi: Incluse query dirette, generazione di grafici, analisi di correlazione e valutazione dell'impatto politico
  5. Validazione attraverso casi di studio reali: Dimostrazione del valore pratico del sistema attraverso un'analisi approfondita della crisi dell'inquinamento atmosferico a Delhi nel dicembre 2024

Dettagli del Metodo

Definizione del Compito

Input: Query in linguaggio naturale dell'utente, riguardante dati sulla qualità dell'aria, meteorologia o analisi politica Output:

  • Codice Python eseguibile
  • Risultati dell'analisi dei dati (testo, tabelle o grafici di visualizzazione)
  • Risposta diretta alla query

Vincoli:

  • Il codice deve essere basato su schemi di set di dati predefiniti
  • I risultati devono essere verificabili e riproducibili
  • Supporto per la valutazione comparativa di molteplici modelli LLM

Architettura del Sistema

Progettazione dell'Interfaccia Frontale

VayuChat fornisce un'interfaccia basata su browser contenente quattro moduli funzionali principali:

  1. Selettore di Modello: Supporta molteplici modelli SOTA (GPT-OSS 20B/120B, Qwen3-32B, serie Llama, DeepSeek-R1, Gemini, ecc.)
  2. Opzioni di Query Rapida: Modelli di domande predefiniti relativi alla qualità dell'aria
  3. Input di Query Personalizzata: Supporta l'inserimento di query in linguaggio naturale arbitrarie da parte dell'utente
  4. Area di Visualizzazione del Codice: Mostra il codice Python generato, garantendo trasparenza

Flusso di Elaborazione del Backend

Query Utente → Combinazione Prompt di Sistema → Generazione Codice LLM → Esecuzione in Ambiente Sandbox → Visualizzazione Risultati

Integrazione del Set di Dati

Set di Dati CPCB:

  • Intervallo temporale: 2017-2024
  • Indicatori di inquinanti: PM2.5, PM10, NO, NO2, NOx, NH3, SO2, CO, ozono (unità: μg/m³, ecc.)
  • Variabili meteorologiche: temperatura dell'aria, umidità relativa, velocità del vento, direzione del vento, precipitazioni, radiazione solare, pressione atmosferica, velocità del vento verticale
  • Metadati della stazione: città, stato, ID stazione assegnato dal CPCB

Dati Demografici a Livello Statale:

  • Copertura di 31 regioni indiane
  • Inclusione dei dati del censimento del 2011
  • Informazioni sull'area (km²)
  • Identificazione dei territori dell'unione

Dati di Finanziamento NCAP:

  • Intervallo temporale: 2019-2022
  • Registrazione della distribuzione dei finanziamenti per città per anno fiscale
  • Stato dell'utilizzo dei finanziamenti fino a giugno 2022

Punti di Innovazione Tecnica

1. Meccanismo di Riduzione delle Allucinazioni Basato sulla Generazione di Codice

Gli approcci tradizionali che forniscono direttamente dati di tabelle grezze agli LLM sono soggetti ad allucinazioni. VayuChat adotta le seguenti strategie:

  • Fornitura della descrizione dello schema del set di dati nel prompt di sistema
  • Generazione di codice Python da parte dell'LLM piuttosto che risposte dirette
  • Garantire l'accuratezza dei risultati attraverso l'esecuzione del codice

2. Architettura di Supporto Multi-Modello

  • Integrazione di modelli open-source (tramite Groq Cloud API) e modelli commerciali (tramite Gemini API)
  • Supporto per la valutazione comparativa delle prestazioni dei modelli
  • Selezione del modello più appropriato per diversi tipi di query

3. Ambiente di Esecuzione del Codice Sicuro

  • Esecuzione del codice generato in ambiente sandbox
  • Prevenzione di potenziali rischi di sicurezza del sistema
  • Acquisizione automatica dei risultati dell'esecuzione e integrazione nella risposta

Configurazione Sperimentale

Dettagli del Set di Dati

Rete di Monitoraggio CPCB:

  • Copertura di oltre 500 stazioni di monitoraggio nazionali
  • 37 stazioni di monitoraggio a Delhi utilizzate per lo studio di caso
  • Frequenza di misurazione giornaliera, inclusi marcatori di controllo della qualità

Benchmark di Valutazione:

  • Costruzione del benchmark di valutazione VayuBench (i dettagli vanno oltre l'ambito di questo articolo)
  • Collaborazione con esperti di analisi della qualità dell'aria per la validazione di scenari reali

Valutazione delle Capacità del Sistema

VayuChat supporta tre categorie principali di query:

Query Dirette:

  • "Quale città ha avuto il PM2.5 più alto nel 2023?"
  • "Mostra i livelli di SO2 a Delhi"

Generazione di Grafici:

  • "Traccia il trend del PM2.5 a Mumbai"
  • "Confronta i livelli di ozono tra Punjab e Gujarat"

Query di Analisi:

  • "Analizza la correlazione tra velocità del vento e PM2.5"
  • "Valuta l'impatto dell'NCAP sulla qualità dell'aria"

Risultati Sperimentali

Studio di Caso sulla Crisi della Qualità dell'Aria a Delhi

Questo articolo, attraverso la collaborazione con analisti della qualità dell'aria, utilizza VayuChat per indagare le cause dell'improvviso aumento dell'inquinamento grave a Delhi nel dicembre 2024, dimostrando il valore pratico del sistema.

1. Identificazione dei Giorni di Inquinamento Più Grave

Query: "Quali giorni hanno avuto l'inquinamento più grave a Delhi nel dicembre 2024?"

Risultati:

DataPM2.5 (μg/m³)
2024-12-18344.59
2024-12-19341.46
2024-12-17330.25
2024-12-20291.46
2024-12-22285.98

2. Analisi della Relazione tra Velocità del Vento e Inquinamento

Query: "Utilizza un grafico di serie temporali per confrontare i livelli di inquinamento e velocità del vento della settimana più inquinata di Delhi nel dicembre 2024 con i 15 giorni precedenti e successivi"

Scoperte Chiave:

  • Correlazione negativa evidente tra velocità del vento e PM2.5
  • Quando la velocità del vento scende al di sotto di 1,0 m/s, il PM2.5 supera 300 μg/m³
  • Anche una piccola diminuzione della velocità del vento (0,6 m/s) può causare il rapido deterioramento della qualità dell'aria da "molto scarsa" a "grave"

3. Confronto Storico di Cinque Anni

Query: "Traccia e confronta la settimana di inquinamento di Delhi nel dicembre 2024 con i dati dei cinque anni precedenti"

Scoperte:

  • La velocità del vento nel 2024 è leggermente migliore rispetto agli anni precedenti
  • Nel 2019 e 2020 il PM2.5 e la velocità del vento mostrano una forte correlazione negativa
  • Nel 2023 è stata registrata la velocità del vento più bassa (0,6 m/s)
  • Nel 2021 i livelli di PM2.5 erano più alti (325 μg/m³)

4. Analisi di Correlazione di Molteplici Inquinanti

Query: "Analizza la correlazione tra CO, NO2 e PM2.5 a Delhi nel dicembre dal 2017 in poi"

Matrice di Correlazione:

InquinanteCONO2PM2.5
CO10.30.47
NO20.310.34
PM2.50.470.341

Intuizioni: Il PM2.5 mostra la correlazione più forte con il CO (r=0.47), indicando che fonti comuni come emissioni veicolari, combustione di residui di colture e emissioni industriali guidano eventi di inquinamento sincronizzati.

Prestazioni del Sistema

  • Elaborazione riuscita di query di analisi complesse multi-step
  • Generazione di grafici di visualizzazione accurati
  • Fornitura di codice Python verificabile
  • Supporto di un flusso di lavoro di analisi completo dalla identificazione della crisi all'intuizione meccanicistica

Lavori Correlati

Strumenti di Analisi dei Dati Ambientali

  • Pacchetto R openair: Strumento professionale per l'analisi dei dati sulla qualità dell'aria, ma richiede competenze di programmazione in R
  • Dashboard Ufficiale CPCB: Fornisce dati in tempo reale ma con funzionalità limitate, mancanza di capacità di analisi approfondita
  • Strumenti BI Tradizionali: Richiedono competenze specializzate per la configurazione, difficili da gestire con query in linguaggio naturale

Generazione di Codice LLM

  • Capacità di Codice GPT-3/4: Prestazioni eccellenti su compiti di programmazione generici, ma mancanza di ottimizzazione specifica del dominio
  • Modelli di Seguimento delle Istruzioni: Mostrano potenziale su compiti di ragionamento tabulare, ma applicazioni limitate nel dominio ambientale
  • Ragionamento Tabulare Zero-Shot: Le tecnologie correlate forniscono la base per l'approccio di questo articolo

Analisi Conversazionale dei Dati

Questo articolo è il primo sistema conversazionale alimentato da LLM specificamente dedicato all'analisi dei dati ambientali, colmando un vuoto in questo campo.

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: Gli LLM possono elaborare efficacemente query complesse di analisi dei dati ambientali, garantendo l'accuratezza dei risultati attraverso meccanismi di generazione del codice
  2. Valore Pratico: Il sistema ha supportato con successo l'analisi approfondita della crisi dell'inquinamento atmosferico a Delhi, dimostrando il potenziale di applicazione pratica
  3. Miglioramento dell'Accessibilità: Riduzione significativa delle barriere tecniche nell'analisi dei dati ambientali, consentendo agli utenti non tecnici di condurre analisi complesse

Limitazioni

  1. Copertura dei Dati: Attualmente basata principalmente su dati CPCB indiani, con copertura geografica limitata
  2. Insufficienza di Tempestività: Non ha ancora integrato flussi di dati in tempo reale, l'analisi si basa su dati storici
  3. Dipendenza dal Modello: Le prestazioni del sistema dipendono dalla capacità di generazione del codice dell'LLM sottostante
  4. Elaborazione di Query Complesse: Non ha ancora implementato la decomposizione automatica delle query e il ragionamento multi-step

Direzioni Future

  1. Integrazione di Dati in Tempo Reale: Integrazione di flussi di dati sulla qualità dell'aria in tempo reale tramite API
  2. Espansione dei Dati: Aggiunta di dati di rianalisi ERA5, prodotti satellitari, utilizzo del suolo e inventari di emissioni
  3. Messa a Punto del Modello: Ottimizzazione specializzata del modello per il dominio ambientale
  4. Flussi di Lavoro di Ragionamento Automatico: Implementazione della decomposizione automatica di query complesse e analisi multi-step

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo sistema di analisi conversazionale alimentato da LLM per dati ambientali, con approccio tecnico innovativo
  2. Alto Valore Pratico: Dimostrazione del valore di applicazione pratica attraverso il caso di studio dell'inquinamento a Delhi, di grande importanza per la formulazione delle politiche
  3. Soluzione Tecnica Ragionevole: L'approccio di riduzione delle allucinazioni attraverso la generazione di codice è scientificamente fattibile
  4. Completezza del Sistema: Formazione di un ciclo completo dall'integrazione dei dati, selezione del modello alla visualizzazione dei risultati
  5. Alta Trasparenza: Fornitura di codice generato, garantendo la verificabilità e la riproducibilità dei risultati

Insufficienze

  1. Valutazione Incompleta: I dettagli di VayuBench non sono mostrati nel testo, mancanza di valutazione quantitativa delle prestazioni
  2. Analisi di Casi Limitata: Principalmente basata su un singolo caso a Delhi, mancanza di validazione più ampia
  3. Dettagli Tecnici Insufficienti: Descrizione non sufficientemente dettagliata di tecniche chiave come la messa a punto dell'LLM e l'ingegneria dei prompt
  4. Meccanismo di Gestione degli Errori: Discussione insufficiente sulle strategie di gestione degli errori di generazione del codice o dei fallimenti di esecuzione
  5. Valutazione dell'Esperienza Utente: Mancanza di feedback da utenti reali e valutazione della soddisfazione

Impatto

  1. Contributo Accademico: Fornisce un importante riferimento per l'applicazione degli LLM nel campo della scienza ambientale
  2. Valore Sociale: Contribuisce a migliorare l'efficienza di utilizzo dei dati ambientali, supportando migliori decisioni politiche
  3. Dimostrazione Tecnica: Fornisce idee di progettazione per sistemi di analisi dei dati specializzati in altri campi
  4. Apertura: Distribuzione pubblica del sistema, promuovendo la diffusione e l'applicazione della tecnologia

Scenari Applicabili

  1. Decisioni Governative: Formulazione di politiche e valutazione di progetti da parte dei dipartimenti ambientali
  2. Ricerca Accademica: Ricerca in scienze ambientali e sanità pubblica
  3. Media e Giornalismo: Reportage ambientale basato sui dati
  4. Educazione Pubblica: Aumento della consapevolezza pubblica sui problemi della qualità dell'aria
  5. Organizzazioni Non Governative: Attività di monitoraggio ambientale e advocacy

Bibliografia

Questo articolo cita 15 articoli correlati, coprendo tecnologie fondamentali degli LLM, strumenti di analisi dei dati ambientali, effetti sulla salute dell'inquinamento atmosferico e altri aspetti, fornendo una base teorica sufficiente e riferimenti comparativi per la ricerca.


Valutazione Complessiva: Questo è un eccellente articolo che combina innovazione tecnica e applicazione pratica, con significato pioneristico nell'applicazione degli LLM al campo della scienza ambientale. Il sistema è ben progettato, l'analisi dei casi reali è approfondita e ha un valore importante per risolvere il problema dell'utilizzo dei dati ambientali nei paesi in via di sviluppo come l'India. Sebbene ci sia spazio per miglioramenti nella valutazione e nei dettagli tecnici, il contributo complessivo è significativo e ha buone prospettive di promozione e applicazione.