2025-11-11T14:34:09.551839

VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics

Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic

VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics

基本信息

摘要

印度每年因空气污染导致约160万人过早死亡,但决策者难以将分散的数据转化为决策依据。现有工具需要专业技能且只提供静态仪表板,无法解决关键政策问题。本文提出VayuChat,这是一个对话系统,能够回答关于空气质量、气象和政策项目的自然语言问题,并提供可执行的Python代码和交互式可视化。VayuChat集成了中央污染控制委员会(CPCB)监测站数据、州级人口统计数据和国家清洁空气计划(NCAP)资金记录,通过大语言模型驱动的统一界面提供服务。该平台使政策制定者、研究人员和公民能够通过简单对话进行复杂的环境分析。

研究背景与动机

问题定义

  1. 严重的公共健康危机:印度空气污染每年导致160万人过早死亡,PM2.5暴露使预期寿命减少5年以上
  2. 数据利用障碍:尽管CPCB持续收集全国污染物测量数据,但将原始数据转化为及时的政策相关洞察仍然困难
  3. 技术门槛高:现有工具需要专业知识,只提供有限的可视化功能,或仅处理狭窄的任务范围

现有方法局限性

  • 需要专业技术技能才能使用
  • 提供静态仪表板,缺乏交互性
  • 无法处理复杂的跨数据集分析
  • 简单查询如"去年德里PM2.5如何变化?"仍然难以回答
  • 政策问题如"哪些城市相对于NCAP资金减少PM2.5最多?"需要整合污染、资金和人口数据

研究动机

利用大语言模型的自然语言理解和代码生成能力,构建一个能够:

  • 降低环境数据分析的技术门槛
  • 提供透明可重现的分析结果
  • 整合多源异构数据
  • 支持复杂的政策相关查询

核心贡献

  1. 构建了首个面向空气质量分析的LLM驱动对话系统:VayuChat能够处理自然语言查询并生成可执行的Python代码和可视化结果
  2. 集成多源环境数据:整合了CPCB空气质量和气象观测数据(2017-2024)、州级人口和面积数据、NCAP资金分配记录
  3. 提供透明的代码生成机制:通过生成Python代码而非直接输出结果来减少幻觉,确保结果的可验证性和可重现性
  4. 支持多种分析类型:包括直接查询、绘图生成、相关性分析和政策影响评估
  5. 实际案例验证:通过2024年12月德里空气污染危机的深度分析展示系统的实用价值

方法详解

任务定义

输入:用户的自然语言查询,涉及空气质量、气象数据或政策分析 输出

  • 可执行的Python代码
  • 数据分析结果(文本、表格或可视化图表)
  • 对查询的直接回答

约束条件

  • 代码必须基于预定义的数据集模式
  • 结果必须可验证和可重现
  • 支持多种LLM模型的比较评估

系统架构

前端界面设计

VayuChat提供基于浏览器的界面,包含四个核心功能模块:

  1. 模型选择器:支持多种SOTA模型(GPT-OSS 20B/120B、Qwen3-32B、Llama系列、DeepSeek-R1、Gemini等)
  2. 快速查询选项:预定义的空气质量相关问题模板
  3. 自定义查询输入:支持用户输入任意自然语言查询
  4. 代码展示区域:显示生成的Python代码,确保透明性

后端处理流程

用户查询 → 系统提示词组合 → LLM代码生成 → 沙盒环境执行 → 结果展示

数据集整合

CPCB数据集

  • 时间范围:2017-2024年
  • 污染物指标:PM2.5、PM10、NO、NO2、NOx、NH3、SO2、CO、臭氧(单位:μg/m³等)
  • 气象变量:气温、相对湿度、风速、风向、降雨量、太阳辐射、气压、垂直风速
  • 站点元数据:城市、州、CPCB分配的站点ID

州级人口数据

  • 覆盖31个印度地区
  • 包含2011年人口普查数据
  • 面积信息(km²)
  • 联邦直辖区标识

NCAP资金数据

  • 时间范围:2019-2022年
  • 按财政年度记录各城市资金发放情况
  • 截至2022年6月的资金利用状态

技术创新点

1. 基于代码生成的幻觉减少机制

传统方法直接向LLM提供原始表格数据容易产生幻觉,VayuChat采用以下策略:

  • 在系统提示词中提供数据集模式描述
  • LLM生成Python代码而非直接答案
  • 通过代码执行确保结果的准确性

2. 多模型支持架构

  • 集成开源模型(通过Groq Cloud API)和商业模型(通过Gemini API)
  • 支持模型性能的比较评估
  • 为不同查询类型选择最适合的模型

3. 安全的代码执行环境

  • 沙盒环境执行生成的代码
  • 防止潜在的系统安全风险
  • 自动捕获执行结果并集成到响应中

实验设置

数据集详情

CPCB监测网络

  • 覆盖全国500+监测站点
  • 37个德里监测站用于案例研究
  • 日度测量频率,包含质量控制标记

评估基准

  • 构建了VayuBench评估基准(详细内容超出本文范围)
  • 与空气质量分析专家合作进行实际场景验证

系统能力评估

VayuChat支持三类主要查询:

直接查询

  • "2023年哪个城市PM2.5最高?"
  • "显示德里的SO2水平"

绘图生成

  • "绘制孟买PM2.5趋势图"
  • "比较旁遮普和古吉拉特邦的臭氧水平"

分析查询

  • "分析风速与PM2.5的相关性"
  • "评估NCAP对空气质量的影响"

实验结果

德里空气质量危机案例研究

本文通过与空气质量分析师合作,使用VayuChat调查2024年12月德里严重污染激增的原因,展示了系统的实际应用价值。

1. 最严重污染日期识别

查询:"2024年12月德里哪些天污染最严重?"

结果

日期PM2.5 (μg/m³)
2024-12-18344.59
2024-12-19341.46
2024-12-17330.25
2024-12-20291.46
2024-12-22285.98

2. 风速与污染关系分析

查询:"使用时间序列图比较2024年12月德里最污染周与前后15天的污染水平和风速"

关键发现

  • 风速与PM2.5呈明显负相关关系
  • 风速降至1.0 m/s以下时,PM2.5超过300 μg/m³
  • 即使风速小幅下降(0.6 m/s),也能使空气质量从"非常差"迅速恶化至"严重"

3. 五年历史对比

查询:"绘制并比较2024年12月德里污染周与前五年数据"

发现

  • 2024年风速相比往年略有改善
  • 2019年和2020年PM2.5与风速呈强负相关
  • 2023年记录最低风速(0.6 m/s)
  • 2021年PM2.5水平最高(325 μg/m³)

4. 多污染物相关性分析

查询:"分析2017年以来德里12月CO、NO2和PM2.5的相关性"

相关性矩阵

污染物CONO2PM2.5
CO10.30.47
NO20.310.34
PM2.50.470.341

洞察:PM2.5与CO相关性最强(r=0.47),表明车辆排放、秸秆焚烧和工业排放等共同源头驱动同步污染事件。

系统性能表现

  • 成功处理复杂的多步骤分析查询
  • 生成准确的可视化图表
  • 提供可验证的Python代码
  • 支持从危机识别到机理洞察的完整分析工作流

相关工作

环境数据分析工具

  • openair R包:专业的空气质量数据分析工具,但需要R编程技能
  • CPCB官方仪表板:提供实时数据但功能有限,缺乏深度分析能力
  • 传统BI工具:需要专业技能配置,难以处理自然语言查询

LLM代码生成

  • GPT-3/4代码能力:在通用编程任务上表现优异,但缺乏领域特定优化
  • 指令跟随模型:在表格推理任务上显示潜力,但环境领域应用有限
  • 零样本表格推理:相关技术为本文方法提供基础

对话式数据分析

本文是首个专门针对环境数据分析的LLM驱动对话系统,填补了该领域的空白。

结论与讨论

主要结论

  1. 技术可行性:LLM能够有效处理复杂的环境数据分析查询,通过代码生成机制确保结果准确性
  2. 实用价值:系统成功支持了德里空气污染危机的深度分析,展现实际应用潜力
  3. 可访问性提升:显著降低了环境数据分析的技术门槛,使非技术用户能够进行复杂分析

局限性

  1. 数据覆盖范围:目前主要基于印度CPCB数据,地理覆盖有限
  2. 实时性不足:尚未集成实时数据流,分析基于历史数据
  3. 模型依赖:系统性能依赖于底层LLM的代码生成能力
  4. 复杂查询处理:尚未实现自动查询分解和多步推理

未来方向

  1. 实时数据集成:通过API集成实时空气质量数据流
  2. 数据扩展:添加ERA5再分析数据、卫星产品、土地利用和排放清单
  3. 模型微调:针对环境领域进行专门的模型优化
  4. 自动推理工作流:实现复杂查询的自动分解和多步分析

深度评价

优点

  1. 创新性强:首个面向环境数据的LLM对话分析系统,技术路线新颖
  2. 实用价值高:通过德里污染案例展示了实际应用价值,对政策制定具有重要意义
  3. 技术方案合理:通过代码生成减少幻觉的设计思路科学可行
  4. 系统完整性:从数据集成、模型选择到结果展示形成完整闭环
  5. 透明度高:提供生成代码,确保结果可验证和可重现

不足

  1. 评估不够充分:VayuBench细节未在文中展示,缺乏定量的性能评估
  2. 案例分析有限:主要基于德里单一案例,缺乏更广泛的验证
  3. 技术细节不足:LLM微调、提示词工程等关键技术细节描述不够详细
  4. 错误处理机制:未详细讨论代码生成错误或执行失败的处理策略
  5. 用户体验评估:缺乏真实用户的使用反馈和满意度评估

影响力

  1. 学术贡献:为LLM在环境科学领域的应用提供了重要参考
  2. 社会价值:有助于提高环境数据的利用效率,支持更好的政策决策
  3. 技术示范:为其他领域的专业数据分析系统提供了设计思路
  4. 开放性:系统公开部署,促进了技术的传播和应用

适用场景

  1. 政府决策:环境部门政策制定和项目评估
  2. 学术研究:环境科学和公共卫生研究
  3. 新闻媒体:数据驱动的环境新闻报道
  4. 公众教育:提高公众对空气质量问题的认识
  5. NGO组织:环境监督和倡导活动

参考文献

本文引用了15篇相关文献,涵盖了LLM基础技术、环境数据分析工具、空气污染健康影响等多个方面,为研究提供了充分的理论基础和对比参照。


总体评价:这是一篇技术创新与实际应用相结合的优秀论文,在LLM应用于环境科学领域方面具有开创性意义。系统设计合理,实际案例分析深入,对解决印度等发展中国家的环境数据利用问题具有重要价值。尽管在评估和技术细节方面还有改进空间,但整体贡献显著,具有很好的推广应用前景。