2025-11-11T14:34:09.551839

VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics

Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic

VayuChat: LLM-Powered Conversational Interface для аналитики данных качества воздуха

Основная информация

  • ID статьи: 2511.01046
  • Название: VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
  • Авторы: Vedant Acharya, Abhay Pisharodi, Rishabh Mondal, Mohammad Rafiuddin, Nipun Batra
  • Классификация: cs.CL (Вычислительная лингвистика)
  • Время публикации/Конференция: CODS 2025 (13-я Международная конференция по науке о данных)
  • Ссылка на статью: https://arxiv.org/abs/2511.01046
  • Развёртывание системы: https://huggingface.co/spaces/SustainabilityLabIITGN/VayuChat

Аннотация

В Индии загрязнение воздуха ежегодно приводит к преждевременной смерти примерно 1,6 млн человек, однако лицам, принимающим решения, сложно преобразовать разрозненные данные в основу для принятия решений. Существующие инструменты требуют специальных навыков и предоставляют только статические панели мониторинга, не способные решить критические политические вопросы. В данной работе предлагается VayuChat — диалоговая система, способная отвечать на вопросы на естественном языке о качестве воздуха, метеорологических условиях и политических инициативах, предоставляя исполняемый код на Python и интерактивные визуализации. VayuChat интегрирует данные мониторинговых станций Центрального совета по контролю загрязнения (CPCB), данные демографии штатов и записи финансирования Национального плана чистого воздуха (NCAP) через унифицированный интерфейс, управляемый большой языковой моделью. Платформа позволяет политикам, исследователям и гражданам проводить сложный анализ окружающей среды посредством простого диалога.

Исследовательский контекст и мотивация

Определение проблемы

  1. Серьёзный кризис общественного здравоохранения: Загрязнение воздуха в Индии ежегодно приводит к 1,6 млн преждевременных смертей; воздействие PM2.5 сокращает ожидаемую продолжительность жизни более чем на 5 лет
  2. Барьеры в использовании данных: Несмотря на постоянный сбор CPCB национальных измерений загрязняющих веществ, преобразование исходных данных в своевременные политически значимые выводы остаётся затруднительным
  3. Высокие технические барьеры: Существующие инструменты требуют специальных знаний, предоставляют ограниченные возможности визуализации или работают только в узких областях применения

Ограничения существующих подходов

  • Требуют специальных технических навыков для использования
  • Предоставляют статические панели мониторинга, лишённые интерактивности
  • Неспособны обрабатывать сложный анализ между наборами данных
  • Простые запросы, такие как «Как изменился PM2.5 в Дели в прошлом году?», остаются сложными для ответа
  • Политические вопросы, такие как «Какие города сократили PM2.5 больше всего относительно финансирования NCAP?», требуют интеграции данных о загрязнении, финансировании и демографии

Исследовательская мотивация

Использование способностей больших языковых моделей в понимании естественного языка и генерации кода для создания системы, способной:

  • Снизить технические барьеры для анализа данных об окружающей среде
  • Обеспечить прозрачные и воспроизводимые результаты анализа
  • Интегрировать многоисточниковые гетерогенные данные
  • Поддерживать сложные политически значимые запросы

Основные вклады

  1. Разработана первая LLM-управляемая диалоговая система для анализа качества воздуха: VayuChat способна обрабатывать запросы на естественном языке и генерировать исполняемый код на Python и результаты визуализации
  2. Интеграция многоисточниковых данных об окружающей среде: Объединены данные наблюдений CPCB по качеству воздуха и метеорологии (2017-2024), данные демографии и площади штатов, записи распределения финансирования NCAP
  3. Обеспечение прозрачного механизма генерации кода: Генерация кода на Python вместо прямого вывода результатов снижает галлюцинации, обеспечивая проверяемость и воспроизводимость результатов
  4. Поддержка множественных типов анализа: Включая прямые запросы, построение графиков, анализ корреляций и оценку политического воздействия
  5. Практическая валидация на примерах: Демонстрация практической ценности системы посредством глубокого анализа кризиса загрязнения воздуха в Дели в декабре 2024 года

Подробное описание методологии

Определение задачи

Входные данные: Запрос пользователя на естественном языке, касающийся качества воздуха, метеорологических данных или политического анализа Выходные данные:

  • Исполняемый код на Python
  • Результаты анализа данных (текст, таблицы или визуальные графики)
  • Прямой ответ на запрос

Ограничения:

  • Код должен основываться на предопределённой схеме набора данных
  • Результаты должны быть проверяемы и воспроизводимы
  • Поддержка сравнительной оценки нескольких LLM-моделей

Архитектура системы

Дизайн интерфейса переднего плана

VayuChat предоставляет интерфейс на основе браузера с четырьмя основными функциональными модулями:

  1. Селектор моделей: Поддержка множественных SOTA-моделей (GPT-OSS 20B/120B, Qwen3-32B, серия Llama, DeepSeek-R1, Gemini и др.)
  2. Опции быстрых запросов: Предопределённые шаблоны вопросов, связанных с качеством воздуха
  3. Ввод пользовательских запросов: Поддержка ввода произвольных запросов на естественном языке
  4. Область отображения кода: Отображение сгенерированного кода на Python для обеспечения прозрачности

Процесс обработки на заднем плане

Запрос пользователя → Комбинация системных подсказок → Генерация кода LLM → Выполнение в изолированной среде → Отображение результатов

Интеграция наборов данных

Набор данных CPCB:

  • Временной диапазон: 2017-2024 годы
  • Показатели загрязняющих веществ: PM2.5, PM10, NO, NO2, NOx, NH3, SO2, CO, озон (единицы: мкг/м³ и т.д.)
  • Метеорологические переменные: температура воздуха, относительная влажность, скорость ветра, направление ветра, осадки, солнечная радиация, атмосферное давление, вертикальная скорость ветра
  • Метаданные станций: город, штат, ID станции, назначенный CPCB

Данные демографии штатов:

  • Охват 31 региона Индии
  • Включение данных переписи населения 2011 года
  • Информация о площади (км²)
  • Идентификация союзных территорий

Данные финансирования NCAP:

  • Временной диапазон: 2019-2022 годы
  • Запись распределения финансирования по городам по финансовым годам
  • Статус использования финансирования по состоянию на июнь 2022 года

Технические инновации

1. Механизм снижения галлюцинаций на основе генерации кода

Традиционные подходы, предоставляющие LLM исходные табличные данные, подвержены галлюцинациям. VayuChat применяет следующие стратегии:

  • Предоставление описания схемы набора данных в системной подсказке
  • Генерация кодом на Python вместо прямых ответов
  • Обеспечение точности результатов посредством выполнения кода

2. Архитектура поддержки нескольких моделей

  • Интеграция открытых моделей (через Groq Cloud API) и коммерческих моделей (через Gemini API)
  • Поддержка сравнительной оценки производительности моделей
  • Выбор наиболее подходящей модели для различных типов запросов

3. Безопасная среда выполнения кода

  • Выполнение сгенерированного кода в изолированной среде
  • Предотвращение потенциальных рисков безопасности системы
  • Автоматический захват результатов выполнения и интеграция в ответ

Экспериментальная установка

Детали набора данных

Сеть мониторинга CPCB:

  • Охват более 500 мониторинговых станций по всей стране
  • 37 мониторинговых станций в Дели для тематического исследования
  • Ежедневная частота измерений с включением маркеров контроля качества

Оценочные критерии:

  • Разработан оценочный эталон VayuBench (детали выходят за рамки данной статьи)
  • Сотрудничество со специалистами по качеству воздуха для валидации реальных сценариев

Оценка возможностей системы

VayuChat поддерживает три основных класса запросов:

Прямые запросы:

  • «Какой город имел наивысший PM2.5 в 2023 году?»
  • «Показать уровни SO2 в Дели»

Генерация графиков:

  • «Построить график тренда PM2.5 в Мумбаи»
  • «Сравнить уровни озона в Панджабе и Гуджарате»

Аналитические запросы:

  • «Проанализировать корреляцию между скоростью ветра и PM2.5»
  • «Оценить влияние NCAP на качество воздуха»

Результаты экспериментов

Тематическое исследование кризиса качества воздуха в Дели

В работе представлено сотрудничество со специалистами по анализу качества воздуха с использованием VayuChat для исследования причин резкого увеличения загрязнения в Дели в декабре 2024 года, демонстрирующее практическую ценность системы.

1. Определение дней с наиболее серьёзным загрязнением

Запрос: «Какие дни в декабре 2024 года в Дели были наиболее загрязнены?»

Результаты:

ДатаPM2.5 (мкг/м³)
2024-12-18344.59
2024-12-19341.46
2024-12-17330.25
2024-12-20291.46
2024-12-22285.98

2. Анализ взаимосвязи скорости ветра и загрязнения

Запрос: «Использовать временной ряд для сравнения уровней загрязнения и скорости ветра в наиболее загрязнённую неделю декабря 2024 года в Дели с периодами за 15 дней до и после»

Ключевые выводы:

  • Явная отрицательная корреляция между скоростью ветра и PM2.5
  • При снижении скорости ветра ниже 1,0 м/с PM2.5 превышает 300 мкг/м³
  • Даже небольшое снижение скорости ветра (0,6 м/с) может привести к быстрому ухудшению качества воздуха с «очень плохого» до «опасного»

3. Историческое сравнение за пять лет

Запрос: «Построить и сравнить загрязнение в неделю декабря 2024 года в Дели с данными предыдущих пяти лет»

Выводы:

  • Скорость ветра в 2024 году немного выше, чем в предыдущие годы
  • В 2019 и 2020 годах наблюдалась сильная отрицательная корреляция между PM2.5 и скоростью ветра
  • В 2023 году зафиксирована наименьшая скорость ветра (0,6 м/с)
  • В 2021 году отмечены наивысшие уровни PM2.5 (325 мкг/м³)

4. Анализ корреляции множественных загрязняющих веществ

Запрос: «Проанализировать корреляцию между CO, NO2 и PM2.5 в декабре в Дели с 2017 года»

Матрица корреляций:

Загрязняющее веществоCONO2PM2.5
CO10.30.47
NO20.310.34
PM2.50.470.341

Выводы: PM2.5 показывает наиболее сильную корреляцию с CO (r=0.47), указывая на то, что общие источники, такие как выбросы транспорта, сжигание соломы и промышленные выбросы, одновременно управляют событиями загрязнения.

Производительность системы

  • Успешная обработка сложных многошаговых аналитических запросов
  • Генерация точных визуальных графиков
  • Предоставление проверяемого кода на Python
  • Поддержка полного рабочего процесса анализа от выявления кризиса до получения механистических выводов

Связанные работы

Инструменты анализа данных об окружающей среде

  • Пакет openair R: Профессиональный инструмент анализа данных о качестве воздуха, требующий навыков программирования на R
  • Официальная панель CPCB: Предоставляет данные в реальном времени, но с ограниченными функциями и отсутствием глубокого аналитического потенциала
  • Традиционные инструменты BI: Требуют специальных навыков для конфигурации, сложны в обработке запросов на естественном языке

Генерация кода LLM

  • Способности кода GPT-3/4: Отличная производительность на универсальных задачах программирования, но отсутствие оптимизации для конкретных областей
  • Модели, следующие инструкциям: Демонстрируют потенциал в задачах табличного вывода, но ограниченное применение в области окружающей среды
  • Табличный вывод без примеров: Связанные технологии предоставляют основу для методологии данной работы

Диалоговый анализ данных

Данная работа является первой LLM-управляемой диалоговой системой, специально разработанной для анализа данных об окружающей среде, заполняя пробел в этой области.

Заключение и обсуждение

Основные выводы

  1. Техническая осуществимость: LLM эффективно обрабатывают сложные запросы анализа данных об окружающей среде; механизм генерации кода обеспечивает точность результатов
  2. Практическая ценность: Система успешно поддержала глубокий анализ кризиса загрязнения воздуха в Дели, демонстрируя потенциал практического применения
  3. Повышение доступности: Значительное снижение технических барьеров для анализа данных об окружающей среде, позволяющее нетехническим пользователям проводить сложный анализ

Ограничения

  1. Охват данных: В настоящее время основана преимущественно на данных CPCB Индии с ограниченным географическим охватом
  2. Недостаточная актуальность: Ещё не интегрированы потоки данных в реальном времени; анализ основан на исторических данных
  3. Зависимость от модели: Производительность системы зависит от способности базовой LLM генерировать код
  4. Обработка сложных запросов: Ещё не реализована автоматическая декомпозиция запросов и многошаговое логическое выведение

Направления будущих исследований

  1. Интеграция данных в реальном времени: Интеграция потоков данных о качестве воздуха в реальном времени через API
  2. Расширение данных: Добавление переанализированных данных ERA5, спутниковых продуктов, информации об использовании земель и кадастров выбросов
  3. Тонкая настройка моделей: Специализированная оптимизация моделей для области окружающей среды
  4. Автоматизированные рабочие процессы логического выведения: Реализация автоматической декомпозиции сложных запросов и многошагового анализа

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первая LLM-управляемая диалоговая система анализа для данных об окружающей среде с новаторским техническим подходом
  2. Высокая практическая ценность: Демонстрация практической ценности через анализ загрязнения в Дели с важным значением для политического решения
  3. Обоснованное техническое решение: Научно обоснованный и практически осуществимый подход к снижению галлюцинаций посредством генерации кода
  4. Полнота системы: Формирование полного замкнутого цикла от интеграции данных, выбора модели до представления результатов
  5. Высокая прозрачность: Предоставление сгенерированного кода обеспечивает проверяемость и воспроизводимость результатов

Недостатки

  1. Недостаточная оценка: Детали VayuBench не представлены в статье; отсутствует количественная оценка производительности
  2. Ограниченные примеры: Анализ в основном основан на единственном примере Дели; отсутствует более широкая валидация
  3. Недостаточные технические детали: Недостаточное описание ключевых технических деталей, таких как тонкая настройка LLM и инженерия подсказок
  4. Механизм обработки ошибок: Отсутствует подробное обсуждение стратегий обработки ошибок генерации кода или сбоев выполнения
  5. Оценка пользовательского опыта: Отсутствует обратная связь от реальных пользователей и оценка удовлетворённости

Влияние

  1. Академический вклад: Предоставляет важный справочный материал для применения LLM в области наук об окружающей среде
  2. Социальная ценность: Способствует повышению эффективности использования данных об окружающей среде и поддержке принятия более обоснованных политических решений
  3. Технологический пример: Предоставляет идеи проектирования для специализированных систем анализа данных в других областях
  4. Открытость: Открытое развёртывание системы способствует распространению и применению технологии

Применимые сценарии

  1. Государственное решение: Разработка политики и оценка проектов в области окружающей среды
  2. Академические исследования: Исследования в области наук об окружающей среде и общественного здравоохранения
  3. Средства массовой информации: Подготовка данных-ориентированных отчётов об окружающей среде
  4. Просвещение общественности: Повышение осведомлённости общественности о проблемах качества воздуха
  5. Организации гражданского общества: Деятельность по мониторингу и защите окружающей среды

Библиография

В статье цитируется 15 соответствующих источников, охватывающих базовые технологии LLM, инструменты анализа данных об окружающей среде, влияние загрязнения воздуха на здоровье и другие аспекты, обеспечивающие достаточную теоретическую базу и справочные материалы для исследования.


Общая оценка: Это отличная статья, сочетающая технологические инновации с практическим применением, имеющая пионерское значение в применении LLM к наукам об окружающей среде. Система разработана логично, практические примеры анализа глубоки, имеет важное значение для решения проблемы использования данных об окружающей среде в развивающихся странах, таких как Индия. Несмотря на возможность улучшения в оценке и технических деталях, общий вклад значителен и имеет хорошие перспективы для распространения и применения.