VayuChat: An LLM-Powered Conversational Interface for Air Quality Data Analytics
Acharya, Pisharodi, Mondal et al.
Air pollution causes about 1.6 million premature deaths each year in India, yet decision makers struggle to turn dispersed data into decisions. Existing tools require expertise and provide static dashboards, leaving key policy questions unresolved. We present VayuChat, a conversational system that answers natural language questions on air quality, meteorology, and policy programs, and responds with both executable Python code and interactive visualizations. VayuChat integrates data from Central Pollution Control Board (CPCB) monitoring stations, state-level demographics, and National Clean Air Programme (NCAP) funding records into a unified interface powered by large language models. Our live demonstration will show how users can perform complex environmental analytics through simple conversations, making data science accessible to policymakers, researchers, and citizens. The platform is publicly deployed at https://huggingface.co/spaces/SustainabilityLabIITGN/ VayuChat. For further information check out video uploaded on https://www.youtube.com/watch?v=d6rklL05cs4.
academic
VayuChat: LLM-Powered Conversational Interface для аналитики данных качества воздуха
В Индии загрязнение воздуха ежегодно приводит к преждевременной смерти примерно 1,6 млн человек, однако лицам, принимающим решения, сложно преобразовать разрозненные данные в основу для принятия решений. Существующие инструменты требуют специальных навыков и предоставляют только статические панели мониторинга, не способные решить критические политические вопросы. В данной работе предлагается VayuChat — диалоговая система, способная отвечать на вопросы на естественном языке о качестве воздуха, метеорологических условиях и политических инициативах, предоставляя исполняемый код на Python и интерактивные визуализации. VayuChat интегрирует данные мониторинговых станций Центрального совета по контролю загрязнения (CPCB), данные демографии штатов и записи финансирования Национального плана чистого воздуха (NCAP) через унифицированный интерфейс, управляемый большой языковой моделью. Платформа позволяет политикам, исследователям и гражданам проводить сложный анализ окружающей среды посредством простого диалога.
Серьёзный кризис общественного здравоохранения: Загрязнение воздуха в Индии ежегодно приводит к 1,6 млн преждевременных смертей; воздействие PM2.5 сокращает ожидаемую продолжительность жизни более чем на 5 лет
Барьеры в использовании данных: Несмотря на постоянный сбор CPCB национальных измерений загрязняющих веществ, преобразование исходных данных в своевременные политически значимые выводы остаётся затруднительным
Высокие технические барьеры: Существующие инструменты требуют специальных знаний, предоставляют ограниченные возможности визуализации или работают только в узких областях применения
Неспособны обрабатывать сложный анализ между наборами данных
Простые запросы, такие как «Как изменился PM2.5 в Дели в прошлом году?», остаются сложными для ответа
Политические вопросы, такие как «Какие города сократили PM2.5 больше всего относительно финансирования NCAP?», требуют интеграции данных о загрязнении, финансировании и демографии
Разработана первая LLM-управляемая диалоговая система для анализа качества воздуха: VayuChat способна обрабатывать запросы на естественном языке и генерировать исполняемый код на Python и результаты визуализации
Интеграция многоисточниковых данных об окружающей среде: Объединены данные наблюдений CPCB по качеству воздуха и метеорологии (2017-2024), данные демографии и площади штатов, записи распределения финансирования NCAP
Обеспечение прозрачного механизма генерации кода: Генерация кода на Python вместо прямого вывода результатов снижает галлюцинации, обеспечивая проверяемость и воспроизводимость результатов
Поддержка множественных типов анализа: Включая прямые запросы, построение графиков, анализ корреляций и оценку политического воздействия
Практическая валидация на примерах: Демонстрация практической ценности системы посредством глубокого анализа кризиса загрязнения воздуха в Дели в декабре 2024 года
Входные данные: Запрос пользователя на естественном языке, касающийся качества воздуха, метеорологических данных или политического анализа
Выходные данные:
Исполняемый код на Python
Результаты анализа данных (текст, таблицы или визуальные графики)
Прямой ответ на запрос
Ограничения:
Код должен основываться на предопределённой схеме набора данных
Результаты должны быть проверяемы и воспроизводимы
Поддержка сравнительной оценки нескольких LLM-моделей
Показатели загрязняющих веществ: PM2.5, PM10, NO, NO2, NOx, NH3, SO2, CO, озон (единицы: мкг/м³ и т.д.)
Метеорологические переменные: температура воздуха, относительная влажность, скорость ветра, направление ветра, осадки, солнечная радиация, атмосферное давление, вертикальная скорость ветра
Метаданные станций: город, штат, ID станции, назначенный CPCB
Данные демографии штатов:
Охват 31 региона Индии
Включение данных переписи населения 2011 года
Информация о площади (км²)
Идентификация союзных территорий
Данные финансирования NCAP:
Временной диапазон: 2019-2022 годы
Запись распределения финансирования по городам по финансовым годам
Статус использования финансирования по состоянию на июнь 2022 года
В работе представлено сотрудничество со специалистами по анализу качества воздуха с использованием VayuChat для исследования причин резкого увеличения загрязнения в Дели в декабре 2024 года, демонстрирующее практическую ценность системы.
Запрос: «Использовать временной ряд для сравнения уровней загрязнения и скорости ветра в наиболее загрязнённую неделю декабря 2024 года в Дели с периодами за 15 дней до и после»
Ключевые выводы:
Явная отрицательная корреляция между скоростью ветра и PM2.5
При снижении скорости ветра ниже 1,0 м/с PM2.5 превышает 300 мкг/м³
Даже небольшое снижение скорости ветра (0,6 м/с) может привести к быстрому ухудшению качества воздуха с «очень плохого» до «опасного»
Запрос: «Проанализировать корреляцию между CO, NO2 и PM2.5 в декабре в Дели с 2017 года»
Матрица корреляций:
Загрязняющее вещество
CO
NO2
PM2.5
CO
1
0.3
0.47
NO2
0.3
1
0.34
PM2.5
0.47
0.34
1
Выводы: PM2.5 показывает наиболее сильную корреляцию с CO (r=0.47), указывая на то, что общие источники, такие как выбросы транспорта, сжигание соломы и промышленные выбросы, одновременно управляют событиями загрязнения.
Данная работа является первой LLM-управляемой диалоговой системой, специально разработанной для анализа данных об окружающей среде, заполняя пробел в этой области.
Техническая осуществимость: LLM эффективно обрабатывают сложные запросы анализа данных об окружающей среде; механизм генерации кода обеспечивает точность результатов
Практическая ценность: Система успешно поддержала глубокий анализ кризиса загрязнения воздуха в Дели, демонстрируя потенциал практического применения
Повышение доступности: Значительное снижение технических барьеров для анализа данных об окружающей среде, позволяющее нетехническим пользователям проводить сложный анализ
Академический вклад: Предоставляет важный справочный материал для применения LLM в области наук об окружающей среде
Социальная ценность: Способствует повышению эффективности использования данных об окружающей среде и поддержке принятия более обоснованных политических решений
Технологический пример: Предоставляет идеи проектирования для специализированных систем анализа данных в других областях
Открытость: Открытое развёртывание системы способствует распространению и применению технологии
В статье цитируется 15 соответствующих источников, охватывающих базовые технологии LLM, инструменты анализа данных об окружающей среде, влияние загрязнения воздуха на здоровье и другие аспекты, обеспечивающие достаточную теоретическую базу и справочные материалы для исследования.
Общая оценка: Это отличная статья, сочетающая технологические инновации с практическим применением, имеющая пионерское значение в применении LLM к наукам об окружающей среде. Система разработана логично, практические примеры анализа глубоки, имеет важное значение для решения проблемы использования данных об окружающей среде в развивающихся странах, таких как Индия. Несмотря на возможность улучшения в оценке и технических деталях, общий вклад значителен и имеет хорошие перспективы для распространения и применения.