2025-11-24T02:19:18.891948

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework

Das, Prajapati, Zhang et al.
Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.
academic

Использование данных Twitter для анализа тональности отзывов пользователей транспорта: фреймворк NLP

Основная информация

  • ID статьи: 2310.07086
  • Название: Urban Echoes: Decoding Transit Riders' Sentiments on Social Media for Smarter Mobility
  • Авторы: Adway Das, Abhishek Kumar Prajapati, Pengxiang Zhang, Mukund Srinath, Andisheh Ranjbari
  • Учреждения: The Pennsylvania State University, Optym Inc.
  • Классификация: cs.AI cs.SI
  • Дата публикации: октябрь 2023 г. (arXiv v2: октябрь 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2310.07086v2

Аннотация

Традиционные опросы пассажиров общественного транспорта требуют значительных ресурсов и времени, что ограничивает их способность эффективно решать локальные проблемы. В данном исследовании предлагается фреймворк на основе NLP, который использует данные в реальном времени из Twitter (теперь X) в качестве инструмента предварительного отбора для оптимизации и целевого направления опросов транспортных организаций. Фреймворк применяет двухэтапный подход: обучение с малым количеством примеров (Few-Shot learning) классифицирует твиты по категориям безопасности, надежности и обслуживания, а словарный анализ тональности оценивает полярность эмоций (положительная, отрицательная, нейтральная) и интенсивность. Кроме того, пространственный анализ отображает тенденции тональности на конкретные географические области, позволяя транспортным организациям точно определять и приоритизировать проблемные зоны.

Исследовательский контекст и мотивация

Основные проблемы

  1. Ограничения традиционных опросов: опросы пассажиров общественного транспорта требуют высоких затрат, отнимают много времени и имеют ограниченный географический охват. Исследования показывают, что средние затраты транспортных организаций на проведение опроса составляют примерно 36 долларов на человека, а общие средние затраты на опрос среднего размера составляют около 350 000 долларов.
  2. Потенциал данных социальных сетей: Twitter имеет более 3,3 миллиарда активных пользователей и генерирует примерно 500 миллионов твитов в день, предоставляя уникальные возможности для получения крупномасштабных данных в реальном времени о настроениях и опыте пользователей.
  3. Необходимость географической точности: данные социальных сетей могут выявить проблемы и настроения в конкретных местах, позволяя транспортным организациям определить уникальные потребности и вызовы различных сообществ.

Значимость исследования

  • Оптимизация ресурсов: предварительный отбор через данные социальных сетей может значительно снизить затраты на опросы и повысить эффективность
  • Мониторинг в реальном времени: возможность постоянного мониторинга общественного мнения для принятия решений
  • Пространственная точность: определение областей с высокой концентрацией проблем для целевого вмешательства
  • Справедливость в транспорте: обеспечение того, чтобы все сообщества имели доступ к безопасным и надежным вариантам транспорта

Основные вклады

  1. Предложен инновационный фреймворк NLP: комплексный подход, объединяющий Few-Shot обучение и анализ тональности VADER
  2. Достигнута точная классификация твитов: классификация твитов по категориям, связанным с услугами: обслуживание, безопасность, расписание и т.д.
  3. Обеспечен пространственно-временной анализ: определение повторяющихся жалоб или проблем в конкретных географических местах
  4. Подтверждена эффективность фреймворка: валидация через тематическое исследование системы метро Нью-Йорка и сравнение с официальными опросами MTA
  5. Разработано масштабируемое решение: применимо к различным регионам, временным периодам и нескольким поставщикам услуг

Подробное описание методологии

Определение задачи

Входные данные: текст твитов, временные метки, географические теги Выходные данные: классификация категорий твитов, оценки полярности и интенсивности эмоций, анализ пространственного распределения Ограничения: твиты должны быть связаны с системой общественного транспорта, необходимо обработать неформальный язык и выражения, специфичные для социальных сетей

Архитектура модели

1. Сбор и предварительная обработка данных

  • Источники данных: сбор через Twitter API и инструмент snscrape
  • Стратегия поиска: использование 10 уникальных поисковых терминов ("MTA", "NYC SUBWAY" и т.д.) и 12 связанных местоположений
  • Фильтрация: удаление дублирующихся твитов и встроенных ссылок
  • Масштаб данных: случайная выборка 36 000 твитов из 102 530 для анализа

2. Модуль классификации Few-Shot обучения

Выбор модели: OpenAI GPT-3.5 Turbo Категории классификации:

  • Чистота и обслуживание: обсуждение проблем чистоты и обслуживания системы метро
  • Расписание и операции: вопросы, связанные с расписанием метро, задержками, пунктуальностью
  • Безопасность и защита: проблемы, связанные с безопасностью и защитой пассажиров
  • Прочее: твиты, не связанные с опытом пользователей системы общественного транспорта

Настройка Few-Shot: использование 5 примеров на категорию для обучения, обеспечивающее баланс между производительностью и эффективностью ресурсов

3. Модуль анализа тональности VADER

Основной принцип: основан на предварительно построенном словаре эмоций, отображающем лексические особенности на оценки интенсивности эмоций Диапазон оценок: оценки на уровне слова от -4 до 4, составные оценки на уровне предложения от -1 до +1 Формула нормализации: CSCi=xixi2+αCSC_i = \frac{x_i}{\sqrt{x_i^2 + \alpha}} где xix_i — сумма оценок эмоций составляющих слов в твите i, α=15\alpha=15 — параметр нормализации

Пороги классификации эмоций:

  • Положительные эмоции: составная оценка > 0,1
  • Отрицательные эмоции: составная оценка < -0,1
  • Нейтральные эмоции: -0,1 ≤ составная оценка ≤ 0,1

Технические инновации

  1. Применение Few-Shot обучения: решает проблему сложной аннотации крупномасштабных твитов, достигая высокой точности с минимальным количеством размеченных примеров
  2. Многомерный фреймворк анализа: одновременное рассмотрение классификации, эмоций и пространственного измерения
  3. Стратегия пространственного отображения: отображение геотегированных твитов на станции метро в радиусе 1 мили, обеспечивающее точный пространственный анализ
  4. Возможность обработки в реальном времени: архитектура фреймворка поддерживает обработку и анализ крупномасштабных данных социальных сетей в реальном времени

Экспериментальная установка

Набор данных

  • Название набора данных: данные Twitter, связанные с системой метро Нью-Йорка
  • Масштаб данных: 36 000 твитов (выборка из 102 530)
  • Временной диапазон: весь 2022 год
  • Географический диапазон: зона обслуживания метро Нью-Йорка и прилегающие территории
  • Набор валидации: 500 вручную аннотированных твитов для проверки модели

Метрики оценки

  • Производительность классификации: точность (Precision), полнота (Recall), F1-Score
  • Анализ тональности: составная оценка эмоций, распределение полярности эмоций
  • Пространственный анализ: географические тепловые карты, агрегированные эмоции по регионам

Методы сравнения

  • Базовое сравнение: результаты опроса клиентов MTA осенью 2022 года
  • Временное сравнение: тенденции изменений между весенним и осенним опросами MTA

Детали реализации

  • Модель классификации: GPT-3.5 Turbo с Few-Shot настройкой 5 примеров на категорию
  • Анализ тональности: модель VADER без необходимости предварительной обработки
  • Пространственный анализ: стратегия отображения станций метро в радиусе 1 мили

Результаты экспериментов

Основные результаты

Производительность классификации

МетрикаЗначение
Точность (Precision)0,9456
Полнота (Recall)0,9420
F1-Score0,9425

Распределение классификации твитов

КатегорияКоличество твитовПроцент
Чистота/Обслуживание1 6674,6%
Расписание/Операции6 05016,8%
Безопасность/Защита7 70821,5%
Прочее20 57557,1%

Ключевые выводы: безопасность и защита являются наиболее актуальной проблемой (21,5%), за ними следуют вопросы, связанные с расписанием (16,8%)

Анализ временных тенденций

  • Период наибольшей удовлетворенности: март и летние месяцы (июнь-сентябрь)
  • Изменение доли отрицательных твитов: снижение с 33% в апреле-мае до 28% в июне-августе
  • Согласованность с опросом MTA: опрос осенью 2022 года показал 54% удовлетворенность пассажиров метро, что на 6 процентных пункта выше, чем в весеннем опросе

Результаты пространственного анализа

  • Области концентрации проблем безопасности: центральная часть Манхэттена и финансовый район
  • Области с выраженными проблемами расписания: верхний Манхэттен и Квинс
  • Области с постоянной отрицательной обратной связью: Таймс-сквер, Центральный парк и другие высокотрафиковые туристические зоны
  • Области с конкретными проблемами безопасности: верхний Ист-Сайд и восточный Гарлем

Анализ конкретных случаев

Статья предоставляет 8 конкретных примеров твитов, демонстрирующих способность фреймворка обрабатывать сложные эмоции (такие как сарказм) и точно классифицировать. Например:

  • Отрицательный твит об обслуживании: "Why would you WANT to ride the subway without a mask? It is so stinky" (оценка: -0,6651)
  • Положительный твит о расписании: твит с благодарностью проводнику за открытие дверей (оценка: 0,7701)

Связанные работы

Применение анализа тональности в общественном транспорте

  • Методы машинного обучения: SVM, наивный Байес, деревья решений, BERT и т.д.
  • Словарные методы: SentiWordNet, VADER, TextBlob, Afinn, LIWC и т.д.
  • Примеры применения: анализ тональности в Чикагском управлении общественного транспорта, системе лондонского метро

Применение данных социальных сетей в исследованиях транспорта

  • Модель T-MAPS: пространственно-временная модель для получения информации о транспорте в Нью-Йорке
  • Система общественного транспорта Сингапура: отслеживание общественного мнения в реальном времени в часы пик
  • Система общественного транспорта Торонто: классификация тем постов в социальных сетях

Классификация тем и проблемы аннотации больших данных

  • Ограничения традиционных методов: требуют больших объемов размеченных данных, недостаточная способность к обобщению
  • Преимущества предварительно обученных моделей: способность Few-Shot обучения больших языковых моделей GPT, LLaMA и т.д.
  • Применение Few-Shot обучения: классификация рецензий на фильмы, отзывы о продуктах, определение намерений в диалоговых системах и другие области

Выводы и обсуждение

Основные выводы

  1. Эффективность фреймворка: предложенный фреймворк NLP может точно классифицировать твиты и измерять интенсивность эмоций, показывая высокую согласованность с официальными опросами
  2. Экономическая эффективность: анализ данных социальных сетей может служить жизнеспособной альтернативой или дополнением к дорогостоящим опросам пользователей
  3. Пространственная точность: способность определять точки концентрации проблем в конкретных географических областях, поддерживая оптимальное распределение ресурсов
  4. Возможность мониторинга в реальном времени: обеспечение постоянного мониторинга общественного мнения и поддержка принятия решений на основе данных

Ограничения

  1. Смещение данных: пользователи социальных сетей смещены в сторону молодых пользователей и могут не полностью представлять все группы пассажиров
  2. Географическая точность: географические теги твитов могут быть неточными, стратегия отображения в радиусе 1 мили содержит ошибки
  3. Сложность языка: сарказм, сленг и другие сложные языковые выражения остаются проблемой
  4. Конфиденциальность и этика: использование открытых данных социальных сетей требует осторожного обращения с вопросами конфиденциальности и этики

Направления будущих исследований

  1. Поддержка многоязычности: расширение фреймворка для обработки многоязычных твитов
  2. Оптимизация обработки в реальном времени: повышение способности к обработке крупномасштабных данных в реальном времени
  3. Применение в других областях: применение фреймворка к аэропортам, автобусам, парковкам, услугам совместного использования и другим транспортным услугам
  4. Анализ политики тарификации: оценка влияния изменений тарифов на удовлетворенность пользователей

Глубокая оценка

Преимущества

  1. Высокая инновационность методологии: комбинация Few-Shot обучения и анализа тональности VADER является инновационной и эффективно решает проблему крупномасштабной аннотации
  2. Достаточный дизайн экспериментов: крупномасштабный анализ 36 000 твитов, валидация на 500 вручную аннотированных твитов, сравнение с официальными опросами MTA
  3. Высокая практическая ценность: предоставляет транспортным организациям экономически эффективную альтернативу для сбора отзывов пользователей
  4. Глубокий пространственный анализ: анализ эмоций с географическим измерением обеспечивает мощную поддержку для целевого вмешательства
  5. Высокая надежность результатов: согласованность с официальными опросами MTA повышает достоверность фреймворка

Недостатки

  1. Ограниченная способность к обобщению: валидация проведена только на системе метро Нью-Йорка, применимость к другим городам и транспортным системам требует дальнейшей проверки
  2. Ограниченный временной охват: анализ только данных 2022 года, недостаточно для анализа долгосрочных тенденций
  3. Зависимость от технологии: зависимость от коммерческого API (GPT-3.5) может привести к проблемам с затратами и доступностью
  4. Однообразие метрик оценки: в основном полагается на сравнение с официальными опросами, недостаточно валидации по другим измерениям

Влияние

  1. Академический вклад: предоставляет новую методологическую базу для анализа данных социальных сетей в области транспорта
  2. Практическая ценность: предоставляет транспортным организациям по всему миру применимое техническое решение
  3. Политические последствия: поддерживает принятие политических решений на основе данных и оптимизацию распределения ресурсов в области транспорта
  4. Трансдисциплинарное вдохновение: методология может быть расширена на анализ отзывов пользователей в других областях государственных услуг

Сценарии применения

  1. Оптимизация систем общественного транспорта: улучшение услуг в метро, автобусах, легких рельсовых системах и т.д.
  2. Городское планирование: планирование транспортной инфраструктуры на основе отзывов пользователей
  3. Экстренное реагирование: мониторинг общественных настроений при транспортных происшествиях или перебоях в обслуживании
  4. Оценка политики: оценка в реальном времени эффективности реализации транспортной политики
  5. Коммерческое применение: анализ опыта пользователей в услугах совместного использования, такси и других коммерческих транспортных услугах

Библиография

Статья цитирует 64 соответствующих источника, охватывающих анализ тональности, обработку естественного языка, исследования транспорта, анализ социальных сетей и другие области, предоставляя прочную теоретическую базу и методологическую поддержку для данного исследования.


Общая оценка: это высококачественная прикладная исследовательская работа, которая успешно применяет передовые технологии NLP к практическим проблемам городского транспорта. Статья отличается инновационной методологией, достаточным экспериментальным дизайном и надежными результатами, обладая значительной академической ценностью и практической значимостью. Несмотря на некоторые ограничения, она предоставляет ценный технологический путь и практический опыт для цифровой трансформации в области транспорта.