2025-11-24T02:19:18.891948

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework

Das, Prajapati, Zhang et al.
Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.
academic

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework

基本信息

  • 论文ID: 2310.07086
  • 标题: Urban Echoes: Decoding Transit Riders' Sentiments on Social Media for Smarter Mobility
  • 作者: Adway Das, Abhishek Kumar Prajapati, Pengxiang Zhang, Mukund Srinath, Andisheh Ranjbari
  • 所属机构: The Pennsylvania State University, Optym Inc.
  • 分类: cs.AI cs.SI
  • 发表时间: 2023年10月 (arXiv v2: 2025年10月)
  • 论文链接: https://arxiv.org/abs/2310.07086v2

摘要

传统的公交调查耗费大量资源且耗时,限制了其有效解决特定地点问题的能力。本研究提出了一个基于NLP的框架,利用Twitter(现为X)的实时数据作为预筛选工具来优化和定向公交机构调查。该框架采用两步方法:Few-Shot学习将推文分类为安全、可靠性和维护等类别,而基于词典的情感分析模型评估情感极性(正面、负面、中性)和强度。此外,空间分析将情感趋势映射到特定地理区域,使公交机构能够精确定位和优先处理问题区域。

研究背景与动机

核心问题

  1. 传统调查的局限性:公交用户反馈调查成本高昂、耗时且地理覆盖有限。研究显示,公交机构进行调查的人均成本约为36美元,中等规模调查的平均总成本约为35万美元。
  2. 社交媒体数据的潜力:Twitter拥有超过3.3亿活跃用户,每天产生约5亿条推文,为大规模实时洞察用户情感和体验提供了独特机会。
  3. 地理精确性需求:社交媒体数据可以揭示特定位置的问题和情感,使公交机构能够识别不同社区的独特需求和挑战。

研究重要性

  • 资源优化:通过社交媒体数据预筛选,可以大幅降低调查成本并提高效率
  • 实时监控:能够持续监控公众意见并用于决策制定
  • 空间精确性:识别高关注区域进行定向干预
  • 交通公平:确保所有社区都能获得安全可靠的交通选择

核心贡献

  1. 提出了创新的NLP框架:结合Few-Shot学习和VADER情感分析的多面方法
  2. 实现了精确的推文分类:将推文分类为维护、安全、调度等服务相关类别
  3. 提供了空间-时间分析:识别特定地理位置的反复投诉或关注点
  4. 验证了框架有效性:通过NYC地铁系统案例研究和MTA官方调查对比验证
  5. 构建了可扩展的解决方案:适用于不同地区、时间和多种服务提供商

方法详解

任务定义

输入:Twitter推文文本、时间戳、地理标签 输出:推文类别分类、情感极性和强度评分、空间分布分析 约束条件:推文必须与公交系统相关,需要处理非正式语言和社交媒体特有表达

模型架构

1. 数据收集与预处理

  • 数据来源:通过Twitter API和snscrape工具收集
  • 搜索策略:使用10个独特搜索词("MTA"、"NYC SUBWAY"等)和12个相关位置
  • 过滤处理:去除重复推文和嵌入链接
  • 数据规模:从102,530条推文中随机抽样36,000条进行分析

2. Few-Shot学习分类模块

模型选择:OpenAI GPT-3.5 Turbo 分类类别

  • 清洁与维护:讨论地铁系统清洁和维护问题
  • 调度与运营:涉及地铁时刻表、延误、准时性等
  • 安全与保障:突出用户安全和保障相关关注
  • 其他:与公交系统用户体验无关的推文

Few-Shot设置:每个类别使用5个样本进行训练,在性能和资源效率间取得平衡

3. VADER情感分析模块

核心原理:基于预构建的情感词典,将词汇特征映射到情感强度评分 评分范围:词级评分-4到4,句级复合评分-1到+1 标准化公式CSCi=xixi2+αCSC_i = \frac{x_i}{\sqrt{x_i^2 + \alpha}} 其中xix_i是推文i中构成词汇的情感评分总和,α=15\alpha=15为标准化参数

情感分类阈值

  • 正面情感:复合评分 > 0.1
  • 负面情感:复合评分 < -0.1
  • 中性情感:-0.1 ≤ 复合评分 ≤ 0.1

技术创新点

  1. Few-Shot学习的应用:解决了大规模推文标注的困难,仅需少量标注样本即可实现高精度分类
  2. 多模态分析框架:同时考虑分类、情感和空间维度的综合分析
  3. 空间映射策略:将地理标签推文映射到1英里半径内的地铁站,实现精确的空间分析
  4. 实时处理能力:框架设计支持大规模社交媒体数据的实时处理和分析

实验设置

数据集

  • 数据集名称:NYC地铁系统相关Twitter数据
  • 数据规模:36,000条推文(从102,530条中抽样)
  • 时间范围:2022年全年
  • 地理范围:NYC地铁服务区域及其扩展区域
  • 验证集:500条人工标注推文用于模型验证

评价指标

  • 分类性能:Precision(精确率)、Recall(召回率)、F1-Score
  • 情感分析:复合情感评分、情感极性分布
  • 空间分析:地理分布热力图、区域情感聚合

对比方法

  • 基准对比:MTA 2022年秋季客户调查结果
  • 时间对比:MTA春季与秋季调查结果变化趋势

实现细节

  • 分类模型:GPT-3.5 Turbo,每类别5个样本的Few-Shot设置
  • 情感分析:VADER模型,无需预处理步骤
  • 空间分析:1英里半径地铁站映射策略

实验结果

主要结果

分类性能

指标数值
Precision0.9456
Recall0.9420
F1-Score0.9425

推文分类分布

类别推文数量百分比
清洁/维护1,6674.6%
调度/运营6,05016.8%
安全/保障7,70821.5%
其他20,57557.1%

关键发现:安全和保障是最高关注点(21.5%),其次是调度相关问题(16.8%)

时间趋势分析

  • 最佳满意度时期:3月和夏季月份(6-9月)
  • 负面推文比例变化:从4-5月的33%降至6-8月的28%
  • 与MTA调查一致性:2022年秋季调查显示54%的地铁客户满意度,比春季调查增加6个百分点

空间分析结果

  • 安全关注集中区域:中城区和金融区
  • 调度问题突出区域:上曼哈顿和皇后区
  • 持续负面反馈区域:时代广场、中央公园等高客流量旅游区
  • 特定安全问题区域:上东区和东哈莱姆区

案例分析

论文提供了8个具体推文案例,展示了框架在处理复杂情感(如讽刺)和准确分类方面的能力。例如:

  • 负面维护推文:"Why would you WANT to ride the subway without a mask? It is so stinky"(评分:-0.6651)
  • 正面调度推文:感谢列车员保持车门开放的推文(评分:0.7701)

相关工作

情感分析在公共交通中的应用

  • 机器学习方法:SVM、朴素贝叶斯、决策树、BERT等
  • 词典方法:SentiWordNet、VADER、TextBlob、Afinn、LIWC等
  • 应用案例:芝加哥公交局、伦敦地铁系统的情感分析研究

社交媒体数据在交通研究中的应用

  • T-MAPS模型:NYC交通洞察的时空模型
  • 新加坡公交系统:高峰时段实时舆情跟踪
  • 多伦多公交系统:社交媒体帖子主题分类

主题分类与大数据标注挑战

  • 传统方法局限:需要大量标注数据,缺乏泛化能力
  • 预训练模型优势:GPT、LLaMA等大语言模型的Few-Shot学习能力
  • Few-Shot学习应用:电影评论、产品反馈、对话系统意图分类等领域

结论与讨论

主要结论

  1. 框架有效性:提出的NLP框架能够准确分类推文并测量情感强度,与官方调查结果高度一致
  2. 成本效益:社交媒体数据分析可以作为昂贵用户调查的可行替代或补充
  3. 空间精确性:能够识别特定地理区域的问题集中点,支持精准资源配置
  4. 实时监控能力:提供持续的公众意见监控和数据驱动决策支持

局限性

  1. 数据偏差:社交媒体用户群体偏向年轻用户,可能不完全代表所有乘客群体
  2. 地理精确性:推文的地理标签可能不准确,1英里映射策略存在误差
  3. 语言复杂性:讽刺、俚语等复杂语言表达仍然是挑战
  4. 隐私伦理:使用公开社交媒体数据需要谨慎处理隐私和伦理问题

未来方向

  1. 多语言支持:扩展框架以处理多语言推文数据
  2. 实时处理优化:提高大规模数据的实时处理能力
  3. 跨领域应用:将框架应用于机场、公交、停车场、共享出行等其他交通服务
  4. 票价政策分析:评估票价变化对用户满意度的影响

深度评价

优点

  1. 方法创新性强:Few-Shot学习与VADER情感分析的结合是创新的,有效解决了大规模标注困难
  2. 实验设计充分:36,000条推文的大规模分析,500条人工标注验证,与官方调查对比验证
  3. 实用价值高:为公交机构提供了成本效益显著的用户反馈收集替代方案
  4. 空间分析深入:地理维度的情感分析为精准干预提供了有力支持
  5. 结果可信度高:与MTA官方调查结果的一致性增强了框架的可信度

不足

  1. 泛化能力有限:仅在NYC地铁系统验证,其他城市和交通系统的适用性需要进一步验证
  2. 时间跨度局限:仅分析2022年数据,长期趋势分析不足
  3. 技术依赖性:依赖商业API(GPT-3.5),可能面临成本和可用性问题
  4. 评估指标单一:主要依赖与官方调查对比,缺乏更多维度的验证

影响力

  1. 学术贡献:为交通领域的社交媒体数据分析提供了新的方法论框架
  2. 实践价值:为全球公交机构提供了可操作的技术解决方案
  3. 政策启示:支持基于数据的交通政策制定和资源配置优化
  4. 跨域启发:方法可扩展到其他公共服务领域的用户反馈分析

适用场景

  1. 公交系统优化:地铁、公交、轻轨等公共交通系统的服务改进
  2. 城市规划:基于用户反馈的交通基础设施规划
  3. 应急响应:交通事故或服务中断时的公众情绪监控
  4. 政策评估:交通政策实施效果的实时评估
  5. 商业应用:共享出行、出租车服务等商业交通服务的用户体验分析

参考文献

论文引用了64篇相关文献,涵盖了情感分析、自然语言处理、交通研究、社交媒体分析等多个领域的重要研究成果,为本研究提供了坚实的理论基础和方法支撑。


总体评价:这是一篇高质量的应用研究论文,成功地将先进的NLP技术应用于实际的城市交通问题。论文方法创新、实验充分、结果可信,具有重要的学术价值和实践意义。虽然存在一些局限性,但为交通领域的数字化转型提供了有价值的技术路径和实践经验。