2025-11-24T02:19:18.891948

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework

Das, Prajapati, Zhang et al.
Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.
academic

Twitter-Daten für Sentimentanalyse von Fahrgastfeedback nutzen: Ein NLP-Framework

Grundinformationen

  • Paper-ID: 2310.07086
  • Titel: Urban Echoes: Decoding Transit Riders' Sentiments on Social Media for Smarter Mobility
  • Autoren: Adway Das, Abhishek Kumar Prajapati, Pengxiang Zhang, Mukund Srinath, Andisheh Ranjbari
  • Institutionen: The Pennsylvania State University, Optym Inc.
  • Klassifizierung: cs.AI cs.SI
  • Veröffentlichungsdatum: Oktober 2023 (arXiv v2: Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2310.07086v2

Zusammenfassung

Herkömmliche Fahrgastbefragungen erfordern erhebliche Ressourcen und sind zeitaufwändig, was ihre Fähigkeit zur effektiven Lösung ortsspezifischer Probleme einschränkt. Diese Forschung präsentiert ein NLP-basiertes Framework, das Echtzeitdaten von Twitter (jetzt X) als Vorauswahlwerkzeug nutzt, um Befragungen von Verkehrsbetrieben zu optimieren und gezielt einzusetzen. Das Framework verfolgt einen zweistufigen Ansatz: Few-Shot-Learning klassifiziert Tweets in Kategorien wie Sicherheit, Zuverlässigkeit und Wartung, während ein lexikongestütztes Sentimentanalyseverfahren die Sentimentpolarität (positiv, negativ, neutral) und -intensität bewertet. Darüber hinaus ermöglicht räumliche Analyse die Abbildung von Sentimenttrends auf spezifische geografische Regionen, wodurch Verkehrsbetriebe Problemzonen präzise identifizieren und priorisieren können.

Forschungshintergrund und Motivation

Kernprobleme

  1. Einschränkungen herkömmlicher Befragungen: Fahrgastfeedback-Befragungen sind kostspielig, zeitaufwändig und geografisch begrenzt. Forschungen zeigen, dass die Kosten pro Person für Verkehrsbefragungen etwa 36 US-Dollar betragen, wobei die durchschnittlichen Gesamtkosten für mittlere Befragungen etwa 350.000 US-Dollar ausmachen.
  2. Potenzial von Social-Media-Daten: Twitter hat über 3,3 Milliarden aktive Nutzer und generiert täglich etwa 500 Millionen Tweets, was einzigartige Möglichkeiten für großflächige Echtzeiteinblicke in Fahrgastgefühle und -erfahrungen bietet.
  3. Anforderung geografischer Präzision: Social-Media-Daten können Probleme und Gefühle an spezifischen Orten offenbaren, wodurch Verkehrsbetriebe die einzigartigen Bedürfnisse und Herausforderungen verschiedener Gemeinden identifizieren können.

Forschungsbedeutung

  • Ressourcenoptimierung: Durch Vorauswahlfilterung mit Social-Media-Daten können Befragungskosten erheblich gesenkt und die Effizienz erhöht werden
  • Echtzeitüberwachung: Ermöglicht kontinuierliche Überwachung der öffentlichen Meinung für Entscheidungsfindung
  • Räumliche Präzision: Identifizierung hochrelevanter Bereiche für gezielte Interventionen
  • Verkehrsgerechtigkeit: Sicherung des Zugangs aller Gemeinden zu sicheren und zuverlässigen Verkehrsoptionen

Kernbeiträge

  1. Entwicklung eines innovativen NLP-Frameworks: Multifacettierter Ansatz, der Few-Shot-Learning und VADER-Sentimentanalyse kombiniert
  2. Realisierung präziser Tweet-Klassifizierung: Klassifizierung von Tweets in servicebezogene Kategorien wie Wartung, Sicherheit und Fahrplan
  3. Bereitstellung räumlich-zeitlicher Analyse: Identifizierung wiederholter Beschwerden oder Anliegen an spezifischen geografischen Orten
  4. Validierung der Framework-Effektivität: Verifizierung durch Fallstudie des NYC-U-Bahn-Systems und Vergleich mit offiziellen MTA-Befragungen
  5. Konstruktion einer skalierbaren Lösung: Anwendbar auf verschiedene Regionen, Zeiträume und mehrere Dienstanbieter

Methodische Erläuterung

Aufgabendefinition

Eingabe: Twitter-Tweet-Text, Zeitstempel, geografische Markierungen Ausgabe: Tweet-Kategorienklassifizierung, Sentimentpolarität und Intensitätsbewertung, räumliche Verteilungsanalyse Einschränkungen: Tweets müssen verkehrssystembezogen sein, Verarbeitung informeller Sprache und sozialmediaspezifischer Ausdrücke erforderlich

Modellarchitektur

1. Datenerfassung und Vorverarbeitung

  • Datenquellen: Erfassung über Twitter API und snscrape-Tool
  • Suchstrategie: Verwendung von 10 eindeutigen Suchbegriffen ("MTA", "NYC SUBWAY" usw.) und 12 relevanten Standorten
  • Filterung: Entfernung doppelter Tweets und eingebetteter Links
  • Datengröße: Zufallsstichprobe von 36.000 Tweets aus 102.530 Tweets zur Analyse

2. Few-Shot-Learning-Klassifizierungsmodul

Modellauswahl: OpenAI GPT-3.5 Turbo Klassifizierungskategorien:

  • Reinigung und Wartung: Diskussionen über Reinigung und Wartungsprobleme des U-Bahn-Systems
  • Fahrplan und Betrieb: Betrifft U-Bahn-Fahrpläne, Verspätungen, Pünktlichkeit usw.
  • Sicherheit und Schutz: Hebt Bedenken bezüglich Fahrgastsicherheit und Schutz hervor
  • Sonstige: Tweets ohne Bezug zur Fahrgasterfahrung des Verkehrssystems

Few-Shot-Einstellung: Verwendung von 5 Stichproben pro Kategorie für das Training, Ausgleich zwischen Leistung und Ressourceneffizienz

3. VADER-Sentimentanalysemodul

Kernprinzip: Basierend auf vorgefertigtem Sentimentlexikon werden lexikalische Merkmale auf Sentimentintensitätsbewertungen abgebildet Bewertungsbereich: Wort-Level-Bewertungen -4 bis 4, Satz-Level-Compound-Bewertungen -1 bis +1 Normalisierungsformel: CSCi=xixi2+αCSC_i = \frac{x_i}{\sqrt{x_i^2 + \alpha}} wobei xix_i die Gesamtsumme der Sentimentbewertungen konstituierender Wörter in Tweet i ist und α=15\alpha=15 der Normalisierungsparameter ist

Sentimentklassifizierungsschwellwerte:

  • Positives Sentiment: Compound-Bewertung > 0,1
  • Negatives Sentiment: Compound-Bewertung < -0,1
  • Neutrales Sentiment: -0,1 ≤ Compound-Bewertung ≤ 0,1

Technische Innovationen

  1. Anwendung von Few-Shot-Learning: Löst die Schwierigkeit der großflächigen Tweet-Annotation, erreicht hohe Genauigkeit mit nur wenigen annotierten Stichproben
  2. Multimodales Analysisframework: Berücksichtigt gleichzeitig Klassifizierung, Sentiment und räumliche Dimensionen
  3. Räumliche Mapping-Strategie: Abbildung geomarkierter Tweets auf U-Bahn-Stationen im Umkreis von 1 Meile für präzise räumliche Analyse
  4. Echtzeitverarbeitungsfähigkeit: Framework-Design unterstützt Echtzeitverarbeitung und -analyse großflächiger Social-Media-Daten

Experimentelle Einrichtung

Datensatz

  • Datensatzname: NYC-U-Bahn-System-bezogene Twitter-Daten
  • Datengröße: 36.000 Tweets (Stichprobe aus 102.530)
  • Zeitraum: Gesamtes Jahr 2022
  • Geografischer Bereich: NYC-U-Bahn-Servicegebiet und erweiterte Bereiche
  • Validierungssatz: 500 manuell annotierte Tweets zur Modellvalidierung

Bewertungsmetriken

  • Klassifizierungsleistung: Precision (Genauigkeit), Recall (Vollständigkeit), F1-Score
  • Sentimentanalyse: Compound-Sentimentbewertung, Sentimentpolaritätsverteilung
  • Räumliche Analyse: Geografische Verteilungs-Heatmaps, regionale Sentimentaggregation

Vergleichsmethoden

  • Benchmark-Vergleich: MTA-Kundenumfrage Herbst 2022
  • Zeitvergleich: Trendveränderungen zwischen MTA-Frühjahrs- und Herbstumfragen

Implementierungsdetails

  • Klassifizierungsmodell: GPT-3.5 Turbo mit Few-Shot-Einstellung von 5 Stichproben pro Kategorie
  • Sentimentanalyse: VADER-Modell ohne Vorverarbeitungsschritte
  • Räumliche Analyse: U-Bahn-Stationen-Mapping-Strategie mit 1-Meilen-Radius

Experimentelle Ergebnisse

Hauptergebnisse

Klassifizierungsleistung

MetrikWert
Precision0,9456
Recall0,9420
F1-Score0,9425

Tweet-Klassifizierungsverteilung

KategorieTweet-AnzahlProzentsatz
Reinigung/Wartung1.6674,6%
Fahrplan/Betrieb6.05016,8%
Sicherheit/Schutz7.70821,5%
Sonstige20.57557,1%

Schlüsselfunde: Sicherheit und Schutz sind das höchste Anliegen (21,5%), gefolgt von fahrplanrelevanten Problemen (16,8%)

Zeittrend-Analyse

  • Beste Zufriedenheitsperiode: März und Sommermonate (Juni-September)
  • Veränderung negativer Tweets: Rückgang von 33% in April-Mai auf 28% in Juni-August
  • Konsistenz mit MTA-Umfrage: Herbstumfrage 2022 zeigt 54% Kundenzufriedenheit mit U-Bahn, 6 Prozentpunkte höher als Frühjahrsumfrage

Räumliche Analyseergebnisse

  • Sicherheitsbedenken konzentriert: Midtown und Finanzdistrikt
  • Fahrplanprobleme prominent: Oberes Manhattan und Queens
  • Anhaltend negatives Feedback: Times Square, Central Park und andere hochfrequentierte Tourismusgebiete
  • Spezifische Sicherheitsprobleme: Upper East Side und East Harlem

Fallstudien

Das Paper präsentiert 8 konkrete Tweet-Beispiele, die die Fähigkeit des Frameworks bei der Verarbeitung komplexer Sentimente (wie Ironie) und präziser Klassifizierung demonstrieren. Beispiele:

  • Negativer Wartungs-Tweet: "Why would you WANT to ride the subway without a mask? It is so stinky" (Bewertung: -0,6651)
  • Positiver Fahrplan-Tweet: Dankbarkeit gegenüber Zugführern für offene Türen (Bewertung: 0,7701)

Verwandte Arbeiten

Sentimentanalyse im öffentlichen Nahverkehr

  • Machine-Learning-Methoden: SVM, Naive Bayes, Entscheidungsbäume, BERT usw.
  • Lexikon-Methoden: SentiWordNet, VADER, TextBlob, Afinn, LIWC usw.
  • Anwendungsfälle: Sentimentanalyse bei Chicago Transit Authority, London Underground System

Social-Media-Daten in Verkehrsforschung

  • T-MAPS-Modell: Raum-Zeit-Modell für NYC-Verkehrseinblicke
  • Singapur-Verkehrssystem: Echtzeit-Stimmungsverfolgung während Spitzenlastzeiten
  • Toronto-Verkehrssystem: Themenklassifizierung von Social-Media-Beiträgen

Themenkategorisierung und Big-Data-Annotationsprobleme

  • Traditionelle Methoden-Einschränkungen: Erfordern große annotierte Datenmengen, mangelnde Generalisierungsfähigkeit
  • Vortrainierte Modell-Vorteile: Few-Shot-Learning-Fähigkeiten großer Sprachmodelle wie GPT und LLaMA
  • Few-Shot-Learning-Anwendungen: Filmkritiken, Produktfeedback, Dialogsystem-Intentionsklassifizierung und andere Bereiche

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Framework-Effektivität: Das vorgeschlagene NLP-Framework kann Tweets präzise klassifizieren und Sentimentintensität messen, mit hoher Konsistenz zu offiziellen Umfrageergebnissen
  2. Kosteneffizienz: Social-Media-Datenanalyse kann als praktikable Alternative oder Ergänzung zu kostspieligen Benutzerumfragen dienen
  3. Räumliche Präzision: Kann Problemkonzentrationspunkte in spezifischen geografischen Bereichen identifizieren und unterstützt präzise Ressourcenallokation
  4. Echtzeitüberwachungsfähigkeit: Bietet kontinuierliche Überwachung der öffentlichen Meinung und datengestützte Entscheidungsunterstützung

Einschränkungen

  1. Datenbias: Social-Media-Nutzer neigen zu jüngeren Benutzern, können möglicherweise nicht alle Fahrgastgruppen vollständig repräsentieren
  2. Geografische Präzision: Geografische Markierungen von Tweets können ungenau sein, 1-Meilen-Mapping-Strategie hat Fehlerquellen
  3. Sprachkomplexität: Ironie, Slang und andere komplexe Sprachausdrücke bleiben eine Herausforderung
  4. Datenschutz und Ethik: Verwendung öffentlicher Social-Media-Daten erfordert sorgfältige Behandlung von Datenschutz- und Ethikfragen

Zukünftige Richtungen

  1. Mehrsprachige Unterstützung: Erweiterung des Frameworks zur Verarbeitung mehrsprachiger Tweet-Daten
  2. Echtzeitverarbeitungsoptimierung: Verbesserung der Echtzeitverarbeitungsfähigkeit für großflächige Daten
  3. Anwendung über Domänen hinweg: Anwendung des Frameworks auf Flughäfen, öffentliche Verkehrsmittel, Parkplätze, Mitfahrgelegenheiten und andere Verkehrsdienste
  4. Tarifpolitik-Analyse: Bewertung der Auswirkungen von Tarifänderungen auf Kundenzufriedenheit

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: Die Kombination von Few-Shot-Learning und VADER-Sentimentanalyse ist innovativ und löst effektiv das Problem großflächiger Annotation
  2. Umfassende Experimentgestaltung: Großflächige Analyse von 36.000 Tweets, Validierung mit 500 manuell annotierten Tweets, Vergleich mit offiziellen MTA-Umfragen
  3. Hoher praktischer Wert: Bietet Verkehrsbetrieben eine kosteneffektive Alternative zur Fahrgastfeedback-Erfassung
  4. Tiefgreifende räumliche Analyse: Geografische Dimensionen der Sentimentanalyse bieten starke Unterstützung für präzise Interventionen
  5. Hohe Ergebnisverlässlichkeit: Konsistenz mit offiziellen MTA-Umfrageergebnissen erhöht die Glaubwürdigkeit des Frameworks

Mängel

  1. Begrenzte Generalisierungsfähigkeit: Validierung nur im NYC-U-Bahn-System, Anwendbarkeit auf andere Städte und Verkehrssysteme erfordert weitere Verifizierung
  2. Zeitliche Einschränkung: Nur Analyse von 2022-Daten, unzureichende Langzeittrend-Analyse
  3. Technologische Abhängigkeit: Abhängigkeit von kommerziellen APIs (GPT-3.5), möglicherweise Kosten- und Verfügbarkeitsprobleme
  4. Einzelne Bewertungsmetriken: Hauptsächlich auf Vergleich mit offiziellen Umfragen angewiesen, Validierung aus mehreren Dimensionen fehlt

Auswirkungen

  1. Akademischer Beitrag: Bietet neues methodisches Framework für Social-Media-Datenanalyse im Verkehrsbereich
  2. Praktischer Wert: Bietet globalen Verkehrsbetrieben umsetzbare technische Lösungen
  3. Politische Implikationen: Unterstützt datengestützte Verkehrspolitikgestaltung und Ressourcenallokationsoptimierung
  4. Domänenübergreifende Inspiration: Methode ist auf Fahrgastfeedback-Analyse in anderen öffentlichen Dienstleistungsbereichen übertragbar

Anwendungsszenarien

  1. Verkehrssystemoptimierung: Verbesserung von U-Bahn-, Bus-, Leichtbahn- und anderen öffentlichen Verkehrssystemen
  2. Stadtplanung: Verkehrsinfrastrukturplanung basierend auf Fahrgastfeedback
  3. Notfallreaktion: Überwachung der öffentlichen Stimmung bei Verkehrsunfällen oder Serviceunterbrechungen
  4. Politikbewertung: Echtzeitbewertung der Implementierungseffektivität von Verkehrspolitik
  5. Geschäftsanwendung: Fahrgasterlebnis-Analyse für Mitfahrgelegenheiten, Taxidienste und andere kommerzielle Verkehrsdienste

Literaturverzeichnis

Das Paper zitiert 64 relevante Literaturquellen, die Sentimentanalyse, Verarbeitung natürlicher Sprache, Verkehrsforschung, Social-Media-Analyse und andere Bereiche abdecken und eine solide theoretische Grundlage und methodische Unterstützung für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das fortgeschrittene NLP-Technologien erfolgreich auf praktische städtische Verkehrsprobleme anwendet. Das Paper zeichnet sich durch methodische Innovation, umfassende Experimente und verlässliche Ergebnisse aus und hat bedeutende akademische und praktische Werte. Trotz einiger Einschränkungen bietet es wertvolle technische Wege und praktische Erfahrungen für die digitale Transformation im Verkehrsbereich.