2025-11-24T02:19:18.891948

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework

Das, Prajapati, Zhang et al.

Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.

academic

Twitter-Daten für Sentimentanalyse von Fahrgastfeedback nutzen: Ein NLP-Framework

Grundinformationen

Paper-ID: 2310.07086
Titel: Urban Echoes: Decoding Transit Riders' Sentiments on Social Media for Smarter Mobility
Autoren: Adway Das, Abhishek Kumar Prajapati, Pengxiang Zhang, Mukund Srinath, Andisheh Ranjbari
Institutionen: The Pennsylvania State University, Optym Inc.
Klassifizierung: cs.AI cs.SI
Veröffentlichungsdatum: Oktober 2023 (arXiv v2: Oktober 2025)
Paper-Link: https://arxiv.org/abs/2310.07086v2

Zusammenfassung

Herkömmliche Fahrgastbefragungen erfordern erhebliche Ressourcen und sind zeitaufwändig, was ihre Fähigkeit zur effektiven Lösung ortsspezifischer Probleme einschränkt. Diese Forschung präsentiert ein NLP-basiertes Framework, das Echtzeitdaten von Twitter (jetzt X) als Vorauswahlwerkzeug nutzt, um Befragungen von Verkehrsbetrieben zu optimieren und gezielt einzusetzen. Das Framework verfolgt einen zweistufigen Ansatz: Few-Shot-Learning klassifiziert Tweets in Kategorien wie Sicherheit, Zuverlässigkeit und Wartung, während ein lexikongestütztes Sentimentanalyseverfahren die Sentimentpolarität (positiv, negativ, neutral) und -intensität bewertet. Darüber hinaus ermöglicht räumliche Analyse die Abbildung von Sentimenttrends auf spezifische geografische Regionen, wodurch Verkehrsbetriebe Problemzonen präzise identifizieren und priorisieren können.

Forschungshintergrund und Motivation

Kernprobleme

Einschränkungen herkömmlicher Befragungen: Fahrgastfeedback-Befragungen sind kostspielig, zeitaufwändig und geografisch begrenzt. Forschungen zeigen, dass die Kosten pro Person für Verkehrsbefragungen etwa 36 US-Dollar betragen, wobei die durchschnittlichen Gesamtkosten für mittlere Befragungen etwa 350.000 US-Dollar ausmachen.
Potenzial von Social-Media-Daten: Twitter hat über 3,3 Milliarden aktive Nutzer und generiert täglich etwa 500 Millionen Tweets, was einzigartige Möglichkeiten für großflächige Echtzeiteinblicke in Fahrgastgefühle und -erfahrungen bietet.
Anforderung geografischer Präzision: Social-Media-Daten können Probleme und Gefühle an spezifischen Orten offenbaren, wodurch Verkehrsbetriebe die einzigartigen Bedürfnisse und Herausforderungen verschiedener Gemeinden identifizieren können.

Forschungsbedeutung

Ressourcenoptimierung: Durch Vorauswahlfilterung mit Social-Media-Daten können Befragungskosten erheblich gesenkt und die Effizienz erhöht werden
Echtzeitüberwachung: Ermöglicht kontinuierliche Überwachung der öffentlichen Meinung für Entscheidungsfindung
Räumliche Präzision: Identifizierung hochrelevanter Bereiche für gezielte Interventionen
Verkehrsgerechtigkeit: Sicherung des Zugangs aller Gemeinden zu sicheren und zuverlässigen Verkehrsoptionen

Kernbeiträge

Entwicklung eines innovativen NLP-Frameworks: Multifacettierter Ansatz, der Few-Shot-Learning und VADER-Sentimentanalyse kombiniert
Realisierung präziser Tweet-Klassifizierung: Klassifizierung von Tweets in servicebezogene Kategorien wie Wartung, Sicherheit und Fahrplan
Bereitstellung räumlich-zeitlicher Analyse: Identifizierung wiederholter Beschwerden oder Anliegen an spezifischen geografischen Orten
Validierung der Framework-Effektivität: Verifizierung durch Fallstudie des NYC-U-Bahn-Systems und Vergleich mit offiziellen MTA-Befragungen
Konstruktion einer skalierbaren Lösung: Anwendbar auf verschiedene Regionen, Zeiträume und mehrere Dienstanbieter

Methodische Erläuterung

Aufgabendefinition

Eingabe: Twitter-Tweet-Text, Zeitstempel, geografische Markierungen Ausgabe: Tweet-Kategorienklassifizierung, Sentimentpolarität und Intensitätsbewertung, räumliche Verteilungsanalyse Einschränkungen: Tweets müssen verkehrssystembezogen sein, Verarbeitung informeller Sprache und sozialmediaspezifischer Ausdrücke erforderlich

Modellarchitektur

1. Datenerfassung und Vorverarbeitung

Datenquellen: Erfassung über Twitter API und snscrape-Tool
Suchstrategie: Verwendung von 10 eindeutigen Suchbegriffen ("MTA", "NYC SUBWAY" usw.) und 12 relevanten Standorten
Filterung: Entfernung doppelter Tweets und eingebetteter Links
Datengröße: Zufallsstichprobe von 36.000 Tweets aus 102.530 Tweets zur Analyse

2. Few-Shot-Learning-Klassifizierungsmodul

Modellauswahl: OpenAI GPT-3.5 Turbo Klassifizierungskategorien:

Reinigung und Wartung: Diskussionen über Reinigung und Wartungsprobleme des U-Bahn-Systems
Fahrplan und Betrieb: Betrifft U-Bahn-Fahrpläne, Verspätungen, Pünktlichkeit usw.
Sicherheit und Schutz: Hebt Bedenken bezüglich Fahrgastsicherheit und Schutz hervor
Sonstige: Tweets ohne Bezug zur Fahrgasterfahrung des Verkehrssystems

Few-Shot-Einstellung: Verwendung von 5 Stichproben pro Kategorie für das Training, Ausgleich zwischen Leistung und Ressourceneffizienz

3. VADER-Sentimentanalysemodul

Kernprinzip: Basierend auf vorgefertigtem Sentimentlexikon werden lexikalische Merkmale auf Sentimentintensitätsbewertungen abgebildet Bewertungsbereich: Wort-Level-Bewertungen -4 bis 4, Satz-Level-Compound-Bewertungen -1 bis +1 Normalisierungsformel: $CSC_i = \frac{x_i}{\sqrt{x_i^2 + \alpha}}$ wobei $x_i$ die Gesamtsumme der Sentimentbewertungen konstituierender Wörter in Tweet i ist und $\alpha=15$ der Normalisierungsparameter ist

Sentimentklassifizierungsschwellwerte:

Positives Sentiment: Compound-Bewertung > 0,1
Negatives Sentiment: Compound-Bewertung < -0,1
Neutrales Sentiment: -0,1 ≤ Compound-Bewertung ≤ 0,1

Technische Innovationen

Anwendung von Few-Shot-Learning: Löst die Schwierigkeit der großflächigen Tweet-Annotation, erreicht hohe Genauigkeit mit nur wenigen annotierten Stichproben
Multimodales Analysisframework: Berücksichtigt gleichzeitig Klassifizierung, Sentiment und räumliche Dimensionen
Räumliche Mapping-Strategie: Abbildung geomarkierter Tweets auf U-Bahn-Stationen im Umkreis von 1 Meile für präzise räumliche Analyse
Echtzeitverarbeitungsfähigkeit: Framework-Design unterstützt Echtzeitverarbeitung und -analyse großflächiger Social-Media-Daten

Experimentelle Einrichtung

Datensatz

Datensatzname: NYC-U-Bahn-System-bezogene Twitter-Daten
Datengröße: 36.000 Tweets (Stichprobe aus 102.530)
Zeitraum: Gesamtes Jahr 2022
Geografischer Bereich: NYC-U-Bahn-Servicegebiet und erweiterte Bereiche
Validierungssatz: 500 manuell annotierte Tweets zur Modellvalidierung

Bewertungsmetriken

Klassifizierungsleistung: Precision (Genauigkeit), Recall (Vollständigkeit), F1-Score
Sentimentanalyse: Compound-Sentimentbewertung, Sentimentpolaritätsverteilung
Räumliche Analyse: Geografische Verteilungs-Heatmaps, regionale Sentimentaggregation

Vergleichsmethoden

Benchmark-Vergleich: MTA-Kundenumfrage Herbst 2022
Zeitvergleich: Trendveränderungen zwischen MTA-Frühjahrs- und Herbstumfragen

Implementierungsdetails

Klassifizierungsmodell: GPT-3.5 Turbo mit Few-Shot-Einstellung von 5 Stichproben pro Kategorie
Sentimentanalyse: VADER-Modell ohne Vorverarbeitungsschritte
Räumliche Analyse: U-Bahn-Stationen-Mapping-Strategie mit 1-Meilen-Radius

Experimentelle Ergebnisse

Hauptergebnisse

Klassifizierungsleistung

Metrik	Wert
Precision	0,9456
Recall	0,9420
F1-Score	0,9425

Tweet-Klassifizierungsverteilung

Kategorie	Tweet-Anzahl	Prozentsatz
Reinigung/Wartung	1.667	4,6%
Fahrplan/Betrieb	6.050	16,8%
Sicherheit/Schutz	7.708	21,5%
Sonstige	20.575	57,1%

Schlüsselfunde: Sicherheit und Schutz sind das höchste Anliegen (21,5%), gefolgt von fahrplanrelevanten Problemen (16,8%)

Zeittrend-Analyse

Beste Zufriedenheitsperiode: März und Sommermonate (Juni-September)
Veränderung negativer Tweets: Rückgang von 33% in April-Mai auf 28% in Juni-August
Konsistenz mit MTA-Umfrage: Herbstumfrage 2022 zeigt 54% Kundenzufriedenheit mit U-Bahn, 6 Prozentpunkte höher als Frühjahrsumfrage

Räumliche Analyseergebnisse

Sicherheitsbedenken konzentriert: Midtown und Finanzdistrikt
Fahrplanprobleme prominent: Oberes Manhattan und Queens
Anhaltend negatives Feedback: Times Square, Central Park und andere hochfrequentierte Tourismusgebiete
Spezifische Sicherheitsprobleme: Upper East Side und East Harlem

Fallstudien

Das Paper präsentiert 8 konkrete Tweet-Beispiele, die die Fähigkeit des Frameworks bei der Verarbeitung komplexer Sentimente (wie Ironie) und präziser Klassifizierung demonstrieren. Beispiele:

Negativer Wartungs-Tweet: "Why would you WANT to ride the subway without a mask? It is so stinky" (Bewertung: -0,6651)
Positiver Fahrplan-Tweet: Dankbarkeit gegenüber Zugführern für offene Türen (Bewertung: 0,7701)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Framework-Effektivität: Das vorgeschlagene NLP-Framework kann Tweets präzise klassifizieren und Sentimentintensität messen, mit hoher Konsistenz zu offiziellen Umfrageergebnissen
Kosteneffizienz: Social-Media-Datenanalyse kann als praktikable Alternative oder Ergänzung zu kostspieligen Benutzerumfragen dienen
Räumliche Präzision: Kann Problemkonzentrationspunkte in spezifischen geografischen Bereichen identifizieren und unterstützt präzise Ressourcenallokation
Echtzeitüberwachungsfähigkeit: Bietet kontinuierliche Überwachung der öffentlichen Meinung und datengestützte Entscheidungsunterstützung

Einschränkungen

Datenbias: Social-Media-Nutzer neigen zu jüngeren Benutzern, können möglicherweise nicht alle Fahrgastgruppen vollständig repräsentieren
Geografische Präzision: Geografische Markierungen von Tweets können ungenau sein, 1-Meilen-Mapping-Strategie hat Fehlerquellen
Sprachkomplexität: Ironie, Slang und andere komplexe Sprachausdrücke bleiben eine Herausforderung
Datenschutz und Ethik: Verwendung öffentlicher Social-Media-Daten erfordert sorgfältige Behandlung von Datenschutz- und Ethikfragen

Zukünftige Richtungen

Mehrsprachige Unterstützung: Erweiterung des Frameworks zur Verarbeitung mehrsprachiger Tweet-Daten
Echtzeitverarbeitungsoptimierung: Verbesserung der Echtzeitverarbeitungsfähigkeit für großflächige Daten
Anwendung über Domänen hinweg: Anwendung des Frameworks auf Flughäfen, öffentliche Verkehrsmittel, Parkplätze, Mitfahrgelegenheiten und andere Verkehrsdienste
Tarifpolitik-Analyse: Bewertung der Auswirkungen von Tarifänderungen auf Kundenzufriedenheit

Tiefgreifende Bewertung

Stärken

Starke methodische Innovation: Die Kombination von Few-Shot-Learning und VADER-Sentimentanalyse ist innovativ und löst effektiv das Problem großflächiger Annotation
Umfassende Experimentgestaltung: Großflächige Analyse von 36.000 Tweets, Validierung mit 500 manuell annotierten Tweets, Vergleich mit offiziellen MTA-Umfragen
Hoher praktischer Wert: Bietet Verkehrsbetrieben eine kosteneffektive Alternative zur Fahrgastfeedback-Erfassung
Tiefgreifende räumliche Analyse: Geografische Dimensionen der Sentimentanalyse bieten starke Unterstützung für präzise Interventionen
Hohe Ergebnisverlässlichkeit: Konsistenz mit offiziellen MTA-Umfrageergebnissen erhöht die Glaubwürdigkeit des Frameworks

Mängel

Begrenzte Generalisierungsfähigkeit: Validierung nur im NYC-U-Bahn-System, Anwendbarkeit auf andere Städte und Verkehrssysteme erfordert weitere Verifizierung
Zeitliche Einschränkung: Nur Analyse von 2022-Daten, unzureichende Langzeittrend-Analyse
Technologische Abhängigkeit: Abhängigkeit von kommerziellen APIs (GPT-3.5), möglicherweise Kosten- und Verfügbarkeitsprobleme
Einzelne Bewertungsmetriken: Hauptsächlich auf Vergleich mit offiziellen Umfragen angewiesen, Validierung aus mehreren Dimensionen fehlt

Auswirkungen

Akademischer Beitrag: Bietet neues methodisches Framework für Social-Media-Datenanalyse im Verkehrsbereich
Praktischer Wert: Bietet globalen Verkehrsbetrieben umsetzbare technische Lösungen
Politische Implikationen: Unterstützt datengestützte Verkehrspolitikgestaltung und Ressourcenallokationsoptimierung
Domänenübergreifende Inspiration: Methode ist auf Fahrgastfeedback-Analyse in anderen öffentlichen Dienstleistungsbereichen übertragbar

Anwendungsszenarien

Verkehrssystemoptimierung: Verbesserung von U-Bahn-, Bus-, Leichtbahn- und anderen öffentlichen Verkehrssystemen
Stadtplanung: Verkehrsinfrastrukturplanung basierend auf Fahrgastfeedback
Notfallreaktion: Überwachung der öffentlichen Stimmung bei Verkehrsunfällen oder Serviceunterbrechungen
Politikbewertung: Echtzeitbewertung der Implementierungseffektivität von Verkehrspolitik
Geschäftsanwendung: Fahrgasterlebnis-Analyse für Mitfahrgelegenheiten, Taxidienste und andere kommerzielle Verkehrsdienste

Literaturverzeichnis

Das Paper zitiert 64 relevante Literaturquellen, die Sentimentanalyse, Verarbeitung natürlicher Sprache, Verkehrsforschung, Social-Media-Analyse und andere Bereiche abdecken und eine solide theoretische Grundlage und methodische Unterstützung für diese Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das fortgeschrittene NLP-Technologien erfolgreich auf praktische städtische Verkehrsprobleme anwendet. Das Paper zeichnet sich durch methodische Innovation, umfassende Experimente und verlässliche Ergebnisse aus und hat bedeutende akademische und praktische Werte. Trotz einiger Einschränkungen bietet es wertvolle technische Wege und praktische Erfahrungen für die digitale Transformation im Verkehrsbereich.