Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework
Das, Prajapati, Zhang et al.
Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.
academic
الاستفادة من بيانات تويتر لتحليل المشاعر حول ملاحظات مستخدمي النقل: إطار عمل معالجة اللغة الطبيعية
تستهلك الاستطلاعات التقليدية للنقل العام موارد كبيرة وتستغرق وقتاً طويلاً، مما يحد من قدرتها على معالجة المشاكل في مواقع محددة بفعالية. تقترح هذه الدراسة إطار عمل قائم على معالجة اللغة الطبيعية يستفيد من البيانات الفورية لتويتر (الآن X) كأداة فحص أولي لتحسين وتوجيه استطلاعات هيئات النقل العام. يعتمد الإطار على منهج ثنائي المراحل: يستخدم التعلم بعدد قليل من الأمثلة (Few-Shot Learning) لتصنيف التغريدات إلى فئات مثل السلامة والموثوقية والصيانة، بينما يقيّم نموذج تحليل المشاعر القائم على القاموس القطبية العاطفية (إيجابية وسلبية ومحايدة) والشدة. بالإضافة إلى ذلك، يقوم التحليل المكاني بتعيين اتجاهات المشاعر إلى مناطق جغرافية محددة، مما يمكّن هيئات النقل العام من تحديد أولويات المناطق التي تواجه مشاكل بدقة.
قيود الاستطلاعات التقليدية: استطلاعات ملاحظات مستخدمي النقل العام مكلفة وتستغرق وقتاً طويلاً وتتمتع بتغطية جغرافية محدودة. تُظهر الدراسات أن متوسط التكلفة لكل فرد للاستطلاعات التي تجريها هيئات النقل يبلغ حوالي 36 دولاراً، والتكلفة الإجمالية المتوسطة للاستطلاع متوسط الحجم حوالي 350,000 دولار.
إمكانات بيانات وسائل التواصل الاجتماعي: يمتلك تويتر أكثر من 3.3 مليار مستخدم نشط، ينتجون حوالي 500 مليون تغريدة يومياً، مما يوفر فرصة فريدة للحصول على رؤى واسعة النطاق وفورية حول مشاعر وتجارب المستخدمين.
الحاجة إلى الدقة الجغرافية: يمكن لبيانات وسائل التواصل الاجتماعي أن تكشف عن المشاكل والمشاعر في مواقع محددة، مما يمكّن هيئات النقل العام من تحديد الاحتياجات والتحديات الفريدة للمجتمعات المختلفة.
المدخلات: نصوص تغريدات تويتر والطوابع الزمنية والعلامات الجغرافية
المخرجات: تصنيف فئة التغريدة والقطبية العاطفية وتقييم الشدة وتحليل التوزيع المكاني
القيود: يجب أن تكون التغريدات ذات صلة بنظام النقل العام، وتتطلب معالجة اللغة غير الرسمية والتعبيرات الخاصة بوسائل التواصل الاجتماعي
المبدأ الأساسي: يعتمد على قاموس المشاعر المُنشأ مسبقاً، يقوم بتعيين الميزات المعجمية إلى تقييمات شدة المشاعر
نطاق التقييم: تقييمات على مستوى الكلمة من -4 إلى 4، تقييم مركب على مستوى الجملة من -1 إلى +1
صيغة التطبيع:
CSCi=xi2+αxi
حيث xi هو مجموع تقييمات المشاعر للكلمات المكونة في التغريدة i، وα=15 هو معامل التطبيع
تستشهد الورقة البحثية بـ 64 مرجعاً ذا صلة، تغطي مجالات متعددة مثل تحليل المشاعر ومعالجة اللغة الطبيعية وأبحاث النقل وتحليل وسائل التواصل الاجتماعي، مما يوفر أساساً نظرياً قوياً ودعماً منهجياً لهذا البحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة في البحث التطبيقي، نجحت في تطبيق تقنيات معالجة اللغة الطبيعية المتقدمة على مشاكل النقل الحضري الفعلية. تتمتع الورقة بابتكار منهجي وتجارب شاملة ونتائج موثوقة، مع قيمة أكاديمية وعملية مهمة. على الرغم من وجود بعض القيود، فإنها توفر مسار تقني وخبرة عملية قيمة للتحول الرقمي في مجال النقل.