The Web has drastically simplified our access to knowledge and learning, and fact-checking online resources has become a part of our daily routine. Studying online knowledge consumption is thus critical for understanding human behavior and informing the design of future platforms. In this Chapter, we approach this subject by describing the navigation patterns of the readers of Wikipedia, the world's largest platform for open knowledge. We provide a comprehensive overview of what is known about the three steps that characterize navigation on Wikipedia: (1) how readers reach the platform, (2) how readers navigate the platform, and (3) how readers leave the platform. Finally, we discuss open problems and opportunities for future research in this field.
- पेपर ID: 2501.00939
- शीर्षक: Navigating Knowledge: Patterns and Insights from Wikipedia Consumption
- लेखक: Tiziano Piccardi (स्टैनफोर्ड विश्वविद्यालय), Robert West (EPFL)
- वर्गीकरण: cs.CY (कंप्यूटर और समाज), cs.DL (डिजिटल पुस्तकालय), cs.HC (मानव-कंप्यूटर इंटरैक्शन)
- प्रकाशन प्रारूप: कम्प्यूटेशनल सोशल साइंस की हैंडबुक अध्याय (Edward Elgar Publishing Ltd, 2025)
- पेपर लिंक: https://arxiv.org/abs/2501.00939
वेब प्रौद्योगिकी ने ज्ञान प्राप्त करने और सीखने के तरीकों को बहुत सरल बना दिया है, और ऑनलाइन संसाधनों की तथ्य-जांच दैनंदिन जीवन का एक हिस्सा बन गई है। ऑनलाइन ज्ञान खपत का अनुसंधान मानव व्यवहार को समझने और भविष्य के प्लेटफॉर्म डिजाइन को निर्देशित करने के लिए महत्वपूर्ण है। यह अध्याय विश्व के सबसे बड़े खुले ज्ञान प्लेटफॉर्म विकिपीडिया के पाठकों के नेविगेशन पैटर्न का वर्णन करके इस विषय की खोज करता है, विकिपीडिया नेविगेशन के तीन मुख्य चरणों का व्यापक अवलोकन प्रदान करता है: (1) पाठक प्लेटफॉर्म तक कैसे पहुंचते हैं, (2) पाठक प्लेटफॉर्म के भीतर कैसे नेविगेट करते हैं, (3) पाठक प्लेटफॉर्म से कैसे निकलते हैं, और इस क्षेत्र में खुले प्रश्नों और भविष्य के अनुसंधान अवसरों पर चर्चा करता है।
यह अनुसंधान मानव ऑनलाइन ज्ञान खपत व्यवहार को गहराई से समझने का लक्ष्य रखता है, विशेष रूप से विकिपीडिया पर उपयोगकर्ता नेविगेशन पैटर्न पर ध्यान केंद्रित करता है। यह अनुसंधान महत्वपूर्ण है क्योंकि:
- मानव सूचना-खोज की मूलभूत आवश्यकता: मनुष्य को "सूचना-भक्षक" (informavores) माना जाता है, ज्ञान-खोज मानव व्यवहार की एक मूल प्रक्रिया है
- डिजिटल युग में ज्ञान प्राप्ति में परिवर्तन: प्राचीन विश्वकोशों से आधुनिक ऑनलाइन प्लेटफॉर्म तक, ज्ञान प्राप्ति के तरीकों में मौलिक परिवर्तन हुआ है
- प्लेटफॉर्म डिजाइन के लिए मार्गदर्शन की आवश्यकता: उपयोगकर्ता व्यवहार को समझना अधिक प्रभावी सूचना वातावरण डिजाइन को निर्देशित कर सकता है
- मौलिक विज्ञान मूल्य: जीवविज्ञानी, मनोवैज्ञानिक, नृविज्ञानी आदि को मानव कार्यप्रणाली में मूलभूत अंतर्दृष्टि प्रदान करता है
- अनुप्रयुक्त विज्ञान मूल्य: अधिक प्रभावी उपकरण और सूचना वातावरण डिजाइन करने में सहायता करता है, जिससे मनुष्य सूचना की बाढ़ में प्रासंगिक ज्ञान आसानी से खोज सकें
- सर्वेक्षण और सोच-समझ अनुसंधान: संज्ञानात्मक पूर्वाग्रह से ग्रस्त, मानव आत्मचिंतन क्षमता सीमित
- प्रयोगशाला प्रयोग: छोटे नमूने और पूर्वाग्रह (जैसे विश्वविद्यालय के छात्र), सांख्यिकीय शक्ति और प्रतिनिधित्व की कमी
- डेटा पहुंच प्रतिबंध: मूल सर्वर लॉग को संवेदनशील जानकारी के विशेषाधिकार प्राप्त पहुंच की आवश्यकता
- विकिपीडिया उपयोगकर्ता व्यवहार के लिए व्यापक लक्षण वर्णन ढांचा प्रदान किया: "आगमन-नेविगेशन-प्रस्थान" तीन-चरण मॉडल के चारों ओर व्यवस्थित विश्लेषण
- बहु-स्तरीय उपयोगकर्ता नेविगेशन पैटर्न का खुलासा किया: प्राकृतिक नेविगेशन और लक्ष्य-उन्मुख नेविगेशन की विस्तृत विशेषताएं
- समय और विषय-संबंधित खपत नियमितताएं खोजीं: दिन-रात चक्र और विषय वरीयताओं का पढ़ने के व्यवहार पर प्रभाव प्रदर्शित किया
- वेब गेटवे के रूप में विकिपीडिया के आर्थिक मूल्य को परिमाणित किया: बाहरी लिंक ट्रैफिक के आर्थिक मूल्य का अनुमान प्रति माह $7-13 मिलियन
- बहु-डेटा स्रोत सत्यापन अनुसंधान विधि स्थापित की: सर्वर लॉग, क्लिकस्ट्रीम डेटा और नेविगेशन गेम डेटा को जोड़ा
- सर्वर लॉग: समय मुहर, भौगोलिक स्थान, उपयोगकर्ता पहचानकर्ता आदि विस्तृत जानकारी युक्त
- सार्वजनिक क्लिकस्ट्रीम डेटा: विकिमीडिया फाउंडेशन द्वारा मासिक प्रकाशित लेख-अंतर रूपांतरण गणना
- नेविगेशन गेम डेटा: Wikispeedia और TheWikiGame के माध्यम से संग्रहीत लक्ष्य-उन्मुख नेविगेशन ट्रैजेक्टरी
- गोपनीयता सुरक्षा: उपयोगकर्ता गोपनीयता की सुरक्षा के लिए एकत्रित और फ़िल्टर किए गए क्लिकस्ट्रीम डेटा का उपयोग
- सत्र परिभाषा: उपयोगकर्ता सत्र परिभाषित करने के लिए दो विधियां अपनाई गईं
- पढ़ने का क्रम: 1 घंटे से कम समय अंतराल वाले लगातार पृष्ठ लोड
- नेविगेशन ट्री: HTTP referrer जानकारी के आधार पर जुड़ी पृष्ठ पहुंच वृक्ष संरचना
- आगमन चरण: ट्रैफिक स्रोत, समय पैटर्न, डिवाइस प्रकार का विश्लेषण
- नेविगेशन चरण: आंतरिक लिंक कूद, सत्र लंबाई, विषय विकास का अनुसंधान
- प्रस्थान चरण: बाहरी लिंक क्लिक, संदर्भ इंटरैक्शन, आर्थिक मूल्य का मूल्यांकन
- बहु-आयामी विशेषता विश्लेषण: समय, भूगोल, विषय, डिवाइस आदि कई आयामों को जोड़ता है
- मशीन लर्निंग मॉडल अनुप्रयोग: उपयोगकर्ता व्यवहार पैटर्न की भविष्यवाणी के लिए लॉजिस्टिक रिग्रेशन का उपयोग
- सिमेंटिक दूरी गणना: WikiPDA आदि विधियों के माध्यम से लेखों के बीच सिमेंटिक समानता की गणना
- अंग्रेजी विकिपीडिया: 6 मिलियन से अधिक लेख, 60 मिलियन बाहरी लिंक
- समय अवधि: 2019 आदि कई समय अवधि के डेटा पर आधारित
- उपयोगकर्ता पैमाना: प्रति माह लाखों उपयोगकर्ताओं के नेविगेशन ट्रैजेक्टरी
- क्लिक-थ्रू दर (CTR): बाहरी लिंक की क्लिक पास-थ्रू दर
- सत्र लंबाई: उपयोगकर्ता एकल पहुंच में पृष्ठों की संख्या
- रूपांतरण संभावना: पृष्ठों के बीच रूपांतरण की संभावना वितरण
- सिमेंटिक दूरी: लेखों के बीच विषय प्रासंगिकता माप
- यादृच्छिक चलना मॉडल: उपयोगकर्ता नेविगेशन व्यवहार के लिए बेंचमार्क तुलना
- डिवाइस प्रकार तुलना: डेस्कटॉप बनाम मोबाइल व्यवहार अंतर
- क्रॉस-भाषा तुलना: विभिन्न भाषा संस्करण विकिपीडिया के व्यवहार पैटर्न
- खोज इंजन प्रभुत्व: 78% बाहरी ट्रैफिक खोज इंजन से आता है, मुख्य रूप से Google
- सोशल मीडिया योगदान: 1.5% बाहरी ट्रैफिक सोशल प्लेटफॉर्म से आता है (Facebook 15.6%, Reddit 9.6%)
- अनिर्दिष्ट स्रोत: लगभग 20% अनुरोधों का कोई स्पष्ट स्रोत नहीं है, संभवतः ब्राउज़र इतिहास, बुकमार्क आदि से आते हैं
- दिन-रात चक्र: उपयोगकर्ता पहुंच स्पष्ट दिन-रात आवधिकता प्रदर्शित करती है
- कार्य समय वरीयता: कार्य समय में शिक्षा और STEM सामग्री अधिक खपत, शाम को मनोरंजन सामग्री की ओर झुकाव
- अंतर्राष्ट्रीय अंतर: विभिन्न देशों के पहुंच पैटर्न सामाजिक-सांस्कृतिक पृष्ठभूमि अंतर को प्रतिबिंबित करते हैं
- छोटे सत्र प्रमुख: 78% नेविगेशन सत्र केवल एकल पृष्ठ लोड युक्त
- तेजी से रूपांतरण: पृष्ठों के बीच रूपांतरण माध्यिका समय 74 सेकंड
- बाहरी नेविगेशन बार-बार: 35% पृष्ठ रूपांतरण बाहरी नेविगेशन के माध्यम से
- सिमेंटिक सामंजस्य: उपयोगकर्ता समान विषयों के बीच नेविगेट करने की प्रवृत्ति रखते हैं, लेकिन यादृच्छिक चलने की तुलना में शुरुआती विषय से धीमी गति से विचलित होते हैं
- सूचना बॉक्स लिंक सबसे सक्रिय: प्रति 110 प्रदर्शन 1 क्लिक
- संदर्भ इंटरैक्शन कम: प्रति 3000 प्रदर्शन 1 से कम क्लिक
- मोबाइल भागीदारी कम: डेस्कटॉप संदर्भ क्लिक दर मोबाइल का 4 गुना से अधिक
- डिवाइस प्रकार: डेस्कटॉप उपयोगकर्ता लंबे सत्र की ओर झुकते हैं
- शुरुआती विषय: मनोरंजन लेखों से शुरू किए गए सत्र लंबे होते हैं, STEM लेख उपयोगकर्ता होमपेज पर रुकने की अधिक संभावना रखते हैं
- लेख गुणवत्ता: कम गुणवत्ता वाले लेख नेविगेशन को समाप्त करने की अधिक संभावना रखते हैं
- गुणवत्ता में गिरावट प्रवृत्ति: नेविगेशन प्रक्रिया में लेख गुणवत्ता में गिरावट की प्रवृत्ति
- लोकप्रियता परिवर्तन: उपयोगकर्ता लोकप्रिय लेखों से धीरे-धीरे अल्पसंख्यक सामग्री की ओर बढ़ते हैं
- सिमेंटिक प्रसार: विषय क्रमिक रूप से विचलित होता है लेकिन सापेक्ष सामंजस्य बनाए रखता है
- बाहरी ट्रैफिक मूल्य: सूचना बॉक्स लिंक बाहरी वेबसाइटों को लाए गए ट्रैफिक का मूल्य प्रति माह $7-13 मिलियन
- उच्च-मूल्य क्षेत्र: व्यावसायिक और जीवनी लेख सबसे अधिक मूल्यवान ट्रैफिक उत्पन्न करते हैं
- खोज इंजन प्रतिस्थापन: विकिपीडिया खोज इंजन द्वारा पूरी न की जा सकने वाली नेविगेशन आवश्यकताओं के लिए समाधान प्रदान करता है
- सूचना-भक्षण सिद्धांत: मनुष्य सूचना गंध का पालन करके आवश्यक सामग्री खोजते हैं
- संज्ञानात्मक भार सिद्धांत: उपयोगकर्ता कम संज्ञानात्मक लागत वाले पथ चुनने की प्रवृत्ति रखते हैं
- पारंपरिक वेब व्यवहार अनुसंधान: पुनः-पहुंच पैटर्न, ब्राउजिंग पथ विश्लेषण
- खोज इंजन निर्भरता: विकिपीडिया और Google का पारस्परिक निर्भरता संबंध
- संपादन बनाम पढ़ने का व्यवहार: उत्पादन और खपत के बीच अंतर
- बहु-भाषा तुलनात्मक अनुसंधान: विभिन्न भाषा संस्करणों के उपयोग पैटर्न अंतर
- विकिपीडिया विविध आवश्यकताओं को पूरा करता है: प्लेटफॉर्म मनोरंजन से शैक्षणिक अनुसंधान तक विभिन्न सूचना आवश्यकताओं की सेवा करता है
- गुणवत्ता नेविगेशन निर्णयों को संचालित करती है: लेख गुणवत्ता उपयोगकर्ता के नेविगेशन जारी रखने को प्रभावित करने वाला मुख्य कारक है
- सामाजिक सामग्री अधिक ध्यान आकर्षित करती है: उपयोगकर्ता व्यक्तिगत जीवनी और सामाजिक घटनाओं से संबंधित सामग्री पर अधिक ध्यान देते हैं
- प्लेटफॉर्म गेटवे मूल्य महत्वपूर्ण है: विकिपीडिया वेब इकोसिस्टम का एक महत्वपूर्ण प्रवेश द्वार है जिसका विशाल आर्थिक मूल्य है
- भाषा संस्करण सीमाएं: मुख्य रूप से अंग्रेजी विकिपीडिया पर ध्यान केंद्रित, अन्य भाषा संस्करणों का अनुसंधान सीमित
- डेटा पहुंच प्रतिबंध: संपूर्ण उपयोगकर्ता व्यवहार विश्लेषण के लिए अभी भी विशेषाधिकार प्राप्त डेटा पहुंच की आवश्यकता है
- कारण संबंध अनुमान: अवलोकनात्मक डेटा स्पष्ट कारण संबंध स्थापित करना मुश्किल है
- गतिशील परिवर्तन: उपयोगकर्ता व्यवहार पैटर्न समय और तकनीकी विकास के साथ बदल सकते हैं
- क्रॉस-भाषा व्यवहार तुलना: बहु-भाषा संस्करणों की तुलनात्मक अनुसंधान में विस्तार
- व्यक्तिगतकृत सिफारिश प्रणाली: उपयोगकर्ता व्यवहार पैटर्न के आधार पर सिफारिश एल्गोरिदम डिजाइन करना
- संपादन व्यवहार एकीकरण: संपादन और पढ़ने के व्यवहार का व्यापक विश्लेषण
- AI-सहायता नेविगेशन: बुद्धिमान नेविगेशन सहायता उपकरण विकसित करना
- अनुसंधान दायरा व्यापक: विकिपीडिया उपयोगकर्ता व्यवहार का 360-डिग्री व्यापक विश्लेषण प्रदान करता है
- पद्धति कठोर: बहु-डेटा स्रोत सत्यापन परिणामों की विश्वसनीयता सुनिश्चित करता है
- व्यावहारिक मूल्य उच्च: प्लेटफॉर्म डिजाइन और सूचना आर्किटेक्चर के लिए सीधा मार्गदर्शन प्रदान करता है
- अंतःविषय महत्व: कम्प्यूटेशनल विज्ञान, संज्ञानात्मक विज्ञान और सामाजिक विज्ञान को जोड़ता है
- डेटा पैमाना बड़ा: वास्तविक बड़े पैमाने पर उपयोगकर्ता व्यवहार डेटा पर आधारित
- सैद्धांतिक ढांचा अपेक्षाकृत कमजोर: देखे गए घटनाओं को समझाने के लिए एकीकृत सैद्धांतिक मॉडल की कमी
- व्यक्तिगत अंतर पर अपर्याप्त ध्यान: मुख्य रूप से समूह पैटर्न पर ध्यान केंद्रित, व्यक्तिगत अंतर विश्लेषण सीमित
- गतिशील विकास विश्लेषण अनुपस्थित: दीर्घकालीन प्रवृत्ति और व्यवहार विकास विश्लेषण की कमी
- प्रयोगात्मक सत्यापन अपर्याप्त: मुख्य रूप से अवलोकनात्मक डेटा पर आधारित, नियंत्रित प्रयोग सत्यापन की कमी
- शैक्षणिक योगदान: कम्प्यूटेशनल सामाजिक विज्ञान क्षेत्र के लिए महत्वपूर्ण अनुभवजन्य आधार प्रदान करता है
- औद्योगिक अनुप्रयोग: ज्ञान प्रबंधन प्लेटफॉर्म और खोज इंजन डिजाइन के लिए मार्गदर्शन प्रदान करता है
- नीति प्रभाव: डिजिटल प्लेटफॉर्म शासन और सूचना साक्षरता शिक्षा के लिए साक्ष्य प्रदान करता है
- पद्धति नवाचार: बड़े पैमाने पर उपयोगकर्ता व्यवहार विश्लेषण के लिए मानक प्रतिमान स्थापित करता है
- शिक्षा प्लेटफॉर्म डिजाइन: ऑनलाइन शिक्षण प्लेटफॉर्म के सूचना आर्किटेक्चर को अनुकूलित करना
- खोज इंजन अनुकूलन: खोज परिणाम रैंकिंग और ज्ञान ग्राफ निर्माण में सुधार करना
- सामग्री सिफारिश प्रणाली: उपयोगकर्ता नेविगेशन पैटर्न के आधार पर व्यक्तिगतकृत सिफारिश डिजाइन करना
- उपयोगकर्ता अनुभव अनुसंधान: वेब प्लेटफॉर्म के उपयोगकर्ता अनुभव अनुकूलन के लिए डेटा समर्थन प्रदान करना
यह पेपर समृद्ध संबंधित अनुसंधान का हवाला देता है, जिसमें शामिल हैं:
- Bush, V. (1945). As we may think - Memex सूचना प्रबंधन उपकरण की अग्रणी अवधारणा
- West, R. & Leskovec, J. (2012). Human Wayfinding in Information Networks - लक्ष्य-उन्मुख नेविगेशन व्यवहार अनुसंधान
- Singer, P. et al. (2017). Why we read Wikipedia - उपयोगकर्ता प्रेरणा सर्वेक्षण अनुसंधान
- और लेखक टीम के श्रृंखला अनुसंधान परिणाम, एक संपूर्ण अनुसंधान प्रणाली बनाते हैं
समग्र मूल्यांकन: यह महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य का एक सारांश अनुसंधान है, जो विकिपीडिया उपयोगकर्ता व्यवहार का व्यवस्थित विश्लेषण करके, मानव ऑनलाइन ज्ञान खपत को समझने के लिए गहन अंतर्दृष्टि प्रदान करता है। अनुसंधान पद्धति कठोर है, डेटा पैमाना बड़ा है, निष्कर्ष प्रेरक हैं, और संबंधित क्षेत्र के बाद के अनुसंधान के लिए एक ठोस आधार प्रदान करता है।