2025-11-13T11:19:11.075710

Knowing Unknowns in an Age of Information Overload

Khanna
The technological revolution of the Internet has digitized the social, economic, political, and cultural activities of billions of humans. While researchers have been paying due attention to concerns of misinformation and bias, these obscure a much less researched and equally insidious problem - that of uncritically consuming incomplete information. The problem of incomplete information consumption stems from the very nature of explicitly ranked information on digital platforms, where our limited mental capacities leave us with little choice but to consume the tip of a pre-ranked information iceberg. This study makes two chief contributions. First, we leverage the context of internet search to propose an innovative metric that quantifies information completeness. For a given search query, this refers to the extent of the information spectrum that is observed during web browsing. We then validate this metric using 6.5 trillion search results extracted from daily search trends across 48 nations for one year. Second, we find causal evidence that awareness of information completeness while browsing the Internet reduces resistance to factual information, hence paving the way towards an open-minded and tolerant mindset.
academic

सूचना अधिभार के युग में अज्ञात को जानना

बुनियादी जानकारी

  • पेपर ID: 2510.10413
  • शीर्षक: Knowing Unknowns in an Age of Information Overload (सूचना अधिभार के युग में अज्ञात को जानना)
  • लेखक: Saurabh Khanna (एम्स्टर्डम स्कूल ऑफ कम्युनिकेशन रिसर्च, एम्स्टर्डम विश्वविद्यालय और पेम्ब्रोक कॉलेज, ऑक्सफोर्ड विश्वविद्यालय)
  • वर्गीकरण: cs.CY (कंप्यूटर और समाज)
  • प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10413

सारांश

इंटरनेट प्रौद्योगिकी क्रांति ने अरबों लोगों की सामाजिक, आर्थिक, राजनीतिक और सांस्कृतिक गतिविधियों को डिजिटल रूप दिया है। हालांकि शोधकर्ता गलत सूचना और पूर्वाग्रह के मुद्दों पर ध्यान केंद्रित करते रहे हैं, लेकिन ये समस्याएं एक कम अध्ययन किए गए लेकिन समान रूप से छिपी हुई समस्या को छुपाती हैं - अधूरी सूचना का आलोचनात्मक रूप से उपभोग न करना। अधूरी सूचना उपभोग की समस्या डिजिटल प्लेटफॉर्म पर स्पष्ट रूप से क्रमबद्ध सूचना की प्रकृति से उत्पन्न होती है, और हमारी सीमित मानसिक क्षमता हमें पूर्व-क्रमबद्ध सूचना हिमशैल के केवल एक छोटे हिस्से का उपभोग करने के लिए बाध्य करती है। यह अध्ययन दो मुख्य योगदान देता है: पहला, इंटरनेट खोज के संदर्भ का उपयोग करके "सूचना पूर्णता" को मापने के लिए एक नवीन संकेतक प्रस्तावित करता है; दूसरा, सूचना पूर्णता जागरूकता के कारणात्मक साक्ष्य खोजता है जो इंटरनेट ब्राउज़ करते समय तथ्यात्मक सूचना के प्रतिरोध को कम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

इस अनुसंधान को हल करने की मुख्य समस्या यह है: सूचना अधिभार के युग में, लोग कैसे जान सकते हैं कि वे क्या नहीं जानते हैं (knowing unknowns)? विशेष रूप से, जब हम इंटरनेट ब्राउज़ करते हैं, तो हम वास्तव में कितनी सूचना स्पेक्ट्रम देखते हैं?

समस्या की महत्ता

  1. सूचना विस्फोट: वैश्विक डेटा क्षेत्र 2018 में 33 जेटाबाइट से 2025 में 175 जेटाबाइट तक बढ़ने की उम्मीद है, वार्षिक समग्र वृद्धि दर लगभग 61% है
  2. संज्ञानात्मक सीमाएं: मानव मानसिक क्षमता सीमित है और सूचना प्रवाह की घातीय वृद्धि को संभाल नहीं सकती
  3. एल्गोरिदम क्रमबद्धता: इंटरनेट सूचना स्वाभाविक रूप से क्रमबद्ध है, उपयोगकर्ता केवल शीर्ष-रैंक किए गए परिणामों को देखने के लिए प्रवृत्त होते हैं
  4. सामाजिक प्रभाव: अधूरी सूचना उपभोग पूर्वाग्रह को मजबूत कर सकता है और सामाजिक विभाजन का कारण बन सकता है

मौजूदा अनुसंधान की सीमाएं

मौजूदा अनुसंधान मुख्य रूप से दो पहलुओं पर केंद्रित है:

  1. गलत सूचना प्रसार: सूचना और वस्तुनिष्ठ सत्य के बीच अंतर का अध्ययन
  2. एल्गोरिदम निष्पक्षता: सीमांत समूहों पर एल्गोरिदम पूर्वाग्रह के प्रभाव पर ध्यान केंद्रित करना

लेकिन ये सभी अनुसंधान सत्यापन योग्य वस्तुनिष्ठ सत्य के अस्तित्व पर निर्भर करते हैं, जबकि इंटरनेट पर व्यक्तिपरकता और विचार विविधता वस्तुनिष्ठ सत्य को अधिक अपवाद बनाती है न कि सामान्य नियम।

अनुसंधान प्रेरणा

लेखक का मानना है कि हमने एक समान रूप से महत्वपूर्ण समस्या को नजरअंदाज किया है: सूचना अधिभार और अधूरी सूचना के आलोचनात्मक उपभोग की पृष्ठभूमि में, सूचना पूर्णता को कैसे मापा जाए और इसके प्रति जागरूकता कैसे बढ़ाई जाए।

मुख्य योगदान

  1. नवीन संकेतक: पाठ एम्बेडिंग और सूचना पुनर्प्राप्ति तकनीक के आधार पर "सूचना पूर्णता" का गतिशील माप संकेतक प्रस्तावित करता है
  2. बड़े पैमाने पर सत्यापन: 6.5 ट्रिलियन खोज परिणामों के डेटा (48 देशों को कवर करते हुए, एक वर्ष तक) का उपयोग करके इस संकेतक को सत्यापित करता है
  3. कारणात्मक साक्ष्य: यादृच्छिक नियंत्रित प्रयोग के माध्यम से साबित करता है कि सूचना पूर्णता जागरूकता तथ्यात्मक सूचना के प्रतिरोध को कम कर सकती है
  4. ओपन सोर्स प्लेटफॉर्म: Sonder नामक एक प्रायोगिक ओपन सोर्स वेब खोज प्लेटफॉर्म विकसित करता है जो गतिशील रूप से सूचना पूर्णता स्कोर की रिपोर्ट कर सकता है

विधि विवरण

कार्य परिभाषा

दिए गए खोज क्वेरी q के लिए, कुल N खोज परिणामों में से, पहले n (n < N) खोज परिणामों को देखना कितना प्रतिनिधि है? यह इस बात का मूल्यांकन करने से अलग है कि क्या ये n खोज परिणाम गलत सूचना या पूर्वाग्रह रखते हैं, बल्कि सूचना की पूर्णता का मूल्यांकन करना है।

सूचना पूर्णता संकेतक डिजाइन

मुख्य विचार

पारंपरिक विधि क्वेरी और एकल खोज परिणाम की प्रासंगिकता पर ध्यान केंद्रित करती है:

प्रासंगिकता = cos(q⃗, r⃗ᵢ) = (q⃗ · r⃗ᵢ)/(‖q⃗‖‖r⃗ᵢ‖)

इस पेपर द्वारा प्रस्तावित सूचना पूर्णता संकेतक संपूर्ण परिणाम कॉर्पस के साथ खोज परिणामों की शब्दार्थ समानता पर ध्यान केंद्रित करता है:

Iपूर्णता,i = cos(C⃗, r⃗ᵢ) = (C⃗ · r⃗ᵢ)/(‖C⃗‖‖r⃗ᵢ‖)

जहां: C⃗ = Σᵢ₌₁ᴺ wᵢr⃗ᵢ (wᵢ वजन है, पृष्ठ रैंक आदि विश्वसनीयता संकेतकों के आधार पर हो सकता है)

संचयी सूचना पूर्णता

सूचना उपभोग की संचयी प्रकृति को ध्यान में रखते हुए, संचयी सूचना पूर्णता को परिभाषित करता है:

Iपूर्णता,n = cos(C⃗, Σᵢ₌₁ⁿ r⃗ᵢ) = (C⃗ · Σᵢ₌₁ⁿ r⃗ᵢ)/(‖C⃗‖‖Σᵢ₌₁ⁿ r⃗ᵢ‖)

प्रासंगिकता और पूर्णता को संतुलित करना

उपयोगकर्ता-नियंत्रणीय संतुलन तंत्र प्रदान करता है:

Sᵢ = λIᵢ,पूर्णता + (1-λ)Iᵢ,प्रासंगिकता

जहां λ ∈ 0,1 पूर्णता और प्रासंगिकता के वजन को नियंत्रित करता है।

तकनीकी कार्यान्वयन

  1. पाठ एम्बेडिंग: Transformer-आधारित वाक्य-स्तरीय एम्बेडिंग का उपयोग (जैसे Sentence-BERT)
  2. शब्दार्थ समानता: कोसाइन समानता के माध्यम से वेक्टर के बीच शब्दार्थ दूरी की गणना
  3. सूचना पूर्णता वक्र: देखे गए परिणामों के अनुपात के साथ संचयी पूर्णता में परिवर्तन को प्लॉट करना

प्रयोगात्मक सेटअप

बड़े पैमाने पर डेटा सत्यापन

डेटासेट आकार

  • समय अवधि: 16 नवंबर 2021 से 15 नवंबर 2022 (एक वर्ष)
  • भौगोलिक कवरेज: 48 देश, 6 महाद्वीपों में विस्तृत
  • डेटा मात्रा: 6.5 ट्रिलियन कच्चे खोज परिणाम
  • दैनिक औसत डेटा: 57.6 मिलियन खोजें, 18 बिलियन डेटा बिंदु
  • परिणाम गहराई: प्रत्येक क्वेरी में माध्यिका 320 खोज परिणाम

सत्यापन विधि

विभिन्न देशों की सूचना पूर्णता और मीडिया स्वतंत्रता (रिपोर्टर्स विदाउट बॉर्डर्स डेटा का उपयोग करके) के बीच सहसंबंध की तुलना करके संकेतक की वैधता को सत्यापित करता है।

यादृच्छिक नियंत्रित प्रयोग

प्रयोग डिजाइन

  • प्लेटफॉर्म: स्वयं विकसित Sonder खोज प्लेटफॉर्म
  • प्रतिभागी: 876 अमेरिकी वयस्क (Prolific के माध्यम से भर्ती)
  • प्रयोग अवधि: 40 मिनट (5 मिनट पूर्व-परीक्षण + 30 मिनट इंटरैक्शन + 5 मिनट बाद-परीक्षण)
  • समूहीकरण: उपचार समूह 434 लोग (सूचना पूर्णता स्कोर दिखाते हैं), नियंत्रण समूह 442 लोग (सामान्य खोज)

खोज विषय

5 खुली सोच का मूल्यांकन करने वाले व्यापक मुद्दे:

  1. आज हमारे देश में देशभक्ति
  2. आप्रवास के प्रति खुलापन
  3. गर्भपात और इसकी कानूनी स्थिति
  4. आज के समाज में पारंपरिक मूल्य
  5. बंदूक स्वामित्व संबंधित कानून

प्रयोगात्मक परिणाम

सूचना पूर्णता संकेतक सत्यापन

भौगोलिक अंतर विश्लेषण

  • न्यूनतम पूर्णता: मध्य पूर्व और उत्तरी अफ्रीका क्षेत्र (पहले पृष्ठ पर लगभग 25% पूर्णता)
  • अधिकतम पूर्णता: उत्तरी अमेरिका क्षेत्र (पहले पृष्ठ पर लगभग 62% पूर्णता)
  • सांख्यिकीय संबंध: मीडिया प्रतिबंध स्कोर में प्रत्येक इकाई की वृद्धि के साथ सूचना पूर्णता 0.28 प्रतिशत बिंदु कम होती है (p < 0.001)

क्षेत्रीय निश्चित प्रभाव

क्षेत्रीय निश्चित प्रभाव जोड़ने के बाद, प्रभाव 0.17 प्रतिशत बिंदु तक कम हो जाता है (p < 0.001), जो दर्शाता है कि क्षेत्र के भीतर भी महत्वपूर्ण राष्ट्रीय-स्तरीय अंतर मौजूद हैं।

व्यवहार प्रयोग परिणाम

खुली सोच में सुधार (परिणाम O1)

  • कुल प्रभाव: उपचार समूह की खुली सोच 0.076 मानक विचलन इकाई में सुधार (p = 0.207, गैर-महत्वपूर्ण)
  • तथ्य प्रतिरोध: 0.212 मानक विचलन इकाई में महत्वपूर्ण कमी (p = 0.003, सांख्यिकीय रूप से महत्वपूर्ण)
  • शिक्षावाद: 0.048 मानक विचलन इकाई में कमी (p = 0.432, गैर-महत्वपूर्ण)
  • विश्वास व्यक्तित्व: 0.012 मानक विचलन इकाई में कमी (p = 0.777, गैर-महत्वपूर्ण)
  • उदारवादी सोच: 0.032 मानक विचलन इकाई में कमी (p = 1.302, गैर-महत्वपूर्ण)

ब्राउज़िंग व्यवहार परिवर्तन (परिणाम O2)

  • खोज गहराई: उपचार समूह द्वारा देखे गए न्यूनतम रैंक किए गए परिणाम औसतन 6.14 स्थान नीचे तक विस्तारित (p < 0.001)
  • क्लिक संख्या: उपचार समूह औसतन 2.182 अधिक परिणामों पर क्लिक करता है (p = 0.312, गैर-महत्वपूर्ण)
  • पूर्णता वृद्धि: उपचार समूह द्वारा क्लिक किए गए परिणामों की सूचना पूर्णता स्कोर 7.6 प्रतिशत बिंदु अधिक है (p = 0.001)

संबंधित कार्य

इंटरनेट खोज विकास

  1. प्रारंभिक समाधान (1990 के दशक): Archie, Gopher, WAIS आदि कीवर्ड-आधारित सिस्टम
  2. Google का उदय (1998): PageRank एल्गोरिदम ने लिंक गुणवत्ता मूल्यांकन में क्रांतिकारी परिवर्तन किया
  3. आधुनिक समाधान: AI और मशीन लर्निंग द्वारा संचालित व्यक्तिगतकृत खोज

सूचना गुणवत्ता अनुसंधान

  • गलत सूचना पहचान: सूचना और वस्तुनिष्ठ सत्य के अंतर पर ध्यान केंद्रित करना
  • एल्गोरिदम निष्पक्षता: सीमांत समूहों पर एल्गोरिदम पूर्वाग्रह के प्रभाव का अध्ययन
  • फ़िल्टर बबल: व्यक्तिगतकृत सिफारिशों द्वारा उत्पन्न सूचना गोलमाल प्रभाव

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. संकेतक वैधता: सूचना पूर्णता संकेतक विभिन्न देशों और क्षेत्रों की मीडिया स्वतंत्रता को प्रभावी ढंग से प्रतिबिंबित कर सकता है
  2. संज्ञानात्मक प्रभाव: सूचना पूर्णता जागरूकता मुख्य रूप से ज्ञान-संबंधित आयामों में सुधार करती है (तथ्य प्रतिरोध को कम करता है), लेकिन पारस्परिक-संबंधित आयामों पर सीमित प्रभाव पड़ता है
  3. व्यवहार परिवर्तन: उपयोगकर्ता अधिक गहरे, अधिक पूर्ण खोज परिणामों की सक्रिय रूप से खोज करते हैं

सीमाएं

  1. तकनीकी निर्भरता: संकेतक की गुणवत्ता पाठ एम्बेडिंग की गुणवत्ता पर निर्भर करती है, जो प्रशिक्षण डेटा पूर्वाग्रह से प्रभावित हो सकती है
  2. सांस्कृतिक सीमाएं: खुली सोच (AOT) की अवधारणा पश्चिमी मनोविज्ञान से उत्पन्न है, क्रॉस-सांस्कृतिक प्रयोज्यता सीमित है
  3. समझ की सीमा: प्रतिभागियों की सूचना पूर्णता अवधारणा की समझ का स्तर उपचार प्रभाव को प्रभावित करता है

भविष्य की दिशा

  1. परिमाण प्रभाव: सूचना पूर्णता स्कोर आकार परिवर्तन के खुली सोच पर प्रभाव का अध्ययन
  2. सोशल मीडिया विस्तार: अनुसंधान को व्यक्तिगत सूचना स्रोतों वाले सोशल मीडिया प्लेटफॉर्म तक विस्तारित करना
  3. शैक्षिक हस्तक्षेप: जनता की सूचना पूर्णता जागरूकता बढ़ाने के लिए शैक्षिक योजनाएं विकसित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या की नवीनता: अज्ञात सूचना अधूरेपन की समस्या को पहचानता और मापता है जिसे अक्सर नजरअंदाज किया जाता है
  2. विधि की कठोरता: बड़े पैमाने पर अवलोकन डेटा और यादृच्छिक नियंत्रित प्रयोगों को जोड़ता है, पर्याप्त अनुभवजन्य साक्ष्य प्रदान करता है
  3. व्यावहारिक मूल्य: एक ओपन सोर्स खोज प्लेटफॉर्म विकसित करता है जिसमें वास्तविक अनुप्रयोग की संभावना है
  4. अंतःविषय एकीकरण: सूचना पुनर्प्राप्ति, मनोविज्ञान, राजनीति विज्ञान आदि कई क्षेत्रों के सिद्धांत और विधियों को एकीकृत करता है

कमियां

  1. कारणात्मक अनुमान सीमाएं: राष्ट्रीय स्तर का विश्लेषण मुख्य रूप से सहसंबंधात्मक है, मजबूत कारणात्मक पहचान की कमी है
  2. नमूना प्रतिनिधित्व: प्रयोग केवल अमेरिकी वयस्कों तक सीमित है, परिणामों की सार्वभौमिकता सत्यापन की प्रतीक्षा में है
  3. दीर्घकालीन प्रभाव अज्ञात: प्रयोग केवल अल्पकालीन प्रभाव देखता है, दीर्घकालीन प्रभाव अभी भी स्पष्ट नहीं है
  4. एल्गोरिदम पारदर्शिता: पाठ एम्बेडिंग एल्गोरिदम की "ब्लैक बॉक्स" प्रकृति संकेतक की व्याख्यात्मकता को प्रभावित कर सकती है

प्रभाव

  1. शैक्षणिक योगदान: सूचना गुणवत्ता मूल्यांकन के लिए एक नई सैद्धांतिक रूपरेखा और माप उपकरण प्रदान करता है
  2. नीति महत्व: राष्ट्रीय सूचना वातावरण गुणवत्ता का मूल्यांकन करने के लिए एक वस्तुनिष्ठ संकेतक प्रदान करता है
  3. तकनीकी अनुप्रयोग: खोज इंजन और सूचना प्लेटफॉर्म के सुधार के लिए दिशा प्रदान करता है
  4. सामाजिक मूल्य: जनता की सूचना साक्षरता और आलोचनात्मक सोच को बढ़ाने में सहायता करता है

प्रयोज्य परिदृश्य

  1. खोज इंजन अनुकूलन: उपयोगकर्ताओं को खोज परिणामों की पूर्णता का बेहतर मूल्यांकन करने में मदद करना
  2. मीडिया निगरानी: सरकार और संगठनों को सूचना वातावरण गुणवत्ता का मूल्यांकन करने के लिए उपकरण प्रदान करना
  3. शैक्षिक प्रशिक्षण: छात्रों और जनता की सूचना साक्षरता विकसित करने के लिए उपयोग
  4. शैक्षणिक अनुसंधान: संबंधित क्षेत्र के अनुसंधान के लिए नए माप उपकरण और सैद्धांतिक रूपरेखा प्रदान करना

संदर्भ

यह पेपर विविध अंतःविषय साहित्य का हवाला देता है, जिसमें शामिल हैं:

  • सूचना पुनर्प्राप्ति और प्राकृतिक भाषा प्रसंस्करण (Vaswani et al., 2017; Devlin et al., 2018)
  • मनोविज्ञान और संज्ञानात्मक विज्ञान (Baron, 2000; Stanovich & West, 2007)
  • राजनीति विज्ञान और संचार विज्ञान (Dahlberg, 2001; Lazer et al., 2020)
  • कम्प्यूटेशनल सामाजिक विज्ञान (Hofman et al., 2021; Vosoughi et al., 2018)

यह अनुसंधान सूचना अधिभार के युग में एक महत्वपूर्ण और नवीन दृष्टिकोण प्रस्तुत करता है, कठोर पद्धति और बड़े पैमाने पर अनुभवजन्य अनुसंधान के माध्यम से, डिजिटल सूचना के साथ हमारी बातचीत को समझने और सुधारने के लिए महत्वपूर्ण योगदान देता है। हालांकि कुछ सीमाएं मौजूद हैं, लेकिन इसके सैद्धांतिक मूल्य और व्यावहारिक महत्व दोनों ध्यान देने और आगे विकास के योग्य हैं।