2025-11-13T11:19:11.075710

Knowing Unknowns in an Age of Information Overload

Khanna
The technological revolution of the Internet has digitized the social, economic, political, and cultural activities of billions of humans. While researchers have been paying due attention to concerns of misinformation and bias, these obscure a much less researched and equally insidious problem - that of uncritically consuming incomplete information. The problem of incomplete information consumption stems from the very nature of explicitly ranked information on digital platforms, where our limited mental capacities leave us with little choice but to consume the tip of a pre-ranked information iceberg. This study makes two chief contributions. First, we leverage the context of internet search to propose an innovative metric that quantifies information completeness. For a given search query, this refers to the extent of the information spectrum that is observed during web browsing. We then validate this metric using 6.5 trillion search results extracted from daily search trends across 48 nations for one year. Second, we find causal evidence that awareness of information completeness while browsing the Internet reduces resistance to factual information, hence paving the way towards an open-minded and tolerant mindset.
academic

정보 과잉 시대에서의 미지의 것 알기

기본 정보

  • 논문 ID: 2510.10413
  • 제목: Knowing Unknowns in an Age of Information Overload (정보 과잉 시대에서의 미지의 것 알기)
  • 저자: Saurabh Khanna (암스테르담 커뮤니케이션 연구 학교, 암스테르담 대학교 & 펨브로크 칼리지, 옥스포드 대학교)
  • 분류: cs.CY (컴퓨터와 사회)
  • 발표 시간: 2025년 10월 12일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10413

초록

인터넷 기술 혁명은 수십억 명의 인류의 사회, 경제, 정치, 문화 활동을 디지털화했습니다. 연구자들이 계속해서 잘못된 정보와 편견 문제에 주목해왔지만, 이러한 문제들은 연구가 덜 진행되었지만 동등하게 은폐된 문제인 비판적 사고 없이 불완전한 정보를 소비하는 것을 가리고 있습니다. 불완전한 정보 소비 문제는 디지털 플랫폼에서 정보의 명시적 순서 지정의 본질에서 비롯되며, 우리의 제한된 정신 능력은 우리가 사전 순서가 지정된 정보 빙산의 일각만 소비할 수밖에 없게 합니다. 본 연구는 두 가지 주요 기여를 제시합니다: 첫째, 인터넷 검색의 맥락을 활용하여 "정보 완전성"을 정량화하는 혁신적인 지표를 제안합니다; 둘째, 정보 완전성 인식이 인터넷을 탐색할 때 사실 정보에 대한 저항을 감소시키는 인과 증거를 발견합니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 다음과 같습니다: 정보 과잉 시대에 사람들은 자신이 무엇을 모르는지 어떻게 알 수 있는가? 구체적으로, 우리가 인터넷을 탐색할 때, 우리는 실제로 정보 스펙트럼의 얼마나 많은 부분을 보게 되는가?

문제의 중요성

  1. 정보 폭발: 전 세계 데이터 영역은 2018년 33제타바이트에서 2025년 175제타바이트로 증가할 것으로 예상되며, 연평균 복합 성장률은 약 61%입니다
  2. 인지 제약: 인간의 정신 능력은 제한되어 있어 지수적으로 증가하는 정보 흐름을 처리할 수 없습니다
  3. 알고리즘 순서 지정: 인터넷 정보는 본질적으로 순서가 지정되어 있으며, 사용자는 상위 순위의 결과만 보는 경향이 있습니다
  4. 사회적 영향: 불완전한 정보 소비는 편견 강화와 사회 분화를 초래할 수 있습니다

기존 연구의 한계

기존 연구는 주로 두 가지 측면에 초점을 맞추고 있습니다:

  1. 잘못된 정보 전파: 정보와 객관적 진실의 차이를 연구합니다
  2. 알고리즘 공정성: 소수 집단에 대한 알고리즘 편견의 해로움에 주목합니다

그러나 이러한 연구들은 모두 검증 가능한 객관적 진실의 존재에 의존하고 있으며, 인터넷의 주관성과 의견의 다양성으로 인해 객관적 진실은 예외이지 상례가 아닙니다.

연구 동기

저자는 우리가 동등하게 중요한 문제를 간과했다고 생각합니다: 정보 과잉과 비판적 사고 없이 불완전한 정보를 소비하는 배경에서 정보 완전성을 정량화하고 정보 완전성 인식을 높이는 방법입니다.

핵심 기여

  1. 혁신적 지표: 텍스트 임베딩과 정보 검색 기술을 기반으로 한 "정보 완전성"의 동적 측정 지표를 제안합니다
  2. 대규모 검증: 6.5조 개의 검색 결과 데이터(48개 국가 포함, 1년 지속)를 사용하여 이 지표를 검증합니다
  3. 인과 증거: 무작위 대조 실험을 통해 정보 완전성 인식이 사실 정보에 대한 저항을 감소시킬 수 있음을 증명합니다
  4. 오픈소스 플랫폼: 정보 완전성 점수를 동적으로 보고할 수 있는 실험적 오픈소스 웹 검색 플랫폼 Sonder를 개발했습니다

방법론 상세 설명

작업 정의

주어진 검색 쿼리 q에 대해, 총 N개의 검색 결과 중에서 상위 n개(n < N) 검색 결과를 보는 것이 얼마나 대표적인가? 이는 이 n개의 검색 결과에 잘못된 정보나 편견이 포함되어 있는지 평가하는 것과는 다르며, 정보의 완전성을 평가하는 것입니다.

정보 완전성 지표 설계

핵심 개념

전통적 방법은 쿼리와 개별 검색 결과의 관련성에 초점을 맞춥니다:

관련성 = cos(q⃗, r⃗ᵢ) = (q⃗ · r⃗ᵢ)/(‖q⃗‖‖r⃗ᵢ‖)

본 논문에서 제안하는 정보 완전성 지표는 검색 결과와 전체 결과 말뭉치의 의미론적 유사성에 초점을 맞춥니다:

Icompleteness,i = cos(C⃗, r⃗ᵢ) = (C⃗ · r⃗ᵢ)/(‖C⃗‖‖r⃗ᵢ‖)

여기서: C⃗ = Σᵢ₌₁ᴺ wᵢr⃗ᵢ (wᵢ는 가중치이며, 페이지 순위 등 신뢰도 지표를 기반으로 할 수 있습니다)

누적 정보 완전성

정보 소비의 누적적 특성을 고려하여 누적 정보 완전성을 정의합니다:

Icompleteness,n = cos(C⃗, Σᵢ₌₁ⁿ r⃗ᵢ) = (C⃗ · Σᵢ₌₁ⁿ r⃗ᵢ)/(‖C⃗‖‖Σᵢ₌₁ⁿ r⃗ᵢ‖)

관련성과 완전성의 균형

사용자가 제어할 수 있는 균형 메커니즘을 제공합니다:

Sᵢ = λIᵢ,completeness + (1-λ)Iᵢ,relevance

여기서 λ ∈ 0,1은 완전성과 관련성의 가중치를 제어합니다.

기술 구현

  1. 텍스트 임베딩: Transformer 기반 문장 수준 임베딩(예: Sentence-BERT) 사용
  2. 의미론적 유사성: 코사인 유사도를 통한 벡터 간 의미론적 거리 계산
  3. 정보 완전성 곡선: 결과 비율에 따른 누적 완전성의 변화를 그래프로 표시

실험 설정

대규모 데이터 검증

데이터셋 규모

  • 시간 범위: 2021년 11월 16일 ~ 2022년 11월 15일 (1년)
  • 지리적 범위: 48개 국가, 6대륙 포함
  • 데이터량: 6.5조 개의 원본 검색 결과
  • 일일 평균 데이터: 5,760만 회 검색, 180억 개 데이터 포인트
  • 결과 깊이: 쿼리당 중앙값 320개 검색 결과

검증 방법

다양한 국가의 정보 완전성과 언론 자유도(국경없는기자회 데이터 사용)의 상관관계를 비교하여 지표 유효성을 검증합니다.

무작위 대조 실험

실험 설계

  • 플랫폼: 자체 개발 Sonder 검색 플랫폼
  • 참가자: 876명의 미국 성인(Prolific을 통해 모집)
  • 실험 기간: 40분 (5분 사전 검사 + 30분 상호작용 + 5분 사후 검사)
  • 그룹 분할: 치료군 434명(정보 완전성 점수 표시), 대조군 442명(일반 검색)

검색 주제

개방적 사고를 평가하는 5가지 광범위한 주제:

  1. 현대 우리 국가의 애국심
  2. 이민에 대한 개방성
  3. 낙태 및 그 법적 지위
  4. 현대 사회의 전통적 가치관
  5. 총기 소유 관련 법률

실험 결과

정보 완전성 지표 검증

지리적 차이 분석

  • 최저 완전성: 중동 및 북아프리카 지역 (첫 페이지 약 25% 완전성)
  • 최고 완전성: 북미 지역 (첫 페이지 약 62% 완전성)
  • 통계적 관계: 언론 제약 점수가 1단위 증가할 때마다 정보 완전성이 0.28 백분포인트 감소 (p < 0.001)

지역 고정 효과

지역 고정 효과를 추가한 후, 효과량은 0.17 백분포인트로 감소했습니다 (p < 0.001). 이는 지역 내에서도 여전히 유의미한 국가 수준의 차이가 존재함을 나타냅니다.

행동 실험 결과

개방적 사고 개선 (결과 O1)

  • 전체 효과: 치료군의 개방적 사고가 0.076 표준편차 단위 증가 (p = 0.207, 유의하지 않음)
  • 사실 저항: 유의미하게 0.212 표준편차 단위 감소 (p = 0.003, 통계적으로 유의미함)
  • 독단주의: 0.048 표준편차 단위 감소 (p = 0.432, 유의하지 않음)
  • 신념 개인화: 0.012 표준편차 단위 감소 (p = 0.777, 유의하지 않음)
  • 자유주의적 사고: 0.032 표준편차 단위 감소 (p = 1.302, 유의하지 않음)

탐색 행동 변화 (결과 O2)

  • 검색 깊이: 치료군이 보는 최저 순위 결과가 평균 6.14개 위치만큼 더 아래로 확장 (p < 0.001)
  • 클릭 수: 치료군이 평균 2.182개 결과를 추가로 클릭 (p = 0.312, 유의하지 않음)
  • 완전성 향상: 치료군이 클릭한 결과의 정보 완전성 점수가 7.6 백분포인트 높음 (p = 0.001)

관련 연구

인터넷 검색의 진화

  1. 초기 솔루션 (1990년대): Archie, Gopher, WAIS 등 키워드 기반 시스템
  2. Google의 부상 (1998년): PageRank 알고리즘이 링크 품질 평가를 혁신적으로 도입
  3. 현대적 솔루션: AI 및 머신러닝 기반의 개인화된 검색

정보 품질 연구

  • 잘못된 정보 탐지: 정보와 객관적 진실의 편차에 초점
  • 알고리즘 공정성: 소수 집단에 대한 알고리즘 편견 연구
  • 필터 버블: 개인화된 추천으로 인한 정보 격리 효과

결론 및 논의

주요 결론

  1. 지표 유효성: 정보 완전성 지표는 다양한 국가 및 지역의 언론 자유도를 효과적으로 반영할 수 있습니다
  2. 인지적 영향: 정보 완전성 인식은 주로 지식 관련 차원(사실 저항 감소)을 개선하며, 대인관계 차원에 대한 영향은 제한적입니다
  3. 행동 변화: 사용자는 더 깊고 더 완전한 검색 결과를 적극적으로 탐색합니다

한계

  1. 기술 의존성: 지표 품질은 텍스트 임베딩의 품질에 의존하며, 훈련 데이터 편견의 영향을 받을 수 있습니다
  2. 문화적 한계: 개방적 사고(AOT) 개념은 서양 심리학에서 비롯되었으며, 문화 간 적용 가능성이 제한적입니다
  3. 이해 장벽: 참가자의 정보 완전성 개념에 대한 이해 정도가 치료 효과에 영향을 미칩니다

향후 방향

  1. 규모 효과: 정보 완전성 점수의 크기 변화가 개방적 사고에 미치는 영향 연구
  2. 소셜 미디어 확장: 개인화된 정보 출처를 가진 소셜 미디어 플랫폼으로 연구 확대
  3. 교육 개입: 공중의 정보 완전성 인식을 높이기 위한 교육 방안 개발

심층 평가

장점

  1. 문제의 혁신성: 간과되었지만 중요한 정보 불완전성 문제를 식별하고 정량화합니다
  2. 방법론의 엄밀성: 대규모 관찰 데이터와 무작위 대조 실험을 결합하여 충분한 실증 증거를 제공합니다
  3. 실용적 가치: 오픈소스 검색 플랫폼을 개발하여 실제 적용 가능성이 있습니다
  4. 학제 간 통합: 정보 검색, 심리학, 정치학 등 여러 분야의 이론과 방법을 통합합니다

부족한 점

  1. 인과 추론의 한계: 국가 수준의 분석은 주로 상관관계이며, 강한 인과 식별이 부족합니다
  2. 표본 대표성: 실험은 미국 성인으로만 제한되어 있으며, 결과의 보편성은 검증이 필요합니다
  3. 장기 효과 미지수: 실험은 단기 효과만 관찰했으며, 장기 영향은 아직 불명확합니다
  4. 알고리즘 투명성: 텍스트 임베딩 알고리즘의 "블랙박스" 특성이 지표의 해석 가능성에 영향을 미칠 수 있습니다

영향력

  1. 학술적 기여: 정보 품질 평가를 위한 새로운 이론 프레임워크와 측정 도구를 제공합니다
  2. 정책적 의의: 국가 정보 환경 품질을 평가하기 위한 객관적 지표를 제공합니다
  3. 기술 응용: 검색 엔진 및 정보 플랫폼 개선을 위한 방향을 제시합니다
  4. 사회적 가치: 공중의 정보 소양과 비판적 사고 능력 향상에 도움이 됩니다

적용 시나리오

  1. 검색 엔진 최적화: 사용자가 검색 결과의 완전성을 더 잘 평가하도록 지원합니다
  2. 미디어 규제: 정부 및 조직이 정보 환경 품질을 평가하기 위한 도구를 제공합니다
  3. 교육 훈련: 학생 및 공중의 정보 소양 배양에 사용됩니다
  4. 학술 연구: 관련 분야 연구에 새로운 측정 도구와 이론 프레임워크를 제공합니다

참고 문헌

본 논문은 다양한 학제 간 문헌을 인용하고 있으며, 다음을 포함합니다:

  • 정보 검색 및 자연어 처리 (Vaswani et al., 2017; Devlin et al., 2018)
  • 심리학 및 인지 과학 (Baron, 2000; Stanovich & West, 2007)
  • 정치학 및 커뮤니케이션 (Dahlberg, 2001; Lazer et al., 2020)
  • 계산 사회 과학 (Hofman et al., 2021; Vosoughi et al., 2018)

이 연구는 정보 과잉 시대에 중요하고 혁신적인 관점을 제시하며, 엄밀한 방법론과 대규모 실증 연구를 통해 우리가 디지털 정보와 상호작용하는 방식을 이해하고 개선하는 데 중요한 기여를 합니다. 일부 한계가 있지만, 그 이론적 가치와 실용적 의의는 주목할 만하며 추가 발전이 필요합니다.