2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

LinkedIn의 콘텐츠 검색 엔진에 의미론적 기능 도입

기본 정보

  • 논문 ID: 2412.20366
  • 제목: Introducing Semantic Capability in LinkedIn's Content Search Engine
  • 저자: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • 기관: LinkedIn Corporation, Mountain View, CA, USA
  • 분류: cs.IR (정보 검색)
  • 발표 시간: 2024년 12월
  • 논문 링크: https://arxiv.org/abs/2412.20366

초록

사용자 검색 행동의 진화에 따라 전통적인 키워드 기반 검색 엔진은 점점 더 복잡한 자연어 쿼리 요구사항을 충족할 수 없게 되었습니다. 본 논문은 LinkedIn에서 새롭게 설계한 의미론적 이해 능력을 갖춘 콘텐츠 검색 엔진을 소개하고, 핵심 지표에 대한 현저한 성능 향상을 보여줍니다.

연구 배경 및 동기

문제 정의

  1. 검색 쿼리의 복잡화 추세: 사용자들이 "how to ask for a raise?(급여 인상을 요청하는 방법?)", "dropout in AI(AI의 중퇴 문제)" 등 복잡한 자연어 쿼리로 전환
  2. 전통적 검색의 한계: 키워드 매칭 기반 검색 엔진이 복잡한 쿼리 처리 시 두 가지 주요 문제 발생:
    • 쿼리의 모든 키워드가 어떤 게시물에도 존재하지 않을 때 빈 결과 반환
    • 모든 키워드를 포함하는 게시물이 존재하더라도 개념 이해 부족으로 질문에 올바르게 답변하지 못함

연구 동기

LinkedIn의 분석 결과, 검색 인덱스에 실제로 쿼리에 올바르게 답변할 수 있는 게시물이 존재하지만, 이러한 게시물들이 쿼리의 모든 키워드를 포함하지 않을 수 있다는 것을 발견했습니다. 이는 쿼리 의도를 더 잘 이해하고 관련 콘텐츠를 반환하기 위해 의미론적 매칭 능력을 갖춘 콘텐츠 검색 엔진 개발을 촉발했습니다.

핵심 기여

  1. 이중층 아키텍처의 의미론적 검색 엔진 설계: 검색층과 다단계 순위 지정층을 포함하여 키워드 매칭과 의미론적 이해를 효과적으로 결합
  2. 혼합 검색 전략 구현: 용어 기반 검색기(TBR)와 임베딩 기반 검색기(EBR)를 동시에 사용
  3. 다목표 최적화 프레임워크 구축: 주제 관련성(on-topic rate)과 사용자 참여도(long-dwells)를 동시에 최적화
  4. 현저한 성능 향상 달성: 주제 관련성 및 장시간 체류 지표 모두 10% 이상 향상

방법론 상세 설명

작업 정의

각 검색 쿼리에 대해 고품질의 매력적인 게시물 콘텐츠를 반환하며, 다음 두 가지 정량화 지표로 평가:

  • 주제 관련성(On-topic rate): GPT를 사용하여 반환된 게시물의 품질 및 관련성 평가
  • 장시간 체류(Long-dwells): 사용자가 게시물에 머무르는 시간 측정

모델 아키텍처

1. 검색층(Retrieval Layer)

검색층은 두 개의 병렬 검색기로 구성:

용어 기반 검색기(TBR):

  • 역인덱스를 유지하여 키워드를 해당 키워드를 포함하는 게시물로 매핑
  • 교집합 연산을 통해 쿼리의 모든 키워드를 포함하는 게시물 찾기
  • 특정 게시물 찾기와 같은 네비게이션 쿼리에 적합

임베딩 기반 검색기(EBR):

  • 이중탑 모델 아키텍처(Two-tower Model) 채택
  • 쿼리 임베딩 탑: 쿼리 텍스트 및 사용자 특성 처리하여 쿼리 임베딩 생성
  • 게시물 임베딩 탑: 게시물 텍스트 및 작성자 특성 처리하여 게시물 임베딩 생성
  • 텍스트 임베딩을 위해 multilingual-e5 모델 사용
  • 코사인 유사도를 통해 쿼리와 게시물의 매칭 점수 계산

EBR의 주요 장점:

  • 의미론적 매칭: 정확한 키워드 매칭이 아닌 개념 기반 매칭
  • 개인화: 검색자 특성에 따라 개인화된 결과 반환 가능
  • 목표 최적화: 임의의 목표 함수 최적화 지원

2. 다단계 순위 지정층(Multi-stage Ranking Layer)

순위 지정층은 효과와 효율성의 균형을 위해 이단계 설계 채택:

L1 순위 지정 단계:

  • 간단한 모델을 사용하여 수천 개의 후보 게시물에 대한 초기 순위 지정
  • 상위 수백 개의 후보 게시물을 다음 단계로 선택

L2 순위 지정 단계:

  • 복잡한 모델을 사용하여 후보 게시물에 대한 세밀한 순위 지정
  • 최종 검색 결과 생성

순위 지정 모델 아키텍처는 두 개의 예측 모델 포함:

  • 주제 관련성 예측 모델: 쿼리 텍스트 및 게시물 텍스트를 입력받아 관련성 점수 출력
  • 장시간 체류 예측 모델: 다음을 포함한 풍부한 특성 집합 입력:
    • 쿼리 및 게시물 텍스트
    • BM25 매칭 점수 등의 쌍 특성
    • 쿼리 특성(예: 직책 이름 포함 여부)
    • 게시물 특성(예: 게시물 인기도)
    • 사용자 특성(예: 구직 의도 여부)
    • 작성자 특성(예: 작성자 영향력)
    • 사용자-작성자 관계 특성(예: 친구 여부)

최종 점수 계산 공식:

score = α × on-topicness_score + (1-α) × long-dwell_score

여기서 α는 조절 매개변수이며, 온라인 실험을 통해 최적값 결정

기술 혁신 포인트

  1. 혼합 검색 전략: 정확한 매칭과 의미론적 매칭의 장점 결합
  2. 이중탑 모델 설계: 게시물 임베딩의 사전 계산을 지원하여 검색 효율성 대폭 향상
  3. 다목표 최적화: 콘텐츠 품질과 사용자 참여도를 동시에 고려
  4. 계층적 아키텍처: 효율성과 효과 간의 좋은 균형 달성

실험 설정

데이터셋

  • LinkedIn 콘텐츠 검색 엔진의 역사 데이터 사용
  • 훈련 데이터 형식: (query, post, label) 삼중쌍
  • 레이블은 주제 관련성과 장시간 체류 두 지표 결합

평가 지표

  1. 주제 관련성(On-topic rate):
    • GPT를 사용하여 상위 10개 반환 게시물 평가(1은 관련성 있고 고품질, 0은 관련성 없음)
    • 레이블이 1인 게시물의 비율 계산
  2. 장시간 체류(Long-dwells):
    • 사용자가 게시물에 머무르는 시간에 따라 이진 분류 표시
    • 레이블이 1인 게시물 수량 통계

구현 세부사항

  • 텍스트 임베딩 모델: multilingual-e5
  • 임베딩 저장소: Venice 키-값 저장 시스템
  • 근사 최근접 이웃 검색: 지연 시간 제어를 위해 스캔 게시물 수량 제한
  • 사전 계산 최적화: 오프라인 및 근실시간 게시물 임베딩 계산

실험 결과

주요 결과

새로운 의미론적 검색 엔진은 현저한 성능 향상을 달성:

  • 주제 관련성: 10% 이상 향상
  • 장시간 체류: 10% 이상 향상
  • 사이트 수준 영향: LinkedIn 전체 세션 수에 긍정적 영향

전형적인 사례

검색 엔진은 이제 다음과 같은 복잡한 자연어 쿼리를 효과적으로 처리:

  • "how to ask for a raise?" (급여 인상을 요청하는 방법?)
  • "dropout in AI" (AI의 중퇴 문제)

이러한 쿼리는 전통적인 키워드 기반 시스템에서는 만족스러운 결과를 얻기 어려웠습니다.

관련 연구

논문은 주로 산업급 검색 시스템의 실제 응용에 초점을 맞추며, 관련 기술 포함:

  • 텍스트 임베딩 기술(multilingual-e5)
  • 이중탑 모델 아키텍처
  • 다단계 순위 지정 시스템
  • 대규모 검색 시스템 최적화

결론 및 논의

주요 결론

  1. 의미론적 이해 능력은 현대 검색 엔진에 필수적
  2. 혼합 검색 전략은 정확한 매칭과 의미론적 매칭의 요구사항을 효과적으로 충족
  3. 다목표 최적화 프레임워크는 사용자 경험을 효과적으로 향상

한계

  1. 현재의 주제 관련성 지표 정의가 상대적으로 단순하여 다양한 쿼리 유형의 품질 기대를 완전히 포착할 수 없음
  2. GPT를 사용한 품질 평가에 일정한 한계가 있을 수 있음

향후 방향

팀은 다음을 계획:

  1. 주제 관련성 평가 지표 개선
  2. 순위 지정층에 대규모 언어 모델(LLM) 도입하여 쿼리 및 게시물 텍스트의 결합 주의 메커니즘 구현
  3. 언어에 대한 심층 이해 능력 추가 향상

심층 평가

장점

  1. 실용적 가치 높음: 실제 업무의 중요한 문제 해결
  2. 아키텍처 설계 합리적: 이중층 아키텍처가 효과와 효율성의 균형을 효과적으로 달성
  3. 기술 방안 성숙: 대규모 배포의 엔지니어링 과제를 충분히 고려
  4. 평가 체계 완비: 품질 및 참여도의 이중 평가 프레임워크 구축
  5. 효과 현저함: 10% 이상의 지표 향상 달성

부족한 점

  1. 기술 혁신 제한적: 주로 기존 기술의 엔지니어링 응용
  2. 평가 방법 한계: GPT 평가에 의존하여 편향 도입 가능성
  3. 비교 실험 부족: 다른 의미론적 검색 방법과의 상세한 비교 부재
  4. 이론 분석 부재: 심층적인 이론 분석 및 소거 실험 없음

영향력

  1. 산업계 가치: 대규모 의미론적 검색 시스템에 실제 참고 제공
  2. 기술 보급: 검색 엔진에서 의미론적 이해의 실제 응용 효과 시연
  3. 경험 공유: 귀중한 엔지니어링 실제 경험 제공

적용 가능한 시나리오

이 방법은 다음에 적합:

  • 대규모 콘텐츠 검색 플랫폼
  • 복잡한 자연어 쿼리 처리가 필요한 검색 시스템
  • 개인화에 높은 요구사항이 있는 검색 응용
  • 여러 최적화 목표의 균형이 필요한 검색 시나리오

참고문헌

논문은 다음의 핵심 기술 및 도구를 인용:

  1. Apache Samza - 스트림 처리 프레임워크
  2. MTEB Leaderboard - 텍스트 임베딩 평가 벤치마크
  3. Venice - LinkedIn의 데이터 저장 플랫폼
  4. Multilingual E5 - 다국어 텍스트 임베딩 모델

요약: 이는 LinkedIn의 의미론적 검색 분야 엔지니어링 실제 경험을 공유하는 전형적인 산업계 기술 보고서입니다. 기술 혁신이 상대적으로 제한적이지만, 완전한 시스템 설계, 현저한 효과 향상, 엔지니어링 과제에 대한 심층적 고려는 산업계에 중요한 참고 가치를 제공합니다.