2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

LinkedInのコンテンツ検索エンジンにおけるセマンティック機能の導入

基本情報

  • 論文ID: 2412.20366
  • タイトル: Introducing Semantic Capability in LinkedIn's Content Search Engine
  • 著者: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • 機関: LinkedIn Corporation, Mountain View, CA, USA
  • 分類: cs.IR(情報検索)
  • 発表時期: 2024年12月
  • 論文リンク: https://arxiv.org/abs/2412.20366

要約

ユーザーの検索行動の進化に伴い、従来のキーワードベースの検索エンジンは、ますます複雑な自然言語クエリのニーズを満たすことができなくなっている。本論文は、LinkedInが新たに設計したセマンティック理解機能を備えたコンテンツ検索エンジンを紹介し、主要指標への顕著な改善効果を示す。

研究背景と動機

問題定義

  1. 検索クエリの複雑化傾向: ユーザーは短いキーワードクエリから複雑な自然言語クエリへシフトしている。例えば「how to ask for a raise?」「dropout in AI」など
  2. 従来の検索の限界: キーワードマッチングベースの検索エンジンは複雑なクエリ処理において2つの主要な問題を抱えている:
    • クエリ内のすべてのキーワードがどの投稿にも存在しない場合、空の結果を返す
    • すべてのキーワードを含む投稿が存在しても、概念理解の欠如により質問に正しく答えられない可能性がある

研究動機

LinkedInの分析により、検索インデックスに実際にはクエリに正しく答える投稿が存在するが、これらの投稿がクエリ内のすべてのキーワードを含まない可能性があることが判明した。これにより、クエリ意図をより良く理解し、関連コンテンツを返すセマンティックマッチング機能を備えたコンテンツ検索エンジンの開発が促進された。

主要な貢献

  1. 二層アーキテクチャのセマンティック検索エンジンの設計: 検索層と多段階ランキング層を含み、キーワードマッチングとセマンティック理解を効果的に組み合わせた
  2. ハイブリッド検索戦略の実装: 用語ベースの検索器(TBR)と埋め込みベースの検索器(EBR)を同時に使用
  3. 多目的最適化フレームワークの確立: トピック関連性(on-topic rate)とユーザーエンゲージメント(long-dwells)を同時に最適化
  4. 顕著なパフォーマンス向上の達成: トピック関連性と長時間停留指標の両方で10%以上の改善

方法の詳細

タスク定義

各検索クエリに対して高品質で魅力的な投稿コンテンツを返す。以下の2つの定量指標で評価される:

  • トピック関連性(On-topic rate): GPTを使用して返された投稿の品質と関連性を評価
  • 長時間停留(Long-dwells): ユーザーが投稿に費やす停留時間を測定

モデルアーキテクチャ

1. 検索層(Retrieval Layer)

検索層は2つの並列検索器を含む:

用語ベースの検索器(TBR):

  • 逆インデックスを維持し、キーワードからそれを含む投稿へのマッピングを確立
  • 交差操作によってクエリ内のすべてのキーワードを含む投稿を検出
  • ナビゲーション型クエリ(特定の投稿を検索するなど)に適している

埋め込みベースの検索器(EBR):

  • デュアルタワーモデルアーキテクチャを採用
  • クエリ埋め込みタワー: クエリテキストとユーザー特性を処理し、クエリ埋め込みを生成
  • 投稿埋め込みタワー: 投稿テキストと著者特性を処理し、投稿埋め込みを生成
  • テキスト埋め込みにはmultilingual-e5モデルを使用
  • コサイン類似度によってクエリと投稿のマッチングスコアを計算

EBRの主要な利点:

  • セマンティックマッチング: 正確なキーワードマッチングではなく概念に基づく
  • 個性化: 検索者の特性に基づいて個性化された結果を返すことが可能
  • 目標最適化: 任意の目的関数の最適化をサポート

2. 多段階ランキング層(Multi-stage Ranking Layer)

ランキング層は効果と効率のバランスを取るため、2段階設計を採用:

L1ランキング段階:

  • シンプルなモデルを使用して数千の候補投稿を初期ランキング
  • 次段階に進む数百の候補投稿を選出

L2ランキング段階:

  • 複雑なモデルを使用して候補投稿を精密にランキング
  • 最終的な検索結果を生成

ランキングモデルアーキテクチャは2つの予測モデルを含む:

  • トピック関連性予測モデル: クエリテキストと投稿テキストを入力として、関連性スコアを出力
  • 長時間停留予測モデル: より豊富な特性セットを入力として含む:
    • クエリと投稿テキスト
    • BM25マッチングスコアなどのペアリング特性
    • クエリ特性(職位名を含むかどうかなど)
    • 投稿特性(投稿の人気度など)
    • ユーザー特性(求職意図があるかどうかなど)
    • 著者特性(著者の影響力など)
    • ユーザー-著者関係特性(友人であるかどうかなど)

最終スコア計算式:

score = α × on-topicness_score + (1-α) × long-dwell_score

ここでαは調整パラメータであり、オンライン実験を通じて最適値が決定される。

技術的革新点

  1. ハイブリッド検索戦略: 正確なマッチングとセマンティックマッチングの利点を結合
  2. デュアルタワーモデル設計: 投稿埋め込みの事前計算をサポートし、検索効率を大幅に向上
  3. 多目的最適化: コンテンツ品質とユーザーエンゲージメントを同時に考慮
  4. 階層型アーキテクチャ: 効率と効果の間で良好なバランスを実現

実験設定

データセット

  • LinkedInコンテンツ検索エンジンの履歴データを使用
  • 訓練データ形式: (クエリ、投稿、ラベル)三つ組
  • ラベルはトピック関連性と長時間停留の2つの指標を組み合わせたもの

評価指標

  1. トピック関連性(On-topic rate):
    • GPTを使用して返された上位10投稿をスコア化(1は関連性が高く高品質、0は無関連)
    • ラベルが1の投稿の割合を計算
  2. 長時間停留(Long-dwells):
    • ユーザーが投稿に費やす停留時間に基づいて二値分類でラベル付け
    • ラベルが1の投稿数を統計

実装の詳細

  • テキスト埋め込みモデル: multilingual-e5
  • 埋め込み保存: Veniceキー値ストレージシステム
  • 近似最近傍検索: レイテンシ制御のためのスキャン投稿数の制限
  • 事前計算最適化: オフラインおよびニアラインでの投稿埋め込み計算

実験結果

主要な結果

新しいセマンティック検索エンジンは顕著なパフォーマンス向上を達成した:

  • トピック関連性: 10%以上の改善
  • 長時間停留: 10%以上の改善
  • サイトレベルの影響: LinkedIn全体のセッション数に肯定的な影響

典型的なケース

検索エンジンは現在、複雑な自然言語クエリを効果的に処理できるようになった。例えば:

  • 「how to ask for a raise?」(昇給をお願いする方法?)
  • 「dropout in AI」(AI分野の中退問題)

これらのクエリは従来のキーワードベースのシステムでは満足のいく結果を得ることが難しかった。

関連研究

論文は主に産業規模の検索システムの実際的応用に焦点を当てており、関連技術には以下が含まれる:

  • テキスト埋め込み技術(multilingual-e5)
  • デュアルタワーモデルアーキテクチャ
  • 多段階ランキングシステム
  • 大規模検索システムの最適化

結論と考察

主要な結論

  1. セマンティック理解機能は現代の検索エンジンにとって重要である
  2. ハイブリッド検索戦略は正確なマッチングとセマンティックマッチングの両方のニーズに対応できる
  3. 多目的最適化フレームワークはユーザー体験を効果的に向上させた

限界

  1. 現在のトピック関連性指標の定義は比較的シンプルであり、異なるクエリタイプの品質期待を完全に捉えることができない
  2. 品質評価にGPTに依存することは一定の限界を持つ可能性がある

今後の方向性

チームは以下を計画している:

  1. トピック関連性評価指標の改善
  2. ランキング層への大規模言語モデル(LLM)の導入により、クエリと投稿テキストの共同注意メカニズムを実現
  3. 言語に対する深い理解能力のさらなる向上

深い評価

利点

  1. 実用的価値が高い: 実際のビジネスにおける重要な問題を解決
  2. アーキテクチャ設計が合理的: 二層アーキテクチャは効果と効率を効果的にバランス
  3. 技術ソリューションが成熟: 大規模デプロイメントのエンジニアリング課題を十分に考慮
  4. 評価体系が完善: 品質とエンゲージメントの二重評価フレームワークを確立
  5. 効果が顕著: 10%以上の指標改善を達成

不足点

  1. 技術的革新が限定的: 主に既存技術のエンジニアリング応用
  2. 評価方法の限界: GPT評価に依存することで偏りが生じる可能性
  3. 比較実験が不十分: 他のセマンティック検索方法との詳細な比較が不足
  4. 理論的分析の欠如: 深い理論的分析とアブレーション実験がない

影響力

  1. 産業界での価値: 大規模セマンティック検索システムに実践的参考を提供
  2. 技術推進: セマンティック理解の検索エンジンにおける実際的応用効果を実証
  3. 経験共有: 価値あるエンジニアリング実践経験を提供

適用可能なシーン

本手法は以下に適用可能:

  • 大規模コンテンツ検索プラットフォーム
  • 複雑な自然言語クエリ処理が必要な検索システム
  • 個性化に対する要件が高い検索アプリケーション
  • 複数の最適化目標のバランスが必要な検索シーン

参考文献

論文は以下の主要技術とツールを引用している:

  1. Apache Samza - ストリーム処理フレームワーク
  2. MTEB Leaderboard - テキスト埋め込み評価ベンチマーク
  3. Venice - LinkedInのデータストレージプラットフォーム
  4. Multilingual E5 - 多言語テキスト埋め込みモデル

要約: これは典型的な産業界の技術レポートであり、LinkedInがセマンティック検索におけるエンジニアリング実践経験を共有することに重点を置いている。技術的革新は比較的限定的であるが、その完全なシステム設計、顕著な効果改善、およびエンジニアリング課題に対する深い考慮により、産業界にとって重要な参考価値を持つ。