2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

LinkedIn के कंटेंट सर्च इंजन में सिमांटिक क्षमता का परिचय

बुनियादी जानकारी

  • पेपर ID: 2412.20366
  • शीर्षक: LinkedIn के कंटेंट सर्च इंजन में सिमांटिक क्षमता का परिचय
  • लेखक: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • संस्थान: LinkedIn Corporation, Mountain View, CA, USA
  • वर्गीकरण: cs.IR (सूचना पुनर्प्राप्ति)
  • प्रकाशन समय: दिसंबर 2024
  • पेपर लिंक: https://arxiv.org/abs/2412.20366

सारांश

उपयोगकर्ता खोज व्यवहार के विकास के साथ, पारंपरिक कीवर्ड-आधारित सर्च इंजन जटिल प्राकृतिक भाषा क्वेरी की बढ़ती मांग को पूरा नहीं कर सकते। यह पेपर LinkedIn के नए डिज़ाइन किए गए सिमांटिक समझ क्षमता वाले कंटेंट सर्च इंजन का परिचय देता है और मुख्य मेट्रिक्स में इसके महत्वपूर्ण सुधार को प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. सर्च क्वेरी की जटिलता में वृद्धि: उपयोगकर्ता छोटी कीवर्ड क्वेरी से जटिल प्राकृतिक भाषा क्वेरी की ओर बढ़ गए हैं, जैसे "how to ask for a raise?" (वेतन वृद्धि के लिए कैसे पूछें?), "dropout in AI" (AI में ड्रॉपआउट) आदि
  2. पारंपरिक सर्च की सीमाएं: कीवर्ड मिलान पर आधारित सर्च इंजन जटिल क्वेरी को संभालते समय दो मुख्य समस्याओं का सामना करते हैं:
    • जब क्वेरी में सभी कीवर्ड किसी भी पोस्ट में मौजूद नहीं होते, तो खाली परिणाम लौटाए जाते हैं
    • भले ही सभी कीवर्ड वाली पोस्ट मौजूद हो, फिर भी अवधारणा की समझ की कमी के कारण प्रश्न का सही उत्तर नहीं दे सकते

अनुसंधान प्रेरणा

LinkedIn के विश्लेषण से पता चला कि सर्च इंडेक्स में वास्तव में ऐसी पोस्ट मौजूद हैं जो क्वेरी का सही उत्तर दे सकती हैं, लेकिन ये पोस्ट क्वेरी में सभी कीवर्ड नहीं रखती हैं। इसने टीम को सिमांटिक मिलान क्षमता वाले कंटेंट सर्च इंजन विकसित करने के लिए प्रेरित किया, ताकि क्वेरी के इरादे को बेहतर ढंग से समझा जा सके और प्रासंगिक कंटेंट लौटाया जा सके।

मुख्य योगदान

  1. दोहरी-स्तरीय आर्किटेक्चर वाले सिमांटिक सर्च इंजन का डिज़ाइन: पुनर्प्राप्ति स्तर और बहु-चरणीय रैंकिंग स्तर शामिल हैं, जो कीवर्ड मिलान और सिमांटिक समझ को प्रभावी ढंग से जोड़ते हैं
  2. हाइब्रिड पुनर्प्राप्ति रणनीति का कार्यान्वयन: शब्द-आधारित पुनर्प्राप्तिकर्ता (TBR) और एम्बेडिंग-आधारित पुनर्प्राप्तिकर्ता (EBR) दोनों का उपयोग करता है
  3. बहु-उद्देश्य अनुकूलन ढांचे की स्थापना: विषय प्रासंगिकता (on-topic rate) और उपयोगकर्ता संलग्नता (long-dwells) दोनों को अनुकूलित करता है
  4. उल्लेखनीय प्रदर्शन सुधार प्राप्त किए: विषय प्रासंगिकता और लंबे समय तक रुकने वाले मेट्रिक्स दोनों में 10% से अधिक सुधार

विधि विवरण

कार्य परिभाषा

प्रत्येक सर्च क्वेरी के लिए उच्च गुणवत्ता, आकर्षक पोस्ट कंटेंट लौटाना, निम्नलिखित दो मात्रात्मक मेट्रिक्स के माध्यम से मूल्यांकन किया जाता है:

  • विषय प्रासंगिकता (On-topic rate): लौटाई गई पोस्ट की गुणवत्ता और प्रासंगिकता का मूल्यांकन करने के लिए GPT का उपयोग करता है
  • लंबे समय तक रुकना (Long-dwells): उपयोगकर्ता द्वारा पोस्ट पर बिताए गए समय को मापता है

मॉडल आर्किटेक्चर

1. पुनर्प्राप्ति स्तर (Retrieval Layer)

पुनर्प्राप्ति स्तर में दो समानांतर पुनर्प्राप्तिकर्ता शामिल हैं:

शब्द-आधारित पुनर्प्राप्तिकर्ता (TBR):

  • उलटा इंडेक्स बनाए रखता है, कीवर्ड से उस शब्द वाली पोस्ट का मानचित्रण स्थापित करता है
  • प्रतिच्छेदन ऑपरेशन के माध्यम से क्वेरी में सभी कीवर्ड वाली पोस्ट खोजता है
  • नेविगेशनल क्वेरी के लिए उपयुक्त, जैसे विशिष्ट पोस्ट खोजना

एम्बेडिंग-आधारित पुनर्प्राप्तिकर्ता (EBR):

  • दोहरी-टावर मॉडल आर्किटेक्चर (Two-tower Model) अपनाता है
  • क्वेरी एम्बेडिंग टावर: क्वेरी टेक्स्ट और उपयोगकर्ता विशेषताओं को संसाधित करता है, क्वेरी एम्बेडिंग उत्पन्न करता है
  • पोस्ट एम्बेडिंग टावर: पोस्ट टेक्स्ट और लेखक विशेषताओं को संसाधित करता है, पोस्ट एम्बेडिंग उत्पन्न करता है
  • टेक्स्ट एम्बेडिंग के लिए multilingual-e5 मॉडल का उपयोग करता है
  • कोसाइन समानता के माध्यम से क्वेरी और पोस्ट का मिलान स्कोर की गणना करता है

EBR के मुख्य लाभ:

  • सिमांटिक मिलान: सटीक कीवर्ड मिलान के बजाय अवधारणा पर आधारित
  • व्यक्तिगतकरण: खोजकर्ता की विशेषताओं के अनुसार व्यक्तिगत परिणाम लौटा सकता है
  • लक्ष्य अनुकूलन: किसी भी लक्ष्य फ़ंक्शन के अनुकूलन का समर्थन करता है

2. बहु-चरणीय रैंकिंग स्तर (Multi-stage Ranking Layer)

रैंकिंग स्तर प्रभाव और दक्षता को संतुलित करने के लिए दो-चरणीय डिज़ाइन अपनाता है:

L1 रैंकिंग चरण:

  • हजारों उम्मीदवार पोस्ट को प्रारंभिक रैंकिंग के लिए सरल मॉडल का उपयोग करता है
  • अगले चरण में प्रवेश करने के लिए शीर्ष कुछ सौ उम्मीदवार पोस्ट का चयन करता है

L2 रैंकिंग चरण:

  • उम्मीदवार पोस्ट को सूक्ष्म रैंकिंग के लिए जटिल मॉडल का उपयोग करता है
  • अंतिम सर्च परिणाम उत्पन्न करता है

रैंकिंग मॉडल आर्किटेक्चर में दो भविष्यवाणी मॉडल शामिल हैं:

  • विषय प्रासंगिकता भविष्यवाणी मॉडल: क्वेरी टेक्स्ट और पोस्ट टेक्स्ट इनपुट करता है, प्रासंगिकता स्कोर आउटपुट करता है
  • लंबे समय तक रुकने की भविष्यवाणी मॉडल: अधिक समृद्ध विशेषताओं का सेट इनपुट करता है, जिसमें शामिल हैं:
    • क्वेरी और पोस्ट टेक्स्ट
    • BM25 मिलान स्कोर जैसी युग्मित विशेषताएं
    • क्वेरी विशेषताएं (जैसे क्या इसमें नौकरी का शीर्षक है)
    • पोस्ट विशेषताएं (जैसे पोस्ट की लोकप्रियता)
    • उपयोगकर्ता विशेषताएं (जैसे क्या नौकरी खोजने का इरादा है)
    • लेखक विशेषताएं (जैसे लेखक का प्रभाव)
    • उपयोगकर्ता-लेखक संबंध विशेषताएं (जैसे क्या मित्र हैं)

अंतिम स्कोर गणना सूत्र:

score = α × on-topicness_score + (1-α) × long-dwell_score

जहां α एक समायोजन पैरामीटर है, जिसका इष्टतम मान ऑनलाइन प्रयोगों के माध्यम से निर्धारित किया जाता है।

तकनीकी नवाचार बिंदु

  1. हाइब्रिड पुनर्प्राप्ति रणनीति: सटीक मिलान और सिमांटिक मिलान के लाभों को जोड़ता है
  2. दोहरी-टावर मॉडल डिज़ाइन: पोस्ट एम्बेडिंग के पूर्व-गणना का समर्थन करता है, पुनर्प्राप्ति दक्षता में काफी सुधार करता है
  3. बहु-उद्देश्य अनुकूलन: कंटेंट गुणवत्ता और उपयोगकर्ता संलग्नता दोनों पर विचार करता है
  4. स्तरीय आर्किटेक्चर: दक्षता और प्रभाव के बीच अच्छा संतुलन प्राप्त करता है

प्रयोगात्मक सेटअप

डेटासेट

  • LinkedIn कंटेंट सर्च इंजन के ऐतिहासिक डेटा का उपयोग करता है
  • प्रशिक्षण डेटा प्रारूप: (query, post, label) त्रिगुण
  • लेबल विषय प्रासंगिकता और लंबे समय तक रुकने दोनों मेट्रिक्स को जोड़ते हैं

मूल्यांकन मेट्रिक्स

  1. विषय प्रासंगिकता (On-topic rate):
    • शीर्ष 10 लौटाई गई पोस्ट को स्कोर करने के लिए GPT का उपयोग करता है (1 का अर्थ प्रासंगिक और उच्च गुणवत्ता, 0 का अर्थ अप्रासंगिक)
    • लेबल 1 वाली पोस्ट का प्रतिशत की गणना करता है
  2. लंबे समय तक रुकना (Long-dwells):
    • उपयोगकर्ता द्वारा पोस्ट पर बिताए गए समय के आधार पर द्विआधारी वर्गीकरण लेबल करता है
    • लेबल 1 वाली पोस्ट की संख्या की गणना करता है

कार्यान्वयन विवरण

  • टेक्स्ट एम्बेडिंग मॉडल: multilingual-e5
  • एम्बेडिंग स्टोरेज: Venice कुंजी-मान भंडारण प्रणाली
  • अनुमानित निकटतम पड़ोसी खोज: विलंबता को नियंत्रित करने के लिए स्कैन की गई पोस्ट की संख्या को सीमित करता है
  • पूर्व-गणना अनुकूलन: ऑफलाइन और निकट-रीयल-टाइम गणना पोस्ट एम्बेडिंग

प्रयोगात्मक परिणाम

मुख्य परिणाम

नया सिमांटिक सर्च इंजन उल्लेखनीय प्रदर्शन सुधार प्राप्त करता है:

  • विषय प्रासंगिकता: 10% से अधिक सुधार
  • लंबे समय तक रुकना: 10% से अधिक सुधार
  • साइट-स्तरीय प्रभाव: LinkedIn के समग्र सत्र संख्या पर सकारात्मक प्रभाव

विशिष्ट उदाहरण

सर्च इंजन अब जटिल प्राकृतिक भाषा क्वेरी को प्रभावी ढंग से संभाल सकता है, जैसे:

  • "how to ask for a raise?" (वेतन वृद्धि के लिए कैसे पूछें?)
  • "dropout in AI" (AI में ड्रॉपआउट)

ये क्वेरी पारंपरिक कीवर्ड-आधारित प्रणालियों में अक्सर संतोषजनक परिणाम प्राप्त करने में कठिनाई होती है।

संबंधित कार्य

पेपर मुख्य रूप से औद्योगिक-स्तरीय सर्च प्रणालियों के व्यावहारिक अनुप्रयोग पर केंद्रित है, संबंधित तकनीकों में शामिल हैं:

  • टेक्स्ट एम्बेडिंग तकनीक (multilingual-e5)
  • दोहरी-टावर मॉडल आर्किटेक्चर
  • बहु-चरणीय रैंकिंग प्रणाली
  • बड़े पैमाने पर पुनर्प्राप्ति प्रणाली अनुकूलन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सिमांटिक समझ क्षमता आधुनिक सर्च इंजन के लिए महत्वपूर्ण है
  2. हाइब्रिड पुनर्प्राप्ति रणनीति सटीक मिलान और सिमांटिक मिलान दोनों की आवश्यकताओं को पूरा कर सकती है
  3. बहु-उद्देश्य अनुकूलन ढांचा उपयोगकर्ता अनुभव को प्रभावी ढंग से सुधारता है

सीमाएं

  1. वर्तमान विषय प्रासंगिकता मेट्रिक परिभाषा अपेक्षाकृत सरल है, विभिन्न क्वेरी प्रकारों की गुणवत्ता की अपेक्षाओं को पूरी तरह से कैप्चर नहीं कर सकती
  2. गुणवत्ता मूल्यांकन के लिए GPT पर निर्भरता में कुछ सीमाएं हो सकती हैं

भविष्य की दिशा

टीम निम्नलिखित की योजना बना रहा है:

  1. विषय प्रासंगिकता मूल्यांकन मेट्रिक्स में सुधार करना
  2. रैंकिंग स्तर में बड़े भाषा मॉडल (LLM) का परिचय देना, क्वेरी और पोस्ट टेक्स्ट के संयुक्त ध्यान तंत्र को लागू करना
  3. भाषा की गहन समझ को और बेहतर बनाना

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: वास्तविक व्यावसायिक समस्याओं को हल करता है
  2. उचित आर्किटेक्चर डिज़ाइन: दोहरी-स्तरीय आर्किटेक्चर प्रभाव और दक्षता को प्रभावी ढंग से संतुलित करता है
  3. परिपक्व तकनीकी समाधान: बड़े पैमाने पर तैनाती की इंजीनियरिंग चुनौतियों पर पूरी तरह विचार करता है
  4. संपूर्ण मूल्यांकन प्रणाली: गुणवत्ता और संलग्नता की दोहरी मूल्यांकन ढांचा स्थापित करता है
  5. उल्लेखनीय प्रभाव: 10% से अधिक मेट्रिक सुधार प्राप्त करता है

कमियां

  1. सीमित तकनीकी नवाचार: मुख्य रूप से मौजूदा तकनीकों का इंजीनियरिंग अनुप्रयोग है
  2. मूल्यांकन विधि की सीमाएं: GPT मूल्यांकन पर निर्भरता पूर्वाग्रह का परिचय दे सकती है
  3. अपर्याप्त तुलनात्मक प्रयोग: अन्य सिमांटिक सर्च विधियों के साथ विस्तृत तुलना की कमी
  4. सैद्धांतिक विश्लेषण की कमी: गहन सैद्धांतिक विश्लेषण और विलोपन प्रयोगों की कमी

प्रभाव

  1. औद्योगिक मूल्य: बड़े पैमाने पर सिमांटिक सर्च प्रणालियों के लिए व्यावहारिक संदर्भ प्रदान करता है
  2. तकनीकी प्रचार: सर्च इंजन में सिमांटिक समझ के व्यावहारिक अनुप्रयोग प्रभाव को प्रदर्शित करता है
  3. अनुभव साझाकरण: मूल्यवान इंजीनियरिंग व्यावहारिक अनुभव प्रदान करता है

लागू परिदृश्य

यह विधि निम्नलिखित के लिए उपयुक्त है:

  • बड़े पैमाने पर कंटेंट सर्च प्लेटफॉर्म
  • जटिल प्राकृतिक भाषा क्वेरी को संभालने की आवश्यकता वाली सर्च प्रणालियां
  • व्यक्तिगतकरण के लिए उच्च आवश्यकताओं वाली सर्च अनुप्रयोगें
  • कई अनुकूलन उद्देश्यों को संतुलित करने की आवश्यकता वाली सर्च परिस्थितियां

संदर्भ

पेपर निम्नलिखित मुख्य तकनीकों और उपकरणों का संदर्भ देता है:

  1. Apache Samza - स्ट्रीम प्रोसेसिंग फ्रेमवर्क
  2. MTEB Leaderboard - टेक्स्ट एम्बेडिंग मूल्यांकन बेंचमार्क
  3. Venice - LinkedIn का डेटा भंडारण प्लेटफॉर्म
  4. Multilingual E5 - बहुभाषी टेक्स्ट एम्बेडिंग मॉडल

सारांश: यह एक विशिष्ट औद्योगिक तकनीकी रिपोर्ट है, जो LinkedIn के सिमांटिक सर्च में इंजीनियरिंग व्यावहारिक अनुभव साझा करने पर केंद्रित है। हालांकि तकनीकी नवाचार अपेक्षाकृत सीमित है, लेकिन इसकी संपूर्ण प्रणाली डिज़ाइन, उल्लेखनीय प्रदर्शन सुधार और इंजीनियरिंग चुनौतियों पर गहन विचार, इसे औद्योगिक क्षेत्र के लिए महत्वपूर्ण संदर्भ मूल्य प्रदान करते हैं।