Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
LinkedIn के कंटेंट सर्च इंजन में सिमांटिक क्षमता का परिचय
उपयोगकर्ता खोज व्यवहार के विकास के साथ, पारंपरिक कीवर्ड-आधारित सर्च इंजन जटिल प्राकृतिक भाषा क्वेरी की बढ़ती मांग को पूरा नहीं कर सकते। यह पेपर LinkedIn के नए डिज़ाइन किए गए सिमांटिक समझ क्षमता वाले कंटेंट सर्च इंजन का परिचय देता है और मुख्य मेट्रिक्स में इसके महत्वपूर्ण सुधार को प्रदर्शित करता है।
सर्च क्वेरी की जटिलता में वृद्धि: उपयोगकर्ता छोटी कीवर्ड क्वेरी से जटिल प्राकृतिक भाषा क्वेरी की ओर बढ़ गए हैं, जैसे "how to ask for a raise?" (वेतन वृद्धि के लिए कैसे पूछें?), "dropout in AI" (AI में ड्रॉपआउट) आदि
पारंपरिक सर्च की सीमाएं: कीवर्ड मिलान पर आधारित सर्च इंजन जटिल क्वेरी को संभालते समय दो मुख्य समस्याओं का सामना करते हैं:
जब क्वेरी में सभी कीवर्ड किसी भी पोस्ट में मौजूद नहीं होते, तो खाली परिणाम लौटाए जाते हैं
भले ही सभी कीवर्ड वाली पोस्ट मौजूद हो, फिर भी अवधारणा की समझ की कमी के कारण प्रश्न का सही उत्तर नहीं दे सकते
LinkedIn के विश्लेषण से पता चला कि सर्च इंडेक्स में वास्तव में ऐसी पोस्ट मौजूद हैं जो क्वेरी का सही उत्तर दे सकती हैं, लेकिन ये पोस्ट क्वेरी में सभी कीवर्ड नहीं रखती हैं। इसने टीम को सिमांटिक मिलान क्षमता वाले कंटेंट सर्च इंजन विकसित करने के लिए प्रेरित किया, ताकि क्वेरी के इरादे को बेहतर ढंग से समझा जा सके और प्रासंगिक कंटेंट लौटाया जा सके।
दोहरी-स्तरीय आर्किटेक्चर वाले सिमांटिक सर्च इंजन का डिज़ाइन: पुनर्प्राप्ति स्तर और बहु-चरणीय रैंकिंग स्तर शामिल हैं, जो कीवर्ड मिलान और सिमांटिक समझ को प्रभावी ढंग से जोड़ते हैं
हाइब्रिड पुनर्प्राप्ति रणनीति का कार्यान्वयन: शब्द-आधारित पुनर्प्राप्तिकर्ता (TBR) और एम्बेडिंग-आधारित पुनर्प्राप्तिकर्ता (EBR) दोनों का उपयोग करता है
बहु-उद्देश्य अनुकूलन ढांचे की स्थापना: विषय प्रासंगिकता (on-topic rate) और उपयोगकर्ता संलग्नता (long-dwells) दोनों को अनुकूलित करता है
उल्लेखनीय प्रदर्शन सुधार प्राप्त किए: विषय प्रासंगिकता और लंबे समय तक रुकने वाले मेट्रिक्स दोनों में 10% से अधिक सुधार
सारांश: यह एक विशिष्ट औद्योगिक तकनीकी रिपोर्ट है, जो LinkedIn के सिमांटिक सर्च में इंजीनियरिंग व्यावहारिक अनुभव साझा करने पर केंद्रित है। हालांकि तकनीकी नवाचार अपेक्षाकृत सीमित है, लेकिन इसकी संपूर्ण प्रणाली डिज़ाइन, उल्लेखनीय प्रदर्शन सुधार और इंजीनियरिंग चुनौतियों पर गहन विचार, इसे औद्योगिक क्षेत्र के लिए महत्वपूर्ण संदर्भ मूल्य प्रदान करते हैं।