Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
Einführung semantischer Fähigkeiten in LinkedIns Content-Suchmaschine
Mit der Entwicklung des Nutzersuchverhaltens können traditionelle schlüsselwortbasierte Suchmaschinen die zunehmend komplexen Anforderungen natürlichsprachlicher Anfragen nicht mehr erfüllen. Dieser Artikel stellt LinkedIns neu gestaltete Content-Suchmaschine mit semantischen Verständnisfähigkeiten vor und demonstriert ihre signifikanten Verbesserungen bei Kernmetriken.
Trend zur Komplexität von Suchanfragen: Nutzer sind von kurzen Schlüsselwortabfragen zu komplexen natürlichsprachlichen Anfragen übergegangen, wie „how to ask for a raise?" oder „dropout in AI"
Einschränkungen traditioneller Suche: Schlüsselwortabgleich-basierte Suchmaschinen weisen bei der Verarbeitung komplexer Anfragen zwei Hauptprobleme auf:
Rückgabe leerer Ergebnisse, wenn nicht alle Schlüsselwörter der Anfrage in irgendeinem Beitrag vorhanden sind
Selbst wenn Beiträge mit allen Schlüsselwörtern existieren, können sie aufgrund mangelnden konzeptionellen Verständnisses die Frage möglicherweise nicht korrekt beantworten
LinkedIn entdeckte durch Analysen, dass im Suchindex tatsächlich Beiträge existieren, die Anfragen korrekt beantworten können, aber möglicherweise nicht alle Schlüsselwörter der Anfrage enthalten. Dies veranlasste das Team, eine Content-Suchmaschine mit semantischen Abgleichfähigkeiten zu entwickeln, um Abfrageabsichten besser zu verstehen und relevante Inhalte zurückzugeben.
Gestaltung einer zweischichtigen Architektur für semantische Suche: Umfasst Abruf- und mehrstufige Ranking-Schichten, die Schlüsselwortabgleich und semantisches Verständnis effektiv kombinieren
Implementierung einer hybriden Abrufstrategie: Verwendung sowohl eines termbasierten Abrufers (TBR) als auch eines einbettungsbasierten Abrufers (EBR)
Etablierung eines Multi-Objective-Optimierungsrahmens: Gleichzeitige Optimierung der Themenrelevanzrate (On-topic rate) und Nutzerengagement (Long-dwells)
Erreichung signifikanter Leistungsverbesserungen: Verbesserungen bei Themenrelevanz und Long-dwell-Metriken um über 10%
Die aktuelle Definition der Themenrelevanzmetrik ist relativ einfach und kann Qualitätserwartungen verschiedener Abfragetypen nicht vollständig erfassen
Die Abhängigkeit von GPT für Qualitätsbewertung kann gewisse Einschränkungen aufweisen
Zusammenfassung: Dies ist ein typischer Industrietechnologie-Bericht, der sich auf die Weitergabe von LinkedIns Ingenieurpraxis-Erfahrungen im Bereich semantische Suche konzentriert. Obwohl die technische Innovation relativ begrenzt ist, machen sein vollständiges Systemdesign, signifikante Effektverbesserungen und tiefgehende Berücksichtigung technischer Herausforderungen ihn für die Industrie von großem Referenzwert.