In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
论文ID : 2412.20366标题 : Introducing Semantic Capability in LinkedIn's Content Search Engine作者 : Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta机构 : LinkedIn Corporation, Mountain View, CA, USA分类 : cs.IR (Information Retrieval)发表时间 : 2024年12月论文链接 : https://arxiv.org/abs/2412.20366 随着用户搜索行为的演变,传统的基于关键词的搜索引擎已无法满足日益复杂的自然语言查询需求。本文介绍了LinkedIn新设计的具备语义理解能力的内容搜索引擎,并展示了其对核心指标的显著提升效果。
搜索查询复杂化趋势 : 用户已从简短的关键词查询转向复杂的自然语言查询,如"how to ask for a raise?"、"dropout in AI"等传统搜索的局限性 : 基于关键词匹配的搜索引擎在处理复杂查询时存在两个主要问题:
当查询中的所有关键词都不存在于任何帖子中时,返回空结果 即使包含所有关键词的帖子存在,也可能因缺乏概念理解而无法正确回答问题 LinkedIn通过分析发现,搜索索引中实际存在能够正确回答查询的帖子,但这些帖子可能不包含查询中的所有关键词。这促使团队开发具备语义匹配能力的内容搜索引擎,以更好地理解查询意图并返回相关内容。
设计了双层架构的语义搜索引擎 : 包含检索层和多阶段排序层,有效结合了关键词匹配和语义理解实现了混合检索策略 : 同时使用基于词条的检索器(TBR)和基于嵌入的检索器(EBR)建立了多目标优化框架 : 同时优化主题相关性(on-topic rate)和用户参与度(long-dwells)取得了显著的性能提升 : 主题相关性和长时间停留指标均提升超过10%为每个搜索查询返回高质量、吸引人的帖子内容,通过以下两个量化指标进行评估:
主题相关性(On-topic rate) : 使用GPT评估返回帖子的质量和相关性长时间停留(Long-dwells) : 测量用户在帖子上的停留时间检索层包含两个并行的检索器:
基于词条的检索器(TBR) :
维护倒排索引,建立关键词到包含该词帖子的映射 通过求交集操作找到包含查询中所有关键词的帖子 适用于导航型查询,如查找特定帖子 基于嵌入的检索器(EBR) :
采用双塔模型架构(Two-tower Model) 查询嵌入塔: 处理查询文本和用户特征,生成查询嵌入 帖子嵌入塔: 处理帖子文本和作者特征,生成帖子嵌入 使用multilingual-e5模型进行文本嵌入 通过余弦相似度计算查询与帖子的匹配分数 EBR的关键优势:
语义匹配 : 基于概念而非精确关键词匹配个性化 : 可根据搜索者特征返回个性化结果目标优化 : 支持任意目标函数的优化排序层采用两阶段设计以平衡效果和效率:
L1排序阶段 :
使用简单模型对数千个候选帖子进行初步排序 选出前几百个候选帖子进入下一阶段 L2排序阶段 :
使用复杂模型对候选帖子进行精细排序 生成最终的搜索结果 排序模型架构包含两个预测模型:
主题相关性预测模型 : 输入查询文本和帖子文本,输出相关性分数长时间停留预测模型 : 输入更丰富的特征集,包括:
查询和帖子文本 BM25匹配分数等配对特征 查询特征(如是否包含职位名称) 帖子特征(如帖子热度) 用户特征(如是否有求职意图) 作者特征(如作者影响力) 用户-作者关系特征(如是否为好友) 最终得分计算公式:
score = α × on-topicness_score + (1-α) × long-dwell_score
其中α作为调节参数,通过在线实验确定最优值。
混合检索策略 : 结合精确匹配和语义匹配的优势双塔模型设计 : 支持帖子嵌入的预计算,大幅提升检索效率多目标优化 : 同时考虑内容质量和用户参与度分层架构 : 在效率和效果之间取得良好平衡使用LinkedIn内容搜索引擎的历史数据 训练数据格式: (query, post, label)三元组 标签结合了主题相关性和长时间停留两个指标 主题相关性(On-topic rate) :使用GPT对前10个返回帖子进行评分(1表示相关且高质量,0表示不相关) 计算标签为1的帖子占比 长时间停留(Long-dwells) :根据用户在帖子上的停留时间进行二分类标记 统计标签为1的帖子数量 文本嵌入模型: multilingual-e5 嵌入存储: Venice键值存储系统 近似最近邻搜索: 限制扫描帖子数量以控制延迟 预计算优化: 离线和近线计算帖子嵌入 新的语义搜索引擎取得了显著的性能提升:
主题相关性 : 提升超过10%长时间停留 : 提升超过10%站点级影响 : 对LinkedIn整体会话数产生积极影响搜索引擎现在能够有效处理复杂的自然语言查询,如:
"how to ask for a raise?" (如何要求加薪?) "dropout in AI" (AI领域的辍学问题) 这些查询在传统基于关键词的系统中往往难以获得满意的结果。
论文主要关注工业级搜索系统的实际应用,相关技术包括:
文本嵌入技术(multilingual-e5) 双塔模型架构 多阶段排序系统 大规模检索系统优化 语义理解能力对现代搜索引擎至关重要 混合检索策略能够兼顾精确匹配和语义匹配的需求 多目标优化框架有效提升了用户体验 当前的主题相关性指标定义相对简单,无法完全捕获不同查询类型的质量期望 依赖GPT进行质量评估可能存在一定局限性 团队计划:
改进主题相关性评估指标 在排序层引入大语言模型(LLM),实现查询和帖子文本的联合注意力机制 进一步提升对语言的深度理解能力 实用价值高 : 解决了实际业务中的重要问题架构设计合理 : 双层架构有效平衡了效果和效率技术方案成熟 : 充分考虑了大规模部署的工程挑战评估体系完善 : 建立了质量和参与度的双重评估框架效果显著 : 取得了超过10%的指标提升技术创新有限 : 主要是现有技术的工程化应用评估方法局限 : 依赖GPT评估可能引入偏差对比实验不足 : 缺乏与其他语义搜索方法的详细对比理论分析缺失 : 没有深入的理论分析和消融实验工业界价值 : 为大规模语义搜索系统提供了实践参考技术推广 : 展示了语义理解在搜索引擎中的实际应用效果经验分享 : 提供了有价值的工程实践经验该方法适用于:
大规模内容搜索平台 需要处理复杂自然语言查询的搜索系统 对个性化有较高要求的搜索应用 需要平衡多个优化目标的搜索场景 论文引用了以下关键技术和工具:
Apache Samza - 流处理框架 MTEB Leaderboard - 文本嵌入评测基准 Venice - LinkedIn的数据存储平台 Multilingual E5 - 多语言文本嵌入模型 总结 : 这是一篇典型的工业界技术报告,重点在于分享LinkedIn在语义搜索方面的工程实践经验。虽然技术创新相对有限,但其完整的系统设计、显著的效果提升以及对工程挑战的深入考虑,使其对工业界具有重要的参考价值。