2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag

In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.

academic

Query Brand Entity Linking in E-Commerce Search

基本信息

论文ID: 2502.01555
标题: Query Brand Entity Linking in E-Commerce Search
作者: Dong Liu, Sreyashi Nag (Amazon)
分类: cs.IR cs.AI cs.LG
发表时间/会议: 2025年（arXiv预印本）
论文链接: https://arxiv.org/abs/2502.01555

摘要

本文解决电商搜索查询中的品牌实体链接问题。实体链接任务通过两种方式完成：1）包含实体提及检测和实体消歧的两阶段过程；2）直接从输入文本获取目标实体的端到端链接方法。该任务面临独特挑战：查询极短（平均2.4个单词）、缺乏自然语言结构、需要处理大规模品牌空间。文章提出了结合命名实体识别与匹配的两阶段方法，以及使用极端多分类的新颖端到端解决方案。通过离线基准测试和在线A/B测试验证了解决方案的有效性。

研究背景与动机

问题定义

在电商搜索中，品牌识别是仅次于产品类型的第二重要属性。正确识别品牌名称（无论是直接提及还是间接提及）是搜索查询理解的重要组成部分，对提供良好购物体验至关重要。

挑战分析

查询特征限制：电商查询极短（平均2.4词），缺乏自然语言结构，开源NLP模型难以处理此类查询分布
品牌空间巨大：需要处理数十万个独特品牌，且不断有新品牌加入
多样性问题：
- 品牌名称在不同语言和地区的变体统一
- 同一品牌的不同表面形式（缩写vs全名）
- 母品牌与子品牌关系识别

研究动机

现有基于字符串的品牌识别方法存在局限性，需要将品牌概念统一到单一命名空间中的全局品牌实体，实现跨语言、跨商店、跨表面形式的统一识别。

核心贡献

构建两阶段实体链接模型：结合预训练NER模型和表面形式匹配的品牌实体预测框架
探索匹配技术：开发词汇和语义匹配技术，并提出基于产品类型的过滤步骤用于大规模品牌输出空间的实体预测优化
提出端到端极端多分类模型：直接以搜索查询为输入预测相关品牌实体，并与两阶段模型融合
全面验证：通过大规模离线实验基准测试和在线A/B测试验证解决方案有效性

方法详解

任务定义

给定品牌搜索查询（如" running shoes"），识别并链接到品牌数据库中的唯一品牌实体。输入为原始查询文本，输出为对应的品牌实体ID。

模型架构

1. 两阶段框架

基础两阶段方法（NER + 精确词汇匹配）：

第一阶段：使用MetaTS-NER模型提取品牌提及
```
m = f_NER(q)
```
第二阶段：通过静态字典进行精确字符串匹配
```
E_ID = g(m)
```
过滤步骤：基于产品类型进行消歧
```
e = h(E_ID, q, PT_q)
```

改进两阶段方法（NER + PECOS语义匹配）：

将匹配步骤建模为极端多分类问题
使用PECOS框架处理大规模品牌实体空间（约6万个实体）
输出品牌实体及其相关性分数：(E_ID, S) = g_M2E(m)

2. 端到端框架（Q2E-PECOS）

直接从查询预测品牌实体，避免NER阶段的错误传播：

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

关键特性：

添加NIL类处理非品牌查询
时间复杂度：O(b × log L)，其中b为beam size，L为品牌实体数量
空间复杂度：从O(d × L)降至O(d × log L)

3. 融合框架

结合两阶段精确匹配和端到端方法的优势：

并行执行两种方法
优先选择精确匹配结果以保证高精度
回退到Q2E-PECOS结果以提高覆盖率

技术创新点

PECOS在品牌链接中的应用：首次将极端多分类框架应用于电商品牌实体链接
产品类型辅助消歧：利用查询产品类型信息进行品牌实体消歧
多语言支持：支持13种语言的品牌识别
融合策略：巧妙结合高精度和高召回率方法

实验设置

数据集

数据集	规模
品牌实体数量	61,697
Brand2entity	616,974
强标注数据(SL)	806,972
弱标注数据(WL)	1,308,816
测试数据	28,439

数据构成：

Brand2entity (B2E)：品牌名称-实体对的内部字典
强标注数据(SL)：人工标注的13种语言搜索查询数据
弱标注数据(WL)：从历史查询-产品交互中派生的弱监督数据

评价指标

召回率：Recall = |C| / |L_single|
精确率：Precision = |C| / |P_single|
覆盖率：Coverage = |P_single| / |T|
F1分数：调和平均数

其中C为正确预测集合，L_single为单品牌实体标签查询集合，P_single为模型预测单品牌实体查询集合。

对比方法

NER + 精确词汇匹配：基线两阶段方法
NER + M2E-PECOS：语义匹配的两阶段方法
Bi-encoder：使用Qwen3 Embedding 0.6B的双编码器基线
Q2E-PECOS：端到端PECOS方法
融合模型：混合方法的各种组合

实验结果

主要结果

方法	训练数据	融合	Group-1	Group-2
			Coverage/Recall/Precision/F1	Coverage/Recall/Precision/F1
NER + 精确匹配	✓ ✓		58.28/64.66/97.22/77.67	70.16/86.21/99.15/92.23
Q2E-PECOS	✓ ✓ ✓		70.98/75.26/96.13/84.42	80.77/94.71/98.92/96.77
Q2E-PECOS	✓ ✓ ✓	✓	75.31/77.35/94.93/85.24	85.09/94.64/98.55/96.56