2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag

In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.

academic

Liaison d'Entités de Marque de Requête dans la Recherche E-Commerce

Informations de Base

ID de l'article : 2502.01555
Titre : Query Brand Entity Linking in E-Commerce Search
Auteurs : Dong Liu, Sreyashi Nag (Amazon)
Classification : cs.IR cs.AI cs.LG
Date de publication/Conférence : 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2502.01555

Résumé

Cet article aborde le problème de la liaison d'entités de marque dans les requêtes de recherche e-commerce. La tâche de liaison d'entités est réalisée de deux manières : 1) un processus en deux étapes comprenant la détection de mentions d'entités et la désambiguïsation d'entités ; 2) une méthode de liaison de bout en bout qui extrait directement l'entité cible du texte d'entrée. Cette tâche présente des défis uniques : les requêtes sont extrêmement courtes (moyenne de 2,4 mots), manquent de structure de langage naturel, et nécessitent de traiter un espace de marques à grande échelle. L'article propose une méthode en deux étapes combinant la reconnaissance d'entités nommées avec l'appariement, ainsi qu'une solution novatrice de bout en bout utilisant la classification multi-classe extrême. L'efficacité de la solution est validée par des tests de référence hors ligne et des tests A/B en ligne.

Contexte et Motivation de la Recherche

Définition du Problème

Dans la recherche e-commerce, l'identification de la marque est le deuxième attribut le plus important après le type de produit. L'identification correcte des noms de marque (qu'ils soient mentionnés directement ou indirectement) est un élément crucial de la compréhension des requêtes de recherche et est essentielle pour offrir une bonne expérience d'achat.

Analyse des Défis

Limitations des caractéristiques de requête : Les requêtes e-commerce sont extrêmement courtes (moyenne de 2,4 mots), manquent de structure de langage naturel, et les modèles NLP open-source ont du mal à traiter cette distribution de requêtes
Espace de marques massif : Nécessite de traiter des centaines de milliers de marques uniques, avec de nouvelles marques s'ajoutant continuellement
Problèmes de diversité :
- Unification des variantes de noms de marque dans différentes langues et régions
- Différentes formes de surface pour une même marque (abréviations vs noms complets)
- Reconnaissance des relations entre marques mères et sous-marques

Motivation de la Recherche

Les méthodes existantes de reconnaissance de marques basées sur les chaînes de caractères présentent des limitations. Il est nécessaire d'unifier les concepts de marque dans un espace de noms unique d'entités de marques globales, permettant une reconnaissance unifiée entre les langues, les magasins et les formes de surface.

Contributions Principales

Construction d'un modèle de liaison d'entités en deux étapes : Cadre de prédiction d'entités de marque combinant un modèle NER pré-entraîné et l'appariement de formes de surface
Exploration de techniques d'appariement : Développement de techniques d'appariement lexical et sémantique, avec proposition d'une étape de filtrage basée sur le type de produit pour l'optimisation de la prédiction d'entités dans l'espace de sortie de marques à grande échelle
Proposition d'un modèle de classification multi-classe extrême de bout en bout : Prédiction directe d'entités de marque pertinentes à partir de requêtes de recherche, fusionnée avec le modèle en deux étapes
Validation complète : Vérification de l'efficacité de la solution par des tests de référence expérimentaux hors ligne à grande échelle et des tests A/B en ligne

Détails de la Méthode

Définition de la Tâche

Étant donné une requête de recherche de marque (par exemple, « running shoes »), identifier et lier l'entité de marque unique correspondante dans la base de données de marques. L'entrée est le texte de requête brut, la sortie est l'ID d'entité de marque correspondant.

Architecture du Modèle

1. Cadre en Deux Étapes

Méthode en deux étapes de base (NER + Appariement lexical exact) :

Première étape : Extraction des mentions de marque à l'aide du modèle MetaTS-NER
```
m = f_NER(q)
```
Deuxième étape : Appariement de chaînes exact via un dictionnaire statique
```
E_ID = g(m)
```
Étape de filtrage : Désambiguïsation basée sur le type de produit
```
e = h(E_ID, q, PT_q)
```

Méthode en deux étapes améliorée (NER + Appariement sémantique PECOS) :

Modélisation de l'étape d'appariement comme un problème de classification multi-classe extrême
Utilisation du cadre PECOS pour traiter l'espace d'entités de marques à grande échelle (environ 60 000 entités)
Sortie d'entités de marque et de leurs scores de pertinence : (E_ID, S) = g_M2E(m)

2. Cadre de Bout en Bout (Q2E-PECOS)

Prédiction directe d'entités de marque à partir de la requête, évitant la propagation d'erreurs de l'étape NER :

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Caractéristiques clés :

Ajout d'une classe NIL pour traiter les requêtes sans marque
Complexité temporelle : O(b × log L), où b est la taille du faisceau et L le nombre d'entités de marques
Complexité spatiale : réduite de O(d × L) à O(d × log L)

3. Cadre de Fusion

Combinaison des avantages de la méthode en deux étapes d'appariement exact et de la méthode de bout en bout :

Exécution parallèle des deux méthodes
Priorité donnée aux résultats d'appariement exact pour garantir une haute précision
Retour aux résultats Q2E-PECOS pour améliorer le rappel

Points d'Innovation Technique

Application de PECOS à la liaison de marques : Première application du cadre de classification multi-classe extrême à la liaison d'entités de marques e-commerce
Désambiguïsation assistée par type de produit : Utilisation des informations de type de produit de la requête pour la désambiguïsation d'entités de marques
Support multilingue : Reconnaissance de marques dans 13 langues
Stratégie de fusion : Combinaison astucieuse de méthodes à haute précision et à haut rappel

Configuration Expérimentale

Ensemble de Données

Ensemble de données	Échelle
Nombre d'entités de marques	61 697
Brand2entity	616 974
Données fortement annotées (SL)	806 972
Données faiblement annotées (WL)	1 308 816
Données de test	28 439

Composition des données :

Brand2entity (B2E) : Dictionnaire interne de paires nom de marque-entité
Données fortement annotées (SL) : Données de requêtes de recherche annotées manuellement dans 13 langues
Données faiblement annotées (WL) : Données dérivées d'interactions historiques requête-produit avec supervision faible

Métriques d'Évaluation

Rappel : Rappel = |C| / |L_single|
Précision : Précision = |C| / |P_single|
Couverture : Couverture = |P_single| / |T|
Score F1 : Moyenne harmonique

Où C est l'ensemble des prédictions correctes, L_single est l'ensemble des requêtes avec étiquette d'entité de marque unique, et P_single est l'ensemble des requêtes prédites avec entité de marque unique par le modèle.

Méthodes de Comparaison

NER + Appariement lexical exact : Méthode de base en deux étapes
NER + M2E-PECOS : Méthode en deux étapes avec appariement sémantique
Bi-encoder : Ligne de base d'encodeur double utilisant Qwen3 Embedding 0.6B
Q2E-PECOS : Méthode PECOS de bout en bout
Modèle de fusion : Diverses combinaisons de méthodes hybrides

Résultats Expérimentaux

Résultats Principaux

Méthode	Données d'entraînement	Fusion	Groupe-1	Groupe-2
			Couverture/Rappel/Précision/F1	Couverture/Rappel/Précision/F1
NER + Appariement exact	✓ ✓		58,28/64,66/97,22/77,67	70,16/86,21/99,15/92,23
Q2E-PECOS	✓ ✓ ✓		70,98/75,26/96,13/84,42	80,77/94,71/98,92/96,77
Q2E-PECOS	✓ ✓ ✓	✓	75,31/77,35/94,93/85,24	85,09/94,64/98,55/96,56

Découvertes clés :

Q2E-PECOS de bout en bout améliore significativement la couverture et le rappel
La stratégie de fusion améliore le rappel tout en maintenant une haute précision
Les données faiblement annotées ont un impact notable sur l'amélioration des performances du modèle de bout en bout

Analyse des Performances Multilingues

Les performances varient considérablement selon les langues :

Langues à ressources élevées (anglais, espagnol) : Toutes les méthodes fonctionnent bien
Langues à ressources faibles (japonais) : Couverture de seulement 19,03% pour NER + appariement exact
Méthode de fusion : Équilibre précision et rappel dans toutes les langues

Analyse du Taux de Faux Positifs

Taux de faux positifs sur 85 000 requêtes sans marque :

NER + Appariement exact : 1,177%
Q2E-PECOS (avec données faiblement annotées) : 6,550%

Bien que le taux de faux positifs de la méthode de bout en bout soit plus élevé, il reste acceptable compte tenu de l'amélioration globale des performances.

Résultats des Tests A/B en Ligne

Métrique	Magasin Groupe-1	Magasin Groupe-2
Rappel d'entité de marque	+11,00%	+5,44%
Engagement client	+0,02%	-
Contribution immédiate au profit	+0,03%	-

Les tests en ligne confirment la valeur commerciale réelle de la solution de fusion.

Travaux Connexes

Méthodes Traditionnelles de Liaison d'Entités

Conception en deux étapes : Reconnaissance d'entités + Désambiguïsation d'entités
Génération de candidats : Appariement de formes de surface, expansion d'alias, appariement de probabilité a priori
Classement des candidats : Distance d'édition, similarité de vecteurs sémantiques

Méthodes de Bout en Bout

Apprentissage conjoint : Reconnaissance et désambiguïsation simultanées
Étiquetage de séquence : Classification de tokens basée sur BERT
Génération autorégressive : Génération token par token du nom d'entité

Spécificités du Domaine E-Commerce

Caractéristiques des requêtes : Courtes, bruyantes, ambiguës
Scénarios d'application : Récupération de produits, réécriture de requêtes, amélioration de la qualité des résultats de recherche
Défis techniques : Manque de contexte lexical, base de connaissances à grande échelle

Conclusion et Discussion

Conclusions Principales

Avantages de la méthode de bout en bout : Q2E-PECOS surpasse significativement la méthode traditionnelle en deux étapes en termes de couverture et de rappel
Efficacité de la stratégie de fusion : La méthode de fusion combinant l'appariement lexical à haute précision et l'appariement sémantique à haut rappel offre les meilleures performances
Importance des données : Les données faiblement annotées sont essentielles pour améliorer les performances du modèle de bout en bout
Valeur pratique : Les tests A/B en ligne confirment la valeur commerciale de la méthode

Limitations

Taux de faux positifs : Le taux de faux positifs de la méthode de bout en bout est plus élevé sur les requêtes sans marque
Différences linguistiques : Les performances sur les langues à ressources faibles peuvent encore être améliorées
Complexité de calcul : La méthode de fusion nécessite l'exécution parallèle de plusieurs modèles
Dépendance aux données : Nécessite une grande quantité de données faiblement annotées pour soutenir l'entraînement de bout en bout

Directions Futures

Optimisation du modèle : Réduction supplémentaire du taux de faux positifs, amélioration des performances sur les langues à ressources faibles
Amélioration de l'efficacité : Optimisation de la complexité de calcul, réduction de la latence d'inférence
Transfert entre domaines : Extension de la méthode à d'autres tâches d'extraction d'attributs e-commerce
Mise à jour dynamique : Gestion de l'ajout et de la mise à jour en temps réel de nouvelles marques

Évaluation Approfondie

Points Forts

Importance du problème : Résout un problème fondamental de la recherche e-commerce avec une valeur pratique importante
Innovation méthodologique : Première application du cadre de classification multi-classe extrême PECOS à la liaison d'entités de marques
Expériences complètes : Couvre les approches multilingues, les comparaisons multi-méthodes et la validation par tests A/B en ligne
Praticité d'ingénierie : Considère l'équilibre entre efficacité et précision dans le déploiement réel
Données riches : Utilise des données e-commerce réelles à grande échelle

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique sur les raisons pour lesquelles la méthode de bout en bout est plus efficace
Expériences d'ablation limitées : Analyse insuffisante de la contribution de chaque composant
Problème de faux positifs : Le taux de faux positifs de la méthode de bout en bout est relativement élevé et nécessite une optimisation supplémentaire
Analyse des frais généraux de calcul : Analyse insuffisante de la complexité de calcul de la méthode de fusion

Impact

Contribution académique : Fournit une nouvelle solution technique pour le domaine du NLP e-commerce
Valeur pratique : Déjà déployée chez Amazon, prouvant sa valeur commerciale
Reproductibilité : Fournit une description détaillée de la configuration expérimentale et des données
Valeur inspirante : Fournit une référence pour d'autres tâches d'extraction d'attributs e-commerce

Scénarios d'Application

Plateformes e-commerce : Reconnaissance de marques pour les moteurs de recherche e-commerce de tous types
Environnements multilingues : Plateformes e-commerce mondialisées supportant plusieurs langues
Applications à grande échelle : Systèmes en temps réel nécessitant de traiter des requêtes massives
Extraction d'attributs : Peut être étendu aux tâches de liaison d'entités pour d'autres attributs de produits

Références

L'article cite plusieurs travaux connexes importants, notamment :

L'article original du cadre PECOS Yu et al., 2022
Le modèle d'étiquetage de séquence multilingue MetaTS-NER Li et al., 2021
Les méthodes traditionnelles de liaison d'entités Cao et al., 2017 ; Le & Titov, 2019
Les travaux connexes sur la compréhension des requêtes e-commerce Kozareva et al., 2016 ; Manchanda et al., 2020

Évaluation Globale : Cet article est un travail de recherche appliquée de haute qualité qui résout un problème pratique important dans la recherche e-commerce. La méthode présente une forte innovativité, la validation expérimentale est complète, et les tests A/B en ligne prouvent sa valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et certains détails techniques, il s'agit globalement d'une contribution importante au domaine du NLP e-commerce.