2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

Liaison d'Entités de Marque de Requête dans la Recherche E-Commerce

Informations de Base

  • ID de l'article : 2502.01555
  • Titre : Query Brand Entity Linking in E-Commerce Search
  • Auteurs : Dong Liu, Sreyashi Nag (Amazon)
  • Classification : cs.IR cs.AI cs.LG
  • Date de publication/Conférence : 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2502.01555

Résumé

Cet article aborde le problème de la liaison d'entités de marque dans les requêtes de recherche e-commerce. La tâche de liaison d'entités est réalisée de deux manières : 1) un processus en deux étapes comprenant la détection de mentions d'entités et la désambiguïsation d'entités ; 2) une méthode de liaison de bout en bout qui extrait directement l'entité cible du texte d'entrée. Cette tâche présente des défis uniques : les requêtes sont extrêmement courtes (moyenne de 2,4 mots), manquent de structure de langage naturel, et nécessitent de traiter un espace de marques à grande échelle. L'article propose une méthode en deux étapes combinant la reconnaissance d'entités nommées avec l'appariement, ainsi qu'une solution novatrice de bout en bout utilisant la classification multi-classe extrême. L'efficacité de la solution est validée par des tests de référence hors ligne et des tests A/B en ligne.

Contexte et Motivation de la Recherche

Définition du Problème

Dans la recherche e-commerce, l'identification de la marque est le deuxième attribut le plus important après le type de produit. L'identification correcte des noms de marque (qu'ils soient mentionnés directement ou indirectement) est un élément crucial de la compréhension des requêtes de recherche et est essentielle pour offrir une bonne expérience d'achat.

Analyse des Défis

  1. Limitations des caractéristiques de requête : Les requêtes e-commerce sont extrêmement courtes (moyenne de 2,4 mots), manquent de structure de langage naturel, et les modèles NLP open-source ont du mal à traiter cette distribution de requêtes
  2. Espace de marques massif : Nécessite de traiter des centaines de milliers de marques uniques, avec de nouvelles marques s'ajoutant continuellement
  3. Problèmes de diversité :
    • Unification des variantes de noms de marque dans différentes langues et régions
    • Différentes formes de surface pour une même marque (abréviations vs noms complets)
    • Reconnaissance des relations entre marques mères et sous-marques

Motivation de la Recherche

Les méthodes existantes de reconnaissance de marques basées sur les chaînes de caractères présentent des limitations. Il est nécessaire d'unifier les concepts de marque dans un espace de noms unique d'entités de marques globales, permettant une reconnaissance unifiée entre les langues, les magasins et les formes de surface.

Contributions Principales

  1. Construction d'un modèle de liaison d'entités en deux étapes : Cadre de prédiction d'entités de marque combinant un modèle NER pré-entraîné et l'appariement de formes de surface
  2. Exploration de techniques d'appariement : Développement de techniques d'appariement lexical et sémantique, avec proposition d'une étape de filtrage basée sur le type de produit pour l'optimisation de la prédiction d'entités dans l'espace de sortie de marques à grande échelle
  3. Proposition d'un modèle de classification multi-classe extrême de bout en bout : Prédiction directe d'entités de marque pertinentes à partir de requêtes de recherche, fusionnée avec le modèle en deux étapes
  4. Validation complète : Vérification de l'efficacité de la solution par des tests de référence expérimentaux hors ligne à grande échelle et des tests A/B en ligne

Détails de la Méthode

Définition de la Tâche

Étant donné une requête de recherche de marque (par exemple, « running shoes »), identifier et lier l'entité de marque unique correspondante dans la base de données de marques. L'entrée est le texte de requête brut, la sortie est l'ID d'entité de marque correspondant.

Architecture du Modèle

1. Cadre en Deux Étapes

Méthode en deux étapes de base (NER + Appariement lexical exact) :

  • Première étape : Extraction des mentions de marque à l'aide du modèle MetaTS-NER
    m = f_NER(q)
    
  • Deuxième étape : Appariement de chaînes exact via un dictionnaire statique
    E_ID = g(m)
    
  • Étape de filtrage : Désambiguïsation basée sur le type de produit
    e = h(E_ID, q, PT_q)
    

Méthode en deux étapes améliorée (NER + Appariement sémantique PECOS) :

  • Modélisation de l'étape d'appariement comme un problème de classification multi-classe extrême
  • Utilisation du cadre PECOS pour traiter l'espace d'entités de marques à grande échelle (environ 60 000 entités)
  • Sortie d'entités de marque et de leurs scores de pertinence : (E_ID, S) = g_M2E(m)

2. Cadre de Bout en Bout (Q2E-PECOS)

Prédiction directe d'entités de marque à partir de la requête, évitant la propagation d'erreurs de l'étape NER :

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Caractéristiques clés :

  • Ajout d'une classe NIL pour traiter les requêtes sans marque
  • Complexité temporelle : O(b × log L), où b est la taille du faisceau et L le nombre d'entités de marques
  • Complexité spatiale : réduite de O(d × L) à O(d × log L)

3. Cadre de Fusion

Combinaison des avantages de la méthode en deux étapes d'appariement exact et de la méthode de bout en bout :

  • Exécution parallèle des deux méthodes
  • Priorité donnée aux résultats d'appariement exact pour garantir une haute précision
  • Retour aux résultats Q2E-PECOS pour améliorer le rappel

Points d'Innovation Technique

  1. Application de PECOS à la liaison de marques : Première application du cadre de classification multi-classe extrême à la liaison d'entités de marques e-commerce
  2. Désambiguïsation assistée par type de produit : Utilisation des informations de type de produit de la requête pour la désambiguïsation d'entités de marques
  3. Support multilingue : Reconnaissance de marques dans 13 langues
  4. Stratégie de fusion : Combinaison astucieuse de méthodes à haute précision et à haut rappel

Configuration Expérimentale

Ensemble de Données

Ensemble de donnéesÉchelle
Nombre d'entités de marques61 697
Brand2entity616 974
Données fortement annotées (SL)806 972
Données faiblement annotées (WL)1 308 816
Données de test28 439

Composition des données :

  1. Brand2entity (B2E) : Dictionnaire interne de paires nom de marque-entité
  2. Données fortement annotées (SL) : Données de requêtes de recherche annotées manuellement dans 13 langues
  3. Données faiblement annotées (WL) : Données dérivées d'interactions historiques requête-produit avec supervision faible

Métriques d'Évaluation

  • Rappel : Rappel = |C| / |L_single|
  • Précision : Précision = |C| / |P_single|
  • Couverture : Couverture = |P_single| / |T|
  • Score F1 : Moyenne harmonique

Où C est l'ensemble des prédictions correctes, L_single est l'ensemble des requêtes avec étiquette d'entité de marque unique, et P_single est l'ensemble des requêtes prédites avec entité de marque unique par le modèle.

Méthodes de Comparaison

  1. NER + Appariement lexical exact : Méthode de base en deux étapes
  2. NER + M2E-PECOS : Méthode en deux étapes avec appariement sémantique
  3. Bi-encoder : Ligne de base d'encodeur double utilisant Qwen3 Embedding 0.6B
  4. Q2E-PECOS : Méthode PECOS de bout en bout
  5. Modèle de fusion : Diverses combinaisons de méthodes hybrides

Résultats Expérimentaux

Résultats Principaux

MéthodeDonnées d'entraînementFusionGroupe-1Groupe-2
Couverture/Rappel/Précision/F1Couverture/Rappel/Précision/F1
NER + Appariement exact✓ ✓58,28/64,66/97,22/77,6770,16/86,21/99,15/92,23
Q2E-PECOS✓ ✓ ✓70,98/75,26/96,13/84,4280,77/94,71/98,92/96,77
Q2E-PECOS✓ ✓ ✓75,31/77,35/94,93/85,2485,09/94,64/98,55/96,56

Découvertes clés :

  • Q2E-PECOS de bout en bout améliore significativement la couverture et le rappel
  • La stratégie de fusion améliore le rappel tout en maintenant une haute précision
  • Les données faiblement annotées ont un impact notable sur l'amélioration des performances du modèle de bout en bout

Analyse des Performances Multilingues

Les performances varient considérablement selon les langues :

  • Langues à ressources élevées (anglais, espagnol) : Toutes les méthodes fonctionnent bien
  • Langues à ressources faibles (japonais) : Couverture de seulement 19,03% pour NER + appariement exact
  • Méthode de fusion : Équilibre précision et rappel dans toutes les langues

Analyse du Taux de Faux Positifs

Taux de faux positifs sur 85 000 requêtes sans marque :

  • NER + Appariement exact : 1,177%
  • Q2E-PECOS (avec données faiblement annotées) : 6,550%

Bien que le taux de faux positifs de la méthode de bout en bout soit plus élevé, il reste acceptable compte tenu de l'amélioration globale des performances.

Résultats des Tests A/B en Ligne

MétriqueMagasin Groupe-1Magasin Groupe-2
Rappel d'entité de marque+11,00%+5,44%
Engagement client+0,02%-
Contribution immédiate au profit+0,03%-

Les tests en ligne confirment la valeur commerciale réelle de la solution de fusion.

Travaux Connexes

Méthodes Traditionnelles de Liaison d'Entités

  • Conception en deux étapes : Reconnaissance d'entités + Désambiguïsation d'entités
  • Génération de candidats : Appariement de formes de surface, expansion d'alias, appariement de probabilité a priori
  • Classement des candidats : Distance d'édition, similarité de vecteurs sémantiques

Méthodes de Bout en Bout

  • Apprentissage conjoint : Reconnaissance et désambiguïsation simultanées
  • Étiquetage de séquence : Classification de tokens basée sur BERT
  • Génération autorégressive : Génération token par token du nom d'entité

Spécificités du Domaine E-Commerce

  • Caractéristiques des requêtes : Courtes, bruyantes, ambiguës
  • Scénarios d'application : Récupération de produits, réécriture de requêtes, amélioration de la qualité des résultats de recherche
  • Défis techniques : Manque de contexte lexical, base de connaissances à grande échelle

Conclusion et Discussion

Conclusions Principales

  1. Avantages de la méthode de bout en bout : Q2E-PECOS surpasse significativement la méthode traditionnelle en deux étapes en termes de couverture et de rappel
  2. Efficacité de la stratégie de fusion : La méthode de fusion combinant l'appariement lexical à haute précision et l'appariement sémantique à haut rappel offre les meilleures performances
  3. Importance des données : Les données faiblement annotées sont essentielles pour améliorer les performances du modèle de bout en bout
  4. Valeur pratique : Les tests A/B en ligne confirment la valeur commerciale de la méthode

Limitations

  1. Taux de faux positifs : Le taux de faux positifs de la méthode de bout en bout est plus élevé sur les requêtes sans marque
  2. Différences linguistiques : Les performances sur les langues à ressources faibles peuvent encore être améliorées
  3. Complexité de calcul : La méthode de fusion nécessite l'exécution parallèle de plusieurs modèles
  4. Dépendance aux données : Nécessite une grande quantité de données faiblement annotées pour soutenir l'entraînement de bout en bout

Directions Futures

  1. Optimisation du modèle : Réduction supplémentaire du taux de faux positifs, amélioration des performances sur les langues à ressources faibles
  2. Amélioration de l'efficacité : Optimisation de la complexité de calcul, réduction de la latence d'inférence
  3. Transfert entre domaines : Extension de la méthode à d'autres tâches d'extraction d'attributs e-commerce
  4. Mise à jour dynamique : Gestion de l'ajout et de la mise à jour en temps réel de nouvelles marques

Évaluation Approfondie

Points Forts

  1. Importance du problème : Résout un problème fondamental de la recherche e-commerce avec une valeur pratique importante
  2. Innovation méthodologique : Première application du cadre de classification multi-classe extrême PECOS à la liaison d'entités de marques
  3. Expériences complètes : Couvre les approches multilingues, les comparaisons multi-méthodes et la validation par tests A/B en ligne
  4. Praticité d'ingénierie : Considère l'équilibre entre efficacité et précision dans le déploiement réel
  5. Données riches : Utilise des données e-commerce réelles à grande échelle

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique sur les raisons pour lesquelles la méthode de bout en bout est plus efficace
  2. Expériences d'ablation limitées : Analyse insuffisante de la contribution de chaque composant
  3. Problème de faux positifs : Le taux de faux positifs de la méthode de bout en bout est relativement élevé et nécessite une optimisation supplémentaire
  4. Analyse des frais généraux de calcul : Analyse insuffisante de la complexité de calcul de la méthode de fusion

Impact

  1. Contribution académique : Fournit une nouvelle solution technique pour le domaine du NLP e-commerce
  2. Valeur pratique : Déjà déployée chez Amazon, prouvant sa valeur commerciale
  3. Reproductibilité : Fournit une description détaillée de la configuration expérimentale et des données
  4. Valeur inspirante : Fournit une référence pour d'autres tâches d'extraction d'attributs e-commerce

Scénarios d'Application

  1. Plateformes e-commerce : Reconnaissance de marques pour les moteurs de recherche e-commerce de tous types
  2. Environnements multilingues : Plateformes e-commerce mondialisées supportant plusieurs langues
  3. Applications à grande échelle : Systèmes en temps réel nécessitant de traiter des requêtes massives
  4. Extraction d'attributs : Peut être étendu aux tâches de liaison d'entités pour d'autres attributs de produits

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • L'article original du cadre PECOS Yu et al., 2022
  • Le modèle d'étiquetage de séquence multilingue MetaTS-NER Li et al., 2021
  • Les méthodes traditionnelles de liaison d'entités Cao et al., 2017 ; Le & Titov, 2019
  • Les travaux connexes sur la compréhension des requêtes e-commerce Kozareva et al., 2016 ; Manchanda et al., 2020

Évaluation Globale : Cet article est un travail de recherche appliquée de haute qualité qui résout un problème pratique important dans la recherche e-commerce. La méthode présente une forte innovativité, la validation expérimentale est complète, et les tests A/B en ligne prouvent sa valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et certains détails techniques, il s'agit globalement d'une contribution importante au domaine du NLP e-commerce.