2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

Vinculación de Entidades de Marca de Consulta en Búsqueda de Comercio Electrónico

Información Básica

  • ID del Artículo: 2502.01555
  • Título: Query Brand Entity Linking in E-Commerce Search
  • Autores: Dong Liu, Sreyashi Nag (Amazon)
  • Clasificación: cs.IR cs.AI cs.LG
  • Fecha de Publicación/Conferencia: 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2502.01555

Resumen

Este artículo aborda el problema de la vinculación de entidades de marca en consultas de búsqueda de comercio electrónico. La tarea de vinculación de entidades se completa de dos formas: 1) un proceso de dos etapas que incluye detección de menciones de entidades y desambiguación de entidades; 2) un método de vinculación de extremo a extremo que obtiene directamente la entidad objetivo del texto de entrada. La tarea enfrenta desafíos únicos: consultas extremadamente cortas (promedio de 2.4 palabras), falta de estructura de lenguaje natural, y necesidad de procesar un espacio de marcas a gran escala. El artículo propone un método de dos etapas que combina reconocimiento de entidades nombradas con coincidencia, así como una solución novedosa de extremo a extremo utilizando clasificación multiclase extrema. La efectividad de la solución se verifica mediante pruebas de referencia sin conexión y pruebas A/B en línea.

Antecedentes de Investigación y Motivación

Definición del Problema

En la búsqueda de comercio electrónico, la identificación de marca es el segundo atributo más importante después del tipo de producto. La identificación correcta de nombres de marca (ya sea menciones directas o indirectas) es una parte crucial de la comprensión de consultas de búsqueda, esencial para proporcionar una buena experiencia de compra.

Análisis de Desafíos

  1. Limitaciones de Características de Consulta: Las consultas de comercio electrónico son extremadamente cortas (promedio de 2.4 palabras), carecen de estructura de lenguaje natural, y los modelos de PNL de código abierto tienen dificultades para procesar esta distribución de consultas
  2. Espacio de Marca Masivo: Necesidad de procesar cientos de miles de marcas únicas, con nuevas marcas agregándose continuamente
  3. Problemas de Diversidad:
    • Unificación de variantes de nombres de marca en diferentes idiomas y regiones
    • Diferentes formas de superficie para la misma marca (abreviaturas vs. nombres completos)
    • Identificación de relaciones entre marcas madre y submarcas

Motivación de la Investigación

Los métodos existentes de identificación de marca basados en cadenas tienen limitaciones. Es necesario unificar conceptos de marca en un espacio de nombres único de entidades de marca global, logrando identificación unificada entre idiomas, tiendas y formas de superficie.

Contribuciones Principales

  1. Construcción de Modelo de Vinculación de Entidades de Dos Etapas: Marco de predicción de entidades de marca que combina modelo NER preentrenado y coincidencia de formas de superficie
  2. Exploración de Técnicas de Coincidencia: Desarrollo de técnicas de coincidencia léxica y semántica, con propuesta de pasos de filtrado basados en tipo de producto para optimización de predicción de entidades en espacios de salida de marca a gran escala
  3. Propuesta de Modelo de Clasificación Multiclase Extrema de Extremo a Extremo: Predicción directa de entidades de marca relevantes a partir de consultas de búsqueda, con fusión con modelo de dos etapas
  4. Verificación Integral: Validación de efectividad de soluciones mediante pruebas de referencia experimentales sin conexión a gran escala y pruebas A/B en línea

Explicación Detallada de Métodos

Definición de Tarea

Dada una consulta de búsqueda de marca (como " running shoes"), identificar y vincular a la entidad de marca única en la base de datos de marcas. La entrada es el texto de consulta sin procesar, y la salida es el ID de entidad de marca correspondiente.

Arquitectura del Modelo

1. Marco de Dos Etapas

Método Básico de Dos Etapas (NER + Coincidencia Léxica Exacta):

  • Primera Etapa: Extracción de menciones de marca utilizando modelo MetaTS-NER
    m = f_NER(q)
    
  • Segunda Etapa: Coincidencia de cadena exacta mediante diccionario estático
    E_ID = g(m)
    
  • Paso de Filtrado: Desambiguación basada en tipo de producto
    e = h(E_ID, q, PT_q)
    

Método Mejorado de Dos Etapas (NER + Coincidencia Semántica PECOS):

  • Modelado del paso de coincidencia como problema de clasificación multiclase extrema
  • Utilización del marco PECOS para procesar espacio de entidades de marca a gran escala (aproximadamente 60,000 entidades)
  • Salida de entidad de marca y puntuación de relevancia: (E_ID, S) = g_M2E(m)

2. Marco de Extremo a Extremo (Q2E-PECOS)

Predicción directa de entidades de marca a partir de consultas, evitando propagación de errores de etapa NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Características Clave:

  • Adición de clase NIL para procesar consultas sin marca
  • Complejidad de Tiempo: O(b × log L), donde b es tamaño de beam, L es número de entidades de marca
  • Complejidad de Espacio: Reducida de O(d × L) a O(d × log L)

3. Marco de Fusión

Combinación de ventajas de método de coincidencia exacta de dos etapas y enfoque de extremo a extremo:

  • Ejecución paralela de ambos métodos
  • Priorización de resultados de coincidencia exacta para garantizar alta precisión
  • Retroceso a resultados Q2E-PECOS para mejorar cobertura

Puntos de Innovación Técnica

  1. Aplicación de PECOS en Vinculación de Marca: Primera aplicación de marco de clasificación multiclase extrema a vinculación de entidades de marca de comercio electrónico
  2. Desambiguación Asistida por Tipo de Producto: Utilización de información de tipo de producto de consulta para desambiguación de entidades de marca
  3. Soporte Multilingüe: Soporte para identificación de marca en 13 idiomas
  4. Estrategia de Fusión: Combinación ingeniosa de métodos de alta precisión y alta recuperación

Configuración Experimental

Conjunto de Datos

Conjunto de DatosEscala
Número de Entidades de Marca61,697
Brand2entity616,974
Datos Fuertemente Anotados (SL)806,972
Datos Débilmente Anotados (WL)1,308,816
Datos de Prueba28,439

Composición de Datos:

  1. Brand2entity (B2E): Diccionario interno de pares nombre-de-marca-entidad
  2. Datos Fuertemente Anotados (SL): Datos de consulta de búsqueda anotados manualmente en 13 idiomas
  3. Datos Débilmente Anotados (WL): Datos de supervisión débil derivados de interacciones históricas consulta-producto

Métricas de Evaluación

  • Recuperación: Recall = |C| / |L_single|
  • Precisión: Precision = |C| / |P_single|
  • Cobertura: Coverage = |P_single| / |T|
  • Puntuación F1: Media armónica

Donde C es conjunto de predicciones correctas, L_single es conjunto de consultas de etiqueta de entidad de marca única, P_single es conjunto de consultas de predicción de entidad de marca única del modelo.

Métodos de Comparación

  1. NER + Coincidencia Léxica Exacta: Método de dos etapas de referencia
  2. NER + M2E-PECOS: Método de dos etapas con coincidencia semántica
  3. Bi-encoder: Línea base de codificador dual utilizando Qwen3 Embedding 0.6B
  4. Q2E-PECOS: Método PECOS de extremo a extremo
  5. Modelo Fusionado: Varias combinaciones de método híbrido

Resultados Experimentales

Resultados Principales

MétodoDatos de EntrenamientoFusiónGrupo-1Grupo-2
Cobertura/Recuperación/Precisión/F1Cobertura/Recuperación/Precisión/F1
NER + Coincidencia Exacta✓ ✓58.28/64.66/97.22/77.6770.16/86.21/99.15/92.23
Q2E-PECOS✓ ✓ ✓70.98/75.26/96.13/84.4280.77/94.71/98.92/96.77
Q2E-PECOS✓ ✓ ✓75.31/77.35/94.93/85.2485.09/94.64/98.55/96.56

Hallazgos Clave:

  • Q2E-PECOS de extremo a extremo mejora significativamente cobertura y recuperación
  • Estrategia de fusión mejora recuperación manteniendo alta precisión
  • Datos débilmente anotados tienen impacto significativo en mejora de rendimiento del modelo de extremo a extremo

Análisis de Rendimiento Multilingüe

Diferencias significativas de rendimiento entre idiomas:

  • Idiomas de Alto Recurso (inglés, español): Buen rendimiento en todos los métodos
  • Idiomas de Bajo Recurso (japonés): Cobertura de NER + coincidencia exacta solo 19.03%
  • Método de Fusión: Equilibra precisión y recuperación en todos los idiomas

Análisis de Tasa de Falsos Positivos

Tasa de falsos positivos en 85K consultas sin marca:

  • NER + Coincidencia Exacta: 1.177%
  • Q2E-PECOS (con anotación débil): 6.550%

Aunque el método de extremo a extremo tiene tasa de falsos positivos más alta, considerando mejora de rendimiento general, sigue siendo aceptable.

Resultados de Prueba A/B en Línea

MétricaTienda Grupo-1Tienda Grupo-2
Recuperación de Entidad de Marca+11.00%+5.44%
Participación del Cliente+0.02%-
Ganancia de Contribución Inmediata+0.03%-

Las pruebas en línea confirman valor comercial real de solución fusionada.

Trabajo Relacionado

Métodos Tradicionales de Vinculación de Entidades

  • Diseño de Dos Etapas: Identificación de entidades + Desambiguación de entidades
  • Generación de Candidatos: Coincidencia de forma de superficie, expansión de alias, coincidencia de probabilidad previa
  • Clasificación de Candidatos: Distancia de edición, similitud de vector semántico

Métodos de Extremo a Extremo

  • Aprendizaje Conjunto: Identificación y desambiguación simultáneas
  • Etiquetado de Secuencia: Clasificación de token basada en BERT
  • Generación Autoregresiva: Generación token-por-token de nombres de entidades

Especificidad del Dominio de Comercio Electrónico

  • Características de Consulta: Cortas, ruidosas, ambiguas
  • Escenarios de Aplicación: Recuperación de productos, reescritura de consultas, mejora de calidad de resultados de búsqueda
  • Desafíos Técnicos: Falta de contexto léxico, base de conocimiento a gran escala

Conclusiones y Discusión

Conclusiones Principales

  1. Ventajas del Método de Extremo a Extremo: Q2E-PECOS supera significativamente método tradicional de dos etapas en cobertura y recuperación
  2. Efectividad de Estrategia de Fusión: Método fusionado que combina coincidencia léxica de alta precisión y coincidencia semántica de alta recuperación muestra mejor rendimiento
  3. Importancia de Datos: Datos débilmente anotados son críticos para mejora de rendimiento del modelo de extremo a extremo
  4. Valor Práctico: Pruebas A/B en línea confirman valor comercial del método

Limitaciones

  1. Tasa de Falsos Positivos: Método de extremo a extremo tiene tasa de falsos positivos más alta en consultas sin marca
  2. Diferencias de Idioma: Rendimiento en idiomas de bajo recurso aún tiene espacio para mejora
  3. Complejidad Computacional: Método de fusión requiere ejecución paralela de múltiples modelos
  4. Dependencia de Datos: Requiere gran cantidad de datos débilmente anotados para entrenamiento de extremo a extremo

Direcciones Futuras

  1. Optimización de Modelo: Reducción adicional de tasa de falsos positivos, mejora de rendimiento en idiomas de bajo recurso
  2. Mejora de Eficiencia: Optimización de complejidad computacional, reducción de latencia de inferencia
  3. Transferencia Entre Dominios: Extensión de método a otras tareas de extracción de atributos de comercio electrónico
  4. Actualización Dinámica: Manejo de adición y actualización en tiempo real de nuevas marcas

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Resuelve problema central en búsqueda de comercio electrónico con valor práctico importante
  2. Innovación de Método: Primera aplicación de marco PECOS de clasificación multiclase extrema a vinculación de entidades de marca
  3. Experimentación Integral: Cubre múltiples idiomas, comparación de múltiples métodos, verificación mediante prueba A/B en línea
  4. Practicidad de Ingeniería: Considera equilibrio entre eficiencia y precisión en despliegue real
  5. Datos Abundantes: Utiliza datos reales de comercio electrónico a gran escala

Deficiencias

  1. Análisis Teórico Insuficiente: Falta explicación teórica de por qué método de extremo a extremo es más efectivo
  2. Experimentos de Ablación Limitados: Análisis insuficiente de contribución de componentes individuales
  3. Problema de Falsos Positivos: Tasa de falsos positivos de método de extremo a extremo es relativamente alta, requiere optimización adicional
  4. Análisis de Costo Computacional: Análisis insuficiente de complejidad computacional de método de fusión

Impacto

  1. Contribución Académica: Proporciona nueva solución técnica para campo de PNL de comercio electrónico
  2. Valor Práctico: Desplegado en Amazon, comprobado valor comercial
  3. Reproducibilidad: Proporciona descripción detallada de configuración experimental y datos
  4. Significado Inspirador: Proporciona referencia para otras tareas de extracción de atributos de comercio electrónico

Escenarios Aplicables

  1. Plataformas de Comercio Electrónico: Identificación de marca en motores de búsqueda de comercio electrónico de varios tipos
  2. Entorno Multilingüe: Plataformas de comercio electrónico globalizadas que soportan múltiples idiomas
  3. Aplicación a Gran Escala: Sistemas en tiempo real que necesitan procesar consultas masivas
  4. Extracción de Atributos: Tareas de vinculación de entidades de otros atributos de productos extensibles

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Artículo original del marco PECOS Yu et al., 2022
  • Modelo de etiquetado de secuencia multilingüe MetaTS-NER Li et al., 2021
  • Métodos tradicionales de vinculación de entidades Cao et al., 2017; Le & Titov, 2019
  • Trabajos relacionados con comprensión de consultas de comercio electrónico Kozareva et al., 2016; Manchanda et al., 2020

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que resuelve un problema práctico importante en búsqueda de comercio electrónico. El método tiene innovación relativamente fuerte, verificación experimental suficiente, y especialmente la prueba A/B en línea comprueba valor práctico real. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es una contribución importante al campo de PNL de comercio electrónico.