2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag

In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.

academic

Vinculación de Entidades de Marca de Consulta en Búsqueda de Comercio Electrónico

Información Básica

ID del Artículo: 2502.01555
Título: Query Brand Entity Linking in E-Commerce Search
Autores: Dong Liu, Sreyashi Nag (Amazon)
Clasificación: cs.IR cs.AI cs.LG
Fecha de Publicación/Conferencia: 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2502.01555

Resumen

Este artículo aborda el problema de la vinculación de entidades de marca en consultas de búsqueda de comercio electrónico. La tarea de vinculación de entidades se completa de dos formas: 1) un proceso de dos etapas que incluye detección de menciones de entidades y desambiguación de entidades; 2) un método de vinculación de extremo a extremo que obtiene directamente la entidad objetivo del texto de entrada. La tarea enfrenta desafíos únicos: consultas extremadamente cortas (promedio de 2.4 palabras), falta de estructura de lenguaje natural, y necesidad de procesar un espacio de marcas a gran escala. El artículo propone un método de dos etapas que combina reconocimiento de entidades nombradas con coincidencia, así como una solución novedosa de extremo a extremo utilizando clasificación multiclase extrema. La efectividad de la solución se verifica mediante pruebas de referencia sin conexión y pruebas A/B en línea.

Antecedentes de Investigación y Motivación

Definición del Problema

En la búsqueda de comercio electrónico, la identificación de marca es el segundo atributo más importante después del tipo de producto. La identificación correcta de nombres de marca (ya sea menciones directas o indirectas) es una parte crucial de la comprensión de consultas de búsqueda, esencial para proporcionar una buena experiencia de compra.

Análisis de Desafíos

Limitaciones de Características de Consulta: Las consultas de comercio electrónico son extremadamente cortas (promedio de 2.4 palabras), carecen de estructura de lenguaje natural, y los modelos de PNL de código abierto tienen dificultades para procesar esta distribución de consultas
Espacio de Marca Masivo: Necesidad de procesar cientos de miles de marcas únicas, con nuevas marcas agregándose continuamente
Problemas de Diversidad:
- Unificación de variantes de nombres de marca en diferentes idiomas y regiones
- Diferentes formas de superficie para la misma marca (abreviaturas vs. nombres completos)
- Identificación de relaciones entre marcas madre y submarcas

Motivación de la Investigación

Los métodos existentes de identificación de marca basados en cadenas tienen limitaciones. Es necesario unificar conceptos de marca en un espacio de nombres único de entidades de marca global, logrando identificación unificada entre idiomas, tiendas y formas de superficie.

Contribuciones Principales

Construcción de Modelo de Vinculación de Entidades de Dos Etapas: Marco de predicción de entidades de marca que combina modelo NER preentrenado y coincidencia de formas de superficie
Exploración de Técnicas de Coincidencia: Desarrollo de técnicas de coincidencia léxica y semántica, con propuesta de pasos de filtrado basados en tipo de producto para optimización de predicción de entidades en espacios de salida de marca a gran escala
Propuesta de Modelo de Clasificación Multiclase Extrema de Extremo a Extremo: Predicción directa de entidades de marca relevantes a partir de consultas de búsqueda, con fusión con modelo de dos etapas
Verificación Integral: Validación de efectividad de soluciones mediante pruebas de referencia experimentales sin conexión a gran escala y pruebas A/B en línea

Explicación Detallada de Métodos

Definición de Tarea

Dada una consulta de búsqueda de marca (como " running shoes"), identificar y vincular a la entidad de marca única en la base de datos de marcas. La entrada es el texto de consulta sin procesar, y la salida es el ID de entidad de marca correspondiente.

Arquitectura del Modelo

1. Marco de Dos Etapas

Método Básico de Dos Etapas (NER + Coincidencia Léxica Exacta):

Primera Etapa: Extracción de menciones de marca utilizando modelo MetaTS-NER
```
m = f_NER(q)
```
Segunda Etapa: Coincidencia de cadena exacta mediante diccionario estático
```
E_ID = g(m)
```
Paso de Filtrado: Desambiguación basada en tipo de producto
```
e = h(E_ID, q, PT_q)
```

Método Mejorado de Dos Etapas (NER + Coincidencia Semántica PECOS):

Modelado del paso de coincidencia como problema de clasificación multiclase extrema
Utilización del marco PECOS para procesar espacio de entidades de marca a gran escala (aproximadamente 60,000 entidades)
Salida de entidad de marca y puntuación de relevancia: (E_ID, S) = g_M2E(m)

2. Marco de Extremo a Extremo (Q2E-PECOS)

Predicción directa de entidades de marca a partir de consultas, evitando propagación de errores de etapa NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Características Clave:

Adición de clase NIL para procesar consultas sin marca
Complejidad de Tiempo: O(b × log L), donde b es tamaño de beam, L es número de entidades de marca
Complejidad de Espacio: Reducida de O(d × L) a O(d × log L)

3. Marco de Fusión

Combinación de ventajas de método de coincidencia exacta de dos etapas y enfoque de extremo a extremo:

Ejecución paralela de ambos métodos
Priorización de resultados de coincidencia exacta para garantizar alta precisión
Retroceso a resultados Q2E-PECOS para mejorar cobertura

Puntos de Innovación Técnica

Aplicación de PECOS en Vinculación de Marca: Primera aplicación de marco de clasificación multiclase extrema a vinculación de entidades de marca de comercio electrónico
Desambiguación Asistida por Tipo de Producto: Utilización de información de tipo de producto de consulta para desambiguación de entidades de marca
Soporte Multilingüe: Soporte para identificación de marca en 13 idiomas
Estrategia de Fusión: Combinación ingeniosa de métodos de alta precisión y alta recuperación

Configuración Experimental

Conjunto de Datos

Conjunto de Datos	Escala
Número de Entidades de Marca	61,697
Brand2entity	616,974
Datos Fuertemente Anotados (SL)	806,972
Datos Débilmente Anotados (WL)	1,308,816
Datos de Prueba	28,439

Composición de Datos:

Brand2entity (B2E): Diccionario interno de pares nombre-de-marca-entidad
Datos Fuertemente Anotados (SL): Datos de consulta de búsqueda anotados manualmente en 13 idiomas
Datos Débilmente Anotados (WL): Datos de supervisión débil derivados de interacciones históricas consulta-producto

Métricas de Evaluación

Recuperación: Recall = |C| / |L_single|
Precisión: Precision = |C| / |P_single|
Cobertura: Coverage = |P_single| / |T|
Puntuación F1: Media armónica

Donde C es conjunto de predicciones correctas, L_single es conjunto de consultas de etiqueta de entidad de marca única, P_single es conjunto de consultas de predicción de entidad de marca única del modelo.

Métodos de Comparación

NER + Coincidencia Léxica Exacta: Método de dos etapas de referencia
NER + M2E-PECOS: Método de dos etapas con coincidencia semántica
Bi-encoder: Línea base de codificador dual utilizando Qwen3 Embedding 0.6B
Q2E-PECOS: Método PECOS de extremo a extremo
Modelo Fusionado: Varias combinaciones de método híbrido

Resultados Experimentales

Resultados Principales

Método	Datos de Entrenamiento	Fusión	Grupo-1	Grupo-2
			Cobertura/Recuperación/Precisión/F1	Cobertura/Recuperación/Precisión/F1
NER + Coincidencia Exacta	✓ ✓		58.28/64.66/97.22/77.67	70.16/86.21/99.15/92.23
Q2E-PECOS	✓ ✓ ✓		70.98/75.26/96.13/84.42	80.77/94.71/98.92/96.77
Q2E-PECOS	✓ ✓ ✓	✓	75.31/77.35/94.93/85.24	85.09/94.64/98.55/96.56

Hallazgos Clave:

Q2E-PECOS de extremo a extremo mejora significativamente cobertura y recuperación
Estrategia de fusión mejora recuperación manteniendo alta precisión
Datos débilmente anotados tienen impacto significativo en mejora de rendimiento del modelo de extremo a extremo

Análisis de Rendimiento Multilingüe

Diferencias significativas de rendimiento entre idiomas:

Idiomas de Alto Recurso (inglés, español): Buen rendimiento en todos los métodos
Idiomas de Bajo Recurso (japonés): Cobertura de NER + coincidencia exacta solo 19.03%
Método de Fusión: Equilibra precisión y recuperación en todos los idiomas

Análisis de Tasa de Falsos Positivos

Tasa de falsos positivos en 85K consultas sin marca:

NER + Coincidencia Exacta: 1.177%
Q2E-PECOS (con anotación débil): 6.550%

Aunque el método de extremo a extremo tiene tasa de falsos positivos más alta, considerando mejora de rendimiento general, sigue siendo aceptable.

Resultados de Prueba A/B en Línea

Métrica	Tienda Grupo-1	Tienda Grupo-2
Recuperación de Entidad de Marca	+11.00%	+5.44%
Participación del Cliente	+0.02%	-
Ganancia de Contribución Inmediata	+0.03%	-

Las pruebas en línea confirman valor comercial real de solución fusionada.

Trabajo Relacionado

Métodos Tradicionales de Vinculación de Entidades

Diseño de Dos Etapas: Identificación de entidades + Desambiguación de entidades
Generación de Candidatos: Coincidencia de forma de superficie, expansión de alias, coincidencia de probabilidad previa
Clasificación de Candidatos: Distancia de edición, similitud de vector semántico

Métodos de Extremo a Extremo

Aprendizaje Conjunto: Identificación y desambiguación simultáneas
Etiquetado de Secuencia: Clasificación de token basada en BERT
Generación Autoregresiva: Generación token-por-token de nombres de entidades

Especificidad del Dominio de Comercio Electrónico

Características de Consulta: Cortas, ruidosas, ambiguas
Escenarios de Aplicación: Recuperación de productos, reescritura de consultas, mejora de calidad de resultados de búsqueda
Desafíos Técnicos: Falta de contexto léxico, base de conocimiento a gran escala

Conclusiones y Discusión

Conclusiones Principales

Ventajas del Método de Extremo a Extremo: Q2E-PECOS supera significativamente método tradicional de dos etapas en cobertura y recuperación
Efectividad de Estrategia de Fusión: Método fusionado que combina coincidencia léxica de alta precisión y coincidencia semántica de alta recuperación muestra mejor rendimiento
Importancia de Datos: Datos débilmente anotados son críticos para mejora de rendimiento del modelo de extremo a extremo
Valor Práctico: Pruebas A/B en línea confirman valor comercial del método

Limitaciones

Tasa de Falsos Positivos: Método de extremo a extremo tiene tasa de falsos positivos más alta en consultas sin marca
Diferencias de Idioma: Rendimiento en idiomas de bajo recurso aún tiene espacio para mejora
Complejidad Computacional: Método de fusión requiere ejecución paralela de múltiples modelos
Dependencia de Datos: Requiere gran cantidad de datos débilmente anotados para entrenamiento de extremo a extremo

Direcciones Futuras

Optimización de Modelo: Reducción adicional de tasa de falsos positivos, mejora de rendimiento en idiomas de bajo recurso
Mejora de Eficiencia: Optimización de complejidad computacional, reducción de latencia de inferencia
Transferencia Entre Dominios: Extensión de método a otras tareas de extracción de atributos de comercio electrónico
Actualización Dinámica: Manejo de adición y actualización en tiempo real de nuevas marcas

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve problema central en búsqueda de comercio electrónico con valor práctico importante
Innovación de Método: Primera aplicación de marco PECOS de clasificación multiclase extrema a vinculación de entidades de marca
Experimentación Integral: Cubre múltiples idiomas, comparación de múltiples métodos, verificación mediante prueba A/B en línea
Practicidad de Ingeniería: Considera equilibrio entre eficiencia y precisión en despliegue real
Datos Abundantes: Utiliza datos reales de comercio electrónico a gran escala

Deficiencias

Análisis Teórico Insuficiente: Falta explicación teórica de por qué método de extremo a extremo es más efectivo
Experimentos de Ablación Limitados: Análisis insuficiente de contribución de componentes individuales
Problema de Falsos Positivos: Tasa de falsos positivos de método de extremo a extremo es relativamente alta, requiere optimización adicional
Análisis de Costo Computacional: Análisis insuficiente de complejidad computacional de método de fusión

Impacto

Contribución Académica: Proporciona nueva solución técnica para campo de PNL de comercio electrónico
Valor Práctico: Desplegado en Amazon, comprobado valor comercial
Reproducibilidad: Proporciona descripción detallada de configuración experimental y datos
Significado Inspirador: Proporciona referencia para otras tareas de extracción de atributos de comercio electrónico

Escenarios Aplicables

Plataformas de Comercio Electrónico: Identificación de marca en motores de búsqueda de comercio electrónico de varios tipos
Entorno Multilingüe: Plataformas de comercio electrónico globalizadas que soportan múltiples idiomas
Aplicación a Gran Escala: Sistemas en tiempo real que necesitan procesar consultas masivas
Extracción de Atributos: Tareas de vinculación de entidades de otros atributos de productos extensibles

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Artículo original del marco PECOS Yu et al., 2022
Modelo de etiquetado de secuencia multilingüe MetaTS-NER Li et al., 2021
Métodos tradicionales de vinculación de entidades Cao et al., 2017; Le & Titov, 2019
Trabajos relacionados con comprensión de consultas de comercio electrónico Kozareva et al., 2016; Manchanda et al., 2020

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que resuelve un problema práctico importante en búsqueda de comercio electrónico. El método tiene innovación relativamente fuerte, verificación experimental suficiente, y especialmente la prueba A/B en línea comprueba valor práctico real. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es una contribución importante al campo de PNL de comercio electrónico.