In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic
Vinculación de Entidades de Marca de Consulta en Búsqueda de Comercio Electrónico
Este artículo aborda el problema de la vinculación de entidades de marca en consultas de búsqueda de comercio electrónico. La tarea de vinculación de entidades se completa de dos formas: 1) un proceso de dos etapas que incluye detección de menciones de entidades y desambiguación de entidades; 2) un método de vinculación de extremo a extremo que obtiene directamente la entidad objetivo del texto de entrada. La tarea enfrenta desafíos únicos: consultas extremadamente cortas (promedio de 2.4 palabras), falta de estructura de lenguaje natural, y necesidad de procesar un espacio de marcas a gran escala. El artículo propone un método de dos etapas que combina reconocimiento de entidades nombradas con coincidencia, así como una solución novedosa de extremo a extremo utilizando clasificación multiclase extrema. La efectividad de la solución se verifica mediante pruebas de referencia sin conexión y pruebas A/B en línea.
En la búsqueda de comercio electrónico, la identificación de marca es el segundo atributo más importante después del tipo de producto. La identificación correcta de nombres de marca (ya sea menciones directas o indirectas) es una parte crucial de la comprensión de consultas de búsqueda, esencial para proporcionar una buena experiencia de compra.
Limitaciones de Características de Consulta: Las consultas de comercio electrónico son extremadamente cortas (promedio de 2.4 palabras), carecen de estructura de lenguaje natural, y los modelos de PNL de código abierto tienen dificultades para procesar esta distribución de consultas
Espacio de Marca Masivo: Necesidad de procesar cientos de miles de marcas únicas, con nuevas marcas agregándose continuamente
Problemas de Diversidad:
Unificación de variantes de nombres de marca en diferentes idiomas y regiones
Diferentes formas de superficie para la misma marca (abreviaturas vs. nombres completos)
Identificación de relaciones entre marcas madre y submarcas
Los métodos existentes de identificación de marca basados en cadenas tienen limitaciones. Es necesario unificar conceptos de marca en un espacio de nombres único de entidades de marca global, logrando identificación unificada entre idiomas, tiendas y formas de superficie.
Construcción de Modelo de Vinculación de Entidades de Dos Etapas: Marco de predicción de entidades de marca que combina modelo NER preentrenado y coincidencia de formas de superficie
Exploración de Técnicas de Coincidencia: Desarrollo de técnicas de coincidencia léxica y semántica, con propuesta de pasos de filtrado basados en tipo de producto para optimización de predicción de entidades en espacios de salida de marca a gran escala
Propuesta de Modelo de Clasificación Multiclase Extrema de Extremo a Extremo: Predicción directa de entidades de marca relevantes a partir de consultas de búsqueda, con fusión con modelo de dos etapas
Verificación Integral: Validación de efectividad de soluciones mediante pruebas de referencia experimentales sin conexión a gran escala y pruebas A/B en línea
Dada una consulta de búsqueda de marca (como " running shoes"), identificar y vincular a la entidad de marca única en la base de datos de marcas. La entrada es el texto de consulta sin procesar, y la salida es el ID de entidad de marca correspondiente.
Aplicación de PECOS en Vinculación de Marca: Primera aplicación de marco de clasificación multiclase extrema a vinculación de entidades de marca de comercio electrónico
Desambiguación Asistida por Tipo de Producto: Utilización de información de tipo de producto de consulta para desambiguación de entidades de marca
Soporte Multilingüe: Soporte para identificación de marca en 13 idiomas
Estrategia de Fusión: Combinación ingeniosa de métodos de alta precisión y alta recuperación
Donde C es conjunto de predicciones correctas, L_single es conjunto de consultas de etiqueta de entidad de marca única, P_single es conjunto de consultas de predicción de entidad de marca única del modelo.
Ventajas del Método de Extremo a Extremo: Q2E-PECOS supera significativamente método tradicional de dos etapas en cobertura y recuperación
Efectividad de Estrategia de Fusión: Método fusionado que combina coincidencia léxica de alta precisión y coincidencia semántica de alta recuperación muestra mejor rendimiento
Importancia de Datos: Datos débilmente anotados son críticos para mejora de rendimiento del modelo de extremo a extremo
Valor Práctico: Pruebas A/B en línea confirman valor comercial del método
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Artículo original del marco PECOS Yu et al., 2022
Modelo de etiquetado de secuencia multilingüe MetaTS-NER Li et al., 2021
Métodos tradicionales de vinculación de entidades Cao et al., 2017; Le & Titov, 2019
Trabajos relacionados con comprensión de consultas de comercio electrónico Kozareva et al., 2016; Manchanda et al., 2020
Evaluación General: Este es un artículo de investigación aplicada de alta calidad que resuelve un problema práctico importante en búsqueda de comercio electrónico. El método tiene innovación relativamente fuerte, verificación experimental suficiente, y especialmente la prueba A/B en línea comprueba valor práctico real. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es una contribución importante al campo de PNL de comercio electrónico.