LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic
LLMDistill4Ads: Uso de Codificadores Cruzados para Destilar Señales de LLM en Recomendaciones de Frases Clave para Anunciantes
Los vendedores de comercio electrónico necesitan pujar por palabras clave para mejorar el rendimiento de los anuncios. Estas palabras clave deben ser relevantes para evitar la contaminación de productos no relacionados en el sistema de búsqueda y mantener la satisfacción del vendedor. Debido a la dificultad en la recopilación de retroalimentación negativa, este artículo propone utilizar LLM como un agente escalable del juicio humano. La investigación implementó un marco de destilación de conocimiento en una plataforma de comercio electrónico de gran escala: modelo maestro LLM → asistente codificador cruzado → modelo estudiante de codificador dual EBR, con el objetivo de mitigar el problema del sesgo de clics en la recomendación de palabras clave.
En sistemas de publicidad de comercio electrónico, se recomienda a los vendedores palabras clave relevantes (consultas de compradores) para pujar en anuncios. Los desafíos principales incluyen:
Confiabilidad de datos de clics: Los clics/ventas altos indican relevancia, pero la falta de clics no significa irrelevancia
Sesgo MNAR (Missing Not At Random): Los productos impopulares se clasifican bajo, recibiendo menos exposición y clics
Sesgo de Intermediario (Middleman Bias): Los datos de entrenamiento solo contienen palabras clave filtradas por relevancia de búsqueda, causando sesgo de selección de muestra
Aprovechar el conocimiento mundial y la capacidad de juicio de LLM como un agente del juicio humano, mediante aprendizaje multitarea y marco de destilación de conocimiento, combinando señales de CTR, relevancia de búsqueda y LLM, para entrenar un modelo de recuperación eficiente de codificador dual.
Marco de Destilación Maestro-Asistente-Estudiante: Arquitectura de tres niveles LLM maestro → asistente codificador cruzado → estudiante codificador dual
Estrategia de Entrenamiento de Fusión Multiseñal: Paradigma de aprendizaje multitarea que integra etiquetas de CTR, relevancia de búsqueda (SR) y LLM
Estudio Comparativo Sistemático de Funciones de Pérdida: Evaluación de 8 funciones de destilación de conocimiento, descubriendo que la pérdida de correlación de Pearson es óptima
Protocolo de Evaluación en Entorno de Producción: Propone método de evaluación fuera de línea que simula escenarios reales de subastas de anuncios
Impacto Comercial Significativo: Las pruebas A/B muestran aumento de GMB del 51.26%, aumento de ROAS del 38.69%, aumento de tasa de adopción de palabras clave del 11.75%
Entrada: Título del producto (item title) + categoría (category) y frase clave del comprador (keyphrase) Salida: Juicio de relevancia (clasificación binaria o puntuación de similitud continua) Objetivo: Recuperar las Top-K palabras clave más relevantes para cada producto para pujar en anuncios Restricciones: Requiere baja latencia (adecuado para entorno de producción), alta precisión (alineación de múltiples partes)
Calcular la relación clics-exposición en los últimos 30 días
CTR > 0.05 marcado como muestra positiva
Las muestras positivas son confiables, las negativas no (solo se usan para pérdida MNR)
Etiquetas de Relevancia de Búsqueda (SR) (18,721,682 registros):
Recopilar puntuaciones del modelo SR de 3 meses del proceso de subasta
Superar el umbral comercial marcado como muestra positiva
Sin sesgo de intermediario ni sesgo de selección de muestra
Etiquetas de LLM (50,078,315 conjunto de entrenamiento, 3,524,414 conjunto de prueba):
Usar Mixtral 8X7B Instruct-v0.1
Consistencia del 90% con datos de clics
Diseño de Prompt:
Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
Rendimiento óptimo del modelo LLM+CTR+KD:
- Número mediano de palabras clave: 12
- Tasa de aprobación de LLM: 71%
- Tasa de aprobación de búsqueda: >99%
Principio de Diseño:
CTR proporciona señal de interacción real (muestras positivas confiables)
LLM proporciona juicio imparcial (cubre muestras no expuestas)
SR asegura aceptación del sistema de búsqueda
El codificador cruzado proporciona señal de clasificación de grano fino
Señal de LLM Efectiva para Mitigar Sesgo de Clics: En el escenario de recomendación de palabras clave de publicidad, las etiquetas generadas por LLM superan significativamente el uso solo de CTR
Arquitectura Maestro-Asistente Superior a Destilación Directa: El codificador cruzado como puente intermedio es crucial
Pérdida de Pearson Más Adecuada para Destilación de Orden: La pérdida de orden por lote supera pérdidas puntales y por pares
Fusión Multiseñal Produce Efecto Sinérgico: La combinación CTR+LLM+KD logra el mejor efecto comercial
LLM General Superior a LLM Ajustado: En datos de anotación manual con sesgo modal
Evaluación de Conjunto de Prueba Único: Experimento fuera de línea solo en conjunto de prueba de etiqueta de LLM, no verificado en conjuntos de prueba SR/CTR
Duración Corta de Prueba A/B: 12 días puede ser insuficiente para observar efectos a largo plazo (como fatiga del vendedor)
Limitación Geográfica: Solo mercado estadounidense, efecto en otros países desconocido
Este es un artículo de aplicación industrial excelente que verifica la efectividad del entrenamiento asistido por LLM en escenarios reales a gran escala, proporcionando una solución completa de teoría a práctica. Aunque existen algunas limitaciones (como análisis teórico insuficiente, prueba de mercado único), su valor práctico, innovación de método y suficiencia experimental alcanzan nivel de clase mundial. Particularmente digno de elogio es el análisis profundo de LLM general vs LLM ajustado, revelando el problema de sesgo modal en anotación manual, proporcionando advertencia importante para el campo.