2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic

LLMDistill4Ads: Uso de Codificadores Cruzados para Destilar Señales de LLM en Recomendaciones de Frases Clave para Anunciantes

Información Básica

  • ID del Artículo: 2508.03628
  • Título: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
  • Autores: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
  • Clasificación: cs.IR (Recuperación de Información), cs.AI, cs.LG
  • Fecha de Publicación: arXiv v5, 20 de noviembre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2508.03628v5

Resumen

Los vendedores de comercio electrónico necesitan pujar por palabras clave para mejorar el rendimiento de los anuncios. Estas palabras clave deben ser relevantes para evitar la contaminación de productos no relacionados en el sistema de búsqueda y mantener la satisfacción del vendedor. Debido a la dificultad en la recopilación de retroalimentación negativa, este artículo propone utilizar LLM como un agente escalable del juicio humano. La investigación implementó un marco de destilación de conocimiento en una plataforma de comercio electrónico de gran escala: modelo maestro LLM → asistente codificador cruzado → modelo estudiante de codificador dual EBR, con el objetivo de mitigar el problema del sesgo de clics en la recomendación de palabras clave.

Contexto de Investigación y Motivación

1. Problema Central

En sistemas de publicidad de comercio electrónico, se recomienda a los vendedores palabras clave relevantes (consultas de compradores) para pujar en anuncios. Los desafíos principales incluyen:

  • Confiabilidad de datos de clics: Los clics/ventas altos indican relevancia, pero la falta de clics no significa irrelevancia
  • Sesgo MNAR (Missing Not At Random): Los productos impopulares se clasifican bajo, recibiendo menos exposición y clics
  • Sesgo de Intermediario (Middleman Bias): Los datos de entrenamiento solo contienen palabras clave filtradas por relevancia de búsqueda, causando sesgo de selección de muestra

2. Importancia del Problema

  • La relevancia de palabras clave afecta directamente la estrategia del vendedor y la calidad del sistema de búsqueda
  • Las recomendaciones no relevantes reducen la satisfacción del vendedor, desperdician recursos e impactan el rendimiento de anuncios
  • Es necesario satisfacer simultáneamente los estándares de juicio de vendedores, sistema de anuncios y sistema de búsqueda

3. Limitaciones de Métodos Existentes

  • Entrenamiento basado solo en CTR: Tiende a replicar sesgos de popularidad y exposición en datos de entrenamiento
  • Muestras negativas no confiables: Las muestras negativas en registros de clics no reflejan verdaderamente la irrelevancia
  • Anotación manual difícil: Alto costo, escala limitada, existencia de sesgo modal (los anotadores ven imágenes pero los modelos no)

4. Motivación de la Investigación

Aprovechar el conocimiento mundial y la capacidad de juicio de LLM como un agente del juicio humano, mediante aprendizaje multitarea y marco de destilación de conocimiento, combinando señales de CTR, relevancia de búsqueda y LLM, para entrenar un modelo de recuperación eficiente de codificador dual.

Contribuciones Principales

  1. Marco de Destilación Maestro-Asistente-Estudiante: Arquitectura de tres niveles LLM maestro → asistente codificador cruzado → estudiante codificador dual
  2. Estrategia de Entrenamiento de Fusión Multiseñal: Paradigma de aprendizaje multitarea que integra etiquetas de CTR, relevancia de búsqueda (SR) y LLM
  3. Estudio Comparativo Sistemático de Funciones de Pérdida: Evaluación de 8 funciones de destilación de conocimiento, descubriendo que la pérdida de correlación de Pearson es óptima
  4. Protocolo de Evaluación en Entorno de Producción: Propone método de evaluación fuera de línea que simula escenarios reales de subastas de anuncios
  5. Impacto Comercial Significativo: Las pruebas A/B muestran aumento de GMB del 51.26%, aumento de ROAS del 38.69%, aumento de tasa de adopción de palabras clave del 11.75%

Detalles del Método

Definición de Tarea

Entrada: Título del producto (item title) + categoría (category) y frase clave del comprador (keyphrase)
Salida: Juicio de relevancia (clasificación binaria o puntuación de similitud continua)
Objetivo: Recuperar las Top-K palabras clave más relevantes para cada producto para pujar en anuncios
Restricciones: Requiere baja latencia (adecuado para entorno de producción), alta precisión (alineación de múltiples partes)

Arquitectura del Modelo

1. Construcción de Conjunto de Datos (Tres Fuentes de Etiquetas)

Etiquetas de CTR (10,702,747 registros):

  • Calcular la relación clics-exposición en los últimos 30 días
  • CTR > 0.05 marcado como muestra positiva
  • Las muestras positivas son confiables, las negativas no (solo se usan para pérdida MNR)

Etiquetas de Relevancia de Búsqueda (SR) (18,721,682 registros):

  • Recopilar puntuaciones del modelo SR de 3 meses del proceso de subasta
  • Superar el umbral comercial marcado como muestra positiva
  • Sin sesgo de intermediario ni sesgo de selección de muestra

Etiquetas de LLM (50,078,315 conjunto de entrenamiento, 3,524,414 conjunto de prueba):

  • Usar Mixtral 8X7B Instruct-v0.1
  • Consistencia del 90% con datos de clics
  • Diseño de Prompt:
Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. Codificador Cruzado (Asistente)

Modelo Base: microBERT (versión destilada de eBERT)

  • 4.3 veces más pequeño que eBERT, 5.5 veces más rápido
  • Preentrenado en datos de productos de eBay

Formato de Entrada:

query [SEP] category name [SEP] item title

Entrenamiento:

  • Ajuste fino en 50M etiquetas de LLM con pérdida de entropía cruzada
  • F1 del conjunto de prueba = 96% (7.5M muestras)

Función: Actúa como modelo asistente intermedio, proporcionando etiquetas suaves para destilación

3. Codificador Dual (Estudiante)

Modelo Base: Arquitectura de dos torres microBERT

Procesamiento de Entrada:

  • Torre de producto: item title [SEP] category name
  • Torre de palabra clave: buyer query
  • Calcular similitud de coseno después de codificación independiente

Optimización de Dimensión de Salida:

  • Usar Matryoshka Loss para truncar incrustaciones a 64 dimensiones (reducir latencia de ANN)

4. Paradigma de Entrenamiento Multitarea

Idea Central: Cada lote contiene solo muestras de un conjunto de datos, muestreadas según la proporción del tamaño del conjunto de datos

Combinación de Funciones de Pérdida:

Fuente de DatosFunción de PérdidaRazón
Etiquetas de CTRMNR LossSolo muestras positivas confiables, muestras negativas generadas por IRNS
Etiquetas de SRContrastive LossMuestras positivas y negativas claras
Etiquetas de LLMContrastive LossMuestras positivas y negativas claras
Destilación de Codificador CruzadoPearson Correlation LossAlinear orden de clasificación

Puntos de Innovación Técnica

1. Necesidad de Arquitectura Maestro-Asistente

  • La destilación directa de LLM a codificador dual tiene mal rendimiento (F1=0.66 vs 0.88)
  • El codificador cruzado como puente intermedio:
    • Mayor capacidad de aprendizaje que codificador dual (puede codificar conjuntamente)
    • Más eficiente que LLM (puede generar etiquetas suaves a gran escala)
    • Logra transferencia de conocimiento progresiva

2. Racionalidad de Fusión Multiseñal

Rendimiento óptimo del modelo LLM+CTR+KD:
- Número mediano de palabras clave: 12
- Tasa de aprobación de LLM: 71%
- Tasa de aprobación de búsqueda: >99%

Principio de Diseño:

  • CTR proporciona señal de interacción real (muestras positivas confiables)
  • LLM proporciona juicio imparcial (cubre muestras no expuestas)
  • SR asegura aceptación del sistema de búsqueda
  • El codificador cruzado proporciona señal de clasificación de grano fino

3. Superioridad de la Pérdida de Pearson

Comparación Experimental (Tabla 1):

Pérdida de KDF1PrecisiónRecallρ (Correlación de Pearson)
MSE0.810.770.860.78
CoSENT0.870.860.880.82
Pearson0.880.870.880.87
MSEmar0.860.840.880.80
KL-Div0.850.830.880.66

Análisis de Razones:

  • MSE es pérdida puntual, no puede capturar relaciones de orden
  • CoSENT es pérdida de orden por pares, tiene capacidad de calibración
  • Pearson es pérdida de orden por lote, optimiza correlación lineal general
  • Coeficiente de correlación de Pearson más alto con codificador cruzado (0.87)

Configuración Experimental

Conjunto de Datos

  • Escala de Plataforma: 2.3 mil millones de productos
  • Conjunto de Entrenamiento:
    • CTR: 10.7M
    • SR: 18.7M
    • LLM: 50M (entrenamiento) + 3.5M (prueba)
  • Conjunto de Evaluación: 10,000 muestras (cada modelo)
  • Prueba A/B: Mercado estadounidense, 12 días

Métricas de Evaluación

Métricas Fuera de Línea:

  • F1, Precisión, Recall: Rendimiento de clasificación
  • ρ (Correlación de Pearson): Grado de alineación con codificador cruzado
  • KP (Número de Palabras Clave): Número mediano de palabras clave después del filtrado de relevancia
  • PR (Tasa de Aprobación): Tasa de aprobación de LLM/SR en diferentes posiciones de clasificación

Métricas En Línea:

  • GMB (Compras Brutas de Mercancías): Volumen de ventas
  • ROAS (Retorno sobre Gasto en Publicidad): Retorno de inversión en publicidad
  • Tasa de Adopción: Número de palabras clave realmente utilizadas por vendedores

Métodos de Comparación

  1. Solo CTR: Línea base entrenada solo con CTR
  2. LLM: Solo etiquetas de LLM + Contrastive Loss
  3. LLM+KD: Etiquetas de LLM + destilación de codificador cruzado
  4. LLM+SR+KD: Etiquetas de LLM + SR + destilación
  5. LLM+CTR+KD: Combinación óptima
  6. LLM+SR+CTR+KD: Combinación de todas las señales

Detalles de Implementación

  • Modelo Base: microBERT (razón de selección en Tabla 3)
  • Marco de Entrenamiento: PyTorch + Transformers
  • Muestreo de Lotes: Según proporción del tamaño del conjunto de datos
  • Despliegue en Producción:
    • Inferencia por Lotes: PySpark (1500 ejecutores)
    • Inferencia NRT: Triton + ONNX (GPU V100)
    • Latencia de incremento diario: 35 minutos (20 millones de productos)
    • Recuperación ANN: 2.5 horas adicionales

Resultados Experimentales

Resultados Principales

Tabla 2: Experimento de Ablación de Etiquetas

ModeloKPPRPass@5Pass@10Pass@15Pass@20
LLM+CTR+KD12.07168605552
LLM+SR+CTR+KD11.07067595451
LLM+SR+KD12.05147424139
LLM+KD11.04936353332
LLM11.06145413835
CTR76051423734

Hallazgos Clave:

  1. LLM+CTR+KD es óptimo: Logra el mejor equilibrio entre eficiencia (KP=12) y calidad (PR=71%)
  2. Eficiencia baja de solo CTR: Solo 7 palabras clave, limitando cobertura
  3. Destilación proporciona mejora significativa: LLM → LLM+KD (PR: 61% → 49%, pero Pass@5 mejora)
  4. Función de señal SR: Mejora tasa de aprobación de búsqueda a >99%

Experimentos de Ablación

1. Comparación de Pérdidas de Destilación de Conocimiento (Tabla 1)

  • Pérdida de Pearson Óptima: F1=0.88, ρ=0.87
  • CoSENT Segundo Mejor: F1=0.87, ρ=0.82
  • MSE Inefectivo: Verifica hallazgos del artículo CUPID
  • Destilación Directa Pobre (LLM→BE): Contrastive F1=0.83, Softmax F1=0.66

2. Selección de Modelo Base (Tabla 3)

Modelo BaseRecallPrecisiónF1
eBERT0.920.810.86
microBERT0.920.780.85
ModernBERT0.910.760.83

Razón de Selección de microBERT:

  • Rendimiento cercano a eBERT (F1 solo 0.01 inferior)
  • Velocidad de inferencia 30% más rápida
  • Preentrenado en datos de plataforma (ModernBERT no preentrenado)

3. Construcción Progresiva del Marco Multitarea

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

Cada componente proporciona ganancia

Resultados de Prueba A/B (Validación En Línea)

Configuración de Prueba: Mercado estadounidense, 12 días, reemplazando modelo EBR solo CTR

Mejora de Métricas Comerciales:

  • GMB +51.26% (p=0.01) - Crecimiento significativo de ventas
  • ROAS +38.69% (p=0.02) - Mejora significativa de retorno de inversión
  • Tasa de Adopción +11.75% (p=0.03) - Vendedores más dispuestos a usar recomendaciones

Significado: Demuestra que la mejora de métricas fuera de línea se traduce en valor comercial real

Análisis de Casos

Caso Positivo (LLM y modelo consistentes):

  • Producto: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
  • Palabra clave: "microsoft surface charger"
  • Juicio: Relevante ✓

Caso Negativo (Fallo de LLM ajustado):

  • Producto: "iPhone 11 64GB 128G Unlocked..."
  • Palabra clave: "yellow iphone" (imagen muestra color amarillo)
  • LLM General: No relevante (solo basado en texto)
  • LLM Ajustado: Relevante (afectado por sesgo modal)

Hallazgos Experimentales

  1. LLM General Superior a LLM Ajustado:
    • LLM General: Reducir 68% palabras clave, ventas +10%
    • LLM Ajustado: Retener 75% palabras clave, ventas -20%
    • Razón: Anotación manual tiene sesgo modal
  2. Necesidad de Maestro-Asistente:
    • Mejor calibración del codificador cruzado
    • Puede manejar generación de etiquetas suaves a gran escala
  3. Complementariedad Multiseñal:
    • CTR: Muestras positivas confiables
    • LLM: Cobertura de cola larga
    • SR: Alineación del sistema de búsqueda
    • Los tres son esenciales

Trabajo Relacionado

1. Recuperación Basada en Incrustación (EBR)

  • Codificador Dual vs Codificador Cruzado:
    • Codificador Dual: Codificación independiente, soporta ANN, baja latencia
    • Codificador Cruzado: Codificación conjunta, mejor rendimiento, alta latencia
  • Contribución del Artículo: Combinar ventajas de ambos mediante destilación

2. Problema de Sesgo de Clics

  • Sesgo MNAR: Chen et al. (2023)
  • Sesgo de Intermediario: Dey et al. (2025b) - Trabajo anterior de los autores
  • Solución del Artículo: Complementar datos de clics con señales de LLM y SR

3. Métodos de Destilación de Conocimiento

  • TwinBERT (Lu et al., 2020): Cruzado → BERT de dos torres
  • ERNIE-search (Lu et al., 2022): Arquitectura Maestro-Asistente
  • PROD (Lin et al., 2023): Destilación Progresiva
  • D2LLM (Liao et al., 2024): Pérdida de Pearson para destilación de LLM
  • Contribución del Artículo: Combinar aprendizaje multitarea y arquitectura Maestro-Asistente

4. LLM como Juez

  • Evaluación GPT-4: Zheng et al. (2023) - MT-Bench
  • Aplicación en Búsqueda: Wang et al. (2024) - Pinterest
  • Contribución del Artículo:
    • Aplicación a gran escala (50M etiquetas)
    • Evaluación sistemática de LLM general vs LLM ajustado
    • Descubrimiento del problema de sesgo modal

Conclusiones y Discusión

Conclusiones Principales

  1. Señal de LLM Efectiva para Mitigar Sesgo de Clics: En el escenario de recomendación de palabras clave de publicidad, las etiquetas generadas por LLM superan significativamente el uso solo de CTR
  2. Arquitectura Maestro-Asistente Superior a Destilación Directa: El codificador cruzado como puente intermedio es crucial
  3. Pérdida de Pearson Más Adecuada para Destilación de Orden: La pérdida de orden por lote supera pérdidas puntales y por pares
  4. Fusión Multiseñal Produce Efecto Sinérgico: La combinación CTR+LLM+KD logra el mejor efecto comercial
  5. LLM General Superior a LLM Ajustado: En datos de anotación manual con sesgo modal

Limitaciones

  1. Especificidad de Dominio:
    • La investigación se limita al escenario de publicidad de comercio electrónico
    • La transferibilidad del método requiere verificación
  2. Problemas de Calidad de Anotación Manual:
    • Los anotadores pueden ver imágenes pero los modelos no (sesgo modal)
    • Granularidad de etiqueta demasiado fina (excelente/bueno/justo/malo)
    • Volumen de muestra insuficiente para cubrir 2.3 mil millones de productos
  3. Estrategia Simple de Minería de Muestras Negativas:
    • Datos de CTR solo usan IRNS (In-batch Random Negative Sampling)
    • No se exploran métodos avanzados como ANCE, N-Game
    • Pendiente para investigación futura
  4. Selección de LLM Limitada:
    • Usar Mixtral 8X7B (código abierto, escala media)
    • Modelos más grandes (GPT-4) limitados por API
    • No ajustar LLM (debido a problemas de calidad de datos manuales)
  5. Limitaciones de Evaluación:
    • Evaluación fuera de línea solo en conjunto de prueba de etiquetas de LLM
    • Prueba A/B solo en mercado estadounidense
    • Efectos a largo plazo no evaluados

Direcciones Futuras

  1. Mejor Recopilación de Datos de Juicio Manual:
    • Unificar modalidad de entrada (solo texto o multimodal)
    • Simplificar etiquetas (clasificación binaria)
    • Expandir escala de muestra
  2. Minería Avanzada de Muestras Negativas:
    • Explorar métodos como ANCE, N-Game
    • Equilibrar costo computacional y rendimiento
  3. Extensión Multimodal:
    • Incorporar información de imagen en modelo
    • Resolver problema de sesgo modal
  4. Exploración de LLM Ajustado:
    • Ajustar en datos de alta calidad
    • Posible mejora adicional de rendimiento
  5. Transferencia Transfronteriza:
    • Verificar método en otras plataformas de comercio electrónico
    • Extender a escenarios no publicitarios

Evaluación Profunda

Fortalezas

1. Innovación de Método ⭐⭐⭐⭐⭐

  • Arquitectura de Tres Niveles Maestro-Asistente-Estudiante: Innovadoramente combina LLM, codificador cruzado y codificador dual
  • Entrenamiento Híbrido Multitarea: Fusión ingeniosa de tres fuentes de señal heterogénea
  • Investigación Sistemática de Funciones de Pérdida: Comparación de 8 pérdidas de KD, proporciona orientación clara

2. Suficiencia Experimental ⭐⭐⭐⭐⭐

  • Datos Reales a Gran Escala: 50M etiquetas de LLM, 2.3 mil millones de productos
  • Experimentos de Ablación Completos: Etiquetas, pérdidas, modelo base, arquitectura
  • Validación En Línea: Prueba A/B demuestra valor comercial
  • Apéndice Detallado: Evaluación de LLM, derivación matemática de pérdidas, arquitectura del sistema

3. Valor Práctico ⭐⭐⭐⭐⭐

  • Mejora Comercial Significativa: GMB +51%, ROAS +39%
  • Detalles de Despliegue en Producción: Arquitectura del sistema completa y análisis de latencia
  • Fuerte Reproducibilidad: Modelo de código abierto (Mixtral), descripción clara del método

4. Profundidad de Perspectiva ⭐⭐⭐⭐

  • Descubrimiento de Sesgo Modal: Revela problema oculto en anotación manual
  • Ventaja de LLM General: Desafía la creencia convencional de que "ajuste siempre es mejor"
  • Sesgo de Intermediario: Propone nuevo tipo de sesgo y proporciona solución

5. Calidad de Escritura ⭐⭐⭐⭐

  • Estructura clara, lógica rigurosa
  • Figuras ricas (diagrama de mecanismo de subasta, diagrama de arquitectura, diagrama de sistema de producción)
  • Fórmulas matemáticas completas (Apéndice 8.3 derivación detallada)

Insuficiencias

1. Limitaciones de Método

  • Costo Computacional no Cuantificado: Tiempo/costo de GPU para generar 50M etiquetas de LLM no reportado
  • Sensibilidad de Hiperparámetros: No se analiza impacto de tasa de aprendizaje, tamaño de lote, parámetro de temperatura, etc.
  • Selección de LLM Limitada: Mixtral 8X7B no es óptimo, pero limitado por código abierto y costo

2. Defectos de Configuración Experimental

  • Evaluación de Conjunto de Prueba Único: Experimento fuera de línea solo en conjunto de prueba de etiqueta de LLM, no verificado en conjuntos de prueba SR/CTR
  • Duración Corta de Prueba A/B: 12 días puede ser insuficiente para observar efectos a largo plazo (como fatiga del vendedor)
  • Limitación Geográfica: Solo mercado estadounidense, efecto en otros países desconocido

3. Análisis Insuficiente

  • Análisis de Casos de Fallo Limitado: Solo 1 ejemplo de sesgo modal
  • Calidad de Orden no Evaluada: Sin métricas NDCG, MRR, etc.
  • Diversidad no Cuantificada: Aunque se menciona uniqueness y diversity, sin métricas específicas

4. Problemas de Reproducibilidad

  • Anonimización de Plataforma: No se puede obtener eBERT/microBERT específico de eBay
  • Datos no Públicos: Datos comerciales no compartibles
  • Código Completo no de Código Abierto: Solo descripción del método

5. Análisis Teórico Faltante

  • Por Qué Pearson es Óptimo: Falta explicación teórica, solo verificación experimental
  • Fuente de Ganancia Maestro-Asistente: No cuantificada contribución de cada nivel
  • Teoría de Aprendizaje Multitarea: No se analiza interferencia/sinergia entre tareas

Evaluación de Impacto

Contribución al Campo ⭐⭐⭐⭐⭐

  1. Sesgo de Sistema de Publicidad: Articula sistemáticamente sesgo de intermediario, proporciona paradigma de solución
  2. Destilación de Conocimiento: Verifica efectividad de arquitectura Maestro-Asistente en tarea de recuperación
  3. Aplicación de LLM: Caso de éxito de generación de etiqueta de LLM a gran escala (50M)
  4. Práctica Industrial: Referencia de diseño de sistema de producción completo

Impacto Académico

  • Potencial de Citación Alto: Resuelve problema práctico, método transferible
  • Dirección de Investigación Futura: LLM multimodal, protocolo de anotación manual mejor
  • Función de Referencia: Pérdida de Pearson puede convertirse en estándar de destilación

Impacto Industrial

  • Valor Comercial Directo: GMB +51% significativo para eBay
  • Fuerte Replicabilidad: Otras plataformas de comercio electrónico pueden aprender (Amazon, Alibaba)
  • Costo-Beneficio Significativo: Etiqueta de LLM reemplaza anotación manual a gran escala

Escenarios Aplicables

Altamente Aplicable ✅

  1. Recomendación de Publicidad de Comercio Electrónico: Palabra clave, recomendación de producto
  2. Relevancia de Búsqueda: Coincidencia consulta-documento
  3. Recuperación de Información: Cualquier escenario que requiera alinear múltiples juicios
  4. Mitigación de Sesgo: Sistema de recomendación con sesgo de clic/exposición

Moderadamente Aplicable ⚠️

  1. Otros Escenarios de Recomendación: Requiere ajustar fuentes de señal (como recomendación de video)
  2. Recuperación Multilingüe: Requiere LLM multilingüe y modelo preentrenado
  3. Sistema en Tiempo Real: Requiere optimizar latencia de inferencia NRT

No Aplicable ❌

  1. Datos de Pequeña Escala: Método requiere datos grandes (nivel de millones)
  2. Escenario sin Sesgo: Si datos de clic son confiables, ganancia de método limitada
  3. Tarea de Exploración Pura: Requiere diversidad en lugar de relevancia

Sugerencias de Reproducción

Si desea reproducir este trabajo:

  1. Reemplazar LLM: Usar Llama 3.1 70B o Qwen 2.5 72B
  2. Reemplazar Modelo Base: Usar modelo de sentence-transformers público
  3. Versión Simplificada: Primero verificar LLM+CTR+Pearson Loss (sin datos SR)
  4. Protocolo de Evaluación: Referir a Apéndice 8.2 proceso de evaluación fuera de línea
  5. Escala de Inicio: Comenzar con datos de nivel de millones, expandir gradualmente

Referencias (Seleccionadas)

Trabajo Relacionado Principal

  1. D2LLM (Liao et al., 2024): Primer uso de pérdida de Pearson para destilación LLM→codificador dual
  2. CUPID (Bhattacharya et al., 2023): Demuestra que pérdida MSE no es adecuada para destilación cruzado→dual
  3. ERNIE-search (Lu et al., 2022): Exploración temprana de arquitectura Maestro-Asistente
  4. Middleman Bias (Dey et al., 2025b): Teoría de sesgo de intermediario propuesta por autores

Sesgo y Recomendación

  1. Chen et al. (2023): Revisión de sesgo en sistema de recomendación
  2. Joachims et al. (2017): Aprendizaje imparcial basado en retroalimentación sesgada

Evaluación de LLM

  1. Zheng et al. (2023): MT-Bench y LLM-as-a-judge
  2. Gu et al. (2025): Revisión de LLM como juez

Puntuación General: ⭐⭐⭐⭐⭐ (5/5)

Este es un artículo de aplicación industrial excelente que verifica la efectividad del entrenamiento asistido por LLM en escenarios reales a gran escala, proporcionando una solución completa de teoría a práctica. Aunque existen algunas limitaciones (como análisis teórico insuficiente, prueba de mercado único), su valor práctico, innovación de método y suficiencia experimental alcanzan nivel de clase mundial. Particularmente digno de elogio es el análisis profundo de LLM general vs LLM ajustado, revelando el problema de sesgo modal en anotación manual, proporcionando advertencia importante para el campo.