2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: Uso de Codificadores Cruzados para Destilar Señales de LLM en Recomendaciones de Frases Clave para Anunciantes

Información Básica

ID del Artículo: 2508.03628
Título: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Autores: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
Clasificación: cs.IR (Recuperación de Información), cs.AI, cs.LG
Fecha de Publicación: arXiv v5, 20 de noviembre de 2025
Enlace del Artículo: https://arxiv.org/abs/2508.03628v5

Resumen

Los vendedores de comercio electrónico necesitan pujar por palabras clave para mejorar el rendimiento de los anuncios. Estas palabras clave deben ser relevantes para evitar la contaminación de productos no relacionados en el sistema de búsqueda y mantener la satisfacción del vendedor. Debido a la dificultad en la recopilación de retroalimentación negativa, este artículo propone utilizar LLM como un agente escalable del juicio humano. La investigación implementó un marco de destilación de conocimiento en una plataforma de comercio electrónico de gran escala: modelo maestro LLM → asistente codificador cruzado → modelo estudiante de codificador dual EBR, con el objetivo de mitigar el problema del sesgo de clics en la recomendación de palabras clave.

Contexto de Investigación y Motivación

1. Problema Central

En sistemas de publicidad de comercio electrónico, se recomienda a los vendedores palabras clave relevantes (consultas de compradores) para pujar en anuncios. Los desafíos principales incluyen:

Confiabilidad de datos de clics: Los clics/ventas altos indican relevancia, pero la falta de clics no significa irrelevancia
Sesgo MNAR (Missing Not At Random): Los productos impopulares se clasifican bajo, recibiendo menos exposición y clics
Sesgo de Intermediario (Middleman Bias): Los datos de entrenamiento solo contienen palabras clave filtradas por relevancia de búsqueda, causando sesgo de selección de muestra

2. Importancia del Problema

La relevancia de palabras clave afecta directamente la estrategia del vendedor y la calidad del sistema de búsqueda
Las recomendaciones no relevantes reducen la satisfacción del vendedor, desperdician recursos e impactan el rendimiento de anuncios
Es necesario satisfacer simultáneamente los estándares de juicio de vendedores, sistema de anuncios y sistema de búsqueda

3. Limitaciones de Métodos Existentes

Entrenamiento basado solo en CTR: Tiende a replicar sesgos de popularidad y exposición en datos de entrenamiento
Muestras negativas no confiables: Las muestras negativas en registros de clics no reflejan verdaderamente la irrelevancia
Anotación manual difícil: Alto costo, escala limitada, existencia de sesgo modal (los anotadores ven imágenes pero los modelos no)

4. Motivación de la Investigación

Aprovechar el conocimiento mundial y la capacidad de juicio de LLM como un agente del juicio humano, mediante aprendizaje multitarea y marco de destilación de conocimiento, combinando señales de CTR, relevancia de búsqueda y LLM, para entrenar un modelo de recuperación eficiente de codificador dual.

Contribuciones Principales

Marco de Destilación Maestro-Asistente-Estudiante: Arquitectura de tres niveles LLM maestro → asistente codificador cruzado → estudiante codificador dual
Estrategia de Entrenamiento de Fusión Multiseñal: Paradigma de aprendizaje multitarea que integra etiquetas de CTR, relevancia de búsqueda (SR) y LLM
Estudio Comparativo Sistemático de Funciones de Pérdida: Evaluación de 8 funciones de destilación de conocimiento, descubriendo que la pérdida de correlación de Pearson es óptima
Protocolo de Evaluación en Entorno de Producción: Propone método de evaluación fuera de línea que simula escenarios reales de subastas de anuncios
Impacto Comercial Significativo: Las pruebas A/B muestran aumento de GMB del 51.26%, aumento de ROAS del 38.69%, aumento de tasa de adopción de palabras clave del 11.75%

Detalles del Método

Definición de Tarea

Entrada: Título del producto (item title) + categoría (category) y frase clave del comprador (keyphrase)
Salida: Juicio de relevancia (clasificación binaria o puntuación de similitud continua)
Objetivo: Recuperar las Top-K palabras clave más relevantes para cada producto para pujar en anuncios
Restricciones: Requiere baja latencia (adecuado para entorno de producción), alta precisión (alineación de múltiples partes)

Arquitectura del Modelo

1. Construcción de Conjunto de Datos (Tres Fuentes de Etiquetas)

Etiquetas de CTR (10,702,747 registros):

Calcular la relación clics-exposición en los últimos 30 días
CTR > 0.05 marcado como muestra positiva
Las muestras positivas son confiables, las negativas no (solo se usan para pérdida MNR)

Etiquetas de Relevancia de Búsqueda (SR) (18,721,682 registros):

Recopilar puntuaciones del modelo SR de 3 meses del proceso de subasta
Superar el umbral comercial marcado como muestra positiva
Sin sesgo de intermediario ni sesgo de selección de muestra

Etiquetas de LLM (50,078,315 conjunto de entrenamiento, 3,524,414 conjunto de prueba):

Usar Mixtral 8X7B Instruct-v0.1
Consistencia del 90% con datos de clics
Diseño de Prompt:

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. Codificador Cruzado (Asistente)

Modelo Base: microBERT (versión destilada de eBERT)

4.3 veces más pequeño que eBERT, 5.5 veces más rápido
Preentrenado en datos de productos de eBay

Formato de Entrada:

query [SEP] category name [SEP] item title

Entrenamiento:

Ajuste fino en 50M etiquetas de LLM con pérdida de entropía cruzada
F1 del conjunto de prueba = 96% (7.5M muestras)

Función: Actúa como modelo asistente intermedio, proporcionando etiquetas suaves para destilación

3. Codificador Dual (Estudiante)

Modelo Base: Arquitectura de dos torres microBERT

Procesamiento de Entrada:

Torre de producto: item title [SEP] category name
Torre de palabra clave: buyer query
Calcular similitud de coseno después de codificación independiente

Optimización de Dimensión de Salida:

Usar Matryoshka Loss para truncar incrustaciones a 64 dimensiones (reducir latencia de ANN)

4. Paradigma de Entrenamiento Multitarea

Idea Central: Cada lote contiene solo muestras de un conjunto de datos, muestreadas según la proporción del tamaño del conjunto de datos

Combinación de Funciones de Pérdida:

Fuente de Datos	Función de Pérdida	Razón
Etiquetas de CTR	MNR Loss	Solo muestras positivas confiables, muestras negativas generadas por IRNS
Etiquetas de SR	Contrastive Loss	Muestras positivas y negativas claras
Etiquetas de LLM	Contrastive Loss	Muestras positivas y negativas claras
Destilación de Codificador Cruzado	Pearson Correlation Loss	Alinear orden de clasificación

Puntos de Innovación Técnica

1. Necesidad de Arquitectura Maestro-Asistente

La destilación directa de LLM a codificador dual tiene mal rendimiento (F1=0.66 vs 0.88)
El codificador cruzado como puente intermedio:
- Mayor capacidad de aprendizaje que codificador dual (puede codificar conjuntamente)
- Más eficiente que LLM (puede generar etiquetas suaves a gran escala)
- Logra transferencia de conocimiento progresiva

2. Racionalidad de Fusión Multiseñal

Rendimiento óptimo del modelo LLM+CTR+KD:
- Número mediano de palabras clave: 12
- Tasa de aprobación de LLM: 71%
- Tasa de aprobación de búsqueda: >99%

Principio de Diseño:

CTR proporciona señal de interacción real (muestras positivas confiables)
LLM proporciona juicio imparcial (cubre muestras no expuestas)
SR asegura aceptación del sistema de búsqueda
El codificador cruzado proporciona señal de clasificación de grano fino

3. Superioridad de la Pérdida de Pearson

Comparación Experimental (Tabla 1):

Pérdida de KD	F1	Precisión	Recall	ρ (Correlación de Pearson)
MSE	0.81	0.77	0.86	0.78
CoSENT	0.87	0.86	0.88	0.82
Pearson	0.88	0.87	0.88	0.87
MSEmar	0.86	0.84	0.88	0.80
KL-Div	0.85	0.83	0.88	0.66

Análisis de Razones:

MSE es pérdida puntual, no puede capturar relaciones de orden
CoSENT es pérdida de orden por pares, tiene capacidad de calibración
Pearson es pérdida de orden por lote, optimiza correlación lineal general
Coeficiente de correlación de Pearson más alto con codificador cruzado (0.87)

Configuración Experimental

Conjunto de Datos

Escala de Plataforma: 2.3 mil millones de productos
Conjunto de Entrenamiento:
- CTR: 10.7M
- SR: 18.7M
- LLM: 50M (entrenamiento) + 3.5M (prueba)
Conjunto de Evaluación: 10,000 muestras (cada modelo)
Prueba A/B: Mercado estadounidense, 12 días

Métricas de Evaluación

Métricas Fuera de Línea:

F1, Precisión, Recall: Rendimiento de clasificación
ρ (Correlación de Pearson): Grado de alineación con codificador cruzado
KP (Número de Palabras Clave): Número mediano de palabras clave después del filtrado de relevancia
PR (Tasa de Aprobación): Tasa de aprobación de LLM/SR en diferentes posiciones de clasificación

Métricas En Línea:

GMB (Compras Brutas de Mercancías): Volumen de ventas
ROAS (Retorno sobre Gasto en Publicidad): Retorno de inversión en publicidad
Tasa de Adopción: Número de palabras clave realmente utilizadas por vendedores

Métodos de Comparación

Solo CTR: Línea base entrenada solo con CTR
LLM: Solo etiquetas de LLM + Contrastive Loss
LLM+KD: Etiquetas de LLM + destilación de codificador cruzado
LLM+SR+KD: Etiquetas de LLM + SR + destilación
LLM+CTR+KD: Combinación óptima
LLM+SR+CTR+KD: Combinación de todas las señales

Detalles de Implementación

Modelo Base: microBERT (razón de selección en Tabla 3)
Marco de Entrenamiento: PyTorch + Transformers
Muestreo de Lotes: Según proporción del tamaño del conjunto de datos
Despliegue en Producción:
- Inferencia por Lotes: PySpark (1500 ejecutores)
- Inferencia NRT: Triton + ONNX (GPU V100)
- Latencia de incremento diario: 35 minutos (20 millones de productos)
- Recuperación ANN: 2.5 horas adicionales

Resultados Experimentales

Resultados Principales

Tabla 2: Experimento de Ablación de Etiquetas

Modelo	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12.0	71	68	60	55	52
LLM+SR+CTR+KD	11.0	70	67	59	54	51
LLM+SR+KD	12.0	51	47	42	41	39
LLM+KD	11.0	49	36	35	33	32
LLM	11.0	61	45	41	38	35
CTR	7	60	51	42	37	34

Hallazgos Clave:

LLM+CTR+KD es óptimo: Logra el mejor equilibrio entre eficiencia (KP=12) y calidad (PR=71%)
Eficiencia baja de solo CTR: Solo 7 palabras clave, limitando cobertura
Destilación proporciona mejora significativa: LLM → LLM+KD (PR: 61% → 49%, pero Pass@5 mejora)
Función de señal SR: Mejora tasa de aprobación de búsqueda a >99%

Experimentos de Ablación

1. Comparación de Pérdidas de Destilación de Conocimiento (Tabla 1)

Pérdida de Pearson Óptima: F1=0.88, ρ=0.87
CoSENT Segundo Mejor: F1=0.87, ρ=0.82
MSE Inefectivo: Verifica hallazgos del artículo CUPID
Destilación Directa Pobre (LLM→BE): Contrastive F1=0.83, Softmax F1=0.66

2. Selección de Modelo Base (Tabla 3)

Modelo Base	Recall	Precisión	F1
eBERT	0.92	0.81	0.86
microBERT	0.92	0.78	0.85
ModernBERT	0.91	0.76	0.83

Razón de Selección de microBERT:

Rendimiento cercano a eBERT (F1 solo 0.01 inferior)
Velocidad de inferencia 30% más rápida
Preentrenado en datos de plataforma (ModernBERT no preentrenado)

3. Construcción Progresiva del Marco Multitarea

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

Cada componente proporciona ganancia

Resultados de Prueba A/B (Validación En Línea)

Configuración de Prueba: Mercado estadounidense, 12 días, reemplazando modelo EBR solo CTR

Mejora de Métricas Comerciales:

GMB +51.26% (p=0.01) - Crecimiento significativo de ventas
ROAS +38.69% (p=0.02) - Mejora significativa de retorno de inversión
Tasa de Adopción +11.75% (p=0.03) - Vendedores más dispuestos a usar recomendaciones

Significado: Demuestra que la mejora de métricas fuera de línea se traduce en valor comercial real

Análisis de Casos

Caso Positivo (LLM y modelo consistentes):

Producto: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
Palabra clave: "microsoft surface charger"
Juicio: Relevante ✓

Caso Negativo (Fallo de LLM ajustado):

Producto: "iPhone 11 64GB 128G Unlocked..."
Palabra clave: "yellow iphone" (imagen muestra color amarillo)
LLM General: No relevante (solo basado en texto)
LLM Ajustado: Relevante (afectado por sesgo modal)

Hallazgos Experimentales

LLM General Superior a LLM Ajustado:
- LLM General: Reducir 68% palabras clave, ventas +10%
- LLM Ajustado: Retener 75% palabras clave, ventas -20%
- Razón: Anotación manual tiene sesgo modal
Necesidad de Maestro-Asistente:
- Mejor calibración del codificador cruzado
- Puede manejar generación de etiquetas suaves a gran escala
Complementariedad Multiseñal:
- CTR: Muestras positivas confiables
- LLM: Cobertura de cola larga
- SR: Alineación del sistema de búsqueda
- Los tres son esenciales

Trabajo Relacionado

1. Recuperación Basada en Incrustación (EBR)

Codificador Dual vs Codificador Cruzado:
- Codificador Dual: Codificación independiente, soporta ANN, baja latencia
- Codificador Cruzado: Codificación conjunta, mejor rendimiento, alta latencia
Contribución del Artículo: Combinar ventajas de ambos mediante destilación

2. Problema de Sesgo de Clics

Sesgo MNAR: Chen et al. (2023)
Sesgo de Intermediario: Dey et al. (2025b) - Trabajo anterior de los autores
Solución del Artículo: Complementar datos de clics con señales de LLM y SR

3. Métodos de Destilación de Conocimiento

TwinBERT (Lu et al., 2020): Cruzado → BERT de dos torres
ERNIE-search (Lu et al., 2022): Arquitectura Maestro-Asistente
PROD (Lin et al., 2023): Destilación Progresiva
D2LLM (Liao et al., 2024): Pérdida de Pearson para destilación de LLM
Contribución del Artículo: Combinar aprendizaje multitarea y arquitectura Maestro-Asistente

4. LLM como Juez

Evaluación GPT-4: Zheng et al. (2023) - MT-Bench
Aplicación en Búsqueda: Wang et al. (2024) - Pinterest
Contribución del Artículo:
- Aplicación a gran escala (50M etiquetas)
- Evaluación sistemática de LLM general vs LLM ajustado
- Descubrimiento del problema de sesgo modal

Conclusiones y Discusión

Conclusiones Principales

Señal de LLM Efectiva para Mitigar Sesgo de Clics: En el escenario de recomendación de palabras clave de publicidad, las etiquetas generadas por LLM superan significativamente el uso solo de CTR
Arquitectura Maestro-Asistente Superior a Destilación Directa: El codificador cruzado como puente intermedio es crucial
Pérdida de Pearson Más Adecuada para Destilación de Orden: La pérdida de orden por lote supera pérdidas puntales y por pares
Fusión Multiseñal Produce Efecto Sinérgico: La combinación CTR+LLM+KD logra el mejor efecto comercial
LLM General Superior a LLM Ajustado: En datos de anotación manual con sesgo modal

Limitaciones

Especificidad de Dominio:
- La investigación se limita al escenario de publicidad de comercio electrónico
- La transferibilidad del método requiere verificación
Problemas de Calidad de Anotación Manual:
- Los anotadores pueden ver imágenes pero los modelos no (sesgo modal)
- Granularidad de etiqueta demasiado fina (excelente/bueno/justo/malo)
- Volumen de muestra insuficiente para cubrir 2.3 mil millones de productos
Estrategia Simple de Minería de Muestras Negativas:
- Datos de CTR solo usan IRNS (In-batch Random Negative Sampling)
- No se exploran métodos avanzados como ANCE, N-Game
- Pendiente para investigación futura
Selección de LLM Limitada:
- Usar Mixtral 8X7B (código abierto, escala media)
- Modelos más grandes (GPT-4) limitados por API
- No ajustar LLM (debido a problemas de calidad de datos manuales)
Limitaciones de Evaluación:
- Evaluación fuera de línea solo en conjunto de prueba de etiquetas de LLM
- Prueba A/B solo en mercado estadounidense
- Efectos a largo plazo no evaluados

Direcciones Futuras

Mejor Recopilación de Datos de Juicio Manual:
- Unificar modalidad de entrada (solo texto o multimodal)
- Simplificar etiquetas (clasificación binaria)
- Expandir escala de muestra
Minería Avanzada de Muestras Negativas:
- Explorar métodos como ANCE, N-Game
- Equilibrar costo computacional y rendimiento
Extensión Multimodal:
- Incorporar información de imagen en modelo
- Resolver problema de sesgo modal
Exploración de LLM Ajustado:
- Ajustar en datos de alta calidad
- Posible mejora adicional de rendimiento
Transferencia Transfronteriza:
- Verificar método en otras plataformas de comercio electrónico
- Extender a escenarios no publicitarios

Evaluación Profunda

Fortalezas

1. Innovación de Método ⭐⭐⭐⭐⭐

Arquitectura de Tres Niveles Maestro-Asistente-Estudiante: Innovadoramente combina LLM, codificador cruzado y codificador dual
Entrenamiento Híbrido Multitarea: Fusión ingeniosa de tres fuentes de señal heterogénea
Investigación Sistemática de Funciones de Pérdida: Comparación de 8 pérdidas de KD, proporciona orientación clara

2. Suficiencia Experimental ⭐⭐⭐⭐⭐

Datos Reales a Gran Escala: 50M etiquetas de LLM, 2.3 mil millones de productos
Experimentos de Ablación Completos: Etiquetas, pérdidas, modelo base, arquitectura
Validación En Línea: Prueba A/B demuestra valor comercial
Apéndice Detallado: Evaluación de LLM, derivación matemática de pérdidas, arquitectura del sistema

3. Valor Práctico ⭐⭐⭐⭐⭐

Mejora Comercial Significativa: GMB +51%, ROAS +39%
Detalles de Despliegue en Producción: Arquitectura del sistema completa y análisis de latencia
Fuerte Reproducibilidad: Modelo de código abierto (Mixtral), descripción clara del método

4. Profundidad de Perspectiva ⭐⭐⭐⭐

Descubrimiento de Sesgo Modal: Revela problema oculto en anotación manual
Ventaja de LLM General: Desafía la creencia convencional de que "ajuste siempre es mejor"
Sesgo de Intermediario: Propone nuevo tipo de sesgo y proporciona solución

5. Calidad de Escritura ⭐⭐⭐⭐

Estructura clara, lógica rigurosa
Figuras ricas (diagrama de mecanismo de subasta, diagrama de arquitectura, diagrama de sistema de producción)
Fórmulas matemáticas completas (Apéndice 8.3 derivación detallada)

Insuficiencias

1. Limitaciones de Método

Costo Computacional no Cuantificado: Tiempo/costo de GPU para generar 50M etiquetas de LLM no reportado
Sensibilidad de Hiperparámetros: No se analiza impacto de tasa de aprendizaje, tamaño de lote, parámetro de temperatura, etc.
Selección de LLM Limitada: Mixtral 8X7B no es óptimo, pero limitado por código abierto y costo

2. Defectos de Configuración Experimental

Evaluación de Conjunto de Prueba Único: Experimento fuera de línea solo en conjunto de prueba de etiqueta de LLM, no verificado en conjuntos de prueba SR/CTR
Duración Corta de Prueba A/B: 12 días puede ser insuficiente para observar efectos a largo plazo (como fatiga del vendedor)
Limitación Geográfica: Solo mercado estadounidense, efecto en otros países desconocido

3. Análisis Insuficiente

Análisis de Casos de Fallo Limitado: Solo 1 ejemplo de sesgo modal
Calidad de Orden no Evaluada: Sin métricas NDCG, MRR, etc.
Diversidad no Cuantificada: Aunque se menciona uniqueness y diversity, sin métricas específicas

4. Problemas de Reproducibilidad

Anonimización de Plataforma: No se puede obtener eBERT/microBERT específico de eBay
Datos no Públicos: Datos comerciales no compartibles
Código Completo no de Código Abierto: Solo descripción del método

5. Análisis Teórico Faltante

Por Qué Pearson es Óptimo: Falta explicación teórica, solo verificación experimental
Fuente de Ganancia Maestro-Asistente: No cuantificada contribución de cada nivel
Teoría de Aprendizaje Multitarea: No se analiza interferencia/sinergia entre tareas

Evaluación de Impacto

Contribución al Campo ⭐⭐⭐⭐⭐

Sesgo de Sistema de Publicidad: Articula sistemáticamente sesgo de intermediario, proporciona paradigma de solución
Destilación de Conocimiento: Verifica efectividad de arquitectura Maestro-Asistente en tarea de recuperación
Aplicación de LLM: Caso de éxito de generación de etiqueta de LLM a gran escala (50M)
Práctica Industrial: Referencia de diseño de sistema de producción completo

Impacto Académico

Potencial de Citación Alto: Resuelve problema práctico, método transferible
Dirección de Investigación Futura: LLM multimodal, protocolo de anotación manual mejor
Función de Referencia: Pérdida de Pearson puede convertirse en estándar de destilación

Impacto Industrial

Valor Comercial Directo: GMB +51% significativo para eBay
Fuerte Replicabilidad: Otras plataformas de comercio electrónico pueden aprender (Amazon, Alibaba)
Costo-Beneficio Significativo: Etiqueta de LLM reemplaza anotación manual a gran escala

Escenarios Aplicables

Altamente Aplicable ✅

Recomendación de Publicidad de Comercio Electrónico: Palabra clave, recomendación de producto
Relevancia de Búsqueda: Coincidencia consulta-documento
Recuperación de Información: Cualquier escenario que requiera alinear múltiples juicios
Mitigación de Sesgo: Sistema de recomendación con sesgo de clic/exposición

Moderadamente Aplicable ⚠️

Otros Escenarios de Recomendación: Requiere ajustar fuentes de señal (como recomendación de video)
Recuperación Multilingüe: Requiere LLM multilingüe y modelo preentrenado
Sistema en Tiempo Real: Requiere optimizar latencia de inferencia NRT

No Aplicable ❌

Datos de Pequeña Escala: Método requiere datos grandes (nivel de millones)
Escenario sin Sesgo: Si datos de clic son confiables, ganancia de método limitada
Tarea de Exploración Pura: Requiere diversidad en lugar de relevancia

Sugerencias de Reproducción

Si desea reproducir este trabajo:

Reemplazar LLM: Usar Llama 3.1 70B o Qwen 2.5 72B
Reemplazar Modelo Base: Usar modelo de sentence-transformers público
Versión Simplificada: Primero verificar LLM+CTR+Pearson Loss (sin datos SR)
Protocolo de Evaluación: Referir a Apéndice 8.2 proceso de evaluación fuera de línea
Escala de Inicio: Comenzar con datos de nivel de millones, expandir gradualmente

Referencias (Seleccionadas)

Trabajo Relacionado Principal

D2LLM (Liao et al., 2024): Primer uso de pérdida de Pearson para destilación LLM→codificador dual
CUPID (Bhattacharya et al., 2023): Demuestra que pérdida MSE no es adecuada para destilación cruzado→dual
ERNIE-search (Lu et al., 2022): Exploración temprana de arquitectura Maestro-Asistente
Middleman Bias (Dey et al., 2025b): Teoría de sesgo de intermediario propuesta por autores

Sesgo y Recomendación

Chen et al. (2023): Revisión de sesgo en sistema de recomendación
Joachims et al. (2017): Aprendizaje imparcial basado en retroalimentación sesgada

Evaluación de LLM

Zheng et al. (2023): MT-Bench y LLM-as-a-judge
Gu et al. (2025): Revisión de LLM como juez

Puntuación General: ⭐⭐⭐⭐⭐ (5/5)

Este es un artículo de aplicación industrial excelente que verifica la efectividad del entrenamiento asistido por LLM en escenarios reales a gran escala, proporcionando una solución completa de teoría a práctica. Aunque existen algunas limitaciones (como análisis teórico insuficiente, prueba de mercado único), su valor práctico, innovación de método y suficiencia experimental alcanzan nivel de clase mundial. Particularmente digno de elogio es el análisis profundo de LLM general vs LLM ajustado, revelando el problema de sesgo modal en anotación manual, proporcionando advertencia importante para el campo.