2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: Utilizzo di Cross-Encoder per Distillare Segnali LLM per Raccomandazioni di Frasi Chiave per Inserzionisti

Informazioni Fondamentali

ID Articolo: 2508.03628
Titolo: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Autori: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
Classificazione: cs.IR (Information Retrieval), cs.AI, cs.LG
Data di Pubblicazione: arXiv v5, 20 novembre 2025
Link Articolo: https://arxiv.org/abs/2508.03628v5

Riassunto

I venditori di e-commerce necessitano di fare offerte su frasi chiave per migliorare le prestazioni degli annunci; queste frasi devono essere rilevanti per prevenire l'inquinamento di prodotti non correlati nei sistemi di ricerca e mantenere la soddisfazione dei venditori. Poiché la raccolta di feedback negativo è difficile, questo articolo propone l'utilizzo di LLM come proxy scalabile del giudizio umano. La ricerca implementa un framework di distillazione della conoscenza su una grande piattaforma di e-commerce: modello insegnante LLM → assistente cross-encoder → modello studente doppio encoder EBR, con l'obiettivo di mitigare il problema della distorsione da clic nelle raccomandazioni di frasi chiave.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Nei sistemi pubblicitari di e-commerce, raccomandare frasi chiave rilevanti (query di acquirenti) ai venditori per fare offerte su annunci pubblicitari. Le sfide principali includono:

Inaffidabilità dei dati di clic: Alti clic/vendite indicano rilevanza, ma l'assenza di clic non significa irrilevanza
Distorsione MNAR (Missing Not At Random): I prodotti impopolari hanno ranking basso, ricevendo meno impressioni e clic
Distorsione da Intermediario (Middleman Bias): I dati di addestramento contengono solo frasi chiave filtrate dalla rilevanza della ricerca, causando distorsione nella selezione del campione

2. Importanza del Problema

La rilevanza delle frasi chiave influisce direttamente sulla strategia dei venditori e sulla qualità del sistema di ricerca
Le raccomandazioni non rilevanti riducono la soddisfazione dei venditori, sprecano risorse e influenzano le prestazioni degli annunci
È necessario soddisfare contemporaneamente i criteri di giudizio di venditori, sistema pubblicitario e sistema di ricerca

3. Limitazioni dei Metodi Esistenti

Addestramento basato solo su CTR: Tende a replicare la distorsione di popolarità e esposizione nei dati di addestramento
Campioni negativi inaffidabili: I campioni negativi nei log di clic non riflettono accuratamente l'irrilevanza
Annotazione manuale difficile: Costi elevati, scala limitata, distorsione modale (gli annotatori vedono immagini ma i modelli no)

4. Motivazione della Ricerca

Sfruttare la conoscenza mondiale e la capacità di giudizio degli LLM come proxy del giudizio umano, attraverso apprendimento multitask e framework di distillazione della conoscenza, combinando segnali CTR, rilevanza della ricerca e LLM, per addestrare modelli di recupero efficienti con doppio encoder.

Contributi Principali

Propone Framework di Distillazione Insegnante-Assistente-Studente: Architettura a tre livelli LLM insegnante → assistente cross-encoder → studente doppio encoder
Strategia di Addestramento Multi-Segnale: Paradigma di apprendimento multitask che integra etichette CTR, rilevanza della ricerca (SR) e LLM
Studio Comparativo Sistematico di Funzioni di Perdita: Valuta 8 funzioni di perdita di distillazione della conoscenza, scoprendo che la perdita di correlazione di Pearson è ottimale
Protocollo di Valutazione in Ambiente di Produzione: Propone metodo di valutazione offline che simula scenari reali di asta pubblicitaria
Impatto Commerciale Significativo: I test A/B mostrano aumento GMB del 51,26%, aumento ROAS del 38,69%, aumento tasso di adozione frasi chiave dell'11,75%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Titolo del prodotto (item title) + categoria (category) e frase chiave dell'acquirente (keyphrase)
Output: Giudizio di rilevanza (classificazione binaria o punteggio di similarità continuo)
Obiettivo: Recuperare le Top-K frasi chiave più rilevanti per ogni prodotto per fare offerte su annunci pubblicitari
Vincoli: Necessità di bassa latenza (adatto all'ambiente di produzione), alta precisione (allineamento con giudizi multi-parte)

Architettura del Modello

1. Costruzione del Dataset (Tre Fonti di Etichette)

Etichette CTR (10.702.747):

Calcolo del rapporto clic-impressione negli ultimi 30 giorni
CTR > 0,05 marcato come campione positivo
Campioni positivi affidabili, campioni negativi inaffidabili (utilizzati solo per perdita MNR)

Etichette Rilevanza della Ricerca (SR) (18.721.682):

Raccolta di punteggi del modello SR di 3 mesi dal processo di asta
Superamento della soglia commerciale marcato come campione positivo
Nessuna distorsione da intermediario e distorsione nella selezione del campione

Etichette LLM (50.078.315 set di addestramento, 3.524.414 set di test):

Generato utilizzando Mixtral 8X7B Instruct-v0.1
Coerenza del 90% con dati di clic
Design del Prompt:

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. Cross-Encoder (Assistente)

Modello di Base: microBERT (versione distillata di eBERT)

4,3 volte più piccolo di eBERT, 5,5 volte più veloce
Pre-addestrato su dati di prodotti eBay

Formato di Input:

query [SEP] category name [SEP] item title

Addestramento:

Fine-tuning su 50M etichette LLM con perdita di entropia incrociata
F1 del set di test = 96% (7,5M campioni)

Ruolo: Funziona come modello assistente intermedio, fornendo etichette soft per la distillazione

3. Doppio Encoder (Studente)

Architettura Modello di Base: microBERT a doppia torre

Elaborazione Input:

Torre del prodotto: item title [SEP] category name
Torre della frase chiave: buyer query
Calcolo della similarità del coseno dopo codifica indipendente

Ottimizzazione Dimensione Output:

Utilizzo di Matryoshka Loss per troncare gli embedding a 64 dimensioni (riduce latenza ANN)

4. Paradigma di Addestramento Multitask

Idea Centrale: Ogni batch contiene campioni da un solo dataset, campionamento proporzionale alla dimensione del dataset

Combinazione di Funzioni di Perdita:

Fonte Dati	Funzione di Perdita	Motivo
Etichette CTR	MNR Loss	Solo campioni positivi affidabili, campioni negativi generati tramite IRNS
Etichette SR	Contrastive Loss	Campioni positivi e negativi chiari
Etichette LLM	Contrastive Loss	Campioni positivi e negativi chiari
Distillazione Cross-Encoder	Pearson Correlation Loss	Allineamento dell'ordine di ranking

Punti di Innovazione Tecnica

1. Necessità dell'Architettura Insegnante-Assistente

Distillazione diretta da LLM a doppio encoder ha prestazioni scarse (F1=0,66 vs 0,88)
Cross-encoder come ponte intermedio:
- Capacità di apprendimento superiore al doppio encoder (può codificare congiuntamente)
- Più efficiente di LLM (può generare etichette soft su larga scala)
- Realizza trasferimento di conoscenza progressivo

2. Razionalità della Fusione Multi-Segnale

Prestazioni ottimali del modello LLM+CTR+KD:
- Numero mediano di frasi chiave: 12
- Tasso di passaggio LLM: 71%
- Tasso di passaggio ricerca: >99%

Principio di Progettazione:

CTR fornisce segnale di interazione reale (campioni positivi affidabili)
LLM fornisce giudizio imparziale (copre campioni non esposti)
SR assicura accettabilità del sistema di ricerca
Cross-encoder fornisce segnale di ranking a grana fine

3. Superiorità della Perdita di Pearson

Confronto Sperimentale (Tabella 1):

Perdita KD	F1	Precision	Recall	ρ (Correlazione Pearson)
MSE	0,81	0,77	0,86	0,78
CoSENT	0,87	0,86	0,88	0,82
Pearson	0,88	0,87	0,88	0,87
MSEmar	0,86	0,84	0,88	0,80
KL-Div	0,85	0,83	0,88	0,66

Analisi delle Ragioni:

MSE è perdita punto per punto, non può catturare relazioni di ranking
CoSENT è perdita di ranking a coppie, ha capacità di calibrazione
Pearson è perdita di ranking in batch, ottimizza la correlazione lineare complessiva
Coefficiente di correlazione Pearson più alto con cross-encoder (0,87)

Configurazione Sperimentale

Dataset

Scala della Piattaforma: 2,3 miliardi di prodotti
Set di Addestramento:
- CTR: 10,7M
- SR: 18,7M
- LLM: 50M (addestramento) + 3,5M (test)
Set di Valutazione: 10.000 campioni (per ogni modello)
Test A/B: Mercato USA, 12 giorni

Metriche di Valutazione

Metriche Offline:

F1, Precision, Recall: Prestazioni di classificazione
ρ (Correlazione Pearson): Grado di allineamento con cross-encoder
KP (Numero di Frasi Chiave): Numero mediano di frasi chiave dopo filtro di rilevanza
PR (Tasso di Passaggio): Tasso di passaggio LLM/SR a diverse posizioni di ranking

Metriche Online:

GMB (Gross Merchandise Bought): Volume di vendite
ROAS (Return on Ad Spend): Ritorno sull'investimento pubblicitario
Tasso di Adozione: Numero di frasi chiave effettivamente utilizzate dai venditori

Metodi di Confronto

CTR-only: Baseline addestrato solo su CTR
LLM: Solo etichette LLM + Contrastive Loss
LLM+KD: Etichette LLM + distillazione cross-encoder
LLM+SR+KD: Etichette LLM + SR + distillazione
LLM+CTR+KD: Combinazione ottimale
LLM+SR+CTR+KD: Combinazione di tutti i segnali

Dettagli di Implementazione

Modello di Base: microBERT (motivi della scelta nella Tabella 3)
Framework di Addestramento: PyTorch + Transformers
Campionamento in Batch: Proporzionale alla dimensione del dataset
Distribuzione in Produzione:
- Inferenza in Batch: PySpark (1500 executor)
- Inferenza NRT: Triton + ONNX (GPU V100)
- Latenza incremento giornaliero: 35 minuti (20 milioni di prodotti)
- Recupero ANN: 2,5 ore aggiuntive

Risultati Sperimentali

Risultati Principali

Tabella 2: Esperimento di Ablazione delle Etichette

Modello	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12,0	71	68	60	55	52
LLM+SR+CTR+KD	11,0	70	67	59	54	51
LLM+SR+KD	12,0	51	47	42	41	39
LLM+KD	11,0	49	36	35	33	32
LLM	11,0	61	45	41	38	35
CTR	7	60	51	42	37	34

Scoperte Chiave:

LLM+CTR+KD Ottimale: Raggiunge il miglior equilibrio tra efficienza (KP=12) e qualità (PR=71%)
Efficienza Bassa di CTR-only: Solo 7 frasi chiave, limita la copertura
Miglioramento Significativo da Distillazione: LLM → LLM+KD (PR: 61% → 49%, ma miglioramento Pass@5)
Ruolo del Segnale SR: Aumenta il tasso di passaggio della ricerca a >99%

Esperimenti di Ablazione

1. Confronto Perdite di Distillazione della Conoscenza (Tabella 1)

Perdita Pearson Ottimale: F1=0,88, ρ=0,87
CoSENT Secondo: F1=0,87, ρ=0,82
MSE Inefficace: Verifica le scoperte dell'articolo CUPID
Distillazione Diretta Scadente (LLM→BE): Contrastive F1=0,83, Softmax F1=0,66

2. Scelta del Modello di Base (Tabella 3)

Modello di Base	Recall	Precision	F1
eBERT	0,92	0,81	0,86
microBERT	0,92	0,78	0,85
ModernBERT	0,91	0,76	0,83

Motivi della Scelta di microBERT:

Prestazioni vicine a eBERT (F1 differisce solo di 0,01)
Velocità di inferenza 30% più veloce
Pre-addestrato su dati della piattaforma (ModernBERT non pre-addestrato)

3. Costruzione Progressiva del Framework Multitask

CTR (F1=0,66) 
→ CTR+LLM (F1=0,83) 
→ LLM+CTR+KD (F1=0,88)

Ogni componente apporta miglioramento

Risultati Test A/B (Verifica Online)

Configurazione Test: Mercato USA, 12 giorni, sostituzione del modello EBR solo CTR

Aumento Metriche Commerciali:

GMB +51,26% (p=0,01) - Crescita significativa delle vendite
ROAS +38,69% (p=0,02) - Aumento significativo del ritorno sull'investimento
Tasso di Adozione +11,75% (p=0,03) - I venditori sono più disposti a utilizzare le raccomandazioni

Significato: Dimostra che il miglioramento degli indicatori offline si traduce in valore commerciale reale

Analisi di Casi

Caso Positivo (LLM e Modello Concordi):

Prodotto: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
Frase Chiave: "microsoft surface charger"
Giudizio: Rilevante ✓

Caso Negativo (Fallimento LLM Messo a Punto):

Prodotto: "iPhone 11 64GB 128G Unlocked..."
Frase Chiave: "yellow iphone" (l'immagine mostra giallo)
LLM Generico: Non rilevante (basato solo su testo)
LLM Messo a Punto: Rilevante (influenzato dalla distorsione modale)

Scoperte Sperimentali

LLM Generico Superiore a LLM Messo a Punto:
- LLM Generico: Riduce del 68% le frasi chiave, vendite +10%
- LLM Messo a Punto: Mantiene il 75% delle frasi chiave, vendite -20%
- Motivo: L'annotazione manuale presenta distorsione modale
Necessità di Architettura Insegnante-Assistente:
- Cross-encoder ha migliore calibrazione
- Può gestire dati su larga scala per generare etichette soft
Complementarità Multi-Segnale:
- CTR: Campioni positivi affidabili
- LLM: Copertura della coda lunga
- SR: Allineamento del sistema di ricerca
- I tre sono indispensabili

Lavori Correlati

1. Recupero con Embedding (EBR)

Doppio Encoder vs Cross-Encoder:
- Doppio Encoder: Codifica indipendente, supporta ANN, bassa latenza
- Cross-Encoder: Codifica congiunta, prestazioni migliori, latenza alta
Contributo dell'Articolo: Combinare i vantaggi di entrambi attraverso distillazione

2. Problema della Distorsione da Clic

Distorsione MNAR: Chen et al. (2023)
Distorsione da Intermediario: Dey et al. (2025b) - Lavoro precedente degli autori
Soluzione dell'Articolo: Integrare segnali LLM e SR per completare i dati di clic

3. Metodi di Distillazione della Conoscenza

TwinBERT (Lu et al., 2020): Cross → BERT a doppia torre
ERNIE-search (Lu et al., 2022): Architettura Insegnante-Assistente
PROD (Lin et al., 2023): Distillazione Progressiva
D2LLM (Liao et al., 2024): Perdita Pearson per distillazione LLM
Contributo dell'Articolo: Combinare apprendimento multitask e architettura Insegnante-Assistente

4. LLM come Giudice

Valutazione GPT-4: Zheng et al. (2023) - MT-Bench
Applicazione in Ricerca: Wang et al. (2024) - Pinterest
Contributi dell'Articolo:
- Applicazione su larga scala (50M etichette)
- Valutazione sistematica LLM generico vs LLM messo a punto
- Scoperta del problema della distorsione modale

Conclusioni e Discussione

Conclusioni Principali

Segnali LLM Efficaci nel Mitigare Distorsione da Clic: Nel scenario di raccomandazione di frasi chiave pubblicitarie, le etichette generate da LLM sono significativamente superiori all'utilizzo solo di CTR
Architettura Insegnante-Assistente Superiore a Distillazione Diretta: Il cross-encoder come ponte intermedio è cruciale
Perdita Pearson Più Adatta per Distillazione di Ranking: La perdita di ranking in batch è superiore alle perdite punto per punto e a coppie
Effetto Sinergico della Fusione Multi-Segnale: La combinazione CTR+LLM+KD raggiunge il miglior effetto commerciale
LLM Generico Superiore a LLM Messo a Punto: Nei dati di annotazione manuale con distorsione modale

Limitazioni

Specificità del Dominio:
- La ricerca è limitata allo scenario di pubblicità di e-commerce
- La trasferibilità del metodo necessita di verifica
Problemi di Qualità dell'Annotazione Manuale:
- Gli annotatori possono vedere immagini ma i modelli no (distorsione modale)
- Granularità dell'etichetta troppo fine (excellent/good/fair/bad)
- Volume di campioni insufficiente per coprire 2,3 miliardi di prodotti
Strategia di Estrazione di Campioni Negativi Semplice:
- I dati CTR utilizzano solo IRNS (In-batch Random Negative Sampling)
- Non esplora metodi avanzati come ANCE, N-Game
- Rimane per ricerca futura
Scelta di LLM Limitata:
- Utilizza Mixtral 8X7B (open-source, scala media)
- Modelli più grandi (GPT-4) limitati da vincoli API
- Non ha messo a punto LLM (a causa di problemi di qualità dei dati manuali)
Limitazioni di Valutazione:
- La valutazione offline è solo su set di test con etichette LLM
- Il test A/B è solo nel mercato USA
- L'effetto a lungo termine non è valutato

Direzioni Future

Migliore Raccolta di Dati di Giudizio Umano:
- Unificare la modalità di input (solo testo o multimodale)
- Semplificare le etichette (classificazione binaria)
- Espandere la scala del campione
Estrazione Avanzata di Campioni Negativi:
- Esplorare metodi come ANCE, N-Game
- Bilanciare costo computazionale e prestazioni
Estensione Multimodale:
- Incorporare informazioni di immagini nel modello
- Risolvere il problema della distorsione modale
Esplorazione di LLM Messo a Punto:
- Messa a punto su dati di alta qualità
- Potrebbe migliorare ulteriormente le prestazioni
Trasferimento Cross-Dominio:
- Verificare il metodo su altre piattaforme di e-commerce
- Estendere a scenari non pubblicitari

Valutazione Approfondita

Punti di Forza

1. Innovazione del Metodo ⭐⭐⭐⭐⭐

Architettura Insegnante-Assistente-Studente a Tre Livelli: Combina innovativamente LLM, cross-encoder e doppio encoder
Addestramento Multitask Ibrido: Fonde abilmente tre fonti di segnali eterogenei
Ricerca Sistematica di Funzioni di Perdita: Confronta 8 perdite KD, fornisce guida chiara

2. Completezza Sperimentale ⭐⭐⭐⭐⭐

Dati Reali su Larga Scala: 50M etichette LLM, 2,3 miliardi di prodotti
Esperimenti di Ablazione Completi: Etichette, perdite, modelli di base, architettura
Verifica Online: Test A/B dimostra valore commerciale
Appendice Dettagliata: Valutazione LLM, derivazioni matematiche di perdite, architettura di sistema

3. Valore Pratico ⭐⭐⭐⭐⭐

Miglioramento Commerciale Significativo: GMB +51%, ROAS +39%
Dettagli di Distribuzione in Produzione: Architettura di sistema completa e analisi di latenza
Forte Riproducibilità: Modelli open-source (Mixtral), descrizione del metodo chiara

4. Profondità di Insight ⭐⭐⭐⭐

Scoperta della Distorsione Modale: Rivela il problema nascosto dell'annotazione manuale
Vantaggio di LLM Generico: Sfida la convinzione convenzionale che "la messa a punto è sempre migliore"
Distorsione da Intermediario: Propone nuovo tipo di distorsione e fornisce soluzione

5. Qualità della Scrittura ⭐⭐⭐⭐

Struttura chiara, logica rigorosa
Figure ricche (diagramma meccanismo asta, diagramma architettura, diagramma sistema di produzione)
Formule matematiche complete (appendice 8.3 con derivazioni dettagliate)

Insufficienze

1. Limitazioni del Metodo

Costo Computazionale Non Quantificato: Tempo GPU/costo per generare 50M etichette LLM non riportato
Sensibilità Iperparametri: Non analizza l'impatto di tasso di apprendimento, dimensione batch, parametro temperatura, ecc.
Scelta di LLM Limitata: Mixtral 8X7B non ottimale, ma limitato da open-source e costo

2. Difetti nella Configurazione Sperimentale

Valutazione Set di Test Singolo: Esperimenti offline solo su set di test con etichette LLM, non verificato su set di test SR/CTR
Durata Test A/B Breve: 12 giorni potrebbe essere insufficiente per osservare effetti a lungo termine (come affaticamento dei venditori)
Limitazione Geografica: Solo mercato USA, effetto in altri paesi sconosciuto

3. Analisi Insufficiente

Pochi Casi di Fallimento: Solo 1 esempio di distorsione modale
Qualità di Ranking Non Valutata: Nessuna metrica di ranking come NDCG, MRR
Diversità Non Quantificata: Sebbene menzionata uniqueness e diversity, nessuna metrica specifica

4. Problemi di Riproducibilità

Anonimizzazione della Piattaforma: Impossibile ottenere eBERT/microBERT specifici di eBay
Dati Non Pubblici: I dati commerciali non possono essere condivisi
Codice Completo Non Open-Source: Solo descrizione del metodo

5. Mancanza di Analisi Teorica

Perché Pearson è Ottimale: Manca spiegazione teorica, solo verifica sperimentale
Fonte di Guadagno Insegnante-Assistente: Non quantifica il contributo di ogni livello
Teoria Apprendimento Multitask: Non analizza interferenza/sinergia tra compiti

Valutazione dell'Impatto

Contributo al Campo ⭐⭐⭐⭐⭐

Distorsione nei Sistemi Pubblicitari: Articolazione sistematica della distorsione da intermediario, fornisce paradigma di soluzione
Distillazione della Conoscenza: Verifica l'efficacia dell'architettura Insegnante-Assistente nel compito di recupero
Applicazione LLM: Caso di successo di generazione di etichette LLM su larga scala (50M)
Pratica Industriale: Riferimento di progettazione di sistema di produzione completo

Impatto Accademico

Potenziale di Citazione Alto: Risolve problemi pratici, metodo trasferibile
Direzioni di Ricerca Futura: LLM multimodale, protocolli di annotazione manuale migliori
Ruolo di Benchmark: La perdita Pearson potrebbe diventare standard di distillazione

Impatto Industriale

Valore Commerciale Diretto: GMB +51% ha significato importante per eBay
Forte Replicabilità: Altre piattaforme di e-commerce possono imparare (Amazon, Alibaba)
Efficacia Costo-Beneficio Significativa: Etichette LLM sostituiscono annotazione manuale su larga scala

Scenari Applicabili

Altamente Applicabile ✅

Raccomandazione Pubblicitaria di E-commerce: Raccomandazione frasi chiave, prodotti
Rilevanza della Ricerca: Corrispondenza query-documento
Recupero Informazioni: Qualsiasi scenario che necessita allineamento di giudizi multi-parte
Mitigazione Distorsione: Sistemi di raccomandazione con distorsione da clic/esposizione

Moderatamente Applicabile ⚠️

Altri Scenari di Raccomandazione: Necessita regolazione delle fonti di segnale (es. raccomandazione video)
Recupero Cross-Linguaggio: Necessita LLM multilingue e modelli pre-addestrati
Sistemi Real-Time: Necessita ottimizzazione della latenza di inferenza NRT

Non Applicabile ❌

Dati su Piccola Scala: Il metodo necessita grandi volumi di dati (livello milioni)
Scenario Senza Distorsione: Se i dati di clic sono affidabili, il guadagno del metodo è limitato
Compito di Esplorazione Pura: Necessita diversità piuttosto che rilevanza

Raccomandazioni per la Riproduzione

Se si desidera riprodurre questo lavoro:

Sostituire LLM: Utilizzare Llama 3.1 70B o Qwen 2.5 72B
Sostituire Modello di Base: Utilizzare modelli sentence-transformers pubblici
Versione Semplificata: Verificare prima LLM+CTR+Pearson Loss (non necessita dati SR)
Protocollo di Valutazione: Fare riferimento al flusso di valutazione offline nell'appendice 8.2
Scala di Inizio: Iniziare da dati a livello milioni, espandere gradualmente

Riferimenti (Selezionati)

Lavori Correlati Fondamentali

D2LLM (Liao et al., 2024): Prima proposta di perdita Pearson per distillazione LLM→doppio encoder
CUPID (Bhattacharya et al., 2023): Dimostra che la perdita MSE non è adatta per distillazione cross→doppio encoder
ERNIE-search (Lu et al., 2022): Esplorazione iniziale dell'architettura Insegnante-Assistente
Middleman Bias (Dey et al., 2025b): Teoria della distorsione da intermediario proposta dagli autori

Distorsione e Raccomandazione

Chen et al. (2023): Rassegna sulla distorsione nei sistemi di raccomandazione
Joachims et al. (2017): Apprendimento imparziale da feedback distorto

Valutazione LLM

Zheng et al. (2023): MT-Bench e LLM-as-a-judge
Gu et al. (2025): Rassegna su LLM come giudice

Valutazione Complessiva: ⭐⭐⭐⭐⭐ (5/5)

Questo è un articolo eccellente di applicazione industriale che verifica l'efficacia dell'addestramento assistito da LLM in scenari reali su larga scala, fornendo una soluzione completa dalla teoria alla pratica. Sebbene presenti alcune limitazioni (come analisi teorica insufficiente, test in un singolo mercato), il suo valore pratico, innovazione metodologica e completezza sperimentale raggiungono tutti il livello di eccellenza. Particolarmente degno di nota è l'analisi approfondita degli autori su LLM generico vs LLM messo a punto, che rivela il problema della distorsione modale nell'annotazione manuale, fornendo un importante avvertimento al campo.