LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic
LLMDistill4Ads: Utilizzo di Cross-Encoder per Distillare Segnali LLM per Raccomandazioni di Frasi Chiave per Inserzionisti
I venditori di e-commerce necessitano di fare offerte su frasi chiave per migliorare le prestazioni degli annunci; queste frasi devono essere rilevanti per prevenire l'inquinamento di prodotti non correlati nei sistemi di ricerca e mantenere la soddisfazione dei venditori. Poiché la raccolta di feedback negativo è difficile, questo articolo propone l'utilizzo di LLM come proxy scalabile del giudizio umano. La ricerca implementa un framework di distillazione della conoscenza su una grande piattaforma di e-commerce: modello insegnante LLM → assistente cross-encoder → modello studente doppio encoder EBR, con l'obiettivo di mitigare il problema della distorsione da clic nelle raccomandazioni di frasi chiave.
Nei sistemi pubblicitari di e-commerce, raccomandare frasi chiave rilevanti (query di acquirenti) ai venditori per fare offerte su annunci pubblicitari. Le sfide principali includono:
Inaffidabilità dei dati di clic: Alti clic/vendite indicano rilevanza, ma l'assenza di clic non significa irrilevanza
Distorsione MNAR (Missing Not At Random): I prodotti impopolari hanno ranking basso, ricevendo meno impressioni e clic
Distorsione da Intermediario (Middleman Bias): I dati di addestramento contengono solo frasi chiave filtrate dalla rilevanza della ricerca, causando distorsione nella selezione del campione
Sfruttare la conoscenza mondiale e la capacità di giudizio degli LLM come proxy del giudizio umano, attraverso apprendimento multitask e framework di distillazione della conoscenza, combinando segnali CTR, rilevanza della ricerca e LLM, per addestrare modelli di recupero efficienti con doppio encoder.
Propone Framework di Distillazione Insegnante-Assistente-Studente: Architettura a tre livelli LLM insegnante → assistente cross-encoder → studente doppio encoder
Strategia di Addestramento Multi-Segnale: Paradigma di apprendimento multitask che integra etichette CTR, rilevanza della ricerca (SR) e LLM
Studio Comparativo Sistematico di Funzioni di Perdita: Valuta 8 funzioni di perdita di distillazione della conoscenza, scoprendo che la perdita di correlazione di Pearson è ottimale
Protocollo di Valutazione in Ambiente di Produzione: Propone metodo di valutazione offline che simula scenari reali di asta pubblicitaria
Impatto Commerciale Significativo: I test A/B mostrano aumento GMB del 51,26%, aumento ROAS del 38,69%, aumento tasso di adozione frasi chiave dell'11,75%
Input: Titolo del prodotto (item title) + categoria (category) e frase chiave dell'acquirente (keyphrase) Output: Giudizio di rilevanza (classificazione binaria o punteggio di similarità continuo) Obiettivo: Recuperare le Top-K frasi chiave più rilevanti per ogni prodotto per fare offerte su annunci pubblicitari Vincoli: Necessità di bassa latenza (adatto all'ambiente di produzione), alta precisione (allineamento con giudizi multi-parte)
Calcolo del rapporto clic-impressione negli ultimi 30 giorni
CTR > 0,05 marcato come campione positivo
Campioni positivi affidabili, campioni negativi inaffidabili (utilizzati solo per perdita MNR)
Etichette Rilevanza della Ricerca (SR) (18.721.682):
Raccolta di punteggi del modello SR di 3 mesi dal processo di asta
Superamento della soglia commerciale marcato come campione positivo
Nessuna distorsione da intermediario e distorsione nella selezione del campione
Etichette LLM (50.078.315 set di addestramento, 3.524.414 set di test):
Generato utilizzando Mixtral 8X7B Instruct-v0.1
Coerenza del 90% con dati di clic
Design del Prompt:
Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
Segnali LLM Efficaci nel Mitigare Distorsione da Clic: Nel scenario di raccomandazione di frasi chiave pubblicitarie, le etichette generate da LLM sono significativamente superiori all'utilizzo solo di CTR
Architettura Insegnante-Assistente Superiore a Distillazione Diretta: Il cross-encoder come ponte intermedio è cruciale
Perdita Pearson Più Adatta per Distillazione di Ranking: La perdita di ranking in batch è superiore alle perdite punto per punto e a coppie
Effetto Sinergico della Fusione Multi-Segnale: La combinazione CTR+LLM+KD raggiunge il miglior effetto commerciale
LLM Generico Superiore a LLM Messo a Punto: Nei dati di annotazione manuale con distorsione modale
Questo è un articolo eccellente di applicazione industriale che verifica l'efficacia dell'addestramento assistito da LLM in scenari reali su larga scala, fornendo una soluzione completa dalla teoria alla pratica. Sebbene presenti alcune limitazioni (come analisi teorica insufficiente, test in un singolo mercato), il suo valore pratico, innovazione metodologica e completezza sperimentale raggiungono tutti il livello di eccellenza. Particolarmente degno di nota è l'analisi approfondita degli autori su LLM generico vs LLM messo a punto, che rivela il problema della distorsione modale nell'annotazione manuale, fornendo un importante avvertimento al campo.