2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.

Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.

academic

CardRewriter: Sfruttamento di Schede di Conoscenza per la Riscrittura di Query Long-Tail su Piattaforme Video Brevi

Informazioni Fondamentali

ID Articolo: 2510.10095
Titolo: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
Autori: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
Classificazione: cs.IR (Information Retrieval), cs.CL (Computational Linguistics)
Data di Pubblicazione: 11 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.10095

Riassunto

Le piattaforme video brevi si sono rapidamente affermate come sistemi di recupero informazioni di nuova generazione, dove gli utenti acquisiscono video desiderati attraverso query. Tuttavia, le query degli utenti, in particolare quelle long-tail, presentano frequentemente errori di ortografia, formulazioni incomplete e intenzioni ambigue, causando disallineamenti tra le aspettative degli utenti e i risultati del recupero. Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato eccellenti prestazioni nella riscrittura di query long-tail nel settore dell'e-commerce, affrontano sfide sulle piattaforme video brevi, poiché i contenuti proprietari della piattaforma (come video brevi, trasmissioni in diretta, micro-drammi e reti sociali degli utenti) esulano dalla loro distribuzione di addestramento. Per affrontare questa sfida, il presente articolo propone CardRewriter, un framework basato su LLM che migliora la riscrittura di query long-tail attraverso l'integrazione di conoscenze specifiche del dominio. Il metodo aggrega conoscenze correlate da molteplici fonti per ogni query e le sintetizza in schede di conoscenza informative e rilevanti alla query, guidando successivamente l'LLM a catturare meglio l'intenzione dell'utente e produrre riscritture di query più efficaci.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le query degli utenti sulle piattaforme video brevi presentano tre sfide principali:

Errori di Ortografia: I termini di query inseriti dagli utenti possono contenere errori ortografici
Formulazione Incompleta: Le query degli utenti mancano di informazioni critiche, causando risultati di recupero imprecisi
Intenzione Ambigua: In particolare quando coinvolgono contenuti proprietari della piattaforma, l'intenzione della query rimane poco chiara

Importanza del Problema

Le piattaforme video brevi si sono affermate come sistemi di recupero informazioni critici, servendo miliardi di utenti
La qualità della query influisce direttamente sull'esperienza utente e sul valore commerciale della piattaforma
Le query long-tail rappresentano una proporzione considerevole ma presentano difficoltà di elaborazione maggiori

Limitazioni dei Metodi Esistenti

Metodi Basati su Embedding: Dipendono dal recupero di query semanticamente simili, con efficacia limitata per query long-tail
Metodi Generativi: Gli LLM mostrano buone prestazioni nel settore dell'e-commerce, ma presentano comprensione insufficiente dei contenuti proprietari delle piattaforme video brevi
Problema di Adattamento al Dominio: Gli LLM esistenti non sono stati addestrati su contenuti proprietari come video brevi, trasmissioni in diretta e micro-drammi

Motivazione della Ricerca

Migliorare la capacità dell'LLM di comprendere e riscrivere query sulle piattaforme video brevi introducendo conoscenze specifiche della piattaforma, in particolare per query long-tail che coinvolgono contenuti proprietari.

Contributi Fondamentali

Proposta del Framework CardRewriter: Il primo framework basato su LLM specificamente progettato per la riscrittura di query long-tail su piattaforme video brevi, integrando efficacemente le conoscenze proprietarie della piattaforma attraverso schede di conoscenza
Progettazione di una Strategia di Addestramento a Due Fasi: Combinazione di fine-tuning supervisionato (SFT) e ottimizzazione della strategia relativa di gruppo (GRPO), utilizzando un sistema di ricompense personalizzato per bilanciare rilevanza ed efficacia
Verifica dell'Efficacia Pratica: Distribuzione e verifica sulla piattaforma Kuaishou, con esperimenti offline e online che mostrano miglioramenti significativi
Fornitura di una Soluzione Completa: Soluzione end-to-end dalla raccolta di conoscenze, generazione di schede alla riscrittura di query

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un query di input x, l'obiettivo di CardRewriter è generare una query riscritta y che consenta il recupero di contenuti video più allineati all'intenzione dell'utente. L'intero processo può essere rappresentato come:

y = G_θ(x, c), c = C_θ(x, M)

dove c è la scheda di conoscenza, M è la conoscenza da molteplici fonti, C_θ è il modello di generazione della scheda e G_θ è il modello di riscrittura della query.

Architettura del Modello

1. Fase di Raccolta di Conoscenze

Estrazione di Conoscenze Video Multimodali:

Contenuto Visivo: Estrazione di tre fotogrammi chiave dal video
Contenuto Testuale: Titolo, sottotitoli, testo OCR della copertina, nome dell'autore, musica di sottofondo

Espansione di Query Simili:

Corrispondenza Basata su Regole (Q2Q): Selezione di query con sovrapposizione lessicale con la query originale e intersezione negli elenchi di video recuperati
Corrispondenza Basata su Embedding (EMB): Calcolo della similarità di embedding tra query

Integrazione di Documenti Open-Domain: Acquisizione di documenti open-domain correlati tramite servizi API come fonte di conoscenza supplementare

2. Fase di Riscrittura Basata su Scheda

Generazione di Scheda di Conoscenza:

Input: Query originale x e conoscenza da molteplici fonti M
Output: Scheda di conoscenza concisa e rilevante c
Obiettivo: Riduzione del rumore, integrazione e evidenziazione dei contenuti direttamente rilevanti alla query

Riscrittura della Query:

Input: Query originale x e scheda di conoscenza c
Output: Query riscritta y
Obiettivo: Utilizzo delle informazioni della scheda per una migliore comprensione del contesto di ricerca

Punti di Innovazione Tecnica

Progettazione della Scheda di Conoscenza: Rispetto all'iniezione diretta di conoscenze da molteplici fonti, la scheda di conoscenza risolve efficacemente i problemi di incoerenza strutturale, eccessivo rumore e rilevanza limitata
Strategia di Addestramento a Due Fasi:
- Fase SFT: Fine-tuning supervisionato utilizzando dati di alta qualità
- Fase GRPO: Ulteriore ottimizzazione attraverso apprendimento per rinforzo

Sistema di Ricompense Personalizzato:

R_Overall = {
    R_Sys, if R_Sys > 0
    0.1, if R_Sys = 0 and R_Rel > 0  
    0, if R_Sys = R_Rel = 0
}

Bilanciamento tra rilevanza semantica e preferenze del sistema

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

Generazione di Scheda: 200.000 query, generazione di 1,6 milioni di quadruple, conservazione di 30.000 triple di alta qualità dopo filtraggio
Riscrittura di Query: 400.000 query, generazione di 3,2 milioni di triple, conservazione di 50.000 coppie per SFT dopo filtraggio
Modellazione di Ricompense: 150.000 query, generazione di 240.000 coppie di preferenza

Dataset di Test:

Generazione di Scheda: 10.000 query
Modellazione di Ricompense: 10.000 query
Riscrittura di Query: 15.000 query

Metriche di Valutazione

Metriche Offline:

Rel (Rilevanza): Valutazione della qualità semantica dell'output del modello
Increment (Espansione del Recupero): Misurazione del miglioramento relativo della copertura del recupero
Hitrate@K (Soddisfazione dell'Utente): Proporzione di query riscritte che recuperano video allineati all'intenzione dell'utente nei primi K risultati

Metriche Online:

LVR (Tasso di Visualizzazione Lunga): Proporzione di utenti che visualizzano video per lunghi periodi
IQRR (Tasso di Ricostruzione Attiva della Query): Proporzione di utenti che riformulano attivamente la query
CTR (Tasso di Clic): Proporzione di utenti che cliccano sui risultati del recupero

Metodi di Confronto

Metodo di riscrittura basato su prompt
Baseline SFT e SFT+DPO
Metodo di iniezione diretta di conoscenza (Naive RAG)
Metodo CSA-QR adattato

Dettagli di Implementazione

Generazione di Scheda: Fine-tuning basato su Qwen2.5-VL-7B-Instruct
Riscrittura di Query: Fine-tuning basato su Qwen3-8B
Configurazione di Addestramento: Tasso di apprendimento 1×10^-5, ottimizzatore AdamW, addestramento distribuito DeepSpeed ZeRO-3

Risultati Sperimentali

Risultati Principali

Metodo	Tipo di Conoscenza	QR-Rel	Increment	Hitrate@50	Hitrate@300
Query Originale	-	-	-	31.40%	53.07%
SFT+GRPO	-	78.98%	65.19%	41.68%	65.71%
SFT+GRPO	Naive RAG	74.28%	70.86%	41.05%	65.63%
CardRewriter	Card RAG	85.73%	74.17%	46.64%	76.04%

Scoperte Chiave:

CardRewriter raggiunge le migliori prestazioni nella maggior parte delle metriche
La scheda di conoscenza migliora significativamente la qualità della riscrittura rispetto all'iniezione diretta di conoscenza
La strategia di addestramento SFT+GRPO produce i migliori risultati

Esperimenti di Ablazione

Analisi del Contributo di Conoscenze da Molteplici Fonti:

Rimozione di Contenuto Visivo: QC-Rel diminuisce da 91.16% a 89.37%
Rimozione di Contenuto Testuale: QC-Rel diminuisce a 86.18% (impatto maggiore)
Rimozione di Video Correlati: QC-Rel diminuisce a 78.27% (impatto massimo)

Analisi del Sistema di Ricompense:

Solo Ricompensa di Rilevanza: Rilevanza della query massima ma espansione del recupero limitata
Solo Ricompensa del Sistema: Recupero di più video nuovi ma potenziale deviazione dall'intenzione originale
Ricompensa Combinata: Miglior equilibrio tra rilevanza ed efficacia

Analisi di Casi

L'articolo presenta un caso tipico:

Query Originale: "可口可乐寄人篱下的痛" (L'utente ha erroneamente scritto il nome del creatore "可可可乐" come "可口可乐")
Riscrittura LLM: "可口可乐寄人篱下创意广告" (Associazione errata al marchio di bevande)
CardRewriter: "可可可乐被寄养的孩子系列" (Corretta comprensione dell'intenzione dell'utente)

Risultati di Esperimenti Online

Tipo di Traffico	LVR ↑	IQRR ↓	CTR ↑
Traffico Coperto	+1.853%	-2.630%	+3.729%
Traffico Completo	+0.235%	-0.229%	+0.342%

Il test A/B online conferma miglioramenti significativi, particolarmente evidenti nel traffico coperto.

Lavori Correlati

Ricerca sulla Riscrittura di Query

Metodi Basati su Embedding: Considerano la riscrittura di query come compito di recupero, migliorando la query originale attraverso query simili
Metodi Generativi: Generazione diretta di query riviste, con recenti metodi basati su LLM che mostrano eccellenti prestazioni nel settore dell'e-commerce
Adattamento al Dominio: I metodi esistenti si concentrano principalmente su scenari di e-commerce, con ricerca relativamente limitata su piattaforme video brevi

Generazione Aumentata da Recupero

La tecnologia RAG migliora la qualità della generazione attraverso il recupero di informazioni rilevanti. Il presente articolo applica questo approccio al compito di riscrittura di query, integrando efficacemente informazioni da molteplici fonti attraverso schede di conoscenza.

Conclusioni e Discussione

Conclusioni Principali

CardRewriter risolve efficacemente il problema della riscrittura di query long-tail sulle piattaforme video brevi attraverso schede di conoscenza
La strategia di addestramento a due fasi e il sistema di ricompense personalizzato migliorano significativamente la qualità della riscrittura
La distribuzione sulla piattaforma Kuaishou verifica il valore pratico del metodo

Limitazioni

Sovraccarico Computazionale: L'inferenza LLM richiede risorse computazionali considerevoli, adottando una strategia di distribuzione quasi-online
Portata di Copertura: Attualmente copre solo il 15-20% del traffico di ricerca quotidiano
Dipendenza dal Dominio: Il metodo è progettato per piattaforme video brevi, con applicabilità in altri domini che richiede ulteriore verifica

Direzioni Future

Espansione della portata di query coperte
Ottimizzazione dell'efficienza dell'inferenza online
Esplorazione dell'applicabilità cross-platform e cross-domain

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Identificazione accurata delle sfide uniche della riscrittura di query sulle piattaforme video brevi
Soluzione Tecnica Completa: Soluzione end-to-end dalla raccolta di conoscenze all'addestramento del modello
Valutazione Sperimentale Completa: Esperimenti offline completi e verifica della distribuzione online per validare l'efficacia pratica
Alto Valore di Pratica Ingegneristica: Già distribuito su piattaforme su larga scala, servendo miliardi di utenti

Insufficienze

Efficienza Computazionale: La latenza dell'inferenza LLM è relativamente elevata, limitando le applicazioni in tempo reale
Dipendenza dai Dati: Richiede grandi quantità di dati annotati per costruire insiemi di addestramento
Interpretabilità: L'interpretabilità del processo di generazione della scheda di conoscenza necessita di ulteriore miglioramento
Capacità di Generalizzazione: Il metodo è progettato per piattaforme specifiche, con capacità di generalizzazione cross-domain non completamente verificate

Impatto

Contributo Accademico: Fornisce nuove prospettive per la comprensione di query su piattaforme video brevi
Valore Pratico: Risolve problemi commerciali reali con valore commerciale diretto
Promozione Tecnologica: L'approccio di progettazione della scheda di conoscenza può essere promosso ad altre applicazioni RAG

Scenari Applicabili

Ottimizzazione della ricerca su piattaforme di contenuti video brevi e trasmissioni in diretta
Ricerca verticale in domini con grandi quantità di contenuti proprietari
Compiti di comprensione di query che richiedono l'integrazione di informazioni multimodali

Riferimenti Bibliografici

L'articolo cita 33 riferimenti correlati, coprendo molteplici direzioni di ricerca inclusa la riscrittura di query, la generazione aumentata da recupero e i modelli linguistici di grandi dimensioni, fornendo una base teorica sostanziale per la ricerca.

Sintesi: CardRewriter è una ricerca innovativa sulla riscrittura di query long-tail per piattaforme video brevi, che integra efficacemente le conoscenze proprietarie della piattaforma attraverso schede di conoscenza, raggiungendo risultati significativi sia nei metodi teorici che nella pratica ingegneristica. Questo lavoro fornisce una soluzione di valore per affrontare compiti di comprensione di query che coinvolgono contenuti proprietari.