2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.
Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.
academic

CardRewriter: Sfruttamento di Schede di Conoscenza per la Riscrittura di Query Long-Tail su Piattaforme Video Brevi

Informazioni Fondamentali

  • ID Articolo: 2510.10095
  • Titolo: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
  • Autori: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
  • Classificazione: cs.IR (Information Retrieval), cs.CL (Computational Linguistics)
  • Data di Pubblicazione: 11 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.10095

Riassunto

Le piattaforme video brevi si sono rapidamente affermate come sistemi di recupero informazioni di nuova generazione, dove gli utenti acquisiscono video desiderati attraverso query. Tuttavia, le query degli utenti, in particolare quelle long-tail, presentano frequentemente errori di ortografia, formulazioni incomplete e intenzioni ambigue, causando disallineamenti tra le aspettative degli utenti e i risultati del recupero. Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato eccellenti prestazioni nella riscrittura di query long-tail nel settore dell'e-commerce, affrontano sfide sulle piattaforme video brevi, poiché i contenuti proprietari della piattaforma (come video brevi, trasmissioni in diretta, micro-drammi e reti sociali degli utenti) esulano dalla loro distribuzione di addestramento. Per affrontare questa sfida, il presente articolo propone CardRewriter, un framework basato su LLM che migliora la riscrittura di query long-tail attraverso l'integrazione di conoscenze specifiche del dominio. Il metodo aggrega conoscenze correlate da molteplici fonti per ogni query e le sintetizza in schede di conoscenza informative e rilevanti alla query, guidando successivamente l'LLM a catturare meglio l'intenzione dell'utente e produrre riscritture di query più efficaci.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le query degli utenti sulle piattaforme video brevi presentano tre sfide principali:

  1. Errori di Ortografia: I termini di query inseriti dagli utenti possono contenere errori ortografici
  2. Formulazione Incompleta: Le query degli utenti mancano di informazioni critiche, causando risultati di recupero imprecisi
  3. Intenzione Ambigua: In particolare quando coinvolgono contenuti proprietari della piattaforma, l'intenzione della query rimane poco chiara

Importanza del Problema

  • Le piattaforme video brevi si sono affermate come sistemi di recupero informazioni critici, servendo miliardi di utenti
  • La qualità della query influisce direttamente sull'esperienza utente e sul valore commerciale della piattaforma
  • Le query long-tail rappresentano una proporzione considerevole ma presentano difficoltà di elaborazione maggiori

Limitazioni dei Metodi Esistenti

  1. Metodi Basati su Embedding: Dipendono dal recupero di query semanticamente simili, con efficacia limitata per query long-tail
  2. Metodi Generativi: Gli LLM mostrano buone prestazioni nel settore dell'e-commerce, ma presentano comprensione insufficiente dei contenuti proprietari delle piattaforme video brevi
  3. Problema di Adattamento al Dominio: Gli LLM esistenti non sono stati addestrati su contenuti proprietari come video brevi, trasmissioni in diretta e micro-drammi

Motivazione della Ricerca

Migliorare la capacità dell'LLM di comprendere e riscrivere query sulle piattaforme video brevi introducendo conoscenze specifiche della piattaforma, in particolare per query long-tail che coinvolgono contenuti proprietari.

Contributi Fondamentali

  1. Proposta del Framework CardRewriter: Il primo framework basato su LLM specificamente progettato per la riscrittura di query long-tail su piattaforme video brevi, integrando efficacemente le conoscenze proprietarie della piattaforma attraverso schede di conoscenza
  2. Progettazione di una Strategia di Addestramento a Due Fasi: Combinazione di fine-tuning supervisionato (SFT) e ottimizzazione della strategia relativa di gruppo (GRPO), utilizzando un sistema di ricompense personalizzato per bilanciare rilevanza ed efficacia
  3. Verifica dell'Efficacia Pratica: Distribuzione e verifica sulla piattaforma Kuaishou, con esperimenti offline e online che mostrano miglioramenti significativi
  4. Fornitura di una Soluzione Completa: Soluzione end-to-end dalla raccolta di conoscenze, generazione di schede alla riscrittura di query

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un query di input x, l'obiettivo di CardRewriter è generare una query riscritta y che consenta il recupero di contenuti video più allineati all'intenzione dell'utente. L'intero processo può essere rappresentato come:

y = G_θ(x, c), c = C_θ(x, M)

dove c è la scheda di conoscenza, M è la conoscenza da molteplici fonti, C_θ è il modello di generazione della scheda e G_θ è il modello di riscrittura della query.

Architettura del Modello

1. Fase di Raccolta di Conoscenze

Estrazione di Conoscenze Video Multimodali:

  • Contenuto Visivo: Estrazione di tre fotogrammi chiave dal video
  • Contenuto Testuale: Titolo, sottotitoli, testo OCR della copertina, nome dell'autore, musica di sottofondo

Espansione di Query Simili:

  • Corrispondenza Basata su Regole (Q2Q): Selezione di query con sovrapposizione lessicale con la query originale e intersezione negli elenchi di video recuperati
  • Corrispondenza Basata su Embedding (EMB): Calcolo della similarità di embedding tra query

Integrazione di Documenti Open-Domain: Acquisizione di documenti open-domain correlati tramite servizi API come fonte di conoscenza supplementare

2. Fase di Riscrittura Basata su Scheda

Generazione di Scheda di Conoscenza:

  • Input: Query originale x e conoscenza da molteplici fonti M
  • Output: Scheda di conoscenza concisa e rilevante c
  • Obiettivo: Riduzione del rumore, integrazione e evidenziazione dei contenuti direttamente rilevanti alla query

Riscrittura della Query:

  • Input: Query originale x e scheda di conoscenza c
  • Output: Query riscritta y
  • Obiettivo: Utilizzo delle informazioni della scheda per una migliore comprensione del contesto di ricerca

Punti di Innovazione Tecnica

  1. Progettazione della Scheda di Conoscenza: Rispetto all'iniezione diretta di conoscenze da molteplici fonti, la scheda di conoscenza risolve efficacemente i problemi di incoerenza strutturale, eccessivo rumore e rilevanza limitata
  2. Strategia di Addestramento a Due Fasi:
    • Fase SFT: Fine-tuning supervisionato utilizzando dati di alta qualità
    • Fase GRPO: Ulteriore ottimizzazione attraverso apprendimento per rinforzo
  3. Sistema di Ricompense Personalizzato:
    R_Overall = {
        R_Sys, if R_Sys > 0
        0.1, if R_Sys = 0 and R_Rel > 0  
        0, if R_Sys = R_Rel = 0
    }
    

    Bilanciamento tra rilevanza semantica e preferenze del sistema

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

  • Generazione di Scheda: 200.000 query, generazione di 1,6 milioni di quadruple, conservazione di 30.000 triple di alta qualità dopo filtraggio
  • Riscrittura di Query: 400.000 query, generazione di 3,2 milioni di triple, conservazione di 50.000 coppie per SFT dopo filtraggio
  • Modellazione di Ricompense: 150.000 query, generazione di 240.000 coppie di preferenza

Dataset di Test:

  • Generazione di Scheda: 10.000 query
  • Modellazione di Ricompense: 10.000 query
  • Riscrittura di Query: 15.000 query

Metriche di Valutazione

Metriche Offline:

  1. Rel (Rilevanza): Valutazione della qualità semantica dell'output del modello
  2. Increment (Espansione del Recupero): Misurazione del miglioramento relativo della copertura del recupero
  3. Hitrate@K (Soddisfazione dell'Utente): Proporzione di query riscritte che recuperano video allineati all'intenzione dell'utente nei primi K risultati

Metriche Online:

  1. LVR (Tasso di Visualizzazione Lunga): Proporzione di utenti che visualizzano video per lunghi periodi
  2. IQRR (Tasso di Ricostruzione Attiva della Query): Proporzione di utenti che riformulano attivamente la query
  3. CTR (Tasso di Clic): Proporzione di utenti che cliccano sui risultati del recupero

Metodi di Confronto

  • Metodo di riscrittura basato su prompt
  • Baseline SFT e SFT+DPO
  • Metodo di iniezione diretta di conoscenza (Naive RAG)
  • Metodo CSA-QR adattato

Dettagli di Implementazione

  • Generazione di Scheda: Fine-tuning basato su Qwen2.5-VL-7B-Instruct
  • Riscrittura di Query: Fine-tuning basato su Qwen3-8B
  • Configurazione di Addestramento: Tasso di apprendimento 1×10^-5, ottimizzatore AdamW, addestramento distribuito DeepSpeed ZeRO-3

Risultati Sperimentali

Risultati Principali

MetodoTipo di ConoscenzaQR-RelIncrementHitrate@50Hitrate@300
Query Originale---31.40%53.07%
SFT+GRPO-78.98%65.19%41.68%65.71%
SFT+GRPONaive RAG74.28%70.86%41.05%65.63%
CardRewriterCard RAG85.73%74.17%46.64%76.04%

Scoperte Chiave:

  1. CardRewriter raggiunge le migliori prestazioni nella maggior parte delle metriche
  2. La scheda di conoscenza migliora significativamente la qualità della riscrittura rispetto all'iniezione diretta di conoscenza
  3. La strategia di addestramento SFT+GRPO produce i migliori risultati

Esperimenti di Ablazione

Analisi del Contributo di Conoscenze da Molteplici Fonti:

  • Rimozione di Contenuto Visivo: QC-Rel diminuisce da 91.16% a 89.37%
  • Rimozione di Contenuto Testuale: QC-Rel diminuisce a 86.18% (impatto maggiore)
  • Rimozione di Video Correlati: QC-Rel diminuisce a 78.27% (impatto massimo)

Analisi del Sistema di Ricompense:

  • Solo Ricompensa di Rilevanza: Rilevanza della query massima ma espansione del recupero limitata
  • Solo Ricompensa del Sistema: Recupero di più video nuovi ma potenziale deviazione dall'intenzione originale
  • Ricompensa Combinata: Miglior equilibrio tra rilevanza ed efficacia

Analisi di Casi

L'articolo presenta un caso tipico:

  • Query Originale: "可口可乐寄人篱下的痛" (L'utente ha erroneamente scritto il nome del creatore "可可可乐" come "可口可乐")
  • Riscrittura LLM: "可口可乐 寄人篱下 创意广告" (Associazione errata al marchio di bevande)
  • CardRewriter: "可可可乐 被寄养的孩子系列" (Corretta comprensione dell'intenzione dell'utente)

Risultati di Esperimenti Online

Tipo di TrafficoLVR ↑IQRR ↓CTR ↑
Traffico Coperto+1.853%-2.630%+3.729%
Traffico Completo+0.235%-0.229%+0.342%

Il test A/B online conferma miglioramenti significativi, particolarmente evidenti nel traffico coperto.

Lavori Correlati

Ricerca sulla Riscrittura di Query

  1. Metodi Basati su Embedding: Considerano la riscrittura di query come compito di recupero, migliorando la query originale attraverso query simili
  2. Metodi Generativi: Generazione diretta di query riviste, con recenti metodi basati su LLM che mostrano eccellenti prestazioni nel settore dell'e-commerce
  3. Adattamento al Dominio: I metodi esistenti si concentrano principalmente su scenari di e-commerce, con ricerca relativamente limitata su piattaforme video brevi

Generazione Aumentata da Recupero

La tecnologia RAG migliora la qualità della generazione attraverso il recupero di informazioni rilevanti. Il presente articolo applica questo approccio al compito di riscrittura di query, integrando efficacemente informazioni da molteplici fonti attraverso schede di conoscenza.

Conclusioni e Discussione

Conclusioni Principali

  1. CardRewriter risolve efficacemente il problema della riscrittura di query long-tail sulle piattaforme video brevi attraverso schede di conoscenza
  2. La strategia di addestramento a due fasi e il sistema di ricompense personalizzato migliorano significativamente la qualità della riscrittura
  3. La distribuzione sulla piattaforma Kuaishou verifica il valore pratico del metodo

Limitazioni

  1. Sovraccarico Computazionale: L'inferenza LLM richiede risorse computazionali considerevoli, adottando una strategia di distribuzione quasi-online
  2. Portata di Copertura: Attualmente copre solo il 15-20% del traffico di ricerca quotidiano
  3. Dipendenza dal Dominio: Il metodo è progettato per piattaforme video brevi, con applicabilità in altri domini che richiede ulteriore verifica

Direzioni Future

  1. Espansione della portata di query coperte
  2. Ottimizzazione dell'efficienza dell'inferenza online
  3. Esplorazione dell'applicabilità cross-platform e cross-domain

Valutazione Approfondita

Punti di Forza

  1. Forte Specificità del Problema: Identificazione accurata delle sfide uniche della riscrittura di query sulle piattaforme video brevi
  2. Soluzione Tecnica Completa: Soluzione end-to-end dalla raccolta di conoscenze all'addestramento del modello
  3. Valutazione Sperimentale Completa: Esperimenti offline completi e verifica della distribuzione online per validare l'efficacia pratica
  4. Alto Valore di Pratica Ingegneristica: Già distribuito su piattaforme su larga scala, servendo miliardi di utenti

Insufficienze

  1. Efficienza Computazionale: La latenza dell'inferenza LLM è relativamente elevata, limitando le applicazioni in tempo reale
  2. Dipendenza dai Dati: Richiede grandi quantità di dati annotati per costruire insiemi di addestramento
  3. Interpretabilità: L'interpretabilità del processo di generazione della scheda di conoscenza necessita di ulteriore miglioramento
  4. Capacità di Generalizzazione: Il metodo è progettato per piattaforme specifiche, con capacità di generalizzazione cross-domain non completamente verificate

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per la comprensione di query su piattaforme video brevi
  2. Valore Pratico: Risolve problemi commerciali reali con valore commerciale diretto
  3. Promozione Tecnologica: L'approccio di progettazione della scheda di conoscenza può essere promosso ad altre applicazioni RAG

Scenari Applicabili

  1. Ottimizzazione della ricerca su piattaforme di contenuti video brevi e trasmissioni in diretta
  2. Ricerca verticale in domini con grandi quantità di contenuti proprietari
  3. Compiti di comprensione di query che richiedono l'integrazione di informazioni multimodali

Riferimenti Bibliografici

L'articolo cita 33 riferimenti correlati, coprendo molteplici direzioni di ricerca inclusa la riscrittura di query, la generazione aumentata da recupero e i modelli linguistici di grandi dimensioni, fornendo una base teorica sostanziale per la ricerca.


Sintesi: CardRewriter è una ricerca innovativa sulla riscrittura di query long-tail per piattaforme video brevi, che integra efficacemente le conoscenze proprietarie della piattaforma attraverso schede di conoscenza, raggiungendo risultati significativi sia nei metodi teorici che nella pratica ingegneristica. Questo lavoro fornisce una soluzione di valore per affrontare compiti di comprensione di query che coinvolgono contenuti proprietari.