2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.
Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.
academic

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Grundinformationen

  • Papier-ID: 2510.10095
  • Titel: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
  • Autoren: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
  • Klassifizierung: cs.IR (Information Retrieval), cs.CL (Computational Linguistics)
  • Veröffentlichungsdatum: 11. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.10095

Zusammenfassung

Kurzvideoplatformen sind schnell zu einer neuen Generation von Informationssystemen geworden, über die Benutzer durch Abfragen die gewünschten Videos abrufen. Benutzerabfragen, insbesondere Long-Tail-Abfragen, weisen jedoch häufig Rechtschreibfehler, unvollständige Formulierungen und mehrdeutige Absichten auf, was zu Unstimmigkeiten zwischen Benutzererwartungen und Suchergebnissen führt. Obwohl große Sprachmodelle (LLMs) bei der Umformulierung von Long-Tail-Abfragen im E-Commerce-Bereich hervorragende Leistungen zeigen, stoßen sie auf Kurzvideoplatformen auf Herausforderungen, da plattformspezifische Inhalte (wie Kurzvideos, Live-Streaming, Mikro-Dramen und soziale Netzwerke von Benutzern) außerhalb ihrer Trainingsverteilung liegen. Um diese Herausforderung zu bewältigen, wird CardRewriter vorgestellt – ein LLM-basiertes Framework, das die Umformulierung von Long-Tail-Abfragen durch die Integration domänenspezifischen Wissens verbessert. Die Methode aggregiert für jede Abfrage Wissen aus mehreren Quellen und fasst es in informative und abfragerelevante Wissenscards zusammen, die dann das LLM anleiten, Benutzerabsichten besser zu erfassen und effektivere Abfrageumformulierungen zu erzeugen.

Forschungshintergrund und Motivation

Problemdefinition

Benutzerabfragen auf Kurzvideoplatformen stehen vor drei großen Herausforderungen:

  1. Rechtschreibfehler: Benutzer eingegeben Abfragen können Rechtschreibfehler enthalten
  2. Unvollständige Formulierung: Benutzerabfragen fehlen Schlüsselinformationen, was zu ungenauen Suchergebnissen führt
  3. Mehrdeutige Absicht: Besonders bei plattformspezifischen Inhalten ist die Abfrageabsicht unklar

Bedeutung des Problems

  • Kurzvideoplatformen sind zu wichtigen Informationssystemen geworden, die Hunderte von Millionen Benutzern bedienen
  • Die Abfragequalität beeinflusst direkt die Benutzererfahrung und den kommerziellen Wert der Plattform
  • Long-Tail-Abfragen machen einen erheblichen Anteil aus, sind aber schwieriger zu verarbeiten

Einschränkungen bestehender Methoden

  1. Embedding-basierte Methoden: Basieren auf dem Abrufen semantisch ähnlicher Abfragen, mit begrenzter Wirksamkeit bei Long-Tail-Abfragen
  2. Generative Methoden: LLMs zeigen gute Leistungen im E-Commerce-Bereich, verstehen aber plattformspezifische Inhalte von Kurzvideoplatformen nicht ausreichend
  3. Domänenanpassungsproblem: Bestehende LLMs wurden nicht auf plattformspezifischen Inhalten wie Kurzvideos, Live-Streaming und Mikro-Dramen trainiert

Forschungsmotivation

Durch die Einführung plattformspezifischen Wissens die Fähigkeit von LLMs zur Verständigung und Umformulierung von Abfragen auf Kurzvideoplatformen verbessern, insbesondere für Long-Tail-Abfragen mit plattformspezifischen Inhalten.

Kernbeiträge

  1. CardRewriter-Framework vorgestellt: Das erste LLM-Framework speziell für die Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen, das plattformspezifisches Wissen durch Wissenscards effektiv integriert
  2. Zweistufige Trainingsstrategie entwickelt: Kombination von Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO) mit einem benutzerdefinierten Belohnungssystem, das Relevanz und Effektivität ausgleicht
  3. Praktische Wirksamkeit validiert: Bereitstellung und Validierung auf der Kuaishou-Plattform mit signifikanten Verbesserungen in Offline- und Online-Experimenten
  4. Vollständige Lösung bereitgestellt: End-to-End-Lösung von der Wissensbeschaffung über die Kartengenerierung bis zur Abfrageumformulierung

Methodische Details

Aufgabendefinition

Gegeben eine Eingabeabfrage x besteht das Ziel von CardRewriter darin, eine umformulierte Abfrage y zu generieren, die es ermöglicht, Videoinhalte abzurufen, die der Benutzerabsicht besser entsprechen. Der gesamte Prozess kann wie folgt dargestellt werden:

y = G_θ(x, c), c = C_θ(x, M)

wobei c die Wissenskarte ist, M das Wissen aus mehreren Quellen, C_θ das Kartengenerierungsmodell und G_θ das Abfrageumformulierungsmodell ist.

Modellarchitektur

1. Wissensbeschaffungsphase

Multimodale Videovissenextraktion:

  • Visuelle Inhalte: Extraktion von drei Schlüsselbildern aus Videos
  • Textinhalte: Titel, Untertitel, OCR-Text auf Covern, Autorennamen, Hintergrundmusik

Erweiterung ähnlicher Abfragen:

  • Regelbasiertes Matching (Q2Q): Auswahl von Abfragen mit Wortüberlappung zur ursprünglichen Abfrage und Schnittmenge der abgerufenen Videolisten
  • Embedding-basiertes Matching (EMB): Berechnung der Embedding-Ähnlichkeit zwischen Abfragen

Ergänzung von Open-Domain-Dokumenten: Abruf verwandter Open-Domain-Dokumente über API-Dienste als zusätzliche Wissensquellen

2. Kartbasierte Umformulierungsphase

Wissenscartengenerierung:

  • Eingabe: Ursprüngliche Abfrage x und Wissen aus mehreren Quellen M
  • Ausgabe: Prägnante und relevante Wissenskarte c
  • Ziel: Entrauschung, Integration und Hervorhebung von Inhalten, die direkt mit der Abfrage zusammenhängen

Abfrageumformulierung:

  • Eingabe: Ursprüngliche Abfrage x und Wissenskarte c
  • Ausgabe: Umformulierte Abfrage y
  • Ziel: Nutzung von Karteninformationen zur besseren Verständigung des Suchkontexts

Technische Innovationen

  1. Wissenscartenentwurf: Im Vergleich zur direkten Einspeisung von Wissen aus mehreren Quellen löst die Wissenskarte effektiv Probleme mit struktureller Inkonsistenz, übermäßigem Rauschen und begrenzter Relevanz
  2. Zweistufige Trainingsstrategie:
    • SFT-Phase: Überwachtes Fine-Tuning mit hochqualitativen Daten
    • GRPO-Phase: Weitere Optimierung durch Reinforcement Learning
  3. Benutzerdefiniertes Belohnungssystem:
    R_Overall = {
        R_Sys, wenn R_Sys > 0
        0.1, wenn R_Sys = 0 und R_Rel > 0  
        0, wenn R_Sys = R_Rel = 0
    }
    

    Ausgleich zwischen semantischer Relevanz und Systempräferenz

Experimentelle Einrichtung

Datensätze

Trainingsdatensätze:

  • Kartengenerierung: 200.000 Abfragen, Generierung von 1,6 Millionen Quadrupel, nach Filterung 30.000 hochwertige Tripel
  • Abfrageumformulierung: 400.000 Abfragen, Generierung von 3,2 Millionen Tripel, nach Filterung 50.000 Paare für SFT
  • Belohnungsmodellierung: 150.000 Abfragen, Generierung von 240.000 Präferenzpaaren

Testdatensätze:

  • Kartengenerierung: 10.000 Abfragen
  • Belohnungsmodellierung: 10.000 Abfragen
  • Abfrageumformulierung: 15.000 Abfragen

Bewertungsmetriken

Offline-Metriken:

  1. Rel (Relevanz): Bewertung der semantischen Qualität der Modellausgabe
  2. Increment (Abrufserweiterung): Messung der relativen Verbesserung der Abdeckung
  3. Hitrate@K (Benutzerzufriedenheit): Anteil der umformulierten Abfragen, die in den Top-K-Ergebnissen Videos mit Benutzerabsicht abrufen

Online-Metriken:

  1. LVR (Long-View-Rate): Anteil der Benutzer, die Videos lange ansehen
  2. IQRR (Aktive Abfragereformulierungsrate): Anteil der Benutzer, die Abfragen aktiv neu formulieren
  3. CTR (Click-Through-Rate): Anteil der Benutzer, die auf Suchergebnisse klicken

Vergleichsmethoden

  • Prompt-basierte Umformulierungsmethoden
  • SFT- und SFT+DPO-Baselines
  • Direkte Wissensinjektion (Naive RAG)
  • Angepasste CSA-QR-Methode

Implementierungsdetails

  • Kartengenerierung: Fine-Tuning basierend auf Qwen2.5-VL-7B-Instruct
  • Abfrageumformulierung: Fine-Tuning basierend auf Qwen3-8B
  • Trainingseinstellungen: Lernrate 1×10^-5, AdamW-Optimierer, DeepSpeed ZeRO-3 verteiltes Training

Experimentelle Ergebnisse

Hauptergebnisse

MethodeWissenstypQR-RelIncrementHitrate@50Hitrate@300
Ursprüngliche Abfrage---31,40%53,07%
SFT+GRPO-78,98%65,19%41,68%65,71%
SFT+GRPONaive RAG74,28%70,86%41,05%65,63%
CardRewriterCard RAG85,73%74,17%46,64%76,04%

Wichtigste Erkenntnisse:

  1. CardRewriter erreicht die beste Leistung bei den meisten Metriken
  2. Wissenscarten zeigen signifikante Verbesserungen gegenüber direkter Wissensinjektion
  3. Die SFT+GRPO-Trainingsstrategie zeigt die beste Leistung

Ablationsstudien

Analyse des Beitrags von Wissen aus mehreren Quellen:

  • Entfernung visueller Inhalte: QC-Rel sinkt von 91,16% auf 89,37%
  • Entfernung von Textinhalten: QC-Rel sinkt auf 86,18% (größerer Einfluss)
  • Entfernung verwandter Videos: QC-Rel sinkt auf 78,27% (größter Einfluss)

Analyse des Belohnungssystems:

  • Nur Relevanzbelohnung: Höchste Abfragerelev, aber begrenzte Abrufserweiterung
  • Nur Systembelohnung: Abruf von mehr neuen Videos, aber mögliche Abweichung von der ursprünglichen Absicht
  • Kombinierte Belohnung: Beste Balance zwischen Relevanz und Effektivität

Fallstudien

Das Papier zeigt einen typischen Fall:

  • Ursprüngliche Abfrage: "可口可乐寄人篱下的痛" (Benutzer schrieb den Creator-Namen "可可可乐" fälschlicherweise als "可口可乐")
  • LLM-Umformulierung: "可口可乐 寄人篱下 创意广告" (falsche Assoziation mit Getränkemarke)
  • CardRewriter: "可可可乐 被寄养的孩子系列" (korrekte Verständigung der Benutzerabsicht)

Online-Experimentergebnisse

VerkehrstypLVR ↑IQRR ↓CTR ↑
Abdeckungsverkehr+1,853%-2,630%+3,729%
Gesamtverkehr+0,235%-0,229%+0,342%

Online-A/B-Tests bestätigen signifikante Verbesserungen, besonders bei Abdeckungsverkehr.

Verwandte Arbeiten

Abfrageumformulierungsforschung

  1. Embedding-basierte Methoden: Behandlung der Abfrageumformulierung als Abrufaufgabe durch Erweiterung mit ähnlichen Abfragen
  2. Generative Methoden: Direkte Generierung überarbeiteter Abfragen, neuere LLM-Methoden zeigen hervorragende Leistungen im E-Commerce
  3. Domänenanpassung: Bestehende Methoden konzentrieren sich hauptsächlich auf E-Commerce-Szenarien, Forschung zu Kurzvideoplatformen ist relativ begrenzt

Retrieval-Augmented Generation

RAG-Technologie verbessert die Generierungsqualität durch Abruf relevanter Informationen. Dieses Papier wendet sie auf Abfrageumformulierungsaufgaben an und integriert effektiv Wissen aus mehreren Quellen durch Wissenscarten.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. CardRewriter löst effektiv das Problem der Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen durch Wissenscarten
  2. Die zweistufige Trainingsstrategie und das benutzerdefinierte Belohnungssystem verbessern die Umformulierungsqualität erheblich
  3. Die Bereitstellung auf der Kuaishou-Plattform validiert den praktischen Wert der Methode

Einschränkungen

  1. Rechenaufwand: LLM-Inferenz erfordert erhebliche Rechenressourcen, Near-Line-Bereitstellungsstrategie wird verwendet
  2. Abdeckungsbereich: Derzeit nur 15-20% des täglichen Suchverkehrs abgedeckt
  3. Domänenabhängigkeit: Methode ist für Kurzvideoplatformen konzipiert, Anwendbarkeit in anderen Bereichen erfordert weitere Validierung

Zukünftige Richtungen

  1. Erweiterung des Bereichs abgedeckter Abfragen
  2. Optimierung der Online-Inferenzeffizienz
  3. Erkundung der plattformübergreifenden und bereichsübergreifenden Anwendbarkeit

Tiefgreifende Bewertung

Stärken

  1. Starke Problembezogenheit: Genaue Identifizierung einzigartiger Herausforderungen bei der Abfrageumformulierung auf Kurzvideoplatformen
  2. Vollständige technische Lösung: End-to-End-Lösung von der Wissensbeschaffung bis zum Modelltraining
  3. Umfassende experimentelle Bewertung: Umfassende Offline-Experimente, Online-Bereitstellungsvalidierung
  4. Hoher technischer Praxiswert: Bereits auf großen Plattformen bereitgestellt, bedient Hunderte von Millionen Benutzern

Mängel

  1. Recheneffizienz: Hohe LLM-Inferenzlatenz begrenzt Echtzeitanwendungen
  2. Datenabhängigkeit: Erfordert große Mengen annotierter Daten zur Konstruktion von Trainingssätzen
  3. Interpretierbarkeit: Interpretierbarkeit des Wissenscartengenerierungsprozesses bedarf Verbesserung
  4. Generalisierungsfähigkeit: Methode ist für spezifische Plattformen konzipiert, Cross-Domain-Generalisierungsfähigkeit nicht vollständig validiert

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für Abfrageverständnis auf Kurzvideoplatformen
  2. Praktischer Wert: Löst tatsächliche Geschäftsprobleme mit direktem kommerziellem Wert
  3. Technologietransfer: Wissenscartenentwurf kann auf andere RAG-Anwendungen übertragen werden

Anwendungsszenarien

  1. Suchoptimierung auf Kurzvideo- und Live-Streaming-Plattformen
  2. Suche in vertikalen Bereichen mit großen Mengen plattformspezifischer Inhalte
  3. Abfrageverständnisaufgaben, die multimodale Informationen integrieren müssen

Literaturverzeichnis

Das Papier zitiert 33 verwandte Arbeiten, die Abfrageumformulierung, Retrieval-Augmented Generation, große Sprachmodelle und andere Forschungsrichtungen abdecken und eine solide theoretische Grundlage bieten.


Zusammenfassung: CardRewriter ist eine innovative Forschungsarbeit zur Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen. Durch die effektive Integration plattformspezifischen Wissens mittels Wissenscarten wurden sowohl in theoretischen Methoden als auch in technischer Praxis erhebliche Ergebnisse erzielt. Diese Arbeit bietet eine wertvolle Lösung für Abfrageverständnisaufgaben mit plattformspezifischen Inhalten.