2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.

Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.

academic

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Grundinformationen

Papier-ID: 2510.10095
Titel: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
Autoren: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
Klassifizierung: cs.IR (Information Retrieval), cs.CL (Computational Linguistics)
Veröffentlichungsdatum: 11. Oktober 2025
Papierlink: https://arxiv.org/abs/2510.10095

Zusammenfassung

Kurzvideoplatformen sind schnell zu einer neuen Generation von Informationssystemen geworden, über die Benutzer durch Abfragen die gewünschten Videos abrufen. Benutzerabfragen, insbesondere Long-Tail-Abfragen, weisen jedoch häufig Rechtschreibfehler, unvollständige Formulierungen und mehrdeutige Absichten auf, was zu Unstimmigkeiten zwischen Benutzererwartungen und Suchergebnissen führt. Obwohl große Sprachmodelle (LLMs) bei der Umformulierung von Long-Tail-Abfragen im E-Commerce-Bereich hervorragende Leistungen zeigen, stoßen sie auf Kurzvideoplatformen auf Herausforderungen, da plattformspezifische Inhalte (wie Kurzvideos, Live-Streaming, Mikro-Dramen und soziale Netzwerke von Benutzern) außerhalb ihrer Trainingsverteilung liegen. Um diese Herausforderung zu bewältigen, wird CardRewriter vorgestellt – ein LLM-basiertes Framework, das die Umformulierung von Long-Tail-Abfragen durch die Integration domänenspezifischen Wissens verbessert. Die Methode aggregiert für jede Abfrage Wissen aus mehreren Quellen und fasst es in informative und abfragerelevante Wissenscards zusammen, die dann das LLM anleiten, Benutzerabsichten besser zu erfassen und effektivere Abfrageumformulierungen zu erzeugen.

Forschungshintergrund und Motivation

Problemdefinition

Benutzerabfragen auf Kurzvideoplatformen stehen vor drei großen Herausforderungen:

Rechtschreibfehler: Benutzer eingegeben Abfragen können Rechtschreibfehler enthalten
Unvollständige Formulierung: Benutzerabfragen fehlen Schlüsselinformationen, was zu ungenauen Suchergebnissen führt
Mehrdeutige Absicht: Besonders bei plattformspezifischen Inhalten ist die Abfrageabsicht unklar

Bedeutung des Problems

Kurzvideoplatformen sind zu wichtigen Informationssystemen geworden, die Hunderte von Millionen Benutzern bedienen
Die Abfragequalität beeinflusst direkt die Benutzererfahrung und den kommerziellen Wert der Plattform
Long-Tail-Abfragen machen einen erheblichen Anteil aus, sind aber schwieriger zu verarbeiten

Einschränkungen bestehender Methoden

Embedding-basierte Methoden: Basieren auf dem Abrufen semantisch ähnlicher Abfragen, mit begrenzter Wirksamkeit bei Long-Tail-Abfragen
Generative Methoden: LLMs zeigen gute Leistungen im E-Commerce-Bereich, verstehen aber plattformspezifische Inhalte von Kurzvideoplatformen nicht ausreichend
Domänenanpassungsproblem: Bestehende LLMs wurden nicht auf plattformspezifischen Inhalten wie Kurzvideos, Live-Streaming und Mikro-Dramen trainiert

Forschungsmotivation

Durch die Einführung plattformspezifischen Wissens die Fähigkeit von LLMs zur Verständigung und Umformulierung von Abfragen auf Kurzvideoplatformen verbessern, insbesondere für Long-Tail-Abfragen mit plattformspezifischen Inhalten.

Kernbeiträge

CardRewriter-Framework vorgestellt: Das erste LLM-Framework speziell für die Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen, das plattformspezifisches Wissen durch Wissenscards effektiv integriert
Zweistufige Trainingsstrategie entwickelt: Kombination von Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO) mit einem benutzerdefinierten Belohnungssystem, das Relevanz und Effektivität ausgleicht
Praktische Wirksamkeit validiert: Bereitstellung und Validierung auf der Kuaishou-Plattform mit signifikanten Verbesserungen in Offline- und Online-Experimenten
Vollständige Lösung bereitgestellt: End-to-End-Lösung von der Wissensbeschaffung über die Kartengenerierung bis zur Abfrageumformulierung

Methodische Details

Aufgabendefinition

Gegeben eine Eingabeabfrage x besteht das Ziel von CardRewriter darin, eine umformulierte Abfrage y zu generieren, die es ermöglicht, Videoinhalte abzurufen, die der Benutzerabsicht besser entsprechen. Der gesamte Prozess kann wie folgt dargestellt werden:

y = G_θ(x, c), c = C_θ(x, M)

wobei c die Wissenskarte ist, M das Wissen aus mehreren Quellen, C_θ das Kartengenerierungsmodell und G_θ das Abfrageumformulierungsmodell ist.

Modellarchitektur

1. Wissensbeschaffungsphase

Multimodale Videovissenextraktion:

Visuelle Inhalte: Extraktion von drei Schlüsselbildern aus Videos
Textinhalte: Titel, Untertitel, OCR-Text auf Covern, Autorennamen, Hintergrundmusik

Erweiterung ähnlicher Abfragen:

Regelbasiertes Matching (Q2Q): Auswahl von Abfragen mit Wortüberlappung zur ursprünglichen Abfrage und Schnittmenge der abgerufenen Videolisten
Embedding-basiertes Matching (EMB): Berechnung der Embedding-Ähnlichkeit zwischen Abfragen

Ergänzung von Open-Domain-Dokumenten: Abruf verwandter Open-Domain-Dokumente über API-Dienste als zusätzliche Wissensquellen

2. Kartbasierte Umformulierungsphase

Wissenscartengenerierung:

Eingabe: Ursprüngliche Abfrage x und Wissen aus mehreren Quellen M
Ausgabe: Prägnante und relevante Wissenskarte c
Ziel: Entrauschung, Integration und Hervorhebung von Inhalten, die direkt mit der Abfrage zusammenhängen

Abfrageumformulierung:

Eingabe: Ursprüngliche Abfrage x und Wissenskarte c
Ausgabe: Umformulierte Abfrage y
Ziel: Nutzung von Karteninformationen zur besseren Verständigung des Suchkontexts

Technische Innovationen

Wissenscartenentwurf: Im Vergleich zur direkten Einspeisung von Wissen aus mehreren Quellen löst die Wissenskarte effektiv Probleme mit struktureller Inkonsistenz, übermäßigem Rauschen und begrenzter Relevanz
Zweistufige Trainingsstrategie:
- SFT-Phase: Überwachtes Fine-Tuning mit hochqualitativen Daten
- GRPO-Phase: Weitere Optimierung durch Reinforcement Learning

Benutzerdefiniertes Belohnungssystem:

R_Overall = {
    R_Sys, wenn R_Sys > 0
    0.1, wenn R_Sys = 0 und R_Rel > 0  
    0, wenn R_Sys = R_Rel = 0
}

Ausgleich zwischen semantischer Relevanz und Systempräferenz

Experimentelle Einrichtung

Datensätze

Trainingsdatensätze:

Kartengenerierung: 200.000 Abfragen, Generierung von 1,6 Millionen Quadrupel, nach Filterung 30.000 hochwertige Tripel
Abfrageumformulierung: 400.000 Abfragen, Generierung von 3,2 Millionen Tripel, nach Filterung 50.000 Paare für SFT
Belohnungsmodellierung: 150.000 Abfragen, Generierung von 240.000 Präferenzpaaren

Testdatensätze:

Kartengenerierung: 10.000 Abfragen
Belohnungsmodellierung: 10.000 Abfragen
Abfrageumformulierung: 15.000 Abfragen

Bewertungsmetriken

Offline-Metriken:

Rel (Relevanz): Bewertung der semantischen Qualität der Modellausgabe
Increment (Abrufserweiterung): Messung der relativen Verbesserung der Abdeckung
Hitrate@K (Benutzerzufriedenheit): Anteil der umformulierten Abfragen, die in den Top-K-Ergebnissen Videos mit Benutzerabsicht abrufen

Online-Metriken:

LVR (Long-View-Rate): Anteil der Benutzer, die Videos lange ansehen
IQRR (Aktive Abfragereformulierungsrate): Anteil der Benutzer, die Abfragen aktiv neu formulieren
CTR (Click-Through-Rate): Anteil der Benutzer, die auf Suchergebnisse klicken

Vergleichsmethoden

Prompt-basierte Umformulierungsmethoden
SFT- und SFT+DPO-Baselines
Direkte Wissensinjektion (Naive RAG)
Angepasste CSA-QR-Methode

Implementierungsdetails

Kartengenerierung: Fine-Tuning basierend auf Qwen2.5-VL-7B-Instruct
Abfrageumformulierung: Fine-Tuning basierend auf Qwen3-8B
Trainingseinstellungen: Lernrate 1×10^-5, AdamW-Optimierer, DeepSpeed ZeRO-3 verteiltes Training

Experimentelle Ergebnisse

Hauptergebnisse

Methode	Wissenstyp	QR-Rel	Increment	Hitrate@50	Hitrate@300
Ursprüngliche Abfrage	-	-	-	31,40%	53,07%
SFT+GRPO	-	78,98%	65,19%	41,68%	65,71%
SFT+GRPO	Naive RAG	74,28%	70,86%	41,05%	65,63%
CardRewriter	Card RAG	85,73%	74,17%	46,64%	76,04%

Wichtigste Erkenntnisse:

CardRewriter erreicht die beste Leistung bei den meisten Metriken
Wissenscarten zeigen signifikante Verbesserungen gegenüber direkter Wissensinjektion
Die SFT+GRPO-Trainingsstrategie zeigt die beste Leistung

Ablationsstudien

Analyse des Beitrags von Wissen aus mehreren Quellen:

Entfernung visueller Inhalte: QC-Rel sinkt von 91,16% auf 89,37%
Entfernung von Textinhalten: QC-Rel sinkt auf 86,18% (größerer Einfluss)
Entfernung verwandter Videos: QC-Rel sinkt auf 78,27% (größter Einfluss)

Analyse des Belohnungssystems:

Nur Relevanzbelohnung: Höchste Abfragerelev, aber begrenzte Abrufserweiterung
Nur Systembelohnung: Abruf von mehr neuen Videos, aber mögliche Abweichung von der ursprünglichen Absicht
Kombinierte Belohnung: Beste Balance zwischen Relevanz und Effektivität

Fallstudien

Das Papier zeigt einen typischen Fall:

Ursprüngliche Abfrage: "可口可乐寄人篱下的痛" (Benutzer schrieb den Creator-Namen "可可可乐" fälschlicherweise als "可口可乐")
LLM-Umformulierung: "可口可乐寄人篱下创意广告" (falsche Assoziation mit Getränkemarke)
CardRewriter: "可可可乐被寄养的孩子系列" (korrekte Verständigung der Benutzerabsicht)

Online-Experimentergebnisse

Verkehrstyp	LVR ↑	IQRR ↓	CTR ↑
Abdeckungsverkehr	+1,853%	-2,630%	+3,729%
Gesamtverkehr	+0,235%	-0,229%	+0,342%

Online-A/B-Tests bestätigen signifikante Verbesserungen, besonders bei Abdeckungsverkehr.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

CardRewriter löst effektiv das Problem der Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen durch Wissenscarten
Die zweistufige Trainingsstrategie und das benutzerdefinierte Belohnungssystem verbessern die Umformulierungsqualität erheblich
Die Bereitstellung auf der Kuaishou-Plattform validiert den praktischen Wert der Methode

Einschränkungen

Rechenaufwand: LLM-Inferenz erfordert erhebliche Rechenressourcen, Near-Line-Bereitstellungsstrategie wird verwendet
Abdeckungsbereich: Derzeit nur 15-20% des täglichen Suchverkehrs abgedeckt
Domänenabhängigkeit: Methode ist für Kurzvideoplatformen konzipiert, Anwendbarkeit in anderen Bereichen erfordert weitere Validierung

Zukünftige Richtungen

Erweiterung des Bereichs abgedeckter Abfragen
Optimierung der Online-Inferenzeffizienz
Erkundung der plattformübergreifenden und bereichsübergreifenden Anwendbarkeit

Tiefgreifende Bewertung

Stärken

Starke Problembezogenheit: Genaue Identifizierung einzigartiger Herausforderungen bei der Abfrageumformulierung auf Kurzvideoplatformen
Vollständige technische Lösung: End-to-End-Lösung von der Wissensbeschaffung bis zum Modelltraining
Umfassende experimentelle Bewertung: Umfassende Offline-Experimente, Online-Bereitstellungsvalidierung
Hoher technischer Praxiswert: Bereits auf großen Plattformen bereitgestellt, bedient Hunderte von Millionen Benutzern

Mängel

Recheneffizienz: Hohe LLM-Inferenzlatenz begrenzt Echtzeitanwendungen
Datenabhängigkeit: Erfordert große Mengen annotierter Daten zur Konstruktion von Trainingssätzen
Interpretierbarkeit: Interpretierbarkeit des Wissenscartengenerierungsprozesses bedarf Verbesserung
Generalisierungsfähigkeit: Methode ist für spezifische Plattformen konzipiert, Cross-Domain-Generalisierungsfähigkeit nicht vollständig validiert

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für Abfrageverständnis auf Kurzvideoplatformen
Praktischer Wert: Löst tatsächliche Geschäftsprobleme mit direktem kommerziellem Wert
Technologietransfer: Wissenscartenentwurf kann auf andere RAG-Anwendungen übertragen werden

Anwendungsszenarien

Suchoptimierung auf Kurzvideo- und Live-Streaming-Plattformen
Suche in vertikalen Bereichen mit großen Mengen plattformspezifischer Inhalte
Abfrageverständnisaufgaben, die multimodale Informationen integrieren müssen

Literaturverzeichnis

Das Papier zitiert 33 verwandte Arbeiten, die Abfrageumformulierung, Retrieval-Augmented Generation, große Sprachmodelle und andere Forschungsrichtungen abdecken und eine solide theoretische Grundlage bieten.

Zusammenfassung: CardRewriter ist eine innovative Forschungsarbeit zur Umformulierung von Long-Tail-Abfragen auf Kurzvideoplatformen. Durch die effektive Integration plattformspezifischen Wissens mittels Wissenscarten wurden sowohl in theoretischen Methoden als auch in technischer Praxis erhebliche Ergebnisse erzielt. Diese Arbeit bietet eine wertvolle Lösung für Abfrageverständnisaufgaben mit plattformspezifischen Inhalten.

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Bedeutung des Problems

Einschränkungen bestehender Methoden

Forschungsmotivation

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

1. Wissensbeschaffungsphase

2. Kartbasierte Umformulierungsphase

Technische Innovationen

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Ablationsstudien

Fallstudien

Online-Experimentergebnisse

Verwandte Arbeiten

Abfrageumformulierungsforschung

Retrieval-Augmented Generation

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Auswirkungen

Anwendungsszenarien

Literaturverzeichnis