CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
Gong, Zhu, Yin et al.
Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.
단편 영상 플랫폼은 빠르게 새로운 세대의 정보 검색 시스템으로 성장했으며, 사용자들은 쿼리를 통해 원하는 영상을 획득합니다. 그러나 사용자 쿼리, 특히 롱테일 쿼리는 철자 오류, 불완전한 표현, 모호한 의도 등의 문제를 자주 포함하고 있어 사용자의 기대와 검색 결과 간의 불일치를 초래합니다. 대규모 언어 모델(LLM)이 전자상거래 분야의 롱테일 쿼리 재작성에서 우수한 성능을 보이고 있지만, 단편 영상 플랫폼의 전용 콘텐츠(예: 단편 영상, 라이브 방송, 마이크로 드라마 및 사용자 소셜 네트워크)가 학습 분포를 벗어나기 때문에 어려움에 직면하고 있습니다. 이러한 과제를 해결하기 위해 본 논문은 도메인 특화 지식을 통합하여 롱테일 쿼리 재작성을 강화하는 LLM 기반 프레임워크인 CardRewriter를 제안합니다. 이 방법은 각 쿼리에 대해 다중 소스의 관련 지식을 집계하고 이를 정보가 풍부하고 쿼리와 관련된 지식 카드로 요약한 후, LLM이 사용자 의도를 더 잘 포착하고 더 효과적인 쿼리 재작성을 생성하도록 지도합니다.
논문은 33편의 관련 문헌을 인용하며, 쿼리 재작성, 검색 증강 생성, 대규모 언어 모델 등 여러 연구 방향을 포함하여 연구에 충실한 이론적 기초를 제공합니다.
요약: CardRewriter는 단편 영상 플랫폼 롱테일 쿼리 재작성을 위한 혁신적 연구로, 지식 카드를 통해 플랫폼 전용 지식을 효과적으로 통합하며 이론 방법과 엔지니어링 실무 모두에서 현저한 성과를 달성했습니다. 이 연구는 전용 콘텐츠를 포함하는 쿼리 이해 작업 처리에 가치 있는 솔루션을 제공합니다.