2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.

Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.

academic

CardRewriter: 단편 영상 플랫폼에서 지식 카드를 활용한 롱테일 쿼리 재작성

기본 정보

논문 ID: 2510.10095
제목: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
저자: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
분류: cs.IR (정보 검색), cs.CL (계산 언어학)
발표 시간: 2025년 10월 11일
논문 링크: https://arxiv.org/abs/2510.10095

초록

단편 영상 플랫폼은 빠르게 새로운 세대의 정보 검색 시스템으로 성장했으며, 사용자들은 쿼리를 통해 원하는 영상을 획득합니다. 그러나 사용자 쿼리, 특히 롱테일 쿼리는 철자 오류, 불완전한 표현, 모호한 의도 등의 문제를 자주 포함하고 있어 사용자의 기대와 검색 결과 간의 불일치를 초래합니다. 대규모 언어 모델(LLM)이 전자상거래 분야의 롱테일 쿼리 재작성에서 우수한 성능을 보이고 있지만, 단편 영상 플랫폼의 전용 콘텐츠(예: 단편 영상, 라이브 방송, 마이크로 드라마 및 사용자 소셜 네트워크)가 학습 분포를 벗어나기 때문에 어려움에 직면하고 있습니다. 이러한 과제를 해결하기 위해 본 논문은 도메인 특화 지식을 통합하여 롱테일 쿼리 재작성을 강화하는 LLM 기반 프레임워크인 CardRewriter를 제안합니다. 이 방법은 각 쿼리에 대해 다중 소스의 관련 지식을 집계하고 이를 정보가 풍부하고 쿼리와 관련된 지식 카드로 요약한 후, LLM이 사용자 의도를 더 잘 포착하고 더 효과적인 쿼리 재작성을 생성하도록 지도합니다.

연구 배경 및 동기

문제 정의

단편 영상 플랫폼 사용자 쿼리의 세 가지 주요 과제:

철자 오류: 사용자가 입력한 쿼리 용어에 철자 오류가 포함될 수 있음
불완전한 표현: 사용자 쿼리에 핵심 정보가 부족하여 검색 결과가 부정확함
모호한 의도: 특히 플랫폼 전용 콘텐츠와 관련된 경우 쿼리 의도가 불명확함

문제의 중요성

단편 영상 플랫폼은 중요한 정보 검색 시스템으로 수억 명의 사용자에게 서비스 제공
쿼리 품질은 사용자 경험과 플랫폼 비즈니스 가치에 직접 영향
롱테일 쿼리가 상당한 비율을 차지하지만 처리 난이도가 높음

기존 방법의 한계

임베딩 기반 방법: 의미론적 유사 쿼리 검색에 의존하며, 롱테일 쿼리에 대한 효과 제한적
생성 기반 방법: LLM이 전자상거래 분야에서는 우수하지만 단편 영상 플랫폼 전용 콘텐츠 이해 부족
도메인 적응 문제: 기존 LLM은 단편 영상, 라이브 방송, 마이크로 드라마 등 전용 콘텐츠에 대해 학습되지 않음

연구 동기

플랫폼 특화 지식을 도입하여 LLM의 단편 영상 플랫폼 쿼리 이해 및 재작성 능력을 강화하며, 특히 전용 콘텐츠와 관련된 롱테일 쿼리를 대상으로 함.

핵심 기여

CardRewriter 프레임워크 제안: 단편 영상 플랫폼 롱테일 쿼리 재작성을 위한 최초의 LLM 프레임워크로, 지식 카드를 통해 플랫폼 전용 지식을 효과적으로 통합
2단계 훈련 전략 설계: 감독 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO)를 결합하며, 관련성과 효과성의 균형을 맞추는 맞춤형 보상 시스템 사용
실제 효과 검증: Kuaishou 플랫폼에 배포하여 검증하며, 오프라인 및 온라인 실험 모두에서 현저한 개선 입증
완전한 솔루션 제공: 지식 수집, 카드 생성에서 쿼리 재작성까지의 엔드투엔드 솔루션 제공

방법 상세 설명

작업 정의

입력 쿼리 x가 주어졌을 때, CardRewriter의 목표는 사용자 의도와 더 잘 일치하는 영상 콘텐츠를 검색할 수 있는 재작성 쿼리 y를 생성하는 것입니다. 전체 프로세스는 다음과 같이 표현됩니다:

y = G_θ(x, c), c = C_θ(x, M)

여기서 c는 지식 카드, M은 다중 소스 지식, C_θ는 카드 생성 모델, G_θ는 쿼리 재작성 모델입니다.

모델 아키텍처

1. 지식 수집 단계

다중 모달 영상 지식 추출:

시각 콘텐츠: 영상의 세 개 주요 프레임 추출
텍스트 콘텐츠: 제목, 자막, 커버 OCR 텍스트, 작성자 이름, 배경 음악

유사 쿼리 확장:

규칙 기반 매칭(Q2Q): 원본 쿼리와 어휘 중복이 있고 검색 영상 목록이 교차하는 쿼리 선택
임베딩 기반 매칭(EMB): 쿼리 간 임베딩 유사도 계산

개방형 도메인 문서 보충: API 서비스를 통해 관련 개방형 도메인 문서를 보충 지식 소스로 획득

2. 카드 기반 재작성 단계

지식 카드 생성:

입력: 원본 쿼리 x 및 다중 소스 지식 M
출력: 간결하고 관련성 있는 지식 카드 c
목표: 노이즈 제거, 통합, 쿼리와 직접 관련된 콘텐츠 강조

쿼리 재작성:

입력: 원본 쿼리 x 및 지식 카드 c
출력: 재작성 쿼리 y
목표: 카드 정보를 활용하여 검색 컨텍스트를 더 잘 이해

기술 혁신 포인트

지식 카드 설계: 다중 소스 지식을 직접 주입하는 것과 비교하여, 지식 카드는 구조 불일치, 과도한 노이즈, 제한된 관련성 문제를 효과적으로 해결
2단계 훈련 전략:
- SFT 단계: 고품질 데이터를 사용한 감독 미세 조정
- GRPO 단계: 강화 학습을 통한 추가 최적화

맞춤형 보상 시스템:

R_Overall = {
    R_Sys, if R_Sys > 0
    0.1, if R_Sys = 0 and R_Rel > 0  
    0, if R_Sys = R_Rel = 0
}

의미론적 관련성과 시스템 선호도의 균형 조정

실험 설정

데이터셋

훈련 데이터셋:

카드 생성: 20만 쿼리, 160만 4원조 생성, 필터링 후 3만 개의 고품질 3원조 유지
쿼리 재작성: 40만 쿼리, 320만 3원조 생성, 필터링 후 5만 쌍을 SFT에 사용
보상 모델링: 15만 쿼리, 24만 선호도 쌍 생성

테스트 데이터셋:

카드 생성: 1만 쿼리
보상 모델링: 1만 쿼리
쿼리 재작성: 1.5만 쿼리

평가 지표

오프라인 지표:

Rel (관련성): 모델 출력의 의미론적 품질 평가
Increment (검색 확장): 검색 커버리지의 상대적 개선 측정
Hitrate@K (사용자 만족도): 재작성 쿼리가 상위 K개 결과에서 사용자 의도와 일치하는 영상을 검색하는 비율

온라인 지표:

LVR (장시간 시청률): 사용자가 영상을 장시간 시청하는 비율
IQRR (주동적 쿼리 재구성률): 사용자가 주동적으로 쿼리를 재표현하는 비율
CTR (클릭률): 사용자가 검색 결과를 클릭하는 비율

비교 방법

프롬프트 기반 재작성 방법
SFT 및 SFT+DPO 기준선
직접 지식 주입 방법(Naive RAG)
개선된 CSA-QR 방법

구현 세부사항

카드 생성: Qwen2.5-VL-7B-Instruct 기반 미세 조정
쿼리 재작성: Qwen3-8B 기반 미세 조정
훈련 설정: 학습률 1×10^-5, AdamW 최적화기, DeepSpeed ZeRO-3 분산 훈련

실험 결과

주요 결과

방법	지식 유형	QR-Rel	Increment	Hitrate@50	Hitrate@300
원본 쿼리	-	-	-	31.40%	53.07%
SFT+GRPO	-	78.98%	65.19%	41.68%	65.71%
SFT+GRPO	Naive RAG	74.28%	70.86%	41.05%	65.63%
CardRewriter	Card RAG	85.73%	74.17%	46.64%	76.04%

주요 발견:

CardRewriter는 대부분의 지표에서 최고 성능 달성
지식 카드는 직접 지식 주입과 비교하여 재작성 품질을 현저히 향상
SFT+GRPO 훈련 전략이 최고의 효과 달성

절제 실험

다중 소스 지식 기여도 분석:

시각 콘텐츠 제거: QC-Rel이 91.16%에서 89.37%로 감소
텍스트 콘텐츠 제거: QC-Rel이 86.18%로 감소(더 큰 영향)
관련 영상 제거: QC-Rel이 78.27%로 감소(가장 큰 영향)

보상 시스템 분석:

관련성 보상만 사용: 쿼리 관련성은 최고이지만 검색 확장 제한적
시스템 보상만 사용: 더 많은 새로운 영상 검색하지만 원래 의도에서 벗어날 수 있음
결합 보상: 관련성과 효과성 간의 최적 균형 달성

사례 분석

논문은 전형적인 사례를 제시합니다:

원본 쿼리: "可口可乐寄人篱下的痛" (사용자가 크리에이터 "可可可乐"를 "可口可乐"로 오기)
LLM 재작성: "可口可乐寄人篱下创意广告" (음료 브랜드로 잘못 연상)
CardRewriter: "可可可乐被寄养的孩子系列" (사용자 의도를 올바르게 이해)

온라인 실험 결과

트래픽 유형	LVR ↑	IQRR ↓	CTR ↑
커버리지 트래픽	+1.853%	-2.630%	+3.729%
전체 트래픽	+0.235%	-0.229%	+0.342%

온라인 A/B 테스트는 현저한 개선을 확인했으며, 특히 커버리지 트래픽에서 효과가 두드러집니다.

결론 및 토론

주요 결론

CardRewriter는 지식 카드를 통해 단편 영상 플랫폼 롱테일 쿼리 재작성 문제를 효과적으로 해결
2단계 훈련 전략과 맞춤형 보상 시스템이 재작성 품질을 현저히 향상
Kuaishou 플랫폼 배포 검증이 방법의 실용적 가치 입증

한계

계산 오버헤드: LLM 추론에 상당한 계산 리소스 필요하며, 근선 배포 전략 채택
커버리지 범위: 현재 일일 검색 트래픽의 15-20%만 커버
도메인 의존성: 방법이 단편 영상 플랫폼을 위해 설계되었으며, 다른 분야의 적용 가능성은 추가 검증 필요

향후 방향

커버되는 쿼리 범위 확대
온라인 추론 효율성 최적화
크로스 플랫폼 및 크로스 도메인 적용 가능성 탐색

심층 평가

장점

문제 대상성 강함: 단편 영상 플랫폼 쿼리 재작성의 고유한 과제를 정확히 식별
기술 솔루션 완전함: 지식 수집에서 모델 훈련까지의 엔드투엔드 솔루션
실험 평가 충분함: 오프라인 실험이 포괄적이며, 온라인 배포가 실제 효과 검증
엔지니어링 실무 가치 높음: 대규모 플랫폼에 배포되어 수억 명의 사용자에게 서비스 제공

부족한 점

계산 효율성: LLM 추론 지연이 높아 실시간 애플리케이션 제한
데이터 의존성: 훈련 세트 구축을 위해 대량의 주석 데이터 필요
해석 가능성: 지식 카드 생성 프로세스의 해석 가능성 강화 필요
일반화 능력: 방법이 특정 플랫폼을 위해 설계되었으며, 크로스 도메인 일반화 능력이 충분히 검증되지 않음

영향력

학술 기여: 단편 영상 플랫폼 쿼리 이해에 새로운 사고방식 제공
실용적 가치: 실제 비즈니스 문제 해결로 직접적인 상업적 가치 보유
기술 추진: 지식 카드 설계 사고방식을 다른 RAG 애플리케이션으로 확대 가능

적용 시나리오

단편 영상, 라이브 방송 등 콘텐츠 플랫폼의 검색 최적화
대량의 전용 콘텐츠를 포함하는 수직 도메인 검색
다중 모달 정보를 결합해야 하는 쿼리 이해 작업

참고 문헌

논문은 33편의 관련 문헌을 인용하며, 쿼리 재작성, 검색 증강 생성, 대규모 언어 모델 등 여러 연구 방향을 포함하여 연구에 충실한 이론적 기초를 제공합니다.

요약: CardRewriter는 단편 영상 플랫폼 롱테일 쿼리 재작성을 위한 혁신적 연구로, 지식 카드를 통해 플랫폼 전용 지식을 효과적으로 통합하며 이론 방법과 엔지니어링 실무 모두에서 현저한 성과를 달성했습니다. 이 연구는 전용 콘텐츠를 포함하는 쿼리 이해 작업 처리에 가치 있는 솔루션을 제공합니다.