2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.

Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.

academic

CardRewriter: Использование карточек знаний для переписывания длинных запросов на платформах коротких видео

Основная информация

ID статьи: 2510.10095
Название: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
Авторы: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
Категория: cs.IR (Информационный поиск), cs.CL (Компьютерная лингвистика)
Дата публикации: 11 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.10095

Аннотация

Платформы коротких видео быстро стали новым поколением систем информационного поиска, где пользователи получают нужные видео через поисковые запросы. Однако пользовательские запросы, особенно длинные запросы, часто содержат орфографические ошибки, неполные формулировки и неясные намерения, что приводит к несоответствию между ожиданиями пользователя и результатами поиска. Хотя большие языковые модели (LLM) показывают отличные результаты в переписывании длинных запросов в электронной коммерции, они сталкиваются с проблемами на платформах коротких видео, поскольку специфичный для платформы контент (такой как короткие видео, прямые трансляции, микросериалы и социальные сети пользователей) выходит за рамки их обучающего распределения. Для решения этой проблемы в статье предлагается CardRewriter — фреймворк на основе LLM, который улучшает переписывание длинных запросов путём интеграции знаний, специфичных для предметной области. Метод агрегирует многоисточниковые релевантные знания для каждого запроса и обобщает их в информативные и релевантные карточки знаний, которые затем направляют LLM на лучшее понимание намерения пользователя и создание более эффективного переписывания запроса.

Исследовательский контекст и мотивация

Определение проблемы

Пользовательские запросы на платформах коротких видео сталкиваются с тремя основными проблемами:

Орфографические ошибки: Введённые пользователем поисковые термины могут содержать орфографические ошибки
Неполные формулировки: Пользовательские запросы содержат недостаточно ключевой информации, приводя к неточным результатам поиска
Неясные намерения: Особенно при работе со специфичным для платформы контентом, намерение запроса остаётся неясным

Значимость проблемы

Платформы коротких видео стали важными системами информационного поиска, обслуживающими сотни миллионов пользователей
Качество запроса напрямую влияет на пользовательский опыт и коммерческую ценность платформы
Длинные запросы составляют значительную долю, но их обработка представляет большую сложность

Ограничения существующих методов

Методы на основе встраивания: Зависят от поиска семантически похожих запросов, имеют ограниченную эффективность для длинных запросов
Генеративные методы: LLM показывают хорошие результаты в электронной коммерции, но недостаточно понимают специфичный для платформ контент
Проблема адаптации к предметной области: Существующие LLM не обучены на специфичном контенте (короткие видео, прямые трансляции, микросериалы и т.д.)

Исследовательская мотивация

Улучшить способность LLM понимать и переписывать запросы на платформах коротких видео путём введения знаний, специфичных для платформы, особенно для длинных запросов, связанных со специфичным контентом.

Основные вклады

Предложение фреймворка CardRewriter: Первый специализированный фреймворк на основе LLM для переписывания длинных запросов на платформах коротких видео, эффективно интегрирующий знания, специфичные для платформы, через карточки знаний
Разработка двухэтапной стратегии обучения: Комбинирование контролируемой тонкой настройки (SFT) и оптимизации групповой относительной политики (GRPO) с использованием пользовательской системы вознаграждений для балансирования релевантности и эффективности
Проверка практической эффективности: Развёртывание и проверка на платформе Kuaishou показывают значительные улучшения как в автономных, так и в онлайн-экспериментах
Предоставление комплексного решения: Сквозное решение от сбора знаний, генерации карточек до переписывания запросов

Подробное описание методов

Определение задачи

Учитывая входной запрос x, цель CardRewriter — генерировать переписанный запрос y, который позволяет получить видеоконтент, более соответствующий намерению пользователя. Весь процесс можно представить как:

y = G_θ(x, c), c = C_θ(x, M)

где c — карточка знаний, M — многоисточниковые знания, C_θ — модель генерации карточек, G_θ — модель переписывания запросов.

Архитектура модели

1. Этап сбора знаний

Извлечение многомодальных видеознаний:

Визуальный контент: Извлечение трёх ключевых кадров видео
Текстовый контент: Название, субтитры, текст OCR обложки, имя автора, фоновая музыка

Расширение похожих запросов:

Сопоставление на основе правил (Q2Q): Выбор запросов с лексическим перекрытием с исходным запросом и пересечением списков извлекаемых видео
Сопоставление на основе встраивания (EMB): Вычисление сходства встраивания между запросами

Дополнение открытыми документами: Получение соответствующих открытых документов через API-сервис в качестве дополнительного источника знаний

2. Этап переписывания на основе карточек

Генерация карточек знаний:

Вход: Исходный запрос x и многоисточниковые знания M
Выход: Лаконичные и релевантные карточки знаний c
Цель: Удаление шума, интеграция и выделение контента, непосредственно релевантного запросу

Переписывание запроса:

Вход: Исходный запрос x и карточки знаний c
Выход: Переписанный запрос y
Цель: Использование информации из карточек для лучшего понимания контекста поиска

Технические инновации

Дизайн карточек знаний: По сравнению с прямым внедрением многоисточниковых знаний, карточки знаний эффективно решают проблемы структурной несогласованности, избыточного шума и ограниченной релевантности
Двухэтапная стратегия обучения:
- Этап SFT: Контролируемая тонкая настройка на высококачественных данных
- Этап GRPO: Дальнейшая оптимизация через обучение с подкреплением
Пользовательская система вознаграждений:
```
R_Overall = {
    R_Sys, если R_Sys > 0
    0.1, если R_Sys = 0 и R_Rel > 0  
    0, если R_Sys = R_Rel = 0
}
```
Балансирование семантической релевантности и системных предпочтений

Экспериментальная установка

Наборы данных

Обучающие наборы данных:

Генерация карточек: 200 тыс. запросов, генерирование 1,6 млн четвёрок, сохранение 30 тыс. высококачественных троек после фильтрации
Переписывание запросов: 400 тыс. запросов, генерирование 3,2 млн троек, сохранение 50 тыс. пар для SFT после фильтрации
Моделирование вознаграждений: 150 тыс. запросов, генерирование 240 тыс. пар предпочтений

Тестовые наборы данных:

Генерация карточек: 10 тыс. запросов
Моделирование вознаграждений: 10 тыс. запросов
Переписывание запросов: 15 тыс. запросов

Метрики оценки

Автономные метрики:

Rel (Релевантность): Оценка семантического качества выходных данных модели
Increment (Расширение поиска): Измерение относительного улучшения охвата поиска
Hitrate@K (Удовлетворённость пользователя): Доля переписанных запросов, которые извлекают видео, соответствующие намерению пользователя, в первых K результатах

Онлайн-метрики:

LVR (Коэффициент длительного просмотра): Доля пользователей, длительно просматривающих видео
IQRR (Коэффициент активного переформулирования запроса): Доля пользователей, активно переформулирующих запросы
CTR (Коэффициент кликов): Доля пользователей, нажимающих на результаты поиска

Методы сравнения

Методы переписывания на основе подсказок
Базовые линии SFT и SFT+DPO
Методы прямого внедрения знаний (Naive RAG)
Адаптированный метод CSA-QR

Детали реализации

Генерация карточек: Тонкая настройка на основе Qwen2.5-VL-7B-Instruct
Переписывание запросов: Тонкая настройка на основе Qwen3-8B
Параметры обучения: Скорость обучения 1×10^-5, оптимизатор AdamW, распределённое обучение DeepSpeed ZeRO-3

Результаты экспериментов

Основные результаты

Метод	Тип знаний	QR-Rel	Increment	Hitrate@50	Hitrate@300
Исходный запрос	-	-	-	31.40%	53.07%
SFT+GRPO	-	78.98%	65.19%	41.68%	65.71%
SFT+GRPO	Naive RAG	74.28%	70.86%	41.05%	65.63%
CardRewriter	Card RAG	85.73%	74.17%	46.64%	76.04%

Ключевые находки:

CardRewriter достигает лучшей производительности по большинству метрик
Карточки знаний значительно улучшают качество переписывания по сравнению с прямым внедрением знаний
Стратегия обучения SFT+GRPO показывает лучшие результаты

Абляционные эксперименты

Анализ вклада многоисточниковых знаний:

Удаление визуального контента: QC-Rel снижается с 91.16% до 89.37%
Удаление текстового контента: QC-Rel снижается до 86.18% (большее влияние)
Удаление релевантных видео: QC-Rel снижается до 78.27% (наибольшее влияние)

Анализ системы вознаграждений:

Использование только вознаграждения за релевантность: Максимальная релевантность запроса, но ограниченное расширение поиска
Использование только системного вознаграждения: Извлечение большего количества новых видео, но возможное отклонение от исходного намерения
Комбинированное вознаграждение: Достижение оптимального баланса между релевантностью и эффективностью

Анализ примеров

В статье представлен типичный пример:

Исходный запрос: "可口可乐寄人篱下的痛" (пользователь ошибочно написал имя создателя "可可可乐" как "可口可乐")
Переписывание LLM: "可口可乐寄人篱下创意广告" (ошибочная ассоциация с брендом напитков)
CardRewriter: "可可可乐被寄养的孩子系列" (правильное понимание намерения пользователя)

Результаты онлайн-экспериментов

Тип трафика	LVR ↑	IQRR ↓	CTR ↑
Охватываемый трафик	+1.853%	-2.630%	+3.729%
Полный трафик	+0.235%	-0.229%	+0.342%

Онлайн-тестирование A/B подтверждает значительные улучшения, особенно заметные на охватываемом трафике.

Связанные работы

Исследования переписывания запросов

Методы на основе встраивания: Рассмотрение переписывания запросов как задачи поиска, улучшение исходного запроса через похожие запросы
Генеративные методы: Прямое создание пересмотренных запросов; недавние методы на основе LLM показывают отличные результаты в электронной коммерции
Адаптация к предметной области: Существующие методы в основном ориентированы на электронную коммерцию; исследования платформ коротких видео относительно редки

Генерация с увеличением поиска

Технология RAG улучшает качество генерации путём поиска релевантной информации. В данной работе она применяется к задаче переписывания запросов путём эффективной интеграции многоисточниковой информации через карточки знаний.

Заключение и обсуждение

Основные выводы

CardRewriter эффективно решает проблему переписывания длинных запросов на платформах коротких видео через карточки знаний
Двухэтапная стратегия обучения и пользовательская система вознаграждений значительно улучшают качество переписывания
Развёртывание на платформе Kuaishou подтверждает практическую ценность метода

Ограничения

Вычислительные затраты: Вывод LLM требует значительных вычислительных ресурсов; используется стратегия развёртывания в режиме реального времени
Охват: В настоящее время охватывает 15-20% ежедневного трафика поиска
Зависимость от предметной области: Метод разработан для платформ коротких видео; применимость в других областях требует дальнейшей проверки

Будущие направления

Расширение охвата диапазона запросов
Оптимизация эффективности онлайн-вывода
Исследование применимости на разных платформах и в разных предметных областях

Глубокая оценка

Преимущества

Высокая специфичность проблемы: Точное определение уникальных проблем переписывания запросов на платформах коротких видео
Полнота технического решения: Сквозное решение от сбора знаний до обучения модели
Достаточная оценка экспериментов: Комплексные автономные эксперименты и проверка онлайн-развёртывания
Высокая практическая ценность: Развёрнуто на крупномасштабной платформе, обслуживает сотни миллионов пользователей

Недостатки

Вычислительная эффективность: Высокая задержка вывода LLM ограничивает приложения в реальном времени
Зависимость от данных: Требует большого объёма аннотированных данных для построения обучающих наборов
Интерпретируемость: Интерпретируемость процесса генерации карточек знаний требует улучшения
Способность к обобщению: Метод разработан для конкретной платформы; способность к обобщению между предметными областями недостаточно проверена

Влияние

Академический вклад: Предоставляет новый подход к пониманию запросов на платформах коротких видео
Практическая ценность: Решает реальные бизнес-проблемы с прямой коммерческой ценностью
Распространение технологии: Дизайн карточек знаний может быть распространён на другие приложения RAG

Применимые сценарии

Оптимизация поиска на платформах коротких видео, прямых трансляций и других контент-платформах
Поиск в вертикальных предметных областях с большим объёмом специфичного контента
Задачи понимания запросов, требующие интеграции многомодальной информации

Библиография

В статье цитируется 33 связанные работы, охватывающие переписывание запросов, генерацию с увеличением поиска, большие языковые модели и другие направления исследований, обеспечивая прочную теоретическую базу.

Резюме: CardRewriter — это инновационное исследование переписывания длинных запросов на платформах коротких видео, которое эффективно интегрирует знания, специфичные для платформы, через карточки знаний и достигает значительных результатов как в теоретических методах, так и в инженерной практике. Данная работа предоставляет ценное решение для задач понимания запросов, содержащих специфичный контент.