2025-11-20T07:34:14.820650

CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms

Gong, Zhu, Yin et al.

Short-video platforms have rapidly become a new generation of information retrieval systems, where users formulate queries to access desired videos. However, user queries, especially long-tail ones, often suffer from spelling errors, incomplete phrasing, and ambiguous intent, resulting in mismatches between user expectations and retrieved results. While large language models (LLMs) have shown success in long-tail query rewriting within e-commerce, they struggle on short-video platforms, where proprietary content such as short videos, live streams, micro dramas, and user social networks falls outside their training distribution. To address this challenge, we introduce \textbf{CardRewriter}, an LLM-based framework that incorporates domain-specific knowledge to enhance long-tail query rewriting. For each query, our method aggregates multi-source knowledge relevant to the query and summarizes it into an informative and query-relevant knowledge card. This card then guides the LLM to better capture user intent and produce more effective query rewrites. We optimize CardRewriter using a two-stage training pipeline: supervised fine-tuning followed by group relative policy optimization, with a tailored reward system balancing query relevance and retrieval effectiveness. Offline experiments show that CardRewriter substantially improves rewriting quality for queries targeting proprietary content. Online A/B testing further confirms significant gains in long-view rate (LVR) and click-through rate (CTR), along with a notable reduction in initiative query reformulation rate (IQRR). Since September 2025, CardRewriter has been deployed on Kuaishou, one of China's largest short-video platforms, serving hundreds of millions of users daily.

academic

CardRewriter: Aprovechando Tarjetas de Conocimiento para la Reescritura de Consultas de Cola Larga en Plataformas de Video Corto

Información Básica

ID del Artículo: 2510.10095
Título: CardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
Autores: Peiyuan Gong, Feiran Zhu, Yaqi Yin, Chenglei Dai, Chao Zhang, Kai Zheng, Wentian Bao, Jiaxin Mao, Yi Zhang
Clasificación: cs.IR (Recuperación de Información), cs.CL (Lingüística Computacional)
Fecha de Publicación: 11 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.10095

Resumen

Las plataformas de video corto se han convertido rápidamente en sistemas de recuperación de información de nueva generación, donde los usuarios obtienen videos deseados mediante consultas. Sin embargo, las consultas de usuario, especialmente las de cola larga, frecuentemente presentan errores ortográficos, expresiones incompletas e intenciones ambiguas, lo que resulta en una desalineación entre las expectativas del usuario y los resultados de búsqueda. Aunque los modelos de lenguaje grande (LLMs) han demostrado un desempeño excepcional en la reescritura de consultas de cola larga en el comercio electrónico, enfrentan desafíos en plataformas de video corto, ya que el contenido propietario de la plataforma (como videos cortos, transmisiones en vivo, microdramas y redes sociales de usuarios) está fuera de su distribución de entrenamiento. Para abordar este desafío, este artículo propone CardRewriter, un marco basado en LLM que mejora la reescritura de consultas de cola larga mediante la incorporación de conocimiento específico del dominio. El método agrega conocimiento relevante de múltiples fuentes para cada consulta y lo sintetiza en tarjetas de conocimiento informativas y relevantes para la consulta, que luego guían al LLM para capturar mejor la intención del usuario y producir reescrituras de consultas más efectivas.

Contexto de Investigación y Motivación

Definición del Problema

Las consultas de usuario en plataformas de video corto presentan tres desafíos principales:

Errores Ortográficos: Los términos de consulta ingresados por el usuario pueden contener errores ortográficos
Expresión Incompleta: Las consultas de usuario carecen de información clave, lo que resulta en resultados de búsqueda inexactos
Intención Ambigua: Especialmente cuando se involucra contenido propietario de la plataforma, la intención de la consulta es poco clara

Importancia del Problema

Las plataformas de video corto se han convertido en sistemas importantes de recuperación de información, sirviendo a cientos de millones de usuarios
La calidad de la consulta afecta directamente la experiencia del usuario y el valor comercial de la plataforma
Las consultas de cola larga representan una proporción considerable, pero son más difíciles de procesar

Limitaciones de Métodos Existentes

Métodos Basados en Incrustaciones: Dependen de la recuperación de consultas semánticamente similares, con efectividad limitada en consultas de cola larga
Métodos Generativos: Los LLMs funcionan bien en el dominio del comercio electrónico, pero tienen comprensión insuficiente del contenido propietario de plataformas de video corto
Problema de Adaptación de Dominio: Los LLMs existentes no han sido entrenados en contenido propietario como videos cortos, transmisiones en vivo y microdramas

Motivación de la Investigación

Mejorar la capacidad del LLM para comprender y reescribir consultas en plataformas de video corto mediante la introducción de conocimiento específico de la plataforma, particularmente para consultas de cola larga que involucran contenido propietario.

Contribuciones Principales

Propuesta del Marco CardRewriter: Primer marco basado en LLM específicamente diseñado para la reescritura de consultas de cola larga en plataformas de video corto, que integra efectivamente el conocimiento propietario de la plataforma mediante tarjetas de conocimiento
Diseño de Estrategia de Entrenamiento de Dos Etapas: Combinación de ajuste fino supervisado (SFT) y optimización de política relativa de grupo (GRPO), utilizando un sistema de recompensas personalizado que equilibra relevancia y efectividad
Validación de Efectividad Práctica: Despliegue y validación en la plataforma Kuaishou, con mejoras significativas demostradas tanto en experimentos sin conexión como en línea
Provisión de Solución Completa: Solución de extremo a extremo desde recopilación de conocimiento, generación de tarjetas hasta reescritura de consultas

Explicación Detallada del Método

Definición de la Tarea

Dada una consulta de entrada x, el objetivo de CardRewriter es generar una consulta reescrita y que pueda recuperar contenido de video más alineado con la intención del usuario. Todo el proceso puede expresarse como:

y = G_θ(x, c), c = C_θ(x, M)

donde c es la tarjeta de conocimiento, M es el conocimiento de múltiples fuentes, C_θ es el modelo de generación de tarjetas, y G_θ es el modelo de reescritura de consultas.

Arquitectura del Modelo

1. Fase de Recopilación de Conocimiento

Extracción de Conocimiento de Video Multimodal:

Contenido Visual: Extracción de tres fotogramas clave del video
Contenido Textual: Título, subtítulos, texto OCR de portada, nombre del autor, música de fondo

Expansión de Consultas Similares:

Coincidencia Basada en Reglas (Q2Q): Selección de consultas con superposición de vocabulario con la consulta original y listas de videos recuperados que se cruzan
Coincidencia Basada en Incrustaciones (EMB): Cálculo de similitud de incrustaciones entre consultas

Suplemento de Documentos de Dominio Abierto: Obtención de documentos de dominio abierto relevantes a través de servicios API como fuente de conocimiento complementaria

2. Fase de Reescritura Basada en Tarjetas

Generación de Tarjetas de Conocimiento:

Entrada: Consulta original x y conocimiento de múltiples fuentes M
Salida: Tarjeta de conocimiento concisa y relevante c
Objetivo: Eliminar ruido, integrar y destacar contenido directamente relevante para la consulta

Reescritura de Consultas:

Entrada: Consulta original x y tarjeta de conocimiento c
Salida: Consulta reescrita y
Objetivo: Utilizar información de tarjeta para comprender mejor el contexto de búsqueda

Puntos de Innovación Técnica

Diseño de Tarjeta de Conocimiento: En comparación con la inyección directa de conocimiento de múltiples fuentes, la tarjeta de conocimiento resuelve efectivamente los problemas de inconsistencia estructural, exceso de ruido y relevancia limitada
Estrategia de Entrenamiento de Dos Etapas:
- Fase SFT: Ajuste fino supervisado utilizando datos de alta calidad
- Fase GRPO: Optimización adicional mediante aprendizaje por refuerzo

Sistema de Recompensas Personalizado:

R_Overall = {
    R_Sys, si R_Sys > 0
    0.1, si R_Sys = 0 y R_Rel > 0
    0, si R_Sys = R_Rel = 0
}

Equilibra relevancia semántica y preferencias del sistema

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Entrenamiento:

Generación de Tarjetas: 200,000 consultas, generación de 1.6 millones de cuádruples, retención de 30,000 triples de alta calidad después del filtrado
Reescritura de Consultas: 400,000 consultas, generación de 3.2 millones de triples, retención de 50,000 pares para SFT después del filtrado
Modelado de Recompensas: 150,000 consultas, generación de 240,000 pares de preferencia

Conjunto de Datos de Prueba:

Generación de Tarjetas: 10,000 consultas
Modelado de Recompensas: 10,000 consultas
Reescritura de Consultas: 15,000 consultas

Métricas de Evaluación

Métricas Sin Conexión:

Rel (Relevancia): Evaluación de la calidad semántica de la salida del modelo
Increment (Expansión de Recuperación): Medición de la mejora relativa en la cobertura de recuperación
Hitrate@K (Satisfacción del Usuario): Proporción de consultas reescritas que recuperan videos alineados con la intención del usuario en los primeros K resultados

Métricas En Línea:

LVR (Tasa de Visualización Larga): Proporción de usuarios que ven videos durante períodos prolongados
IQRR (Tasa de Reformulación de Consulta Activa): Proporción de usuarios que reformulan activamente sus consultas
CTR (Tasa de Clics): Proporción de usuarios que hacen clic en resultados de búsqueda

Métodos de Comparación

Método de reescritura basado en indicaciones
Líneas de base SFT y SFT+DPO
Método de inyección directa de conocimiento (Naive RAG)
Método CSA-QR adaptado

Detalles de Implementación

Generación de Tarjetas: Ajuste fino basado en Qwen2.5-VL-7B-Instruct
Reescritura de Consultas: Ajuste fino basado en Qwen3-8B
Configuración de Entrenamiento: Tasa de aprendizaje 1×10^-5, optimizador AdamW, entrenamiento distribuido DeepSpeed ZeRO-3

Resultados Experimentales

Resultados Principales

Método	Tipo de Conocimiento	QR-Rel	Increment	Hitrate@50	Hitrate@300
Consulta Original	-	-	-	31.40%	53.07%
SFT+GRPO	-	78.98%	65.19%	41.68%	65.71%
SFT+GRPO	Naive RAG	74.28%	70.86%	41.05%	65.63%
CardRewriter	Card RAG	85.73%	74.17%	46.64%	76.04%

Hallazgos Clave:

CardRewriter logra el mejor desempeño en la mayoría de las métricas
Las tarjetas de conocimiento mejoran significativamente la calidad de reescritura en comparación con la inyección directa de conocimiento
La estrategia de entrenamiento SFT+GRPO produce los mejores resultados

Experimentos de Ablación

Análisis de Contribución de Conocimiento de Múltiples Fuentes:

Eliminación de Contenido Visual: QC-Rel disminuye de 91.16% a 89.37%
Eliminación de Contenido Textual: QC-Rel disminuye a 86.18% (impacto mayor)
Eliminación de Videos Relacionados: QC-Rel disminuye a 78.27% (impacto máximo)

Análisis del Sistema de Recompensas:

Solo Recompensa de Relevancia: Máxima relevancia de consulta pero expansión de recuperación limitada
Solo Recompensa del Sistema: Recuperación de más videos nuevos pero posible desviación de la intención original
Recompensa Combinada: Mejor equilibrio entre relevancia y efectividad

Análisis de Casos

El artículo presenta un caso típico:

Consulta Original: "可口可乐寄人篱下的痛" (usuario escribió erróneamente el nombre del creador "可可可乐" como "可口可乐")
Reescritura de LLM: "可口可乐寄人篱下创意广告" (asociación errónea con marca de bebida)
CardRewriter: "可可可乐被寄养的孩子系列" (comprensión correcta de la intención del usuario)

Resultados de Experimentos En Línea

Tipo de Tráfico	LVR ↑	IQRR ↓	CTR ↑
Tráfico Cubierto	+1.853%	-2.630%	+3.729%
Tráfico Completo	+0.235%	-0.229%	+0.342%

Las pruebas A/B en línea confirman mejoras significativas, con efectos particularmente notables en el tráfico cubierto.

Trabajo Relacionado

Investigación en Reescritura de Consultas

Métodos Basados en Incrustaciones: Visualización de reescritura de consultas como tarea de recuperación, mejora de consultas originales mediante consultas similares
Métodos Generativos: Generación directa de consultas revisadas, con métodos LLM recientes mostrando desempeño excepcional en el dominio del comercio electrónico
Adaptación de Dominio: Los métodos existentes se centran principalmente en escenarios de comercio electrónico, con investigación relativamente limitada en plataformas de video corto

Generación Aumentada por Recuperación

La tecnología RAG mejora la calidad de generación mediante la recuperación de información relevante. Este artículo la aplica a la tarea de reescritura de consultas, integrando efectivamente información de múltiples fuentes mediante tarjetas de conocimiento.

Conclusiones y Discusión

Conclusiones Principales

CardRewriter resuelve efectivamente el problema de reescritura de consultas de cola larga en plataformas de video corto mediante tarjetas de conocimiento
La estrategia de entrenamiento de dos etapas y el sistema de recompensas personalizado mejoran significativamente la calidad de reescritura
El despliegue en la plataforma Kuaishou valida el valor práctico del método

Limitaciones

Costo Computacional: La inferencia de LLM requiere recursos computacionales significativos, adoptando estrategia de despliegue casi en línea
Rango de Cobertura: Actualmente cubre solo el 15-20% del tráfico de búsqueda diario
Dependencia de Dominio: El método está diseñado para plataformas de video corto, requiriendo validación adicional de aplicabilidad en otros dominios

Direcciones Futuras

Expansión del rango de consultas cubiertas
Optimización de la eficiencia de inferencia en línea
Exploración de aplicabilidad entre plataformas y entre dominios

Evaluación Profunda

Fortalezas

Especificidad del Problema Fuerte: Identificación precisa de desafíos únicos de reescritura de consultas en plataformas de video corto
Solución Técnica Completa: Solución de extremo a extremo desde recopilación de conocimiento hasta entrenamiento de modelos
Evaluación Experimental Exhaustiva: Experimentos sin conexión completos, validación de despliegue en línea de efectividad práctica
Valor de Práctica de Ingeniería Alto: Despliegue en plataforma a gran escala, sirviendo a cientos de millones de usuarios

Insuficiencias

Eficiencia Computacional: Latencia de inferencia de LLM relativamente alta, limitando aplicaciones en tiempo real
Dependencia de Datos: Requiere gran cantidad de datos anotados para construir conjuntos de entrenamiento
Interpretabilidad: La interpretabilidad del proceso de generación de tarjetas de conocimiento requiere fortalecimiento
Capacidad de Generalización: El método está diseñado para plataformas específicas, requiriendo validación adicional de capacidad de generalización entre dominios

Impacto

Contribución Académica: Proporciona nuevas perspectivas para comprensión de consultas en plataformas de video corto
Valor Práctico: Resuelve problemas comerciales reales con valor comercial directo
Promoción Tecnológica: El diseño de tarjetas de conocimiento puede generalizarse a otras aplicaciones RAG

Escenarios Aplicables

Optimización de búsqueda en plataformas de video corto, transmisiones en vivo y similares
Búsqueda de dominio vertical que contiene gran cantidad de contenido propietario
Tareas de comprensión de consultas que requieren integración de información multimodal

Referencias

El artículo cita 33 referencias relacionadas, cubriendo múltiples direcciones de investigación incluyendo reescritura de consultas, generación aumentada por recuperación y modelos de lenguaje grande, proporcionando base teórica sólida para la investigación.

Resumen: CardRewriter es una investigación innovadora dirigida a la reescritura de consultas de cola larga en plataformas de video corto, que logra resultados significativos tanto en métodos teóricos como en práctica de ingeniería mediante la integración efectiva de conocimiento propietario de plataforma mediante tarjetas de conocimiento. Este trabajo proporciona una solución valiosa para tareas de comprensión de consultas que contienen contenido propietario.