DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic
DITTO: Un Marco de Ataque de Suplantación en LLMs Marcados con Agua mediante Destilación de Conocimiento
La tecnología de marcas de agua en modelos de lenguaje grande (LLM) se basa en una suposición fundamental: que marcas de agua específicas pueden demostrar la autoría de un modelo específico. Este artículo demuestra que esta suposición contiene defectos peligrosos. Los autores proponen una amenaza de ataque de suplantación de marcas de agua, un método de ataque sofisticado que permite a modelos maliciosos generar texto que contiene las marcas de agua reales de un modelo víctima de confianza. Esto permite que contenido dañino (como desinformación) sea atribuido erróneamente de manera transparente a fuentes confiables. La clave del ataque es transformar la radiactividad de marcas de agua (la herencia involuntaria de patrones de datos durante el ajuste fino) de una característica detectable a un vector de ataque. Al extraer conocimiento de un modelo maestro marcado con agua, el marco permite a los atacantes robar y replicar las señales de marca de agua del modelo víctima.
Con la aplicación generalizada de modelos de lenguaje grande en aplicaciones industriales, educación y vida cotidiana, la detección y verificación de texto generado por LLM se ha vuelto crítica. Los reguladores de Estados Unidos y la Unión Europea requieren mayor trazabilidad de origen para contenido generado por LLM. Los principales actores industriales (como Meta, OpenAI, Google DeepMind) han adoptado la tecnología de marcas de agua como herramienta práctica para verificación de origen.
La tecnología actual de marcas de agua en LLM se basa en una suposición fundamental: detectar una marca de agua específica prueba la autoría de un modelo específico. Sin embargo, esta suposición contiene fallas graves que pueden ser explotadas maliciosamente para difundir desinformación y atribuirla a fuentes confiables.
Identificación de Amenazas de Seguridad: La investigación existente se enfoca principalmente en ataques de eliminación de marcas de agua, con menos atención a ataques de falsificación
Daño Práctico: La suplantación de marcas de agua es más peligrosa que la eliminación porque genera una falsa sensación de certeza
Exposición de Defectos Técnicos: Revelar defectos de seguridad fundamentales en el paradigma actual de verificación de marcas de agua
Primera Militarización de Radiactividad de Marcas de Agua: Transformar un fenómeno originalmente utilizado para detección en una poderosa herramienta de atribución errónea
Marco de Ataque Altamente Adaptable: Demostrar la efectividad del ataque contra esquemas de marcas de agua basados en n-gramas y muestreo
Romper la Compensación Intensidad-Calidad: Descubrir que se puede aumentar significativamente la intensidad de suplantación sin degradación notable de calidad de texto
Evaluación de Seguridad Sistemática: Primera evaluación sistemática de amenazas de ataques de suplantación en marcas de agua de LLM
Dado un modelo marcado con agua MT como objetivo, un atacante desea entrenar otro modelo M que pueda generar texto que contenga señales de marca de agua de MT, engañando así al detector de marcas de agua. El ataque se realiza en una configuración de caja negra, donde el atacante no puede acceder a los logits del modelo objetivo ni a información específica del esquema de marca de agua.
Transferir patrones de marca de agua del modelo objetivo a un modelo estudiante de código abierto mediante destilación de conocimiento:
θS = arg max Σ Σ log P(xi|x1:i-1; θO)
θO x∈DT i=1
Donde DT es un conjunto de datos generado por el modelo maestro marcado con agua MT, y θS y θO son los parámetros del modelo estudiante y modelo original respectivamente.
Aprovechamiento de Radiactividad de Marcas de Agua: Transformación innovadora de radiactividad de marca de agua de herramienta de detección a vector de ataque
Independencia de Esquema: No depende de detalles de implementación de esquemas específicos
Mecanismo de Inyección en Tiempo Real: Inyectar dinámicamente señales de marca de agua durante la fase de inferencia
Configuración de Ataque de Caja Negra: Ataque bajo restricciones prácticas reales
Los experimentos revelan que conforme aumenta el parámetro de escala α, la perplejidad no aumenta monótonamente, sino que presenta un patrón fluctuante. Esto rompe la suposición convencional de que "ataques más fuertes inevitablemente resultan en degradación de calidad".
Modelos más pequeños como vehículos de ataque muestran mejor rendimiento, posiblemente porque es más fácil aprender y replicar patrones de marca de agua.
Este artículo cita investigaciones importantes en campos de tecnología de marcas de agua, métodos de ataque y seguridad de IA, incluyendo:
Kirchenbauer et al. (2023) - Esquema de marca de agua KGW
Dathathri et al. (2024) - Marca de agua basada en muestreo SynthID
Sander et al. (2024) - Concepto de radiactividad de marca de agua
Así como múltiples trabajos relacionados en ataques y defensas de marcas de agua
Evaluación General: Este es un artículo de importancia significativa para la seguridad que revela vulnerabilidades fundamentales en la tecnología actual de marcas de agua en LLM. Aunque presenta controversias éticas, su valor académico e impacto en el desarrollo del campo son innegables. El artículo señala la dirección para el desarrollo futuro de tecnología de marcas de agua más segura.