2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO: Un Marco de Ataque de Suplantación en LLMs Marcados con Agua mediante Destilación de Conocimiento

Información Básica

ID del Artículo: 2510.10987
Título: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Autores: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Universidad de Yonsei)
Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10987
Enlace del Código: https://github.com/hsannn/ditto.git

Resumen

La tecnología de marcas de agua en modelos de lenguaje grande (LLM) se basa en una suposición fundamental: que marcas de agua específicas pueden demostrar la autoría de un modelo específico. Este artículo demuestra que esta suposición contiene defectos peligrosos. Los autores proponen una amenaza de ataque de suplantación de marcas de agua, un método de ataque sofisticado que permite a modelos maliciosos generar texto que contiene las marcas de agua reales de un modelo víctima de confianza. Esto permite que contenido dañino (como desinformación) sea atribuido erróneamente de manera transparente a fuentes confiables. La clave del ataque es transformar la radiactividad de marcas de agua (la herencia involuntaria de patrones de datos durante el ajuste fino) de una característica detectable a un vector de ataque. Al extraer conocimiento de un modelo maestro marcado con agua, el marco permite a los atacantes robar y replicar las señales de marca de agua del modelo víctima.

Contexto de Investigación y Motivación

Contexto del Problema

Con la aplicación generalizada de modelos de lenguaje grande en aplicaciones industriales, educación y vida cotidiana, la detección y verificación de texto generado por LLM se ha vuelto crítica. Los reguladores de Estados Unidos y la Unión Europea requieren mayor trazabilidad de origen para contenido generado por LLM. Los principales actores industriales (como Meta, OpenAI, Google DeepMind) han adoptado la tecnología de marcas de agua como herramienta práctica para verificación de origen.

Problema Central

La tecnología actual de marcas de agua en LLM se basa en una suposición fundamental: detectar una marca de agua específica prueba la autoría de un modelo específico. Sin embargo, esta suposición contiene fallas graves que pueden ser explotadas maliciosamente para difundir desinformación y atribuirla a fuentes confiables.

Motivación de Investigación

Identificación de Amenazas de Seguridad: La investigación existente se enfoca principalmente en ataques de eliminación de marcas de agua, con menos atención a ataques de falsificación
Daño Práctico: La suplantación de marcas de agua es más peligrosa que la eliminación porque genera una falsa sensación de certeza
Exposición de Defectos Técnicos: Revelar defectos de seguridad fundamentales en el paradigma actual de verificación de marcas de agua

Contribuciones Principales

Primera Militarización de Radiactividad de Marcas de Agua: Transformar un fenómeno originalmente utilizado para detección en una poderosa herramienta de atribución errónea
Marco de Ataque Altamente Adaptable: Demostrar la efectividad del ataque contra esquemas de marcas de agua basados en n-gramas y muestreo
Romper la Compensación Intensidad-Calidad: Descubrir que se puede aumentar significativamente la intensidad de suplantación sin degradación notable de calidad de texto
Evaluación de Seguridad Sistemática: Primera evaluación sistemática de amenazas de ataques de suplantación en marcas de agua de LLM

Explicación Detallada del Método

Definición de Tarea

Dado un modelo marcado con agua MT como objetivo, un atacante desea entrenar otro modelo M que pueda generar texto que contenga señales de marca de agua de MT, engañando así al detector de marcas de agua. El ataque se realiza en una configuración de caja negra, donde el atacante no puede acceder a los logits del modelo objetivo ni a información específica del esquema de marca de agua.

Arquitectura del Marco DITTO

El marco DITTO contiene tres fases principales:

1. Herencia de Marca de Agua (Watermark Inheritance)

Transferir patrones de marca de agua del modelo objetivo a un modelo estudiante de código abierto mediante destilación de conocimiento:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

Donde DT es un conjunto de datos generado por el modelo maestro marcado con agua MT, y θS y θO son los parámetros del modelo estudiante y modelo original respectivamente.

2. Extracción de Marca de Agua (Watermark Extraction)

Extraer señales de marca de agua analizando diferencias en logits del modelo antes y después del entrenamiento:

Desviación Global:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

Desviación Local:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

Señal de Extracción Final:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. Ataque de Suplantación (Spoofing Attack)

Inyectar la señal de marca de agua extraída durante la inferencia en el modelo del atacante:

l'MO(c) = lMO(c) + α · EWS(c)

Donde α es un parámetro de escala que controla la intensidad de inyección.

Puntos de Innovación Técnica

Aprovechamiento de Radiactividad de Marcas de Agua: Transformación innovadora de radiactividad de marca de agua de herramienta de detección a vector de ataque
Independencia de Esquema: No depende de detalles de implementación de esquemas específicos
Mecanismo de Inyección en Tiempo Real: Inyectar dinámicamente señales de marca de agua durante la fase de inferencia
Configuración de Ataque de Caja Negra: Ataque bajo restricciones prácticas reales

Configuración Experimental

Conjuntos de Datos

Dolly-15k: Contiene 15,000 pares de indicaciones/respuestas generadas manualmente, utilizadas para ajuste fino de instrucciones
MarkMyWords (MMW) Bookreport: Conjunto de pruebas de referencia especializado para evaluación sistemática de tecnología de marcas de agua

Configuración de Modelos

Pares Modelo Maestro-Estudiante:
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

Métricas de Evaluación

TPR@FPR: Tasa de verdaderos positivos a tasa de falsos positivos fija (10%, 1%, 0.1%)
p-value: Significancia estadística de detección de marca de agua (mediana)
Perplejidad: Métrica de evaluación de calidad de texto

Métodos de Comparación

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - Configuraciones de caja gris y caja negra
Modelo original marcado con agua como referencia de límite superior

Detalles de Implementación

Parámetros de marca de agua: δ=3, γ=0.5, z-threshold=4.0
Entrenamiento: Ajuste fino de LoRA de 3 épocas
Intensidad de ataque: α ∈ 2.5, 3, 3.5, 4, 4.5, 5

Resultados Experimentales

Resultados Principales

En el conjunto de datos MMW Bookreport, resultados del ataque DITTO contra Llama3.1-8B:

TPR@FPR=10%: 0.81
TPR@FPR=1%: 0.70
TPR@FPR=0.1%: 0.51
p-value mediana: 7.97E-04
Perplejidad: 4.18

Rendimiento superior en Llama3.2-3B:

TPR@FPR=10%: 0.99
TPR@FPR=1%: 0.99
TPR@FPR=0.1%: 0.97
p-value mediana: 5.48E-17
Perplejidad: 2.44

Hallazgos Clave

1. Relación No Convencional entre Intensidad de Ataque y Calidad de Texto

Los experimentos revelan que conforme aumenta el parámetro de escala α, la perplejidad no aumenta monótonamente, sino que presenta un patrón fluctuante. Esto rompe la suposición convencional de que "ataques más fuertes inevitablemente resultan en degradación de calidad".

2. Universalidad Entre Esquemas

DITTO es igualmente efectivo contra SynthID (marca de agua basada en muestreo):

Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. Impacto del Tamaño del Modelo

Modelos más pequeños como vehículos de ataque muestran mejor rendimiento, posiblemente porque es más fácil aprender y replicar patrones de marca de agua.

Experimentos de Ablación

Experimentos variando el parámetro α (2.5-5.0) demuestran:

p-value continúa disminuyendo conforme α aumenta
Cambios en perplejidad son irregulares, sin tendencia clara de degradación de calidad

Trabajo Relacionado

Tecnología de Marcas de Agua en LLM

Métodos Basados en Partición de Vocabulario: Esquema KGW y versiones mejoradas
Métodos Basados en Muestreo: SynthID, Tournament sampling, etc.
Esquemas Multibits: Soporte para identificadores rastreables por usuario

Investigación de Ataques a Marcas de Agua

Ataques de Eliminación: Remover marcas de agua mediante paráfrasis, optimización, etc.
Ataques de Robo: Ingeniería inversa de mecanismos de marca de agua
Ataques de Suplantación: Enfoque de este artículo, con investigación relativamente limitada

Radiactividad de Marca de Agua

Propósito de Detección: Utilizado por Sander et al. para auditoría de origen
Investigación de Defensa: Métodos de neutralización de Pan et al.
Transformación de Ataque: Primera militarización en este artículo

Conclusiones y Discusión

Conclusiones Principales

Defecto de Seguridad Fundamental: La suposición central de la tecnología actual de marcas de agua contiene fallas graves
Amenaza de Ataque Práctico: DITTO puede atacar efectivamente incluso en configuración de caja negra
Necesidad de Cambio de Paradigma: Transición necesaria de detección de existencia a verificación de autenticidad

Limitaciones

Dependencia de Efectividad de Herencia de Marca de Agua: El éxito del ataque depende de la herencia fiel de marca de agua por el modelo estudiante
Falta de Investigación de Mecanismos de Defensa: El artículo se enfoca en el ataque sin explorar defensas correspondientes
Cobertura Limitada de Esquemas: Solo prueba dos tipos principales de marcas de agua

Direcciones Futuras

Diseño de Marcas de Agua Robustas: Desarrollar tecnología de marcas de agua resistente a suplantación
Verificación de Autenticidad: Métodos para distinguir marcas de agua reales de imitadas
Métodos Criptográficos: Mecanismos para vincular marcas de agua con identidad de modelo

Evaluación Profunda

Fortalezas

Descubrimiento de Seguridad Importante: Revela problemas de seguridad fundamentales en tecnología de marcas de agua
Innovación Metodológica: Primera sistematización del aprovechamiento de radiactividad de marca de agua para ataques
Suficiencia Experimental: Evaluación integral entre múltiples modelos, conjuntos de datos y esquemas de marca de agua
Valor de Amenaza Práctica: Ataque de caja negra bajo restricciones realistas

Deficiencias

Riesgos Éticos: Proporciona métodos de ataque que podrían ser explotados maliciosamente
Ausencia de Defensa: No proporciona estrategias de defensa o mitigación correspondientes
Análisis Teórico Insuficiente: Falta análisis teórico de condiciones de éxito del ataque
Cobertura de Esquemas Limitada: Solo prueba esquemas de marca de agua limitados

Impacto

Contribución Académica: Abre nuevas direcciones en investigación de seguridad de marcas de agua
Valor Práctico: Advierte sobre riesgos de seguridad de tecnología actual de marcas de agua
Impacto en Políticas: Puede influir en formulación de políticas regulatorias relevantes

Escenarios Aplicables

Evaluación de Seguridad: Evaluar seguridad de sistemas de marca de agua existentes
Pruebas de Equipo Rojo: Herramienta de prueba de ataque para equipos de seguridad de IA
Referencia de Investigación: Línea de base de ataque para investigación de defensa posterior

Referencias

Este artículo cita investigaciones importantes en campos de tecnología de marcas de agua, métodos de ataque y seguridad de IA, incluyendo:

Kirchenbauer et al. (2023) - Esquema de marca de agua KGW
Dathathri et al. (2024) - Marca de agua basada en muestreo SynthID
Sander et al. (2024) - Concepto de radiactividad de marca de agua
Así como múltiples trabajos relacionados en ataques y defensas de marcas de agua

Evaluación General: Este es un artículo de importancia significativa para la seguridad que revela vulnerabilidades fundamentales en la tecnología actual de marcas de agua en LLM. Aunque presenta controversias éticas, su valor académico e impacto en el desarrollo del campo son innegables. El artículo señala la dirección para el desarrollo futuro de tecnología de marcas de agua más segura.