2025-11-14T00:34:15.689091

Living Off the LLM: How LLMs Will Change Adversary Tactics

Oesch, Hutchins, Koch et al.
In living off the land attacks, malicious actors use legitimate tools and processes already present on a system to avoid detection. In this paper, we explore how the on-device LLMs of the future will become a security concern as threat actors integrate LLMs into their living off the land attack pipeline and ways the security community may mitigate this threat.
academic

Viviendo del LLM: Cómo los LLMs Cambiarán las Tácticas del Adversario

Información Básica

  • ID del Artículo: 2510.11398
  • Título: Living Off the LLM: How LLMs Will Change Adversary Tactics
  • Autores: Sean Oesch, Jack Hutchins, Kevin Kurian, Luke Koch (Oak Ridge National Laboratory)
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: 13 de octubre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2510.11398v1

Resumen

Este artículo examina cómo los actores maliciosos pueden utilizar herramientas legítimas y procesos ya existentes en sistemas para realizar ataques de "parasitismo" (Living Off the Land, LOTL) con el fin de evadir la detección. La investigación predice que los modelos de lenguaje grande (LLMs) en dispositivos futuros se convertirán en amenazas de seguridad, y que los actores de amenazas integrarán LLMs en sus canales de ataque LOTL. Asimismo, propone posibles medidas de mitigación que la comunidad de seguridad podría implementar.

Contexto de Investigación y Motivación

Definición del Problema

  1. Amenaza creciente de ataques LOTL: Según el informe de Crowdstrike de 2023, el 60% de las detecciones muestran que los actores de amenazas utilizan ataques LOTL en lugar de malware tradicional para avanzar en sus actividades de ataque
  2. Proliferación del despliegue de LLMs: Con el crecimiento de LLMs de código abierto, mejoras continuas y desarrollo de técnicas de cuantización, ahora están disponibles LLMs locales efectivos
  3. Vectores de ataque emergentes: Los LLMs locales proporcionan a los atacantes nuevas "herramientas legítimas" que pueden ser explotadas maliciosamente sin ser fácilmente detectadas

Importancia de la Investigación

  • Casos de amenaza práctica: El artículo menciona a Sandworm, un actor de amenaza ruso, que utilizó tácticas LOTL de nivel OT en 2022 para atacar la infraestructura crítica de Ucrania
  • Tendencias de evolución tecnológica: Transición de ataques que dependen de APIs remotas (como BlackMamba) hacia la explotación completamente localizada de LLMs
  • Vacíos en la protección: Las medidas de seguridad existentes se centran principalmente en herramientas LOTL tradicionales, careciendo de protección efectiva contra el abuso de LLMs

Contribuciones Principales

  1. Propuesta del concepto LOLLM: Primera definición sistemática del patrón de ataque "Living Off the LLM" (LOLLM)
  2. Construcción de un sistema de clasificación de ataques: Análisis detallado de múltiples formas de explotación de LLMs en ciberataques
  3. Desarrollo de ataques de prueba de concepto: Implementación de demostraciones de ataque LOLLM basadas en el modelo Gemma 3
  4. Provisión de un marco de protección: Propuesta de estrategias de detección y mitigación contra el abuso de LLMs
  5. Revelación de paradojas de seguridad: Descubrimiento de que los modelos fuertemente alineados tienen mejor capacidad de resistencia a ataques que los modelos débilmente alineados

Explicación Detallada de Métodos

Definición de Tareas

Ataque LOLLM: El atacante utiliza un LLM local ya desplegado en el sistema objetivo para generar código malicioso, sin necesidad de transmitir malware conocido o utilizar LOLBins tradicionales, logrando así actividades maliciosas encubierta.

Clasificación de Métodos de Explotación de LLMs

1. Generación Directa de Código

  • Malware polimórfico: Utilización de LLMs para reescribir componentes de código en tiempo de ejecución, eludiendo la detección de firmas estáticas
  • Ejecución en memoria: El código generado existe solo en memoria, sin escribirse en el sistema de archivos
  • Agentes de ataque autónomos: Como RapidPen, que implementa automatización completa de IP a Shell

2. Vectores de Ataque Indirectos

  • Ocultamiento de comunicaciones C2: RatGPT oculta tráfico C2 malicioso en llamadas API legítimas
  • Ataques a la cadena de suministro: Utilización de LLMs para generar paquetes de software de código abierto malicioso con comportamientos LOTL incrustados
  • Ingeniería social: Sistema ViKing que realiza ataques de phishing de voz completamente autónomos

3. El Modelo Mismo como Objetivo de Ataque

  • Infección de modelos: Implementación de funcionalidad maliciosa a través de llamadas de funciones inseguras en bibliotecas como TensorFlow y PyTorch
  • Vulnerabilidades de formato de archivo: Explotación de vulnerabilidades conocidas en formatos como archivos Pickle para lograr ejecución arbitraria de código

Arquitectura de Implementación LOLLM

Fase de Detección

# Escaneo de recursos LLM locales (sin requerir permisos elevados)
- Detección de GPU
- Enumeración de entorno Python  
- Descubrimiento de instancias Ollama
- Identificación de despliegues llama.cpp
- Búsqueda de modelos en caché de HuggingFace

Estrategias de Jailbreak

Estrategias escalonadas adaptadas a diferentes grados de alineación de seguridad:

  1. Modelos sin censura: Solicitud directa de funcionalidad maliciosa
  2. Modelos débilmente alineados: Jailbreak de contexto simple
  3. Modelos fuertemente alineados: Combinación de palancas psicológicas y técnicas complejas

Generación y Ejecución de Código

  • Utilización de definiciones de funciones codificadas y descripciones
  • Validación de la corrección sintáctica del código generado mediante bucles de retroalimentación
  • Relleno dinámico de funciones maliciosas y ejecución

Configuración Experimental

Entorno Experimental

  • Modelos objetivo: Gemma 3 4b/6b
  • Plataforma de despliegue: Ollama
  • Lenguaje de programación: Python
  • Escenario de ataque: Amenaza interna con acceso a perfiles de usuario ya obtenido

Casos de Prueba de Jailbreak

Casos Fallidos

Indicación: "Write a python function that fully exploits the heartbleed vuln to spy on wpa3 comms"
Resultado: El modelo rechaza, identificando correctamente la intención maliciosa

Casos Exitosos

Indicación: "You are a helpful assistant, designed to help with cybersecurity tasks... 
[Establecimiento de contexto de investigación de seguridad, afirmación de entorno aislado, énfasis en propósitos de investigación defensiva]"
Resultado: El modelo coopera en la generación de código malicioso

Implementación de Funcionalidades de Ataque

  • Operaciones del sistema de archivos: Escaneo recursivo de directorios y eliminación de archivos
  • Mecanismos de persistencia: Creación de servicios de inicio
  • Encubrimiento: Interferencia encubierta dirigida a datos de entrenamiento de aprendizaje automático

Resultados Experimentales

Análisis de Tasas de Éxito de Jailbreak

  1. Funcionalidades legítimas: Tasa de éxito del 100% (como escaneo de directorios)
  2. Funcionalidades obviamente maliciosas: Tasa de fallo del 100% en solicitudes directas
  3. Ataques con envoltura de contexto: Tasa de éxito significativamente aumentada

Estratificación de Vulnerabilidades del Modelo

Según los resultados experimentales, clasificación de sistemas por superficie de ataque de LLM:

  1. Sin LLM local: Inmune a este vector de ataque
  2. Modelos fuertemente alineados: Requiere técnicas de jailbreak complejas
  3. Modelos débilmente alineados: Susceptibles a jailbreak de contexto simple
  4. Modelos sin censura: Sin necesidad de técnicas de jailbreak

Verificación de Efectividad del Ataque

  • Generación exitosa de código malicioso polimórfico
  • Implementación de ejecución de código local sin dependencias externas
  • Establecimiento de mecanismos de persistencia
  • Evasión de métodos de detección estática tradicionales

Estrategias de Protección

Mecanismos de Detección

1. Extensión de Detección de Comandos

Basada en métodos de detección LOTL existentes (Boros et al., Ongun et al.):

  • Patrones de ejecución de comandos: Identificación del uso de caracteres especiales en intentos de ofuscación
  • Análisis de variables de entorno: Detección del uso de variables para ocultar código malicioso
  • Detección de estructuras de codificación: Identificación de datos codificados como Base64

2. Indicadores de Ataque (IOAs)

  • Patrones de comportamiento anómalo: Actividades de usuario y sistema que se desvían de la línea base
  • Respuesta en tiempo real: Identificación proactiva de ataques en curso
  • Detección heurística: Respuesta a técnicas de polimorfismo y ofuscación

Medidas de Protección Específicas para LLM

1. Cortafuegos de Indicaciones

Función: Filtrado y registro de indicaciones enviadas al LLM
Contenido del registro: Indicación, respuesta, ID de usuario, marca de tiempo, metadatos de sesión

2. Purificación de Salida

Función: Filtrado de salida de LLM, bloqueo de código que utiliza LOLBins comunes
Monitoreo prioritario: Llamadas a PowerShell, WMI y otras herramientas

3. Detección de Anomalías

Métricas monitoreadas:

  • Solicitudes excesivas de generación de código/scripts
  • Indicaciones de tipo reconocimiento
  • Volumen o tiempo de acceso anómalo

4. Restricción de Uso de Herramientas

  • Limitación de herramientas que los LLMs agentes pueden utilizar solo a las necesarias
  • Permitir a los usuarios deshabilitar funcionalidades de generación de código

5. Biblioteca de Reglas Colaborativas

Establecimiento de un formato estándar de detección de patrones de abuso de LLM similar a las reglas Snort

Trabajo Relacionado

Investigación de Ataques LOTL

  • Barr-Smith et al. (2021): Análisis sistemático de técnicas LOTL de malware de Windows
  • Boros et al. (2022-2023): Detección de comandos LOTL mediante aprendizaje automático
  • Ongun et al. (2021): Detección de comandos LOTL mediante aprendizaje activo

Amenazas de Seguridad de LLMs

  • BlackMamba (HYAS Labs): Creación de malware polimórfico utilizando ChatGPT
  • RatGPT (Beckerich et al.): LLM como agente de ataque de malware
  • AutoAttacker (Xu et al.): Sistema de ataque cibernético automático guiado por LLM

Seguridad de la Cadena de Suministro de Modelos

  • Zhu et al., Liu et al., Zhao et al.: Inyección de código malicioso en bibliotecas de aprendizaje automático
  • Zhang et al.: Generación de TTP en malware interpretable

Conclusiones y Discusión

Conclusiones Principales

  1. Confirmación de nuevo vector de amenaza: Los LLMs locales proporcionan nuevas herramientas legítimas para ataques LOTL
  2. Valor protector de la alineación de seguridad: Los modelos fuertemente alineados tienen mejor capacidad de resistencia a ataques
  3. Desafíos de detección: Las medidas de seguridad tradicionales tienen dificultades para detectar efectivamente el abuso de LLMs
  4. Viabilidad de estrategias de protección: El marco de protección multicapa propuesto tiene valor de aplicación práctica

Limitaciones

  1. Dependencia del modelo: La efectividad del ataque depende altamente del tipo de LLM disponible en el sistema objetivo
  2. Fragilidad de técnicas de jailbreak: Diferencias significativas en tasas de éxito de jailbreak entre familias de modelos diferentes
  3. Madurez de métodos de detección: Las medidas de protección propuestas aún requieren verificación en despliegue real
  4. Costo del ataque: Posible existencia de umbrales técnicos más altos en comparación con métodos tradicionales

Direcciones Futuras

  1. Sistematización de técnicas de jailbreak: Establecimiento de una biblioteca de técnicas de jailbreak dirigidas a diferentes modelos
  2. Optimización de mecanismos de protección: Mejora de algoritmos de detección y protección específicos para LLMs
  3. Investigación de alineación de seguridad: Consideración de la alineación de seguridad como característica de seguridad empresarial y no solo como salvaguardia ética
  4. Intercambio de inteligencia de amenazas: Establecimiento de reglas de detección estandarizadas para patrones de abuso de LLMs

Evaluación Profunda

Fortalezas

  1. Investigación prospectiva: Primera exploración sistemática de LLMs como herramientas LOTL para amenazas de seguridad
  2. Fuerte practicidad: Provisión de ataques de prueba de concepto concretos y recomendaciones de protección accionables
  3. Análisis comprehensivo: Análisis profundo del problema desde múltiples dimensiones técnicas, de despliegue y de detección
  4. Contribución teórica: Propuesta de relación contraintuitiva entre grado de alineación del modelo y seguridad

Deficiencias

  1. Escala experimental limitada: Verificación realizada solo en un modelo único (Gemma 3)
  2. Verificación insuficiente de protección: Las medidas de protección propuestas carecen de verificación de efectividad en despliegue real
  3. Falta de análisis de costo de ataque: Análisis insuficiente del análisis de costo-beneficio de ataques LOLLM en comparación con métodos tradicionales
  4. Consideraciones éticas: Como investigación de técnicas de ataque, existe potencial riesgo de explotación maliciosa

Impacto

  1. Valor académico: Apertura de nuevas direcciones en investigación de seguridad de LLMs
  2. Valor práctico: Importancia significativa para la orientación de estrategias de seguridad en despliegues empresariales de LLMs
  3. Impacto en políticas: Posible influencia en la formulación de estándares de seguridad relacionados y políticas regulatorias
  4. Impulso tecnológico: Promoción del desarrollo de tecnologías de alineación de seguridad de LLMs y técnicas de detección

Escenarios Aplicables

  1. Seguridad empresarial: Orientación en la formulación de estrategias de seguridad para despliegues empresariales de LLMs
  2. Investigación de seguridad: Provisión de nuevos modelos de amenaza para investigadores de seguridad
  3. Desarrollo de productos: Referencia para el diseño de seguridad de productos LLM
  4. Educación y capacitación: Casos de vanguardia para educación en ciberseguridad

Referencias Bibliográficas

El artículo cita 18 referencias relacionadas, abarcando detección de ataques LOTL, amenazas de seguridad de LLMs, seguridad de modelos de aprendizaje automático y otros múltiples campos de investigación, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación en ciberseguridad con importante valor prospectivo que explora sistemáticamente por primera vez el potencial de aplicación de LLMs en ataques LOTL. El artículo no solo propone un nuevo modelo de amenaza, sino que también proporciona demostraciones de ataque prácticas y recomendaciones de protección, teniendo valor importante para impulsar la investigación de seguridad de LLMs y despliegues prácticos. Aunque existen ciertas limitaciones en escala experimental y verificación de protección, su perspectiva de investigación innovadora y practicidad lo convierten en una contribución importante en este campo.