2025-12-15T05:34:19.726999

Beyond Detection: A Comprehensive Benchmark and Study on Representation Learning for Fine-Grained Webshell Family Classification

Han

Malicious WebShells pose a significant and evolving threat by compromising critical digital infrastructures and endangering public services in sectors such as healthcare and finance. While the research community has made significant progress in WebShell detection (i.e., distinguishing malicious samples from benign ones), we argue that it is time to transition from passive detection to in-depth analysis and proactive defense. One promising direction is the automation of WebShell family classification, which involves identifying the specific malware lineage in order to understand an adversary's tactics and enable a precise, rapid response. This crucial task, however, remains a largely unexplored area that currently relies on slow, manual expert analysis. To address this gap, we present the first systematic study to automate WebShell family classification. Our method begins with extracting dynamic function call traces to capture inherent behaviors that are resistant to common encryption and obfuscation. To enhance the scale and diversity of our dataset for a more stable evaluation, we augment these real-world traces with new variants synthesized by Large Language Models. These augmented traces are then abstracted into sequences, graphs, and trees, providing a foundation to benchmark a comprehensive suite of representation methods. Our evaluation spans classic sequence-based embeddings (CBOW, GloVe), transformers (BERT, SimCSE), and a range of structure-aware algorithms, including Graph Kernels, Graph Edit Distance, Graph2Vec, and various Graph Neural Networks. Through extensive experiments on four real-world, family-annotated datasets under both supervised and unsupervised settings, we establish a robust baseline and provide practical insights into the most effective combinations of data abstractions, representation models, and learning paradigms for this challenge.

academic

Beyond Detection: A Comprehensive Benchmark and Study on Representation Learning for Fine-Grained Webshell Family Classification

基本信息

论文ID: 2512.05288
标题: Beyond Detection: A Comprehensive Benchmark and Study on Representation Learning for Fine-Grained Webshell Family Classification
作者: Feijiang Han (University of Pennsylvania)
分类: cs.CR (Cryptography and Security), cs.AI, cs.LG
发表时间: 2025年12月4日提交至arXiv
论文链接: https://arxiv.org/abs/2512.05288

摘要

恶意WebShell通过入侵关键数字基础设施威胁医疗、金融等公共服务领域。虽然学界在WebShell检测（区分恶意与良性样本）方面取得显著进展，但本文认为应从被动检测转向深度分析和主动防御。本研究首次系统性地自动化WebShell家族分类任务，通过提取动态函数调用轨迹捕获抗混淆的行为特征，利用大语言模型增强数据集规模和多样性，并将轨迹抽象为序列、图和树三种结构。研究全面评估了从经典序列嵌入（CBOW、GloVe）、Transformer（BERT、SimCSE）到结构感知算法（图核、图编辑距离、Graph2Vec、GNN）的多种表示学习方法，在四个真实标注数据集上建立了监督和无监督设置下的性能基线。

研究背景与动机

1. 核心问题

本研究要解决的核心问题是WebShell家族自动分类，即识别恶意WebShell的具体变种或谱系。这超越了传统的二分类检测（恶意vs良性），需要将恶意样本进一步细分到具体的攻击家族。

2. 问题重要性

威胁情报价值：家族分类能帮助安全团队归因攻击、预测攻击者下一步行动
响应速度提升：自动化系统可将响应时间从数小时的人工分析缩短至秒级
精准防御：针对特定家族的已知战术触发定制化防御预案
实际影响：WebShell直接威胁医疗、金融等关键基础设施的敏感数据

3. 现有方法局限

研究空白：WebShell家族分类是一个基本未被探索的领域
人工依赖：当前实践完全依赖耗时的人工专家分析
检测局限：现有研究主要聚焦二分类检测，提供的可操作情报有限
特征挑战：家族分类需要捕获区分不同家族的细微行为模式，而非通用恶意特征

4. 研究动机

技术可行性假设：

同家族WebShell因代码复用共享行为特征
动态函数调用轨迹即使在代码混淆时也能捕获恶意行为
核心假设：通过学习基础行为模式，模型可有效分组和追踪WebShell家族

核心贡献

首个系统性基准框架：设计并执行WebShell家族分类的首个大规模基准测试，建立标准化评估流程
LLM驱动的数据增强：提出利用大语言模型合成行为一致的函数调用轨迹，解决数据稀缺和类别不平衡问题，并模拟零日威胁
多维度表示学习评估：系统评估三种数据抽象（序列、图、树）和多种表示方法（从经典词嵌入到GNN），包含10+种模型和多种实现变体
鲁棒的实证基线：在四个真实数据集（DS1-DS4，规模从452到1617样本）上建立监督和无监督分类的首个性能基线
可操作的实践指南：提供清晰的性能层级和最佳实践，包括模型选择和超参数配置策略

方法详解

任务定义

两阶段框架：

阶段1：表示学习
- 输入：原始函数调用轨迹（动态执行日志）
- 编码器： $x = g(\text{trace}) \in \mathbb{R}^d$
- 输出：固定维度的数值向量（嵌入）
阶段2：分类基准测试
- 输入：嵌入数据集 $D = \{(x_1, y_1), \ldots, (x_n, y_n)\}$
- 标签： $y_i \in \{1, \ldots, K\}$ （K个家族）
- 目标：学习分类器 $f: \mathbb{R}^d \rightarrow \{1, \ldots, K\}$

设计原理：解耦表示学习和分类，实现对不同编码器的公平标准化基准测试。

数据采集与增强

1. 真实数据获取

采集流程：

来源：大规模云服务商的恶意软件检测系统标记的可疑文件
执行：安全沙箱中执行捕获动态函数调用轨迹
标注：安全专家人工审查过滤假阳性，进行家族标注
异常值：无法分配到已知家族的样本标记为Family ID = -1

动态分析优势：

绕过混淆和加密等规避技术
揭示明确的操作行为结构
语言无关性（专注核心逻辑而非语法）

2. LLM驱动的数据增强

策略一：家族内增强（Intra-Family Augmentation）

方法：Few-shot提示，提供家族行为描述和典型样本
目标：生成行为一致但语法独特的新样本
作用：解决类别不平衡，增强稀有家族数据

策略二：新家族与零日模拟

方法：混合不同家族的行为特征
目标：模拟对抗性创新，生成新家族或对抗性异常值
作用：测试分类器鲁棒性

质量保证（两阶段验证）：

自动过滤：检查格式合法性和词汇有效性
人工验证：可视化嵌入投影，手动审查并剔除偏离家族核心聚类的样本

3. 数据集统计

数据集	样本数	复杂度	家族数	异常值数
DS1	452	低	21	1
DS2	553	中	37	10
DS3	1125	高	48	23
DS4	1617	高	81	28

行为数据抽象

1. 序列模型（Sequence Model）

表示： $S = (t_1, t_2, \ldots, t_n)$ ，其中 $t_i$ 是第i个调用的函数
特点：保留时间顺序，线性结构
适用：NLP模型（Word2Vec、BERT等）

2. 图模型（Graph Model）

表示：函数调用图（FCG） $G = (V, E)$ $G = (V, E)$
- 节点：唯一函数
- 边： $(u, v) \in E$ 表示函数u调用v
- 权重：调用频率
特点：静态聚合视图，捕获所有调用关系（包括循环和间接调用）

3. 树模型（Tree Model）

表示：函数调用树（FCT） $T = (V, E)$ $T = (V, E)$
- 根节点：入口点（如main）
- 边：父子调用关系
特点：
- 无环结构
- 保留执行路径和上下文
- 同一函数在不同上下文中为不同节点
优势：提供细粒度的上下文指纹

表示学习方法

1. 序列模型方法

经典嵌入：

CBOW & GloVe：上下文无关的静态词嵌入
聚合策略：
- avg：平均所有函数调用向量
- concat：顺序拼接向量
- TF-IDF weighted avg：强调区分性函数

Transformer模型：

BERT & SimCSE：上下文感知的深度模型
聚合策略：
- avg：平均所有token的隐藏状态
- concat：拼接不同层的隐藏状态
- CLS：使用CLS token的最终隐藏状态

2. 图/树模型方法

经典方法：

图/树核（Kernels）：通过计数共享子结构测量相似度
- Path Kernel：共同调用序列
- Random Walk Kernel：随机生成的遍历
- Subtree Kernel：相同的小规模调用层次
图/树编辑距离（Edit Distance）：计算转换所需的最小操作代价

学习方法：