Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification 论文ID : 2404.02572标题 : Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification作者 : Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou分类 : cs.LG发表时间 : 2024年4月12日 (arXiv v2)所属机构 : 塞浦路斯大学KIOS研究与创新卓越中心,电气与计算机工程系论文链接 : https://arxiv.org/abs/2404.02572 数据流挖掘旨在从持续演化的数据流中提取有意义的知识,解决非平稳环境带来的挑战,特别是概念漂移(concept drift),即底层数据分布随时间的变化。图结构为表示复杂系统(如关键基础设施系统和社交网络)提供了强大的建模工具。从图流中学习成为理解图结构动态和促进明智决策的必要条件。本工作提出了一种新的图流分类方法,适用于数据生成过程产生具有随时间变化的节点和边的图的一般设置。该方法使用增量学习进行持续模型适应,为每个类别选择代表性图(原型),并创建图嵌入。此外,它还集成了基于损失的概念漂移检测机制,在检测到漂移时重新计算图原型。
本研究要解决的核心问题是在动态图流环境下的分类任务,其中图的节点数和边数会随时间变化,且存在概念漂移现象。
现实需求 : 许多真实世界系统(如关键基础设施、社交网络、推荐系统)都可以用动态图结构表示数据特征 : 这些系统产生的数据具有高速度、大容量和多样性的特点环境挑战 : 非平稳环境中的概念漂移会导致模型性能下降传统图分类方法 : 主要针对静态图,无法处理流式动态图现有图流方法 : 大多专注于异常检测,而非多类分类;缺乏有效的概念漂移处理机制特征提取 : 现有方法使用简单的图特征(如边密度、谱间隙),表达能力有限需要开发能够:
处理节点和边数量可变的动态图流 进行多类分类而非仅限于异常检测 有效检测和适应概念漂移 使用更丰富的图表示方法 提出了新的图流分类框架 : 适用于节点和边数量可变的一般图流设置,支持多类分类任务设计了基于原型的图嵌入方法 : 通过选择每个类别的代表性图作为原型,将图转换为固定维度的向量表示集成了混合式概念漂移检测机制 : 结合增量学习和基于损失的漂移检测,实现主动-被动混合适应策略提供了完整的实验验证 : 在多个基准数据集上验证了方法的有效性,并进行了详细的消融研究给定图流 D = { ( g t , y t ) } t = 1 ∞ D = \{(g_t, y_t)\}_{t=1}^{\infty} D = {( g t , y t ) } t = 1 ∞ ,其中:
g t = ( V , E ) g_t = (V, E) g t = ( V , E ) 是时间步 t t t 的属性图y t ∈ { 1 , . . . , K } y_t \in \{1, ..., K\} y t ∈ { 1 , ... , K } 是图的类别标签图可以有可变数量的节点和边 数据来自可能非平稳的概率分布 p t ( g , y ) p_t(g, y) p t ( g , y ) 目标是学习分类器 h : G → Y h: G \rightarrow Y h : G → Y ,能够:
对新到达的图进行准确分类 通过增量学习持续适应 检测并处理概念漂移 维护多个队列存储最近的图:
q = { q c } c = 1 K q = \{q_c\}_{c=1}^K q = { q c } c = 1 K q c = { g i } i = 1 L q_c = \{g_i\}_{i=1}^L q c = { g i } i = 1 L
其中 L L L 是每个类别队列的大小。
使用Centers算法为每个类别选择 R R R 个原型图:
p c = arg min g 1 ∈ q c ∑ g 2 ∈ q c δ ( g 1 , g 2 ) p_c = \arg\min_{g_1 \in q_c} \sum_{g_2 \in q_c} \delta(g_1, g_2) p c = arg min g 1 ∈ q c ∑ g 2 ∈ q c δ ( g 1 , g 2 )
其中 δ ( ⋅ , ⋅ ) \delta(\cdot, \cdot) δ ( ⋅ , ⋅ ) 是图编辑距离。
基于原型计算图嵌入:
e g = { δ ( g , p i ) } i = 1 R × K e_g = \{\delta(g, p_i)\}_{i=1}^{R \times K} e g = { δ ( g , p i ) } i = 1 R × K
将图转换为 R × K R \times K R × K 维向量。
使用神经网络分类器,成本函数为:
C = 1 L × K ∑ i = 1 L × K l ( y i , h ( e g i ) ) C = \frac{1}{L \times K} \sum_{i=1}^{L \times K} l(y_i, h(e_{g_i})) C = L × K 1 ∑ i = 1 L × K l ( y i , h ( e g i ))
分类器通过增量训练更新:h t = h t − 1 . t r a i n ( ⋅ ) h_t = h_{t-1}.train(\cdot) h t = h t − 1 . t r ain ( ⋅ )
维护两个预测准确率队列:
参考队列 q r e f q_{ref} q re f :存储历史预测分数 移动队列 q m o v q_{mov} q m o v :存储最近预测分数 使用二项分布建模,检测条件:
μ m o v ≤ μ r e f − β σ r e f \mu_{mov} \leq \mu_{ref} - \beta\sigma_{ref} μ m o v ≤ μ re f − β σ re f
其中 β \beta β 是敏感度参数。
原型选择策略 : 使用图编辑距离和中位数方法选择最具代表性的图作为原型混合漂移适应 : 结合被动增量学习和主动漂移检测,在检测到漂移时重新计算原型可变图处理 : 通过基于距离的嵌入方法处理节点和边数量可变的图损失驱动检测 : 使用预测性能而非数据分布变化来检测概念漂移Letter数据集 :包含字母"A"、"I"、"Z"的图表示 两个变体:Letter high(高扰动)、Letter med high(中-高扰动) 用于测试概念漂移适应能力 GREC数据集 :建筑和电子图纸符号的图表示 五个扰动级别 三个类别,图均匀分布 Fingerprint数据集 :指纹图像的图表示 两个类别:"arch"和"left" 来自NIST-4指纹数据库 使用几何平均值(G-mean):
G -mean = ∏ c = 1 K r c K G\text{-mean} = \sqrt[K]{\prod_{c=1}^K r_c} G -mean = K ∏ c = 1 K r c
其中 r c r_c r c 是类别 c c c 的召回率。
采用带衰减因子的预测评估方法(prequential evaluation),衰减因子设为0.99。
提出方法 : 使用原型嵌入的完整方法特征方法 : 使用边密度和谱间隙两个简单特征的基线方法图距离:图编辑距离 分类器:全连接神经网络 优化器:Adam 学习率:0.001-0.01(数据集相关) 内存大小:L = 10 L = 10 L = 10 原型数量:R = 1 R = 1 R = 1 或 R = 3 R = 3 R = 3 图内存的作用 : 使用图内存显著提升学习速度和最终性能,特别是在学习初期阶段。原型数量影响 :在无漂移或轻微漂移情况下,3个原型优于1个原型 在严重概念漂移后,较少原型数量表现更好 GREC和Fingerprint数据集上,3个原型consistently表现更好 概念漂移检测效果 :在概念漂移发生前,有无漂移检测器性能相似 漂移发生后,带漂移检测器的方法性能显著提升 验证了重新计算原型的有效性 方法比较 : 提出的基于嵌入的方法在所有数据集上都显著优于基于简单特征的方法。内存大小 : 验证了图内存对性能的关键作用原型数量 : 分析了不同原型数量在不同漂移场景下的表现漂移检测 : 证明了漂移检测机制的必要性学习曲线 : 所有方法在初期都有学习阶段,但提出方法收敛更快漂移适应 : 基于原型重计算的漂移适应策略有效表示能力 : 基于原型的嵌入比简单图特征更具表达能力主动方法 : 使用统计测试或阈值方法显式检测漂移被动方法 : 使用增量学习隐式适应漂移混合方法 : 结合主动检测和被动适应的优势传统图分类 : 主要针对静态图,方法丰富但不适用于流式场景现有图流方法 : 主要专注于异常检测,多类分类研究有限图嵌入 : 使用自编码器等方法学习图表示本文的创新在于将原型嵌入、增量学习和概念漂移检测结合,专门针对多类图流分类任务。
方法有效性 : 提出的混合方法在图流分类任务上表现优秀,特别是在存在概念漂移的场景下组件重要性 : 图内存、原型选择和漂移检测机制都对最终性能有重要贡献适应性 : 方法能够有效处理节点和边数量可变的动态图流计算复杂度 : 图编辑距离计算复杂度较高,可能限制大规模应用参数敏感性 : 漂移检测的敏感度参数需要根据任务调整标签可用性 : 假设每步都能获得真实标签,实际应用中可能不现实论文明确提出了两个重要的未来研究方向:
学习图嵌入 : 研究端到端学习图嵌入的方法,以应用于大规模图流问题有限标签学习 : 考虑无监督、半监督、主动学习等范式,以及少样本学习和数据增强技术问题重要性 : 图流分类是一个实际且重要的问题,具有广泛的应用价值方法创新性 : 将原型选择、增量学习和概念漂移检测有机结合,形成完整的解决方案实验充分性 : 进行了全面的实验验证,包括消融研究和参数分析写作清晰 : 论文结构清晰,方法描述详细,易于理解和复现数据集规模 : 使用的数据集相对较小,大规模图流的效果未知计算效率 : 图编辑距离计算复杂度高,可能成为实际应用的瓶颈理论分析 : 缺乏理论分析和收敛性保证漂移类型 : 主要考虑了突然漂移,对渐进漂移的处理效果不明确学术贡献 : 为图流分类提供了新的解决思路,填补了该领域的空白实用价值 : 方法具有实际应用潜力,特别是在基础设施监控等领域可复现性 : 提供了详细的实现细节和参数设置,有利于复现该方法特别适用于:
关键基础设施系统监控 社交网络动态分析 分子图药物发现 推荐系统中的用户行为分析 任何需要处理动态图结构且存在概念漂移的场景 论文引用了37篇相关文献,涵盖了概念漂移检测、图神经网络、增量学习等多个相关领域的重要工作,为研究提供了solid的理论基础。
总体评价 : 这是一篇在图流分类领域具有重要贡献的高质量论文。方法设计合理,实验验证充分,写作清晰,为该领域的发展提供了有价值的insights和解决方案。尽管存在一些局限性,但其创新性和实用性使其具有重要的学术和应用价值。