2022-06-18

GAC：基于图的警报相关性检测分布式多步攻击

全文共: 3.9k字 | 阅读时长: 13分

阅读

文章导航

SIGAPP 2018 基于图的警报相关性检测分布式多步攻击

GAC：基于图的警报相关性检测分布式多步攻击

——by Zehua Ren

ACM2018 SIGAPP SAC '18: Proceedings of the 33rd Annual ACM Symposium on Applied Computing

ACM2019 SIGAPP APPLIED COMPUTING REVIEW

[toc]

概述

问题：大多数传统的 IDS 在关联具有不同来源的警报方面存在不足，因此许多分布式攻击仍然完全未被注意到。

贡献：提出了基于图的警报关联 (GAC)，这是一种新颖的关联算法，可以隔离攻击、识别攻击场景并从庞大的警报集中组装多阶段攻击。

优势：对误报具有鲁棒性，可以检测分布式攻击，并且随着警报数量的增加而扩展。

GAC算法简述

——基于图的警报关联算法

通过将警报相互关联以获得更大的攻击图来简化IDS监测任务。常见的方法是根据相似的属性对警报进行分组，例如源 IP 和目标 IP，并报告常见的属性模式。

方法：GAC，一种新颖的基于图形的警报相关方法，可用于检测通用（分布式）攻击，例如 DDoS、端口扫描和蠕虫传播。（三个流程）

根据特定警报属性之间的相似性对警报进行聚类（每个集群都包含可能属同一攻击或单个攻击步骤的所有警报——原子模式）；
识别每个集群内主机之间的通信模式（一对一、一对多……——拓扑特征）；
当输入警报集中存在多步攻击时，单个攻击步骤的集群会根据集群内的通信模式相互连接（——分子模式）。

警报仅包含源和目标 IP 地址以及端口号。这降低了警报关联的复杂性并增加了对不同传感器的兼容性。额外的知识是从警报本身中挖掘出来的。

有效的功能：分离警报（准确性良好）——识别警报集群（考虑不确定性）。 75% 的集群，GAC 能以 ≥ 90% 的高确定性识别它们各自的场景

其他相关工作

告警关联大致分为三类：以集群为中心、以互连为中心、以流程为中心

以集群为中心：聚合属于同一攻击的警报
以互连为中心：主要检测多步攻击。关联的重点是不同攻击步骤的警报之间的互连。
以流程为中心：所有三个流程块都用于警报关联。算法包括用于单步和多步检测的复杂技术。

没有任何以流程为中心的相关工作，在无额外知识的情况下从集群中挖掘特征。

期刊中的相关工作对比表格：

基于图形的警报关联算法（GAC）

符号说明

告警由一个固定的属性向量组成，例如源和目标地址以及源和目标端口。

攻击引发一组真正的积极警报，所有诱导警报集的集合由 $，，，$ 给出。

多步攻击$ j $将产生一个子集$ M_j ⊆ S$。所有多步攻击的集合是。

警报关联的任务是分析警报集，并根据单步和多步攻击和对其警报进行分组，而无需了解基本事实。

GAC步骤总述（3步）

如上所述，三步：警报聚类、上下文补充和攻击互联。

警报聚类：将警报聚类到相应的警报群集。——子图划分

首先将警报集 A 转换为反映警报之间属性相似性的**告警相似度图$ G_{attr} $。之后应用基于图的聚类算法将所有警报聚类到子集中，作为攻击步骤的候选。用$ C $逼近$ S$，其中分两步
- 警报过滤：识别警报中的重复项和误报
- 攻击提取：聚类属于同一攻击的警报
上下文补充：为每个集群分配一个标签来补充每个攻击步骤的附加含义。——标定

每个告警集群转换为一个告警流图

并不使用预定义知识（专家经验等），而是直接从警报信息和警报集群中挖掘特征。描述了每个集群内攻击者和受害者之间的恶意通信关系，以识别攻击场景。
攻击互联：将$ C $中表示单步攻击步骤的集群相互连接到多步攻击$ M$。——关联

所有具有相应标签的集群 $C_i $转换为单个攻击相似度图$ G_{cover}$**，以搜索集群之间的重叠 IP 地址。

对于任何两个共享 IP 地址的集群，标签用于派生标签描述多步攻击的类型。

期刊中的整体流程示例图：

第一步：告警聚类

将警报表示为图中的节点，并在相似警报之间添加边。——和超图很像

这就能够搜索具有相似属性的警报，然后在这些图中对警报进行聚类。

将告警建模为图

将警报集转换为加权警报相似度图，其中警报作为节点。在两个警报 $a_1, a_2 ∈ A $之间的边$ (a_1, a_2) ∈ E $使用相似度$ s = F_{sim} (a_1, a_2) ∈ [0, 1] $加权。比较所有 $n $个属性$ (a_0...a_{n −1})$ 。如下：特定属性的比较函数 $h_j $得到一个$ [0,1] $的值，$ c_j $为权值。两个警报的相似度等于或高于最小相似度阈值$ τ$才算边。为了选择合适的阈值 τ ，可以计算攻击警报之间的预期相似度。

只考虑IP、端口，此处选用最简单的相同不同，均分。
在图上对告警进行聚类

无关告警之间也可能有边，所以需要即识别中的子图——社群发现

作者使用CPM算法（Clique Percolation Method派系过滤），它允许将一个节点分配给多个社区，可以反映聚类中的不确定性。

该算法认为社区是具有共享节点的全连通子图集合，并通过一种团过滤算法来识别网络中的社区结构。算法首先搜索所有具有k个节点的完全子图，而后建立以k-clique为节点的新图，在该图中如果两个k-clique有(k-1)个公共节点则在新图中为代表他们的节点间建立一条边。最终在新图中，每个连通子图即为一个社团。百度百科

第二步：上下文补充

这一步目标是描述每个集群的攻击场景。

中节点相互连接良好。因此，这种图结构不适合识别攻击场景。对识别出的集群，建立一个不太密集的警报流图，节点是集群中所有源和目标 IP 地址的集合。如果存在警报，源节点作为攻击 IP，目的点作为目标 IP，则图中两个节点之间存在边。边的方向表明谁攻击了谁。

使用中的节点度数识别攻击场景。在分布式攻击场景和多步攻击中，节点可以同时成为攻击者和受害者，即考虑有向带环图和攻击链。给出了四种攻击场景：

一对一（OtO）：其他场景的特例。
一对多（OtM）：例如扫描子网。特征是相同的攻击源 IP。
多对一（MtO）：例如 DDoS 攻击。攻击特定服务时，所有相关警报可能具有相同的目标 IP 和端口。
多对多（MtM）：例如蠕虫传播。由于蠕虫通过特定应用程序进行传播，因此警报将有相同的目标端口。

设置了四个指标$ δ_{OtO} $、$ δ_{OtM} $、$ δ_{MtO} $、$ δ_{MtM}$ 值在区间，分别表示与这四种类型的匹配程度，1为完全匹配，0为完全不匹配。各个场景完全匹配（）或仅部分匹配（）之间存在线性关系。

所有节点个数，攻击（源）节点个数，受害（目的）节点个数。

最终根据确定最大相似（最匹配的标签）

第三步：攻击互联

由第一步生成的两个警报集群 $，$ 近似真实单步攻击（原子模式） $，$ ，进而关联出多步攻击。所有识别出的集群都被转换成一个有向标记图，我们称之为攻击相似度图。如果两个集群属于同一个多步攻击，则中存在一条边。

两个集群的标签为攻击者和目标派生标签 Many 或 One

例如，当集群标记为 OtM 时，攻击 IP 集标记为 One，目标 IP 集标记为 Many。
比较来自两个集群的攻击者集 (simAA)、来自两个集群的目标集 (simTT)、Ci 的攻击者集与 Cj 的目标集 (simAT) 以及 Cj 的攻击者集使用 Ci (simTA) 的目标集。共四个相似度定义。

同种标签（都为One或都为Many）使用Jaccard系数

不同标签（一个One一个Many）使用重叠系数，X 是标记为 One 的集合，Y 是标记为 Many 的集合。
取其最大值。如果 sim 超过预定义的阈值，则将带有标签 sim 的边添加到。遍历所有告警集合建立攻击关联图——多步告警识别。

实验简述

人工生成的有ground truth数据

——生成输入以分析算法设计的有效性，由于是做告警关联而不是入侵检测，所以此方法是有效的。

根据表一生成告警数据：对于同一攻击的所有警报，哪些 IP 和端口是相同的，哪些可能不同并且可以随机确定。使用完整的 IP（0.0.0.0 到 255.255.255.255）和端口范围（0 到 65535）

在水平扫描 (OtM) 中，一个源针对同一目标端口上的多个主机。在 DDoS 攻击 (MtO) 中，多个源针对来自任意源端口的相同 IP 和端口组合。在蠕虫 (MtM) 传播中，每个主机以固定目标端口上的其他主机子集为目标。

通过IP映射合并多个系统，通过模糊参数模糊警报数据，生成误报和孤立告警。添加了个新主机和个新警报

相似度图中警报聚类性能评估

对于告警相似度图，选择（由表1知这是保持关联的最小值），研究了决定最小社区规模的集团规模参数 k：k 不应大于来自最小攻击的警报数，即。

我们将自己的方法与一种类似的方法进行比较，我们称之为面向属性的归纳 (AoI)。AoI 是一种在一组警报中查找属性模式以建立最小大小为 k 的集群的有效算法，类似于采用社区聚类并形成至少大小为 k 的集团的 GAC。

Klaus Julisch. 2003. Clustering intrusion detection alarms to support root cause analysis. ACM Transactions on Information and System Security (TISSEC) (2003).

评价指标：标准度量准确度

告警过滤：ground truth detected attacks准确性用于评估 DA 建模 GT 的性能。（使用）
攻击检测：准确性评估 C 建模 S 的性能。将比较分解为单独的 C 和 S 对，找出哪个原始攻击 Ci ∈ C 模型最能提醒集群 Sj ∈ S。为每个可能的组合计算准确度 ACC，并在每个攻击和集群只能映射一次的约束下推导出 Ci ∈ C 和 Sj ∈ S 之间的映射。使用贪心算法，最多只有一个未映射，定义它的相似度为0。总准确度分别是所有映射和未映射攻击或集群的平均准确度。

来自单一攻击的警报集群：

社区聚类的优势在于，即使 k 远低于最小攻击，它也可能有效。但是，k 必须足够高以过滤噪声并拆分松散耦合攻击的警报。

来自重叠攻击的警报集群：

（1）GAC 比 AoI 实现了更高的准确度，（2）聚类参数 k 允许在很宽的参数范围内实现这些高精度。

警报流图上的场景识别

在人为创建的攻击的基础上评估攻击场景识别的鲁棒性，在这些攻击上我们应用模糊来模拟聚类中的误报。

GAC 中的场景识别可以完全容忍误报，即在一定程度上仍能达到 100% 的准确率。时，可以达到真阳性100%，假阳性0%。

用随机的 β ∈ [0, 1] 模糊这三种攻击，并用不同的 β 重复 10000 次。在所有重复中，平均准确率（即正确分类的比例）为 80%。

即使在最坏的情况下，大多数攻击也可以正确分类。此外，仅在具有高度不确定性的情况下才会出现误报。

真实告警数据

DShield数据集：SANS 互联网风暴中心在全球范围内运行一个基于社区的协作式互联网威胁监控系统。收集来自各种贡献者的网络事件日志，即警报。 DShield 中的每个警报都包含源和目标的 IP 和端口等。目的IP信息经过hash。

警报关联算法在有限的警报集上执行，而不是在警报流上执行。因此，我们将 24 小时的数据集分成多个块，每个块都是 GAC 单独处理的单独输入。每个块包含约5000个报警。 2 × 8 2.2 GHz 内核和 128 GB RAM 的系统上并行使用 16 个进程。使用此设置，每个块的处理平均需要 1 到 1.5 分钟。——太慢，太复杂。

参数配置：，。

过滤效果

结果：未分配告警比例很低，因为分布式攻击的性质会导致大量警报，而像高级持续威胁 (APT) 这样的有针对性的攻击只会导致很少的警报。集群数量和标准差很大，说明集群很多且相差各异。

场景识别

确定性因子大多数值预计在 1 和 0.75 之间。这使得识别具有很高的可信度。很少检测出多对多的蠕虫，可能是因为IP被hash的缘故。

多步攻击

在几乎所有情况下，集群间的相似性都是 1 或 < 0.5。任何两个簇的相似度都很少≥ 0.5 且 < 1

总结

GAC，一种警报关联算法，它通过基于图的方法实现了三个构建块警报聚类、上下文补充和攻击互连。社区聚类参数 k 适用于广泛的值，特别是对于来自分布式攻击的聚类警报。分布式多步攻击方面，优于 Julisch提出的高效且强大的关联算法 Attribute-oriented Induction（AoI面向属性归纳法）。

真实攻击的互连仅产生主机之间具有高度相似性的对的一小部分。两次攻击之间的大多数相似性都很低，因此很可能表明攻击不相关。

未来计划为聚类参数 k 开发（半）自动化方法。研究如何实现不同 GAC 实例输出的相关性（不同切片的相关），适用于协作和高度分布式 IDS 中的警报关联。