2022-07-17

告警聚类算法框架

全文共: 1.6k字 | 阅读时长: 5分

阅读

文章导航

科研笔记：告警聚类算法框架

告警聚类算法框架

IDS告警聚类算法的一种模型框架。

1. 问题背景

对于IDS系统中每天会产生大量告警，如果一条一条处理会非常复杂，超过人工能力。我们需要把这些告警进行归并和关联分析，找到常见的模式进行批量处理。——告警聚类就是对告警进行归并的过程，是整个工作的基础。

告警由一个固定的属性向量组成。
在我们的场景中为：源目的IP、端口、告警厂商、告警类型、源目的设备类型、攻击结果、威胁程度等。
真实的攻击或业务行为引发一组告警，所有关联告警集合由 $，，，$ 给出。

这些由同一种原因引起的系列告警，具有如下特征：
1. 告警属性特征相同或大部分相似（同源、同目的、同类型、同威胁程度、同设备类型等）。
2. 构成简单，一般为单中心型，或者是典型二分图，源和目的设备类型相同。
3. 具有原子性、不可再分性，仅涉及入侵过程的一步。
对于上一步得到的原子集群的集合，与多步攻击相关的多个原子集群是的子集，所有多步攻击的集合是。
告警聚类就是在中使用各种方法，得到一个告警聚类，使得尽可能地接近。

2. 评估指标

对于不同聚类算法得到的结果，符合我们要求的，更接近本身的原子集群集合的应该满足：

1. 告警角度

每个集群中大部分告警特征相似。

告警的轮廓系数：（与原子集群集合区分）：向量到同一簇内其他点不相似程度的平均值。：向量到其他簇节点的平均不相似程度的最小值。：两条告警和的不相似程度，使用汉明距离来衡量，根据需要，不看具体IP值，而是综合考察厂商、类型、IP属性、攻击结果、威胁程度。这里使用归一化的轮廓系数，使其区间范围同下面几个指标一致，为：每个集群内告警的相似程度使用集群平均轮廓系数来衡量：（Silhouette）对聚类结果的轮廓系数使用总平均轮廓系数来衡量：越接近1说明聚类后集群内告警越相似集群间告警越不相似、越接近0说明集群内告警越不相似。

2. 拓扑角度

大部分集群都是单中心型或简单型（一对一）。

——因为多中心型可以看作多个单中心型的复合，所以单中心型更具备原子性。

借用GAC论文中对集群告警流图拓扑类型线性化指标：其中是集群中所有节点，是集群中所有源节点（origin），是集群中所有目的节点。

是简单型，是单中心发散型，是单中心汇聚型。

这三个指标哪个最大（最接近于1），就说明集群更倾向于哪个拓扑分类。其中不用计算，如果集群内只有一条告警，那么一定就是

每个告警集群的原子性指标为：对聚类结果的总原子性指标为每个告警集群拓扑原子性指标的平均值：越接近1说明聚类得到的集群原子性越好，越接近0说明原子性越差。

二分性很好：告警链很少（既是源也是目的的设备很少）。

定义聚类结果的二分性指标：（Bipartite）其中是集群中所以节点，是集群中所有源节点（origin），是集群中所有目的节点。

越接近1说明聚类得到的集群二分性越好，越接近0说明二分性越差。

3. 设备角度

大部分集群中涉及的源和目的设备类型种类单一：如源节点都是外部IP、目的节点都是内部设备出口。

根据基尼不纯度的定义：其中F是待求集合，是中第类出现的频率。可以看到，越接近1，不纯度越高。区间范围为。

我们的需求是节点种类越单一越好，所以需要反其道而行之，定义集合基尼纯度：可以看到，越接近1，纯度越高。区间范围为。

定义集群的所有源节点为，所有目的节点为，设备种类为共n种。

总设备纯度：越接近1说明聚类得到的集群设备纯度越高，越接近0说明设备纯度越低。区间范围为。

4. 总性能指标

上面几个小节总共从三个方面给出了衡量聚类效果的四种指标，分别是：

总平均轮廓系数：、总原子性指标：、总二分性指标：、总设备纯度：。

他们的区间都被归一化为，避免在优化时小数被大数淹没的情况。

这几个指标分别用来刻画：集群内告警属性相似度、集群拓扑原子属性、集群二分属性、集群中设备纯度。

所以总性能指标为：

3. 优化模型

结合上一节内容，我们给出IDS告警聚类算法的一种优化框架：

在对告警集合的所有划分集族中，找到一个划分，使得总性能指标取到最大值。

是集群中所有节点，是集群中所有源节点（origin），是集群中所有目的节点。

同时，考虑到在此定义下，每条告警是一个集群的方法总指标最优，这显然是不合理的，所以需要加入限制条件使得至少有两个以上告警被归并到同一个簇中：所以，总优化模型描述如下：其中

为了松弛约束，可以定义聚类率：越接近1说明聚类得到的集群聚类率越高，告警削减效果越好，越接近0说明聚类率越低，告警削减效果越差。区间范围为。

松弛后的优化模型为：