IDS数据集调研论文

  |  

文章导航

基于网络的入侵检测数据集综述

基于网络的入侵检测数据集综述(A survey of network-based intrusion detection data sets )

——by Zehua Ren

2019 Computers & Security CCF B

参考CSDN帖子:文献翻译

作者团队建立的网站:数据集存储网站(需要代理)

[TOC]

概述

本文确定了 15 种不同的属性来评估单个数据集对特定评估场景的适用性。这些属性涵盖了广泛的标准,并分为五个类别,例如数据量或记录环境,以提供结构化搜索。基于这些属性,给出了现有数据集的全面概述。该概述还强调了每个数据集的特点。

本文是一个详尽的文献综述,基于网络的数据集和分析,哪些数据集满足哪些数据集属性。本文重点研究了数据集内的攻击场景,并强调了数据集之间的关系

数据采集分类

通常,以基于数据包或基于数据流的格式捕获网络流量。捕获数据包级别的网络流量通常通过镜像网络设备上的端口来完成。基于数据包的数据包含完整的有效载荷信息。基于流的数据更聚合,通常只包含来自网络连接的元数据。

——我们S6000系统的数据大部分是基于数据流量的,包含了源、目的、端口、协议等信息,无载荷信息。仅有少部分包含了有效载荷,这可能与使用的不同IDS设备有关。

少部分包含

基于数据包的方式

通常以pcap格式捕获,并包含有效负载

主要协议:TCP, UDP, ICMP和IP

基于数据流的方式

主要包含关于网络连接的元信息,无负载信息

定义五元组:源IP地址、源端口、目的IP地址、目的端口和传输协议。

完整属性:1 首次出现日期 2 持续时间 3 传输协议 4 源 IP 地址 5 源端口 6 目标 IP 地址 7 目标端口 8 传输字节数 9 传输数据包数 10 TCP 标志

——分为单向流和双向流,我们的数据属于双向流,包含方向。但是没有每秒字节数、每个数据包的字节数、第一个数据包的 TCP 标志、有效负载熵等信息,需要在全流量里面才能看到。

其他方式获得的数据

主机的日志文件、配置信息、登录记录等等。典型的是KDD CUP 1999。这一类别的每个数据集都有自己的一组属性。

——这种场景和我们下一步要做的比较像,加入配置日志信息后的全面分析,也更复杂。目前研究告警聚类划分暂时用不到。

数据集属性

一般概念:FAIR定义了学术数据应该实现的四个原则,即可发现性、可访问性、互操作性和可重用性。不同的数据集强调不同的属性,本文试图统一和概括文献中使用的属性。

文章将讨论的数据集属性分为五类

1. 一般信息

创建年份、公开可用性、正常用户行为攻击流量

正常用户行为的存在对于评估IDS是必不可少的。然而,正常用户行为的缺失并不意味着数据集不可用,而是表明它必须与其他数据集或现实世界的网络流量合并。这样的合并步骤通常称为叠加或撒盐

对于我们来说这几个属性都很重要,尽量选年份近一些的更贴近现实,保证可用。最重要的是有明确标注正常行为和攻击行为的ground truth。

2. 数据性质

元数据、格式、匿名性

这些也需要纳入考虑,选择符合我们研究场景的,或者其他场景可用测试算法可用性的。

3. 数据量

数据集大小、持续时间(应当较长以获取周期性特征)

大部分数据集都可以满足,需要考虑数据集规模,有时候需要按需求截断使用。

4. 记录环境

流量种类(真实的、模拟的或合成的)、网络类型(局域网、广域网)、网络完整性(是否包含来自一个包含多个主机、路由器等的网络环境的完整网络流量)

需要根据实际情况进行选择,最好是真实或者模拟数据,包含完整的网络流量。

5. 评估

预定义子集(是否带有用于训练和评估的预定义子集)、均衡性(数据集相对于它们的类标签是否平衡)、有无标签(yes有, yes with BG. -yes with background有但有噪声,yes (IDS)IDS生成的, indirect不一定有, and no没有)

数据集

数据集属性 Labeled-有无标签 和 Format-格式 是最具决定性的属性。

初步筛选预计可用数据集(部分之前调研过,部分待调研)

这些数据集主要包含攻击类型:DoS、端口扫描(ping-scan、SYN-Scan、Nmap 执行)、SSH 暴力破解、漏洞利用、模糊测试、通用、侦察、shellcode、垃圾邮件、蠕虫等等,包含各个方面

一些数据集的派生关系

其他数据源

作者还给了其他在线数据仓库和流量生成器,有待进一步研究,此处暂略

评估建议

一些关于选择更好数据集的建议(建议阅读原文)

本站总访问量 您是第位访客