2021-10-31

人工智能与网络安全的联系

全文共: 2.1k字 | 阅读时长: 7分

阅读

研一上自然辩证法课程感悟作业，查了些资料写成的，不太完善，存个档吧。

在当今这个万物互联的时代，当一台设备被攻陷，影响就有可能瞬间传递到大量关联设备，带来巨量用户信息泄露与财产损失。而随着人工智能技术的崛起，越来越多的日常用品被赋予“智能化”功能，基于云端运算进行控制调动，传统的安全观已经不再适用于越来越复杂的人工智能应用场景。而针各种网络场景开展的各类攻防博弈中，AI的身影也屡见不鲜。基于机器学习的多维特征匹配技术在威胁检测方面取得了显著成果，而使用强化学习的分布式攻击策略制定也为网络安全防卫带来了巨大挑战。

1. 泛人工智能时代的安全问题

智能设备已经深入我们的生活，从智能音箱等居家设备到自动驾驶汽车等交通工具，再到智能手表等可穿戴式设备，我们衣食住行的方方面面已经离不开基于局域网互联的各式移动终端。截止到去年2020年，全球接入互联网的终端设备已经达到了120余亿台，大量基于人工智能技术的智能终端组成了庞大的物联网络。而全球互联网用户还不到40亿，不及智能设备物联网的1/3，新的庞大平台必将为包括病毒在内的各种网络攻击提供广阔土壤。

由于智能设备可以直接联系我们日常生活的物理层面，从硬件操作的角度为我们提供服务，所以信息世界（赛博空间）和真实世界（物理空间）之间的界限变得逐渐模糊。而随着各种贴身终端的广泛使用，我们工作与生活的界限变得愈发难以分清。在这种情况下，一台联网设备只要被攻破，包括银行账户信息和公民健康信息在内的各种隐私敏感信息将会暴露无遗，将会为我们带来难以估量的损失。这种事情离我们并不遥远，2016 年 10 月，一款名为 Mirai 的恶意软件侵袭了大量存在漏洞的智能摄像头、智能网关、智能家电等物联网设备，被感染后的它们瞬间变成了网络中的「肉鸡」设备。在工控领域，2010 年的 Stuxnet （震网）蠕虫病毒能够针对西门子的监控与数据采集（SCADA）系统进行攻击，并通过 U 盘和局域网进行传播。

当然，我们面对的威胁还不止于此。在智能设备普及的当下，网络泛化已经成为大趋势。换言之，内网与外网的界限已经被大大模糊了。特斯拉汽车就可以随时随地通过Wi-Fi或者3G/4G接入互联网，而在未来，无人车还将与交通控制信号系统相连。一旦一台终端车被控制，攻击者可以通过它接入交通控制内网，从而操纵现实中的交通设施，从物理层面威胁到每一个交通参与者的人身安全。由于物联网和我们之间物理联系，多种多样的终端也为攻击者带来了丰富的攻击角度，前面提到的震网病毒就是如此。2013年3月美国曾利用“震网”蠕虫病毒攻击伊朗的铀浓缩设备，已经造成伊朗核电站推迟发电。目前国内已有近500万网民、及多个行业的领军企业遭此病毒攻击。

2. AI在网络攻防博弈中大放异彩

网络攻击的检测并非十分困难，反而相对容易。举例来说，当一台服务器被多IP短时大量访问可以判断为DDos（分布式拒绝服务）攻击，大量按顺序访问不同端口可以判断为端口扫描……经验丰富的安全运维人员可以轻易作出判断。但是，随着网络规模的扩大，一台大型服务器每天会受到数以亿计的攻击，仅仅靠人工判断依据无法满足大型网络的安全需求，通过设置一些规则让机器自动判断的方法也就应运而生。

然而让电脑学会人类的经验并不容易，我们通常会将各种各样的网络事件从不同的维度提取特征，如攻击次数、目标来源等等。通过这些多维特征向量为攻击行为作出画像，再利用人工智能领域最广为人知的分类技术对它们进行识别分类，作出相应的措施。以机器学习为代表的技术被大量应用于安全防卫领域，近些年来使用深度神经网络进行分类学习的技术也取得了长足的发展，在某些事件的处理应对准确率上也已超越了人类。

技术本身是中立的，而技术的应用却具有两面性。人工智能技术在帮助安全人员解放工作、服务于人民日常生活的同时，也开始被网络攻击者作为入侵工具。正如一把剑的两面刀刃，黑客利用人工智能技术，可以更好地训练自动化脚本模拟人类行为，让现有检测技术失效。而随着大量深度学习框架的开源，训练数据的学习门槛进一步降低。只要稍加学习，很多人都可以利用现有技术生成一套用于对抗检测系统的规则，作出一些以前无法实现的攻击。

人工智能技术本身的漏洞也有可能变成攻击的切入点。这就涉及到“泛安全”的概念，即涉及安全领域不止局限于网络，而是推广为各种技术，包括人工智能本身。因为当前机器学习严重依赖于数据，如果攻击者有意干扰训练数据，生成恶意样本，会导致错误识别或无效识别。比如，在无人驾驶测试路段德国 A9 高速公路上，有专门的标识引导无人驾驶车。如果路边的标识被恶意修改，误导依赖标识的无人驾驶车，则会造成极度危险的情况。

3. 可能的出路：一些个人想法

目前人工智能模型训练与应用上存在结果难以解释的问题，即虽然分类结果很好，但分类机理无法理解，也不能说出其中各种事件之间相互的关联关系。在后续的研究中，我们可以利用机器学习和统计学相结合的大数据分析方法，对各事件的关联度进行分析，找到常见合理可解释的攻击链条。从时间和空间相结合的角度还原黑客的进攻路径，找到防卫环节的薄弱点，有针对性地进行具体布防。

当前检测算法以大量数据为支撑，要训练准确度更高、普适性更好的分类模型就需要人工标定大量的数据集。我们可以通过降低算法复杂度的方式减少对数据的依赖，在训练初始引入先验知识，引导模型向对应的方向学习，以减小算法对数据的需求。当然，迁移学习也是一种很好的思路。把一种安全场景下训练好的模型经过一定程度的修改，应用到另一种场景中去，大大提高学习成本。

总之，随着人工智能技术日益普及，我们面临的安全场景也越来越多元化、复杂化。我们必须跟紧时代，懂得变通，才能适应新问题，新领域的需要。