基于神经网络的网络空间安全监测体系研究

2020-05-11扈潇潇

网络安全技术与应用 2020年5期

◆扈潇潇

基于神经网络的网络空间安全监测体系研究

◆扈潇潇

（广东省网警总队管理监察等保科广东 510050）

随着网络攻击手段日益丰富，对网络流量的监测和分析成为网络空间安全体系的重要一环。为了更加有效地监控网络并识别网络攻击，需要采用自动化技术读取网络安全事件报告，同时自动分析结果。本文将网络空间安全监测体系划分为三个阶段，在第二阶段中，使用“词袋模型”向量化关键词，并通过神经网络技术分析事件报告，实现网络空间安全监测结果的自动化分析。试验结果表明，本方法在适当选取参数时能够以较大精确度实现对网络事件的自动化安全风险分析。

网络空间安全；监测；区块链；神经网络.

网络空间是连接各种信息技术基础设施的网络，包括互联网、各种电信网、各种计算机系统、各种关键工业设施中的嵌入式处理器和控制器，同时还涉及人与人之间相互影响的虚拟信息环境[1]。世界经济论坛《2019年全球风险报告》中指出，网络攻击已成为全球五大风险之一，WannaCry勒索软件、NotPetya恶意软件和一系列数据泄露事件表明，网络攻击可以轻易导致全球经济和社会的混乱。随着当前生产生活对网络信息系统依赖性的增强，针对网络空间的攻击事件仍将不断增多，影响范围也将更加广泛[2]。

以云计算、移动宽带、物联网、三网融合、人工智能等为代表的新技术新应用的普及推广，使得网络互联互通、信息资源共享共用的需求不断增加，由此带来的安全风险持续加大。与此同时，针对我国的网络监控和攻击力度不断增强，攻击技术不断翻新，手段层出不穷。传统上靠“打补丁”“堵漏洞”的网络安全防护，只能防住已知应对威胁的技术手段，对未知攻击基本无能为力，不能满足新形势下的网络安全需要，因此加强网络安全监测体系研究和建设，对于有效防范网络各类攻击，确保我国网络空间安全，就显得尤为重要和紧迫[3]。

1 网络空间安全监测体系研究现状

随着信息技术不断进步，大量未知的网络攻击手段层出不穷，仅靠单一的网络检测手段难以对网络空间安全进行有效监测。

为解决上述问题，国内外已经出现了一些针对性的研究成果。周诗涛[4]提出了一种三层结构的网络空间安全监测预警平台，三个层级分别为由公安机关负责的总监测中心、由各行业网络监管部门负责的分监测中心，由各信息系统数据采集点组成的监测点。王艳伟[5]结合安全事件和安全信息事件管理的特点，提出一种新的网络安全监测体系，通过定义一套开放聚合的框架和通用的数据输入、输出访问接口来完成各类流量检测引擎的快速适配和接入，实现多种检测引擎的能力聚合和统一分析。Hortonworks[6]构建了网络安全应用框架，该框架主要采用事件管理和安全信息管理方法，对网络流量进行监测和分析。the CAESAIR[7]为安全专家提供分析工具，以支持专家完成国家级的网络安全事件处理。

2 基于神经网络的网络空间安全监测体系

本文基于神经网络技术特点，提出一种新的网络空间安全监测体系架构，通过神经网络学习功能，实现能够自动发现网络攻击的高效网络安全监测能力。架构整体分为三层，如图1所示。

图1 网络空间安全监测体系架构图

2.1 网络安全事件信息收集

为了全面了解网络的整体安全状况，应从多个来源收集网络安全事件的相关信息。网络安全事件信息通常以半结构化文本的形式发布，如最新更新、事件报告、漏洞警报、通知、公告。为了实现对网络空间安全态势的全面监测，必须依托丰富数据资源和多渠道的信息。

目前，国家互联网应急中心[8]依托与运营商、域名注册商、安全服务厂商等相关部门的快速工作机制，与多个世界著名的网络安全机构和各个国家级应急组织建立的网络安全事件处理合作机制，并面向国内外用户受理网络安全事件报告，实现了及时掌握和处置突发重大网络安全事件的要求。

2.2 自动化事件分析

上述网络安全事件报告信息收集完成之后，从这些文件中获取网络威胁情报需要手动查看并确认重要信息、识别各种重要信息之间的隐性关联，估计安全风险，并提出可行应对策略。

为提升事件分析效率，提出基于神经网络的自动化分析流程。文本分析首先要进行预处理操作，即将文字转化为数学模型，之后才能进一步进行算法分析。使用“词袋模型”（bag of words）[9]作为实现事件分析过程自动化中文档处理工具，其基本原理为将文档看作是无序的关键词的集合，通过统计每个关键词在单个文档中出现的频率来对文档进行向量表示，并通过神经网络[10]实现聚类。

神经网络的输出结果是一个介于0到1之间的实数，代表对输入事件的风险判断，越接近1表示风险越高，越接近0表示风险越低。

2.3 网络安全风险汇报

读取上一阶段输出的自动化风险判断值后，技术人员需要对风险值较高的结果进行核验分析，以确定风险是否真实存在并在存在风险时提出应对措施，最终总结为安全风险报告。

图2 安全事件的自动化分析流程

3 实验

3.1 数据源

实验所使用的数据源有两大来源：一是采自公开源的网络安全威胁情报平台1004份报告；二是由技术人员手动撰写事件报告37份。数据源涉及的公开源的网络安全威胁情报平台包括微步在线、绿盟科技公司威胁情报中心、天际友盟、奇安信。上述1041份报告分为两个部分：均匀随机选择520份用于训练神经网络；均匀随机选择521份用于测试结果。

3.2 实验环境

在单台电脑上进行实验，实验电脑所使用的软、硬件配置：Intel Core i7 CPU主频3.2GHz、8G内存、win10操作系统、python 3.7.2。

3.3 实验方法

通过python语言实现自动化分析算法，并使用训练集内的520份对算法中的神经网络进行训练。由于训练集较小，为了达到充分收敛的训练效果，设置样本批量大小为20份，所有样本训练完后可以进一步打乱并重新设置批量，反复训练。

训练完成后，使用测试集内521份报告对自动化分析算法进行测试，并且人工核验测试结果是否准确。为防止过拟合现象，进一步对比训练误差和测试误差，当二者相差不超过10%时，认为结果有效。一旦发现结果无效，则重新打乱所有样本，在不改变集合大小的前提下重新随机选择测试集和训练集，并重复实验。

3.4 实验结果

为评价算法执行效果，使用拒真率和受伪率来衡量算法的效果。前者表示高风险项被判定为低风险项的概率，后者表示低风险项被判定为高风险项的概率。

定义如下记号：

令为所有测试样本集合；

拒真率定义如下：

受伪率定义为：

经过实验，在使用不同的正则因子时，拒真率和受伪率分别如表1所示。

表1 实验结果

将上述结果表示在折线图中，如图3所示。

图3 实验结果

通过实验结果可以看出，取正则因子为0.01时，拒真率和受伪率都较低，能够在一定程度上帮助用户对网络事件的安全风险进行自动化分析。

4 结束语

本文研究了神经网络技术在网络空间安全监测体系中的应用，使用“词袋模型”对安全风险事件进行向量化，并使用神经网络对网络事件报告进行聚类分析，进而输出风险评估分数。实验表明，选取正确参数时，模型能够以低至0.092的拒真率和低至0.199的受伪率实现网络安全事件报告的自动化分析，使用本模型可以在很大程度上降低网络空间安全监测体系中的人工工作量。

[1]National security presidential directive 54/homeland security presidential directive 23 （NSPD-54/HSPD-23）[EB/OL]. https://epic.org/privacy/cybersecurity/EPIC-FOIA-NSPD54.pdf.

[2]瑞星2019年中国网络安全报告与趋势展望[J].信息安全研究，2020，6（02）：98-107.

[3]董超.网络安全2.0的发展思路和理念探索——基于网络安全监测预警服务体系的研究与开发[J].信息安全与通信保密，2015.

[4]周诗涛. 网络安全监测预警通报机制建设思路探讨[C]. 2018第七届全国安全等级保护技术大会论文集.2018.

[5]王艳伟，邬江，罗赟骞，史春见. 一种基于开放聚合框架的网络流量安全监测体系设计[J]. 微型机与应用，2018.

[6]Hortonworks. Mirror of Apache Metron[EB/OL]. https://github.com/apache/metron.

[7]Austrian Institute of Technology，“CAESAIR，” [EB/OL]. https://service.ait.ac.at/pydio/data/public/971d1f.

[8]国家互联网应急中心发布《2018年我国互联网网络安全态势综述》[J].网信军民融合，2019.

[9]丁凯. 基于空间结构与量化关系的优化视觉词袋模型研究[D].安徽：合肥工业大学，2017.

[10]道辉，李洪升，张亮，刘如意，沈沛意，苗启广.轻量级神经网络架构综述[J].软件学报，2019.