APP下载

基于网络的异常流量监测算法研究

2022-03-23杨林侯俊科

网络安全技术与应用 2022年2期
关键词:百分比次数优化

◆杨林 侯俊科

基于网络的异常流量监测算法研究

◆杨林 侯俊科

(山东省淄博第一中学 山东 255000)

网络异常流量入侵检测系统是当今网络安全技术的重要研究领域。传统的网络异常流量监测技术要求获取大量训练样本来进行机器学习,从而提高该系统检测的准确性,但在现实的网络环境中进行大量训练数据的获取是比较困难的。由于SVM传统算法的效率和检测率还需要进一步的提升,本文在测试由传统SVM算法完成的入侵检测的基础上,进一步寻找优化SVM算法的方法进行网络流量异常检测。本研究采用的优化方法是将选取的异常检测的特征参数进行进一步的选择,在处理参数的时候使用到了网格搜索与交叉验证相结合的方法,使得检测成功率有了明显的提升。

入侵检测;支持向量机;网格搜索;交叉验证

随着互联网的不断发展,网络安全这一问题得到了世界各国广泛的重视,通过进一步加强网络安全和信息管理来维护互联网安全,通过监测、预警等方式来预防网络攻击的进行,在当今网络安全技术领域,入侵检测技术在其中起着相当重要的作用。传统的入侵检测系统的实现最大的困难之一是需要用于计算的数据样本数量太大,相关技术所选择的特征比较单一,网络异常流量检测的能力受到限制,从而导致系统检测出异常情况的效率降低,以及其判断的精确度降低之类的问题。对于目前而言,如何进一步在传统入侵检测系统上进行优化是一个比较值得研究的课题。

1 实验数据集

本实验使用的数据集是DARPA(Defense Advanced Research Projects Agency)为1999年KDD(Knowledge Discovery and data Mining,知识发现与数据挖掘)竞赛建立的入侵检测系统评估基准数据集,即KDD CUP1999,简称KDD99。许多研究人员利用这组数据验证了入侵检测算法的性能。数据集是从模拟局域网中收集的9周网络连接数据。它分为训练数据集和测试数据集,攻击类型分为4类,再细分为39类。每个类表示一个攻击类型,类型名称被标记为训练数据集中每一行的最后一项。入侵行为主要有4种类型:拒绝服务(DoS)、探查(Probe)、远程到本地访问(R2L)、User to Root(U2R)。在上述攻击中,Flooding类型的DoS攻击,高强度的端口扫描和漏洞扫描都会导致网络流量特征的变化。解析后使用共计8000条数据进行实验,从中选取6400条作为训练数据,其中391条为“异常”数据。正常数据为1,异常数据标记为-1。KDD99数据集中的每个记录都含有41个特征值,如加上最后的标志(label),一共有42项,分别属于4类特征集。具体类型如表1所示。

表1 数据集的特征值

编号名称 说明类型 TCP 连接基本特征 1duration 连接持续时间连续类型 2protocol_type 协议类型离散类型 3service 目标主机的网络服务类型离散类型 4flag 连接状态离散类型 5src_bytes 从源到目标主机的数据字节数连续类型 6dst_bytes 从目标到源主机的数据字节数连续类型 7land 判断是否为同一主机/端口离散类型 8wrong_fragment 分段错误数量连续类型 9urgent 加急包数量连续类型 TCP 连接的内容特征 10hot 访问系统敏感文件和目录的次数连续类型 11num_failed_logins 尝试登录失败的次数连续类型 12logged_in 判断是否登录成功离散类型 13num_compromised compromised条件出现的次数连续类型 14root_shell 获得超级用户权限的次数连续类型 15su_attempted 判断是否出现“su root”命令离散类型 16num_root root用户访问次数连续类型 17num_file_creations 文件创建操作次数连续类型 18num_shells 使用shells的次数连续类型 19num_access_files 访问控制文件的次数连续类型 20num_outbound_cmds 一个FTP 会话中下载命令的数量连续类型 21is_hot_login 判断登录是否是“hot”列表离散类型 22is_guest_login 判断登录是否为guest离散类型 基于时间的网络流量统计特征 23count 连接次数连续类型 25serror_rate 出现SYN错误连接百分比连续类型 27rerror_rate 出现REJ错误连接百分比连续类型 29same_srv_rate 与当前连接具有相同服务的连接百分比连续类型 30diff_srv_rate 与当前连接具有不同服务的连接百分比连续类型 24srv_count 连接类型连续类型 26srv_serror_rate 出现SYN错误连接百分比连续类型 28srv_rerror_rate 出现REJ错误连接的百分比连续类型 31srv_diff_host_rate 与当前连接具有不同主机的连接百分比连续类型 基于主机的网络流量统计特征 32dst_host_count 连接数连续类型 33dst_host_srv_count 相同服务的连接数连续类型 34dst_host_same_srv_rate 相同服务的连接所占的百分比连续类型 35dst_host_diff_srv_rate 不同服务的连接所占的百分比连续类型 36dst_host_same_src_port_rate 相同源端口的连接所占的百分比连续类型 37dst_host_srv_diff_host_rate 当前连接具有不同源主机的连接所占的百分比连续类型 38dst_host_serror_rate 出现 SYN 错误的连接所占的百分比连续类型 39dst_host_srv_serror_rate 出现 SYN 错误的连接所占的百分比连续类型 40dst_host_rerror_rate 出现REJ错误的连接所占的百分比连续类型 41dst_host_srv_rerror_rate 出现REJ错误的连接所占的百分比连续类型


2 技术环境介绍

(1)开发环境

系统开发环境如表2所示。

表2 系统开发环境

分类名称版本语种 操作系统Windows10简体中文 开发平台MatlabR2014a中文

(2)运行环境

硬件环境如表3所示。

表3 硬件环境

名称最低配置推荐配置 处理器Intel Pentium 3.0GHzIntel Core i3 3.0GHz或以上 内存512M1G或以上

软件环境如表4所示。

表4 软件环境

分类名称版本语种 操作系统Windows10简体中文 算法测试平台MatlabR2014a中文

(3)使用工具包

LibSVM是用于支持向量分类(C-SVC,nu-SVC),回归(epsilon-SVR,nu-SVR)和分布估计的集成工具包。

3 实验结果和对比

(1)传统SVM算法的实验结果

运用MATLAB进行算法测试生成的图像如图1所示。

(2)优化后SVM算法的实验结果

超参选择的结果图如图2、3所示。

测试集和预测集算法预测结果如图4所示。

传统SVM算法与基于网格搜索的SVM参数优化进行对比,测试数据如表5所示。

表5 传统与优化算法实验对比

训练参数预测结果 训练样本优化与否准确率误报警率测试时间 1000Y96.748%0.107%32.082s N95.201%0.208%13.461s 5000Y98.405%0.027%22.434s N97.233%0.088%17.080s

可以看出:

(1)随着训练样本数的提升,基于该训练集的分类的准确率也相应提高。

(2)经过参数优化,准确率有了提高。

(3)基于网格搜索的参数寻优分类效果比传统的SVM效果好。

图1 测试结果图

图2 SVC参数选择结果图(3D视图)

4 结语

本文主要针对实验使用数据集的类型进行描述,介绍实验的相关环境(软件环境、硬件环境、使用工具包),通过对比实验,验证该课题的可实现性。主要针对传统SVM算法不同参数的设置、以及算法优化前后数据的对比进行对比和分析,对该算法的优缺点进行总结和整理。本文的主要内容是对网络异常流量检测系统进行设计与实现,通过选择SVM算法作为入侵检测系统的算法基础,分析SVM算法的相关特性,并按照系统需求进行算法设计。在这个的基础上,又针对SVM算法的缺点进行优化,采用网格搜索和交叉验证结合的方法进行优化,并完成了相关实验。基于支持向量机的网络异常检测法不仅有效地检测各种高强度扫描行为,还具有较低的误警报率,本文中选择的特征参数表示其能够有效地检测出因网络攻击而引起的异常业务变化,基于支持向量机的检测方法表明,其具有优秀的通用能力,能够更好地检测出训练中没有出现的新攻击,增加了对于网络安全的保障。

图3 SVC参数选择结果图(等高线图)

图4 基于网格搜索法优化的SVM算法预测结果

[1]R.-E. Fan,P.-H. Chen,and C.-J. Lin. Working set selection using second order information for training SVM[J]. Journal of Machine Learning Research 6,1889-1918,2005.

[2]http://www.cac.gov.cn/2018-04/25/c_1122741894.htm.

[3]段丹青,陈松乔,杨卫平. 基于SVM主动学习算法的网络入侵检测系统[J]. 计算机工程与科学,2006,28(4):33-36.

[4]苏志同,刘芳正. 基于改进 SVM 主动学习的网络入侵检测磁[J]. 计算机与数字工程,2016,44(9).

[5]赵春兰. 基于改进SVM的网络入侵检测算法研究[D]. 西安科技大学,2012.

猜你喜欢

百分比次数优化
超限高层建筑结构设计与优化思考
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
民用建筑防烟排烟设计优化探讨
关于优化消防安全告知承诺的一些思考
一道优化题的几何解法
俄罗斯是全球阅兵次数最多的国家吗?
普通照明用自镇流LED灯闪烁百分比测量不确定度分析
探索性作战仿真实验重复次数控制研究
趋势攻略之趋势线:百分比线
环保车型最多的美国城市