APP下载

数据挖掘技术在计算机网络病毒防御中的应用分析

2015-03-21栾志福

赤峰学院学报·自然科学版 2015年15期
关键词:数据源数据挖掘预处理

栾志福

(潍坊科技学院,山东 潍坊 262700)

在当前计算机网络实际应用过程中,网络病毒已经成为人们正常使用计算机网络的一个重要问题.在运用计算机网络过程中,应当选择科学有效技术对计算机网络病毒进行防御,防止其对计算机网络造成威胁以及破坏.数据挖掘技术运用在网络防御方面起到十分重要作用,使计算机网络安全性得到大大提高,从而使计算机网络得到更好应用[1].

1 计算机网路病毒及数据挖掘技术

1.1 计算机网络病毒的特点

第一,病毒传播方式较广泛且扩散较快.网络病毒与网络之间是紧密结合的,计算机病毒利用多种途径对计算机网络蓄意进行破坏以及入侵,对其计算机网络病毒,其重要传播方式主要包括不良网页、系统漏洞以及电子邮件.

第二,网络病毒具有较强的破坏性.一般情况下,我们所了解的网络病毒均是依赖其他相关技术得以存在的,像黑客技术与木马技术等等,这类型病毒具备十分强烈的破坏力.该类类病毒所表现出特点往往为混合型,网络运行环境中要发现是十分困难的.此类病毒极有可能导致计算机内部储存的重要信息非法外泄,丢失重要数据甚至造成计算机系统瘫痪等恶劣后果,会在极大程度上破坏计算机网络的稳定性与安全性.

第三,病毒有很多种类,并且在变化方面比较快.对于目前网络病毒,大部分都很容易进行制作与生产,很多病毒的编写借助的是高级程序,其他人若想重新编写或者修改病毒非常容易,仅需要变换几个简单指令就能制造出许多新的病毒来,在种类上网络病毒包含比较多,并且存在不确定性.

第四,病毒具有针对性.随着现代网络技术不断发展计算机病毒生产目的也发生变化,对于传统网络病毒来说,无非就是病毒设计者想要表现自身具有较高的程序编写技术,从另一层面来讲,实质上体现的是个体心理扭曲对社会造成的负面影响.但随着我国市场经济以及社会的不断发展与进步,病毒制造也不再仅仅为了展示个人所具备的较高编程能力,而具有更大的攻击性,开始朝着商业盈利方向转变,个体病毒程序编写员企图通过病毒入侵获取非法利益.

1.2 数据挖掘技术

数据挖掘技术,顾名思义,指的就是运用数据分类、聚类以及分析方式,找出病毒数据之间存在的具体规律的这样一种病毒防御技术.综上所述,数据挖掘技术主要包括三个方面:准备数据、寻找规律以及表示规律[2].确定了数据挖掘模式之后,相关挖掘引擎便能够在知识库要求的依据上进行分析前期所收集到的数据,而后进行详细分类,并从中找出数据之间所存在的特定规律,为后勤数据的分析提供依据.数据挖掘技术的重点内容便是预处理数据.预处理数据工作是数据挖掘的基础阶段,其处理效果直接影响后期数据分析的成效.预处理数据主要由链接数据、数据净化、变量整合以及格式转换等构成.数据挖掘步骤的整个过程十分复杂且繁复,不仅含有大量的规划以及准备工作,同时还严格要求操作步骤.

1.3 网络病毒攻击及数据挖掘技术关系

对于计算机网络病毒而言,其先感染主机,然后传播并扩散病毒,在这一整个过程中,病毒首先应向用户操作系统入侵,然后扫描用户信息及用户网络中所存在其它用户信息,然后进行破坏、窃取信息以及将其他用户感染等一些操作.所存在这些异常行为能够为应用数据挖掘技术提供支持.通过数据挖掘技术能够抓取并分析网络过程中数据,从而依据分析结果,对网络中所存在异常问题及问题引发原因进行确定,从而帮助用户选择适当策略进行安全防护,对病毒进行阻止或者将其消除.

2 在计算机网络病毒防御中应用数据挖掘技术可行性

为能够使应用数据挖掘技术更好实现,应当进一步分析并了解网络病毒传播过程,从而将相关依据提供给数据挖掘技术的应用.比如计算机受到蠕虫病毒感染,首先要做的工作就是扫描网络上主机,该过程在对蠕虫病毒检测方面是十分关键的,与此同时在计算机预防系统建设方面属于一个突破口.以数据挖掘技术作为基础,将网络病毒全新防御系统构建出来.通常情况下,其由以下几个部分构成:数据源模块,数据挖掘模块,决策模块,预处理模块,规则库模块以及防御模块.其工作原理为来源于网络,向本地发送数据包在数据源形成之后,通过预处理模块处理,并且记录网络信息传输病毒,并且对于今后性质相同病毒有免疫形成,一旦有非法入侵出现,便会有警报及时产生,并且将主机保护防御系统保护.

3 网络病毒防御中数据挖掘技术的应用分析

3.1 数据挖掘技术组成

在网络病毒防御中所建设数据挖掘技术主要包括五个模块,即数据源模块、数据挖掘模块、规则库模块、预处理模块以及决策模块[3].以上所述五个模块互相作用形成数据挖掘系统,并组成病毒防御系统.

第一,数据源模块.数据源模块的核心在于抓包程序.其所指的就是将利用网络将所截获的数据包输送于主机.数据源模块中有最原始的网络数据包,数据包内存在包括与某个特定数据相关的数据结构.处于数据源模块中的抓包程序接收数据包,而后将其移交给预处理模块,实现数据的预处理目的.

第二,预处理模块.预处理模块是对数据源模块工作的进一步深化.预处理模块接收到移交自数据源模块的数据后,通过对数据分析、变换以及处理,进行划分归类,使得数据在转换之后能够被识别处理.在经过预处理模块工作之后,不仅可以有效缩短挖掘数据的处理时间,同时还可以有效缩短分析数据的时间,切实提高数据的辨识度与准确性.例如借助数据包中源IP地址、目标IP地址以及端口信息等数据信息,实现对数据的整理、集合与归类处理.也即完成数据的预处理工作.

第三,规则库模块.规则库模块运用于网络病毒出现之后.规则库模块借助挖掘数据、特征识别以及聚类分析等方式来实现规则集的获取目的.如果在规则集内有此网络病毒调整属性等一些信息的详细记录,能够在挖掘指导工作中将该记录进行应用,并且能够分析网络中可能潜在病毒,实现有效防御病毒的作用.除此以外,在规则库模块中还可以运用聚类分析方法鉴别网络病毒.在已经划分好但还未标记的数据集中通常使用聚类分析方法,此方法可归纳该数据集,使其成为较多小组,而后划分出差异度最小的一组数据,不同组之间的较大数据差异度也会比较大.针对数据挖掘技术来讲,主要就是聚类分析数据.聚类分析数据不仅能够使数据挖掘规则库得到有效完善,还能够提供准确且有效数据支持而分析网络病毒特征.

第四,数据挖掘模块.数据挖掘模块是通过数据挖掘算法对数据库进行详细分析.事件库主要是由连接请求记录组成[4].在数据挖掘技术总体组成中数据挖掘模块属于比较关键的组成部分之一.详细来讲,数据挖掘模块主要包括数据挖掘算法以及事件库.运用数据挖掘算法可以收集数据组成事件库,进而分析并归纳数据,形成规则明显、特征清晰的探究结果.

第五,决策模块.决策模块运用数据挖掘形成数据库,在数据匹配的基础上密切连接规则库.在数据库之后,若有些信息与规则库之间存在较高联系,则能够表示决策模块中信息有一定病毒特征存在,有大可能感染病毒.若规则数据以及存在于结果数据库的数据无法匹配,则表明在该数据包中存在被称之为新型规则类的新型特征型病毒.那么,就有必要向规则库中引入此病毒.

3.2 数据挖掘技术下的病毒防御系统

第一,关联规则.关联规则,顾名思义,指的就是在数据库中存在一类能够被关联的知识.也即如果在数据库中存在两个或者两个以上变量的取值之间具有一定的规律,那么表明这些数据之间存在着一定的关联性.数据挖掘技术主要由因果关联、时序关联以及简单关联三种关联组成.分析以上所讲的关联就是为了找出数据库中存在的关联网,挖掘数据间存在的关系,找出数据之间的关联规则.

第二,聚类分析.聚类分析需要将获取的数据包进行分解并划分为不同组,对于每个组分类而言,其有某种或几种相似特征存在,而不同组别之间又有不同特征存在.通过聚类数据,能够及时识别数据分布中的疏密情况,使得全局分布模式得以全部呈现,使数据属性之间所存在关系得以体现.

第三,分类分析.分类分析所指的就是在预先所设定几个分类中将个体根据其类别分别纳入,分类目的就是利用各类统计方法与机器学习方法等对分类模型进行构造,在某个特定类映射数据库中数据,然后利用该分类规则分类其它数据.

第四,异类分析.异类分析也被称为孤立点分析.指的就是分析数据库中对不同点比较明显以及与其它数据偏离较为明显的数据.这里所需要分析的数据也即与常规模式偏离的数据[5].在异类分析中主要包括发现孤立点以及对孤立点进行分析,发现孤立点往往会有悖常理结果产生,在分析孤立点的过程中,发现与一般数据相比价值更高的数据的可能性会更大.

第五,序列分析.此分析方法是对数据进行动态处理的一种统计型方式.序列分析借助对随机数据序列间存在的特有规律地分析,找出于事件库中存在的病毒数据序列.

4 结语

当前社会计算机网路技术有着十分广泛的应用,在应用过程中应当对网络病毒加强注意,采取有效措施防御网络病毒,在实际应当过程中应当通过对数据挖掘技术的应用防御计算机病毒,避免计算机受到入侵而影响其正常使用,保证计算机安全以及正常运行.

〔1〕刘春娟.数据挖掘技术在计算机网络病毒防御中的应用分析[J].电子测试,2014(5).

〔2〕李智勇.数据挖掘在计算机网络病毒防御中的应用探究[J].电子测试,2014(12).

〔3〕赵松.基于数据挖掘技术的计算机网络病毒防御系统设计[J].无线互联科技,2014(8).

〔4〕吕睿.数据挖掘技术在计算机网络病毒防御中的应用分析[J].电子测试,2014(23).

〔5〕潘大胜.论数据挖掘在计算机网络病毒防御中的应用[J].西南农业大学学报(社会科学版),2012(12).

猜你喜欢

数据源数据挖掘预处理
求解奇异线性系统的右预处理MINRES 方法
探讨人工智能与数据挖掘发展趋势
Web 大数据系统数据源选择*
基于预处理MUSIC算法的分布式阵列DOA估计
基于并行计算的大数据挖掘在电网中的应用
基于不同网络数据源的期刊评价研究
浅谈PLC在预处理生产线自动化改造中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法
基于膜过滤的反渗透海水淡化预处理