APP下载

数据挖掘在入侵检测中的运用

2009-08-04潘兴鑫

魅力中国 2009年14期
关键词:入侵检测必然性数据挖掘

潘兴鑫

中图分类号:TN915.08文献标识码:A文章编号:1673-0992(2009)05-041-02

摘要数据挖掘是一种通用的数据处理技术,它从大量的数据中提取人们感兴趣的内容的过程。将数据挖掘技术应用到网络安全当中,建立网络入侵检测系统,是数据挖掘技术应用的一个新领域。本文介绍了数据挖掘技术在入侵检测中运用的必要性、必然性和可行性。

关键词:数据挖掘;入侵检测;必要性;必然性;可行性

随着计算机技术的飞速发展,网络的资源共享程度进一步加强,在资源共享的过程中,网络安全问题备受重视,传统的入侵检测系统面对海量的信息数据,不能及时有效的分析处理这些数据,而数据挖掘技术的运用正好能够满足入侵检测系统的要求,合理的分析数据,有效处理数据。

一、数据挖掘技术与入侵检测分析

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。由于它是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。其中,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。

入侵检测是一种试图通过观察行为、安全日志或审计资料来检测发现针对计算机或网络入侵的技术,这种检测通过手工或专家系统软件对日志或其他网络信息进行分析来完成。而更广义的说法是:识别企图侵入系统非法获得访问权限行为的过程,它通过对计算机系统或计算机网络中的若干关键点收集信息并对其进行分析,从中发现系统或网络中是否有违反安全策略的行为和被攻击的迹象。作为一种积极主动地安全防护技术,入侵检测提供了对内部攻击、外部攻击和误操作的实时防护,在网络系统受到危害之前拦截和对入侵做出响应。强大的入侵检测软件的出现极大的方便了网络的管理,其实时报警为网络安全增加了又一道保障。

计算机网络中每天都会产生海量的网络数据,主机也会产生大量的系统数据和日志信息。能否从如此丰富的历史数据中找到我们所感兴趣的信息,这是最为关键的一点,也是最为困难的一点。数据挖掘正是一种可以从包含大量冗余信息的数据里快速提取出尽可能多的有用信息的数据分析工具。因此研究者从数据的角度找到了数据挖掘和入侵检测的交汇点,将二者结合起来,并在实践中证明了将数据挖掘应用于入侵检测的可行性。目前,将数据挖掘应用于入侵检测已经成为一个研究热点。在这个研究领域,影响比较大的主要是Columbia University的Wenke Lee研究组和Portnoy,后继的研究者大多沿袭了Wenke Lee和Portnoy的研究路线,并在此基础上作了相应改进或者采用数据挖掘与其他智能技术相结合的方法。

二、数据挖掘在入侵检测中运用的必要性

入侵检测就是通过运用一些分析方法对数据进行分析、提炼、评价,再识别出正常和异常的数据或者对潜在的新型入侵做出预测。在入侵检测技术中采用数据挖掘技术有以下几点必要性:

第一,网络结构日趋复杂,网上业务种类和业务数量急剧增多,网络管理人员进行决策的依据是反映网络状况和网络行为的海量历史数据,显然没有必要也不应该把所有的原始数据全部提交给网络管理人员,而是要对其进行分析,生成与管理和决策问题相关的信息。

第二,由于时间的变化,数据也发生变化,数据中所含有的信息和知识也随之发生变化,因此旧的模型需要更新,这就要求重新在数据挖掘系统上,在包含新数据的情况下来建立新的模型,然后将新的模型用于应用系统。

第三,数据挖掘技术能够解决从数据角度对网络性能进行评价的问题。数据挖掘是一个从数据集数据库中提取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘的结构是一个概念化知识,该知识反映了数据的内在特性,是对数据所包含的信息的更高层次的抽象。如果把数据挖掘技术应用到入侵检测中,以侦听到的数据集作为分析对象,运用分类分析方法和联系分析方法就可以对业务进行分类并能找到数据之间的相互关系,这样就可以从数据角度去评价审计数据集,从而达到了入侵检测的目标。

第四,由于不同来源的数据具有不同的性质,也就要求采用不同的数据挖掘算法发现其中隐藏的规律;而不同的数据挖掘算法也要求采用不同的特征数据,因此,对于不同类型的入侵检测数据,采用不同的数据挖掘算法发现其中的规则。对描述系统缺陷和已知攻击方法的数据,由于决策树方法具有较高的精度和效率,我们采用分类判定树算法进行处理,以发现其中的分类规则,对于审计数据采用分类和关联分析相结合的方法,以发现关键属性间的协同工作,对于系统调用序列数据,则采用序列模式挖掘算法,对于IP数据包等时态数据,将有关属性按时间排成序列,采用时态数据挖掘方法进行分析。

三、数据挖掘在入侵检测中运用的必然性

入侵检测是一种新兴的关于计算机网络系统安全问题的解决方案。主要有两种,滥用检测和异常检测。滥用检测是对利用已知的系统缺陷和已知的入侵方法进行入侵活动的检测。滥用检测的优点是可以有针对性地建立高效的入侵检测系统,其主要缺陷是不能检测未知的入侵,也不能检测已知入侵的变种,因此可能发生漏报。异常入侵由用户的异常行为和对电脑资源的异常使用产生。异常检测需要建立目标系统及其用户的正常活动模型,然后基于这个模型对系统和用户的实际活动进行审计,以判定用户的行为是否对系统构成威胁。由于入侵检测系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性和本身的鲁棒性。到目前为止,研究人员已经提出或实现了许多方法,但是没有一种模型能够完全满足以上这些要求。而数据挖掘技术则正好在智能性、自适应性以及可操作性方面有着特殊的优势,乔治梅森大学的研发人员发展了关联挖掘在入侵检测方面的重要的应用,并提出了一种新型的应用于异常检测的多重检测方法。综合各种最新的研究成果并应用后挖掘技术,将滥用检测和异常检测融为一体,采用数据挖掘技术实现基于内容的智能化入侵检测系统IDSDM (Intrusion Detection System using Data Mining techniques),对在IDS(Intrusion Detection System)系统中最大限度上发挥数据挖掘技术的优点作了一个有益的尝试。

四、数据挖掘在入侵检测中运用的可行性

数据挖掘通常应用于市场行销、金融投资、生产制造等领域,但在入侵检测设计领域中运用数据挖掘技术对网络业务进行分析也具有明显优势。其可行性主要表现在以下几个方面:首先,网络中检测的数据种类繁多,监测到的数据量量非常大,具有稳定的数据来源,非常适合进行数据挖掘。其次,网络中侦听到的数据按其所具有的不同属性是可以进行分类的,同时,不同的数据之间的确存有某种相关性,如一个连接往往伴随另一个连接发生。因此,运用数据挖掘技术对审计数据进行挖掘能够得到有价值的信息。再次,从各种渠道所获得的审计数据经过加工处理之后适合运用数据挖掘中的联系分析方法。现在国内外己有一些研究机构利用数据挖掘和神经网络技术进行入侵检测,钊对一些入侵行为获得了较为理想的结果。美国哥伦比亚大学的Wenky Lcc在他的论文中详细论述了将一种数据挖掘框架用于构建入侵检测规则和模型的方案,得到了一些实验数据和仿真结果,进而在理论上和实验上证明了将数据挖掘技术应用于入侵检测的可行性。无论是异常检测还是滥用检测,都可利用数据挖掘技术提高检测的精度。

参考文献:

[1]刘文涛.Linux网络入侵检测系统[M].北京:电子工业出版社.2004

[2]唐国军、李建华.入侵检测技术[M].北京:清华大学出版社.2004

[3]Rebecca Gurley Brace.入侵检测原理[M].北京:人民邮电出版社.2001

[4]康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社.2004

[5]卢勇、曹阳等.基于数据挖掘的入侵检测系统框架[J].武汉大学学报.2002.2

猜你喜欢

入侵检测必然性数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于入侵检测的数据流挖掘和识别技术应用
艺术类院校高效存储系统的设计
个人在国际法中的地位
偶然中的必然——夏娃偷食禁果原因的哲学性分析
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书