APP下载

基于免疫Agent的垃圾邮件过滤模型

2016-09-26蒋亚平田月霞

计算机应用与软件 2016年3期
关键词:垃圾邮件邮件自体

蒋亚平 田月霞 梅 骁

(郑州轻工业学院计算机与通信工程学院 河南 郑州 450001)



基于免疫Agent的垃圾邮件过滤模型

蒋亚平田月霞*梅骁

(郑州轻工业学院计算机与通信工程学院河南 郑州 450001)

针对传统的垃圾邮件过滤方法不能有效识别未知特征及变异特征、终端服务器负载较大和接收邮件时延较长等问题,借鉴生物免疫学原理和多Agent技术,设计一种基于免疫多Agent垃圾邮件过滤模型SF-MA。该模型通过对SMTP协议改进,可快速地判断垃圾邮件的产生,并记忆特征信息;设计抗原提呈算法,扩大自体库的规模;将疫苗概念引入模型,保留优良基因,实现各个Agent的信息交互,增强了整个模型“记忆”机制,有效地提取垃圾邮件的信息和变异特征。利用邮件样本集对该模型进行训练和测试,仿真结果表明,该模型与其他模型相比具有更好的性能,有效地提高了垃圾邮件模型的正确率等特性,降低了虚报率。

人工免疫SMTP协议垃圾邮件抗原提呈疫苗多Agent

0 引 言

现今,网络技术日益发达,通信方式已由原始的信件收发等方式,转变为现在邮件发送。虽然,邮件的存在极大地方便了用户,但存在的大量垃圾邮件严重影响用户的日常生活,不仅占用大量的传输与存储资源,而且造成网络资源的浪费[1]。因此,垃圾邮件过滤技术的研究成为了网络安全技术领域研究的热点之一。

在垃圾邮件中存在的信息一般具有不易发现、变异能力强等特点。现有的垃圾邮件过滤方法,如朴素贝叶斯[2]、k邻近算法[3]、支持向量机(SVM)[4]和神经网络[5]等文本分类方法,可有效地实现垃圾邮件的检测和过滤功能,但对于邮件中变异的特征或新出现的特征则往往不能及时发现与提取邮件特征,信息交互不及时。近年来,人工免疫系统AIS(ArtificialImmuneSystem)以生物免疫系统为原型进行模拟已被成功运用[6]。采用人工免疫技术构造效率高,信息交互性强的反垃圾邮件模型也逐渐成为研究的热点。

对于单一的邮件服务器收转发节点,发现新型垃圾邮件特征信息对整个邮件系统并不明显,且随着各种应用不断增加,网络终端负载日益加重,垃圾邮件数量越来越多。为解决终端服务器负载较大、特征不能提取或提取时延较长等问题,可将多Agent技术应用于垃圾邮件过滤模型。在模型中将邮件过滤模型中不同的单个联网转发节点看作不同的进程Agent,每个Agent都具有提取垃圾邮件特征的能力,且能单独完成各自的任务,然后将所有Agent组合起来组成一个多Agent系统。这既能够对单个Agent进行相对独立的检测,又可以互相交流信息,学习积累邮件特征信息,实现复杂环境下的问题求解。

结合人工免疫特性及多Agent原理,提出一种基于免疫多Agent的垃圾邮件过滤模型SF-MA。该模型通过对SMTP协议该进,可以在邮件的第一道防线,快速对垃圾邮件进行识别判断,并归类邮件信息特征;设计抗原提呈算法,扩大自体库的规模;并将疫苗概念引入模型,通过疫苗提取和疫苗接种保留优良基因,增强了整个模型“记忆”能力,以有效地提取垃圾邮件的信息和变异特征。通过对该模型训练和测试,结果表明该模型能够准确地判断垃圾邮件,有效地提高垃圾邮件的过滤效率。

1 免疫多Agent垃圾邮件模型

经过分析免疫细胞和Agent之间、人工免疫系统和邮件过滤模型之间在性质和行为上的相似性,建立了具有不同功能的免疫Agent组成具有垃圾邮件过滤模型 (如图1所示)。

图1 免疫多Agent垃圾邮件过滤模型

IA=,式中,各字母代表的意义类似文献[7],除COD代表状态信息提取单元,处理模型采集到的邮件信息有所不同外。模型中引入疫苗库VACC可以获取新的抗体,增强免疫Agent的耐受性。

SF-MA模型主要借鉴免疫系统的学习、记忆等机制,把过滤过程中的待检测的邮件类比于生物免疫系统中的抗原;类似于免疫系统中抗体识别抗原并做出反应的过程,该模型对待检邮件进行判断识别、分类。定义自体为合法邮件集合(Self),非自体为垃圾邮件集合(Nonself) 。抗原(Ag)定义为自体和非自体的并集(Ag=Self∪Nonself)[8]。邮件集合为P,p为P的子集,定义正常邮件集合H,H∈P;垃圾邮件集合S,S∈P,满足:H∩S=∅,H∪S=P。

在免疫Agent中,根据免疫系统中抗体对抗原的记忆、防御和耐受以及抗体之间相互作用机制,实现自垃圾邮件的过滤和学习记忆。

1.1改进的IMTA

在模型中,除了引入Agent外,通过对邮件传输协议SMTP进行改进,类分非自体集合和自体集合,可更有效地对垃圾邮件判断,提取邮件信息特征。在邮件传输系统中,SMTP是过滤垃圾邮件的第一道防线,也是网络中传输电子邮件的标准协议[9]。在邮件传输过程中,每个节点间都可以看作一个代理Agent。在SMTP协议中存在接收方被动接收邮件等缺点,这是导致现今垃圾邮件泛滥原因之一,故在SMTP协议的基础上,提出了一种改进的IMTA(Improvedmailtransferagent)。改进型IMTA进一步细化了分类规则粒度,根据IMTA的IP地址和发送方的邮件地址两个分类条件确定发送方类别,判断是垃圾邮件还是合法邮件,如表1所示。

表1 改进型IMTP新定义的命令以及返回码

改进型DMTP在DMTP基础上添加1个返回码:252,通过过滤合法的邮件被加入到自体集合,垃圾邮件加入到非自体集合,处理信息传输请求算法如下:

输入: 未知抗原,检测器集合

输出: 检测结果

1)ip=getsendmailserver’sIPaddress;

2)if(ip∈denied)then

3)判定为垃圾邮件,将抗原加到自体集合;

4)use554toresponse(refusetcpsessionopeningrequire);

5)elseif(ip∈accept)then

6)判定为正常邮件,将抗原加到非自体集合;

7) 更新自体库和非自体库;

8)SAdd=GetSender-ADDinEnvelopeData;

9)if(SAdd∈deniedAdd)then

10)判定为垃圾邮件,将抗原加到自体集合;

11)use554torespons(refusetcpsessionopeningrequire);

12)elseif(SAdd∈ReceivedAdd)then;

13)判定为正常邮件, 将抗原加到非自体集合;

14) 更新自体库和非自体库;

15)use220toresponse(receivetcpsessionopeningrequire);

16)proceedasifSMTPused;

17)else

18)use252toresponse(见表1);

19)rejectDATAcommand;

20)endif;

21)endif.

(1)

T用来表示模型判断邮件的总时间,基于SMTP邮件过滤模型与改进协议IMTA的SF-MA模型邮件所需处理总时间T分别为:

(2)

(3)

通过对协议进行改进,可以减小用户处理时间,快速地判断垃圾邮件的产生。合法的邮件被加入到自体集合,垃圾邮件加入到非自体集合,以更好提取邮件特征信息。

1.2抗原提呈

要实现垃圾邮件过滤,需将待测邮件数据特征转变成计算机可识别的语言,再经过一定模式的过滤,实现邮件分类。在邮件样本中,数据经过抗原提呈APC(antigenpresentingcells),形成抗原集合,由特定长度的抗原提呈基因库对邮件进行特征提取,从而得到邮件的特征,即抗原决定基,存储在邮件特征向量[10]。

抗原提呈基因定义为从邮件子集中提取的IM(InformationFeatureofMail)。定义长度为l的抗原提呈基因集合ag-l为:

ag-l={ag|fe(p,i,l),1≤i≤|p|-l

p∈{H∪S′},|ag|=l,l∈N}

(4)

其中:函数fe执行从邮件中提取IM的操作,l为提取的IM的长度,单位为比特,H′、S′为合法邮件和垃圾邮件的子集。即提取邮件子集中的所有长度为l的、不重复的IM,并将其添加到抗原提呈基因集合ag-l中。

定义邮件(抗原)特征集合为F:

F={|xi∈{0,1},

p∈P,xi=fc(p,ag-l,l),i=1,…,n;n,l∈N}

(5)

其中:xi(i=1,2,…,n)为抗原提呈基因库中的基因;ag-li为提取到的邮件p∈P的特征信息;n代表邮件特征向量的维数,与抗原提呈基因库大小相等;l为抗原提呈基因库ag-l中基因片段的大小;函数fc(p,ag-l,l)为特征信息提取操作,如式(6),即从p∈P邮件类型中提取长度为l的IM字符串,然后计算IM是否在对应的抗原提呈基因库中出现,获取邮件的特征信息。函数fe(p,j,l)表示从邮件中提取长度为l的IM。用特定的抗原提呈基因库对邮件进行特征提取,从而组成了邮件特征向量如下:

(6)

在SF-MA模型中,根据邮件特征,对邮件进行分类。对于每一类邮件p,从它的起始位置从i=1开始,每次滑动1比特,直至邮件结尾(i=|p|-l),依次提取长度为l的IM。如果该IM不在基因长度为l的基因集合ag-l中,则把邮件新特征,添加到集合。抗原提呈的过程为依次从待提取特征的邮件p∈P中提取长度为l的IM字符串,然后通过计算提取的IM字符串在抗原提呈基因库ag-l中是否出现来获取。若出现,取值为1,若没有,取值为0。可得到邮件p∈P的邮件状态向量(x1,x2,…,xn)中的每一维数值xi(xi∈{0,1},i=1,2,…,n)。经抗原提呈后,在模型记忆库中到的邮件特征是一个长度与基因库大小相同的计算机可识别的二进制串,这样就完成了程序的抗原提呈若的过程。满足条件的抗原对其进行体呈,符合条件的加入到自体库中,否则加入到非自体库中[11]。这样既保证了选择的特征向量对邮件内容的代表意义,同时又限制了特征向量长度的过度膨胀。

1.3疫苗提取与接种

在模型中,通过引入疫苗(包含疫苗提取与疫苗接种两模块),用以提高抗体的适应度、稳定性、自学习性等特性,保存邮件种类中的优良基因。

在模型中,疫苗提取的过程即是对垃圾邮件特征信息的提取过程。检测模型中,设计了执行层Agent、检测层Agent、通信层Agent、和决策层Agent。采用免疫多Agent结构, 分别完成垃圾邮件模型的检测、通信、执行和决策等任务将不同的检测Agent联合起来,同时引入疫苗提取算法,可以快速地提取疫苗信息。模块图如图2所示。

图2 免疫多Agent模块

执行层Agent:是指在服务器中正在发送或接收邮件状态的Agent模块。归类邮件信息,并实时与执行Agent和通信Agent保持通信。

检测层Agent:检测层Agent在网络服务器各个节点之间监视检测,并与特定意图的设备通信。在模型中,用户层寻找异常用户行为模式;监视并检测邮件的大小、数目以及所属的类型、源地址与目的地址,信封邮件主要内容等。若可疑,则上报给通信Agent,请求作出决策。

通信层Agent:通信Agent充当其他Agent模块的通信网络的任务。

决策层Agent: 接收来自各个免疫检测Agent的模块检测结果,对是否为垃圾邮件或异常异常邮件结果做出判定。

如果在检测过程中,检测群中Agent检测到可疑的垃圾邮件抗原,则上报给通信Agent模块。若通信Agent确定其包含垃圾邮件信息特征的抗原D,则从正在执行Agent中选取若干个Agent,将D所包含的信息共享给这些进程Agent并要求提取疫苗。当不同Agent接收到提取疫苗的信息指令后,从检测器中选取能与抗原D匹配的种群A(个体数量为s),然后提取疫苗v。疫苗提取算法如下:

Step1依据邮件抗原特征,Agent首先初始化一条空白的疫苗v;

Step2计算出在Agent检测器集合中能与D匹配的所有个体(s) ,记为A;

Step3从A中的优良个体(a1,a2,…,as)中提取一部分优良基因,再将其优良基因填入空白疫苗v中,当疫苗被完全填充后,则成功提取出一条抗原D的疫苗。

各个Agent提取到抗原疫苗后,将取得的疫苗回传至通信Agent,通信Agent接收到疫苗后,从接收到的疫苗群中选取优良个体,然后对模型的单个Agent进行免疫接种。

疫苗提取结束后,进行疫苗接种。疫苗接种是指用提取的疫苗用来修改抗体的某些基因位,将优良基因传递给下一代,以提高优良个体繁殖的概率。

(7)

在模型中,采用每间隔一定时间随机从样本邮件中选取一定比例的抗体进行接种的方式进行疫苗接种,来对种群中的抗体和记忆细胞进行更新。利用多个Agent并行提取疫苗,可以加快疫苗的生成速度以及接种速度,使抗体快速的记忆邮件特征信息,提高模型检测效率。

2 实验与分析

2.1实验评测数据集

测试环境为:内存2GB, 操作系统为WindowsXP。在模型的邮件传输中,因为JAMES(Javaapachemailenterpriseserver)性能较为稳定,可配置性强,能实现SMTP、POP3和NNTP等多种邮件相关协议,选用JAMES开源邮件服务器。在测试中使用CCERT中文邮件2005年7月份的样本集,其中包含正常邮件(Ham)9042封,垃圾邮件(Spam)20 308封,数值实验环境为Matlab2014a。

通过对邮件样本集构建的过滤模型进行实时监控与检测,引入改进的SMTP协议。选取邮件IP数据信息构成的二进制串模拟免疫系统中的抗原,对抗原进行提呈,使其转化为计算机可识别的语言,模拟邮件收发功能,对模型进行效率测试。

将数据集分为训练集和测试集,选择3062封邮件(1024封正常邮件和2038垃圾邮件样本)作为训练集。实验初期选取自体集合大小为50,每次训练生成10 个未成熟检测器。邮件过滤模型每次输入200个抗原,其中自体与非自体比例为8∶2,即邮件过滤模型所发的10个包中2个非自体包,得到初始检测样本,保存在免疫记忆库中。然后将剩余的8000封正常邮件和18 000封垃圾邮件平均分为10组,组成测试集进行测试。

实验结果取10次的平均值作为评判该模型的最后实验数据,计算出来的平均值即为模型的效率结果。在仿真实验中,先比较SMTP和SF-MA模型的正确率与精准率,用来验证改进协议的有效性。然后仿真SF-MA模型与朴素贝叶斯、人工免疫模型的虚报率和召回率,验证模型的效率。

2.2性能评价指标

SF-MA垃圾邮件过滤模型,主要的评价标准:(1)召回率:即垃圾邮件检出率;(2)正确率:反映过滤模型检测出垃圾邮件的能力;(3)精确率:模型对所有邮件的判断正确的概率;(4)虚报率:即系统将正常邮件判为垃圾邮件的概率。

设测试集合中共有N封邮件,先定义几个变量,N=CH→S+CH→H+CS→S+CS→H。其中,CS→S表示垃圾邮件判断为垃圾邮件的数目;CH→S表示正常邮件判断为垃圾邮件的数目;CS→H表示垃圾邮件判断为正常邮件的数目;CH→H表示正常邮件判断为正常邮件的数目。

召回率Recall=CS→S/(CS→S+CS→L),在模型中,召回率越高,检测出的垃圾邮件越多;正确率Precision=CS→S/(CS→S+CH→S),即判定邮件为垃圾邮件,正确的概率;精准率Accuracy=(CS→S+CH→H)/N,即对所有邮件进行判断,并且判断正确的概率;虚报率Fallout=CH→S/(CH→S+CH→H),即模型将正常邮件判为垃圾邮件的概率。

2.3实验结果及分析

图3是模型在仿真环境下进行垃圾邮件过滤实验所获得的SF-MA模型统计数据,主要为正确率、精确率、召回率、虚报率四个指标,横坐标(X轴)为实验次数,纵坐标为(Y轴)百分比指标值。

图3 邮件过滤指标曲线图

从图3中可以看出,SF-MA模型的正确率比较稳定,正确率呈先呈上升趋势,后部分基本保持稳定,正确率都能达到90%以上,说明SF-MA模型可以很好地判别出垃圾邮件,稳定性较高;精准率在检测过程亦呈上升趋势,说明随着模型中抗体的自我学习,模型能够正确判断垃圾邮件与合法邮件的能力在上升;在召回率方面,当邮件出现新的信息特征时,模型具有较好的学习和记忆识别能力,对于判断垃圾邮件的能力有所提升;虚报率比较低较稳定,在这种情况下,由于具有Agent机制及免疫记忆库,信息之间可以及时交互,邮件很少被误删,SF-MA模型具有较高的可靠性。

相同条件下,为更好地比较引入改进协议的SF-MF模型与基于SMTP邮件过滤模型的效率,实验选用多组封邮件进行测试,横坐标表示测试邮件数量,纵坐标各表示召回率和虚报率的测试结果值。由图4和图5可知,利用改进协议的引入改进协议的SF-MF模型的精准率和正确率方面都高于基于SMTP协议模型。通过对协议进行改进,合法的邮件可更快地被加入到自体集合,垃圾邮件加入到非自体集合,以更好提取邮件特征信息。

图4 改进的IMTA与SMTP正确率比较图

图5 改进的IMTA与SMTP精准率比较图

2.4算法比较

2.4.1算法的性能比较

为了更进一步验证模型的效率,本文在同等条件下用SF-MA模型与基于贝叶斯的垃圾邮件过滤模型[12]和基于AIS的垃圾过滤模型[13]进行对比试验。如图6和图7所示,横坐标表示测试邮件数量,纵坐标表示正确率与精准率的测试结果,模型选几组测试邮件集,进行测试。实验结果表明SF-MA模型较基于Bayesian方法的模型和AIS模型较召回率有大幅提高,虚报率降低且波动较小。

图6 AIS、Bayesian、SF-MA模型召回率比较图

图7 AIS、Bayesian、SF-MA模型虚报率比较图

基于Bayesian的模型采用先验概率的规则来测试邮件,如果在检测阶段检测的邮件包含了很多在训练阶段邮件没有出现过的新词,即新特征信息,则该模型需要一段较长时间的学习适应,学习记忆能力较低,对邮件的召回能力不是很理想,在虚报率较高且不稳定;基于AIS的模型则可以分布式方式识别垃圾邮件,并能学习和记忆邮件的特征,邮件召回能力有所提升,虚报率有所降低,但是存在检测器的灵活性较差,在测试阶段不能精确地对垃圾邮件进行分类,记忆抗体特征;本文提出的模型SF-MA,能够对单个Agent进行相对独立的检测,又可以多Agent互相交流信息,检测能力较强,虚报率较低。除此之外,模型对SMTP协议进行了改进,能快速地判断垃圾邮件的产生,记忆并保存垃圾邮件特征,引入疫苗机制,保留优良基因,实现各个Agent的信息交互,增强了整个模型“记忆”机制,有效地提取垃圾邮件的信息和变异特征。

通过多组样本进行实验,可以表明:该模型对垃圾邮件识别Recall、Fallout等指标均有提高,对新数据特征及原有类型特征的识别效率的可以很好地识别,反映出改进的模型比基于贝叶斯和基于AIS的垃圾过滤模型具有更稳定效率,且对垃圾邮件新型特征和新有数据特征均表现出较好的识别性。同时,将疫苗提取和疫苗接种等思想引入到模型中,使各类检测器中的抗体以疫苗作为媒介相互通信,保留优良基因,对垃圾邮件特征的变化做出及时的反应,比Bayesian和AIS分类算法有较好的自适应性能,提高了模型的正确检测率的稳定性。

2.4.2算法时间复杂度比较

通过算法复杂度的分析,将改进的IMTA协议和Bayesian、AIS分别从两个方面对比:训练时间复杂度和分类时间复杂度。

设N表示训练集中包含的样本数,而n为特征数量,比较改进算法与Bayesian、AIS算法的复杂度。训练时间复杂度方面:Bayesian算法是时间复杂度是O(nN),AIS算法是O(n2N2),改进算法是O(n2N2);分类时间复杂度方面:Bayesian算法是时间复杂度是O(nN),AIS算法是O(n2N),改进算法是O(nN)。由于改进IMTA协议设计了抗原提呈算法,扩大了自体库的规模,这样就可以加速检测器的进化过程,同时保留了原有特征的优势,大大减少了二次识别大量旧特征信息的时间消耗。可以看到和其他方法比起来,改进算法保证了在检测分类的过程有稳定的正确识别率,因而在分类环节改进算法的时间复杂性最优。

3 结 语

结合人工免疫特性的自学习能力等特性及多Agent原理使信息之间及时交互能力,本文提出了基于免疫Agent的垃圾邮件过滤模型SF-MA。在模型中,SMTP作为过滤垃圾邮件的第一道放线,通过对协议进行改进,可以快速判断垃圾邮件的产生,记忆并保存垃圾邮件特征,可以减小用户处理时间,合法的邮件信息特征被加入到自体集合,垃圾邮件加入到非自体集合,以更好提取邮件特征信息。在此基础上将疫苗提取和疫苗接种等思想引入到模型中,使各类检测器中的抗体以疫苗作为媒介相互通信,保留优良基因,实现各个Agent的信息交互,并有效提取垃圾邮件的信息和变异特征。该模型与选用贝叶斯模型、人工免疫模型对该进行测试和对比,实验证明,该模型对垃圾邮件的过滤性能要高于它们的性能,具有较高的召回率和准确率。该模型在性能上具有一定的提升,如何再进一步地提升模型的效率,是下一步研究的方向。

[1]GanstererW,IlgerM,NeumayerP,etal.Anti-spammethodsstate-of-the-art[D].Vienna:FacultyofComputerScience.UniversityofVienna,2005.

[2]MarsonoMN,El-KharashMW,GebaliF.Targetingspamcontrolonmiddleboxes:Spamdetectionbasedonlayer-3e-mailcontentclassification[J].ComputerNetworks,2009,53(6):835-848.

[3]MehmetAci,CigdemInan,MutluAvci.Ahybridclassificationmethodofknearestneighbor,Bayesianmethodsandgeneticalgorithm[J].ExpertSystemsWithApplications,2010,37(7):5061-5067.

[4]YuBo,XuZongben.Acomparativestudyforcontent-baseddynamicspamclassificationusingfourmachinelearningalgorithms[J].Knowledge-BasedSystems,2008,21(4):355-362.

[5]ClarkJ,KoprinskaI,PoonJ.ANeuralNetworkBasedApproachtoAutomatedE-MailClassification[C]//WebIntelligence:Proceedingsofthe2003IEEE/WICInternationalConferenceonWebIntelligence,2003:13-17.

[6]QingJJ,MaoRL,BieRF,etal.AnAIS-basede-mailclassificationmethod[C]//The2009InternationalConferenceonIntelligentComputing,Ulsan,Korea,2009:492-499.

[7] 王军,赵晓哲,张瑛涵,等.基于免疫多智能体的舰艇编队协同防空体系模型[J].系统仿真学报,2012,24(2):263-268.

[8] 李涛.基于免疫的网络监控模型[J].计算机学报,2006,29(9):1515-1522.

[9] 刘海韬,阳洁.云计算平台下一种新型反垃圾邮件系统的研究[J].中南大学学报:自然科学版,2013,44(5):1869-1874.

[10] 覃仁超,刘念,黄晓芳.基于免疫和D-S证据理论的计算机病毒检测方法[J].计算机应用研究,2012,29(8):3062-3066.

[11] 秦逸.基于行为的垃圾邮件检测技术[J].计算机科学,2012,39(11):86-89.

[12]ZhangLe,ZhuJingbo,YaoTianshun.Anevaluationofstatisticalspamfilteringtechinques[J].ACMTransactionsonAsianLanguageInformationProcessing(TALIP),2004,3(4):243-269.

[13]GuzellaTS,Mota-SantosTA,UchaJQ,etal.IdentificationofSPAMmessagesusinganapproachinspiredontheimmunesystem[J].Biosystems,2008,92(3):215-225.

ASPAMFILTERINGMODELBASEDONIMMUNE-AGENT

JiangYapingTianYuexia*MeiXiao

(School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450001,Henan,Chima)

Fortheproblemsoftraditionalspamfilteringmethodssuchascannoteffectivelyidentifyingtheunknownandvariationfeatures,heavierloadinterminalserverandlongerdelaysinreceivingmails,etc.,bymakinguseofbiologicalimmunologyprincipleandmulti-Agenttechnology,wedesignedanimmunemulti-Agent-basedspamfilteringmodelSF-MA.ThemodelisabletoquicklyjudgespamgenerationandtorememberthefeatureinformationbyimprovingtheSMTPprotocol;wealsodesignedanantigenpresentationalgorithm,andexpandedthescaleofselflibrary;weintroducedthevaccineconceptintomodeltokeepgoodgenesandtorealisetheinteractionofeachAgent’sinformation,theseenhancedthe“memory”mechanismofentiremodel,andeffectivelyextractedtheinformationandvariationfeaturesofthespam.Usingthemailsamplesettotrainandtestthemodel,simulationresultsshowedthattheproposedmodelhadbetterperformancethanothermodels,andeffectivelyimprovedthecharacteristicsofaccuracyrateofspammodel,aswellasreducedfalsealarmrate.

ArtificialimmuneSMTPprotocolSpamAntigenpresentationVaccineMulti-agent

2014-08-20。国家自然科学基金项目(61272038);河南省科技厅科技攻关项目(0624220084)。蒋亚平,副教授,主研领域:网络安全,智能计算。田月霞,硕士生。梅骁,硕士生。

TP393.08

ADOI:10.3969/j.issn.1000-386x.2016.03.070

猜你喜欢

垃圾邮件邮件自体
基于James的院内邮件管理系统的实现
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
自体血清在干眼症治疗中的应用进展
一种基于SMOTE和随机森林的垃圾邮件检测算法
来自朋友的邮件
垃圾邮件会在2020年消失吗
CMailServer
一封邮件引发的梅赛德斯反弹
基于支持向量机与人工免疫系统的垃圾邮件过滤模型
低损伤自体脂肪移植技术与应用