APP下载

基于最大熵原理的电子商务混合入侵行为信息智能化检索方法研究

2020-12-08段立峰

粘接 2020年10期
关键词:检索电子商务

段立峰

摘 要:电子商务混合入侵行为会造成企业经济受到损失,于是为了减少损失需要对其信息进行检索,从而及时有效的检索出入侵信息。文章提出了一种基于最大熵原理的入侵行为信息智能化检索方法,其中使用了两种离散方式将特征转化为离散数值,从而可以除去冗余干扰特征;再使用了3种特征选择方式,除去了噪声干扰特征。最后通过仿真实验得到文章所研究的检索方法具有效率快、精确度高的特点。

关键词:最大熵原理;电子商务;混合入侵;检索

中图分类号:TP18   文献标识码:A      文章编号:1001-5922(2020)10-0141-04

Abstract:The mixed intrusion of e-commerce will cause losses to the enterprise economy, so in order to reduce losses, it is necessary to retrieve its information, so as to retrieve the intrusion information in a timely and effective manner. This paper proposes an intelligent retrieval method for intrusion behavior information based on the principle of maximum entropy. Two discrete methods are used to convert features into discrete values, so that redundant interference features can be removed; Three more feature selection methods are used to remove noise interference features. Finally, through simulation experiments, the retrieval method studied in this paper has the characteristics of fast efficiency and high accuracy.

Key words:principle of maximum entropy; e-commerce; mixed intrusion; retrieval

0      引言

电子商务信息系统中有大量隐秘和重要性的数据,如果这些数据受到侵袭将会造成企业受到较大的损失[1]。当前,在电子商务系统中较为常见的安全问题有3个类型,第1系统的网页被篡改,即系统中的各种相关信息被更改,第2为交易活动仿冒,第3为系统混合入侵行为,即将恶意程序植入到系统中,从而造成系统无法使用[2]。这3种安全问题将会给企业带来非常大的威胁,所以当存在混合入侵行为时需要及时检测出来,达到降低安全事故的发生。文献[3]提出了一种基于BP神经网络的检索方式,虽然能够达到一定的检索效果,但是没有将冗余干扰特征去除[3]。文献[4]提出了基于深度信念网络模型的检索方式,该方式同样能够达到一定的检索效果,但是没有将噪声干扰去除,于是这两种方法的检索精确度不高[4]。文章将提出一种基于最大熵原理的检索方法,该方法将会把噪声干扰和冗余干扰去除,从而提高检索方法的精确度。

1     电子商务混合入侵行为信息智能化检索方法分析

1.1   电子商务信息离散化处理

电子商务信息特征属于一个不断变化的连续过程,为了能够获取其中某个具体的特征,需要将其进行离散处理。

1.1.1 熵最小化离散

首相按照一定的顺序将电子商务信息的特征值进行排列,然后再选择断点候选集合,选择的点为序列中相邻数值的中点,需要对这些点进行候选评估运算。电子商务信息需要分为两部分,然后计算出每個部分的信息熵,于是再将熵最小的断点放到断点候选集合中。最后通过选择一个电子商务信息最小猫叔长度值当做熵最小化离散方法的停止约束条件[5]。

1.1.2 时间间隔离散

该目的在于将离散间隔尺度和结果能够保持一定的平衡,其中就是通过调整间隔数量和间隔大小[6]。比如一个电子商务信息属性有n个样例,进行离散化处理之后,于是就会存在个间隔,其中每一个间隔中都存在个电子商务信息样例,最后将将方差和偏差赋予同样权值。当n发生变化之后,间隔数量和间隔大小也会发生变化。使用这种方式对电子商务信息进行处理能够减小原始数据冗余问题。

1.2   混合入侵特征选择

1.2.1 基于关联的特征选择

该选择方式的主要思想:集合经过离散处理之后,对其进行检测,当发现与检索类别相关联,并且处于相互独立的特征提取出来,然后将其作为最优特征子集。对混合入侵最优特征子集进行评估时,其评估函数MS如下所示。

公式(1)中k表示的是特征选择之后特征子集S中包含的特征数目,rcf表示的是检索类别和入侵特征之间联系强度的平均值,rff表示的是特征和特征之间联系强度的平均值。

1.2.2 混合入侵特征的一致性过滤器

使用该方式的过程:每一轮会从离散化数据集中产生一个入侵特征子集S',如果其中的特征个数比S中的少,再对S'中不一致标准进行计算,如果得到的结果比预先设置的阀值小,则S'将作为特征最优子集。

1.2.3 对称不确定性选择

通过使用对称不确定性描述混合入侵特征x、y之间信息熵和信息收益之间的关系,其公式如下所示。

公式(2)中,H(x)表示x的信息熵,H(y)表示y的信息熵,H(x,y)表示特征信息增益函数,IG(x/y)表示x、y之间的信息收益。

根据上式计算,将得到的不确定性特征进行降序排列,然后将特征一致性贡献率与阀值进行大小比较,直降大于或者等于阀值的特征进行保留,使用这种方式能够将噪声干扰信息去除,从而可以得到更加准确的结果。

1.3   信息混合入侵特征检索

该检索系统的工作流程如图1所示,其中监控入侵行为的方式有环境模拟监控、实时监控和虚拟机与其他相结合的监控方式。电子商务在进行交易过程中都会调用系统API函数和各类对象,于是为了将交易行为转化为可以可以计算的形式,可以将其交易形式等同于API函数加上系统参数。

通过系统获得了电子商务交易行为之后,然后系统的分析层会对交易行为进行集合处理,然后通过预先定义的API函数白名单将线程和进程进行过滤处理,在该处理过程中需要保证用户体验和系统运行速度[7]。然后再抽取出剩余的API函数序列中的交易行为语义特征,最后达到混合入侵特征最优子集选取的目的。决策层的主要目的就是将将上述所得到的入侵特征最优子集按照模板进行编码,然后再特征库中进行相匹配,从而判断信息中是否存在混合入侵行为。

假设Pe为出现一次混合入侵行为并且被判断出来的平均概率,当出现两次混合入侵之后被判断出来的平均概率为Pe·Pe,其中要求这两次混合入侵行为之间相互独立,并且没有任何相关性。然后一般请款下,当Pe ≤ 0.3时,其Pe·Pe ≤ 0.9,从而可以说明,两次混合入侵行为的误判率比一次判断机制小很多,即两次判断入侵行为的准确率更高。

联动响应层的主要目的为阻止入侵行为继续运行,从而有利于提高信息的安全性和机密性。

1.4   电子商务混合入侵信息检索

假设A1,A2, …Am表示m个入侵行为序列,每个序列处于相互独立的状态,并且之间没有任何联系,于是其概率分布函数公式如下所示。

从上述公式(3)可知,发生电子商务混合入侵行为的顺序存在差别。假设存在两次混合入侵行为的次数有m2种,那么其序列和联合概率分布函数分别用和进行表示,如下所示。

通过上述计算分析,然后再基于最大信息熵原理,从而可以得到如下所示的入侵行为最大熵分布概率maxH公式,另外两个公式为其约束条件。

然后再依据拉格朗日乘子法,将参数序列引入其中,于是可以得到如下所示的检索目标函数。

假设,于是得到如下所示的公式。

于是可以根据上述公式計算出参数序列,于是即可分析出电子商务混合入侵行为最大熵分布概率,从而可以达到入侵行为智能检索的目的[8]。

2     仿真实验

为了能够验证检索效果和性能,于是建立了一个电子商务交易网络检索环境,该环境中使用了4台计算机,其中1台计算机作为检索服务器,另外3台计算机作为攻击服务器,将检索服务器中布置上述所研究的智能化检索方法,然后在攻击服务器中布置多种恶意程序。于是在仿真过程中,攻击服务器会向其他PC机中发送电子商务数据包,于是就会使得电子商务信息出现异常情况,那么检索服务器中就会对其进行智能检索。

图2为处于安全情况时的电子商务信息流,图中所示的两条虚线表示的是阀值,当信息流的值超过了两条虚线之后,即可说明在电子商务中有混合入侵行为发生。

然后在不同仿真时间点上注入恶意入侵程序,时间点分别为80s、180s、320s、360s、500s、550s。在注入恶意入侵程序的同时,还在三个时间点上注入了人工干扰信息,该时间点分别为100s、280s、430s。在采用文章所分析的检索方法上结合文献[3]和[4]的方法,对图3中的电子商务混合入侵信息进行检索,并且与人工入侵的时间进行对比,当两者的拟合度比较高,则可以表明文章所研究的智能检索方式精确度比较高,当拟合度比较低时,则可以表明文章所研究的方式其精确度比较低。最后所得到的对比结果如图4所示,其中包含3种不同检索方法的检索结果。

通过对比分析,文献[3]的方法能够将所有入侵信息都检索出来,但是也会将不是电子商务混合入侵的信息检索出来,可见其检索准确性比较低;而文献[4]中的方法没有将恶意信息全部检索出来,于是该方法的检索精确性也比较低。而文章所研究的基于最大熵原理的电子商务混合入侵行为信息智能检索方法具有很好的精确性,能够将所有恶意信息全部检索出来,同时还没有将人工干扰信息检索出来。文章所研究的方法使用了两种离散化方式,并且还使用了3种特征选择方式,将特征子集中的噪声和冗余特征去除,有利于检索方法精确度的提高;另外由于2次入侵行为判断的误判率比较小,于是文章所研究的检索方式具有更高的精确度。

文章为了进一步检测基于最大熵理论的检索方法的检索性能,看其检测时间是否占据优势。于是将3种检索方法在不同的电力商务混合入侵信息数量上进行分析,得到如表1所示的耗时时间表,其中Ⅰ表示文献[3]的方法,Ⅱ表示文献[4]的方法,Ⅲ表示文章所研究的方法。

从表中可以看出,当混合入侵信息数量不断增多时,3种检索方法的耗时时间不断增强;当数量处于1000个以下时,3种检索方式所需的时间相差比较小,于是3种检索方法的工作效率差不多,不过总体上文章所研究的检索方式耗时比较短;然而当数量超过或等于1000个之后,前面两种检索方法的耗时时间也差不多,但是文章所研究的检索方式的耗时时间明显偏小,当数目达到2000个时,前面的两种检索方式的耗时时间是文章所研究方式的6~7倍。所以当入侵信息数目不断增多之后,基于最大熵理论的入侵行为信息智能检索方法具有更好的处理效率。

3     结语

当今,使用互联网技术进行电子商务交易的规模不断扩大,各种黑客技术使得信息系统的安全性受到威胁,必须采取一系列预防方式,及时检索到入侵信息,从而降低企业的经济损失。文章所研究的基于最大熵原理的入侵信息智能检索方法具有更好的精确度和效率性,能够提高电子商务信息的安全性和稳定性。

参考文献

[1]徐斌.基于电子商务的信息安全风险评估与对策[J].信息安全与技术,2013,4(09):5-7.

[2]孙伟博.电子商务信息系统操作风险评估方法研究[D].天津:中国民航大学,2016.

[3]梁辰,李成海,周来恩.PCA-BP神经网络入侵检测方法[J].空军工程大学学报(自然科学版),2016,17(06) :93-98.

[4]刘珊珊,谢晓尧,景凤宣,等.基于PCA的PSO-BP入侵检测研究[J].计算机应用研究,2016,33(09) :2795-2798.

[5]杜晔,张亚丹,黎妹红,等.基于改进FastICA算法的入侵检测样本数据优化方法[J].通信学报,2016,37(01) :42-48.

[6]吴丽云,李生林,甘旭升,等.基于PLS特征提取的网络异常入侵检测CVM模型[J].控制与决策,2017,32(04) :755-758.

[7]袁正东.基于电商平台的商家API接入测试系统设计与实现[D].武汉:华中科技大学,2015.

[8]董峰,周鹏旭.面向云计算平台的多层免疫入侵检测模型[J].计算机工程与应用,2016,52(21) :101-104+174.

猜你喜欢

检索电子商务
小微企业电子商务平台的开发与应用
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
O2O电子商务信任问题分析
O2O电子商务信任问题分析
调整检索思路,提高检索效率
英国知识产权局商标数据库信息检索
辽宁大拇哥农业电子商务有限公司
电子商务法草案首审