APP下载

开放网络环境下不良信息的识别

2017-04-23彭梅

电子技术与软件工程 2017年5期
关键词:数据挖掘互联网

彭梅

摘 要 开放的互联网可以为人们提供智能旅游、在线学习、电子商务、电子政务、金融证券等渠道,有效地实现了信息的传输和共享,被越来越多的人所关注和使用。但是,互联网在为人们提供便捷信息传输的同时,也潜在带来了许多的危害,比如淫秽色情信息、病毒木马信息、暴力反动信息等,这些信息将会影响青少年的健康成长,也会破坏社会的良好秩序,甚至一些言论会危害到国家政府的安全,因此开放网络环境下快速的、准确的识别和定位不良信息已经成为网络舆情监控管理部门、科研院所的研究热点。本文详细地分析了开放网络环境下不良信息的识别研究现状,归纳了常用的不良信息识别算法,包括谱聚类算法、神经网路算法、信息论算法和K均值算法,同时针对K均值算法进行深入研究,提出了一个模糊K均值算法,以便能够更加准确的识别不良信息,准确的获取信息内容。

【关键词】互联网 不良信息 数据挖掘 K均值

1 引言

随着移动通信、光纤通信等技术的快速发展,促进人们进入到“互联网+”时代,也使得人们的言论、行为更加开发和自由。互联网是一个拥有数亿网民的精神、文化、工作和生活家园,也是人们信息传输、分享的重要途径,方便快速的互联网平台可以帮助人们实现各类信息的获取。因此,开放环境下,网络具有覆盖范围广、用户数量多、使用开销低和发展前景好等各种优点,其在为人们提供优良信息的同时,互联网也逐渐成为不法分子散布反动、色情、暴力等不良信息的主要途径,并且这些不良信息的传播趋势呈现出智能化、隐蔽化、迅速化等新型特点。据《国家互联网管理办公室》统计发布信息显示,互联网上的色情网站高达数百万个,并且网站的数量每天都在增长,诱发了更多的社会问题,对于自控能力相对薄弱的青少年来讲,这些不良信息的危害非常严重,导致花季、雨季少年不能够生活在一个健康的社会环境中。360网络安全管理公司统计报告显示,垃圾邮件是一种毫无价值信息的文件,其在严重干扰用户对互联网信息的应用需求同时还携带了较多木马和病毒,这些攻击信息可以获取人们的隐私信息,许多公司、个人为遏制垃圾邮件的传播付出了非常高的代价,每年都需要花费数亿元人民币。因此,网络上传播的不良信息即可以危害人们的健康成长,同时也可以破坏社会的稳定秩序,甚至危害國家的安全,构建一个实时性、稳定性、可靠性较强的不良信息识别算法或系统具有重要的作用和意义,也逐渐成为政府机关或科研机构的研究热点。

不良信息识别是指利用先进的模式识别、机器学习技术构建一个学习器,同时利用学习器针对数据内容进行分析,可以寻找隐藏的不良信息内容。不良信息识别操作模型主要有两类,一种是描述型模型,另外一种是预测型。描述型的不良信息识别模型可以针对网络上的数据进行相关性分析,这样就可以识别不良信息相关内容;预测模型可以利用已经获取的不良信息特征进行预测和推断,从而可以获取不良信息。

2 开放网络环境下不良信息识别研究现状

目前,经过多年的研究和识别,不良信息识别算法包括基于模板的不良信息识别方法、基于统计的不良信息识别方法和基于分块的不良信息识别方法。

2.1 基于模板的网络不良信息识别方法

网络不良信息识别过程中,为了提高识别实时性和迅速性,可以构建一个模板,比如路径抽取模板Xpath,能够获取网络信息资源。采用模板的网络不良信息识别算法最为耗费精力的就是制作和分析模板,这个过程非常的繁琐和复杂,一旦网络信息的结构发生了相关的变化,因此就需要重新构建一个网络不良信息识别模板,需要花费较多的时间和成本,因此构建一个高效处理的网络不良信息识别模板已经吸引了很多的人的研究。李强等人开发了一个强大的工具WIEN(Wrapper Induction Enviroment),可以增强网络不良信息识别效率,该工具适用范围比较广泛,能够处理所有的HTML网络文档数据,并且还可以处理HLRT网络文档数据,准确区分包含很多起止分隔符、左右分隔符,提取相关的不良信息实体。王亚飞等人开发了一个功能强大的网络不良信息识别工具TSIMMIS,其能够自动生成一个网络不良信息识别规则,这个工具在使用过程中需要专业的人员进行操作和维护,因此如果应用背景较少,不能准确的的设计不良信息处理规则。徐根茂等人采用强大的C#程序开发可视化的网络不良信息识别系统运行界面,可以更加完善和方便的设计程序开发规则,能够最终形成一个网络不良信息识别模板。

2.2 基于统计的不良信息识别方法

基于统计的不良信息识别方法可以使用统计学、概率论等数学知识针对网络文档中出现的词语进行统计和分析,生成一个网络用语密度矩阵,以便能够将网络中积极信息、不良信息的词语进行划分,获取不良信息的内容。基于统计的不良信息识别方法可以有效的解决模板方法存在的问题,其不需要构建一个识别模板,仅仅需要构建一个不良信息词库即可,具有更强的自适应性和可操作性,但是对于不同类型的、中性的网络信息识别准确度较低,存在较大的差异。余世文等人针对中文格式的网站新闻内容进行统计和分析,可以预先的互联网正文中的词语内容进行分析,针对位于Table节点内部的词语建立一个DOM树形架构模式,这样就可以更好地删除网络文档数据中的脚本文件、风格文件、注释文件等内容,并且针对获取的Table节点文件中的标签,将这些标签删除,同时可以有效的统计表格中所有的文本字词的数量,可以更加有效地结合中文网页内容的关键特征,克服传统的模板难以创建和设计的缺陷。

2.3 基于分块的不良信息识别方法

基于分块的不良信息识别方法可以将相关的网络内容划分为多个子块,这些子块之间可以包含许多的正文语义信息内容,利用递归的操作模式分析每一个模块中的不良信息内容,最后可以将这些内容集成在一起,形成一个不良信息识别结果。董耀光等人分析了普通不良信息识别算法存在许多的问题,比如通用性不强、模板难以构造和维护等,提出了一种基于网络文档行块分布的算法,其可以搜索网络中文档用语的相关字词资源,将大块的网络内容进行划分,接着可以针对每一个模块继续进行划分,并发处理每一个模块中的不良信息,这样就可以提高识别速度和效率,在更短时间内完成不良信息识别和处理。吴敏等人经过认证和分析,认为网络不良信息识别处理过程中,可以根据文本的长度和密度进行分块,这样就可以利用最小的单个字词为原始节点,实现每一个字词的情感分析,发现这些字词是不良信息或健康信息,能够利用字词包含的信息量降低识别复杂度,从时间和空间上提高算法识别效率。李瑞民等人提出了一个TVPS网络不良信息识别的分块模式,根据网络文档资源分块模式和索引模块进行处理,按照网络文档数据资源实现信息标题的模式处理和分析,采用DOM树结构中保存的表格针对标签进行处理,将所有标签合并成一个大型标签集合,这样就可以将所有的节点进行不良信息处理和分析,能够根据网络不良信息资源进行分块处理,具有重要的作用和意义。

3 基于K-均值的不良信息识别算法研究

K均值一种无监督学习算法,其可以将网络上的数以亿计不良信息划分为N个簇,每一个簇都包含一个簇心,用户输入相关的信息之后,可以计算该不良信息与N个簇心得距离,选择一个距离最近的簇与不良信息合并到一起。K均值经过多年的应用,在不良信息挖掘中得到了极大的改进,比如引入模糊数学理论优化目标函数,提出了模糊K均值算法,将硬划分模式改为软划分,这样就可以更加准确的划分文本类别;引入模拟退火思想,可以自行向下将所有的不良信息进行划分,利用层次分析模式,构建一个树型不良信息识别结构,具有重要的作用。

不良信息识别过程中,K均值算法首先将复杂的不良信息建模为一个矩阵S,假设该矩阵包括了h个不良信息,首先初始化矩阵S的m个特征值为不良信息的核心节点,也即是聚类中心,则h个不良信息的K均值算法矩阵如公式(1)所示:

其中,Sih表示类别h指标i的归一化特征值,0≤Sih≤1。

在K均值算法聚类执行过程中,可以设置不同的特征权重,一般能够优化突出较为重要的特征贡献,特征权重向量如公式(2)所示:

通过分析,K均值算法聚类的目标函数如公式(3)所示:

在复杂的网络不良信息识别过程中,K均值算法可以迭代执行,直到获取最优解或次优解,满足人们的需求。为了验证本文算法的有效性,本文针对1500个网页进行不良信息识别,并且与已经标注好的不良信息识别标注进行比较,同时与遗传算法和支持向量机算法进行比较,发现本文采用的K均值算法不良信息识别准确度最高。通常情况下,不良信息识别采用准确度作为算法评价运行结果的标准,算法运行结果准确度评价公示如公式4所示。

其中,t∈T,其可以描述相关的数据对象;c∈C,其可以描述相关的类别号或簇标号;A1(c,T)可以描述相关的已经正确分配到c中的文档或元组的数量;A2(c,T)可以描述相关的算法不正确的分配到c中的文档或元组的数量;A3(c,T)可以描述相关的不正确的没有分配到c中的文档或元组的数量。通过观察可以得知,在1500个网页不良信息识别数据集上,本文算法可以很好地发现不良信息,准确度更高。算法运行结果如表1所示。

4 结束语

随着互聯网的发展和普及,互联网传播的信息渠道、速度更快,因此构建一个完善的不良信息识别系统,可以更好地提高互联网监控能力。目前,不良信息识别方法经过多年的研究和发展,已经引入了许多先进的方法,最为显著的方法就是利用数据挖掘方法进行分析和识别,比如聚类算法、信息论算法、支持向量机算法、BP神经网络算法和K均值算法,这些算法可以将不良信息从海量的数据中准确的识别出来,具有重要的作用和意义。

参考文献

[1]邓东丰,魏薇.基于免疫原理的网络不良信息识别方法[J].现代电信科技,2014,11(09):52-58.

[2]刘剑,吕国瑛,孙迦.基于语义识别的不良倾向性信息过滤系统的设计与实现[J].信息网络安全,2012,12(10):13-16.

[3]俞浩亮,王秋森,冯旭鹏,等.基于特征加权的网络不良内容识别方法[J].现代电子技术,2016,458(03):76-79.

[4]崔鹏飞,裘玥,孙瑞.面向网络内容安全的图像识别技术研究[J].信息网络安全,2015,11(09):154-157.

[5]李勇明,陈勃翰,王品.采用基于密度加权和偏好信息的K均值聚类的胸阻抗信号自动检测算法[J].电子与信息学报,2015,37(04):824-829.

[6]许爽,叶恺,毕新煕.基于关键路径优化交叉遗传算法的掌纹识别[J].计算机应用与软件,2014,31(07):195-197.

[7]纪凯,韩栋.基于支持向量机的信息检索方法研究[J].吉林工程技术师范学院学报,2014,30(04):82-84.

猜你喜欢

数据挖掘互联网
基于并行计算的大数据挖掘在电网中的应用
“互联网+”环境之下的著作权保护
“互联网+”对传统图书出版的影响和推动作用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究