APP下载

互联网不良信息过滤系统的设计与实现

2015-05-30赵伟梁晓雁

科技资讯 2015年27期
关键词:网络危害

赵伟 梁晓雁

摘 要:该课题研究过程中,查阅了大量的国内外关于文本、图片和过滤技术研究的著作、论文和期刊,从理论角度分析了现阶段国内外先进技术、实现方式和过滤算法,通过技术验证和分析,以及实际的测试结果表明了采用协议还原、数据爬虫引擎进行数据采集分析,使用关键字识别匹配、语义图像识别等技术可实现对互联网中文本、图片和视频信息的过滤。

关键词:网络 不良信息 危害 过滤

中图分类号:TN9198 文献标识码:A 文章编号:1672-3791(2015)09(c)-0003-02

不良信息过滤系统,设计和实现对信息有效识别和过滤,并为用户管理员提供进行可视化监控。即用户和管理员可查看信息保留和过滤不良信息过滤情况。因此,系统切实设计和实现系统分析识别功能和过滤功能,并将采集、分析和过滤的效能进行优化,以达到优良的用户体现。

1 研究目的

该课题设计基于大数据技术的采集、分析和过滤的不良信息过滤系统,该系统能够有效识别互联网中不同分类的不良信息,并根据用户的需求,可实现对网页文本内容进行关键词识别,然后对其URL进行相应的处理,完成互联网不良信息的过滤,其中内容过滤是不良络信息过滤系统的重点功能。具体的系统设计目标为:

(1) 系统对内容过滤的效率性能要求较高;

(2) 系统除了实现传统的基于URL、关键字等信息的过滤,还实现了通过语义分析对文本内容的智能过滤;

(3) 系统根据互联网信息的变化情况具有适应性学习的能力;

(4) 系统采用低耦合高内聚的设计方法,将分词、特征识别和分类算法进行模块化设计;

(5) 将网页划分为多个处理单元,并实现分布式多引擎处理机制。

2 设计与实现

2.1 系统结构

该信息过滤系统的架构采集-分析-过滤-可视化”的架构进行设计,并在这个基础上满足业务的可扩展性要求。整个系统包括如下四个部分:

2.1.1 采集系统

通过搜索监测引擎的方式实现基于不良信息规格的数据采集,并将采集内容分装至采集库。

2.1.2 分析系统

基于数据清洗和分析技术,对所釆集的数据进行协议还原,包括数据重组,下载网页或文字、图片、视频等信息,并完成内容识别、分析和存储。

2.1.3 过滤系统

根据分词规则,通过检索规则库等技术,对信息进行过滤,并提供完成格式优化、策略配置和入库建档。

2.1.4 可视化系统

负责与用户的交互、完成审核、报警和报表功能,并包括采集、分析和过滤的配置管理功能。

2.2 系统流程

该系统按照EPC 模型,通过将业务过程中的采集资源、分析资源、过滤资源和可视化资源(系统、组织、数据等),组织设计完成一个能够完成不良信息过滤任务流程的动态模型。

2.2.1 数据采集

采集的种类分为两大类,一种是使用互联网的搜索引擎,根据指定的关键字进行相关内容的数据采集,第二种是对指定网站类型的数据进行采集(如博客、论坛、新闻等)。根据这两大类采集方式,分别执行相应的采集子流程,在采集子流程中根据不同的采集类型执行相应的采集规则,并将采集的数据存入数据库中。

2.2.2 数据分析

数据分析阶段,首先从采集数据库中获取数据内容,然后根据数据内容的不同选择不同的数据分析器,最后进入相应的数据清洗子流程。数据清洗子流程中,根据不同的分析器选择文本分析法或者内容分析法进行相应的数据清洗,并将清洗后的数据结果存入数据库中。

2.2.3 数据处理

数量处理阶段,首先从清洗后的数据库中获取初步处理的数据,然后对该数据根据配置的处理的方式,选择相应的处理流程。该阶段的处理流程主要包括:检索、分类、聚合等;还可以通过插件的方式对其进行扩展来完成更多的功能。

2.2.4 数据展示阶段

主要是通过页面的形式对数据进行一个有效的展示,更能直观的表达出数据的作用,包括展现预警信息、负面信息、热点趋势等,通过扩展页面的方式可以增加更多的展示效果。

3 结语

该课题最初的研究是基于研究解决不同不良信息的过滤问题,但是随着对现状的分析和工作的难度增加,越来越发现针对网络不良信息的过滤是一个可以上至关系国家民生,下至老百姓生活的具体防范措施,从而调整工作的步骤,逐步建立可视化监测平台、规划不良信息搜集、持续实时监测过滤机制、完成研究报告。这个过程是非常艰辛,其中过很多的迷茫和未知,都是通过检索和收集大量的相关资料,以及在不断地部署开发验证中磨练。其中也体会到了技术改变一切,但是不断业务需求是驱动,业务剖析和其他手段的辅助也关切到不良信息的成果,这里就涉及到了国内外的法律法规、管理措施、道德约束,这些各自都是一定因素的助力和局限,直接影响着网络不良信息的现状。

参考文献

[1] 丛健.不良信息过滤技术研究[D].北京:北京邮电大学,2012.

[2] 史乙力.基于关键词匹配的网页文本过滤算法的研究和实现[D].贵阳:贵州大学,2009.

[3] 贾美娟.基于互联网的不良信息过滤技术的设计与实现[D].哈尔滨:哈尔滨工程大学,2006.

[4] 王银利.基于启发式规则和文本分类的信息过滤技术[D].北京:北京交通大学,2007.

[5] 黄勃.基于语义分析的网络过滤设计与实现[D].长沙:湖南大学,2011.

[6] 林建.网络不良信息过滤研究[D].武汉:华中师范大学,2007.

[7] 苏云,马慧芳.基于Web的信息过滤技术[J].情报杂志,2005,24(5):72-73.

猜你喜欢

网络危害
降低烧烤带来的危害
肥胖危害知多少
药+酒 危害大
网络的危害(三)
酗酒的危害
计算机网络管理技术探析
刍议计算机网络信息化管理
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导