APP下载

互联网信息监控系统的研究

2014-03-15钟海峰

江西警察学院学报 2014年6期
关键词:检索报警分类

涂 敏,钟海峰

(江西警察学院,江西 南昌 330103)

互联网信息监控系统的研究

涂 敏,钟海峰

(江西警察学院,江西 南昌 330103)

目前,网上海量信息纷繁复杂,通过互联网信息监控平台的研究,平台建设能及时、有效地发现互联网信息中的有害内容,并进行深层次的分析,掌握突发、热点事件的发展趋势,了解有害信息的分布状态,提高对信息的掌控能力。

互联网;信息;监控;平台

一、引言

随着“金盾工程”建设的全面展开,公安网络监察机关以金盾工程的“互联网报警处置系统”为基础平台,通过在IDC(互联网数据中心)、网吧、宽带小区、酒店、网上重点单位等主要互联网运营场所部署前端监测系统,对网络游戏、网上短信、即时通信、点对点通信、电子邮件等主要应用实施监控,使公安机关对互联网上数据的采集、获取能力取得巨大的提高。面对海量性、多样性的信息,如何实现对这些信息的接收、存储、分类、综合分析、关联等加工处理,从而全面、深入地掌握网络动态,进一步提高发现、控制、处置和证据提取与固定能力已成为当务之急。

特别是2012年3月14日第十一届全国人民代表大会第五次会议通过的 《中华人民共和国刑事诉讼法》的修订案中,在原有的物证、书证、证人证言等传统证据基础上,增加了“电子数据”这一新的证据种类。如何有效地获取网上违法犯罪信息并及时提取、固定,生成法庭所接受的电子证据显得尤为重要。

为提高公安机关对互联网信息的接收处理能力,根据网上斗争的形势和任务,发现关联、分析违法犯罪线索,提取电子证据,及时防范、控制和打击网上违法犯罪活动,急需加强互联网信息监控与取证平台的研究。

二、互联网信息监控技术研究的发展与现状

目前国内对互联网信息监控的实现方式有两种:一种是使用诸如:谷歌,百度等公共搜索引擎输入关键字进行搜索,将获得的信息采用人工或半自动化的方式处理。这种方式工作效率低,监控信息不全面,受主观影响大。另一种方式是采用互联网舆情分析管理系统进行监控。这些系统在一定程度上实现了信息监控的自动化,但仍存在许多不足,如信息搜索能力不够全面,无法实现图像及视频的检索,无法实现实时监控,并且没有实现与公安“金盾工程”互联网报警处置系统的数据对接等。

国外对于网络行为监控与取证系统的研发起步较早,已经有成熟的产品推向市场。主要有:

(一)WebsenseEnterprise

WebsenseEnterprise目前在全球web过滤市场的市场占有率第一,是员工因特网管理(EIM)解决方案 的 领 导 厂 商 Websense 公 司 的 产 品 。WebsenseEnterprise基于一个庞大的网站分类数据库 WebsenseMasterDatabase进行网络内容过滤,检查每一个请求以立即决定如何处理,ebsenseMasterDatabase包括4,000,000多个站点,共有超过80个类别,包括MP3、赌博、购物和成人内容。 WebsenseEnterprise支持的协议包括Web访问、电子邮件、文件传输、远程访问、流媒体、即时消息 (IM)和对等文件共享 (PZP)等。 然而,WebsenseEnterprise不支持内容还原和备份功能,也不支持事后取证功能。另外,还对中国特色的网络应用例如QQ、联众在线游戏等缺乏支持。

(二)SurfControlWebFilter

SurfControlWebFilter目前在全球Web过滤市场的市场占有率第二,是专业的内容安全厂商SurfControl的产品。SurfControlWebFilter基于网站分类数据库对Web访问进行过滤,目前已经拥有网页过滤系统、邮件安全网关和反间谍软件三类功能模块。然而,SurfControlWebFilterr仅支持Web应用,并且不支持内容还原和备份功能,不支持事后取证功能,同时对中国特色的网络应用缺乏支持。

(三)NiksunNetDetector

NiksunNetDetector是Niksun公司的产品,是全球唯一通过Common Criteria Certification EAL2认证标准测试的系统,支持多样信息数据来源如Packet Capture、NetFlow、SNMP等,并使用强大的海量数据查询引擎进行数据挖掘,为用户提供可视化的海量数据收集、整理和分析。

互联网信息监控主要包括对文本内容、图像内容、视频内容等信息的检索和监测,目前对文本内容的检测仍是信息监控的主要方面,传统的搜索引擎是基于文本索引的方法进行检索,但这类文本索引方法往往没有考虑上下文的关联性,漏报、错报率高,而且关键字是目前人们常使用的词,有些信息内容的发布者可能有意避开使用这些词,而用其他的词替代,使得基于关键词的文本索引不能正确识别。针对上述问题,人们开始逐渐深入研究变形关键词或抗中文主动干扰关键词的检索,主要的方法包括潜在语义索引模型、基于规则的模型、向量空间模型等,但这些模型尚未得到实际的验证和应用。

图像内容的信息检测是根据图像的色彩、纹理、形状和轮廓以及它们之间的空间关系等外观特征和语义作为索引,通过图像之间相似度的匹配而进行的检测技术。当前,图像内容的信息监控以不良图像(色情图像)的检测研究为主,通过对图片肤色分割和人体姿态的几何特征检测来判别图片中是否含有色情成分,主要的技术手段是利用最近邻、神经网络、SVM等方法构建分类器,从大量色情图像样本中发现出该类图像在语义特征上呈现的规律,利用这些规律去分析判断现实世界中的其他图像,这些研究大多集中于肤色、形体等模型的构建、分类器的选择等方面。

对于视频数据的应用者而言,人们总希望采用一种最直观和最方便的检索方法,获取其需要的信息。例如,用户向检索系统提交一幅查询图像或一个视频内容特征描述,检索系统就可以根据内容上的相似性按顺序向用户返回视频片段,作为检索结果。因此,基于内容的视频检索技术(Contem-basedⅥdeo Retrieval,简称CBVR)逐渐成为国内外信息检索领域的热点研究课题。基于内容的视频检索,就是根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。在没有人参与的情况下,自动提取并描述视频的特征和内容。国际上不断地有相关的综述文章发表,还有不少基于内容的视频检索的专辑。例如,基于内容的视频检索研究,除了识别和描述图像的颜色、纹理、形状和空间关系外,主要的研究集中在视频分割、特征提取和描述(包括视觉特征、颜色、纹理和形状及运动信息和对象信息等)、关键帧提取和结构分析等方面。

从国内外研究现状和发展趋势来看,研发一套满足网络监管部门需求的、基于多媒体信息检索的互联网信息监控与取证产品显得尤为重要。

三、互联网信息监控系统平台的设计

(一)平台体系架构

互联网信息监控与取证平台和报警处置系统控制平台相连,报警处置系统控制平台通过公安专网和互联网管理数据流,并直接接收汇总前端监测系统报送的数据、基础数据库的数据和相关业务数据。以上数据经报警处置系统控制平台进行简单处理后直接转到互联网信息监控与取证平台,系统自动接收并进行相关处理。系统的体系架构如图1所示。

图1 系统结构图

互联网信息监控与取证平台对接收的数据进行排重、按不同规则分类、建立索引、按用户要求进行统计分析、根据用户需求对有关网站或网页进行核查,将重要信息导入公安专网进行进一步处理,并可对前端监测系统的管理规则进行设定和管理。系统还可根据用户对数据库(包括:系统自身数据库、报警处置平台上的业务数据库和基础数据库)中的数据进行全文检索和相似度分析等处理,可以根据不同的检索条件,在不同数据库之间进行关联查询检索,并可根据用户自定义的时间、类别对信息数据进行导入导出。报警处置平台可通过系统提供的应用接口调用本系统的部分功能。

(二)平台工作流程

互联网信息监控与取证平台通过对互联网对来自报警处置平台(含前端监测系统)、搜索引擎、人工浏览发现、社会举报、其他部门通报和门户网站提交的各种标准的结构化数据进行实时接收、排重、分类、统计、分析、检索、备份等功能,可根据用户需要对有关网站或网页信息进行核查,以及对相关信息的检索,可将业务需要的信息导入公安有关网站进行进一步处理,并可对前端监测系统的管理规则进行设定,通过报警处置平台管理前端监测系统。

系统工作流程及与报警处置系统控制平台、其他系统的关系如图2所示。

图2 系统工作流程及与报警处置系统控制平台、其他系统的关系图

互联网信息监控与取证平台运行在互联网上,系统同时为公安专网提供检索服务。通过互联网,互联网信息监控与取证平台接收搜索引擎、人工浏览发现、社会举报、其他部门通报和门户网站提交及报警处置中心转发的前端监测系统获取的各种数据,然后进行排重、分类、统计、分析、备份等处理,可根据用户需要对有关网站或网页进行核查,将重要信息导入公安专网进行进一步处理。同时,系统可对前端监测系统的管理规则进行设定,通过报警处置平台(互联网部分)管理前端监测系统。公安专网部分的检索模块负责对各种导入公安专网的信息和其他相关信息进行统一的检索查询。

四、互联网信息监控系统平台的研究内容

系统主要包括以下几个业务模块:数据接收、信息排重分类、查询检索、统计分析、信息核查、系统管理、应用程序接口、用户接口。如图3所示。

图3 系统功能模块与结构图

(一)数据接收

根据报警处置的各种接口标准接收搜索引擎信息、人工浏览信息、社会举报信息,其他部门通报信息和前端监测系统信息。互联网信息分析处理系统实时将各种途径采集的标准格式信息自动接收,存入数据库,并自动摘要,建立索引,可根据用户自定义对需要进一步处置的重要数据,通过人工从互联网报警处置平台导入到公安专网的报警处置平台,然后进行处理。

互联网信息分析处理系统接收各种数据来源,各个数据来源通过标准协议(报警处置中心协议)与处置中心实现通信功能,并根据协议标准来分析接收的数据并产生相应的任务。

(二)信息的排重、分类

对于海量的信息,需要计算机自动处理,信息的自动排重、分类处理决定了信息的质量,尤其对于公安行业信息分析,需要专业化,具有深度,才能为犯罪线索挖掘、串并案分析、专题分析提供帮助。

系统对接收的数据进行实时分析,排除重复的数据内容,通过自动分词、语义分析、分类、聚类分析,将数据分类存入数据库,对于文本类型数据实时建立索引和摘要,用户可对分类策略进行定义、创建、修改、删除等处理。系统应具有内容自动分类的学习功能,通过样本学习增加分类精度和类别,实现对接收的数据进行实时分析,排除内容相同的信息,同时记录信息在不同网站的分布情况。

(三)信息分类

系统可根据数据的来源属性、设置规则属性等进行分类,具有基于规则和内容自动分类功能,能按照不同的分类规则进行自动分类,用户可对分类策略进行管理和维护。同时,通过分类训练工具,可进行自动分词和语义分析的自学习,并允许用户根据自己的分类需求和数据特点设定分类结构和生成特征模板,也可以为用户定制和优化分类模板,提供修个性化选择,还同时支持中英文分类,可根据用户需求扩展到其他语种。

图4 检索模块功能流程图

分类系统的自动分类功能支持基于语义规则的自动分类(机检分类)和基于统计原理(具于内容)的自动分类两种方法。

(四)查询检索

系统提供多种查询检索方式,支持检索结构化数据和非结构化数据。支持分类检索、支持中英文混合检索、字符串检索、词检索、全文检索、联想检索、智能检索、模糊检索、拼音检索、纠错检索以及标题检索、英文词尾模糊检索、日期范围内检索、专题检索和历史检索。多种检索条件可进行逻辑与、逻辑或、逻辑非任意组合,形成组合检索。检索结果可按相关性、信息发布时间等多种方式排序。支持对二进制内容进行检索,检索的结果能按类别、时间、相似性、相关性、重复度进行排序。检索模块功能流程如图4所示。

(五)信息核查功能

信息核查是通过对相关网站或网页的有关信息在互联网上进行核查,判定信息是否存在、是否为需处置信息、境外有害网站是否已经采用技术手段。

1.有害信息的自动核查功能。根据用户提供的网站资料信息,自动判定发布信息的IP地址,物理地址,提供物理属地的变动情况,按照规定时间间隔自动核查境内网站上的有害信息所在网页URL是否能够访问,并提供有害信息每次核查的时间、不能访问的时间,自动按照预设时间间隔对不能访问的网页进行二次核查,标注出能访问的网页。对需要处置的有害信息或网站自动生成处置信息数据项,批量导入公安专网的报警处置平台进行下一步处理。

2.自动或人工核查功能。根据关键词命中率、事先设定的网站和人员、组织情况等条件,自动或人工判定并标注出有害信息或有害网站。对需要处置的生成处置信息数据项,然后导入到公安专网进行处置。

3.境外网站核查:按规定时间自动核实境外网站是否可以访问,对可访问网站进行自动标注,并更新数据库。

(六)分析统计功能

系统具有相似性统计分析和时间序列分析功能,对数据库的所有信息可进行关联分析和比对分析;并可根据不同类型数据提供不同的统计分析功能。用户可根据不同需要自行创建统计分析模型。所有统计、分析结果都应能够以图表等多种方式展现,并且可以进行保存,非法关闭自动提示保存信息。当统计、分析中断时,统计、分析过的结果可以进行保存,当需要时可也继续调用,并从中断处继续统计、分析。统计、分析的结果可以复制、导出。

(七)系统管理功能

1.用户权限管理。具有灵活的用户角色和权限的定义功能,包括用户的创建、修改、删除、暂停等。

2.系统操作日志的记录。包括:用户的创建、修改、删除、暂停等操作;用户的登录,口令的修改;用户对数据的浏览、查询、修改、删除等操作。

3.安全审计。包括对操作日志的审计,违规操作的处理等,并具有系统报警。

4.数据字典维护、历史数据的存储处理等应用管理功能。

5.支持在线方式的数据库增量备份及全盘备份功能。

五、小结

本文针对目前网上信息量呈爆炸性增长,信息来源纷繁复杂,大量有害不健康的信息以多种形式被有意地散布、传播,严重影响国家安全、社会政治稳定的现状,提出了互联网信息监控平台的研究方案。互联网信息监控平台系统提供实现对搜索工具、各类前端监测设备等技术手段获取数据的接收、存储,并及时进行信息的分类、分析、关联等加工处理的功能,通过平台建设能及时、有效地发现互联网信息中的有害内容,并进行深层次的分析,掌握突发、热点事件的发展趋势,有害信息的分布状态,提高网监部门对于特定信息全面掌握的能力。

责任编辑:张 艳

D631.4

A

2095-2031(2014)06-0061-04

2014-09-11

涂敏(1967-),女,江西警察学院教授,从事公安信息化、信息安全、计算机犯罪案件侦查研究;钟海峰(1970-),男,江西警察学院教师,博士,从事计算机取证、信息存储技术研究。

猜你喜欢

检索报警分类
分类算一算
分类讨论求坐标
LKD2-HS型列控中心驱采不一致报警处理
数据分析中的分类讨论
教你一招:数的分类
2015款奔驰E180车安全气囊报警
专利检索中“语义”的表现
死于密室的租住者
奔驰E260车安全气囊报警
国际标准检索