APP下载

基于TextRank和LDA的信息安全热点感知研究

2019-12-09杨立宝余章馗狄晓晓

网络空间安全 2019年5期
关键词:热点可视化信息安全

杨立宝 余章馗 狄晓晓

摘   要:文章以信息安全相关文章数据为研究对象,分析了目前信息安全研究工作中新闻动态热点的数据处理和分析需求,结合信息安全领域特点,基于自然语言处理技术提出了基于TextRank和LDA的信息安全领域热点感知和可视化技术,并对信息安全领域新闻动态热点进行了关键词分析、关键词共现分析以及主题分析。实验结果表明,该技术可实现信息安全研究热点快速定位与感知,达到辅助深入研究分析的目的。

关键词:信息安全;热点分析;TextRank;LDA

中图分类号:TP391.1          文献标识码:A

Research on hotspot sensing of information security based on TextRank and LDA

Yang Libao, Yu Zhangkui, Di Xiaoxiao

(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)

Yang Libao, Yu Zhangkui, Di Xiaoxiao

(China Industrial Control Systems Cyber Emergency Response Team, Beijing 100040)

1 引言

大数据时代下,信息呈爆炸式增长,各行业研究人员如何高效提取高价值信息,快速把握所在领域前沿动态、热点主题和发展趋势,为研究工作奠定良好基础,已经成为信息技术研究的一个热点话题。目前,在数据采集方面,网络爬虫技术已得到普遍应用[1],公开网络信息的采集效率有了极大提升;在数据处理和和分析方面,使用较多的则是自然语言处理技术、机器学习等技术。本文通过关键词分析和主题模型分析,深度挖掘大量信息安全新闻动态数据的深层信息,及时精准感知信息安全领域热点,对辅助监测预警工作具有重大意义。

2  信息安全热点研究的需求

在全球范围内,信息安全领域的各种新政策、新技术、新事件不断涌现,做好信息安全热点感知研究,一方面可以明确当前信息安全领域政策、技术、产业的现状和趋势,为国家信息安全相关决策提供现实依据,是提升国家信息安全保障能力的重要环节;另一方面可以更好地把握当前信息安全前沿方向和关注焦点,为信息安全防护理论、方法的学术创新提供支撑。

2.1 现有研究概述

热点话题是指一个话题在一段时间内频繁出现,也就是一定时期内由多个新闻来源、多篇新闻同时报道的话题[2]。本文将信息安全热点定义为在一段时间内出现频次较高,被多个新闻来源广泛关注和报道的信息安全动态新闻。国外热点话题研究起步较早,1996年美国国防高级研究计划局(DARPA)就倡议研究话题发现与跟踪技术[3]。国内热点话题研究虽起步较晚,但是目前经过学者的努力也取得了一定的研究成果。其中影响较大的包括李保利和俞士汶各种聚类算法的比较分析,贾自艳、何清和张俊海关于事件探测和追踪算法的研究等[4]。

就目前研究而言,大致可以分为三类:其一,针对新闻、社交、论坛等网络产品和服务的分析,此类热点研究深度挖掘用户行为偏好,旨在优化信息推荐机制,改进产品功能,提升用户体验;其二,针对新闻报道、社交网络(微信和微博)的分析,旨在快速捕捉和精准跟踪网络舆情热点,为舆情管控和相关决策提供支撑;三是,学术研究领域以一定时间范围内的研究成果为分析对象,通过关键词分析、共现分析、可视化分析等手段,明确某一领域研究现状,追踪前沿课题,把握研究趋势。信息安全关乎国家安全,是信息社会的重大研究课题,本文落脚于信息安全热点感知,兼具第二类和第三类的特点。

2.2 技术难点

海量数据爆炸性涌现,新闻数据处理分析和热点提取都极具复杂性和特殊性。文本数据处理时,专业分词是首要难点,专业领域词汇切分是否正确,直接决定后续分析的准确性;关键词权重计算是主要难点,仅依靠传统的词频统计难以准确识别词语在文章中的依存关系,无法准确挖掘出关键核心的词汇。因此,在关键词提取的基础上,还需要对关键词之间的主题概念进行聚合挖掘,更细粒度地分析数据中蕴含的研究主题以及主题本身的关键词,同时借助有效的可视化工具,直观展现这种主题分析结果。

3 热点感知挖掘算法的设计

信息安全领域新闻动态热点感知挖掘算法流程设计如图1所示,主要包括数据源(网络采集的信息安全相关文章数据),数据处理层(主要做分词、去停用词、加入自定义词库等处理),算法层(TextRank、词共现、LDA等),数据分析层(关键词分析、关键词共现分析以及主题分析)以及可视化层(关键词可视化、主题可视化等),经过整个挖掘流程,实现两种信息安全热點感知形式的具象化,达到信息安全领域热点感知的目标,辅助更深层次的研究工作。

4  热点挖掘过程

热点挖掘过程分为两部分,第一部分主要是做基于TextRank的关键词提取和基于词共现的可视化分析,实现整体数据集中的关键词提取;第二部分是基于LDA主题模型分析的主题关键词及相关可视化,实现主题聚合的关键词挖掘。通过对两过程的分析,实现热点挖掘和分析过程的快速化。通过建立统计中间表、利用矩阵+树型遍历算法,可实现数据分析快速化的目的[4]。

4.1 数据来源

本文数据为通过网络采集的相关动态文章,共651篇,包括文章的标题、正文、时间三个维度,时间跨度为2018-07-05至2019-04-22。文章采集的数据源均为信息安全领域的相关网站,因此省去做信息安全领域相关与否的二元判断环节,可直接进入内容层面的热点挖掘。

4.2 关键词分析

关键词分析就是从给定的文本中自动抽取出若干有意义的词语或词组。本节将对所有文章数据进行整合,经过数据处理以及TextRank算法计算来实现关键词抽取,从而在一定程度上反映信息安全领域热点。

TextRank算法[5]是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序。与LDA、HMM等模型不同,TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,仅利用文档数据集本身的信息即可实现关键词提取,不需要事先对多篇文档进行学习训练,因其简洁和有效而得到广泛应用。

关键词分析需要经过Python的jieba中文分词包进行分词,在分词前通过jieba的load_userdict函数加入信息安全领域相关自定义词典,比如“关键基础设施”“网络攻击”“安全漏洞”等。同时,设置常用中英文停用词,主要包括用来表达语气的字词、连接型字词、标点符号、特殊字符等没有实际意义的文本,比如“着”“哈”“了”等。分词后形成一个有序的词语集合,经过TextRank算法计算每个词语的重要程度值并进行排序,最终得到关键词和对应的权重。关键词的权重越高,说明在文本中越重要。关键词分析有助于分析该数据集的关键特征。

TextRank模型可以表示为一个有向有权图,由点集合V和边集合E组成,E是的子集。图中任两点,之间边的权重为,对于一个给定的点, 为指向该点的点集合,为点指向的点集合。点的得分定义如下:

其中,d为阻尼系数,取值范围为0到1,代表从某一特定点指向其他任意点的概率,一般取值为0.85。使用TextRank算法计算图中各点得分时,需要给图中的点指定任意的初值,并递归计算直到收敛。通过使用TextRank算法对数据进行关键词提取,得出了前20个关键词,如图2所示。

从图2可以看出,排名前五的关键词之中“美国”这个主题词被识别为权重最高的关键词,接下来依次为“数据”“攻击”“泄露”“漏洞”四个词,这些关键词在一定程度上反映出信息安全领域关注和研究的一些热点。同时,可以看到前20个关键词里面出现不少国家名称,说明这些国家在这些文章中也被高频率地提到,在整体数据上也是很重要的关键词,是应该关注的重点。本文将通过关键词共现分析和主题模型来深入分析这些关键词之间是否存在某种关系。

4.3 关键词共现分析

这一部分是在关键词分析的基础上做关键词共现分析,按关键词权重从高到底排序,计算前100个关键词之间的共现矩阵和共现列表,并计算每个节点的平均加权度。使用Gephi进行可视化形成共现的语义网络图,如图3所示。同步出现词模式表明在文章中最频繁出现或与其最相关的关键词之间有着语义上的紧密联系。

关键词共现次数按从大到小排序,图3展示的是前250条共现关系的网络,图中节点大小表示节点加权度,连线的粗细表示节点之间共现权重。通过此图可以更加直观地查看关键词之间的共现关系,在一定程度上反映出各个关键词之间相关关系,共现频次越高,说明二者之间的联系紧密程度越高。如表1所示,给出前20条词共现列表。

通过图3与表1,可以看到“美国”与“数据”“攻击”“信息”“系统”等关键词之间存在显著的共现关系,从一定程度上可以反映出,美国比较关注或正在研究数据安全领域,这个话题可以作为信息安全领域的一个研究热点,研究人员可以从这个热点着手进行深入研究,从而推进我国数据安全领域的研究工作;同样,可以看到“攻击”与“数据”“设备”“信息”“漏洞”“研究”等关键词共现频繁,从一定程度上可以反映出,现在攻击者对设备的攻击行为可能主要是利用了某些漏洞,造成相关信息和数据泄露等问题,从这些关系入手,研究者可以重点关注“哪些被漏洞容易被利用”“哪些设备容易成为攻击目标”“攻击容易造成哪些数据泄露”等研究方向。

4.4 主题分析

LDA 模型是由Blei等人提出的一种对自然语言进行建模的生成模型,适合挖掘大规模文档集中潜藏的主题信息[6]。本文通过LDA模型找出数据中的主题分布。在LDA模型中,需要先假设主题数目K,这样所有的分布将基于K个主题展开。具体LDA模型如图4所示。

LDA模型假设文档中主题和主题中词的先验分布都是Dirichlet分布,即对于任意一篇文档d, 其主题分布为,对于任意一个主题k, 其词分布为,α和η分别为对应分布的超参数。对于数据的任意一篇文档d中的第n个词,可以从主题分布中得到它的主题编号的分布为,而对于该主题编号,得到我们得到的词的概率分布为。

这个模型里,有M个文档与主题的Dirichlet分布,而对应的数据有M个主题编号的多项分布,这样就组成了Dirichlet-multi共轭,可以使用贝叶斯推断的方法得到基于Dirichlet分布的文档主题后验分布。同理,对于主题与词的分布,有K个主题与词的Dirichlet分布,而对应的数据有K个主题编号的多项分布,这样就组成了Dirichlet-multi共轭,可以使用贝叶斯推断的方法得到基于Dirichlet分布的主题词的后验分布。由于主题产生词不依赖具体某一个文档,因此文档主题分布和主题词分布是独立的。

主题分析通过使用LDA主题模型算法,计算所有文章中出现的主要词汇簇,这些词汇集合构成了一个主题,同时给出每个词汇的权重,以及每篇文章所属主题的主题系数及类别。本文基于Python的Sklearn编写程序,分别对K等于1-20的主题参数进行了实验。通过pyLDAvis实现对主题模型结果的可视化,如图5所示,在K=5的時候,主题分布相对平衡,主题之间交叠较少,主题聚合效果较好。

图5展示了5个不同主题之间的距离关系,交叠关系,可以看到5个主题分布相对平衡,可以很好地区分各个主题。图中左侧为聚合的主题,点击每个主题,右侧即可呈现对应的前25个主题词及其对应的权重,这样的主题分析结果可视化形式,很容易帮助研究人员从这5个主题中辨析出信息安全研究的热点主题。右侧为点击主题3后的结果,主要展示了主题TOP25关键词以及权重,从这些关键词可以看到该主题主要讲述的网络攻击,攻击的目标主要是关键基础设施,其中OT(操作技术)、ICS(工业控制系统)等工控网络系统是重要目标。这也提示研究人员需要把关键基础设施领域的工控网络和控制系统安全作为重点研究,同时作为国家、社会和企业重点保护的目标。此外,通过分析其他几个主题,可以看到目前工控安全已成为全球关注的热点。主题分析结果对工控系统遭受的攻击进行了比较全面的展示,对研究人员及时关注工控领域相关攻击途径、攻击目标、攻击方法以及防范措施都起到一定的启示作用。

5 结束语

本文在网络数据采集的基础上,使用自然语言处理技术,设计了一套信息安全领域高价值信息提取感知策略。首先,加入信息安全领域自定义词库,对数据进行分词、去停用词等预处理过程,利用TextRank算法进行关键词提取,得到高敏价值热点词。其次,在关键词基础上使用词共现技术,计算前100个关键词在数据中的共现矩阵,获取关键词的语义关系共现网络,分析得到重要共现热点。最后,通过构建LDA主题模型,挖掘数据中蕴含的各种主题及主题相关的关键词,并通过可视化技术将主题具象化,实现信息安全热点的精准识别与感知,达到辅助研究的目的。

参考文献

[1] 周德懋, 李舟军. 高性能网络爬虫:研究综述[J]. 计算机科学, 2009, 36(8):26-29.

[2] 罗亚平. 基于用户浏览行为的网络热点话题发现模型研究[D]. 北京邮电大学, 2008.

[3] 刘旭. 基于互联网数据的话题发现及追踪技术研究与实现[D]. 复旦大学, 2010.

[4] 孙明溪, 刘春琦. 基于DBSCAN算法与句间关系的热点话题发现研究[J]. 图书情报工作, 2017(12).

[5] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 数据分析与知识发现, 2013, 29(9):30-34.

[6] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.

作者簡介:

杨立宝(1990-),男,汉族,河北唐山人,北京理工大学,硕士,国家工业信息安全发展研究中心,助理工程师;主要研究方向和关注领域:大数据与信息安全、工业信息安全。

余章馗(1992-),男,汉族,云南腾冲人,中国人民大学,硕士,国家工业信息安全发展研究中心,助理工程师;主要研究方向和关注领域:工业信息安全、工控安全、工业大数据安全。

狄晓晓(1993-),女,汉族,山东莱芜人,北京航空航天大学,硕士,国家工业信息安全发展研究中心,助理工程师;主要研究方向和关注领域:工业信息安全、工业大数据安全。

猜你喜欢

热点可视化信息安全
数据可视化设计在美妆类APP中的应用
思维可视化
信息安全不止单纯的技术问题
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
基于模糊综合评价法的信息安全风险评估模型
基于模糊综合评价法的信息安全风险评估模型
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
4月高考热点关注