APP下载

面向网络舆情分析系统的本体应用

2014-04-01刘战东

关键词:本体文档舆情

李 勇,刘战东

(新疆师范大学网络信息安全与舆情分析重点实验室,新疆乌鲁木齐830054)

随着互联网的广泛使用,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。通过网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。网络舆情是指通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过论坛、微博、新闻跟贴、转贴等实现并加以强化。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义,已经成为国家和政府了解疏导民意的重要手段[1]。

网络舆情分析系统是针对一定的社会空间内,围绕中介性社会事件的发生、发展和变化,将民众对社会管理者产生和持有的社会政治态度于网络上表达出来的意愿集合,并进行计算机分析的系统统称。网络舆情分析系统一般包括热点、敏感话题识别、舆情主题跟踪、自动摘要、舆情趋势分析、突发事件分析和舆情报警等功能[2]。

目前国内已经有市场化的网络舆情分析系统产品,如方正智思舆情预警辅助决策支持系统、谷尼互联网舆情监控系统等。但现有的舆情分析系统在采集、检索和分析模块中基本都是采用基于统计和关键词的方法,没有充分考虑词语间的语义信息,忽略了语义理解,会造成网络文本语义信息的损失,导致结果的不精确[3]。

近几年,随着语义网和本体技术的发展,本体概念被广泛应用到计算机领域特别是人工智能和知识工程研究中。本体的结构可以定义为一个5元组O={C,R,F,I,A},其中 C 是类或概念的集合,R 是关系的集合,F是函数,表示该关系的前n-1个元素可以惟一确定第n个元素,I是实例,A表示本体公理。本体的目标是捕获相关领域知识的共同理解,在不同层次的形式化模式上给出特定知识领域内各种对象、对象特性以及对象之间可能存在的关系。采用统一本体中的概念和术语描述知识,可以使人机之间以及机器之间的交流被准确描述和解释,有利于知识交换和共享。目前,本体已经被广泛应用于语义Web、智能信息检索、自然语言处理、数字图书馆等领域[4]。

网络舆情分析的目的是要从海量、动态、交互的网络信息中及时识别、发现舆情,它既与自然语言处理技术密切相关,也与信息组织和信息分析技术相联系。借助领域本体对整个舆情分析过程进行指导,通过本体对领域信息进行结构上的预处理,使数据具有语义的内涵,实现语义层次的处理,可以提高舆情分析的效果。网络舆情分析的核心技术是网络文本语义标注和挖掘等技术,目前国内外一些学者对这些技术的研究已经取得了不错的成果,但把这些研究成果与技术进行集成应用在网络舆情分析领域的研究较少。

1 基于本体的网络舆情分析系统设计

1.1 基于本体的网络舆情分析基本流程

基于本体的网络舆情分析基本流程是:(1)在领域专家的指导下构建舆情分析本体库;(2)对获取的网络资源利用本体进行语义标注,提取Web文本内容语义特征库;(3)对用户的查询词进行基于本体的语义空间的扩展;(4)在本体的指导下对提取的Web内容语义特征库进行舆情分析,并将分析结果返回给用户。

1.2 系统功能分析及设计

依据上述流程分析,基于本体的网络舆情分析系统主要包括Web内容获取子系统、Web内容语义标注子系统、Web内容舆情分析子系统和用户交互子系统(图1)。

图1 基于本体的网络舆情分析系统结构Fig.1 Architecture of online public opinion analysis system based on ontology

Web内容获取子系统的主要任务是通过网络爬虫获取相关网页内容,对其进行分句、分词、词性标注、词汇过滤,将预处理结果存储到数据库中,为基于本体的语义标注做准备。

在Web文本内容语义标注子系统中利用本体把所获取的文本内容表示成带语义的信息,使得计算机可以直接处理。语义标注的目的是建立文档与领域本体的映射关系,通过预处理的文本都是非结构化文本,系统直接采用本体指导Web内容的语义标注,通过提取文档的特征词,建立特征词与本体概念的映射。

Web舆情分析子系统是核心,结合实际应用,在本系统中主要涉及敏感话题识别、舆情主题跟踪、舆情趋势分析等关键功能。Web舆情分析实现的关键技术是Web内容挖掘,涉及到数据挖掘中的分类、聚类、关联预测等核心技术。

用户交互子系统主要实现用户和整个系统的交互功能。在系统中引入用户查询词扩展技术,构造基于本体的查询词语义空间,可以最大限度地提高系统的查全率和查准率。

2 系统实现中本体技术的应用

2.1 网络舆情领域本体库构建

领域专家在本体构建方法学的指导下,构建网络舆情领域本体库。Tom Gruber给出了设计本体的基本准则:(1)明确性和客观性,本体应该有效地传达所定义的术语内涵;(2)一致性,即由本体推断出来的概念定义应该与本体中的概念定义一致;(3)可扩展性,指本体提供的共享词汇集,应该在不改变原义的前提下能够单调地进行扩展;(4)最小编码偏差,本体应该处于知识的层次,而与特定的符号级编码无关;(5)最小本体承诺,一个本体在提供必须的共享知识条件下,要求有最小的本体承诺。

本体建立的方法目前没有统一的标准,一般都是参考软件工程的方法。参考常用的本体开发方法后,在本系统中采用的本体建立方法如下:(1)确定舆情分析本体应用的目的和范围;(2)进行本体概念和关系的初步选取;(3)形式化表示及评价;(4)建立本体。

由于领域知识庞大而复杂,不可能对其进行全面建模,在实际系统中应紧贴特定主题舆情分析的需要,选择相关的领域建立领域本体库[5]。如在分析腾讯与360客户端“二选一”互联网热点事件时建立的领域本体示意图(图2)。

图2 腾讯与360客户端“二选一”事件领域本体示意图Fig.2 Domain ontology of Tencent& 360 event

建立好的本体库在网络舆情分析系统中处于核心位置,为Web内容语义标注、舆情分析等提供基础。构造本体时是以 OWL来进行描述的,在对Web内容进行语义标注和基于语义的舆情分析过程中会频繁地访问本体中的概念、实例、属性及各种关系,所以需要将本体存入数据库,以实现对本体的快速访问。在实际使用中可以采用图形化的工具来构建领域本体,如斯坦福大学开发的Protégé软件,而且可以方便地与数据库连接,实现领域本体的持久化。

2.2 网络文本语义标注

语义标注的目的是通过本体为网络文本增加计算机可以理解的语义信息,也就是为本体中的概念寻找文本中的实例或者为本体中的实例寻找相匹配实例的过程。在舆情分析系统中可以采用如下方案来实现网络文本内容的语义标注:

(1)网络文档特征词提取。在传统的空间向量模型文本表示方法中,特征选择和权值计算忽略了文本的语义信息,所以在本系统中通过遍历舆情分析本体库进行文档特征词选择,形成特征词集合。

(2)基于舆情分析本体库进行特征词权值计算,形成文档与领域本体的映射关系。文档dj表示成特征向量:dj={(t1,w1j),…,(ts,wsj)},其中t1…ts表示经过本体进行匹配后特征词,w1j…wsj表示经过在本体计算后得到的概念权值[6]。

采用这种方案不仅可以揭示文档的隐含语义信息,而且能较准确地划分文档与所属类别,为舆情分析中的热点话题发现提供基础。

2.3 基于语义相似度的热点话题发现

Web文本挖掘的目的是对文本内容进行分析,发现有价值的模式和规则,并进行预测。而现有的文本挖掘都是基于语法层面,没有进行语义层面的挖掘,准确率不高。在舆情分析系统中,热点、敏感话题发现主要是采用文本挖掘的聚类来实现,在本系统中提出基于语义的热点、敏感话题发现,实现流程如下:(1)在上述语义标注的结果上进行基于本体库的文档与文档之间的语义相似度和相关度计算;(2)按照预设的阈值进行聚类处理,形成相应的簇;(3)形成文档集合的划分后,再次利用上述基于本体的语义特征词概念权值计算方法进行文档集合的特征提取,从而形成舆情分析中的热点、敏感话题,在本体库的支持下进行情感倾向性分析。

在该过程中多次涉及到语义概念特征的相似度与相关度计算,对于概念的语义相似度[7]

其中:α(x)是以x为起点向上可达的结点集合;α(x)∩α(y)是以x和y为起点,向上可达的结点集合的交集;ρ∈[0,1]是可调参数。式(1)充分考虑了概念间的语义重合度、概念层次深度和相似度的不对称性。

在领域本体中任意2个概念特征相关度

其中,ShortPath(x,y)表示从x到y的最短路径距离,当x和y不相通时该值为∞,λ为可调参数。

2.4 查询词语义空间扩展

基于本体的查询词扩展方法的基本思想是:在用户初始查询的基础上抽取概念来建立用户查询空间,以保证加入的扩展词不再局限于相似度高或者同时出现概率高的词,基于准确性的考虑,对扩展词进行分组查询扩展并对查询结果整合排序以提高查准率[8]。也就是对查询词在领域本体中进行概念级别的语义扩展,按照不同权重的扩展查询词组提高用户查询的语义表达能力。

构造基于本体的语义空间扩展流程见图3。

图3 基于本体的语义空间扩展流程Fig.3 Flowchart for ontology-based semantic space expansion

在进行查询词语义空间扩展后,如针对图2所示的领域本体片段,腾讯与360客户端“二选一”互联网热点事件属于“互联网科技热点事件”概念的实例,可以从本体中提取出该实例的各种属性,如时间、起因等,计算和相关概念的相似度与相关度后,还可以找到相关的人物或事件的演变结果,如“周鸿祎”、“工信部和公安部已介入360腾讯之争”等,丰富了查询语义信息。实际应用中最经常使用的扩展还是查询概念的同义概念扩展、上下位概念扩展和概念与实例的扩展[9]。

3 结语

在构建网络舆情分析系统中引入本体技术,建立概念共享空间,可以有效地挖掘网络内容的语义信息,提高舆情分析的准确率。本文中给出了基于本体的网络舆情分析系统结构,并对系统实现中的本体应用技术进行了一些实验性的研究。由于在系统的实际使用中需要大型网络舆情本体库的支持,下一步的研究重点是结合自然语言处理、机器学习等技术提高网络舆情分析领域本体的自动或半自动化构建。

[1] 百度百科.网络舆情监测系统[EB/OL].[2012-12-05].http://baike.baidu.com/view/2416058.htm.

[2] Goonie.Goonie 舆论情报专家[EB/OL].[2012-12-10].http://www.goonie.cn/.

[3] 陈忆金,曹树金,陈少驰,等.网络舆情信息监测研究进展[J].图书情报知识,2011,20(6):41-49.CHEN Yi-jin,CAO Shu-jin,CHEN Shao-chi,et al.Survey on online public opinion information monitoring[J].Document,Information & Knowledge,2011,20(6):41-49.

[4] 郑庆华,刘均,田峰,等.Web知识挖掘[M].北京:科学出版社,2010.6.

[5] 王兰成,徐震.基于本体的主题网络舆情知识模型构建研究[J].信息工程大学学报,2012,13(2):229-233.WANG Lan-cheng,XU Zhen.Research on ontology-based knowledge modeling of thematic networks of public opinion[J].Journal of Information Engineering University,2012,13(2):229-233.

[6] 时念云,杨晨.基于领域本体的语义标注方法研究[J].计算机工程与设计,2007,28(24):5985-5987.SHI Nian-yun,YANG Chen.Towards domain ontologybased semantic annotation research[J].Computer Engineering and Design,2007,28(24):5985-5987.

[7] Andreasen T,Bulskov H,From Ontology over Similarity to Query Evaluation[C].Elsevier Science,2003.

[8] 甘建候,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011.

[9] 刘恒文.基于网络语义挖掘的典情监测预警研究[D].武汉:武汉理工大学,2010.

猜你喜欢

本体文档舆情
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
眼睛是“本体”
基于本体的机械产品工艺知识表示
消费舆情
基于RI码计算的Word复制文档鉴别
舆情
舆情
舆情
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat