APP下载

大数据时代知识图谱分析

2020-09-08耿江涛匡增意骆清霞

理论与创新 2020年12期
关键词:大数据

耿江涛 匡增意 骆清霞

【摘  要】大数据技术的发展,催生了Google以语义网和领域本体为其关键技术的大规模语义网络知识库——知识图谱(Knowledge Graph)的诞生和发展,不但在计算机科学领域发挥重大作用,且日益应用到其他领域。同时,在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的科学知识图谱(Mapping Knowledge Domain)也在近二十年间得到了长足的发展。随着研究领域的融合,有必要分析两者的研究内涵,厘清两者的关系,在知识管理方面优势互补,发挥更大的作用。

【关键词】科学知识图谱; Google知识图谱; 语义网; 大数据

引言

就中文字面而言,知识图谱的研究既有在图书情报领域广泛使用的科学知识图谱,又有在计算机科学领域的Google知识图谱。虽然两者在发展过程中都简称为知识图谱,但其英文内涵、使用技术及应用都有本质的不同。

科学知识图谱是在图书情报领域基于引文分析可视化、知识地图和知识网络等研究产生的,采用可视化的图谱,形象地展示所研究学科的框架、历史、现状和未来。

Google知识图谱是在计算机科学领域,人工智能的深度学习技术赋能传统语义网(Semantic Web)的研究,通过构建本体(Ontology)建构大规模语义网络知识库,并对相关信息进行可视化研究,是大数据时代知识管理的必然产物。

1.科学知识图谱概述

科学知识图谱通过文献分析及可视化技术,绘制文献计量图(Bibliometric mapping)及文献地图(Literature mapping),以科学地图(Science mapping)表现形式,紧扣英文Mapping地图和向导的内涵,特别易于展现学科的结构、历史沿革和发展趋势、以及研究前沿等内容。

1.1基本概念

从知识管理的视角而言,科学知识图谱是以学科文献为研究对象,用“图”(可视化图形)和“谱”(结构化的谱系)的方式展示学科的发展与结构。

1.2知识可视化

知识有语言、文字、图像等多种表达形式,但人类对视觉图形则有更强的理解和识记能力,百闻不如一见、一图胜万言。在知识学习方面,广泛使用概念图、思维导图等图形工具展现概念、设计及关系等。

1.3科学知识图谱

科学知识图谱以文献分析的引文分析和共引分析构建学科的知识基础,通过建立数学模型和网络结构,并绘制可视化图形,以形象化地显示学科结构、热点、历史与趋势。

1.4知识管理及使用流程

样本数据获取。主要数据来源:Web of Science;科学文献数据:SCI, SSCI;国际会议文献数据:CPCI;其他国际文献数据库:Scopus,Science Direct

国内数据库:CNKI、CSSCI、CSCD、万方等。

网络数据源:Google Scholar、arXiv。

(2)样本数据清洗。样本数据的质量决定了分析的质量。为此,需要对文献数据库采集的数据进行清洗预处理操作。包括对数据分段,修正原始数据的明显错误,以及进行去掉重复数据的处理。

(3)选择知识单元。选择知识单元是进行知识处理的最基本工作。首先选择话题(Topic):包括题名(Title)、关键词、【摘  要】、作者等,此外资源类型、学科和研究方向等多种内容。

(4)构建知识单元关系。通过引文分析理论与方法,采用引文网络的共引分析、贡献分析、耦合分析等构建知识单元之间的关系。

(5)数据标准化。通过正交化、零值偏移化等方法,对知识单元的数据进行标准化。

(6)简化分析。主要使用因子分析,使用主成分分析、多维尺度分析以及神经网络聚类算法等分析方法。

(7)知识可视化。通过使用几何图、战略图、主题河图和地形图等多种可视化展示工具,系统地展示知识单元及其关系。

(8)科学知识图谱解读。主要从网络分析,历时、空间和突变分析等多方面,对科学知识图谱进行分析和解读。

2.Google知识图谱概述

为提升搜索质量,Google从图(Graph)模型出发,对传统语义网重新赋能,构建了统一结构化的知识图谱,即大规模语义网络知识库,成为大数据智能时代的前沿。

2.1本体

本体描述了概念及之间的关系,是对客观世界存在及关系的抽象和建模。本体精确定义概念、关系及约束。通过形式化描述,便于人机交互和计算推理,同时也是领域内不同主体进行通讯的语义基础。

本体 = 概念 + 实例 + 关系 + 【公理】

目前通用领域的本体库产品,都是由数据驱动自动构建的,然后由人工审核进行修正。

2.2资源描述框架RDF

RDF(Resource Description Framework)是用于Web上数据交换的标准模型。RDF链接结构形成一个有向标记标签图,其中边表示由图节点表示的两个知识单元之间的关系。

2.3知识图谱研究的关键技术

大数据时代,如何从互联网上积累的海量数据中提取出知识,组织为可用的知识库,是知识图谱所要解决的主要问题。关键技术包括:

(1)知识抽取。是指从各种结构化、半结构化和非结构化的海量数据中获取知识。包括实体提取、属性提取、实体关系提取。

实体抽取:采用命名实体识别技术,将实体及其属性从文本中挖掘出来。

实体关系提取:提取实体间的语义关联。在知识库的构建过程中,实体关系提取与实体提取处于同样重要的地位,也是知识库构建与补全的关键步骤之一。

(2)知识融合。知识融合是将抽取到的知识,与知识库已有的知识相整合。特别要解决实体的歧义性,包括相同的实体具有不同的名字,或者相同的名字指向不同的实体。解决这一问题需要用到的技术,主要分基于概率模型和基于机器学习模型两类。

(3)知识加工。经过知识抽取与知识融合后,知识库中就包含了一系列事实。但要形成可用的知识图谱,还需要对知识进行進一步的加工处理。这一过程主要有本体构建,和知识推理。

3.结语

大数据时代,Google知识图谱赋予语义网技术新的活力,且随着深度学习技术的发展,广泛地应用到各个学科领域。而科学知识图谱则以知识可视化为核心方法,经过近二十年的发展,支撑理论、体系方法和应用成果都取得明显的成效。当前,二者的交叉融合,互促发展,也为人工智能时代提供了创新的机会和研究领域。

参考文献

[1] 冯新翎,何胜,熊太纯,等.“科学知识图谱”与“Google知识图谱”比较分析---基于知识管理理论视角[J].情报杂志,2017,36(1):149-153.

[2] 杨思洛,韩瑞珍.国外知识图谱的应用研究现状分析[J].情报资料工作,2013(06):15-20.

基金项目: ① 广东省教育厅2019年度普通高校特色创新类项目(2019GKTSCX152)成果;②广东省教育厅2018年度广东省特色创新项目(2018GWTSCX055)成果;③ 广东省教育厅2018年省高职质量工程教改项目(GDJG2019309)成果。

作者简介:耿江涛,副教授,博士生,广州涉外经济职业技术学院华文与国际教育学院院长。研究方向:大数据应用;

*通讯作者:匡增意,副教授,广州涉外经济职业技术学院常务副校长。研究方向:高职教育管理。

骆清霞,助教,广州涉外经济职业技术学院实践教学管理室。研究方向:实践教学管理。

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索