APP下载

采用本体技术开展社科信息资源管理的若干思考与探索

2020-07-14雷枫孙辉

中国管理信息化 2020年11期
关键词:知识管理

雷枫 孙辉

[摘    要] 在指出当前人文社科领域信息管理和服务不足的基础上,提出知识管理是人文社科资源提供高质量知识服务的必由之路。文章从资源组织的各个环节讨论了知识管理的关键技术——构建社科本体,并给出其应用前景和应用模式,最后介绍了基于国史学科进行的国史本体研究的具体进展。

[关键词] 知识管理;信息组织;本体技术;人文社会科学;中华人民共和国史

1      人文社科领域信息管理和服务现状

过去几年,互联网上人文社科信息资源数量迅速增长,中国社会科学院建成了大量专业数据库和专业学科网,但这些信息系统在信息组织方面大多采用传统方法;部分商业数据公司虽然提供了基于统计的知识管理,但总体来说这些资源的信息处理和组织层次较低,信息服务远未达到知识服务的水平。

1.1   關于信息导航

仅提供传统的基于分类的信息导航,不能按照某一个概念及其相关概念进行导航,即不能提供关于知识的导航。

1.2   关于检索方法

仅提供关键词检索和全文检索,这两种传统的物理检索方式效率不高。由于用户与标引人员对语义的理解存在歧义,而同一概念有多种表达,基于关键词的检索容易造成漏检;基于全文检索造成海量检索结果,大量无关信息充斥其中,用户要花大量时间甄别,查准率低下;提供的检索结果为线性、散列的文档列表,呈现的是原始状态信息,用户必须通过研读、总结提炼才能获取知识。

1.3   主题词的使用停滞在文献著录环节

尽管《中国分类主题词表》第二版及其Web版本已研制成功,但该词表还是仅用于文献著录环节,没有在检索环节被大规模采用,关键词检索仍然是当前的主要手段,检索效率问题难以解决。

1.4   基于统计的知识管理所体现的知识关联不准确

当前一些商业搜索引擎和商业数据库(如百度和同方知网)都提供“相关搜索”或“相似词推荐”等大规模应答结果的聚类组织。这种知识导航虽使文献之间学术关联特性得到一定程度释放和展示,但都是基于用户访问数据挖掘或文献共引数据挖掘,存在一定的偶然性和不准确性,而且仅提示“相似”或“相关”信息,没能进一步提示概念之间具体的联系。

1.5   缺乏统筹规划和相关标准,资源建设 “各自为政”

社科院各学科开发的信息数量可观,但异质、异构,技术代际复杂,且几乎都是半结构化数据,信息孤岛大量存在,重复严重。统筹部门建立的信息系统也不具备从这些分布信息源中提取所需信息的“常识性知识”,从而不能自动从不同信息源中提取、集成相关信息并综合分析,影响资源使用效率。同时当信息源越来越大,将信息结构化是一件艰苦而耗时的工作。这些问题不仅使得跨库检索难以完成、也使得知识资源的深度开发利用失去可能,成为进行我院信息资源集成、共享、交换的瓶颈。

人文社科信息管理和服务水平低下,根本原因在于没有用一种有效的手段对信息进行组织,还停留在传统的信息管理阶段。如果想让用户更直观地、清晰地看到相关知识间的关系,个性化地选择相关资源,就必须基于知识的结构和关系来管理信息资源。这一症结指向了人文社科知识管理问题。

2      从信息管理过渡到知识管理是人文社科资源建设的必由之路

知识管理本质是将信息组织的颗粒度从文献单元深入到文献中的知识元,其实现手段就是在用户和现有的海量信息资源实体之间建立一张概念网,把文献信息资源“网”到一起,在检索时只需找到这张概念网的某一个“网格”,就可以找到对应这个“网格”的所有文献信息,如图1所示。这个概念网格与文献信息资源结合起来构成一个完整的知识管理系统,大量文献中包含的知识元及相关知识元之间的关联将产生极大的知识增值,在此基础上将实现基于知识的共享、重用、语义检索和推理等目标。

人文社科知识管理反映在知识表示、知识组织、知识检索等层次上,涉及语义网、本体论、元数据等相关理论和技术,其核心内容是构造概念网格——社科本体论。本体论是用机器语言规范知识概念表示、进行知识组织、开展知识服务的科学方法论,其已成为知识网格建立和管理的关键技术。利用本体论建立人文社会科学各学科知识库,用学科规范化的概念及其关系构造一个网状的知识原型系统,带有丰富语义关系和分类层次,使之成为每个学科的知识组织范式,通过其“网罗”人文社科信息资源实体,形成社科语义网。

2.1   在知识表示环节

通过对各学科知识进行分析,将抽象出的知识元及其关系组织在本体框架下。这些知识元分为三类:理论与方法类、事实类、数值类,包括学科概念、方法、规则、公理、事实等。所有知识元的同义特征、簇性特征以及丰富的关联特征都以结构化的本体形式表达,包含的相关公理和规则供推理。这样的学科本体就是一个学科知识的全部反映,其揭示的概念之间的关系是实现语义挖掘和关联导航的基础。

2.2   在知识组织环节

利用元数据对文献内容所含有的知识元进行标注:用基于本体的分类体系对文献进行学科分类,用基于本体的主题词概念进行对文献进行知识规范化描述。形成的描述信息实际就是知识的特征影像,可以刻画文献所包含的知识的全部特征。这一细粒度的标引揭示出文献中知识及其关联。然后利用元数据体系将信息资源实体与基于本体的知识网格建立关联,从而对文献资源进行全面管理。文献信息资源就成为一个以知识本体网络为中心,结合作者、机构、刊名、关键词、相关作者、相关机构、相关关键词等外在特征单元的知识网络,可大大提高文献资源的知识增值效应,为信息资源的深度开发利用提供保证。

2.3   在知识检索服务环节

通过基于本体的知识呈现和导航,可实现智能推送和知识罗盘。用户在文献信息检索时还是输入关键词,但这时的检索过程和传统的基于字面匹配的关键词检索有本质的区别。首先,系统会根据学科知识本体网格中内置的概念关系找到与关键词相同和相关的概念,自动修正查询式或再构造出一个或多个查询式来实现对知识的扩展检索,从而找到用户真正需要的信息,提供包括数值、学术图形、表格、历史事件、概念、学说、模型、规则、学术趋势,以及资源类型、期刊、基金、作者、机构等的搜索结果,并提供多角度的文献聚类;其次,系统以可视化形式在检索结果界面中显示以检索概念为中心的本体概念体系的相关部分,用户可沿着这个知识地图进行相关检索——知识地图和文献检索结果呈现出类似知识罗盘的效果,从而将传统上线性、一维、散列的结果立体化、多维化,大大提高检索效率。

在以上所有环节中,知识表示极其重要,是实现知识组织和智能检索的基础,而本体论和语义网技术在知识表示、知识组织环节所起的作用也是最大的。基于本体论和语义网的知识服务的质量很大程度上取决于本体构建的质量。

建立人文社科知识管理系统,应加强知识库——人文社科本体的构建,据此建立人文社科信息资源管理标准,将大大加强知识揭示的维度和深度,增加人文社科领域内信息的相互作用,从而盘活人文社科信息资源,促进资源的深度开发和综合利用。本体形成的对于人文社科信息组织结构的共同理解,为现有社科信息资源进行知识挖掘、实现语义层面上的互通互连提供了基础,为中国社会科学院进一步建立社科语义网络、提供高级社科语义服务提供保障。

3      人文社科本体论在社科知识管理中的应用

3.1   基于知识管理标准的信息资源建设

在资源库建设中,利用人文社会科学本体对文献信息进行知识(即内容的主题、分类或学科其他知识特征)标引,如使用本体中的概念作为主题词,使用本体中的概念层次体系作为其学科分类,实现人文社科信息资源统一规范下的知识描述,从而勾画出人文社科信息资源的知识映像。

3.2   改善信息服务方式

人文社科本体实际上是一个以揭示各学科专业词汇所代表的概念之间关系为基本内容的专业知识库系统,是一种大百科式词典。词典是中文信息处理的基石,是文本挖掘的基础,将其嵌入学科网或社科期刊网可构造出社科“知识节”,不仅提供知识推送,还能使检索结果的呈现反映出学科概念间的关系,自动进行语义归类聚类,有效解决关联组合爆炸的实际问题,从而构造“社科知网”。当前同方的“中国知网”构造的“知识节”是基于用户访问数据挖掘或文献共引数据挖掘,通过统计方法研究海量概念关系、分析通用关联规则、构造海量概念关系词典来实现的。通过该知识节揭示的文献之间引证关系而提供的推送服务,在追索课题历史、研究背景,把握目前进展和未来发展方向方面颇有助益。但该知识节提供的概念关系不如学科本体表现的关系丰富和准确,也就是说基于学科本体才能构造出真正的语义网,实现真正的知识导航,从而有助于对学术的激发、引导、类比和联想。

此外,充分发挥人文社科本体作为检索模型的工具作用,比如与搜索引擎结合,可进一步构造人文社科搜索引擎,不仅能够实现社科信息的准确检索,而且可以引发用户对新的社科信息内容的兴趣,即通过丰富的词间联系,链接相关的人文社科信息,提供知识导航,为用户使用信息提供线索。如果条件成熟,可应用于“中国社科网”,或商品化应用于互联网。

3.3   國史学科本体应用初探

人文社会科学各学科涉及理论(学说)、方法、规则、公理、知识(事实)等范畴,所以一般来说人文社科本体构建工作应按照学科等级分支原则自上而下顺次进行,多领域专家小组共同完成。比如国史(1949年以后的中华人民共和国史)学科是一个二级学科,包括政治史、经济史、社会史、文化史等分支,其学理概念必然散落在政治、经济、社会、历史、哲学等一级学科概念中。但笔者认为(知识)事实是历史学科中最有特色的部分,也是可以独立完成的部分。笔者所在实验室对国史学科的事实(知识)部分进行了本体构建探索,以中华人民共和国编年史、党史人物传、组织机构史等国史文献为知识源,研究分析出事件、人物、历史文献、组织、理念等核心概念及其之间错综复杂的关系,设计出国史知识本体概念关系模型(如图2所示)。该模型离一个完备实用的模型还有很大差距,如子事件的划分、多维概念的分解等都是难点,需要国史专家和技术人员共同完成。图3是以上述概念模型为基础构建的一个简单的国史知识本体原型系统,图中展示了该系统提供的国史知识可视化互动检索功能。如输入检索词“决议”,系统以可视化方式显示出与“通过《关于建国以来党的若干历史问题的决议》”这个事件相关的概念,如该事件的“涉及文献”有“《关于建国以来党的若干历史问题的决议》”,该事件的“相关事件”有“十一届六中全会”、“邓小平会见法拉奇”、“叶剑英国庆三十周年讲话”、“真理标准大讨论”等等。节点之间连线显示出概念之间的不同的关系,如图中 “通过《决议》”和“拨乱反正”之间的连线,系统提示是“涉及理念”的关系。进一步输入检索词“胡耀邦”,系统从图3检索结果提取出与“胡耀邦”相关的概念,提供了延伸导航功能(如图4所示)。继续点击图3中其他节点,系统进一步呈现其相关概念(如图5所示)。

笔者所在实验室对人文社科本体构建进行了初步探索,旨在以此为基础实现基于语义的文献资源检索功能。上述原型系统仅仅是一种基于本体实现国史主题词表的探索,在国史概念模型、协同编辑环境、知识来源和获取等方面做得相当粗浅。笔者将在人力财力和技术加大投入的情况下,做进一步探索。

4      总    结

社科本体论提供了一种解决问题的思路,是人文社科信息服务向知识服务过渡的一条可行之路,它为实现真正意义上的人文社科知识服务带来曙光。基于社科本体论构建人文社科知识管理,将解决人文社科信息资源知识组织、共享、集成、交换等瓶颈问题,是实现智能化检索以及未来其他社科领域应用服务系统的基础,是人文社科知识工程基础设施建设的重要内容,对人文社科知识最大限度的传播和利用有着不可估量的作用。

主要参考文献

[1]董慧,余传明,杨宁.基于本体的数字图书馆检索模型研究(III)——历史领域资源本体构建[J]. 情报学报,2006(5):564-574.

[2]彭炜明,宋继华.《资治通鉴》历史领域本体构建及其应用研究[J].中文信息学报,2010(2):33-38.

[3]孙辉,雷枫.中华人民共和国史本体构建初探[J].现代情报,2014(2):32-42.

[4]吴丽杰.基于本体的特色数据库知识组织研究[J].图书馆学刊,2012(3):41-43.

猜你喜欢

知识管理
大学生创业亟需哪些政策“红包”
知识管理在工会管理应用中的创新探析
档案管理与知识管理的关系分析
图书馆知识管理对图书馆管理的创新
人力资源管理实践、知识管理导向与企业绩效
基于知识管理的高校图书馆管理创新
提升企业知识管理能力 增强企业的强劲发展态势
大数据时代高校学生知识管理
我国高新技术企业实施知识管理的重要性研究