APP下载

学科文献系统“KOS-元数据”知识组织模型研究

2023-06-21雷枫

现代信息科技 2023年9期

摘  要:文章从知识组织体系KOS和元数据标准框架对文献系统信息组织的不同作用入手,提出了网络环境下学科文献系统的“KOS-元数据”融合知识组织模型,对模型在文献系统的信息描述、组织与控制功能进行了剖析。针对领域知识的特点和文献特征,结合文献需求和利用的规律,提出了国史文献集成描述元数据框架,并详解了基于工具书语料进行国史学科概念模型分析和国史本体知识库的构建。

关键词:学科文献系统;知识组织;知识组织体系;元数据标准;国史学科本体

中图分类号:TP39;G254 文献标识码:A  文章编号:2096-4706(2023)09-0133-04

Abstract: Starting from the different roles of knowledge organization system KOS and metadata standard framework on the information organization of subject literature system, this paper puts forward the “KOS-metadata” fusion knowledge organization model of subject literature system in network environment, and analyzes the information description, organization and control functions of “KOS-metadata” model in subject literature system. According to the characteristics of domain knowledge and subject literature, combined with the regular pattern of literature demand and utilization, this paper puts forward the metadata framework of integrated description of national history literature system, and presentation in detail subject conceptual model analysis to national history domain and the construction of national history ontology knowledge base based on reference book corpus?

Keywords: subject literature system; knowledge organization; knowledge organization system; metadata standard; national history domain ontology

0  引  言

知识服务型学科文献系统以知识组织为切入点,借助知识组织工具对学科文献集进行基于学科知识组织范式的知识描述和基于知识逻辑的组织控制,从而支持系统在“混沌”的文献环境下重构资源组织方式,确保文献知识服务的深度与力度。系统是由文献资源、领域知识、服务、信息生产者和消费者共同构成的空间,以技术和相关标准为支撑,其体系结构除了资源层、功能层、表现层,还应有一个相对独立的信息结构层,承担文献资源、知识资源与用户需求的逻辑聚合和控制管理。在知识组织环境下,如何规划和架构信息结构层的学科文献知识组织模型,是学科文献系统建设的重要议题。

1  信息组织工具的发展

元数据标准规范提供对文献资源库及其环境进行结构化、有序化、形式化描述和组织的规范,它定义资源的信息结构和资源库的组织结构,对文献资源对象外部属性和显性特征实施规范化描述,是实现对文献系统中文献进行一体化组织、融合、管理和控制的最基础的组织范式。尽管元数据结构层对不同层次、不同领域以及不同粒度的资源按照统一的符号系统进行标注和组织,并通过索引文件中元数据与文献记录之间耦合关系管理建立与资源层文献集的直接映射,但是传统的元数据信息组织是以每一个文献单元为切入点,缺少对深藏在文献内容中的知识因子及其语义关系的深入揭示,所以只能向用户提供简单的检索机制,推送问题解答的物理解。

在知识计算等技术的推动下,从元数据标准体系到分类系统和叙词表、再到知识本体等多维度知识体系范式,知识组织的方法和工具得到了不断的继承和发展,通过语义关联技术、本体方法论构建的形式化的多维度的知识体系KOS,为文献系统中发现隐性知识和关系提供了概念模型和知识处理规则,可作为语义化和关联化知识组织规范,在多个维度对文献内容所包含的细粒度的知识元及其关联关系进行挖掘与描述,支持从知识角度深化学科文献组织,使得文献资源成为富语义对象的高度组织化的知识资源,由此,学科文献系统的信息组织实践突破文献单元的局限向精细化发展,为最终向用户提供以知识单元为基准的更全面更精准的知识服务奠定基础。

2  KOS-元数据体系

文献资源规范化组织的主要目的是方便共享和利用,元数据体系和KOS在建立信息组织系统与资源实体关联映射和控制能力、实施文献精细化描述组织和提升资源利用效能方面各有所长,如果说元数据规范是符合统一性、表达性、易用性原则的符号组织体系,KOS则建立了对文献资源内涵知识(包括显性和隐性知识)进行基于领域知识的规范化描述解析的知识处理规则——概念组织系统,为全面改善对学科文献资源的语义理解和组织控制,支持系统对其实施基于学科知识逻辑的组织控制,学科文献系统应综合运用元数据体系和形式化的多维度KOS两类知识组织方法和工具,建立符号组织系统和概念组织系统融合的知识组织模型——“KOS-元数据体系”模型。

文献系统通过符号组织系统的“通用元数据”对文献集实体的粗粒度外部属性和文献整体结构的显性特征进行统一规范化标注,使文献资源有了基本的微观结构,并通过索引文件建立与文献资源仓储——关系数据表的关系管理和映射,保证对不同层次、不同结构、不同粒度的文献数据按照统一的符号系统展现并实施统一控制;再采用“概念组织系统KOS+学科知识元数据”作为其语义描述框架,对学科文献的隐性知识内涵进行挖掘,并在知识元数据框架下实施多维度知识概念及其关系的组配语义标注,建立隐性知识单元与文献资源实体之间的映射关系和复杂的关联关系。在这一融合知识组织模型驱动下,所有文献资源被组织到基于本体的知识网格KOS中,KOS中属分关系、主题词及概念语义关系得以通过索引文件建立与文献资源实体的映射,学科文献资源集成为以知识本体为中心并结合作者、篇名、关键词、出版者等外在特征单元的极大增值的“KOS-元数据-文献集”知识资源网络,为通过知识元网格对文献实施有效管理控制并按需流动提供手段,如圖1所示。

这种关联和映射通过RDF/XML等具有较高开放水平的国际通用元数据标准文件格式进行规范,将文献的标题、作者、版权等微观结构信息与知识概念等描述文献实体对象所需要的全部数据项集合置于统一信息描述框架下,不仅确保能够更方便地被计算机处理,还通过文件格式层面的可关联性对数据共享过程进行优化,从而解决传统元数据组织系统并不能完全解决的知识资源组织聚合中结构异构和语义异构问题,提高文献资源可发现、可获取性和互操作性。

3 ; 国史学科文献描述元数据构成

在拥有完备学科知识体系KOS作为知识组织范式的文献系统中,其描述性元数据标准应确保对文献实体对象外部显性特征和文献属性、内部知识语义内涵进行全面深层次描述,为系统开展文献资源组织、管理和共享利用提供必要的辅助工具。参考张晓林描述的元数据技术体系,学科文献系统描述性元数据框架应包含通用元数据和学科语义元数据,主要采用DC元数据标准中的核心元数据元素并扩展融合学科元数据元素,形成学科文献系统集成元数据标准。

DC是当前认可度较高的对网络文献资源外部属性特征进行结构化描述的通用元数据标准,为解决标准之间的差异化和基于元数据的资源利用和交换等操作提供规范。学科通用元数据的制定应结合学科文献系统特点,结合国史文献的收集、描述、管理和使用的需求,直接复用选择标准中通用的核心元数据,并按照扩展原则制定满足特定需求的扩展方案。由此,经过充分调研,制定了如下认可度高、便于学者更快更好地接纳和利用的国史学科核心元数据集合:丛书名、卷期、书名、出版社(出版者)、书号、版本控制、作者(编者)、篇名、摘要、来源出版物、发布单位、语种、发表日期、出版日期、内容全文、格式、关键词、资源说明、关联资源之间的超链接、权利控制(密级)、PDF对象等,其中丛书名、卷期、版本等字段反映了在文献篇目利用时需要参考原始图书相关版权信息的场景,PDF对象字段便于在引用文献篇目内容时进行原文核对和提供参考文献页码,对于提供原始图书目录导航和顺序浏览模式的场景,还应提供隐含目录结构的属性字段,元数据标准制定充分考虑文献利用特点可见一斑。

语义元数据是对文献内容的隐性知识内涵进行学科化描述的知识元数据,根据领域知识特点、结合KOS知识组织模型和学者实际需要制定,既要提供将等级分类体系、知识本体、叙词表等多维学科语义工具融于一体组配标引的手段,还要呈现出学科研究主题特征和独特视角。国史学科文献系统语义级元数据的制定则围绕学科性质、史料特点以及学者使用文献的具体场景和目标展开,国史文献史料包括文件文集、年谱传记、法规条约、统计年鉴、纪实回忆和编年大事记、专题解密档案等一手档案资料,反映了历史研究重视考据的治学特点,应根据不同类型文献的学科特征和文献利用的规律特点进行特色语义元数据设计,实现对史料的深层次标引和高质量组织,满足多样化的史料利用需求。如“中央文件选集库”设置“发文单位”“收文单位”“关联附件”和“发布或通过日期”等字段用于实现对文件内容中显性或隐性特征的抽取;“国史编年库”则著录“涉及文献”“涉及机构”“涉及人物”等字段;对于提供国史知识图谱检索和导航服务的系统,则应针对国史本体全部核心概念进行著录;“经济档案库”由于原书按主题进行内容组织,一篇完整的档案被拆成若干片段汇编在丛书不同卷章中,若特别标引“档案出处”则给用户提供了通过检索“档案出处”恢复散落在不同卷章的完整档案的可能。此外如分类和主题特征、文献史料类型等应用率较高、专指性强的元素都可以纳入学科语义元数据方案。这样的元数据方案为蕴含了丰富知识元和多维语义关联的文献知识和信息提供了分解与组合极为便利的标引方案,使得信息组织的控制单元不再局限于文献层次而深入到内容中的知识单元和史料信息线索,为提供精准高效的学科知识服务提供极大便利。

4  国史学科知识本体构建初探

学科知识体系KOS是对领域概念及其相互关系进行描述和组织的专业知识系统,是实现基于语义网的知识服务的核心和基础。学科本体的构建过程涉及识别存在于文献中的知识模式、挖掘具有潜在效用的学科知识和信息之间知识关联、建立特定知识本体构建的流程化工作机制,是一种系统化的高级信息处理过程。作者所在国史信息组织实验室对国史知识的语义揭示和组织方法进行了研究,并利用工具书语料对国史学科的事实(知识)部分进行了本体构建探索,建立了国史学科本体知识库。

分析领域内概念及其相互关系和统一知识建模是最关键的第一步。国史百科和辞典的词条包含国史人物、事件、会议、文件社论与著作讲话、路线方针、名词术语、团体组织等类型,提示了具有本体雏形的一组核心概念,结合通读通史稿提取的领域知识主题特征,确定国史知识包含“人物”“事件”“会议”“组织与机构”“历史文献”“理念与术语”“时间”“地点”八个核心概念;每一条目内容编写都遵循一定体例,包含大量高度浓缩的国史知识,其中含有可以大量获取的模式,对工具书词条和史料文本进行自然语言分析(句法、词法)是模式获取的重要手段。如图2所示,党史大辞典中“一届全国人大一次会议”条目的内容提示“会议”概念的属性有“会议时间”“会议地点”“参会者”“发言人”“会议报告”“相关理念”“通过文献”“任命或选举职务”等。

依此类推,根据大量文本自然语言模式提炼出国史各类概念的属性和对象间关系,手工建立国史概念关系模型如图3所示,每个表格代表一个本体类及其属性,虚线及线上的文字代表不同类概念间的关系。如事件通过属性“参与人”与人物发生关联,会议通过属性“会议通过文件”与文件发生关联,等等。

概念模型给出了将非结构化文本中发掘的语义数据进行显式重构的基本可循的知识描述框架,知识库构建就是通过对含有丰富语义的非结构化词条文本进行对象的纵深挖掘和知识抽取,对本体初始框架进行充分实例化、添加事实的过程。知识库构建过程的数据流图如图4所示。编辑实例时,首先以词典中词条名称为基础实例,遴选其词条作为基础实例事实编辑的辅助文本,系统通过基础实例对词条素材进行语义标注和人工词法句法分析,根据文本包含的事实进行关系编辑,对事实中所涉新增主体或客体则转化为新的实例,与基础实例一起再用于语义标准。这一过程不断循环迭代、不断采选更多素材、不断涌现出更多事实和实例,结构化存储后最终形成机器可读的知识库。这一过程就是所谓的以模式为驱动、自底向上的领域本体构建过程。项目设计的“本体构建软件平台”,承担概念关系模型构建、遴选和标注知识素材、事实编辑加工、本体知识库存储管理等功能,实现了上述流程化工作机制。

国史学科语义本体本身是一个事实数据库,以其丰富的术语资源和概念间的复杂学科逻辑语义关联,继承了巨大的文本实体知识,反映了学科概貌,能够提供机器可理解的语义知识网络,解决知识组织体系形式化问题,同时领域本体完成了统一语词和词义消歧、实体共同指代解析等经典问题,使机器对文献中隐含的知识语义有了共同的认识和理解。作为国史学科文献系统知识组织范式,可将包含在国史文献中的知识及其丰富的联系挖掘出来,实现文献的概念的规范控制与多元化表达,建立文献数据间的深度关联,并进一步被基于语义的各种应用和服务所共同理解,通过对知识的计算组织和智能处理实现对文献资源基于本体知识逻辑的语义级知识组织,为文献的动态聚合、控制以及知识可视化检索获取和關联导航打下基础。

5  结  论

以语义网技术和标准为支撑,根据知识表现的特点和服务需要构建的学科元数据学科标准体系,结合学科分类体系和语义本体知识库构成了融合的知识组织模型,通过知识组织工具对学科文献资源进行全面的隐性知识挖掘和完备的规范标引加工,文献资源集成为有丰富鲜明学科知识特征的结构化知识资源形态,推动了对文献资源组织管理和控制的能力的改进,对领域知识服务模式创新将产生深远影响。

参考文献:

[1] 成全,罗栋,钟晶晶.知识组织的理论缘起及演进路径探析 [J].图书馆论坛,2014,34(11):26-34.

[2] 孙辉.基于引文分析的当代中国史学科文献需求与特色资源建设研究 [J].情报探索,2016(9):1-6.

[3] 孔敬.大数据时代专题文献数据库系统设计 [M].北京:中国社会科学出版社,2017.

[4] 雷枫.语义互联国史百科的知识组织研究与实现 [J].科研信息化技术与应用,2015,6(3):24-34.

[5] 李慧佳,王楠.基于语义关联的智库资源知识组织研究 [J].图书与情报,2020(1):120-126.

[6] 张晓琳.元数据研究与应用 [M].北京:北京图书馆出版社,2002.

[7] 孙坦.开放信息环境:学术图书馆信息资源建设的重定义与再造 [J].中国图书馆学报,2013,39(3):9-17.

[8] 赖璨,陈雅.我国近十年知识组织技术研究进展分析 [J].数字图书馆论坛,2020(12):9-16.

作者简介:雷枫(1968—),女,汉族,四川资阳人,副研究馆员,硕士,研究方向:信息组织和学科知识体系。