APP下载

语义出版及其应用现状研究

2021-07-19毛竞永

理论与创新 2021年6期
关键词:数字资源数字图书馆

毛竞永

【摘  要】语义出版是建立在资源深度揭示与高度集成基础之上的,作为数字出版的高级形态,语义出版的深入研究与探索不仅为丰富数字图书馆资源集成提供了合理导向与明确目标,更为数字图书馆将资源组织单位由出版单元或文献细化到揭示资源“微内容”特性的知识单元提供了可能。本文对语义出版模型与及其构建工具、语义出版关键技术、语义出版实践进行全面分析,旨在揭示语义出版在数字图书馆资源组织中的重要作用。

【关键词】语义出版;数字图书馆;数字资源;关联数据

引言

语义出版在语义网的基础上发展而来,是数字出版的高级阶段,语义出版的正式概念源自于David Shotton在2009年发表的《Semantic Publishing:the coming revolution in scientific journal publishing》一文,即,语义出版能增强已发表论文的含义,促进论文能自动化获取,能链接到与其语义相关的文章,并提供多种获取文章内数据的访问途径,使得论文之间的数据整合变得更加容易。

经过十年的发展,语义出版的对象已由狭义的学术期刊论文发展到图书、学位论文等形式文献型学术资源,其概念被不断的丰富和充实,王晓光等人认为语义出版是基于语义技术及其相关信息技术,通过语义标记丰富期刊文章的表现形式和显性内容,提高文章信息的可操作性和交互性,增强文章关联度,从而改进出版流程,进而实现智能化出版的方式。程维红等人认为语义出版是通过语义标记丰富期刊文章表现形式,提高文章信息可操作性和交互性、增强文章关联度、改进出版流程的智能化出版方式。汪庆等人认为,语义出版可以定义为任何能够增强期刊文章语义的出版形式,具有语义化、结构化和关联化的特征,能够实现机器自动处理、识别、集成与整合信息的目的。彭希珺等人则提出语义出版是通过揭示每篇论文中的知识单元及其语义类型和语义关系,并且与其他论文、期刊和知识资源中的知识单元进行关联,支持基于动态关联的知识发现。许鑫等人认为,语义出版是一种语义增强的出版形式,通过对文章内容和形式进行语义标记,增强内容之间的关联,提高科研人员的检索和获取效率,实现智能化出版。

1.语义出版模型与及其构建工具研究

随着语义出版概念的不断丰富,相关的语义出版模型与构建工具也有了一定的成果。其中,语义出版建模的基本思路将出版物内容结构化和语义化,主要覆盖了出版物的内容要素、结构要素、出版全流程三个层面。

出版关键内容建模主要是对论文关键知识进行语义标注,促进计算机对论文关键贡献的自动识别。如国际概念网络联盟)提出的纳米出版物,由声明、出处和出版物信息组成来表示可出版信息最小单元。其中,声明使用主-谓-宾结构表达的思想最小单元;出处用于描述如何得到此聲明的情景信息,包括方法和归属元数据;出版物信息将前两者作为一个整体进行表达。

对出版物结构建模主要是对文档的构成要素进行结构化组织,对象和关系的语义构建。A.Bardi等人提出的增强型出版物元数据模型,描述了出版物的结构和语义特征。该模型包括六部分:文档构成、嵌入部分、参考与引用、可执行和可生成,并对各部分进行了对象和关系的RDF描述和序列化。J.Kircz提出的模块化模型中,模块被定义为具有独一无二特性、自含概念表示的信息单元,将论文看成是整合了数据集、图像、音频、视频等模块的对象。另外,为便于交流,模块被连接成固定单元。

对出版物全流程建模主要是对出版全流程(包括文档信息和出版信息)的描述,支持全工作流的交互和共享。王文清等人报道的出版物内容资源本体模型定义了多个类、属性和约束,可对多种出版物数字资源进行统一建模和描述。此外,PUBO采用了OWL描述逻辑,可自动验证模型的逻辑完整性,实现了资源统一管理、互相关联与多系统复用。Hunter提出新信息格式的科学出版包,可用于封装原始数据、来源产品、算法、软件、文本、相关上下文环境以及元数据,从而满足科学家对科学结果的操作需求。

在论文编辑工具方面,典型的有BioLit项目和SCOPE项目。BioLit项目中可使用基于XML的写作工具,利用美国医学图书馆的文档类型定义存储标准化且机器可读的出版物,该工具为开放文献和生物学数据的集成提供方便,使用PLoS和Protein Data Bank(PDB)的全部语料做测试。

2.关键技术研究

XML。全称为可扩展标记语言,是根据万维网本身的特点从SGML所衍生出来的简化格式。XML的设计目标是提出一种非常简单的标记语言,并尽可能地减少抽象概念。XML提供了一个标准,使得开发人员可以根据实际需要定义自己的新的置标语言,并可为这个置标语言规定它特有的一套标记。与HTML相比,XML最大的优点是它不是固定的标记,而是允许开发人员根据它所提供的规则,定义数量不限的标识和属性来描述文档中的资料,允许嵌套的结构描述。

RDF。全称为资源描述框架,其目的主要是提供一种通用的元数据结构以满足所有领域的使用要求使应用程序之间能够在Web上交换元数据,以促进网络资源的自动化处理。RDF的基本资料模型包括了三个对象类型:①资源。所有以RDF表示法来描述的东西都叫做资源,使用统一资源标识来命名,它可以是一个网站,可以是一个网页,可以只是网页中的某个部分,甚至是不存在于网络的东西,如纸本文献、器物、人等。②属性。属性是用来描述资源的特定特征或关系,每一个属性都有特定的意义,用来定义它的属性值和它所描述的资源形态,以及和其它属性的关系。RDF的在概念上和传统的属性是相同的。③陈述。特定的资源以一个被命名的属性与相应的属性值来描述,称为一个RDF陈述,其中资源是主词,属性是述词,属性值则是受词,陈述的受词除了可能是一个字符串,也可能是其它的资料形态或是一个资源。

关联数据。是W3C建议的用来发布和联接各类资源的一种规范,简单地说,关联数据就是一些RDF格式的数据,使用三元组(主体,谓词,客体)来表示资源,它希望用一种通用的机制将网络中的数据进行发布,使任何人和机器都内读取和复用万维网上的数据。语义万维网将资源定义为“任何有URI标识的东西”,分为信息资源和非信息资源两类,信息资源用以表达任何信息,通常以某种编码的文件形式而存在;非信息资源用以指代大千世界中的各类实体对象,可以是自然界、人类社会以及人类意识所创造的精神世界的所有对象。

本体。本体(ontology)是实体和关系之间的一种形式化表达,起源于哲学领域,后引入进计算机领域,本体制定了一种规范,可以在语义和知识层次上描述知识,具有结构化的特点。本体以树状结构存储,相邻层次的节点之间有严格的包含关系。本体包含四层含义:概念模型、明确、形式化和共享。具有良好的概念层次结构和对逻辑推理的支持,可以通过层次网络图来表示,图中的每个节点对应一个概念,节点之间通过有向边来连接,表示概念与概念之间的关联关系。

3.实践研究

目前,出版机构、信息服务商、图书馆等建设主体正积极开展语义出版实践,如RSC、Elsevier和BBC等。

RSC。RSC是全球知名的化学科学出版社之一,目前已出版44个同行评议期刊,提供一系列在线数据库和文献更新服务,是语义出版领域的重要范例。2007年,RSC提出“Science Come Alive”并进行积极探索,设立的RSC Prospect项目旨在通过语义增强实现期刊文章的机器可读,丰富RSC期刊在线出版的功能。RSC语义出版模式的关键是利用本体和唯一的化合物标识符,使文章可被计算机识别。RSC的技术编辑在文章中标识出化合物、概念和数据,将其链接至相关的学术环境,极大增强了RSC文章对学科知识的揭示和关联能力。

RSC语义出版的核心要素包括:①关联化学学术环境。为更好地实现化学学科相关内容和数据的读取、对比,RSC将本体与自建的基于Web的化学结构数据库关联,形成RSC语义出版自有的基础信息系统。②结构化描述与标记。基本流程包括XML预处理、XML编辑与修正、结合语境和主题领域对应的XML标注。③嵌入式HTML的呈现。RSC语义出版的学术期刊以RichHTML形式发布,且标记为RichHTML的文章可实现全文嵌入式HTML标记,并以不同颜色突出显示定义的词汇,实现语义分类。

Elsevier。是全球领先的多媒体出版集团和科学、技术、医学信息产品和服务提供商,其在语义出版方面进行了积极的尝试与探索,也取得了一定的成果,典型的有Article of the Future项目、ClinicalKey平台等。Elsevier的语义出版路线图阐释了语义出版的最终目标是使期刊论文变为富含语义知识的智能内容。

英国广播公司(BBC)。2010年世界杯网站是BBC动态出版的首次成功应用,如今,BBC已将动态语义出版由体育领域扩展到新闻、教育等多个领域。BBC动态领域出版模式是按需重组的机制,即根据应用层用户动态查询的检索词,通过服务层获取语义相关的内容。该模式分为了数据层、服务层和应用层。其中,数据层负责文字、图片、视频等多媒体类型资源的管理,利用自然语言处理技术对内容进行基于领域本体的命名实体识别(实体抽取),并将识别结果以元数据的形式存储在RDF三元组中;服务层负责对应用层的请求响应以及对数据层的内容调用,是动态语义出版实现按需重组的核心,主要利用关联数据等对调用的内容进行语义增强,丰富用户的检索结果;应用层负责按需重组在内容上有语义关联的不同资源并将其以一定的方式呈现给用户。

4.结束语

国外的出版组织和图书馆对语义出版高度关注相比,我国的研究明显滞后。从广度上看,只有中国知网、万方等少数学术数据库服务商和出版机构开展过语义技术的应用;从深度上看,当前研究多集中在语义出版的概念、形式、特征以及国外相關项目的介绍和分析上,理论探讨较多,应用研究较少。“需求决定服务,服务选择资源”,语义出版作为一种创新服务模式,对馆藏资源组织与利用提出了更高要求,是信息服务产业链中至关重要的环节之一。

参考文献

[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009(22):85-94.

[2]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012,20(04):81-86.

[3]程维红,任胜利,沈锡宾,方梅,王应宽.中国科协科技期刊数字出版及传播力建设[J].中国科技期刊研究,2014,25(03):340-345.

[4]汪庆,任慧玲.新技术环境下STM出版发展趋势探析[J].科技与出版,2014(09):123-127.

[5]彭希珺,张晓林.国际学术期刊的数字化发展趋势[J].中国科技期刊研究,2013,24(06):1033-1038.

[6]许鑫,毛璐,江燕青.基于数字资源聚合的学术期刊语义出版研究[J].数字图书馆论坛,2019(07):2-8.

[7]Nanopub.org.What is a Nanopublication[EB/OL].[2019-12-24].http://nanopub.org/wordpress/?page_id=65.

Marcondes C H.A semantic model for scholarly electronic publishing[EB/OL][2020-10-24].http://www.ceur -ws.org/Vol-721/paper-06.pdf.

[8]Bardi A, Manghi P.Enhanced publications:data models and information systems[J].Liberquarterly,2014, 23(4):240-273.

[9]Kircz J G.Modularity:The Next Form of Scientific Information Presentation?[J].Journal of Documentation, 1998,54(2):210-235.

[10]Kircz J G.New Practices for Electronic Publishing 2:New Forms of the Scientific Paper [J].Learned Publishing,2002,15(1):27-32.

[11]王文清,刘春彤,张月祥,陈凌.PUBO:面向出版的数字资源本体建模[J].大学图书馆学报,2015,33(03):88-95.

[12]Hunter J. Scientific Publication Packages-A Selective Approach to the Communication and Archival of Scientific Output[J].Journal of Digital Curation,2006,1(1):3-16.

[13]Fink J L, Bourne P E. Reinventing Scholarly Communication for the Electronic Age [J].CTWatch Quarterly, 2007,3(3):26-31.

[14]Enhanced Publications[EB/OL].[2019-12-24].http://www.doc88.com/p-873117284280.html.

[15]翁彦琴,李苑,彭希珺.英国皇家化学会(RSC)——科技期刊语义出版模式的研究[J].中国科技期刊研究,2013,24(5):825-829.

[16]王莉莉,栾冠楠.英国广播公司(BBC)动态语义出版模式研究[J].图书情报工作,2017,61(08):126-132.

猜你喜欢

数字资源数字图书馆
美术教科书使用应把握的几个视角
高校图书馆的未来发展模式刍议
浅析“互联网+”时代的图书馆管理
图书馆员新角色
基于云计算的数字图书馆建设与服务模式研究
高校数字资源云服务平台的建设研究
刍议数字图书馆计算机网络的安全技术及其防护策略
图书馆与出版企业数字资源共享的环境因素分析