APP下载

网络环境下书目信息关联数据化的实现方法

2022-12-15

图书馆论坛 2022年12期
关键词:数据模型书目本体

高 斌

0 前言

自20 世纪末全球信息网(World Wide Web,WWW)兴起以来,许多数字重制或数字原生信息由WWW承载,通过互联网传播至全球。随着语义网与关联数据(Linked Data,LD)应用发展,语义网利用LD技术将WWW网页内容结构化,将现有文件网转换为数据网,方便建立不同数据之间的关联。然而,图书情报(以下简称“图情”)界处于机读编目格式(Machine-Readable Catalog,MARC)与LD并存的复合式环境[1],即处于MARC 与LD 并存的过渡时期,必须同时处理LD与既有MARC记录。因此,将MARC数据转换成LD以融入语义网成为亟待解决的课题。近年许多图书馆将MARC数据转换成LD,包括大英图书馆(British Library,BL)、西班牙国家图书馆(Biblioteca Nacionalde España,BNE)、瑞典皇家图书馆(Kungl. Biblioteket,KB)、法国国家图书馆(Bibliothèque nationale de France,BNF)、德国国家图书馆(Deutsche National Bibliothek,DNB),以及美国LD4L(linked data forlibraries)、LD4P(linked data for production)与书目工作流程(BIBFLOW)等计划。就发展现状而言,从联机计算机图书馆中心(Online Computer Library Center,OCLC)两次LD调查报告可知,将MARC转换为LD时,已采取不同的LD技术及其相关作业方式与流程[2]。此外,许多案例已采取不同本体作为建立数据模型的参考基础。观察语义网的应用发展历程,图情界将MARC数据转换为LD的方式、作业流程与结果不尽相同,但未有文献就MARC数据转换为LD的方式展开深入探讨。为此,本文分析现有转换方式的功能定位、实际结果、特点及其相关议题,作为MARC 数据转换为LD 时的决策参考,以选取合适的转换方式及其相关配套措施。

1 现状、议题与转换

1.1 发展现状

迄今涉及LD 的研究与应用众多。实质上,LD 以资源描述框架(Resource Description Framework,RDF)为数据模型,用以界定与划分不同事物间的关系,且以RDF语法加以描述。换言之,LD以数据为中心,以RDF三元陈述等方式描述事物,以利于机器理解[3],而非以文献为中心及以记录为单位的信息组织方式[4]。万维网联盟(World Wide Web Consortium,W3C)LD工作手册发布的LD作业有七大要素:建立数据模型、统一资源标识符(Uniform Resource Identifier,URI)、尽可能利用现有词汇、发布人机读取的描述、转成RDF、指定授权条款及提供数据公开获取与对外宣传[5]。

图情界处于转换LD过渡时期,仍然持续使用MARC描述相关数据,属于MARC与LD共存的复合式环境[6]。如何将书目数据转换成LD已成为议题。在欧洲,BL、KB、BNE、BNF与DNB等采取批次转换方式。美国加州大学戴维斯分校图书馆在书目工作流程中,利用图书馆自动化系统批次加入URI至MARC相关栏目,或采用相关软件工具(包括Scribe与BIBFRAME Editor)批次转换MARC为LD[7];美国LD4P计划参与斯坦福大学图书馆“曳光弹计划”,探讨有关MARC与非MARC记录转成LD的工作流程有4种,前2种主要是针对图书馆自动化系统MARC记录,转换成美国国会图书馆(Library of Congress,LC)的书目框架(Bibliographic Framework,BIBFRAME)词汇[8],后2种是针对数字典藏库的非MARC记录,经由元数据对象描述模型格式转换成BIBFRAME。

1.2 相关议题

发布LD时,第一,在于选择适当的本体或自行发展本体作为LD数据模型之用。针对图情界LD现状的系统化评议结果之一是选择适当本体,而OCLC第二次LD实施现状调查结果项目之一也是有关本体的选择[9]。由此可知,一般LD案例似乎倾向不自行发展本体,而以选用现有本体为主。第二,在美国伊利诺大学香槟分校图书馆实践中,选择本体时并未达成共识;在伊朗国家图书馆暨档案馆(National Library and Archive of IRAN,NLAI)LD 实践中,对选择适当本体仍缺乏标准。另外,在采取MARC对照至BIBFRAME、OCLC WorldCat(OCLC 联机书目数据库)的Schema.org(标记的语义词汇表,是Google,Bing,Yandex 和Yahoo!合作的结果,通过这些标记以搜索引擎认可的方式来标记他们结构化的网页)、BNE采用的书目记录功能需求(Functional Requirements for Bibliographic Records,FRBR)型RDF词汇。在哈佛大学图书馆LD案例使用的MARC本体、资源描述与检索(Resource Description&Access,RDA)第一群组与都柏林词汇的研究案例中,建议选择本体时,应考虑本体的长久性。第三,有关URI命名方面,URI 除用来为每一事物命名以方便识别外,事物的描述不再以记录为单位,改以RDF三元陈述方式描述,且事物可进一步区分为人、机构、地名与概念等,同时还以URI 加以命名标示。而OCLC则将事物区分为作品、个人、机构与事件。第四,在重复使用既有词汇以描述事物及其彼此关系方面并不容易。在NLAI 实践中,建议不要采用广泛使用的词汇,而应使用已被接受为标准的词汇为原则。依据比较WorldCat使用Schema.org 与BL 的英国国家书目(British National Bibliography,BNB)使用不同本体来描述书目属性的分析结果中,前面两个事例在使用与混搭既有词汇方面并未有共识。此外,如果混搭两种以上不同词汇时,此种情形会产生互操作的问题。第五,在建立与外部LD 资源关联时,一般图书馆自动化系统或相关软件工具必须经过自动化的调和与人工判断后,建立与外部URI 关联,完成丰富化作业,进而达成内外部LD的整合,成为语义网的一部分。第六,基于内外部LD 资源关联前提下,有学者认为此种LD关联结果有助于提供额外的相关脉络信息作为诠释信息之用,无形中提供使用者一个探索相关信息的新起点,以用于整合不同来源信息形成知识图谱(Knowledge Graph,KG)等功能[10]。

1.3 转换方式

随着LD应用发展,图情界研究如何将书目信息转化为LD,尤其是长久以来所使用的各类MARC 数据。依据LD的导入与应用演化历程,分别采用书目本体、关联型MARC 与Schema.org等3种转换方式。

(1)书目本体转换方式主要是许多国家图书馆着手大量批次转换MARC为 LD,如 BL、KB、BNE、BNF 与DNB。以BNF 的音乐家舒伯特为例,LD转换过程以参考FRBR发展的BNF书目本体进行LD模型化,同时使用两种以上既有的词汇标准描述资源,除以书目本体的结构呈现LD相关信息外,更进一步提供关联式的跨库检索与类似Wikipedia信息卡等附加信息,如图1所示,而原始BNF的MARC记录并未有任何改变。

图1 BNF提供有关Franz Schubert的LD相关信息

(2)随着信息时代发展,MARC也与时俱进调整相关策略,例如网络电子资源的应用发展需求,在MARC书目记录格式增加栏号856 及其分栏$u,以描述获取其网址与环境条件等相关信息。随着LD的发展,MARC也适时调整以反映LD的需求,主要包括了分栏$0、$1与$47,形成关联型MARC。以共享虚拟发掘环境(Share Virtual Discovery Environment, Share- VDE) 的“Jane Austen”作者为例,Share-VDE已采用MARC100、650、651、700、758 与 830 等栏号有关LD的分栏,经由丰富作业加入外部LD资源URI,以达成LD驱动式目录,如图2所示。

图2 Share-VDE提供的LD范例

(3)以网络搜索引擎曝光度为主要诉求,即采用Schema.org结构化描述网页内容,主要目的是提供符合搜索引擎需求的描述数据,既提高结构化网页内容的曝光率,也有利于搜索引擎将其增值为KG服务。基本上Schema.org 符合RDF数据模型要求,且能以RDFa、Microdata 与JSON-LD等3种格式嵌入网页内容,让网页内容由文件变成结构化数据。除网络书店商业机构外,图情界已有OCLC的WorldCat与主题术语的分布式应用数据库(Faceted Application of Subject Terminology,FAST),以及图书馆关联网(Library Link Network,LLN)等实践。截至目前,虽然Schema.org与书目信息密切相关的领域仅限于创作作品项下的文章、地图集、图书、合集、地图、电影、丛书与期刊等子类别,数据类型的描述属性方面也有较多限制。因此,利用网络书目信息扩充Schema.org 结构化的网页内容,从而满足文化产业界对关联化书目的需求。

由以上案例可知,LD导入语义网的方式与时俱进,可划分为3 个阶段与方法,依序包括书目本体、关联型MARC 与Schema.org等3种转换方式,图情界应选择何种MARC转换为LD方式,值得研究。因此,探讨书目本体、关联型MARC与Schema.org等3种LD 转换方式的实际结果、相关议题与模型,能让图情界掌握其LD转换方式,为MARC转换为LD提供参考。

2 转换方法

如何选择适合方法将现有书目数据转换成LD,依据4种LD应对方式,包括书目本体、关联型MARC、Schema.org,或者保持原状。以前3 种LD 应对方式为研究对象,其中在以BIBFRAME为代表的书目本体方面,则是重新定义扩大为图情界的书目本体,包括完全采用既有本体或参考既有本体以发展本身需求的本体。因而,除BIBFRAME外,也包括FRBR,以及参考前述BIBFRAME 或FRBR 所发展的本体等,如表1 所示。在研究对象方面,分别选取BL、BNF、LLN与LD4P计划之一的Share-VDE为研究样本。 其中选择 LLN, 而未选 OCLC WorldCat的主要原因在于LLN网站对外释放较多与本研究预计分析项目的相关信息。另以W3C的LD工作手册官方文件所列的七大要素为依据,再融合上述相关议题所探讨的关联外部LD资源及脉络化信息与KG等两项额外要素,依据要素逐一分析上述4个研究样本的转换结果、特点及相关议题。

表1 本文的研究样本、本体及其参考网站与文献

3 结果研究

3.1 建立数据模型

除BL与BNF属于自行发展外,其他两个案例都采用图情界既有本体。在BL案例中,为了扩及至图书馆领域外,BL采取自行发展的BL本体建立数据模型,而不采用FRBR,希望能扩至图情界以外的使用者。在BNF 案例中,则以FRBR为主要基础发展出BNF本体,以建立数据模型。在LLN中,则采用BIBFRAME简版为数据模型,即将MARC 记录转换成BIBFRAME后,再以BIBFRAME 与Schema.org 等发布LD。最后,Share-VDE采用BIBFRAME为书目本体,同时搭配MARC的LD相关栏号与分栏以建立数据模型[11]。

3.2 URI命名

(1)BNF 采用典藏资源键值(Archival Resource Key,ARK)作为识别码,并进一步区分为作品、期刊、表演、作者(含个人与团体)、主题、地名与年代等类型,除了年代以“https://data.bnf.fr/date/xxxx/”为起首字串标示,其中“xxxx”为特定公元年,其余都以“https://data.bnf.fr/ark:/12148/cbyyyyyy”为起首字串标示,其中“yyyyyy”代表为字串。上述URI类型的范例:

https://data.bnf.fr/ark:/12148/cb13736057t(作品:老子指略例)

https://data.bnf.fr/ark:/12148/cb44445087n(期刊:艺术市场报告)

https://data.bnf.fr/ark:/12148/cb42140363g(表演:100 kilos et ses éléphants)

https://data.bnf.fr/ark:/12148/cb118896036( 个 人 :Jane Austen(1775-1817))

https://data.bnf.fr/ark:/12148/cb119938537(主题:1er siécle)

https://data.bnf.fr/ark:/12148/cb15365390f( 地 名 :Zone de fracture de 15°20(Atlantique Nord))

https://data.bnf.fr/date/-3200/(年代:The year-3200)

(2)BL采取领域名称结合FRBR三大群组概念将URI划分为资源、代理者与概念等3种,区分不同类型LD。以“http://bnb.data.bl.uk/id”为URI起首,再区分为书目资源、生年、卒年、个人、家族、机构、出版者/经销者、出版事件、预计出版事件、出版开始事件、出版结束事件、代理者、丛书、概念14种,其中资源又可细分题名作品与出版事件,而概念又再区分为23版杜威十进分类号、地名与美国国会主题词表(Library of Congress Subject Headings,LCSH),上述URI类型的部分范例:

http://bnb.data.bl.uk/id/resource/006892790title/work(作品)

http://bnb.data.bl.uk/id/person/AustenJane1775-1817/birth(生年)

http://bnb.data.bl.uk/id/person/AustenJane1775-1817/death(卒年)

http://bnb.data.bl.uk/id/resource/006892790/publication event/NewMilfordConnLondonTheTobyPress2003(出版事件)

http://bnb.data.bl.uk/id/resource/017547414/projectedpublicationevent/NewYorkO(预计出版事件)

http://bnb.data.bl.uk/id/person/AustenJane1775- 1817(个人)

http://bnb.data.bl.uk/id/concept/family/lcsh/Carnegiefamily(家族)

http://bnb.data.bl.uk/id/concept/lcsh/AustenJane1775-1817(概念)

http://bnb.data.bl.uk/id/agent/AustenJane1775-1817(代理者)

http://bnb.data.bl.uk/id/series/AndrewCarnegielectureseries(丛书)

http://bnb.data.bl.uk/id/organization/CambridgeUniversityPress(机构)

http://bnb.data.bl.uk/id/concept/ddc/e23/823.7(杜威分类号)

http://bnb.data.bl.uk/id/concept/place/lcsh/England(地名)

http://bnb.data.bl.uk/id/concept/lcsh/SocialclassesEnglandHistoryJuvenilefiction(LCSH)

(3)LLN依循BIBFRAME Lite书目本体并加以区分为17种类型,且只能经由网络版URI网页内容的“类型”一栏得知。此外,URI分为本地化与LLN 网络两种,前者为单一图书馆所属的URI,后者则是LLN一致命名的URI,两者分别标示彼此的URI,以利相互参照关联。以LLN网络版URI为例,所有LD都称为资源,资源之下又可区分为代理者、合集、概念、著作权事件、家族、形式、实例、清单、会议、机构、个人、地名、提供者事件、丛书、时间、主题与作品等17 种类型。以“Austen Jane,1775-1817”为例,LLN 网络版URI 为“http://library.link/resource/qLB5U0TEdog/”,本地化则有“http://link.library.anaheim.net/resource/qLB5U0TEdog/”与“http://sara-hightower.library.link/resource/qLB5U0TEdog/”等两个以上的URI,且网络版URI与本地化URI呈现一对多关系;换言之,一个网络版URI 可对应至不同的LLN 成员图书馆URI。上述类型的LLN网络版URI与本地化URI部分范例:

http://library.link/resource/QRJ578jeKxI/(机构:A Golden Book)

http://link.library.anaheim.net/resource/QRJ578jeKxI/

http://library.link/resource/yYE- PTDjgbA/( 作 品 :Emma)

http://link.library.anaheim.net/resource/yYE-PTDjgbA/

http://library.link/resource/AEmKrN8cGjQ/( 实 例 :Emma)

http://link.library.anaheim.net/resource/AEmKrN8cGjQ/

http://library.link/resource/lSk-JFiV1Q4(地名:Japan)

http://link.library.anaheim.net/resource/lSk-JFiV1Q4/

http://library.link/resource/0fwbFRyZ3vI/(主题:International relations)

http://link.library.anaheim.net/resource/0fwbFRyZ3vI/

http://library.link/resource/AEC5qOtSQyk/( 形 式 :Biography)

http://link.library.anaheim.net/resource/AEC5qOtSQyk/

(4)Share-VDE与URI命名似乎并没有特别区分。事实上,Share-VDE在URI命名方面结合BIBFRAME 的类别名称,以BIBFRAME 的3个核心层次与代理者的关键概念为主要依据。所以,URI 以“http://share-vde.org/sharevde/rdfBibframe/”为起始,再依BIBFRMAE 第二版区分为作品、实例、个人、出版者等类别,其中作品、个人、出版者等类别再加上字符串共同组合而成,而实例则是加上图书馆文字代码与系统记录号共同组成,上述URI类型的范例如下所示。另外4个案例的URI命名方式见表2。

表2 URI命名方式

http://share-vde.org/sharevde/rdfBibframe/Work/9862294(作品:Pride and prejudice)

http://share-vde.org/sharevde/rdfBibframe/Instance/DU KE000317902(实例:杜克大学图书馆)

http://share-vde.org/sharevde/rdfBibframe/Agent/593384(个人:Jane Austen)

http://share-vde.org/sharevde/rdfBibframe/Publisher/126(出版者:Harcourt Brace&Company(1993-1999))

3.3 使用现有词汇

整体而言,4个案例都采用两种以上的现有词汇,且可分为W3C与非W3C两种,除了常见的词汇(包括DC elements、DC terms、FOAF、RDF、RDFs、SKOS 与 XMLs)外,有几点值得注意:第一,BL 与BNF 两个除采用现有词汇外,还有自行发展的书目本体词汇,同时也使用了RDA本体相关词汇。第二,在LLN中,除采用自行发展的LLN词汇外,也采用Schema.org与Zepheria发展的简版BIBFRAME,而Share-VDE 中,则是采用 BIBFRAME 第二版及 LC 的BIBFRMAE延伸版词汇。第三,4个案例中在控制词汇方面,采用相关标准的词汇,强化控制词汇的描述语义,包括SKOS、MADS与FOAF等常用的标准,甚至在BL中,采取了Event、Org、WGS84 Geo Positioning等标准词汇。第四,BL与LLN另外采用W3C的VOID标准,主要用来描述RDF数据集,以利于这些数据的发掘、获取与标示不同数据集间的关系。最后,除BL、BNF与 LLN 采用 Schema.org 外,LLN 还额外采用RDFa,以利于KG的产生。4个案例具体使用现有词汇情况如表3所示。

表3 现有词汇

3.4 发布人机读取的LD描述及RDF转换

依据W3C LD工作手册的定义,人读描述是指人可阅读的网页内容,而机读描述则是提供RDF 数据文档,或是使用前述W3C的VOID 标准词汇予以描述。在本文的研究案例中,都提供人读与机读LD 描述,但RDF 格式不尽相同,以BL 与BNF 提供的RDF 格式种类最多,详情如表4 所示。换言之,所有研究案例都已完成W3C 关联数据工作手册第五项元素的RDF转换。

表4 人读与机读的LD描述现状

3.5 指定授权条款

除了Share-VDE外,其余都有开放式授权条款,并以知识共享(Creative Commons,CC)为主。例如BL采用CC的CC0 1.0通用公共领域贡献宣言,而LLN则是采用CC BY 4.0姓名标示的授权条款。在BNF方面,则是采用开放式授权条款,着重于数据著作权的再利用与姓名标示,而上述条款与现有的英国政府开放政府授权、知识共享的姓名标示与开放数据姓名标示等授权条款相容。

3.6 关联外部LD资源

4个研究样本都有建立外部LD资源的关联,如表5所示。有几种情形值得注意:第一,有些案例仅限于图情领域的LD 资源,如LLN 目前只关联至LC 的关联数据服务(LC Linked Data Service,LC LDS)与虚拟国际权威档(Virtual International Authority File,VIAF)。第二则是扩大至图情界以外的LD资源,包括BL、BNF与Share-VDE。第三,BNF与Share-VDE针对个人方面提供缩略图,主要来源是Wikipedia,而Share-VDE甚至依意大利语与英语提供不同语言版的数字影像缩略图。第四,BNF与Share-VDE也提供关联式的关键字查询功能,直接关联至其他数据库进行跨库查询。

表5 外部LD资源

3.7 脉络化信息与KG

BL网站本身除了提供内部关联外,LD呈现方式仍采取类似一般线上目录条列式呈现BNB的 LD,以“Austen Jane,1775-1817”为例,除了有关Jane Austen个人的基本信息外,还包括有关Jane Austen的作品、Jane Austen的相关著作与相关信息如图3 所示。在BNF 方面,除了自Wikipedia提供个人的数字影像缩略图外,也提供了内外部的LD 资源,且以类似FRBR模式的结构化方式呈现LD数据间关系。其中在BNF管辖范围内的LD资源,无论目录信息或数字档案,都以类似KG方式显示(包括条列式文本、缩略图或两者皆有),供使用者参考如图1所示。至于外部关联方面,只提供关联名称与网址,并未提供类似KG功能。在LLN方面,首先提供BIBFRAME的作品、实例与单个等类别的相关信息,同时提供此书目LD内外关联的统计数据,及有关此实体馆藏的联合目录信息如图4所示。在Share-VDE方面,除了自Wikipedia提供个人的数字缩略图外,也提供Wikipedia的信息卡信息,及内部关联的作品、相关人名、相关作品与外部LD资源关联等相关关联信息,同时在作品页面下,提供联合目录信息与实体馆藏的图书馆图标如图2b所示。

图3 BL BNB提供有关Jane Austen的LD相关信息

图4 LLN的阿纳海姆公共图书馆(Anaheim Public Library)提供Jane Austen文献的LD相关信息

4 讨论

由以上分析结果可知,将MARC转换为LD的3 种方式已达到W3C LD 工作手册的多数要求,且各具特色。有关3 种转换方式的相关议题,试从数据模型的结构化呈现、URI命名方式的形态与政策、现有词汇的应用方式、外部LD资源的关联效益、外部LD资源的关联原则与指引等方面加以探讨。

(1)数据模型的结构化呈现:类别与关系。由于各案例采用不同的模型,能否依原有模型的结构化关系呈现LD化结果供使用者使用,就显得十分重要。就结构化关系而言,所有研究案例都能显示,一方面4个案例都采取文本型的结构关系条列方式显示LD 及LD 超链接,但结构关系并无法达成关联查询;另一方面,由于4 个研究案例参考BIBFRAME 或FRBR17书目本体作为建立数据模型之用。优点是两个书目本体是全球图情界的重要标准规范,都由著名权威机构维护,一来URI具备永久性;二来也被全球图情界认可与采纳,且维护单位都会致力与现有图情界的其他标准规范(如MARC、RDA)对照,至于与非图情界LD标准规范对照的统一窗口,保持图情界内外间的互操作性。

(2)URI命名方式的样态与政策。整体而言,BL、LLN 与SHAREVDE都是依书目本体作为URI的命名依据,而BNF则未依此方式规划URI的命名,而是单纯采用ARK。对于采用相同书目本体的机构而言,BL、LLN与SHARE-VDE提供LD的URI实例具备LD资源的识别功能,极易区分不同书目本体类别与实例的LD与其URI,利于外部LD资源的多样化的识别与选择,进而促成现有LD的再利用。另外,在BL 案例中,也可能发现“Austen Jane,1775-1817”具有两个URI,一个为个人,另一个为概念。

(3)现有词汇的应用方式。依本文“使用现有词汇”一节内容,可以发现研究案例中,除采取现有的本体或后设数据元素集为依据建立数据模型外,也可以从“关联外部LD资源”一节得知这些案例也使用了外部LD资源,实际利用现有的LD型控制词汇。若依据W3C图书馆LD孵化小组报告内容,是将LD 区分为后设数据元素集、数据值词汇与数据集等3种。换言之,以研究案例使用现有词汇的方式而言,可以归纳为两种,一种是采用现有的本体类别名称或后设数据元素集数据元素名称作为建立数据模型之用,第二种是选用现有的数据值词汇作为既有LD实例的数据著录,也能经由多样化作业建立外部LD资源的关联,两者作用大不相同。

(4)外部LD资源的关联效益。以研究案例为探讨范围,可发现LD化后的结果各有差异,可区分为4种类型。第一种是BL仍采取一般线上目录服务,以文本型条列式与内外部LD关联串连为主要的结果呈现。第二种类型是达到联合目录的效果,包括LLN如图4所示与Share-VDE如图2b)所示等。第三种是关联式的跨库检索,如BNF除了利用URI关联BNF平台本身的内部URI外,也以URI为依据,增加了跨数据库的关联查询。第四种类型是接近KG或Wikipedia的信息卡形式,以撷取外部LD资源至图书馆的LD平台,如BNF与Share-VDE等。

(5)外部LD资源的关联原则与指引。就外部LD资源关联的类型而言,可区分为3种。第一种只以图情界范围内的外部LD资源为主,如BL与LLN。第二种除了图情界的外部LD 资源为主外,也扩及相关的维基(Wiki)资源,包括Wikipedia与Wikidata,如Share-VDE。第三种类型是跳出图情界的外部LD资源(如BNF),其原因可能在于为了扩大潜在的使用者触及层面或尽可能建立外部LD资源的链接。整体而言,建立外部LD资源的关联主要目的是针对某一LD加入不同面向的相关信息,以提供多元观点的信息。当前图情界对于外部LD资源关联的选择、数量及类型等尚未有任何共识。因而,亟待一个类似最佳指引,引导图情界有关外部LD 资源的关联,尤其在多样化作业流程中的识别与选择。

5 结论

依导入LD至语义网的过程而言,首先是BL与BNF案例,是以发展所属的书目本体为主,采取批次大量转换为LD方式为主要目的。在BL的案例中可发现,图情界早期大量批次的转换方式注重LD 化,并未如BNF 案例提供许多增值服务,包括跨库的关联查询与类似Wikipedia信息卡等。之后,随着关联型MARC的出现,参与LD4P Share-VDE计划的北欧国家图书馆与北美大学图书馆则是具体落实与验证关联型MARC的可行性,也额外提供LD驱动式虚拟式联合目录等相关信息。除此之外,以Zepheria为首的LLN案例,范围以英美公共图书馆为主,采取以BIBFRAME 简版与Schema.org 落实LD,以网络搜索引擎的曝光度及未来可能的KG应用服务为主要方向,同时也达成联合目录的效果。最后,发现图情界对数据采取平行策略,一方面将MARC予以LD化;另一方面保留原始图书馆自动化系统的MARC数据,且原始MARC数据未有任何改变。就实际的适用性而言,3种LD转换方式各具特色,但适用情形大不相同。如果图书馆以提供多元化信息供使用者参考使用,则由外而内的LD消费方式较为适合,包括书目本体批次LD化与关联型MARC的LD化等两种方式较为合适,但其缺点则是以图书馆目录为范围,并未主动将书目LD转成符合网络搜索引擎所需的结构化数据。反之,如果以LD 发布为主要目的,除提供符合Schema.org 标准的结构化数据,用以列入网络搜索引擎的索引与查询范围外,未来更可被丰富为KG与SG。另一方面,从KB的联合目录先后经历FRBR与BIBFRAME两次不同的书目本体批次LD 化过程中,可发现MARC与LD并存的平行策略是多数现有图情界采取的方式,兼具务实稳定性与实验开创性等双重特征,毕竟最佳的LD型自动化系统与线上公用目录仍在发展变动中。除此之外,如果仿效BNF同时导入书目本体批次LD化与Schema.org化方式,虽具备LD发布与消费双重效益,所需成本也必须审慎评估。本文是从W3C LD工作手册所规范的七大要素及其他项目,探讨3种转换方式的实际结果。从4个研究案例中发现,此3种转换方式各具特色与发展前景,可作为图情界在评估转MARC为LD时的重要参考。

猜你喜欢

数据模型书目本体
推荐书目《初春之城》
眼睛是“本体”
面板数据模型截面相关检验方法综述
基于本体的机械产品工艺知识表示
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
专题
Care about the virtue moral education
基于数据模型的编程应用
《全国新书目》2009年1月荐书榜
赠书书目