APP下载

专业出版领域知识服务系统设计

2016-05-14百华睿张路

软件导刊 2016年5期
关键词:知识服务

百华睿 张路

摘要:基于开放域的知识服务系统已较为成熟,但是对于传统出版领域,尤其是专业出版领域而言,它还是一个非常新鲜的技术。在分析行业现状及需求的基础上,设计专业出版领域知识服务系统,构建专业领域知识体系,对专业出版领域的资源进行知识化加工及标引,形成知识库,并基于知识库提供面向不同用户的个性化定制服务。

关键词:专业出版;知识服务;知识标引;知识库构建;语义检索

DOIDOI:10.11907/rjdk.161078

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2016)005-0062-04

0 引言

20世纪80年代,信息服务产生并在世界范围内广泛普及,成为社会信息化的重要标志之一。随着信息技术打破摩尔定律继续以超高速迅猛发展,信息给人们的科研和决策也带来了诸多麻烦。信息元作为信息传播的最小单位,可以不断地连接、组合形成新的结构。信息元的这种无穷组合能力促使新信息不断产生,导致信息爆炸,形成信息烟雾。在众多信息和数据库面前,科研工作者和决策者却感到获取有用信息变得更加困难。为了让人们从“信息超载”和“知识饥渴”的困境中走出来,在知识密集型服务行业中出现了一个新的服务领域——知识服务。知识服务从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识,是一种用来解决用户问题的高级阶段的信息服务过程,它是一种面向知识内容和解决方案的服务。

区别于传统的信息服务,知识服务是用户目标驱动的服务,面向知识内容的服务,它非常重视用户需求分析,根据问题和问题环境确定用户需求,通过信息的析取和重组来形成符合需要的知识产品,并能够对知识产品的质量进行评价。此外,知识服务是面向解决方案的服务,它关心并致力于帮助用户找到或形成解决方案。同时,知识服务是为用户解决问题工程的过程性服务,帮助用户进行知识的捕获、分析、重组及应用,根据用户需求来动态和连续地组织服务。

1 行业现状与需求

在当前语境下,专业知识服务[1]工作的开展,无论是对出版企业还是技术提供方都提出了较高要求,尤其是在专业知识领域[2],具体要求主要体现在如下几个方面:一是对资源的要求,区别于无体系、无规范及无专业保证的互联网资源,出版社具备专业的编辑团队及知识来源,是开展知识服务的最佳基础;二是对技术的要求,只有依托于先进的技术手段及产品设计理念,才能实现合理的知识呈现、提供良好的解决方案;三是对知识服务的理解程度,在知识服务开展过程中,知识服务提供方要结合自身的资源优势及用户特点,基于对知识服务内涵及外延的了解,建立行业及专业的知识谱系及服务模型[3]。

近年来,国外学界对知识服务概念及范围的研究甚嚣尘上,与知识服务概念研究热潮形成鲜明对比的是知识服务实践开展却相对滞后,能真正系统开展知识服务的机构很少。但是,众多数字出版企业并没有停下前进的脚步,国内外众多出版机构都开展了在该领域的探索,并在探索的基础之上依托多元化的产品形态及运营模式,为用户提供基于知识的服务,为我国出版界开展知识服务建设提供了宝贵经验[2]。

本课题的主要研究目标是提供一套可行的解决方案,满足专业出版领域的知识体系构建、知识加工及标引、知识库构建以及对外提供知识服务的需求。

2 系统架构设计

2.1 系统总体架构

系统总体架构如图1所示。

2.2 资源采集及管理

专业出版领域的资源是专业出版社最核心的资产,将这些资源进行数字化、结构化及知识化,结合构建的知识体系形成知识库,再对外提供知识服务[3],这是本解决方案要实现的目标,也是整体框架设计的依据。

存量资源以图书、期刊等出版物为主,这些资源由于出版时期不同,其存储介质也不尽相同。早期出版物以纸质为主,到了20世纪80~90年代,出现了排版软件,例如方正书版、InDesign等,这时资源存储的介质已经数字化,基本上以方正书版文件、PDF、WORD等形式出现。

对于存量的纸质图书,可以通过扫描、OCR识别形成PDF文件实现其数字化。但是数字化只是第一步,想要获取到知识,还必须将资源进行结构化,本方案中结构化的数据采用XML来描述,XML的标准以国际通用标准配以国内标准的扩展。例如,国际通用的DOCBOOK5.0标准,并扩展中文图书特有的一些属性,从而形成本方案的图书结构化标准。

WORD结构化加工工具是基于微软Office提供的API接口开发的基于WORD的插件,安装后直接在WORD面板中出现一个新的面板,其提供的功能可以对WORD文本进行自动化及人工加工。对于方正书版文件,采用方正经典可以直接导出DOCBOOK标准的结构化资源包;对于PDF,可以通过集成业内成熟的数字加工技术来实现结构化。结构化的数据需要存储管理起来,对外提供浏览、下载、导出等服务,也可以参与重新加工的业务流程,这也是目前专业出版社内资源管理系统的常见功能。

2.3 知识体系构建

专业领域知识体系是知识的框架,它有效揭示了知识的内在关联和组织方式。领域知识体系是知识资源构建的基础,是知识组织的核心框架,它将知识和资源通过各种方式关联在一起,形成庞大的知识网络,通过知识体系的作用实现领域内容基于知识主体的内在连接、关联和关系推理,从而为使用对象提供精准的知识服务及知识延伸服务。

知识体系构建[4]是一项基础性工作,对资源进行知识提取之前,知识体系就必须先建立起来。本系统中知识体系包含3种,包括多维度主题分类、领域主题词表以及领域本体。多维度主题分类目前已得到广泛应用,多个领域内也都有了比较成熟的分类体系。领域主题词表是目前知识服务应用的主要知识体系,也是目前出版单位正在或者准备构建的知识体系,由于词表中的词数量众多庞大,因而需要花费相当的人力物力来进行此项构建工作。领域本体在目前国内出版单位涉及得非常少,它是最复杂的一种知识体系,相比主题词表,它需要构建者对领域内的知识有更充分的理解,并且所需要构建的内容也更为多样。

从分类体系到主题词表再到领域本体,可以采取循序渐进的方式进行构建,主题词表可以基于资源管理系统的分类体系、关键词、概念等内容进行构建,而领域本体则可以基于主题词表,将其关系扩展后得到。领域本体通过提取领域内的抽象实体以及实体之间的关系而形成,可以构建丰富的概念间的语义关系,其形成的知识图谱[4]是计算机智能技术最主要分支之一,这也是提供语义检索、智能问答的基础[3]。

本系统提供的领域本体构建界面如图2所示。

2.4 知识加工

对于知识服务而言,结构化的内容资源一般不能算作是可靠的知识点。例如拆分图书得到的章节片断,其内容一般与前后章节存在上下文关联,因而不能直接作为一个独立的知识点存在,需要从中进行提炼,而有些内容并不包含任何知识点。另外,一些图书的插图及描述也可以作为独立的知识点存在。因此,需要对结构化数据进行知识加工与标引并形成知识。知识加工模块业务架构如图3所示。

知识发现指从结构化内容资源中根据预置的规则和算法自动抽取出知识点的过程,规则和算法都是为了实现自动提取这个动作。

发现规则指系统预置的用于提取知识点的规则。对于不同类型、不同领域、不同载体的内容资源,提取规则可能存在根本性不同。本系统中,发布规则模块采用组件模块方式实现,通过接口向外部提供规则调用服务。这种设计思路方便基于接口进行复杂规则的扩展。

系统预置一些常用规则如下:

(1)末级章节规则。将图书、期刊等结构化后的最深章节提取出来作为知识点。这种规则是目前应用最广泛的规则,适用于词典、论文集、科技期刊等专业出版领域常见的出版物类型。

(2)图表提取规则。将结构化后得到的图表、属性及其文字说明提取出来作为知识点。适用于人物、地点、事件等专业知识。

(3)位置模板提取规则。制定针对文本内容的位置模板,例如第一段或者某些固定的词语之后。数学中的“公理”之后一般紧跟着该公理的描述。通过这样的规则就可以提取到某些固定格式的知识点。

(4)摘要提取规则。通过语义分析技术[5]及数据挖掘技术[5],可以从大段文本中提取出摘要信息作为知识点。

发现算法指将发布规则、内容资源按照一定的逻辑进行处理。每种算法都可以集成多个发现规则,例如将图书拆分的末级章节提取摘要后作为知识点,其中就集成了末级章节规则和摘要提取规则。也可以对多条内容资源进行一个知识点的提取,例如多个章节描述了一个知识点的多个属性,则可以直接将其内容资源合并之后进行提取。

知识标引是将待标引的知识纳入到知识体系网络内,将其与知识体系关联。不同的知识体系对应有不同的标引方法,包括分类标引、主题词标引以及知识本体标引。由于知识标引的数据量庞大,因而一般采用自动标注结合人工干预的方式来实现。以主题词标引为例,进行标引分类后,基于分类进行主题词标引会更加简单,自动化标引结果也会更加准确。主题词标引也分为手动标引、自动标引结合人工修正两种方式。

(1)手动标引。先标引分类,然后点击该分类,在主题词区域显示出该分类下所有的主题词列表,选择一个或多个主题词后,点击“确定”,则知识和选中的主题词之间建立了关联关系。选择主题词也可以通过检索主题词表来实现。

(2)自动标引+人工修正。当知识进入待标引知识库后,系统自动调用自动化标引工具,将知识内容作为参数传入工具,工具经过处理后返回推荐的主题词。自动标引后的知识将进入待审核状态,专业人员可以点击审核按钮,进行审核,如果确认标引错误,可以进行人工调整,方法等同于手动标引。

自动化标引工具是实现知识自动化标引的载体,通过提供接口来集成到系统中。该工具提供的功能也可以通过接口描述来体现,在本系统中包括知识体系同步接口、自动化标引接口以及反馈修正信息接口。知识体系同步接口将分类体系、主题词表及本体导入并同步更新。自动化标引接口提取内容文本特征和关键词频率,综合内容特征和关键词频率并对照知识组织方案规则实现内容自动分类和知识点标引。可采用如下内容特征方式实现自动化分类标引:

(1)基于元数据属性特征。在进行资源加工时,对于每个资源都会标引比较多的元数据,包括标题、作者、关键词、来源等。可以通过这些标引的元数据属性特征实现内容自动分类和知识点标引,例如相同来源的、相同作者的、关键词相同的。

(2)基于文本内容特征。首先,对已经入库的文本内容提取其关键词作为其特征向量;然后,在获取到用户录入的检索内容时,自动提取该内容的关键词作为特征向量,在自动标引时,查询与其特征向量最接近的知识主题分类、主题词表等作为其标引项。

(3)基于知识体系。在构建知识体系时,会构建知识体系之间的关联关系,作为知识体系下的内容会自动继承这种关联关系,在获取到一个资源时,将相关知识分类下的资源作为该资源的标引项。通过这种方式建立的关联关系,知识的相关性程度比较高。

反馈修正信息接口主要用于机器学习方面。自动化标引结果存在一定的误差与谬误概率,需要人工修正。对于错误标引的处理结果,需要通过反馈修正信息接口将其反馈给自动化标引服务,自动化标引服务会据此对标引算法进行自我完善,进一步提高自动化标引的准确率。可以使用负面标引清单的方法来实现,将错误的知识提取放入负面标引清单,同时在服务内置的知识关联表中,降低知识所标引的错误主题词和正确主题词之间的关联度。这样,下次进行知识标引时,同时出现错误主题词和正确主题词的概率就会降低,再结合其它正确主题词,便可提高自动化标引的正确率。

对标引完成后的知识,需要专业数据人员介入,结合系统自动化功能,对知识进行再次验证、校对处理,保证知识化加工和标引的准确性与规范性。

2.5 知识管理与发布

知识资源库[1]是基于内容资源库而构建的,专为知识服务和知识内容产品化抽取整合的带有知识特征的知识化内容资源库,是具备知识服务目标属性的内容资源库。基于内容资源库可以创建多个知识库,知识库自身特征决定了知识库和知识体系具有密不可分的关系。知识库创建时除了设置库的名称、库码、领域、类别等基本属性外,也需要选择一个或多个知识体系或其分支以建立关系。

在系统数据结构设计上,知识库和知识体系并没有相互的从属关系。从理论上讲,一个知识体系或其分支可以属于多个知识库,一个知识库也可以拥有多个知识体系或分支。然而从实际使用的角度看,建议一个领域的知识体系对应一个领域的知识库,这样结构完整,也便于使用。

内容资源经过知识化加工后,形成知识,经过加工系统中的流程审查后,最终进入知识库,知识在加工系统中,会被标注到某些知识体系下,因而在知识入库时,会自动进入知识体系关联的知识库内。知识库可以整体发布以供知识服务系统来导入使用,这样可以将知识库构建和知识服务分离开来,实现知识库的多元渠道发布应用。

知识库导出支持多种格式,如在线导出、镜像导出和U盘导出等。使用在线导出时,知识库中被抽取的内容通过网络传输到运营平台,自动更新也在线上完成,具有时效性。若运营平台用户由于某些原因无法连接网络,也可通过镜像导出或U盘导出获取知识资源,在这两种导出方式中,自动更新需借助人工手动完成。

2.6 知识服务

知识服务最主要的功能之一是提供检索,其它功能,例如知识推荐、知识问答等实质上都是检索功能的多种应用方式。知识服务提供的检索功能包括简单检索、高级组合检索、二次检索、相似检索、跨库统一检索以及语义检索等。其中,语义检索是体现知识服务最优秀能力的功能之一。

对用户提问的知识点进行语义检索,包括3步:①从知识图谱中遍历查询知识点;②根据预置的路径算法获取该知识点关联的其它知识点,默认算法是获取该知识点的相邻知识点及其之间的关系;③从资源关联装置中获取该知识点及其关联知识点关联的知识条目。

以“小儿腹泻“为例,调用知识图谱管理装置提供的接口,在图数据库中使用图遍历方式查询该知识点。获取该知识点相邻的知识点及相互间的关系,如图4所示。

获取“小儿腹泻“知识点以及相邻知识点下的关联知识条目。获取到资源后,生成解决方案,一个解决方法有多个方面的组成单元,每一个方面的组成单元都有相应的资料。生成方案需要根据检索得到的信息按照两级关联进行整合,第一级是知识点之间的关系,第二级是知识点与知识条目之间的关系及权重。例如“小儿腹泻”有两种关联的治疗方法,则将此两种方法合并到治疗这个方案组成单位下,然后针对每一个治疗方法再选择权重值最高的关联知识条目作为治疗单元下该治疗方法子单元的资料。方案展示装置用于展示解决方案,包括解决方案展示区和知识图谱展示区两部分。

3 结语

本文根据出版社目前资源搜集及数字化转型现状,提出了一套可用的专业出版领域的知识体系构建系统,并且针对不同出版社的知识体系构建情况,形成了分类体系、主题词表以及领域本体3个层级的知识管理及服务解决方案。本文描述的系统包括资源采集与管理、知识加工与标引、知识管理与发布以及知识应用,并对关键的知识加工及知识应用环节进行了详细介绍,以尽可能满足专业出版单位需求。

参考文献:

[1]王胜海,沈英.网络智能知识服务系统设计[J].现代图书情报技术,2002(1):29-31.

[2]秦长江,侯汉青.知识图谱—信息管理与知识管理的新领域[J].大学图书馆学报,2009(1):30-37.

[3]丁蔚.从信息管理到知识管理[J].情报学报,2000,19(2) 124-129.

[4]魏瑞斌.机构知识图谱的构建及其应用[M].北京:科学出版社,2015.

[5]梁永霞.引文分析学知识图谱[M].大连:大连理工大学出版社,2012.

(责任编辑:孙 娟)

猜你喜欢

知识服务
基于远程教育的个性化知识服务研究
学术出版知识服务研究
基于知识服务的档案管理模式研究
跨境电商供应链中的知识服务供需匹配模型研究
构建图书馆知识服务理论体系的思考
嵌入心理契约的馆员知识服务能力建设研究
从西方国家保护消费者权益政策看用户信息消费的安全管理
智慧型图书馆中知识服务模型研究
知识地图在四川大学图书馆的应用研究
浅析南疆农业科技知识服务体系的构建