APP下载

知识资源库建设: 出版商的转型之路

2014-03-07王晓光

出版参考 2014年2期
关键词:知识库语义图书

王晓光

近几年来,数字出版业正在向纵深发展,出版机构特别是专业出版社,加快了出版内容资源的数字化和深加工工作,部分单位也开始踏上从出版商向信息服务商或知识服务商的转型之路,这其中专业知识库建设正在成为一种新兴的趋势,而受到越来越多的出版机构的关注。

对出版人来说,专业知识库建设是一项新业务,以往它主要属于图书馆界和信息服务商的工作范畴。随着出版人对数字出版理念认识的深化,越来越多的出版机构开始意识到图书除了单本发行外,还可以作为一种整体性内容资源进行开发。对这种资源的开发,挖掘其内部蕴含价值逐渐成为专业出版机构转型发展的不二之选。

将图书作为一种内容资源,必须要打破图书之间的界线。从数据库的角度来看,专业性图书就像一个个“知识孤岛”,建立知识库就是要打破知识孤岛之间的间隔,使之成为“知识大陆”,让用户可以自由地在“知识大陆”上驰骋。这种变化给内容资源带来的增值效应不是1+1的关系。基于多本图书开发形成的知识库价值远大于单本图书的知识存量之和。

这种增值效应来源于两个方面:首先是开发过程中的劳动增值,将图书转换成知识库需要大量的编辑再加工工作,例如知识单元的切分、知识条目的标引、知识关联的建立、知识主题的再聚类、知识篇章的重组等,这些工作常常依赖专业编辑和领域专家的参与,所以其劳动价值被转移进知识库内,形成了价值增值的源泉。其次是知识单元脱离了图书的天然界线,形成了知识网络,带来了网络效应。网络经济的重要特点就是具有网络效应,它不仅可以带来正反馈,还为网络内的个体带来指数效应,大大提高了单个知识片段的效用价值。

尽管开展知识库建设和向知识服务商转型已经成为专业出版机构的集体选择,出版人对知识库的认识依旧参差不齐。何谓知识库,它与数据库有何区别,它最大的特征是什么,如何才能最大限度地挖掘知识库的价值?出版人必须认真思考这些具有挑战性的新问题。

从字面意思来看,知识库是一种存储“知识”而非“数据”的系统组件。早期“知识库”的概念是指一个智能决策系统的组成部分,包含某个特定领域的所有专家知识。由于“知识”概念的模糊性,以及常见的“数据-信息-知识-智慧”概念框架,人们常常无法准确理解“知识库”的概念。

自动化、人工智能领域的学者普遍认为知识库是一种具有结构化、层次化、模块化等特征的特殊的机器可读的数据库,内部存储的知识常常是谓词逻辑。而企业管理界、图书情报和出版界则常常将知识库当作一种文档库,存储人类可读的各种原始的图书文档、案例手册、企业数据或者学术论文、档案资料等内容。那么近些年来,出版领域的知识库建设是否就是后一种理解呢?不完全是,出版领域的知识库显然不是第一种知识库,但也不完全是第二种知识库。

当前知识库建设正在向精细化、语义化、网络化方向发展。知识库建设的目的是提供知识服务和语义出版。知识库内部的知识单元不是一本书、一篇文章,而是更为精细的知识片段,如一个章节、一个段落、一个图表,甚至一个句子。这种精细化的加工,要求出版商基于专业图书进行结构化切分和深度的语义标注,进而建立跨域的知识网络关联。目前,国内的中国知网、万方数据以及多家专业出版社,如高等教育出版社、人民军医出版社、人民卫生出版社、电子工业出版社、法律出版社、中华书局等都在朝这个方向发展。

从知识库的内容更新频率来看,知识库可以分为静态的知识库和动态的知识库。静态的知识库指内容更新频率低或者几乎没有更新的情况,例如古籍知识库,这种知识库的内容是一定历史时期的古籍集合,没有更新性,所以内部结构及关联关系都是静态的。动态知识库是指内容动态频繁更新的知识库,例如医学知识库,由于科研和实践领域知识生产速度很快,所以知识库内的细粒度知识单元在不断增长,知识关联关系在不断调整,知识主题聚类也在不断更新换代。从知识库内容单元类型看,知识库可分为文本图像型、视听型以及混合型。相对而言,由于文本图像加工较视频和音频容易,所以文本图像型知识库建设更为方便,投入相对较小。

新型知识库建设除了依赖传统的数据建设工具外,更依赖新型的语义技术,包括文档切分技术、语义标注技术、知识链接技术、本体组织技术、主题词表技术等。从知识库建设流程和模块来看,知识库建设阶段和涉及技术大概可以分为以下5个方面:

(1)知识源选择与数字化

建设知识库必须首选选择合理的知识源,关键是保障版权的合理使用,没有版权的内容是无法进入知识库内部的。其次,还要选择具有权威性的知识源,例如知名作者或机构的图书,经典的专业图书、善本或者机构报告等,都可以作为知识性内容的来源。确定了来源后,就要对内容进行数字化转换,关键是保证转换的正确性。可能遇到的问题包括图像表格的表示方式、稀有字体的编码、公式定理的表示策略等等。

(2)知识的切分与标注

在选定知识来源以后,就要对内容进行切分。出版领域的知识库建设与图书馆领域略有不同,出版领域的知识库应保证内容切分完以后还可以重组为一本图书,例如ePub格式的电子书,这就要求切分时不能只选择图书内有价值的内容,而忽略一切体例性内容,如图书前沿、后记等。图书的切分要首先建立图书结构模型,然后确定内部的知识单元类型,切分的粒度大小,知识单元的独立性和可重用性。进而再确定不同粒度的知识单元如何进行语义标注,设置何种属性,如单元的适用领域、读者特征等信息。

(3)知识网络链接与存储

在知识单元切分和标注完成后就需要建立知识网络,网络化组织是信息组织的前沿方向。这是知识库与一般的文献库不同的地方,也是网络效应发挥的基础。文献库内的文章单元难于相互链接,而知识库内的知识单元存在天然的知识关联,所以为了最大限度地挖掘知识库价值,必须在知识单元之间,利用DOI、URL、OpenURL等技术建立链接关系。这种关系的建设往往需要领域背景知识和领域本体技术,如医学领域本体用于指导医学知识单元链接网络建设。一般说来,知识库网络模型最后依赖于关系型数据库存储,所以必须考虑如何将知识网络模型向关系型数据库进行转换。

(4)知识检索与展示系统的开发

存储好知识库以后就要建设知识检索系统和展示系统的开发。检索系统常常需要借助全文检索和半结构化检索技术,进行检索建模。展示系统也就是知识网络的网站表示模型,如何借助信息构建技术和XML语言实现知识网络的展示是这一环节的关键。知识网络不是一个检索列表,而是网络空间,支持用户在知识网络空间内自由地浏览和发现,所以知识网络可视化技术必不可少,但如何迎合用户的心智模型和浏览习惯是知识展示系统的关键。

(5)知识组织标准的建设

为了支持以上环节的进展,出版机构必须首先开发建设知识组织基础标准,包括知识源选择规范、领域主题词表、领域本体、图书结构化规范、知识单元标引规范、知识网络链接规范、知识网络导航展示规范等等。这些基础性标准必须事前制定和动态更新,并嵌入知识库加工的所有环节,并且严格执行,才能保证知识库的质量和效用。

出版领域的专业知识库建设无法一蹴而就,它涉及到的技术较多,工程量大,对编辑再加工的能力要求高,需要较大的人财物投入。尽管前期投入较大,但在建立之后,可以树立较高的进入门槛,同时也可以凭借先发优势占领一个专业领域的市场,进而形成一定的垄断,保证长期获益能力。

总的来说,出版领域的专业知识库已经成为一种成熟的商业模型。利用已有的图书资源,开发建设专业知识库正在推动专业出版向高级的语义出版和知识服务升级和转型。出版商必须抓住机会,实现技术更新换代以及产业变革。

(作者系武汉大学信息管理学院教授、博士生导师)

猜你喜欢

知识库语义图书
图书推荐
语言与语义
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
欢迎来到图书借阅角
高速公路信息系统维护知识库的建立和应用
“上”与“下”语义的不对称性及其认知阐释
基于Drupal发布学者知识库关联数据的研究
认知范畴模糊与语义模糊
语义分析与汉俄副名组合
位置与方向测试题