非结构化参考文献提取与管理方案研究

2016-05-14司远肖毅

软件导刊 2016年5期

司远肖毅

摘要：随着信息技术的发展，出版行业逐渐将采集、编辑等流程转移到计算机上进行，实现从传统出版到数字出版的转型。图书出版物中参考文献具有重要意义。现有参考文献管理工具在运行时，大多要求在图书编撰的起始阶段介入，并需要用户自行从外部获取结构化的参考文献信息。在数字出版系统中，图书内容由投约稿作者提供，具有大量非结构化文本，难以进行管理。针对这一问题，研究了GB/T 7714-2005文后参考文献著录规则，运用正则表达式匹配等技术手段，提供了一种非结构化文本中参考文献的提取和管理方案。

关键词：数字出版；非结构化；GB/T 7714-2005；正则表达式；参考文献

DOIDOI：10.11907/rjdk.161079

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2016）005-0137-03

1 数字出版概述

随着激光照排技术的普及和互联网技术的飞速发展，出版行业产生了深刻变革，数字出版受到行业和学术界的广泛关注。

20世纪70年代以来，王选院士主持的方正激光照排系统迅速产业化并被市场广泛接受，出版行业中录入、排版、校对、印刷等主要流程开始向数字化转变。随着互联网时代的到来，出版行业在数字技术的应用上不断尝试，出现了电子出版、互联网出版、泛媒体出版、跨媒体出版、全媒体出版、复合出版等多种出版形式。然而，上述概念局限于数字技术在特定出版流程或介质上的应用，不能在全局层面上描述层出不穷的数字媒体。自2005年起，我国出版界提出了数字出版概念，涵盖了近年来新出现的数字媒体，受到业内的广泛认同。这一概念的提出，体现出业界对应用数字技术后出现的一系列新型出版形态的认识越来越深入，在技术层面概括了新出版形态的本质特征。与传统出版相比，数字出版技术的优势体现在：传播速度快、范围广、形式多样；出版内容时效性强；信息交流更加具有互动性；提供个性化服务；支持海量存储；内容便于检索和二次加工；制作和发行成本较低。

近年来，我国的数字出版产业所占比重越来越高，数字出版高速增长。在数字出版快速发展的同时，我们还要清醒认识到其中存在的问题：大多数数字出版产业的数字化仍处于较低水平，单纯将纸质内容通过技术手段转化为数字内容，产品内容结构仍然沿用传统出版模式，没有对数字内容资源进行结构化、知识化处理，无法使产品增值，受限于出版类型和投资规模的约束，还没有出现类似Elsevier和Springer的大型国际化数字出版企业。据统计，全国584家出版社中，256家推出了数字出版的相关产品，但只有102家建立了专业的数字出版机构[1]。

2 内容结构化与数字出版

结构化是出版行业数字化的核心，数字化标准通过语义标签，以标题、目录、正文等文章结构和词语为基本单元，对出版内容进行结构化处理，内容结构化的程度直接影响数字化水平。出版行业的数字化，不只是内容的数字化，更重要的是实现编辑出版体系的数字化。数字编辑出版系统打破了传统出版模式中时间和空间的限制，投稿、审稿和编辑可以随时随地进行，提高了审稿效率，简化了编辑环节，提升了编辑工作的价值，在工作效率和质量上远超传统出版模式[2]。结构化是建立数字化编辑系统的基础和前提，在出版行业的数字化过程中具有重要地位，美国物理学会、BMC出版社和PLOS ONE期刊等行业先行者已开始构建出版内容存储的XML结构化规范。

我国出版行业应用的结构化数字编辑系统包括：北大方正书畅系统、玛格泰克稿件处理系统和查尔斯沃思XML排版软件等。北大方正书畅系统将科技期刊的采编系统与排版、发布系统集成，提供面向科技期刊的数字化生产流程，编、排、发一体化的同步出版解决方案。该方案通过流程化系统，贯穿期刊稿件的采编与排版环节，在满足传统纸质出版的要求下，可以同步产生包含稿件元数据标引信息的XML结构化数据，为网刊发布提供数据支撑，给科技期刊用户带来更大的附加价值。玛格泰克稿件处理系统为出版行业提供了整体的数字出版解决方案，可自动提取出版内容中的元数据和扩展数据，支持方正书版文件、Word文件和Latex文件等。查尔斯沃斯将出版内容统一转化为XML格式文件并进行结构化排版，生成XML、HTML、PDF和图片等形式的排版结果文件，能适应多种传播媒介。

上述几种数字编辑系统均包含业务流程再造[3]环节：在出版流程中，为满足互联网和移动设备用户的需要，内容生产、加工、发布等环节需要进行再造，从生产源头对出版内容进行结构化和元数据标引，实现动态出版。只有结构化的内容，才能被数字出版系统导入并提取知识。受益于良好的设计，方正书版文件和Latex文件本身已具有较高的结构化程度，然而在数字出版领域中，Word仍然是作者投稿时使用的主流文件格式。在2003及之前的版本中，Word文件实质上是一种二进制文件，通过文件首部偏移地址为0x00的文件信息块对全文进行索引。在2007和更高的版本中，微软采用了OOXML（Office Open XML）标准，这是一种基于XML的文件格式。OOXML标准Word文档包含一簇互相关联的XML文件，使用XML元素存储文件内容、样式、应用程序数据和元数据等文档组成部件。

如表1所示，OOXML标准Word文档主要组成部件包括注释、文档设置、脚注尾注、字体、页眉页脚、正文、编号和样式等。文本内容全部存储在正文部件中，其它部件主要用于样式控制。

OOXML标准Word文档正文部分XML文件的典型结构如下：从正文-章节-段落-句子-文本逐渐细化，元素代表正文部分全文，被元素划分为两个章节，元素表示段落，第一章节只包含一个段落，元素是段落的组成部分，可近似理解为句子，存储文本内容，一个元素可包含多个元素。OOXML标准定义的正文部分，注重在语法方面的结构化，在语义层次上可视为非结构化文本。例如，论文中包含中英文标题、关键词、摘要、参考文献等具有重要价值的元数据，Word文档不能直观表示。

为满足业务流程再造环节中的结构化需求，本文提出了一种针对Word非结构化文本的参考文献提取和管理方案，运用正则表达式技术，自动识别文献中的参考文献管理条目并提供管理功能。

3 非结构化参考文献提取与管理方案

3.1 GB/T 7714参考文献标准

GB/T 7714《文后参考文献著录规则》是一项国家标准，用于指导著者和编辑编撰文后参考文献。GB/T 7714采用ISO 690《文献工作文后参考文献内容、形式与结构》和ISO 690-2《信息与文献参考文献第2部分：电子文献部分》两项国际标准[4]。

常见参考文献格式包括期刊、图书、会议论文和专利等：

（1）期刊：[序号]作者.题名[J].刊名，出版年，卷（期）：页码。

（2）图书：[序号]作者.书名[M].其他责任者（选择项）.版本（第1 版不著录）.出版地：出版者，出版年：页码（选择项）。

（3）会议论文：[序号]作者.题名[C].会议名称，会址，会议年份。

（4）专利：[序号]专利申请者或所有者.专利题名：专利国别，专利号[P].公告或公开日期。

文献类型和标志代码位于方括号中，为各类参考文献共有，用于表明参考文献类型，如表2所示。在方正智能非结构化参考文献提取与管理方案中，考虑到标志代码的普遍性和唯一性，将标志代码作为提取文献条目时的正则匹配条件。

3.2 方案核心类视图

方正智能非结构化参考文献提取与管理方案采用Word插件机制开发，可按需安装或卸载。方案由5个核心类组成：①Plugin，包含Word插件所需的通用组件；②ReferenceManagementPaneCtrl，用于显示参考文献并提供文献管理功能，属于核心交互界面；③ReferenceSetting，允许用户自行设置提取解析参考文献时的规则；④ReferenceManagement，参考文献提取、解析和管理功能的底层实现类，被ReferenceManagementPaneCtrl调用；⑤ReferenceExtension，存储设置参数和用于解析参考文献的正则表达式。如图1所示。

3.3 参考文献提取与解析流程

底层实现类ReferenceManagement工作流程如图2所示：①以段落为单位遍历当前文档，使用正则匹配技术获取参考文献文本；②进行文本预处理，去除空格并修正全半角格式，提高文献解析准确率；③通过文献类型和标志代码进行文献分类；④通用解析流程，用于识别各种类型参考文献中的公共部分，如作者、出版时间、标题等；⑤专用解析流程，根据文献分类执行专用解析操作，例如GB/T 7715标准中，只有连续出版物具有年-卷-期属性。

3.4 独有功能

方正智能非结构化参考文献提取与管理方案从数字编辑系统实际环境出发，结合编辑人员需求进行设计与开发。相对于Endnote、NoteExpress、cnki E-learning等同类型参考文献管理工具，提供以下独有功能：

（1）全文文献提取和列表显示。方案允许用户在当前文档动态添加文献，通过图3所示的刷新按钮实时获取全文中包含的所有参考文献条目，并将文献的编号、作者、标题等重要属性直观显示在列表中。

（2）引用遍历。选中列表中的参考文献条目后，通过上一个、下一个按钮可遍历查看正文中的参考文献引用，结合设置还可规定只遍历正文或上标格式的引用。引用遍历功能允许用户根据语义环境判断参考文献引用是否正确，发现因编号混乱等人为因素导致的文献引用异常。

（3）引用检查。我国出版物通常约定，参考文献应按照文中引用最早出现的顺序编号。图书等出版物内容繁多，参考文献的编号难以确定，引用检查功能将参考文献按照首次出现的地点排序，通过对比编号与顺序的对应关系，更容易检查出文献编号问题。

方案还提供了互联网查询接口，可自动将提取到的信息在百度学术等专业网站检索，为用户提供可靠依据。样式检查功能可自动纠正标点、全半角等格式问题，使参考文献更加美观准确。通过设置，还支持MLA、APA等多种参考文献格式。

4 结语

方正智能非结构化参考文献提取与管理方案在出版物撰写完成后介入，在非结构化的Word文档中提取参考文献信息，并解析为作者、标题、出版时间等结构化数据。有利于出版行业海量存量数据的结构化，为数字编辑系统的推广和出版行业的数字化转型提供了良好基础。方案所特有的动态文献提取、实时显示、引用遍历和引用检查功能，可有效降低编辑人员的工作量，节省时间成本，提高工作效率。

参考文献：

[1]白杰，杨爱臣.XML结构化数字出版的特点与流程[J].出版广角，2015（5）：152-156.

[2]陆晟.数字出版技术与编辑出版工作的数字化[J].出版广角，2014（2）：137-137.

[3]吟春.新技术助力出版创新———访北京北大方正电子有限公司数字出版业务部总经理刘长明[J].中国编辑，2011（4）：13-18.

[4]中华人民共和国国家质量监督检验检疫总局，中国国家标准化管理委员会.GB/ T 7714—2005 文后参考文献著录规则[M].北京：中国标准出版社，2005.

（责任编辑：杜能钢）