APP下载

“一带一路”沿线国家多语种共享型经济管理数据库建设障碍与对策*

2021-10-15莉,罗

图书馆论坛 2021年9期
关键词:多语种检索障碍

司 莉,罗 泉

0 前言

随着“一带一路”倡议推进,围绕“一带一路”的专题数据库不断开发,典型的有中国一带一路网、锐思数据“一带一路”数据库系列、国研网“一带一路”战略支撑平台等。总体看,“一带一路”专题库资源以中英文为主,小语种资源欠缺,实现跨语言检索的数据库极少,覆盖整个经济管理领域的数据库较缺乏。构建以“一带一路”沿线国家信息资源共建共享为目标的、多语种、共享型经济管理数据库具有重要意义。然而,此数据库资源具有多语种、碎片化、多源异构等特点,采集、组织、利用等难度大[1]。同时,由于沿线国家间政治、经济、文化与信息化水平等差异,实现共享存在阻力[2],数据库建设与推进面临诸多障碍。笔者采用扎根理论,分析“一带一路”沿线国家多语种共享型经济管理数据库建设(以下简称“数据库建设”)障碍因素,在此基础上提出建议,助力数据库建设的稳步推进。

1 研究进展

相关研究主要包括:(1)经济管理资源建设障碍。甘犁等指出经济管理领域的微观数据通常难以获得,此类数据主要来源于国家统计局等政府部门,大多不对外开放[3]。于施洋等指出“一带一路”每个沿线国家都在经济等领域积累海量数据,数据归集存在代表性和可获得性数据源确定、数据质量的保证以及多语言问题处理等障碍[4]。(2)多语种信息处理障碍。Kostic指出建立多语种的人类知识因特网数据库时面临数据清晰度不足、语言较多和多语种实时翻译等障碍,难以实现可持续的知识获取、组织、评价与分类[5]。(3)共建共享障碍。赵豪迈指出,受到共享信息资源意愿以及不同国家经济、社会、法律、信息化水平之间的差异等影响,“一带一路”沿线国家间信息共享是一个复杂的问题,“一带一路”信息资源跨国合作面临阻碍[6]。(4)标准障碍。丁波涛指出,“一带一路”沿线国家在信息采集、加工、存储、传递等环节采用的标准规范不同,不利于使分散在各个国家和地区的数据信息集聚起来,通过融合、重组或聚合等方式形成规范有序、格式统一的整体[2]。(5)法律问题。李玉璧等指出,在“一带一路”建设中,隶属法系、法治状况等差异会引发法律风险,其中包含因知识产权保护产生的法律风险[7]。Corejova等将数据库作为知识产权客体来考察,认为当数据库成为市场产品,使用和传播数据库中的信息存在法律问题[8]。(6)资金、人才、技术等障碍。刘彩虹等指出,建数据库是一项大工程,会受到技术、人才、资金等因素制约[9]。严丹等发现,“一带一路”专题数据库小语种资源欠缺,小语种翻译服务人才欠缺,阻碍多语种资源服务[10]。由此可见,相关研究认为构建此数据库存在语言、机制、法律等障碍。笔者运用扎根理论,结合文献调研与专家访谈法,梳理出各种障碍因素,为推动此数据库建设提出建议。

2 研究方法与设计

运用文献调研与专家访谈做为数据获取的主要方法,以中国知网为主要文献来源,分别以“一带一路(或者丝绸之路、海上丝绸之路)”“多语种(或者跨语种、多语言、跨语言)”“经济管理”“共享型”为关键词,与“数据库建设”进行组配检索,选取近15年文献,剔除重复与不相关的文献,初步确定70篇文献。通过滚雪球方式,对“一带一路”多语种专题数据库的资源建设、标准规范、法律问题等进一步展开检索,共计确认126篇文献。此外,围绕此数据库建设障碍,对8位经济管理与图书情报领域资深专家进行访谈,每次访谈时间为30分钟左右,经访问者同意,对其进行录音,之后将录音转为文本资料,进行编码分析。访谈主要围绕下述问题展开:您认为此数据库建设过程中是否存在障碍?您认为存在哪些障碍?您对此数据库建设有何建议?

采取扎根理论[11]做为数据处理的主要方法。首先,运用扎根理论方法,对文献资料与访谈文本进行阅读和分析,识别关于数据库建设障碍语句,获取原始资料。其次,进行初始开放性编码、主轴编码和选择性编码,形成初始概念、子范畴和主范畴。最后,对上述范畴进行反复修正和提炼。为确保研究样本符合饱和理论原则,随机选取三分之一资料进行饱和度检验。

3 数据库建设障碍因素的识别

3.1 开放性编码

开放性编码是将原始资料打散、编码、标签,进行初始的概念化和范畴化的过程。笔者以扎根理论编码原则为基础,对文献与访谈内容逐条分析,剔除相关度低的内容,共获得596 条语句。之后逐句编码分析,获得诸如“资源采集成本高”“语言数量多”“建设资金不足”等初始概念,见表1。在此基础上,对初始概念进一步分析、比较、聚类,提取有效概念,获得S1 资源范畴界定、S2 资源获取和S3资源采集等15个子范畴。

表1 文献和访谈文本开放性编码示例

3.2 主轴编码

基于开放性编码结果,根据概念间的关系和逻辑次序进行类属精细化和维度具体化,聚焦出现的范畴,进行主轴编码。通过对子范畴进行分析、归纳、抽象和重新归类,最终形成资源层障碍、物质层障碍、机制层障碍、标准层障碍、语言层障碍与法律层障碍6个主范畴,见表2。

表2 数据库建设的障碍因素

3.3 选择性编码

选择性编码是从主范畴中挖掘核心范畴,并围绕核心范畴建立其与各主范畴之间的典型关系结构,再通过逻辑关系分析,构建出理论模型[21]。笔者以“一带一路”沿线国家多语种共享型经济管理数据库建设为核心范畴,分析其与各主范畴间的逻辑关系,对比文献与访谈资料,发掘数据库建设的障碍因素理论框架。围绕核心范畴的主线为:信息资源是数据库提供服务的立足点,因此多语种经济管理资源建设与共享是此数据库建设的核心[22];资金、人才与基础设施是数据库建设不可或缺的基本条件[23];共建共享可以整合各方优势,是数据库建设的动力[24];数据库的价值在于所包含的资源和内容,定期维护更新是保持生命力的动力[25];标准化保证数据库运行的可靠性、系统性、连续性、完整性、兼容性,是数据库资源建设与共享的基础[26];语种数量多与跨语言检索增加了数据库建设的难度[27];资源在建设与共享过程中会遇版权保护等问题,使数据库建设面临法律冲突[28]。因此,数据库建设过程中,资源层障碍是核心障碍,物质层障碍是基础条件障碍,机制层障碍是动力障碍,标准层障碍是基础规范障碍,语言层障碍是实现难点,法律层障碍是法律风险。最后,随机选取包括访谈文本与文献资料在内的三分之一样本,进行上述流程的扎根分析,没有发现新的范畴,因此认为理论框架饱和。数据库的建设障碍理论框架见图1。

图1 数据库建设障碍理论框架

4 数据库建设障碍理论框架分析

4.1 资源层障碍:核心障碍

资源层障碍涉及资源范畴界定、资源获取、资源采集、资源质量、资源组织与利用。“一带一路”沿线国家经济管理信息地域分布广,涵盖多个行业和领域,界定资源范畴时,确定具有代表性与可获得性的资源面临障碍。此数据资源建设需要确保内容的权威性、完整性、准确性。当前这些资源呈现多源异构、不连续、不系统、碎片化等特点,通过权威、影响力较大的渠道获取全面可靠的资源难度较大[29]。在资源采集过程中,需从不同来源获取国内外经济管理类数据资源。然而,沿线国家对数据的管理体制和方式不统一,如关于个人、企业、政府等具体的经济管理信息,部分国家允许开放获取,部分国家则不开放共享,这使资源采集时面临很高的复杂度。同时,采集的资源需要经过大量人工清洗和审核,确保数据库中资源质量成为又一障碍[4]。而在资源组织与利用的过程中,对多语言经济管理资源内容进行深度揭示以及对关联关系的深度挖掘与组织存在障碍[30]。

4.2 物质层障碍:基础条件障碍

物质层面的障碍涉及建设资金、建设人才与基础设施。此数据库的建设是一个复杂系统的工程,需要耗费大量资金。目前建库资金主要依靠课题经费,来源单一,存在缺口,不足以覆盖多语种经济管理数据库资源建设、平台搭建以及后期维护等费用。此数据库的建设对建库人才要求高,需要组建熟悉“一带一路”核心理念、沿线国家国情和语言、具备经济管理与图书情报知识背景、掌握信息技术的复合型专业人才团队。比如,精通小语种与经济管理领域专家是评估资源质量的关键[13],然而“小语种+专业”复合型人才少,无法满足需求[31]。共享型数据库的建设需要软硬件等基础设施的支撑,如提供共享域的平台。受制于经济、政策、信息化水平等因素,我国与沿线国家数字丝路畅通度总体较低且国别差异大,阻碍共建共享平台建设[32]。

4.3 机制层障碍:动力障碍

机制层障碍涉及合作共建机制和更新维护机制。“一带一路”倡导共建共享,共建是共享的前提,共享是共建的目标[33]。因此,与沿线各国各类机构合作共建,既可推动数据库建设,也有利于促进沿线国家软性基础设施建设与信息互联互通。国际合作方面,对“一带一路”战略的疑虑、不愿共享资源等因素导致沿线国家缺乏共建共享动力[34]。多主体合作方面,确立合适的合作共建模式、设立合理的利益平衡机制,从而调动不同主体参与合作的积极性是一大障碍。数据库的长期运行离不开后期更新维护[29]。“一带一路”经济管理资源更新速度快,用户在使用过程中需求亦可能转变。为提升数据库的长期服务价值,需要动态增加新的资源,根据用户需求的转变重新整合资源。然而伴随课题组解散,后期投入不足等将阻碍其长期服务。

4.4 标准层障碍:基础规范障碍

标准层障碍涉及多语种经济管理资源建设标准。此数据库的建设涉及多语种多源异构经济管理资源的整合,也包含新闻信息、视频、音频、图像、研究论文等不同格式资源的整合。这要求数据库的元数据标准要具备以下特点:一是兼容性,要能兼容通用格式(CSV、JSON、XML、XSLX、PDF 等)、专有格式(如SDMX)以及半结构化的数据格式(如网页);二是互操作性,以形成统一的元数据描述,促进不同来源的经济管理资源的整合与发现;三是可扩展性,以便于后期数据更新。然而,“一带一路”沿线国家采用的元数据标准规范不尽相同,不同来源的、可公开获取的经济管理数据元数据标准也不完全相同,阻碍统一的资源建设标准确立。

4.5 语言层障碍:实现难点

语言层障碍涉及语种数量和跨语言检索的实现。“一带一路”倡议提出以来,中国已与138个国家、30个国际组织签署共建“一带一路”合作文件[34]。这些国家与地区涉及语种数量多,且大部分为非通用语言,增加了多语种资源建设的复杂度。此外,此类经济管理资源具有多语种特性,给数据库的检索服务提出了挑战。为满足用户的多语种信息需求以及实现数据共享,跨语言检索功能必不可少。跨语言信息检索是指以一种语言查询检索出另一种语言文档信息的检索方法[35]。目前尚未有实现跨语言检索的多语言信息共享平台,且此数据库建设涉及的语言数量规模大,实现跨语言检索难度大。

4.6 法律层障碍:法律风险

法律层障碍包括资源建设中的法律风险和资源共享中的法律风险。资源建设过程中,由于版权的地域性以及双边协定、国际公约等限制,存在知识产权冲突。比如,在数据库版权保护方面,我国采用“选择或编排”标准,其他国家可能存在差异,跨国采集数据时存在法律适用风险[36];收集的数据涉及大量个人信息,亦可能出现数据泄密与隐私侵犯等法律问题。资源共享时,存在信息复制和信息资源网络传播的法律问题。“一带一路”沿线国家的经济管理信息资源在网络中传播时,在资源的下载、门户信息的发布、情报分析和决策支持过程中存在版权风险。著作权人、数据传播者与用户之间的利益冲突使知识产权保护的主体、客体以及权利使用方式变得复杂[37]。

5 建议

5.1 资源层:加强规划,分阶段推进资源建设

加强资源建设的组织规划,分阶段构建资源体系。建设前期,应通过广泛调研,一方面明晰不同类型用户的需求,聚焦此数据库的应用场景;另一方面确定此数据库经济管理资源涵盖范畴。在资源采集方面,应确立采集规范,成立质量把控小组,确定权威数据源,保证数据质量。此外,加强已有平台之间的资源关联和整合。最后分步推进资源入库、组织与利用:一是优先采集中文资源,奠定资源基础;二是采集英文资源(依据获取难易程度)入库;三是推进区域性重点国家资源入库;四是逐步推进其他语种资源采集[4]。同时,运用人工智能、大数据挖掘等技术提高海量经济管理资源的组织效率。

5.2 物质层:多方面合作,夯实建库物质基础

建库过程中,引入外部力量,进行资金、人才、基础设施等多方面合作,共同启动数据库建设。例如,积极获得政府单位、科研机构、信息机构、企业等支持,丰富资金来源;在建库人才队伍中引入小语种、经济管理、信息技术等领域人才;搭建统一的多语种资源平台。此外,运用市场化的方式与相关信息技术企业合作,完成此数据库的原型搭建与平台功能的实现。比如,通过与地方政府、信息机构、社会组织合作,融合各方的资金、人才、技术等要素,厦门大学图书馆“海上丝绸之路”研究文献数据库成功建立,取得了较好的服务成效。

5.3 机制层:坚持开放合作,推动长期运行

(1)将此数据库打造成开放合作、共建共享的平台。其一,制定科学的合作共建与共享方案,促进不同主体合作。本课题组与科研机构提供用户需求分析报告、专业元数据、数据专业分类等,主导数据库建设;政府通过制定应用规范、购买服务等,实现数据库建设的多赢;企业利用市场机制、整合应用技术,促进数据库建设[38]。同时,设立合理的利益分配方案,如参与合作的主体享有优先或优惠享用的权利。其二,倡导“一带一路”沿线国家间的共建共享。加强国际间合作机制研究,增强数据库共建共享动力,推动建立国际资源交换机制,促进多语种资源共享。

(2)将此数据库打造成长期运行的平台,保持数据库生命力。制定合理的更新周期与投入机制,动态增加新的数据,促进资源长期建设。此外,构建动态交互平台,加强与用户交流,掌握其需求变化,针对不同服务对象,开发信息产品,提升服务价值。

5.4 标准层:求同存异,形成统一标准

在求同存异基础上确定资源建设标准。首先,充分借鉴国内外先进的标准和规范。采用“一带一路”沿线国家通用的数据著录标准、数据格式标准、文献分类标引标准及数据交换协议等作为数据库标准化建设的基础[39]。其次,确立统一的元数据标准。对资源进行深入挖掘,根据不同类型经济管理资源特点、使用目标等,确立一套适合此数据库且具有兼容性、互操作的、可扩展的元数据标准,形成互通共享的数据格式,实现信息描述、组织与检索的标准化。

5.5 语言层:跨国资源协作,人才技术齐驱

多语种资源获取方面,一是通过跨国跨语言的机构协作,协调不同国家和地区的数据合作,以签署备忘录等方式来协助多语种经济管理资源采集;二是利用技术手段,如智能翻译技术,降低多语种资源获取的语言壁垒。多语种资源共享方面,攻克小语种资源服务与跨语言检索技术等障碍,提高多语种资源的共享与利用率。同时,吸纳不同语言和文化背景的经济管理领域志愿者的参与,完成多语种资源翻译入库、后期维护等工作。在跨语言检索实现方面,借鉴成功的跨语言检索平台(如WorldWide Science)的多语种翻译方法,实现简单一站式检索、高级检索等多种检索功能,提供多语种界面。

5.6 法律层:增强法律意识,主动规避风险

在资源建设与共享中,主动识别并积极规避法律风险。通过整体规划和论证、数据来源甄别、传播权益界定、技术保护方案、关键资料备案、征求法制专家意见等措施处理好数据库建设中的知识产权等法律问题[24]。一方面,重视和保护著作人正当权益,处理好“下载”和“复制”等可能带来的侵权问题,注意视频、文本、图片、音频及数字化纸质文献等不同格式信息的版权问题;另一方面,尊重和保护个人隐私权,遵循数据保护的合法性、目的限制、比例、准确性、附期限与安全等原则[40]。

6 结语

笔者运用扎根理论,依据文献调研法与专家访谈法,获得“一带一路”沿线国家多语种共享型经济管理数据库建设过程中面临的资源、物质、机制、标准、语言与法律6个层面的障碍因素。基于对上述障碍的分析建议,在数据库建设过程中,本研究的局限在于建设障碍主要根据文献资料与访谈内容得出。为此,后续研究可以通过实际调研或根据项目推进过程中遇到的障碍展开研究,并提出相应策略。

猜你喜欢

多语种检索障碍
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
藏语称谓在多语种史料中的行用路径与语义演变
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
跟踪导练(四)2
内向并不是一种障碍
跨越障碍
家庭教育过于执着是孩子成长的障碍