APP下载

多语言数字图书馆信息生态链的结构、类型及启示

2020-05-20赵生辉西藏民族大学管理学院云南大学历史与档案学院

图书馆理论与实践 2020年3期
关键词:语种语言文字图书馆

赵生辉,胡 莹(.西藏民族大学管理学院;.云南大学历史与档案学院)

互联网的飞速发展使人们接触到非母语信息的机会大幅增加,检索、访问、阅读和利用非母语信息资源的需求日益增长。为了满足用户对多语种信息资源的利用需求,数字图书馆必须在信息资源的生成、采集、组织、检索、呈现、服务等环节提供多语言支持。多语言环境下的数字图书馆除了具备单一语言数字图书馆的基本属性之外,其信息生态链也会因语言文字的多样性体现出特有的结构和规律。研究和探索多语言数字图书馆信息生态链的运行机理对于应对全球范围内信息管理和利用的多语种化趋势、提高多语言数字图书馆建设和管理的科学化程度具有重要作用,对于多民族国家面向不同语言公民社群开展多语种信息服务具有一定的参考价值。

1 多语言数字图书馆信息生态链的概念界定

1.1 多语言数字图书馆的概念与实践

数字图书馆(Digital Library)通常是指致力于实现数字文献信息资源跨媒体、跨地域整合与共享的分布式信息服务系统。[1]作为“多语言信息存取”[2]与“数字图书馆”的交叉领域,多语言数字图书馆(Multilingual Digital Library,MDL)是指涉及两种以上自然语言信息资源的存取或者可以为用户提供两种以上自然语言信息服务的数字图书馆。[3]此处的“语言”是指人类社会生成和使用的自然语言,并非面向计算机处理的人工编程语言,计算机软件视角下的可以集成多种编程语言的“多语言数字图书馆”虽然采用了同样的术语表达,却不属于本文的研究范畴。多语言数字图书馆当中的“多语言”通常包括多语言信息资源和多语言信息服务两个方面的特征,前者重点关注多语种信息资源的集成共享,后者重点关注信息资源的多语言传播。

多语言数字图书馆具备数字图书馆系统的基本属性,同时由于信息资源和信息服务的多语言特征,面临一些需要特别应对的挑战和问题。例如,对不同语种信息资源进行语义关联实现多语种信息资源的跨语言检索,为用户提供必要的母语信息提示、辅助用户完成跨语言浏览或阅读等。多语言数字图书馆旨在协调语言文字多样性和沟通交流一体化之间的矛盾,它可以在保持信息资源多语言特征的同时,通过技术和管理手段实现多语言信息资源与多语言用户群体的最佳匹配,将语言文字差异性造成的沟通交流障碍降到最低,使用户获得更加良好的信息服务体验。

目前,较大规模的多语言数字图书馆主要有世界数字图书馆(World Digital Library,WDL)、国际儿童数字图书馆 (International Children’s Digital Library,ICDL)、加勒比海数字图书馆(The Digital Library of Caribbean,dLOC)、雪域数字图书馆(The Tibetan&Himalayan Library,THL)等。国内学者或机构近年来提出的有关多语言数字图书馆建设的倡议主要有亚洲数字图书馆(Asia Digital Library,ADL)、丝路数字图书馆(Belt&RoadDigitalLibrary)、中国民族数字图书馆等。[3-5]总体而言,学界当前对多语言数字图书馆这一特殊研究对象的认识还处于较为粗浅的阶段,这种状况对“一带一路”背景下图书馆事业的国际合作以及提升我国民族地区多语言环境下的信息服务水平造成了一定程度的制约。

1.2 多语言数字图书馆信息生态链的概念与本质

信息生态学是从生态学视角探讨人类社会信息活动规律的交叉学科,其基本观点主要包括:信息在人类社会的流转与生物在自然界的繁衍生息具有相似的规律性;一定时空中的信息生态系统是由信息、信息人、信息技术和信息环境等要素相互联系、相互影响和相互作用而形成的有机整体;信息在不同主体之间的流转形成相互关联、相互依存的链条式结构,即“信息生态链”。[6]因此,多语言数字图书馆信息生态链是指多语言信息资源在信息传播者、信息收集者、信息聚合者、语言服务提供者、信息技术提供者和多语言用户群体之间流转而形成的相互关联、相互依存的复杂性链条式结构。

美国数学家申农(C.E.Shannon)将信息通讯过程简化为由信源、编码、信道、信号、噪声、译码、信宿等要素组成的信息系统。[7]从信息通讯系统视角审视多语言数字图书馆信息生态链,可将其看作信息服务人员将多语言数字信息资源通过互联网传递给多语言用户的过程。如果数字信息使用的语言文字与用户能理解和识别的语言文字不属于同一类型,意味着信源端和信宿端出现了编码方案错位,信息资源即使可以传递给用户也不能对其产生实质性影响,沟通交流被语言障碍所阻断。为减少语言文字差异性对信息交流造成的影响,信息服务者通常需要依托人工或机器翻译手段对信息资源进行转换,以实现信息资源与用户需求之间的匹配。因此,多语言数字图书馆信息生态链本质上就是信源端和信宿端编码方案动态匹配的过程,其形态通常不会是简单的线性结构,而是因多种语言相互转换而形成的复杂结构。

2 多语言数字图书馆信息生态链的结构模型

2.1 数字图书馆信息生态链结构分析

娄策群等认为,信息生态链是指在信息生态系统中,信息流转于不同信息人之间而形成的链式依存关系。[6]信息生态链的基本形态可以描述为由信息生产者、信息传递者和信息消费者之间的正向信息流和反馈信息交流构成的链式结构。根据上述观点,构建数字图书馆的信息生态链(见图1)。[8]

图1 数字图书馆的信息生态链的结构

数字图书馆的信息生态链主要由信息生产者、信息传播者、信息收集者、信息聚合者、信息技术支持者、信息政策制定者和信息消费者等信息主体构成。“信息生产者”是产生信息的人,主要指撰写图书、论文等各类信息资源的作者群体。“信息传播者”是从事信息出版发行和公开传播服务的各类专业工作者群体,如出版社、期刊社、报社等新闻出版机构及博客、论坛等网络信息服务机构的工作人员。“信息收集者”分为两种类型,“信息收集者I”主要是指从事文献数据库建设的信息服务提供商,“信息收集者II”指图书馆中从事特定主题数字信息资源建设的工作人员。“信息聚合者”指通过技术手段和统一界面为信息消费者提供自建、购买或共享的数字信息资源的工作人员。“信息技术提供者”是为数字图书馆的功能实现和正常运行提供技术支持的各类技术人员。“信息政策制定者”指通过制定数字图书馆运行管理相关的法律、规范和标准,维持数字图书馆信息生态系统运行秩序的各类公共机构工作人员。“信息消费者”分为两种类型,“信息消费者I”是指分散形态信息资源面向的用户群体,大多数情况下属于信息传播的受众群体,“信息消费者II”是指聚合形态信息资源面向的用户群体,本质上属于信息资源的二次集成利用而产生的新的用户群体。“信息消费者II”与“信息聚合者”之间为双箭头,表示两者之间为互动关系,“信息消费者II”可以通过信息反馈影响信息服务的模式和信息资源收集的范围。综上,数字图书馆(D-Library)是在特定的信息政策环境中,由各类相关信息主体在信息技术支持下,通过信息收集、信息聚合、信息技术支持等功能所形成的整合型信息空间,各类因素相互联系、相互协作、相互依赖,形成具有整体性功能特征的信息生态系统,最终目标是集成各类社会信息资源,最大限度满足用户的信息需求。

2.2 多语言数字图书馆信息生态链结构分析

多语言数字图书馆信息生态链是在国家语言文字政策框架内,由信息资源的多语言特征或信息消费者的多语言需求驱动的多语言化信息收集、聚合与服务的过程(见图2)。

图2 多语言数字图书馆信息生态链的结构

多语言数字图书馆具备数字图书馆信息生态链的基本特征,同时由于语言文字的多样性,其信息生态链需要增加部分个性化模块。相对于单一语言数字图书馆,多语言数字图书馆信息生态链有以下4个特点。① 信息资源的语种多样。造成信息资源语种多样性的主要原因是信息生产者处于不同的语言文字生态圈,当收集信息的范围跨越不同区域时,就会对数字图书馆的体系结构和服务模式提出更高要求。② 信息服务的语种多样。信息服务需求呈现多语言特征的主要原因在于信息消费者群体来自不同的语言文字圈,不能识别和理解以其他语言文字为信息记录符号的信息资源。③ 数字图书馆需要进行不同语种语言文字信息资源之间的相互转换。通常情况下,至少需要使用一种语言文字著录或者翻译另一种语言的信息,以保证信息消费者可以用自己熟悉的语言文字阅读或者了解其他语种信息资源的内容。因此,图2中的“语言服务提供者”可分为“语言服务提供者I”和“语言服务提供者II”,前者指数字图书馆建设机构内部从事语言文字翻译或转换服务的工作人员,后者指从事语言文字翻译服务的社会专业机构或人员。在数字图书馆建设机构缺乏足够的多语言专业工作人员时,通常可以通过服务外包的方式购买社会专业机构提供的语言服务。④ 数字图书馆的多语言信息资源管理需要遵守国家语言文字管理的法规政策,符合国家语言文字工作的总体战略,这是单一语言数字图书馆建设很少需要考虑的问题。因此,图2中的“语言文字政策制定者”主要是指国家语言文字工作机构、标准规范制定机构的工作人员。

可见,多语言数字图书馆信息生态链以使用多种语言文字的用户群体为基础,在信息政策制定者、语言政策制定者共同构建的制度框架内,通过信息传播者、信息收集者、信息聚合者、语言服务提供者、信息技术提供者的相互协作实现多语言信息资源的优化配置,最终满足用户对多语言信息资源的需求。

3 多语言数字图书馆信息生态链的类型划分

多语言数字图书馆信息生态链结构模型是对多语言环境下数字信息资源传播过程的全面反映,是一种考虑到各类应用需求的复杂网状结构。然而,具体到任何一个实际的应用场景,数字资源语种和数量、机构所拥有或者可以从外部共享的语言资源的数量、服务对象的语言能力的差异性等因素都会使多语言数字图书馆的功能构建侧重于其中的某些方面,因而信息生态链的运行机理会呈现出多样化特征。根据申农的信息通讯系统模型,[7]信源端采集和保存的信息资源语言数量和信宿端用户所能识读和理解的语言数量呈现出从一种到多种的可能性,两者之间的组合关系与数字图书馆信息生态链之间的关系见图3。

图3 多语言数字图书馆信息生态链的类型

图3 将数字图书馆数字资源语言种类划分为1(单语言)和n(n≧2,多语言)两种情形,将用户群体可以理解的语言种类表达为1(单语言)和m(m≧2,多语言)两种情形。根据信源端和信宿端涉及语言文字数量之间的组合对应关系,可以将多语言数字图书馆的信息生态链划分为四种类型:① 一对一(1/1),并行结构多语言数字图书馆信息生态链;②多对一(n/1),集成结构多语言数字图书馆信息生态链;③ 一对多(1/m),扩散结构多语言数字图书馆信息生态链;④ 多对多(n/m),网络结构多语言数字图书馆信息生态链。上述每种结构的多语言数字图书馆信息生态链都有其典型特征,与不同的应用场景相对应,呈现出不同的运行机理。

3.1 并行结构多语言图书馆信息生态链

并行结构多语言数字图书馆信息生态链的特征为信源端的数字资源只涉及一种语言,用户群体只能识读一种语言文字的信息资源,信源端传递的信息资源和信宿端用户可以识读和理解的信息资源属于同一语种,这正是单一语言数字图书馆的典型特征。这就意味着在并行结构多语言数字图书馆中,单一语言数字图书馆的特征依然存在,即多语言数字图书馆当中同时并行着若干条独立存在的单一语言信息传递通道。并行结构多语言数字图书馆是按照多个语种独立提供信息服务的思路进行建设的,其建设机构并没有或较少考虑跨语言信息映射问题,而是根据信息资源的现有语种进行元数据描述和检索界面设计,供熟悉该语种的用户使用。并行式结构多语言数字图书馆的信息资源按照语种进行严格分割,每个语种只要遵循单一语种数字图书馆建设和开发的规律进行即可,不需要增加专门的语言文字映射系统,因而整体结构相对简单,建设难度相对较小,可以作为多语言数字图书馆建设初期采用的架构。并行结构多语言数字图书馆的不足在于信息资源的管理和利用局限于单一语言内部,信息资源传播的范围较小,用户能够检索和阅读的信息资源相对单一。尤其是当用户对某种语言的文字符号完全不能识读时,即使该信息资源对于用户非常重要也无法被用户检索和利用,甚至完全排除在可利用信息资源范围之外。

并行结构多语言数字图书馆的应用情境通常有以下类型。① 用户群体中的绝大多数人能够熟练阅读和理解两种以上语言文字信息资源。如果图书馆所在地区属于典型的双语或多语地区,绝大多数的服务对象已经掌握了两种或两种以上语言文字,则数字图书馆可以按照并行式架构提供服务,由用户逐一检索不同的服务界面获取多个语种的信息资源。例如,我国大多数高校数字图书馆都购买了部分外文版学术数据库的使用权,用户进入外文版检索页面进行检索,根据需要下载和阅读相应语种的外文信息资源。在上述过程中,图书馆并没有提供任何外文信息资源的翻译服务,主要是基于对高校数字图书馆用户群体的定位,设定有外文学术数据库使用需求的用户通常情况下是可以熟练阅读英语甚至其他语种外文文献的。②采用松散结构的联邦式数字图书馆。在图书馆国际合作过程中,相关国家或者地区的文化机构将各自的单一语种数字图书馆链接到协作组织的主页中,供用户群体进行选择和使用。除参与协作各方所建成的数字图书馆通常都以本国官方语言文字为主,通过协作形成的数字图书馆联盟就成为一种并行结构的多语言数字图书馆。

3.2 集成结构多语言数字图书馆信息生态链

集成式结构多语言数字图书馆的特征是信源端的信息资源涉及多个语种,但是作为服务对象的用户群体只能识读和理解一种语言文字,即出现了“多对一”结构。由于用户群体无法阅读母语之外的信息资源,数字图书馆的建设机构就要通过某种形式的映射机制为用户提供除母语之外的其他语种信息资源的元数据、摘要甚至全文翻译文本,信息资源的跨语言映射工作通常由专业翻译人员或者机器翻译系统相互配合完成。上述过程实现了多个语种数字信息资源向某一语种信息资源的映射,可以认为是一种具有集成功能的数字图书馆。集成式结构多语言数字图书馆是其建设机构为了扩大用户的阅读面,将部分非当地通用语种的文献资源纳入采集范围而形成的一种信息生态链。集成式结构多语言数字图书馆主要应用于公共图书馆,大多数用户群体只能阅读和理解其母语信息资源,要检索和利用非母语数字信息资源就必须借助公共图书馆提供的支持系统。例如,我国公共图书馆主要提供国家通用的汉语信息服务,如果要引入英语、日语、德语、法语等外语信息资源服务,则需要图书馆提供上述信息资源的汉语版本的元数据、摘要、缩写版或者全部译文。

3.3 扩散结构多语言数字图书馆信息生态链

与集成式结构多语言数字图书馆的“多对一”结构相反,扩散式结构多语言数字图书馆体现为“一对多”结构,即数字图书馆的信源端只涉及一种语言的数字信息资源,但是信宿端用户群体的语言文字能力具有多样化特征,需要数字图书馆建设机构为其提供必要的支持。与集成式结构相同的是,扩散式架构也需要建设机构根据用户需求对信息资源进行跨语言映射,只是映射的方向不是由多语言转向单一语言,而是由单一语言转向多语言。假设扩散式结构多语言数字图书馆有使用A、B、C三种不同语言的用户群体,对应的信宿A、信宿B和信宿C只能识读和理解各自信息传递通道上传输的信息资源,公共文化机构所采集和保存的信息资源的语言为A、B、C当中的一种或者是A、B、C之外的某一种语言;如果要扩大上述信息资源的传播范围,则需要在语言交换体系的支持下将信源端的信息资源映射成为A语言、B语言或C语言的元数据、摘要或译文。此外,考虑到用户语言的多样性,需要专门设计每一语种的检索和利用界面,或者在同一界面中同时包含多种语言文字,以便用户根据提示信息完成相关操作。

扩散式结构多语言数字图书馆的应用情境通常有以下两种情形。① 承担着国家文化对外传播功能的多语言数字图书馆。在国际合作与交流中,如果某个国家希望自己的文化能够被其他国家的用户所了解,则可以从传播的视角专门设计相应主题的数字图书馆,将本国有代表性的文化资源翻译成多种语言文字版本,并通过多语言版本的用户界面向目标用户群体提供服务。② 承担着国家内部跨语言社群沟通交流功能的数字图书馆。如果国家内部存在多个不同的语言社群,尤其是部分人口还不能使用通用语言文字进行交流时,就需将与公共利益相关的各类政府文献以各少数社群的语言文字进行传播。[9]无论是对美国、加拿大、澳大利亚这类移民国家,还是中国这类典型的世居多民族国家,扩散式结构多语言数字图书馆都适用。如,我国政府在召开重要的政治会议时,会在提供国家通用语言文字版本会议文献的同时为少数民族代表提供少数民族语言版本的文献。[10]

3.4 网络结构多语言数字图书馆信息生态链

网络式结构多语言数字图书馆是一种“多对多”的结构,信源端的数字信息资源涉及多种语言文字,信宿端是使用不同语言文字的用户群体,数字图书馆在语言映射系统的辅助下,在不同语言文字信息资源之间建立关联,使得任何一种语言文字信息资源都可以映射为其他语种的元数据、摘要或者译文,任何用户都可以用自己熟悉的语言文字了解或阅读数字图书馆中的任何信息资源,形成一种类似网络的结构。网络式架构是多语言数字图书馆的一种理想化模式,如果多语言数字图书馆信息生态链各模块功能都可以实现,则数字图书馆呈现的整体功能就是网络式架构。

网络结构多语言数字图书馆可以实现并行式结构、集成式结构、扩散式结构的所有功能,是多语言数字图书馆信息生态链四种类型中功能最为完备的一种,也是涉及因素最多、结构最复杂的方案。 网络结构多语言数字图书馆可以在语言交换体系的支持下实现某一语言信息资源向其他语种信息资源的自由映射,任何一种语言的信息资源都可以在其他语言信息通道建立相同内容、不同语言的“镜像”。在多语言数字图书馆涉及的语言数量较多时,要实现任何两种语言文字信息资源之间的双向映射成本过高,可以将其中一种语言作为中间语言,系统只考虑中间语言与其他语言之间的映射问题,其他语言之间的双向映射可以中间语言为中介完成。

在网络式架构多语言数字图书馆信息生态链中,各类语言的地位都是平等的,因而适用于基于平等合作、互惠互利原则建立起来的国际或区域性数字图书馆联盟。除此以外,网络式架构多语言数字图书馆可以结合不同的场合进行变通,从而在实践中发展出具有不同特征的应用场景。例如,网络式架构数字图书馆中各种语言的信息资源总量和用户数量并不相等,在机构语言转换能力有限的情况下,可以在跨语言映射过程中有所侧重。如果某语种信息资源数量较少但用户数量较多,将其映射到其他语种时可以选择较小粒度、较高精度,甚至人工参与的方式完成全文对等翻译;反之,如果某语种信息资源数量较多但用户数量较少,则可以选择粗粒度、低精度的映射方式,只对文献的元数据甚至标题进行翻译。由于语言映射系统能力的限制以及跨语言映射粒度、精度的变化,经过映射处理的信息资源通常会有不同程度的“损耗”。例如,在粗粒度、低精度映射的情况下,源语言信息资源整个篇章的文本投射到另外一个语言传递通道后可能仅为一条数据记录。此外,网络式架构对数字图书馆跨语言交换能力的依赖度较高,整体功能的实现程度受到机器翻译等自然语言处理技术发展水平的制约,短期内还无法实现在不同语言信息传递通道之间自由切换的状态。因而,在自然语言处理技术还没有取得根本性突破的情况下,网络结构多语言数字图书馆应该视为一种远期发展目标,而不是短期内可以实现的成熟模式。

4 多语言数字图书馆信息生态链的政策启示

4.1 多部门协同制定多语言数字图书馆建设战略

多语言数字图书馆建设事关国际文化交流和民族地区文化发展,应当引起国家相关部门的关注和重视。根据多语言数字图书馆信息生态链的结构模型,我国的多语言数字图书馆建设涉及信息政策制定者、语言政策制定者、信息传播者、信息收集者、信息聚合者、语言服务提供者、信息技术提供者等信息主体,因此建议国家公共文化行政机构、语言文字工作机构和外事管理部门多方协调,从国家层面上制定多语言数字图书馆发展的总体政策框架,确立多语言数字图书馆建设的基本原则,为我国多语言数字图书馆建设提供战略参照体系,为多语言数字图书馆建设创造良好的信息环境。

4.2 建立我国多语言数字图书馆的分类指导体系

(1)多语言文化数字图书馆,主要满足我国参与国际文化交流、传播优秀传统文化的战略需要,如“亚洲数字图书馆”“丝路数字图书馆”等建设倡议就属于这种类型。[11]多语言文化数字图书馆建设初期可以采用“扩散式信息生态链”,将我国优秀文化信息资源翻译为多国语言文字版本,通过数字图书馆平台进行对外传播。随着建设推进,可以在相关国家文化机构、语言文字工作机构的共同参与下,按照“网络式信息生态链”的目标模式进行建设,最终建成多国语言文字文化资源交汇和交流的中枢平台。

(2)多语言学术数字图书馆,主要满足多语言学术著作、期刊等文献信息资源的共享需求,主要承担者有高校图书馆、文献数据库服务商等。[12]高等学校图书馆可以对其信息资源按照语种进行细分,对于以英语作为记录语言的数字信息资源适当采用“并行式结构信息生态链”,由用户自行检索和阅读;对于英语之外的非通用语种数字信息资源提供跨语言检索服务,并尽可能提供汉语元数据或者摘要服务,以便用户判断资源主题的相关性。

(3)多民族语言数字图书馆,主要满足我国民族地区多语言环境下的文化交流需求,增进各民族之间的沟通和理解。多民族语言数字图书馆建设的核心问题是处理好国家通用语言文字与少数民族语言文字之间的关系,多民族语言数字图书馆信息生态链在总体上可以采用“集成式结构”,对少数民族语言信息资源进行双语著录、双语摘要甚至双语翻译,以国家通用语言文字为中介,将各少数民族语言信息资源联结为统一的整体。[10]

4.3 遵循需求驱动原则推进多语言数字图书馆建设

多语言数字图书馆作为学术概念是统一的,是对众多具有共同特征数字图书馆的统称。然而,任何一个多语言数字图书馆的建设都面临非常具体的应用情境,需要结合实际分析其信息生态链的结构类型,有针对性地选择发展路径。为此,需要对拟建设的多语言数字图书馆进行全面系统的需求分析,根据所涉及语言文字的种类、语言文字服务人员的数量、跨语言信息支持技术的发展水平、多语言用户的数量及需求结构等信息综合分析判断,确定多语言数字图书馆的建设思路。例如,双语著录是我国少数民族语言信息管理的基本原则,对少数民族语言信息资源进行双语著录时,多语言数字图书馆信息生态链整体上呈现出“集成式结构”特征。但是,这种情况并不是绝对的,如果某一民族地区双语教育发展水平较高,当地绝大多数居民可以同时使用两种语言文字进行沟通交流,则数字图书馆信息生态链可以采用“并行式结构”,由用户群体在两种语言文字当中选择任何一种进行信息检索和阅读。

猜你喜欢

语种语言文字图书馆
语言文字运用专项练习
语言文字运用题的变与不变
小题精练(四) 语言文字运用
小题精练(三) 语言文字运用
《波斯语课》:两个人的小语种
图书馆
去图书馆
走出报考小语种专业的两大误区
小语种报考,你知道多少?
“一个笑话可能要经过几秒钟才会听见笑声”