APP下载

数字人文视域下的明清档案信息资源建设与开发

2023-05-30田呈彬王宁

档案管理 2023年2期
关键词:信息资源建设数字人文

田呈彬 王宁

摘  要:明清档案信息资源建设和开发的现状、数字人文与明清档案工作的特征上的契合性及数字人文与明清档案工作之间的关系,使得在明清档案工作中引入数字人文具有一定的现实基础和意义。基于数字人文视角,明清档案保管主体应当借鉴吸收数字人文的理念、技术与工具方法,并充分结合明清档案工作基础和实际要求,从不同方面进一步做好明清档案信息资源的建设和开发。

关键词:数字人文;明清档案;信息资源建设;信息资源开发利用

Abstract:  The current situation of the construction and development of archival information resources in the Ming and Qing dynasties, the correspondence between digital humanities and the characteristics of archival work in the Ming and Qing dynasties, and the relationship between digital humanities and archival work in the Ming and Qing dynasties make the introduction of digital humanities into archival work in the Ming and Qing dynasties have a certain practical basis and significance. Based on the perspective of digital humanities, the subject of archives preservation in the Ming and Qing dynasties should study the ideas, technology and methods of digital humanities, and fully combine the basis and actual requirements of archives work in the Ming and Qing dynasties to further improve the construction and development of archives information resources from different aspects.

Keywords: Digital humanities; Ming and Qing archives; Construction of archives information resources; Archival information resources development and utilization

1 引言

我国各级各类文化机构保存的2000余万件明清档案,被誉为古代文化三大发现之一。明清档案是对纵跨数百年的各主体的实践活动的记录,书写材料和文字丰富,形制精美,文种多样,多项档案被列入《世界记忆名录》《世界记忆亚太地区名录》《中国档案文献遗产名录》。价值独特、原始记录性附加真实性保障的大量明清档案,理应成为以整个人类历史活动记录为研究对象[1]的数字人文语料。数字人文与明清档案工作具有相适性,运用数字人文理念可以克服明清档案信息资源建设和开发的不足与困境。

开发明清档案信息资源是评价档案工作成效的重要指标。文章以明清档案主要保管主体中国第一历史档案馆(以下简称一史馆)档案工作为案例,探讨应用数字人文理论与实践建设和开发明清档案信息资源的思路。

2 明清档案信息资源建设与开发现状

2.1 明清档案信息资源建设状况。一史馆从20世纪80年代开始,逐步探索档案整理与数字化一体的档案整编工作路径。[2]21世纪,一史馆先后开展两次大规模档案整理与数字化工作,以满足大规模档案利用需求。2010年,基本实现馆藏档案案卷级整理,500万件档案秩序整理至类项,并完成约350万件的标准化著录。次年5月,五年档案整理和数字化工程正式全面启动。至2015年底,800余万件档案完成数字化,电子数据总量增至4PB,[3]馆藏档案文件级整理基本实现,成体系、组织有序的明清数字档案信息资源体系得以建立。

明清档案数字化实现了模拟信号到数字信号的转换。但受由少数民族文字、不同字体的手写体书写等因素影响,明清档案数据化程度不高,可操作性不强,知识组织和可视化表达更是任重道远。

2.2 明清档案信息资源的开发状况。档案开放方面。一史馆在馆内外平台开放档案474万件、档案条目416万条,以供用户在线或来馆查询。仅2018—2022年,一史馆就在局域网开放档案上百万件。迄今开放了《清实录》《清会典》等16个满汉文全文数据库。

编研出版方面。一史馆迄今已出版各类档案出版物3000余册。仅2010年至2015年,一史馆就出版了500余册,形成国家重点出版项目、专题史料、与地方政府及部门合作出版史料、研究著述这样多层次的编研成果,[4]成为档案价值实现的重要途径和提供系统化信息服务的重要形式。

宣传利用方面。多年来,一史馆与各类研究中心、博物馆和地方档案馆合作举办展览或为其提供档案展品;2004年,一史馆开通官方网站,经多次改版,2022年上线最新官网;2016年正式开通官方微信平台,至此,新媒体和传统档案网站协同发展;2022年,一史館新馆传统布展和现代化展示结合的多个档案展览面向社会开放;在国际档案日等重要节点宣传活动上同央视、新华社等中央媒体密切合作。

然而,因档案图像的数字化成果并不利于深层次开发,缺少现代化信息服务;档案开放总量提升,但局限于馆内信息化平台,互联网开放量不足;档案编研出版成果虽丰,但形式仍多拘泥于影印式、点校式传统史料编纂和图册图录汇编,[5]网络出版和现代技术运用缺位;档案展览呈现以大量静态文字图片为主,方式较单一,对观众专注力、理解力有较高要求;社交媒体展现形式仍是传统纸媒的电子化翻版,多形式、动态化新媒体特色没有得到很好体现,传播力与影响力较弱。

3 数字人文与明清档案工作的契合性分析

3.1 数字人文能拓展明清档案工作思路。明清档案机构要实现数字转型,建设、开发利用好档案信息资源,需要引入应数字时代而生的数字人文理论和实践成果,转变明清档案人思路观念,创新工作模式,推进明清档案工作向纵深发展以满足新的时代需求。

具体而言,充分借鉴、利用数字人文理念、技术方法和工具,进一步优化档案信息资源体系,谋求档案信息资源开发利用的多元化、创新性路径举措,共享档案基础业务成果,发挥档案和档案工作价值。随着明清档案逐渐走进公众视野,基于数字人文建设开发明清档案信息资源,为社会公众提供更喜闻乐见的档案服务内容具有重要意义。

3.2 数字人文与明清档案工作在特征上有相适性。一是都重视协同合作。数字人文突破学科边界、强调开放性和协作性。[6]数字人文语料来源于不同文化机构的图书档案资料、文物和艺术品等。项目目标的实现往往需要跨学科团队,以吸收有不同专业技能、知识结构的成员,充分发挥各自优势,整合跨学科见解。同样,明清档案工作的开展离不开档案学、历史学、语言学等专业学科的融合,各项基础业务工作也有社会力量的参与。相互合作的不同主体,共同构成明清历史与文化的建设者与传播者。

二是都依赖大量数据信息。大体量语料库成为数字人文研究的重要基础,数据类型也不再局限于结构化文本,转而扩展至动静态图像、音视频等。人文语料库总体呈现出“大数据”趋势。借由可高效處理大规模数据的数字技术,人文研究迈向更深层次,能够从多维度形成可靠的研究成果。占有2000余万件明清档案资源是明清档案保管主体的最大优势。各项基础工作的开展和档案工作价值的实现以及保管主体职能的发挥紧紧围绕档案资源。而要想更好地服务党和国家工作,服务人民群众,更离不开大规模易用档案信息资源的支撑。

三是都以项目为主要途径。数字人文以项目为要素组织形式,当下各种数字人文研究均以项目为依托,成果也以项目形式呈现。数字人文将各类语料库语料、数字人文研究主体、数字人文技术方法与工具、平台等要素集成于项目之中。同样,明清档案工作也常需要整合各类资源,以项目形式推进目标实现。

3.3 数字人文与明清档案工作的信息需求一致。数字人文需要海量结构类型多样的数字语料。但海量往往意味着无序。数字人文项目中,对语料的选择、数字化、组织、分析、编辑等,[7]需要耗费不少时间精力。占有大量档案资源的明清档案机构的一项重要任务就是使庞杂的档案从无序走向有序。数字人文和明清档案工作对信息的量和质的需求有一致性。经过数代明清档案人的努力,上千万件明清档案经数字化加工整理,逐渐形成完整序化的数字档案信息资源体系。这为数字人文项目创造了条件。

4 数字人文视域下的明清档案信息资源建设思路

4.1 深入推进明清档案的数字化、数据化。数据驱动型数字人文基础性活动和后期文本标记、知识图谱生成构建等,[8]都以语料数据化为前提。当前明清档案图片式数字化成果不足以满足数字人文项目和机构自身深度开发档案信息的需要。一要加快完成数字化。明清档案机构馆藏档案数字化接近尾声 。但馆藏舆图、玉牒和部分残档等形制特殊或保存状况不佳的档案未完成数字化加工。要继续探索该类明清档案数字化方案,完成实体档案资料向数字载体的数字资料转换,建立完整的数字档案资源体系。二要推进档案数据化。面对多以繁体、蒙藏满等少数民族文字手写而成的明清档案内容,光学字符识别技术(OCR)识别准确率不高,舆图、玉牒、样式雷图档等形制、内容特别的数据化更是困难。但要想利用数字技术实现档案信息深度开发、打破信息与利用者之间的屏障,明清档案机构就应寻求自然语言处理、图像识别等破解数据化难题的技术方案。三要加强后端数据管理。采集明清档案管理过程数据、用户基本信息和行为数据,建立明清档案大数据集,丰富数据规模和结构类型,减少数字人文研究成果的不确定性,以维护人文研究的严谨性,并针对性优化明清档案利用服务内容和方式,提高服务质量。

4.2 丰富明清档案数据库建设。数据库为数字人文项目提供语料基础和技术支撑,也是项目成果的重要呈现形式。档案保管主体通过数据库有序组织数字化档案信息、提供档案信息服务以及参与和开展数字人文项目。再从档案信息的数据化语义表达到结构化知识组织,再到可视化展示以及档案信息的整合与共享,一系列活动都难以离开数据库。

一方面,面向不同服务对象和主题,选择系统性明清档案材料,并利用研究成果,来建设更多专题数据库,形成有序易用的明清档案专题数据集,提升档案信息组织水平,帮助用户快速准确查询、获取所需信息。同时专题数据库也要随着信息化建设的深入而优化,建立更多全文数据库、多媒体数据库以及其他半结构化、非结构化数据库,进一步发挥数据库文献史料准备的作用,大大减少数字人文研究前期准备时间,转而将更多精力用于知识发现和问题研究。

另一方面,充分考虑历史事件和现象通常并非孤立存在,而是相互关联,彼此影响,需要在海量信息中挖掘、分析组织,方能更全面地揭示历史关系和解释历史现象。因此在专题数据库系统基础上,加以扩充或者按类项等逻辑开发数据库,建设联系紧密、涵盖不同主题和档案类型的综合性档案信息数据库集群或者说综合档案信息资源库。

4.3 推进明清档案信息整合与共享。2000余万件明清档案散存于境内外约200家机构。其中,不到40家机构馆藏逾千卷(册),仅13家超万卷(册),[9]保管主体较为分散,呈信息孤岛之势,部分档案表现为碎片化状态,不利于整体开发利用,价值实现不尽如人意。

明清档案保管主体应贯彻执行新修订《中华人民共和国档案法》中档案信息化建设要求,建立主体协同机制,以标准规范与制度体系、现有或新搭建平台探索档案信息整合与共享模式。通过已建立起的全国明清档案目录中心进一步摸清明清档案最新保存、开发利用状况,便于做整体设计。

一方面,加強档案信息整合。分布式明清档案保管主体的档案信息资源库接入全国档案查询利用服务平台或者建立其他统一平台,开发和关联异地异质数据库,以整合不同主体和不同类型的档案信息。

另一方面,要加强档案信息共享。一是不断扩展档案开放广度。既要使馆藏档案应开放尽开放、早开放,完善开放信息资源体系,又要从单位内网向互联网开放延伸,扩大资源可获取范围和主体,不断突破档案利用的时空壁垒。二是要强化档案信息开放深度。建立开放型免费数据库系统,并从开放目录到开放全文网上查询利用循序渐进,降低信息获取门槛,让数字人文研究者和其他档案利用者方便快捷地经互联网检索高度组织的档案信息,推动人文研究从有限的文本到无限文本的快速获取与分析。

5 数字人文视域下的明清档案信息资源开发思路

5.1 主动以数字人文项目带动档案信息开发。项目是数字人文的基本单位,也是档案信息资源开发的重要途径。明清档案保管主体应利用馆藏档案天然资源优势、历史学与档案学复合型专业能力的后天条件与既往工作经验,主动组织人力、技术和资金实施明清档案数字人文项目,在目标导向下保持在项目过程控制中的话语权,辅助人文语料库建设。

明清档案多元价值的实现依赖不同差异化思维与技能主体从不同角度的诠释。实践领域专家、学者能为突破明清档案繁体、少数民族文字的手写体OCR技术识别转化困境提供技术解决方案;数字人文实践项目团队具有利用社会化众包参与模式尝试档案著录、标记与注释等工作的经验[10];图书馆界、文学界积累了中文自然语言处理、语料库语料建设方面的成功做法。围绕文化建设、记忆保存和构建等主题,明清档案保管主体组织人文研究者和其他主体、历史语料等项目要素开展数字人文项目,在项目实施以及后续维护中努力保障项目顺利进行和成果的长期可持续性,以项目促档案信息开发利用。借项目组织实施,积极融入数字人文社群,在合作中积累面向不同群体需求的档案建设与开发经验,不断提高信息传递与接收效能。

5.2 档案业务工作中加强数字人文技术与理念应用。明清档案保管主体不仅要尝试在数字人文项目中运用数字人文技术方法,也要试着将其扩展至常规工作。

创新展览宣传。文字与图像相结合的形象化、抽象化表达有时更能清晰表达意图,也使接收者更易接受。文字为主的明清档案内容要求受众精读、细读。受众的持续专注力、阅读理解力、语言文字水平等直接影响档案内容信息传播效果。为此,可将数字人文常用的3D建模技术、虚拟现实(VR)与增强现实(AR)等数字技术用于馆藏图像类档案,实现虚拟重建和可视化展示,摆脱传统实体静态的单一呈现方式。亦可尝试基于分层制图技术、知识图谱等,从不同维度关联、分析和阐释历史,营造观众参与式历史故事讲述情景模式。以舆图为例,可基于舆图内容现实考察,结合地理信息系统分析工具(GIS)、时空数据库构造查询功能等,为用户营造该图景往昔情境的相对真实的共时性观感体验,强化用户对历史流动魅力的沉浸式感受。

优化档案编研。数字人文成果并非海量数据的简单整合堆砌,而是基于语料库的知识生产和再创造。明清档案编研要创新成果,根据现实需要强化编研内容的深度。可借助资源建设成果、依托数据挖掘与可视化等技术工具手段,将编研工作重点不断转向注重历史现象与问题研究,将单一的信息提供服务扩展至生产性知识创造,致力于输出解释性成果。数字人文一改突出文本的首要地位,转而重在强调视图化的知识生产与组织。[11]因此在编研成果的呈现方式上,要尝试加强可视化表达,补充与丰富相对匮乏的视觉效果,走向面向普通受众的浏览式、显性化阅读,并以更好的交互设计提升用户的参与感,减少受众疲态。

5.3 打造新形势下的档案服务利用平台。无论数字人文还是档案信息资源开发利用,都要依托平台。这要求协同构建起档案信息开发利用平台和数字人文项目平台。依托平台来传递信息以及完成信息的加工、展演和再生产。

具体来说,可依托馆内档案信息查询利用系统、官方门户网站、微信公众号等现有平台,做好平台的改造升级,打造集成数字人文项目实施和最终项目成果展示平台、档案信息加工组织以及档案信息服务利用的综合性平台。官方网站和微信公众号不能仅仅发布政务信息、提供初级档案信息查询利用服务和设置一些简单粗糙的功能模块。而是要打造成包含案例故事、人文数据库[12]、网上展厅和有统一入口的分布式明清档案信息一站式查询利用等功能的平台系统。微信公众号不单单发布小文章、政务信息和提供部分目录查询,更要努力打造为可查询档案信息全文、网络在线看展以及线上交互的新型档案服务平台。此外,数字人文项目中的沟通、图形与视觉方面的设计师关注语言的符号化表达、概念的图形化表达,交互/用户体验设计师关注接口、行为,而媒体设计师则将沟通和交互相结合。[13]因此,要在平台设计时,留意平台的视觉、图形和接口设计,对文字、图片的排列组合、阅读的层次结构和交互导航等设计要素多加关注,力求适应用户行为特点,提升受众的平台使用体验感。

注释与参考文献:

[1][7][8][11][13]安妮·博迪克,约翰娜·德鲁克,彼得·伦恩费尔德等.数字人文改变知识创新与分享的游戏规则[M].马林青,韩若画译.北京:中国人民大学出版社.2018.

[2][3][4]胡旺林主编.明清档案事业九十年——中国第一历史档案馆发展历程1925—2015[M],北京:人民出版社,2016.

[5]赵菁.明清档案编纂成果的著作权保护[J].档案管理,2022(03):63-64+67.

[6]大卫·M·贝里,安德斯·费格约德.数字人文:数字时代的知识与批判[M].王晓光等译.大连:东北财经大学出版社,2019.

[9]《明清档案通览》编委会.明清档案通览[M].北京:中国档案出版社,2000.

[10]牛力,刘慧琳,曾静怡.档案工作参与数字人文建设的模式分析[J].档案学通讯,2020(05):62-67.

[12]苏依纹.档案机构主导开发数字人文项目的方法探究——以美国马里兰州档案馆奴隶制文化遗产项目为例[J]浙江档案,2020(09):21-23.

(作者单位:1.中国第一历史档案馆 田呈彬,档案学硕士,馆员;2.山东大学历史文化学院 王宁,档案学博士,讲师,助理研究员 来稿日期:2022-12-20)

猜你喜欢

信息资源建设数字人文
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
网络时代高校图书馆信息资源建设策略研究
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文
开放存取模式下的高校图书馆信息资源建设策略研究
公共图书馆服务体系的信息资源建设模式分析
大规模古籍文本在中国史定量研究中的应用探索
高校图书馆信息资源建设与信息服务