APP下载

计算人文学科的内涵、体系及机遇

2023-06-18黄水清刘浏王东波

图书与情报 2023年1期
关键词:数字人文信息资源管理新文科

黄水清 刘浏 王东波

摘   要:计算人文经历了半个多世纪的发展,在名词、定义、指代方面亟需明确形成规范,并使这一交叉领域在当前发展阶段更加凸显计算的价值和重要性。文章对计算人文相关表述进行了再讨论,明确了“计算人文”这一表述的优势,阐明了计算人文的研究对象、研究问题和研究方法,厘清了计算人文的学科内涵,分析了计算人文在国家战略、信息资源管理学科更名以及新文科建设中面临的机遇和使命,并以计算语言学、计算史学、计算文献学、计算文学等学科为例阐述了计算人文学科体系的构成。计算人文学科由众多形如“计算X”的子学科组成,各个“X”可分别对应于某个具体的人文学科。

关键词:计算人文;数字人文;信息资源管理;新文科;知识库

中图分类号:G252   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2023001

Abstract Computational humanities has experienced more than half a century of development, and it is urgent to gradually clarify and form norms in terms of nouns, definitions, and references, and to highlight the value and importance of computing in this interdisciplinary at the current stage of development. This article discussed several related expressions including digital humanities and computational humanities, and clarified the advantages of computational humanities as an expression. Focusing on the objects, issues and methods, with clarification on the subject connotation, this study analyzes the opportunities of computational humanities in national strategy, subject renaming of IRM, and new liberal arts construction. Taking computational linguistics, computational history, computational philology, and computational literature as examples, this article explained and formed a system of computational humanities as a discipline which is composed of many sub-disciplines in the form of "computational X", and each "X" can correspond to a specific disciplines in humanities.

Key words computational humanities; digital humanities; information resource management; new liberal arts; knowledge base

計算人文的产生源于“计算”与“人文”的碰撞与交叉。布萨的经典研究——阿奎那语词索引证实了开展“计算”与“人文”交叉研究的可行性,也提示了计算人文的研究对象及研究问题。计算人文产生之初未必以“计算人文”一词示人,还有若干与“计算人文”指代相近的术语见之于学术文献,它们均揭示了计算方法、信息技术与人文研究的关联及潜在价值。计算方法、信息技术起初仅是作为新的研究视角与方法被引入人文学科的研究,但在发展过程中既受到不断涌现的新技术的促进与推动,也不可避免地接受了人文学科理念、思潮的浸润与影响,逐渐积累起稳定的对象领域、常用的技术方法、共同的研究目标等学科属性。与其他新兴学科领域的发展过程类似,正是在自我革新与持续演进过程中,计算人文夯实了发展基础、增强了学科属性。经过半个多世纪的发展,如今作为学科的计算人文已初见雏形。

值此学科变革之际,新方法引入、多学科交叉、新领域拓展已成为学科发展常态。在人文社科领域,以文理交叉为主要内容,以自然科学方法尤其是信息技术、定量分析等研究方法的引入为主要特征的新文科建设方兴未艾。计算人文学科体系的发展与完善恰逢其时。2022年9月,酝酿已久的新版学科目录正式公布,“图书情报与档案管理”一级学科正式更名为“信息资源管理”。在学科更名过程中,学界也多次讨论了信息资源管理学科的内涵与外延拓展,计算人文或将以数字人文的表达方式成为信息资源管理下的二级学科,跻身于新增学科之列。同时,争论、摇摆甚至偏差也一直伴随着计算人文的发展历程。为此,本文将回顾计算人文及相关表述的沿革与变迁,探讨计算人文的对象领域、学科问题与研究方法,分析计算人文的时代机遇与责任,勾勒计算人文的学科体系,抛砖引玉,求教方家,以期促进计算人文以及信息资源管理学科的建设发展。

1   计算人文及相关概念

2004年,布萨提出了“人类表达”(Human Expression)[1]的概念,并认为广义上人文计算是对人类表达的各种可能的分析方法的自动化。但是布萨并未对人类表达给出明确的定义,只是认为人类表达是一种“精致的人文活动”,并列举了音乐、戏剧、设计、绘图四种人类表达形式。

要明确计算人文的定义与指代,首先需要对“人类表达”这一关键性概念给出明确的定义。对“人类表达”可以这样定义:所谓“人类表达”,就是以符号系统记录和呈现的人类人文活动。而计算人文,则以人类表达为对象,将计算方法及信息技术应用于诸如文学、史学、哲学、语言学、文献学、音乐艺术等传统的人文学科领域,融合数据、计算与人文,拓展人文学科知识生产、知识呈现、知识传播方式,目的为促进人文学科的发展。计算人文通过对人文学科领域相关数据的计算与挖掘,发现采用传统方法或无法得出或较难得出或难于呈现的观点与线索,弥补了传统人文学科在研究方法、研究对象等方面存在的不足,并使得人文学科的相关研究具有过程可重复、数据可验证、方法可复用、结论可推广等自然科学方面的特性,有利于人文学科的教学、研究及成果的推广普及,同时也促进了人文精神对技术方法的批判与渗透[2-3]。计算人文是技术与人文融合而产生的新兴学科,既能帮助相关人士掌握人文学科领域传统文献阅读、田野调查等途径无法获得的数据与知识(即回答“是什么”),也能分析挖掘并呈现数据与数据、知识与知识之间隐含的联系与规律(即回答“为什么”)。

实际上,用于表述计算与人文交叉融合研究的术语十分繁杂,在相关研究论文能检索到的术语不下10个,其中部分术语在学术界使用较为频繁、具有较大的影响力。除了近年来火爆的“数字人文”一词外,“人文计算”[4-6]、“计算机与人文”、“文学和语言计算”[7]等术语都曾成为一时之选,其他如“人文中的计算机”[8-9]、“人文中的计算”[10]、“量子人文”[11-12]、“人文中的计算机辅助解释”[13]等也具备了一定的代表性,本文列举了较为重要的5个相关表述的出现时间及应用情况(见表1)。从流传度的角度来看,这些表述虽然各领风骚十数年,但其变迁与沿革并不是简单的替代关系[14]。

从表1可知,各个术语表达形式上虽然存在不同,其实际含义却多有重合或基本类似。不论如何变化,计算人文及相关术语的指代本质上始终不变,即计算与人文的交叉融合、具有人文学科属性的交叉研究,其目标均为搭建“计算”“数据”与“人文”之间的桥梁,其关注的研究对象、采用的研究方法基本一致。其中,计算人文、人文计算、数字人文的词形与字面意思最为接近,区别仅在于侧重点有所不同。词汇使用的区别既反映了研究者对这一交叉领域概念理解的细微差别,也在一定程度上折射出计算机技术发展的时代特点,同时也体现了各时代的研究者对于该交叉领域的理解和对其发展的追求。

“计算人文”一词最早见诸于国内学术文献是2021年[3,15],远比“数字人文”晚,但出现在国外文献中实际上反而早于“数字人文”[16]。国外学术文献中与“计算人文”类似的概念出现的场景比较复杂,涵义也不是非常明确,术语呈现具有不一性,不过基本上都是在讨论计算机技术与人文研究交叉的问题[17-18]。“计算人文”的英文表述除了直接对应的Computational Humanities、Computing Humanities两种形式外,还有许多其他表述。McCarty撰文分析相关概念时所提及的Computing the Humanities[19]、Computing Humanists[20]和Computing in the Humanities[4]等表述,实际上都指向计算人文。其实,如果仅仅站在语义的角度Computing in the Humanities表意更準确,只是作为一个词组若是用作学科名词会影响传播。

从术语的流行度来看,“数字人文”近20年来无论在学界或大众传播领域的使用频度都远高于“计算人文”,这可能源于“数字人文”一词通俗易懂,且在数字时代具有天然的传播效应。但“数字”一词存在语义含混的问题,实际使用时必须明确其指代以免产生歧义,同时“数字人文”对当下计算机前沿技术的表达也明显不足。理想的术语应符合概念、语符和交际三个维度的综合要求,即概念明晰,具备系统性,语符简明,具备规范性,交际有效,具备理解性。选用更准确的表述有利于学科发展,“计算人文”在当下无疑更能满足以上对术语的基本要求。在直观的浅语义层面,“计算人文”准确地表达了“人文为对象和问题,计算为方法”的内涵,与“人类表达为对象,融合数据、计算与人文”的深层语义不会产生偏差,作为学术和学科名称也更为贴切。“数字人文”因其传播效应与大众接受度也可以使用,但须明了其准确的语义,避免理解方面的歧义。未来有必要从术语内译和外译的角度对“计算人文”术语的内涵、外延及演化展开更深入地讨论。

2   计算人文的对象、问题与方法

计算人文蕴含了“人类表达为对象,融合数据、计算与人文”的深层语义和内涵。理解这一概念的关键在于正确把握计算与人文两者的关联和地位,界定计算人文的对象、问题和方法,明确其与传统人文研究的实质区别,在此基础上才能准确清晰地定义计算人文的目标与框架。

2.1    以人类表达为对象

以符号系统记录和呈现的人文活动只是人文活动两个组成部分的其中之一,人类人文活动的另外一个组成部分是无法以符号系统记录和呈现的人文活动,如展示、演出、田野调查以及未被记录的个体理解、体验、感悟、审美等。作为计算人文对象的人类表达,仅指以符号系统记录和呈现的人类人文活动。布萨还认为,文本是人类表达的主要形态[1]。

以人类表达为对象,就是以呈现为符号形态的人类人文活动为对象。在以符号系统记录和呈现的人类表达的各种形态中,以人类自然语言书写的文本是人类表达最主要的形态,除此之外还有图像、音频、视频、数值等形态。为方便起见,在不引起歧义的前提下,以人类表达为对象也可简便称之为以人文为对象。即,虽然计算人文的对象仅为以符号形态记录并呈现的人类人文活动,实际上并不包括人类人文活动中未以符号形态记录并呈现的部分,但为简捷起见,可粗略地称之为以人文为对象。

以文本形态的人类表达作为计算人文的主要对象,与人文研究的对象形态分布是一致的。人文研究的对象多为文本形态,如文本语言、历史典籍、文艺作品等。实际上,人文研究所关注的文本语言、历史典籍和文艺作品等对象,其载体形式在历史上也经历了多次变化,从甲骨、金石到竹简、绢帛,再到印刷术发明后的纸张、书籍,进而发展到当前的数字形态,人文研究对象的载体形态演进伴随着整个人类文明发展的过程。当前,人文对象的载体形态已发展到以数字方式存储的文本,针对人文的计算成为可能。技术的进步改变了人文对象的外部特征,虽然当代的人文对象多以数字化或数据化的方式呈现,但载体的变化并未改变其人文特性,计算人文关注的仍然是符号化表达的人文活动,特别是人文活动中主要以文本形态呈现的部分。

计算人文弥补了传统人文研究及推广普及等的不足,使其焕发出新的面貌。计算人文可以从微观的字词句段、到中观的篇章书籍、再到宏观的大规模语料库,从而跨越维度限制观察文本语言对象;计算人文可以将静态平面的文字绘制成动态立体的图形,更加生动、鲜活地呈现人物和故事,从而穿越时空限制探索历史典籍;计算人文可以采用量化、客观、可验证的评价鉴赏方式,获得对经典的新体验,从而跳出个体主观感受赏析文艺作品。计算人文为人文对象的分析、挖掘、评价、教学、普及、传播开辟了新的途径,也为人文研究打开了新的维度。计算人文从新的视角审视和解读传统人文对象,从新的维度扩展人文对象,并利用新的方法普及和传播人文的内涵和价值。

2.2    以人文学科的问题为研究问题

以人文为对象的计算人文研究,其关注的问题仍然是人文学科的问题。人文学科研究的问题聚焦于“发生了什么”(基于对象内容对事实进行判断)、“表达了什么”(围绕对象内容进行描述和解读)、“如何去评价”(关注对象内容的人文内涵和价值)。计算方法和信息技术的应用,为人文研究带来了新方法、新工具,并促使新的研究范式逐渐形成,新兴领域与学科也随之逐渐确立。但是,在这一过程中,所研究问题的人文本质始终没有发生改变。正如布萨编纂《托马斯·阿奎那索引》的过程那样,虽然阿奎那著作的载体从书本、磁带更新至数字文本,索引形式也从卡片更新至网络数据库,但其中的核心问题却依然是语词索引[19-20]。又如《红楼梦》前八十回与后四十回的作者身份[21-22],不论采用基于词频统计的语言风格分析方法,还是采用机器学习模型下的文本分类方法,其核心研究问题仍然是围绕着《红楼梦》作者为谁这个困扰了红学家百余年的未解之迷而展开。

计算人文的数据与计算思维视角打破了人文研究的某些传统,研究过程也与自然科学的技术路线更接近,过程中的某些发现及解决的问题似乎与传统人文问题不甚相似,如计算人文的研究往往涉及数据库、语料库、知识库的建设以及模型和算法设计与应用。其实,这些库的建设以及模型、算法设计只是计算人文研究的中间环节和过程性问题,计算人文终极目的仍是发现和解决人文学科的问题,计算人文最终还应回归到人文[15]。计算人文借助计算和信息技术探索与解决的一定是人文学科的问题。除了人文学科的研究问题,计算人文并不存在自己的研究问题。所谓计算人文的研究问题,或者是人文学科本身的问题,或者是为解决人文学科的问题而产生的问题。不论计算与信息技术如何发展,计算人文都不能偏离以人文为目标,正如夜空中的北斗,计算人文的追求务必以人文学科为旨归。

2.3    以数据基础之上的计算為方法

计算人文的爆发式发展得益于自然语言处理等领域的突破性进展,这使得计算人文有能力实现真正意义的计算,而非简单的统计或计量。其实,将统计手段应用于人文学科早于计算人文出现很多年,如以词汇计量和语言风格分析为代表的研究已有百年左右的历史,其产生与当代信息技术并无多少关联。但是,计算的规模和效率在当代以令人难以置信的速度提升,使得这类即使可追溯至百年前的研究在计算人文时代也呈现了崭新的面貌[23]。

计算人文的计算方法,是建立在数据基础上的,没有数据无以言计算。计算时代同时也是数据时代,计算人文就是数据、计算与人文的融合、汇通。计算人文的数据,不再是个体或有限的样本数据,而是近似于全样本的全局性海量数据。计算的规模和效率方面的突破,使得面向全局性数据的计算人文既能开展统计、归纳等方面的研究探索,也能进行量化分析、关联性挖掘,进而在数据的基础上得到人文学科方面的结论。基于数据的分析结果与研究结论方便采用表格和图形呈现,而随着可视化技术的不断进步,采用可视化方式直观呈现的分析结论更易于理解和传播,便于人文思想与理念的普及与推广。

计算人文的计算方法,使其较之于传统人文研究在对象、问题、结论等具体方面产生了很多的不同。针对同样的研究对象,计算人文基于不同类型的数据可以从不同的维度去考察从而可能提出不同的研究问题;针对同样的研究问题,计算人文通过对数据的统计、分析、挖掘可能得到不同的研究结论;针对于同样的研究结论,计算方法可以发挥数据的优势为原有结论提供不同视角的解读和分析,增强原有结论的可靠性。计算人文为人文研究在方法论方面作了补充与完善,但并不是要替代原有的人文研究。不论是发现新的问题、提出新的结论、还是阐释的新视角,计算的研究方法能够与人文的研究内涵相得益彰,发挥出“一加一大于二”的效果。计算方法与传统人文方法相较,计算方法更接近自然科学的研究规范,更具客观性,具有可重复、可验证、可复用、可推广的特点。

为实现计算,计算人文的海量数据须组织、构建成为方便计算机存储与处理的数据集合,多以数据库、语料库、知识库等方式保存在计算机中。顾名思义,数据库、语料库、知识库分别用于组织、存储和管理数据、语料、知识。计算人文以人类表达为对象,在各种人类表达形态中,文本是主要形态,故常常采用语料库和知识库方式组织、存储、管理文本语料和知识。数据库、语料库、知识库支持建立在其上的、以数据为基础的计算。人们熟知的是数据库,对语料库、知识库的了解相对较少。

语料库是由人工或机器标注好的真实语言材料组成的数据集[24]。语料库收录经过标注的自然语言素材,须有一定规模。发展到现在,语料库已经全部是数字形态,既可以以数据库方式存储,也可以以文本文件等非数据库方式存储。

如果说语料库是语料的集合,知识库则是知识的集合。由于知识多以自然语言表述,知识库的收录对象主要为自然语言文本。知识库一词虽然在文献中经常出现,但并没有清晰、严格的定义。知识库必须能够支持包括智能计算在内的各种类型的计算才有价值,为此知识库可以定义为:知识库是在对语义特别是自然语言语义进行形式化描述和有序组织的基础上形成的知识集合,由词汇、关系、规则、模型和语料库等构成,目的为实现知识表示与知识存储并支持知识获取与知识运算。

语料库与知识库既有区别也有联系。语料库只包含单一形式的语言单元和标注信息,知识库则包含对多种语言单元及其类属、同义、关联等关系的揭示和序化。语料库只是知识库的一个子集,知识库包含语料库但不是仅有语料库,知识库还涵盖语词知识、规则知识、关联关系、知识模型、推理模型等内容。而且,知识库可能包含一种以上形式的语料库。

3   计算人文的机遇与使命

经历了70多年交叉融合的实践,计算人文正逐渐成为成熟稳定的研究领域乃至学科。并且,由于踏上了人工智能的技术浪潮,其发展已成为备受瞩目的焦点。计算人文所具备的人文内涵和技术特点使其在当下的学科体系、学术体系、话语体系建设过程中迎来了重要的发展机遇,也肩负起重要的发展使命。

3.1    国家战略与使命

十八大以来,习近平总书记和中央持续关注哲学社会科学的繁荣与发展。2016年5月17日,习近平总书记亲自主持召开了哲学社会科学工作座谈会并发表重要讲话,要求“构建具有自身特质的学科体系、学术体系、话语体系”,“要加快发展具有重要现实意义的新兴学科和交叉学科”。同时,总书记还特别强调,“要运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,“要加强对中华优秀传统文化的挖掘和阐发”。在十九大报告中,总书记明确提出了“两创”方针,即“推动中华优秀传统文化创造性转化、创新性发展”,并写入十九大党章。围绕“两创”方针,国家近期接连颁布了《关于推进新时代古籍工作的意见》《关于推进实施国家文化数字化战略的意见》《2021-2035年国家古籍工作规范》等重要文件,形成了关于古籍和传统文化数字化工作的重要研究方向和目标。在党的二十大报告中,總书记重申了“两创”方针和“实施国家文化数字化战略”。

计算人文的建设发展顺应了中央精神及国家发展战略的内在要求,与总书记构建中国哲学社会科学的学科体系、学术体系、话语体系,发展新兴学科、交叉学科,将新技术应用于哲学社会科学研究的指示精神一致。计算人文的核心内涵与“两创”方针的要求相契合。对推动新时代古籍整理工作而言,计算人文可以成为古籍整理与研究重要的学科方法[25]。

计算人文有助于区分传统文化中的精华与糟粕。“两创”的对象是中华优秀文化,计算人文能够发挥内容标注的技术优势,利用自然语言处理模型从大规模的古籍文本中自动标注和发现相关的内容和知识,实现精华和糟粕的区分。计算人文有助于中华优秀文化表现形式的转换。中华优秀文化的主要内容诞生于传统农业社会,其表现形式和话语体系与现代社会存在明显的隔膜,有着巨大的时空距离。结合大规模数字资源和知识组织方法,计算人文可采用形式重造的方式对中华传统文化的表现方式进行创造性转化,把古代话语转换成当代的大众话语,以利于中华优秀文化的继承与传播。计算人文有助于促进中华优秀传统文化的繁荣与普及。“两创”旨在用中华优秀传统文化和当代先进价值观引领大众,并为中华优秀传统文化在当代找到生活载体和文化载体,而计算人文可以通过可视化的直观呈现方式,助力相关内容的普及和传播。

在学术体系、学科体系、话语体系的构建过程中,计算人文与传统人文学科的关系可类比考古学与历史学的关系。习近平总书记在主持十九届中央政治局第二十三次集体学习时曾指出,“建设中国特色、中国风格、中国气派的考古学,增强中国考古学在国际考古学界的影响力、话语权”。而中国考古学也用成果证明了自身的价值,“向世界展示了中国文明的灿烂辉煌,证明中国人对人类发展作出了重大的创造性贡献”[26]。在这一过程中,考古学与历史学既保持密切联系但又不同于历史研究,“中国考古学一开始便同历史学联系,并不意味考古学不是独立的学科。”[26]考古学最大的特点就是它是一门具有自己独特的理论与方法的多学科交叉。成为“一门有自己理论及方法的科学,越来越广泛地与有关学科融合接触”,成为了“人文社会科学同自然科学的重要结合点。”[26]

3.2    学科更名的机遇

学科发展既遵循科学自身的规律,也需要顺应社会、时代的需求。计算人文的学科发展内在动力已然充沛,具备了学科发展的内因,但还需要抓住各种外部机遇。

教育部最新公布的学科目录中,“图书情报与档案管理”一级学科已正式更名为“信息资源管理”。学科名称的变更对于学科的未来将产生深远的影响[27],学科的内涵与外延、意义与价值、范畴与边界等均需充分讨论以形成共识和理解。可以肯定的是,“图书情报与档案管理”更名为“信息资源管理”将带来学科内涵外延与范畴边界的拓展,而不是相反。具体来说,若干新的二级学科将跻身于信息资源管理一级学科。数据、计算等方面的新兴学科也迎来了至关重要的机遇,将成为未来学科增长的方向,它们既与计算人文密切相关,又与信息资源管理的需求和目标同步。作为一级学科的信息资源管理内涵外延与范畴边界的拓展必将带来二级学科增设的需求,在原有图书馆学、情报学、档案学之外增设与学科发展紧密相连的二级学科,是保持新学科生命力和发展前景的关键。与此同时,体现数据、计算等新兴方向的计算人文(或以“数字人文”之名)在原学科目录体系中没有自己的位置,现实中迫切需要寻找学科关系密切的一级学科栖身。考虑到计算人文(或数字人文)的相关特点与属性,以及信息资源管理学科的发展历程和现状,选择信息资源管理是最佳方案。

首先,无论是以“计算人文”还是以“数字人文”为学科名称,其对象是一致的,即包括全体文史哲等学科在内的人文学科的研究对象、研究问题都有可能成为计算人文的研究对象与研究问题。也即在学科归属方面计算人文归入文史哲的任何学科都有理由同时却又都不合适;其次,图书情报与档案管理或信息资源管理学科在数据尤其是文本数据加工与处理方面具有传统优势,近几十年以文本数据为对象的加工、整序、计算与应用方面更是发展成为图书情报学科的通用学科方法,计算人文归属信息资源管理学科在学科方法论方面与一级学科下的其他二级学科具有共性,可相互借鉴。

计算人文或数字人文归属信息资源管理学科的争议主要在于计算人文虽具有交叉属性,但人文特点鲜明,归属管理类的信息资源管理学科冲淡了其人文属性。事实上,正如本文所言,计算人文的交叉属性决定了其归属任何人文学科门类都有不足,信息资源管理从研究方法、研究内容、现有研究队伍的相关程度等方面考虑都是计算人文或数字人文学科的最佳栖身之所。此外,信息资源管理原有二级学科的图书馆学、档案学本身的人文学科属性也很鲜明,目前拟议的新增二级学科中还有古籍保护这样的更具人文学科属性的学科,计算人文或数字人文若与它们并列,人文学科属性并没有削弱,却更能体现信息资源视角的学科研究特点。同时,位列信息资源管理学科之下的计算人文或数字人文与其他人文学科可以根据需要实现任意交叉,产生若干研究方向或三级学科,如计算语言学、计算史学、计算文学、计算文献学、计算法学等,完全不受文史哲等具体学科在学科目录中所属类别的约束。

需要指出的是,计算人文作为信息资源管理学科下的二级学科,不但不妨碍而且有助于推动在相关人文学科设置形如“‘计算+‘人文学科”的对应学科方向并开展研究,如语言学类别下的计算语言学、历史学类别下的计算史学、文学类别下的计算文学、文献学类别下的计算文献学、法学类别下的计算法学、档案学类别下的计算档案学等。

概而言之,计算人文或数字人文作为信息资源管理的二级学科是完全可行且值得期待的。人民大学数字人文二级学科博士点的成功实践也为这一领域建设独立学科提供了宝贵的经验和方案。

3.3    新文科建设的契机

2020年,教育部召开了“新文科建设工作会议”,新文科建设从概念迈向正式实施。计算人文融合数据、计算与人文,将计算方法、信息技术应用于人文学科问题的研究,搭建起计算、数据与人文三者之间的桥梁,典型地体现了新文科文理交叉的特征,與新文科的发展理念高度契合。

计算人文在以人类表达为对象的前提下关注数据、计算与人文三者之间的关系,与新文科强调的信息技术具有天然的联结。计算人文自产生之初就既具有信息与计算的特质,又具有人文学科的属性,可以说计算人文是天然的新文科。另外,计算人文中的“人文”理论上可以是任意人文学科。计算人文可以与任意人文学科相结合,产生计算语言学、计算史学、计算文学、计算文献学、计算法学等下位类学科,天然具有跨学科、多学科的特征。同时,语言学、史学、文学、文献学等传统人文学科的理论、方法、观念也浸润了计算人文的方方面面。计算人文借鉴和吸收传统人文学科的理论、方法和观念,促进自身的发展。

计算人文需充分发挥在新文科方面的优势,抓住新文科建设的契机,构建起计算人文的新文科体系。此外,计算人文在新文科建设过程中除了探索与示范自身的新文科建设、完善自身的学科发展之外,还有义务助力相关传统人文学科和专业迈向新文科。计算人文有能力也有义务为其他学科的新文科建设之途提供有效的发展经验和借鉴思路。计算人文的学科发展和建设既需要“长期坚持,落地生根”,也需要“坚守传统,交叉创新”。

4   计算人文的学科体系

实践先于理论,是当前计算人文发展的一个显著特点,也是计算人文学科体系形成的重要方式。在技术交叉和项目驱动下,计算人文衍生出特有的“大帐篷”发展模式[28]。在“大帐篷”模式下,影响力较大的研究项目往往可能催生出一个研究方向乃至子学科,典型的如早期布萨的《托马斯·阿奎那索引》编制和《联邦党人文集》作者判定研究。前者基于数字化存储、词频统计、倒排索引等技术,在当下发展出文本和人文对象多媒介载体融合的索引与统计,以及基于大规模词频自动统计的语词研究。后者基于文本分类模型,影响了计量语言学、文体语言风格计算以及计算语言学相关的词法分析、句法分析、语义分析、机器翻译等研究。“大帐篷”模式使得计算人文形成了区别于传统人文学科研究的一个重要特征,即能够容纳更多的研究项目、研究主题与研究成果。“大帐篷”模式的特征实质上是各领域、各地区出现各种类型的独立项目,名目繁多的项目汇聚了多样化的研究主题、研究成果,共同促进研究方向与子学科的产生与形成。

计算人文的理论体系尚未成熟,随着研究主题、研究项目、研究成果的逐渐积累,研究实践将促进理论的升华。在当前的发展模式下,计算人文学科体系下将产生并容纳众多的“计算X”形式的“计算”与“人文学科”的组合。“计算X”可以勾勒计算人文学科体系的大致框架,为后续的理论升华提供实践基础。

4.1    计算语言学

计算语言学以真实语言为材料研究自然语言的自动化处理,学科层面的计算语言学在技术与实践层面体现为自然语言处理,是计算人文发展最为突出又极为特殊的子领域或子学科。计算语言学的特殊之处在于,由于计算人文的研究对象一般为自然语言书写的文本,故而计算语言学或自然语言处理往往成为计算人文研究的技术方法。语言资源建设方面的语料库、知识库构建为计算语言学的典型项目,如现代汉语的北京大学人民日报语料库、南京农业大学新时代人民日报语料库[29-31],古代汉语的南京农业大学的古汉语平行语料库[32],俞士汶先生的北京大学综合型语言知识库[33],南京农业大学基于《汉学引得丛刊》构建的中国古代典籍文本知识库等。文本处理技术方面的语言生成、语义理解为计算语言学的代表性应用,如词频统计、词典编纂、语义分析等。

4.2    计算史学

经历了从统计历史学、计量史学到计算史学的发展过程,计算史学近年来成为计算人文研究的重要分支[34]。计算史学结合史籍文本挖掘、地理信息系统以及数据可视化等技术,重点围绕事件、时间、地点和人物等多维历史对象,从计算的视角提出新解读、新问题和结论,为传统的史学领域开辟了新的研究阵地。国内外计算史学均以文本知识挖掘为主流,通过对文本知识的自动抽取和计量分析,得到计算视角的史学研究结论。值得注意的是,国外多关注近现代历史[35],而国内则更偏向上古史和中古史[36-38]。此外,基于地理信息系统(GIS)的计算史学研究在知识呈现方式上更显著更直观,因而更具备推广和传播效应[39-40]。

4.3    计算文献学

计算文献学是计算人文与历史文献学和古典文献学相结合的研究方向。传统文献学研究面临数字化转型,需要对文献本身进行了数字化拆解和重构,并以数字化手段辅助传统文献学的研究[41]。计算文献学融合了文本知识挖掘、知识库构建、预训练模型构建等计算机技术,以及文献计量、知识组织、本体构建、文本检索等图书情报学方法,在古籍文献研究、古籍引书研究、古籍目录学研究等具体应用方面已形成新视角。已有研究在古籍引书计量分析[42-43]、古籍目录别裁分析[44]、古籍预训练模型构建[45]等方面进行了初步探索,相关研究的价值和潜力值得进一步深研。

4.4    计算文学

计算文学重点关注文本内容的理解和分析,其提出和发展以“远读”为代表[46]。以量化文学批评为目的“远读”虽然饱受争议[47],但其在文本内容和分析中的视角和方法至今仍具有启发性。随着深度学习下文本知识挖掘技术的突破,计算文学在文本内容理解和计算方面展现出广阔的研究前景,如主题分析、分类聚类、风格计算、情感分析等[48-49];另一方面,基于文本内容生成技术开展的计算机文学创作已成为研究热点[50],如小说诗歌生成、文本自动摘要、文字冒险游戏等。随着以ChatGPT[51]为典型代表的生成式大语言模型取得巨大成功,流畅语言文本生成似乎不再是人类独有的能力,而AI生成的文本能否看作文学创作[52]的争论将会再次引起关注,未来将成为计算文学不可忽视的主题。

4.5    “计算X”体系下的其他学科

在数据与计算的推动下,除上述学科领域外,众多的其他人文学科领域也已形成或正在形成较为鲜明独特的计算人文子学科,如计算法学、计算艺术、计算档案学等。

法学既有人文科学属性也有社会科学属性,因此计算法学一定意义上也可以纳入计算人文的学科体系,如针对法哲学、法律史等的计算人文研究。这也是计算人文与计算社会科学学科相关性的具体体现。不过,计算法学[53]目前主要面向法律文档的分析与计量等目标,逐渐形成了包括海量判决书分析、自动化法律推理、裁判文书推荐等独具特色的研究方向[54-55]。

计算艺术的独特之处在于所研究的对象可能是非文本形态的“人类表达”。计算艺术对传统艺术对象进行计算视角的分析和解读,具体如传统绘画的相似性和聚类分析[56],音乐乐谱的计量和统计[57]等。值得注意的是,基于深度学习扩散模型(diffusion model)的图像生成算法在近期取得了突破性进展,以DALLE-2[58]为代表的AI作画技术为计算艺术应用于艺术作品自动生成打开了大门。

计算人文在传统档案学领域也得到了初步的尝试,围绕计算档案学的学理性探究、档案人文服务理念以及档案研究的路径与方法,计算档案学开辟了数据驱动下的档案学研究新范式[59-61]。

在计算人文的体系下,这些已形成或将要形成的计算人文子学科可以统一称之为“计算X”。

5   总结和展望

走过了大半个世纪发展历程的计算人文,虽然在不同的发展阶段研究重心有所不同、采用的主要技术方法有所不同、用于表述的名词术语有所不同,总而言之,侧重点有所不同,但以人类表达为对象的初衷没有变,以研究和解决人文学科问题努力的方向没有变。在不同的发展阶段,统计、计量、数字化、数据化以及数据基础之上的计算曾分别担纲计算人文的主要研究方法与研究手段,计算人文各类研究项目的研究内容、成果产出、成果呈现也相应地有所不同,用于表达计算人文含义的名词也经过了多样的变化。

在计算的规模和效率得到飞速提升的当下,凭借人工智能技术的支撑,数据加工处理和计算等技术的推動与人文学科自身发展的需要共同促使计算人文真正进入了计算时代。以人类表达特别是文本形态的人类表达为研究对象,以人文学科的问题为研究问题,以数据基础之上的计算为主要研究方法,计算人文在“大帐篷”模式下的多样研究实践促进了学科体系的形成,也将催生学科理论的升华与完善。当前,计算人文在国内还迎来了国家战略需求、一级学科更名以及新文科建设的重大机遇,计算人文应充分发挥兼具人文内涵与技术引领的优势,承担起将新技术应用于哲学社会科学研究、发展新兴学科和交叉学科的使命,为构建中国特色哲学社会科学学科体系、学术体系、话语体系贡献力量的同时也发展壮大自身。

致谢:本文写作过程中教育部语言文字应用研究所冯志伟教授、南京大学魏向清教授、清华大学刘石教授提供了诸多宝贵建议与帮助,谨致谢意!

参考文献:

[1]  BUSA R A.Foreword:Perspectives on the Digital Humanities[J].A Companion to Digital Humanities,Hoboken,2004:xvi-xxi.

[2]  黄水清.人文计算与数字人文:概念、问题、范式及关键环节[J].图书馆建设,2019(5):68-78.

[3]  黃水清,刘浏,王东波.计算人文的发展及展望[J].科技情报研究,2021,3(4):1-12.

[4]  MCCARTY W.Humanities Computing[M].Basingstoke:Palgrave Macmillan,2005.

[5]  SVENSSON P.Humanities Computing as Digital Humanities[M].Defining Digital Humanities.Routledge,2016:175-202.

[6]  SCHOLES R,WULFMAN C.Humanities Computing and Digital Humanities[J].South Atlantic Review,2008,73(4):50-66.

[7]  SULA C A,HILL H V.The early history of digital humanities:An analysis of Computers and the Humanities(1966-2004)and Literary and Linguistic Computing(1986-2004)[J].Digital Scholarship in the Humanities,2019,34(S1):i190-i206.

[8]  CORNS T N.Computers in the Humanities:Methods and Applications in the Study of English Literature[J].Literary and Linguistic Computing,1991,6(2):127-130.

[9]  KATZEN M.The application of computers in the humanities:A view from Britain[J].Information Processing & Management,1986,22(3):259-267.

[10]  NYHAN J,FLINN A,WELSH A.Oral History and the Hidden Histories project:towards histories of computing in the humanities[J].Digital Scholarship in the Humanities,2015,30(1):71-85.

[11]  BARZEN J,LEYMANN F.Quantum humanities:a vision for quantum computing in digital humanities[J].SICS Software-Intensive Cyber-Physical Systems,2020,35(1):153-158.

[12]  BARZEN J.From Digital Humanities to Quantum Humanities:Potentials and Applications[M].Quantum Computing in the Arts and Humanities:An Introduction to Core Concepts,Theory and Applications.Cham:Springer International Publishing,2022:1-52.

[13]  ROCKWELL G,SINCLAIR S.Hermeneutica:Computer-Assisted Interpretation in the Humanities[M].MIT Press,2022.

[14]  黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022,14(1):50-84.

[15]  黄水清.回归人文:从人文计算到计算人文[N].社会科学报,2021-09-09(5).

[16]  WULF Wm A.Look in the spaces for tomorrows innovations[J].Communications of the ACM,1997,40(2):109-111.

[17]  BIEMANN C,CRANE G R,FELLBAUM C D,et al.Computational Humanities-bridging the gap between Computer Science and Digital Humanities(Dagstuhl Seminar 14301)[J].Dagstuhl Reports,2014,4(7):80-111.

[18]  From digital to computational humanities:The VAST project vision[EB/OL].[2023-01-22].https://air.unimi.it/handle/2434/891349.

[19]  BUSA R.The annals of humanities computing:The index Thomisticus[J].Computers and the Humanities,1980,14(2):83-90.

[20]  BUSA R.INDEX THOMISTICUS[EB/OL].[2022-10-10].https://www.corpusthomisticum.org/it/index.age.

[21]  陈炳藻.从词汇上的统计论《红楼梦》 作者的问题[A].首届国际《红楼梦》 研讨会[C].美国威斯康星大学,1980:16-20.

[22]  施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(5):35-52.

[23]  HOCKEY S.The History of Humanities Computing[M].SCHREIBMAN S,SIEMENS R,UNSWORTH J.A Companion to Digital Humanities.Malden,MA,USA:Blackwell Publishing Ltd,2004:1-19.

[24]  黃水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17,87.

[25]  黄水清,王晓光,夏翠娟,等.推进新时代古籍工作,加快创新智能化发展[J].农业图书情报学报,2022,34(5):4-20.

[26]  李学勤.写在“二十世纪中国考古”之前[J].文史知识,1999(6):38-39.

[27]  初景利,黄水清.从“图书情报与档案管理”到“信息资源管理”——一级学科更名的解析与思考[J].图书情报工作,2022,66(14):1-7.

[28]  6th Annual International Conference of the Alliance of Digital Humanities Organizations,DH 2011,Stanford,CA,USA,June 19-22,2011,Conference Abstracts[C].Stanford University Library,2011.

[29]  黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.

[30]  黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12.

[31]  黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较[J].图书情报工作,2019,63(24):5-15.

[32]  王东波.面向知识挖掘的平行句法语料库构建研究:数字人文视角下的史部典籍信息组织[M].南京:南京大学出版社,2019.

[33]  俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007(6):3-12.

[34]  马建强.计算历史学:大数据时代的历史研究[J].学术论坛,2015,38(12):99-105.

[35]  AU YEUNG C man,JATOWT A.Studying How the Past is Remembered:Towards Computational History through Large Scale Text Mining[A].Proceedings of the 20th ACM International Conference on Information and Knowledge Management[C].New York,NY,USA:Association for Computing Machinery,2011:1231-1240.

[36]  刘浏,黄水清,孟凯,等.《春秋》三传女性人物的人文计算研究[J].图书情报工作,2020,64(23):109-123.

[37]  何琳,乔粤,孟凯.基于典籍的春秋社会时间序列演变分析方法初探[J].情报理论与实践,2021,44(2):33-40.

[38]  严承希,王军.数字人文视角:基于符号分析法的宋代政治网络可视化研究[J].中国图书馆学报,2018,44(5):87-103.

[39]  KNOWLES A K,HILLIER A.Placing History:How Maps,Spatial Data,and GIS are Changing Historical Scholarship[M].ESRI,Inc,2008.

[40]  包弼德.群体、地理与中国历史:基于CBDB和CHGIS[J].量化历史研究,2017(Z1):213-246.

[41]  刘石.文献学的数字化转向[J].文学遗产,2022(6):10-13.

[42]  黄水清,周好,彭秋茹,等.引书的自动识别及文献计量学分析[J].情报学报,2021,40(12):1325-1337.

[43]  孙燕,刘浏,王东波.《春秋左传正义》引书计算人文研究[J].图书情报工作,2023,67(2):119-130.

[44]  张力元,王军.基于机器学习的古籍目录互著与别裁探析[J].中国图书馆学报,2022,48(2):47-61.

[45]  王东波,刘畅,朱子赫,等.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):31-43.

[46]  MORETTI F.Distant Reading[M].Verso Books,2013.

[47]  笪章难,汪蘅.以计算的方法反对计算文学研究[J].山东社会科学,2019(8):24-39.

[48]  张逸勤,邓三鸿,胡昊天,等.预训练模型视角下的跨语言典籍风格计算研究[C].第十二届全国情报学博士生学术论坛,2022.

[49]  STURGEON D.Unsupervised identification of text reuse in early Chinese literature[J].Digital Scholarship in the Humanities,2018,33(3):670-684.

[50]  BROWN T,MANN B,RYDER N,et al.Language Models are Few-Shot Learners[A].Advances in Neural Information Processing Systems:卷 33[C].Curran Associates,Inc,2020:1877-1901.

[51]  ChatGPT:Optimizing Language Models for Dialogue[EB/OL].[2023-01-20].https://openai.com/blog/chatgpt/.

[52]  THORP H H.ChatGPT is fun,but not an author[J].Science,2023,379(6630):313-313.

[53]  鄧矜婷,张建悦.计算法学:作为一种新的法学研究方法[J].法学,2019(4):104-122.

[54]  申卫星,刘云.法学研究新范式:计算法学的内涵、范畴与方法[J].法学研究,2020,42(5):3-23.

[55]  梁柱,沈思,叶文豪,等.基于结构内容特征的裁判文书自动推荐研究[J].情报学报,2022,41(2):167-175.

[56]  WEINSTEIN M,VOSS E,SOLL D.Dendrography and Art History:a computer-assisted analysis of Cézannes Bathers[J].HQ:Digital Humanities Quarterly,2019,13(3).

[57]  LUPKER J A T,TURKEL W J.Music Theory,the Missing Link Between Music-Related Big Data and Artificial Intelligence[J].HQ:Digital Humanities Quarterly,2021,15(1).

[58]  RAMESH A,DHARIWAL P,NICHOL A,et al.Hierarchical Text-Conditional Image Generation with CLIP Latents[M].arXiv,2022.

[59]  赵跃,张佳欣.计算档案学在中国的发展前景探析——基于中国图情档界的计算档案学认知调查[J].档案学通讯,2021(5):32-39.

[60]  张斌,李子林.数字人文背景下档案馆发展的新思考[J].图书情报知识,2019(6):68-76.

[61]  牛力,高晨翔,张宇锋,等.发现、重构与故事化:数字人文视角下档案研究的路径与方法[J].中国图书馆学报,2021,47(1):88-107.

作者简介:黄水清,男,南京农业大学信息管理学院教授,博士生导师;刘浏,男,南京农业大学信息管理学院副教授;王东波,男,南京农业大学信息管理学院教授,博士生导师。

猜你喜欢

数字人文信息资源管理新文科
美军信息资源管理战略概况研究与启示
新文科建设背景下的高校图书馆服务研究
新文科建设的理路与设计
新文科背景下公共管理学科大类人才培养模式的优化
“新文科”背景下新闻传播教育的新形势与新进路
大数据在部队信息资源管理中的运用
浅谈西藏农牧业信息资源管理
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文