APP下载

学科融合背景下的数字人文能否成为独立学科?*

2022-02-07张品慧

图书馆论坛 2022年2期
关键词:研究者人文领域

张品慧,李 旺,许 鑫

0 引言

近年来信息技术迅速发展,新工具、新方法的出现与计算能力的提升对人文社会科学产生了深刻影响,数据密集型研究范式促进传统人文研究的转型与嬗变。新范式为复杂科学问题带来新技术和新的解决思路,理论和方法的移植与创新加快了自然科学向人文和社会科学渗透,学科融合成为必然趋势,进而产生了一批交叉学科。在此背景下,促进学科融合成为我国重要的学科发展战略目标。

2019年教育部等13个部门联合启动“六卓越一拔尖”计划2.0[1],提出全面推进新文科建设,数字人文作为人文与社会科学领域最具代表性的交叉学科之一,被看作新文科建设的重要抓手。2020年国务院学位委员会、教育部将交叉学科设置为第14个学科门类[2],意在提升交叉学科的认同度,为交叉学科提供发展通道,在此政策下,“集成电路科学与工程”“国家安全学”两个学科已被认定为一级学科。

当下国外已有不少开设数字人文专业或项目的实践,而由于国内外学科设立方式存在差异,数字人文在我国的专业化尝试还很少。国外学科设立整体呈现重引导、轻计划的特点。以美国为例,高等院校具有自主设立学科专业的权力,其学科专业分类系统(CIP)根据高校已设立专业由下而上地整合编制而成。我国专业管理更看重计划性,教育部发布学科门类目录,由上而下设立学科门类和一级学科,高校仅能自行确定二级学科[3]。数字人文研究在快速膨胀,同时也处于迷茫期,存在泛化危机[4],其是否完全具备一门独立学科的资格一直存在争议[5]。由于尚未正式划定学科归属,若以独立学科视角来看数字人文,其基础、成长性如何?学术共同体呈现何种模态?距离成为交叉学科门类下的一级学科还有多远?本研究希望以中外文相关研究的融合数据为基础,回答数字人文的学科性问题,为未来数字人文在我国的发展与相关学科制度的建设提供参考。

1 研究回顾

从研究热点到独立学科的转变,须有扎实的理论体系与研究方法、完善的基础设施与人才培养方案等条件作为支撑。诸多学者从理论角度对数字人文的研究对象、研究方法的界定与归纳展开探讨。John Unsworth将数字人文研究的特性用发现、注释、比较、参考、抽样、说明、表示来概括[6]。2001年David Robey提出数字人文的研究全景图[7],2002年Willard McCarty对全景图作了阐释,并总结出数字人文的研究方法共同体(MethodologicalCommons)[8]。Tobias Blanke等沿此路径,将方法共同体的概念进行抽象化、理论化,得到5种数字人文的基本原语:发现、收集、比较、发布和协作,以及若干二级原语[9-10]。刘炜等总结出数字人文的技术体系、理论结构与应用展现[11]。朱本军等回顾了全球范围内的数字人文实践,提出数字人文将成为图书馆可实践的新方向[12]。

一般而言,学科指包含制度层面、理智层面的系统化知识[13],是一定的科学领域或科学分支[14]。对学科界定标准的研究古已有之。Leo Apostel亦提出人、活动、内部或外部的相互作用、更新的方法、历史性学习方法5个独立的学科成立的必要条件[15]。综合诸多观点,长期以来学界已经形成“三独立”学科标准,即需要同时具备独有的研究对象、独特的研究方法、独立的理论体系方能称之为独立的学科[16]。《学位授予和人才培养学科目录设置与管理办法》基于“三独立”标准提出4个基本条件设立一级学科[17]。但随着当代知识生产方式向跨学科模式转变,学界也出现了对传统学科界定标准的审思[16]。方泽强提出新的学科标准——明确的研究对象与独特而不可替代的规律[13]。付八军等认为要从功用(Uses)和思想(Idea)双翼来检视学科的合理性与合法性[16]。而针对交叉学科的持续性特点,张琳等主张增加交叉学科的开放性,为尚在发展中的交叉学科提供发展空间[14]。

数字人文领域的独立学科界定一直存在争论。1990年代后期,Willard McCarty认为人文计算已是一个独立学科,需要设计制度、规范为人文计算研究提供保障与支持,他还指出数字人文的学科界定需考虑不同国家学术文化之间的差异性[18]。Svensson将数字人文比喻为给不同学科领域的研究者提供讨论场所而搭建的“大帐篷”(big-tent DigitalHumanities),指出其存在过多的异质性(Heterogeneity)而缺乏制度的稳定性,更应被看作一个领域而非学科[19]。但作为人文计算的延承,数字人文在国际上已被大多数学者当做一门独立学科进行研究。

从人才培养视角看,数字人文领域在国外高校已有诸多实践。除设立数字人文研究机构外,许多高校开设数字人文专业及课程,如英国伦敦大学学院、伦敦国王学院以及美国威斯康星大学麦迪逊分校、印第安纳大学伯明顿分校。国内高校也在陆续开展数字人文教育实践。专业设立方面,中国人民大学信息资源管理学院在图书情报与档案管理一级学科下自设数字人文二级学科。课程方面,北京大学、南京大学分别开设面向数据素养和面向历史研究的数字人文课程。

当下对数字人文内涵的探讨已不鲜见,已有研究中亦不乏对学术共同体识别的尝试与对独立学科判定标准的审思。但一方面由于语言、地理边界限制,以及单一合著指标在挖掘深层次研究兴趣耦合方面的局限,学术共同体的识别效果不尽人意;另一方面也少有将学科内涵、学术共同体等要素与独立学科的判别标准相结合,对学科性进行探讨的研究。据此,本文尝试融合多源数据,从学科成长性、学科研究主题、学科共同体模态等多个维度对数字人文的学科性进行分析,探究数字人成为独立学科的潜力。

2 研究设计

2.1 研究问题与思路

某一交叉学科领域能被认定为独立一级学科,需要兼顾科学性与灵活性的判定标准,既要参考《学位授予和人才培养学科目录设置与管理办法》与相关研究中的核心要素,又不能忽视交叉学科具有的问题导向、跨学科合作等特点。结合二者,本文给出4个评价独立学科可供参考的标准:(1)学科范畴,指是否具有创新、明确的学科研究范畴,是否已演进整合出可归属的二级学科或成熟的研究方向;(2)研究者角度,基于共同主题、通过特定学术行为而自然耦合的学术共同体是否已经形成,并具有成长性;(3)学科基础建设情况,包括期刊设置、机构开设、人才培养机制是否完善;(4)问题导向,社会是否有相对应需求,以驱动该交叉学科的发展[20]。

文献系既定领域最直接的研究产出载体,以文献的内容属性如题名、关键词等为着眼点可以梳理归纳出学科研究范畴,研究者的增长态势与学术共同体模态由著者的统计信息、学者-关键词网络反映,学科基础建设情况则可以通过研究机构、期刊、各校人才培养情况透视。在文献数据之外,数字人文具有很强的应用导向特征,结合对数字人文项目的调研与统计,可以了解当下数字人文的应用需求。本文希望以数字人文相关文献融合数据为核心,结合中外已有的数字人文相关学科制度,从上述4个维度分析数字人文在我国成为独立交叉学科的可能性。

2.2 数据获取

对数字人文的学科性研究应当立足于本土,又着眼于国际,不仅要了解我国数字人文研究的发展概况,也要关注、参考国际上数字人文领域的发展演变趋势。因此,本研究分别从中外文引文数据库获取数据,并将多源异构数据进行融合。外文方面选取Web of Science核心数据集为数据源,中文方面选取CNKI数据库中哲学与人文科学、社会科学I刊、社会科学Ⅱ刊、信息科技、经济与管理科学5个专辑内容为数据源,以“digital humanities”(数字人文),“humanity computing”(人文计算)为检索词进行试检索,文献类型限定为“学术期刊”(article)。在兼顾查全率和查准率的情况下,最后确定外文检索式为:TS="digital humanities"or TS="humanities computing"or TS="digitalhumanity"or TS="humanity computing"or TS=("digital"NEAR humanities)or TS=("humanities"NEAR computing)or TS=("digital"NEAR humanity)or TS=("humanity"NEAR computing)or TS="literary and linguistic computing"or TS="humanist informatics"or TS="humanities computer science"or TS="cultural and heritage informatics";相对应的中文检索式为:SU="数字人文"or SU="人文计算"or SU="计算人文"。考虑到2021年数据尚不完整,因此将发文年份限制在2020年及以前。检索时间为2021年4月16日,英文文献检索数量为1,754,中文文献数量为872。经过数据去重、去除无效文章、逐一筛选等初步清洗后,共得到2,626条文献题录数据,以此作为本研究的基础数据。

2.3 研究方法与技术路线

本研究主要采用文献计量、文本聚类、社会网络分析方法,对外文题录数据中的作者字段进行对齐消歧,再将外文关键词进行批翻译。由于外文文献的作者关键词往往粒度较细,结合Python的Jieba分词库与人工核对的方式将关键词粒度与语义与中文文献对齐,最终统一数据格式,将多源数据进行融合。

研究路线上,从相关研究的数量、机构、期刊等透视出数字人文领域研究的外部概况,再进一步从作者角度分析数字人文领域的成长性。为探究数字人文领域的研究主题及研究热点,运用关键词聚类方法对数字人文的研究方向进行分析。为了解数字人文领域的学术共同体构成,构建作者-关键词二模网络,参考生成的关键词聚类对数字人文的学术共同体进行识别与分析。在此基础上,对我国数字人文成为独立的一级交叉学科的可能性与潜力进行总结,如图1所示。

图1 本文研究路线

3 结果分析

3.1 数字人文学科基础特征

(1)发文年份。论文数量的时序变化是衡量某一领域发展的重要指标之一。通过对数字人文领域发表论文的逐年统计,得到图2所示的时间分布曲线。数字人文发展历程大致分为3个阶段:人文计算阶段(2004年前)、数字人文初始阶段(2004-2012)、数字人文增长阶段(2013-2020)。2004年前,人文计算概念出现,相关研究较少且停留于人文学科的传统研究范式。2004年《人文计算指南》改名为《数字人文指南》,象征着人文计算进入数字人文时代。在数字资源发展、数字化及富媒体等信息技术成熟的环境下,人文计算的研究对象、研究方法实现了从文本到所有数字资源的范围拓展[21],计算机、人文等多个学科领域广泛掀起讨论与研究数字人文的热潮。2013年数字人文领域的发文量显著跃升,此后数字人文领域的研究保持增长迅猛的势头,研究热度持续增加,研究产出硕果累累。

图2 数字人文发文年份分布

(2)发文机构。研究机构是承载研究者与研究项目的平台,对学科建设起重要支持作用,能快速聚集高校优势资源,实现学科的研究深化、人才培养与队伍建设。在迅猛发展态势下,数字人文研究机构遍布65个国家和地区,国际数字人文中心网络(Center Net)收录的研究中心逾200个[22]。从发文量来看,数字人文的研究产出集中于中国(910)、美国(553)、英国(195)、德国(165)。具体到研究机构,发文量前15位的研究机构以中国、英国和美国的高校及研究中心为主。南京大学被引次数最多,2018年设立数字人文创研中心[23],在历史地理信息化、数字史学、人文社科数据库等方面进行建设,系国内最具学术影响力的数字人文研究机构之一。武汉大学在数字人文领域亦成果斐然,早在2011年便建立了中国大陆首家数字人文研究中心[24],致力于研究文化遗产资源数字化、文化领域知识图谱建设、古籍文本挖掘与可视化等方面的理论、方法与技术。

就国外看,伦敦大学发文量与h指数均为最高,在领域中具有广泛影响力。伦敦大学系统中,伦敦大学学院和伦敦国王学院在数字人文领域亦有广泛研究。伦敦大学学院设立UCL数字人文中心(UCLDH)[25],致力于科学技术在艺术、人文和文化遗产方面的研究和应用。伦敦国王学院在数字人文领域有比较悠久的研究传统,其人文艺术学院下成立的数字人文系(Department of Digital Humanities)[26],前身是1992年成立的“人文计算中心(Centre for Computing in the Humanities)”,在人文大数据、数字文化与数字社会、数字劳动力等领域都有广泛研究。在美国,包括常春藤盟校在内的诸多知名院校在数字人文领域积开展了诸多实践。加州大学系统中,以加州大学洛杉矶分校为代表在学校层面成立了独立的数字人文研究中心——数字科研与教学研究所(Institute for Digital Research and Education,IDRE)[27],研究方向集中在数字文化地图、媒介理论系谱学、文本技术以及全球媒体研究。

表1 数字人文领域的主要研究机构(Top15)

(3)刊载期刊分析。期刊设置上,国内外收录数字人文文献的期刊在学科分类上有所差异。国际上,数字人文具有一批独立的学术期刊,据统计共有19种[28],大量数字人文研究集中于此类期刊,欧洲数字人文协会主办的《数字人文学刊》(DigitalScholarshipintheHumanities),国际数字人文组织联盟赞助出版的《数字人文季刊》(Digital Humanities Quarterly)系其中代表。领域专业期刊外,其他学科期刊也收录少量数字人文文献,如德国历史学期刊《历史社会研究》(Historical Social Research)以及《档案学期刊》(Journal of Documentation)分别收录25和21篇数字人文相关文献。

在国内,数字人文交流的主要阵地是图书情报类期刊,数字人文专业期刊仅有近年新创刊的《数字人文》《数字人文研究》《数位典藏与数位人文》3种。数字人文专业期刊的空缺导致国内数字人文研究主要刊载于《图书馆论坛》《图书馆杂志》《图书情报工作》等图书情报类期刊,小部分则发表于档案学及其他人文学科期刊。

表2 数字人文主要发表期刊(Top15)

3.2 数字人文研究者分析

(1)研究者沉淀。衡量一个学术领域是否适应社会需求、是否具有成长性的重要要素是该领域的研究者,研究者是构建学科领域的最核心资源,学术研究是研究者知识的外在体现。一个领域具有成长性、满足社会需求直接体现为该领域的整体研究人数的增长,以及沉淀为该领域学者,因此对领域作者的持续研究情况进行分析同样重要。普莱斯指数中以5年为发表年限观察文献老化的规律,将5年看作新文献活跃窗口。因此,以5年为窗口期对作者复现情况作统计。图3显示了以5年为窗口期的各年份数字人文研究者复现情况:2008年前数字人文研究者复现增长速度较慢,且由于研究者数量较少,复现率波动较大,数字人文尚未进入稳定发展阶段,研究者难以形成稳定、延续的研究;2010年后数字人文领域的研究者复现数量和复现率都相对平稳,作者复现数量在2018年前稳步增长,复现率在15%上下波动。由此看出,数字人文领域已经逐渐沉淀了一批学者,且呈增长态势。

图3 数字人文研究者增长、复现情况分布

(2)主要研究者。数字人文融合多个学科的理论、方法与技术,吸引不同学科学者的关注。根据前15位作者总发文量和数字人文领域发文数看出,将数字人文作为主要研究方向的学者较少,仅有陈涛的数字人文论文占比超过50%,其自2018年从事数字人文研究,属于新晋研究者,在16篇论文中有62.5%为数字人文论文。此外,国内数字人文研究多由图书情报研究领域的作者发表,一定数量的学者从图书情报学向数字人文领域转移,但总体上数字人文仅为学者的研究主题或细分方向之一。与国内学者相比,国外学者在数字人文的研究上更为专注。Warwick,C和Terras,M早期即投身数字人文领域,之后长期躬耕于数字人文研究,数字人文相关论文分别占其所有发文数的37.84%与28.85%。

表3 数字人文领域主要作者(Top15)

3.3 数字人文研究主题与二级学科演进分析

关键词聚类分析可以揭示某一领域的研究范围以及研究热点,一方面可用作评估学科是否具有一定规模以及若干研究方向,另一方面也可以透视领域未来可能形成的子学科(或二级学科)。使用VOSviewer对数字人文研究的作者关键词进行聚类,为展示效果考虑,筛选出现频次较高的关键词193个。在得到初步聚类结果后对部分聚类效果不理想的词进行清理对齐与手动分类,最终得到180个关键词聚类结果,如图4所示。

图4 数字人文研究主题聚类

从图4可以看出,高频关键词普遍集中于2015年以后,显示了近5年来数字人文领域研究主题、研究方向的多样化。研究主题基本可分为4个类别:数字人文技术基础、地理与可视化、数字化与文本、数字人文公共文化服务,分别显示技术的坚实程度、表现形式的多样化、研究内容的深化程度、研究成果的传播广度。

(1)数字人文技术基础研究。数字人文依托的技术研究关键词有“知识图谱”“关联数据”“大数据”“计算”“基础设施”等,数字化使得一切研究对象都成为了可计算的数字实体,其存储、计算和分析都需要数据技术的支持。扫描技术提供大量源数据,分布式存储与计算提供存储与计算能力,知识图谱、关联数据等提供算法支持,三者协作支持,构建出数字人文未来智慧化的远景。图4的聚类结果显示,技术基础研究在数字人文发展中长期活跃,早期数字人文研究集中于数字人文的计算、通信等技术手段,近年来本体论、关联数据、机器学习、知识图谱等技术手段为数字人文未来规范发展提供坚实的框架与逐步完善的范式。

(2)地理与可视化研究。其代表关键词有“地理信息系统”(GIS)、“城市”“中心”“可视化分析”等。此类研究将地理科学中GIS理论与方法移植于历史研究领域,为人文信息的可视化研究提供了方法路径。聚类结果中可以看出,在2016年后GIS相关的数字人文可视化研究受到了相当关注,以GIS为基础的空间分析法在历史研究中已有大量成功案例,国内外数字人文研究机构积极推进人文数据库及其可视化平台建设。此外,三维建模、虚拟现实(VR)、动作捕捉、计算机视觉(CV)的发展和广泛应用为数字人文的可视化项目落地进行技术赋能。

(3)数字化与文本研究。此研究包含“人文学者”“古籍数字化”“历史”“语言”“编码”等高频关键词,其研究主题包括历史人文资源的数字化处理、归档、编码、计算等过程。历史人文资源包含古籍档案、文物书画等多种实体类型,其收藏位置分散、易损坏等特性限制了人文学者数字化、批量化分析的可能性。当下的新兴技术催生出音频、视频等数据形式,为多维度建立人文资源的数字孪生体提供了可能性。聚类视图中也可看出数字人文领域近年来对文本中的国家、历史、文化等深层次语义内容的关注。

(4)数字人文公共文化服务研究。该类研究关键词有“图书馆”“博物馆”“档案馆”“文献计量”等,涉及博物馆、档案馆、图书馆等机构主体提供数字人文公共文化服务的研究。数字人文展现形式多样,天然具有公共传播属性,逐渐成为联通学界与公众的一条公共文化长廊,打破公众与人文资源间的信息鸿沟。以图书馆为代表的各公共文化服务机构不断推进数字人文的开放传播研究,探索公共文化机构在数字人文环境下的定位、策略,成为推动数字人文项目建设的中坚力量。

3.4 数字人文学术共同体识别与分析

学术共同体是指在一定范围内研究兴趣或方向具有或潜在具有耦合性,能共同推动学术发展的研究者群体。稳定且具有活力的学科共同体是学科发展的驱动力量。通过对数字人文领域学术共同体的识别,能探究数字人文的研究结构,反映学者间显性或隐性的联系,衡量学科的发展潜力。

本文融合题录数据,筛选出数字人文相关关键词数大于15的研究者以及出现频次大于20的高频关键词,经过筛选获得165个核心研究者与115个高频关键词,使用社会网络可视化软件NetDraw生成学者-关键词共现的二模网络。图5展示了高频关键词与数字人文核心作者的共现关系。目前数字人文的学术共同体已经相当清晰,核心作者已经形成有共同研究主题且具有合作关系的数字人文共同体,但由于学者学科背景差异,又划分为若干子群。结合数字人文研究主题聚类结果,可以将数字人文的研究者与研究关键词划分至图5所示的4个子群中,其中地理与可视化研究、数字化与文本研究、技术基础研究等子群的核心作者以国外作者为主,国内学者则集中在公共文化服务研究子群中。技术基础研究子群是该二模网络的基础,起到联通其它子群的作用,大量研究者通过该子群连接其他共同体,“数据管理”“基础设施”“网络”“计算”等数字技术关键词连接了大量作者节点。公共文化服务子群的组成主要为国内图书情报学、档案学等专业的研究者,该子群与其他方法、技术的子群相联通,强调利用技术赋能公共文化服务。

图5 基于“学者-关键词”二模网络的共同体

4 讨论

本文通过对数字人文多源融合数据的多维度分析,得到以下结论:

(1)学科交叉融合背景下,数字人文研究具有成长性和发展空间。新的数字技术予力各人文学科,计算机、文学、历史、图书情报等学科的研究者跨越学科藩篱汇集于此,国内外涌现大量数字人文学者和研究机构,不断丰富数字人文研究成果。数字人文在当下是研究热点,未来亦将成为研究者持续深耕的沃土。随着积累与沉淀的深化,数字人文的底蕴与内涵将愈发深厚。

(2)数字人文下的子学科具备成为二级学科的潜质。技术基础研究作为数字人文研究领域中的基础,以其为支撑,地理与可视化、数字化与文本研究分别从表现形式、内涵深度两个维度探索数字人文“重塑人文”的可能性,国内学者则尤为关注数字人文作为公共文化服务在传播文化、推动教育方面的潜力,未来数字人文或可区分研究方向设立若干二级学科进行细化研究。

(3)数字人文的学术共同体已经形成,但理论基础仍较为薄弱。数字人文学术研究已经形成清晰的共同体,根据研究方向也已经形成若干互相关联又有所区分的子群。但当下数字人文仍缺乏独特的研究方法与范式,已有研究方法往往来自于其他学科。比如,目前数字人文项目中广泛使用的知识图谱构建技术、自然语言处理与文本挖掘技术均来自于计算机科学,而GIS等可视化技术亦非数字人文首创。

(4)数字人文以实践与应用为导向,应着重建设人才培养体系。当下国内外数字人文研究机构已经开发出一批高质量的数字人文项目,在学术传播、资源共享、加强教学实践方面展现出良好效果。数字人文的项目建设需要大量人才,为了加强数字人文人才储备,国际上已经建立起较为完善的数字人文人才培养体系,伦敦大学、加州大学等高校都已设立数字人文专业或相关课程。

总结上述观点,本文认为数字人文具有独立学科的研究基础和成长性,亦形成了清晰的学术共同体,但理论基础薄弱、权威学科期刊缺失。数字人文在国际上已被认为是一门独立交叉学科,在我国有成为独立学科的潜力与趋势,但仍需时间积累。未来我国数字人文研究者应确立学科意识与学科规范,加强国际交流合作与数字人文学科基础理论方面的研究;相关研究机构与各高等教育机构应借鉴国外数字人文学科建设经验,加快高质量的专业学术期刊建设,在数字人文学科人才培养方面作更多探索。

本文基于多源异构的文献题录数据,结合多种定量方法对数字人文领域的学科概貌和发展趋势进行了客观分析,认为数字人文在中国具有成为独立的一级交叉学科的潜力,但在学科基础建设方面存在不足之处。文章存在之局限可供后续研究参考,包括并不限于:其一,数字人文研究成果形式不限于文献,以数据库或其他非学术期刊形式存在的成果难以度量;其二,部分研究虽未冠以数字人文之题名或关键词,但本质实为数字人文领域的研究,此类文献数据未纳入基础数据中;其三,国际上的数字人文期刊并非完全被Web of Science收录。后续研究可考虑补充此三类数据,更完整地揭示数字人文学科作为独立交叉学科的的发展潜力。

猜你喜欢

研究者人文领域
高等教育中的学生成为研究者及其启示
2020 IT领域大事记
领域·对峙
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
人文绍兴
人文社科
谁来教“医学人文”课
医生注定是研究者
让人文光辉照耀未来