APP下载

技术方法的引入与时代新史学的形成

2023-01-04

关键词:历史学家史学史料

梁 晨

(南京大学 中华民国史研究中心,南京210023)

自20 世纪初年梁任公批判传统史学,倡导新史学运动起,中国的历史学家们就始终面临着一个两难挑战:既要努力保持学科特色,让历史学成为现代学科之一员;亦要打破学科畛域,不断借鉴他者的理论与方法①梁启超认为:“地理学也,地质学也,人种学也,人类学也,言语学也,群学也,政治学也,宗教学也,法律学也,平准学也(即日本人所谓经济学),皆与史学有直接之关系。 其他如哲学范围所属之伦理学、心理学、论理学、文章学及天然科学范围所属之天文学、物质学、化学、生理学,其理论亦常与史学有间接之关系,何一而非主观所当凭藉者!”梁启超:《新史学二:第二章 史学之界说》,《新民丛报》1902 年第3 号。。 此后,不同时代的新史学运动都曾反复重申这一理念②李剑鸣认为自19 世纪末起,“中国史学经历了三次转型,多种‘新史学’次第登场”。 李剑鸣:《欧美史学的引入与中国史家的话语权焦虑——一个当代学术史的考察》,《清华大学学报(哲学社会科学版)》2022 年第1 期。,以致今日再谈史学研究需要跨学科,很有“老生常谈”之感。 但细究起来,又颇有可深入发展之处。像严飞提出的引入社会学理路,推动历史社会学发展,就指出了历史学仍须不断借鉴跨学科的理论③杨念群对新史学运动以来历史学引入社会科学理论方法的情况做了细致、深入的梳理,杨念群:《中国史学引入社会科学方法的阶段性表现及其限度》,赵世瑜编:《北大史学》第21 辑,北京:社会科学文献出版社,2021 年,第45-57 页。。 但相对于理论话语的跨学科,历史学技术方法的跨学科借鉴更显不足。 1990 年台湾《新史学》问世时,注意到随着电子计算机的普及,“人类知识将引起革命性的改变”④《新史学:发刊词》,http:/ /saturn.ihp.sinica.edu.tw/ ~huangkc/nhist/first.html,访问时间:2021 年12 月10 日。,因而提出“要尝试各种方法(不论已用未用),拓展各种眼界(不论已识未识)”⑤罗志田:《前瞻与开放的尝试:〈新史学〉七年(1990-1996)》,《近代中国史学述论》,北京:北京师范大学出版社,2015年,第98-118 页。。 但总的来看,历史学家更关注的还是概念、理论与话语的跨学科,而非技术方法与研究手段的跨学科。 2002 年召开的“香山会议”,被视为中国史学界新世纪新史学运动的发端。 会议上,来自九个不同学科的学者以纪念梁启超《新史学》发表100 周年为名,共同探讨了21 世纪“多学科视野下不同历史叙述与研究进路的可能性”。 此后,有着重要学术影响的《新史学》集刊被推出。 该刊特别强调“反对空泛地标榜发现问题意识的重要性,而强调在解读史料的过程中磨砺对历史的感觉和想象力”⑥中国人民大学清史研究所:《〈新史学〉创刊缘起与旨趣》,http:/ /www. iqh. net. cn/info. asp? column_id=7191,访问时间:2021 年12 月10 日。,重视的是跨学科的问题意识和史学研究中的想象力,而非技术方法与研究手段的更新换代。

史学之树之所以能常青,一个重要的原因是史学总能随着时代发展而演进,并由此形成了一代又一代的“新史学”。 21 世纪被喻为人类“数字化生存”时代⑦“数字化生存”概念最早由美国计算机学家尼古拉·尼葛洛庞帝(Nicholas Negroponte)提出。 尼古拉·尼葛洛庞帝:《数字化生存》,海口:海南出版社,1997 年。,网络与数字技术不仅突飞猛进,更浸入到人类社会生活与学术研究的各个领域。 过去的十多年里,技术方法已经显现出对历史研究中始终存在的方法与资料、个体与群体、分析与描述之间的矛盾与冲突的进一步平衡,在帮助历史学家极大拓展史料利用范围的同时,改变着史料的利用形态和分析方法,甚至开始形成了历史学研究对象和分析表达的新路径,昭示着时代新史学的产生。

(一)技术改造史料

跨学科理论,特别是社会科学的理论对历史学之所以重要,一方面是因为,历史学者学习、掌握这类理论并不困难;另一方面,基于研究人类社会及人类行为的共性,很多社会科学的理论能较平顺地移用到历史研究中来,为历史学家提供全新的问题意识和研究视野,进而推动史学发展。 例如借助社会学中的社会流动理论,何炳棣敏锐地观察到明清时期大量存在的登科录、同年齿录等科考资料中所包含的举子们多代际的家庭信息,对解答传统中国精英阶层的流动性和社会构建问题大有裨益⑧Ping-ti Ho,The Ladder of Success in Imperial China:Aspects of Social Mobility, 1368-1911,New York: Columbia University Press, 1962.。 黄宗智则受经济学边际效益递减理论启发,通过人类学家实地调查的资料,观察到当西欧的小农经济经历资本主义的发展和改造时,以华北农村为代表的中国小农经济却在日益内卷①黄宗智:《华北的小农经济与社会变迁》,北京:中华书局,1986 年。。 无论是何氏的传统科举制下的“高流动”理论,还是黄氏传统小农经济的“内卷化”理论,都对中国史学研究产生了重大影响,也充分说明了历史学借用跨学科理论的必要与价值。

技术方法则大不相同。 一方面,哪怕是较初级的量化分析技术,对很多历史学者来说都不易掌握;另一方面,历史学家的研究必须建立在史料之上。 如果技术方法既无法给研究者提供新视野、新问题,又不能直接作用于史料,帮助历史学家在掌握史料、分析史料等环节有所进步,那么它就无法真正进入历史研究。 目前,史料的主体依然是文献。 长期以来,人眼阅读与人脑理解似乎是对文献归纳与解读最有效、最深入的路径,引入技术既费力又无必要性。 过往历史学尝试引入技术方法的努力似乎也印证了这一观点。 第二次世界大战以后,随着计算机的发明运用,材料的电子化技术与数据运算技术得以快速发展并走入科研领域,这给量化研究方法“打开了快速累积知识库的方便之门”②乔伊斯·阿普尔比等:《历史的真相》,北京:中央编译出版社,1999 年,第71 页。。 美国学界敏锐地注意到了这一技术潮流,一些前沿学者在法国年鉴学派提倡的历史统计方法的基础上③有学者认为最早将计量作为一种常用研究方法的是法国年鉴学派。 从吕西安·费弗尔的“地理历史学”到费尔南·布罗代尔的《地中海》,年鉴学派通过数据尝试对历史时期中的经济活动进行计量分析,再将其孤立,放在较长的时段中考察其演变过程。 王晴佳:《年鉴学派对我们研究历史的启迪》,《社会科学》1986 年第5 期。,开始尝试有限度地将历史资料电子化并进行量化分析,计量史学遂自20 世纪60 年代起勃兴起来④1958 年康拉德(Alfred H. Conrad)和迈耶(John R. Meyer)合作发表的《内战前南部奴隶制经济学》被认为是美国计量史学的第一部代表作。 Alfred H. Conrad and John R. Meyer, “The Economics of Slavery in the Ante Bellum South,”Journal of Political Economy,66(2), 1958. 随后,1963 年,美国历史协会成立了“历史计量资料委员会”(an ad hoc Committee on Quantitative History),这个委员会不仅收集美国的计量资料,而且收集欧洲、亚洲、拉丁美洲其他国家的计量资料。 1972年,它还组织出版了10 卷本的《计量史学研究丛书》,1975 年还专门成立了“社会科学历史学会”(Social Science History Association)。 1993 年,从事计量经济史研究的道格拉斯·诺斯(Douglass North)和罗伯特·福格尔(Robert Fogel)获得诺贝尔经济学奖,被视为计量经济史研究的重要高峰。。 但这一研究方式过多地受经济学影响,越来越强调分析技术的高级与复杂,从使用描述性统计发展到强调相关分析、回归方程乃至动态数列、超几何分布等高级数学模型,在实现技术方法不断飞跃的同时,越来越远离史料。 技术不再作用于史料——不仅难以在史料分析的基础上,形成更深入的历史认识与历史理论,甚至出现了很多有违常理的奇谈怪论。 这反而大大加深了历史学家对技术工具的疏离,甚至斥之为“技术拜物教”。

如今,不仅计算机早已普及,人类更迎来了网络数字时代。 对于历史学者来说,数字技术能够极大拓展史料利用范围已无异议。 自20 世纪80 年代以来,由于文献扫描设备与技术的进化(如能对电子文献进行识别和转化的Optical Character Recognition 技术)、互联网的搭建和浏览器的推出,历史研究所依靠的各种史料电子化、可检索化和远程共享的程度越来越高。 各个图书馆、档案馆都在努力开展馆藏资料的电子化处理,在提供信息检索功能的同时,逐步有条件地推出在线共享,实现“开放获取”(Open Access)功能,大大提升了研究者的史料获取范围。 史料的开放获取和检索工具的嵌入,又使得历史学者通过主题、时段或关键词等检索,可以快捷查阅海量史料和相对精准地锁定所需材料,提升了史料利用的效率。 因此,有学者认为,以数字技术为核心的新技术带来了“史料革命”,“从技术上看,新史学积极拥抱计算机及数字化技术,并将之引入史学研究,从而推动历史资料在存储、检索、传递和分析、处理等方面发生重大变革”①刘萍:《“史料革命”:近十年来的史料学研究及反思》,《北方论丛》2021 年第5 期。。 不过,这个革命导致的主要是史料存储和利用方式的迭代进步,主导者多为文献收藏与保管者。 历史学者虽由此能更便利和更大范围地使用史料,但与史学研究的关系尚不够直接,介入的程度也较有限。

近些年来,随着网络与数字技术的发展,以大数据计算为代表的第三次计算浪潮开始形成②肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索历史大数据:历史学家的宏观视角》,杭州:浙江大学出版社,2019 年,第25 页。。 对历史学而言,在前述“史料革命”的基础上,技术改变的不仅是外在的史料存储和利用方式,还进一步深入到史料内部,改变了史料的呈现结构和分析方法,甚至是研究范式。 例如在计量史学的基础上,到20 世纪90 年代中后期,在综合数据统计分析、地理信息系统构建等技术的基础上,国际学界兴起了一股以从大规模原始史料中提取“个人层面微观数据”(individual-level microdata),构建量化历史数据库并开展群体研究的风潮③梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015 年第2 期。。 这一研究范式源自人口学,进入历史学领域后,对个人层面数据的设定被扩展到“单元层级数据”(unit-level data)。按照世界银行对单元层级数据的定义,单元可以是个人,也可以是基层实体,如家庭、商业企业、街区,甚至是村庄、城镇等④Datahelpdesk.worldbank.org/knowledgebase/articles/228873-what-do-we-mean-by-microdata,访问时间:2021 年11 月8 日。。 微观历史数据就是原始史料中蕴藏的个人或单元层级的信息。 对社会群体研究而言,单元层级就是个人层面的数据;对于家族或区域研究而言,单元信息可能是家庭或村、镇信息。

进入21 世纪以后,网络技术和数字分析方法不断发展,源代码开源运动也随之出现,各种用途的开源软件大量增加,进一步推动历史文献数据库和量化数据库的不断增加。 同时,多重网络与数据分析技术开始介入到历史材料的分析与研究中来;在与史料交融互动的过程中,逐步凝聚成以文本挖掘、主题建模、社会网络分析等多种技术为主题,囊括数据库构建、大数据量化分析和可视化表达等多维度技术图谱的数字史学——以致有学者提出历史学的“DH”(digital history or digital humanities)时刻已经来临⑤肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索历史大数据:历史学家的宏观视角》,第34 页。。

文本挖掘是数字人文学者分析文献时最常用的选择。 它的核心理念是“词语计数”(counting words),即计算一个特定词语在某个文档中出现的频率。 当文档规模大、延续时间长,或者具有特定语境代表性时,这样的词频统计结果就可能揭示出某些重要的学术问题。 在词语计数之上,学者们也注意到词语与词语之间的表达结构、词语在语境中的意义等更值得关注,因此也逐渐发展出词组频率分析和“语境关键词”(keyword-in-context)分析等技术方法。通过一些标准化的处理,文本中词语、语义的频次还可以通过“词云”(word cloud)的颜色深浅、形状大小,可视化地呈现出来,更直观地展示研究发现。 尽管这一技术存在失去完整语境的不足,但还是能帮助历史学家在海量文献中获取一些基本的信息或规律,具有一定的实用价值。 例如丁帆和赵普光以1949—2018 年国内期刊、报纸等媒介发表的中国现当代文学研究文章为文本库,提取了各篇文章的论题词,通过词频分析和词云展示,发现“数据的变化即历史的轨迹”,1949 年以来70 年间的中国现当代文学研究论题始终与国家历史共振⑥丁帆、赵普光:《历史的轨迹:中国现当代文学研究七十年的实证分析——以论题词词频的统计为中心》,《文艺研究》2019 年第9 期。。

网络分析,特别是以人物为节点的“社会网络分析”(social network analysis)是历史学家特别期待的另一项数字技术研究方法。 连接,是人类社会运作的关键,自然也是研究人类社会最核心的问题之一。 数字史学家常利用Gephi①Gephi 是一款基于JAVA 语言,主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测的免费开源工具。 关于该软件的更多介绍和开放获取,可点击https:/ /gephi.org/。等网络分析软件,将研究对象抽象成点,彼此的关系则由连接的边来表示,同时边可以被赋予方向和权重。 当研究对象具备一定规模后,软件就会呈现出复杂的点线关系与结构图。 图中常常会呈现出多个大小不等的交往中心点,从而为历史学者理解复杂群体中的关系脉络和核心节点提供帮助。 如有学者基于“中国历代人物传记资料库”②“中国历代人物传记数据库”(简称CBDB)系美国哈佛大学费正清中国研究中心、台湾“中研院”历史语言研究所和北京大学中国古代史研究中心三家机构合作建设开发的线上关系型数据库,其目标在于系统性地收录中国历史上所有重要的传记资料,并将其内容毫无限制地、免费地公诸学术之用。 该数据库的介绍和获取,参见:https:/ /projects.iq.harvard.edu/chinesecbdb。中收录的隋唐至宋的历史人物,通过技术工具可视性地展示出这一时期精英人物的社会关系。 分析表明,这一时期各个时代的精英群体,社会关系都呈现出中央网络与小群网络相结合的状态,但具体结构则差别较大,体现出隋唐与宋在政治体制和社会关系等方面的差异③刘飞燕、高剑波:《隋唐至宋时期精英社会网络动力学的演化研究》,《数字人文》2020 年第1 期。。 此外,在数字史学的视野里,人与人的连接,不只是现实生活中真实交往的人际关系,还可以是虚拟或非真实接触的各种关联。 比如,今天中国学者非常熟悉的知网,在数字技术的支持下,它不仅能提供论文查阅功能,还能附带提供论文的引用文献和被引文献信息。 在数字化研究者看来,这种文献间的联系体现了学者的学术关系网络。

这些以技术方法而不是理论视角为突出特点的研究方式,虽尚未成熟,但已充分展示出作用于史料的能力。 上述技术方法都能帮助学者超越人力的限制,在海量的史料中实现各类相关史料的自动、半自动连接,不仅能建构起可供软件分析的数据库,更能形成长时段或多代际的资料平台④梁晨:《用大规模量化历史数据库检验中国的长期代际遗传》,《南京大学学报(哲学·人文科学·社会科学)》2019 年第2 期。。 这些平台如同科学研究里设计出的新仪器,通过对其中的数据信息进行各种富有想象的计算和验算,能够帮助历史学家发现新史实,形成新学理论⑤笔者曾以近现代以来各大学所存学生学籍卡档案为例,说明这种利用史料,构建信息平台,经过分析以实现理论演进和学术发展的可能。 参见梁晨、李中清:《大数据、新史实与理论演进——以学籍卡材料的史料价值与研究方法为中心的讨论》,《清华大学学报(哲学社会科学版)》2014 年第5 期。。 傅斯年认为现代历史学的演进,“在于由主观的哲学及伦理价值论变做客观的史料学”,“史学的对象是史料,不是文词,不是伦理,不是神学,并且不是社会学。 史学的工作是整理史料”,而对于整理史料的方法,他连续三次强调是“比较不同的史料”⑥傅斯年:《史学方法导论》,北京:中华书局,2015 年,第3 页。。 史料的比较确实是史学家工作的基础和核心,但比较的前提是史料的连接。 连接隐藏在不同史料中的相关史料,为历史学家的研究提供“新史料”,恰是数字技术能够成为历史学家重要研究工具的原因所在,也在预示着新史学未来的可能样态。

(二)技术改进书写

技术在作用于史料的同时,也在潜移默化地改变着历史书写的方式与方法。 “个体与群体”“方法与资料”“分析与描述”被视为20 世纪中外史学研究中存在着的有待解决的问题⑦罗志田:《前瞻与开放的尝试:〈新史学〉七年(1990-1996)》,《近代中国史学述论》,第99 页。,而21 世纪数字技术的兴起与介入,或可帮助历史学家更好地解决上述问题。 前述内容表明,在“方法与资料”的平衡上,数字技术显然颇有助力。 对于“个体与群体”和“分析与描述”这类历史书写中研究对象和表达形式上所存在的问题或冲突,技术介入后也有打开新局面的可能。

英国历史学家彼得·伯克(Peter Burke)认为,虽然历史学家和社会学家应该是比经济学家、地理学家等都要关系密切的学术近邻,但彼此的学术交流却非常不顺畅,甚至如布罗代尔所形容的,是“聋子之间的对话”。 因为社会学研究的是“单数的人类社会(human society)”,而历史学家研究的是“复数的人类社会(human societies in the plural)”,彼此学术理念有着根本差异。 换句话说,从学术表象看,社会学家似乎是“集体主义者”,不仅常开展合作研究,而且更擅长对社会进行整体性结构化的观察和研究;历史学家更像是“个人主义者”,不仅多开展个人性研究,也更倾向于深入过去社会的内部,细究具体个案或局部,重视异同的分析并展示社会实际运作的复杂与多样。 由此,历史学家也给人以重个体、轻群体的观感,以致被看成是“缺乏体系和方法的事实收集者”①彼得·伯克:《历史学与社会理论》,上海:上海人民出版社,2001 年,第2-3 页。。

公允地说,历史学家们并不满足于只做史料收集者或“掌故”学家②中国传统史学的考据方法在西方常被称为“掌故法”(anecdotal method)。 见吴承明:《中国经济史研究的方法论问题》,《中国经济史研究》1992 年第1 期。。 对现代历史学产生巨大影响的法国年鉴学派,就大力号召历史学家不要满足于具体或局部的研究,而应开展无所不包的“整体史”或“总体史”(total history)研究。 这种整体史,从空间范围看,可分为地区的总体或世界的总体;从时间范围看,要包括“历史长河中或某段历史时期内发生过的自然和人类的全部事件”;从研究方式看,需要运用“所有人类知识的研究视角和方法”③王加丰:《年鉴学派的总体史理论及其实践》,《华东师范大学学报(哲学社会科学版)》2020 年第5 期。。 整体史观的践行,无疑会导致研究对象和研究材料的规模都迅速膨胀的局面。 即便历史学者能获取各需的所有材料,但面对海量材料,作为人的历史学家根本无法全面无遗、客观中立地描述材料和重建历史。 因此,虽有雄心壮志,但年鉴学派开展整体史研究的效果却不尽如人意。 刘子健认为年鉴学派的工作“找到一些关联,而无从判明其所以然,又无关宏旨”④刘子健:《史学的方法、技术和危机》,《新史学》1990 年第1 期。。 更有学者认为,“整体史”的口号“虽时尚但短暂”(briefly fashionable),仅仅造成了很多不成形又无意义的数字与资料,却没有多少研究上的收获⑤A. W. Carus and Sheilagh Ogilvie, “Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 有鉴于此,黄仁宇又曾提出通过归纳法,“将现有的史料高度的压缩,先构成一个简明而前后连贯的纲领”,并将此定义为新的“大历史”(macro history)⑥黄仁宇:《中国大历史》,北京:三联书店,2015 年,自序第2 页。。 但依照此法打造出的《中国大历史》,被多数学者视为无血无肉的,更类似“简明通史概述”(long-term survey)的作品。 薛刚的论文,试图将近代中国各区域的地理特征、经济发展和人口变动等不同链条及其关节呈现出来,并探讨各链条与地方暴力活动之间的联系,进而整体性地回应近代中国战争格局的历史成因,是近些年近现代史领域长时段、整体史研究比较成功的一次尝试。 但面对多地区和多人口的描述与分析,作者一人显然无力开展全面、细致的一手研究,更多借助的是二手研究,这也导致学者们对文中很多具体观点存在不同意见⑦薛刚:《山川分布、区域性集体暴力与军事动员——从地理时间理解近代中国的战争与历史格局》,《南京大学学报(哲学·人文科学·社会科学)》2021 年第3 期。。

显然,研究材料的膨胀导致的“信息过载”(information overload)⑧信息过载本是网络信息科学术语,是指一定时间内,信息流量超过了个人或者系统所能接受、处理或有效利用的范围,并导致故障。是开展整体史研究的重要挑战。 数字技术方法在创造新史料的同时,或可为解决这一棘手难题提供新路径。 一方面,数字技术的介入,能够帮助历史学者从海量的电子化史料中有效发现信息或规律。 无论是量化数据库分析,还是文本挖掘和社会网络分析等技术方法,不仅不惧怕,反而非常欢迎海量资料。 资料的体量越大、时间跨度越长,越可能带给研究者更精准、更重要的发现。 另一方面,技术介入带来各类史料的有效连接,从而形成群体甚至整体性数据集合,为开展群体研究提供了基础。 以笔者正在从事的近代清华留美生职业生涯与中国近代化发展研究为例,近代清华选派的留美生“因为录取程序严、培养出的学生学术水平高”,“涌现出众多近现代中国最优秀的学者和教育家,以及各行各业的杰出人才”,是“整个20 世纪中国留学运动中最有影响和最为成功的”①叶维丽:《为中国寻找现代之路:中国留学生在美国(1900-1927)》,北京:北京大学出版社,2012 年,引言第11 页。,但目前对这一群体的职业发展与贡献研究,多以个案描述为主,群体分析尚不足。这既与过往历史书写的特点有关,也与系统性获取清华留美生职业信息的困难较大有关。1937 年国立清华大学校长办公处出版过《清华同学录》②国立清华大学校长办公处印行:《清华同学录》,1937 年4 月。。 该资料不仅未能包含民国所有清华留美学生,且对学生提供的职业信息的收录也非常有限——近一半学生没有提供任何职业信息,其余学生每人也仅有一条职业记录,且绝大多数职业记录只是单位名称,研究者无法据此观察留美生的工作性质、职务等级和社会地位,更无法从动态角度研究留美生的职业发展状况与原因。 事实上,清华留美生的职业信息分散存在于多种史料中,对这类极其零散的史料进行群体性系统化收集,依靠人力非常困难③同其他近代历史上的知名人物一样,部分留美生的生涯简述被收入辞典、名录中,如《民国人物大辞典》《当代中国名人录》等;对于不同行业的留美生,其职业信息散落在职官表、公报调令、机构刊物、机构史等材料中,如《国民政府职官年表》《交通公报》《铁道公报》《光华年刊》《清华周刊》《河南大学百年人物志》等;由于留美生往往为当地知名人物,其事迹又常见于地方志、期刊、文集中,如上海、浙江等地《民国名人辞典》《湖南历代科学家传略》等;每个留美生不同的社交网络,使其出现在多种已经出版的名人传记、日记、回忆录等材料中;活跃的社会活动,又使得大量留美生的职业信息散见于时事报刊中,如《申报》《时事新报》等。 以上每种类型的材料,结构完全不同,信息密度差距极大,并且对于研究者而言,会在何时、何种情境下发现某项材料,同样难以预料。 如何更好地发现和整合这些材料,从中梳理出人物职业信息,尚需探索。。 为此,我们以所有清华留美生的姓名为聚缀,依靠python 语言设计爬虫工具,通过抓取中国近现代报刊史料数据库、抗战史料数据平台等多个巨型文献数据库,最终在原有《清华同学录》人均0.6 项职业记录的基础上,从8 286 种材料中发现相关记录,将人均职业数提升至7.3 个。 同时,超过95%的清华留美生能确定职业,多数职业横跨30 年,接近1/2 的清华留美生能展示完整职业生涯信息,超过2/3 的清华留美生能较为完整地展示职业生涯信息,仅有不足5%的留美生无职业信息,扣除早年病逝、女性未就业等情形,不足3%。 此外,几乎所有职业信息都有精确的地理位置信息和时间信息,这对研究清华留美生的整体职业状况非常有利。

相对于社会科学的表达侧重量化比较和结构分析,历史学的书写则以描写和叙事为主。李伯重指出,“在英文中,history 也被说成是his story,即人的故事”④李伯重:《史料与量化:量化方法在史学研究中的运用讨论之一》,《清华大学学报(哲学社会科学版)》2015 年第4 期。。 实际上,人类早期的历史著作,无论是古希腊希罗多德的《历史》,还是中国司马迁的《史记》,都充满了包括神话在内的各种故事。 描述、叙事无疑是表达故事最常用和最自然的手法,以致某些时候历史学家也被看成是基于史料讲故事的人。 当然,这样的看法并不符合现代历史学的自我定位。 吴承明就认为史学虽然要再现往事,采用叙述的表达方式也不是缺点,但“问题是应该有分析,即中国所谓‘论’”⑤吴承明:《论历史主义》,《中国经济史研究》1993 年第2 期。。 实际上,历史学家们不仅明白再动人的叙事也不能取代学术研究的论证要求,而且还普遍认识到尽管历史论述主要使用的是日常语言,无法像自然科学和社会科学那样采用一套精确且没有歧义的概念,但无论如何,对于求真的史学研究来说,“日常语言的不精准、多歧义又必须通过一些辅助概念进行矫正”①A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 因此,对力图通过回归历史场景,以求理解和解释人类社会行为的历史学来说,仅有叙事和描写是不够的。 在实证的和归纳性的研究方法之外,历史研究也必须引入各种概念和采用具有科学性的演绎分析法,特别是定量的比较和结构性的探索等,以论证历史观念、回应现实关怀等。

概念通常都或明或暗地含有量的标准或要求,并不存在清晰的、非此即彼的定量概念与定性概念的界限,研究中必须坚持定性与定量相结合②A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 量化或程度是任何研究对象固有的特征,比如人物年龄大小、身材高矮,收入多少,等等。 这些直接的量化特征,又会成为生活质量、社会阶层属性等很多定性概念的事实基础和分类标准。 李伯重曾专门撰文强调比较分析在历史研究中具有重要意义,而对研究对象进行量化描述则是比较的重要基础③李伯重:《量化与比较:量化比较方法在中国经济史研究中的运用》,《思想战线》2018 年第1 期。。 谢宇直截了当地认为,人类社会的本质是变异。 没有一种定量方法,我们就无法表述这种变异。 尽管思辨、内省、个人体验等也是可供选择的方法,但只能起补充作用④谢宇:《社会学方法与定量研究》,北京:社会科学文献出版社,2006 年,第7-8 页。。 同时,定量的数据或信息普遍存在于各类史料中,这既是历史研究必须重视量化的原因,也为技术方法的介入提供了路径。英国史学家罗德里克·弗劳德(Roderick Floud)认为,史材中的人物与事件包含有大量可量化变量(信息/数据),包括定类变量、定序变量、定距变量和定比变量等多种⑤罗德里克·弗劳德:《献给历史学家的量化方法》,北京:社会科学文献出版社,2021 年,第9-15 页。。 吴承明提倡研究中应尽可能做定量分析,“盖定性分析只给人以概念,要结合定量分析才具体化,并改正概念的偏差”⑥吴承明:《经济史:历史观与方法论》,《中国经济史研究》2001 年第3 期。。 卡鲁斯(A. W. Carus)等人认为近些年国际学术界的很多研究之所以取得重要进展,就在于从定性的证据中获得定量的证据,因此提出历史学研究时应强调“量化使用定性证据”(using qualitative evidence quantitatively)⑦A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 李中清等则指出20 世纪末到21 世纪初,大规模微观数据库的构建与分析,就如同17 世纪的科学革命一样,让学界在历史理解方面产生了一场社会科学革命⑧香港科技大学讲座教授李中清(James Lee)和日本一桥大学准教授倪志宏(Matthew Noellert)的这一判断,主要建立在以下文献基础上:Robert William Fogel and Geoffrey Rudolph Elton,Which Road to the Past?:Two Views of History,New Heaven: Yale University Press, 1983; Margo Anderson, “Quantitative History,” William Outhwaite and Stephen P. Turner,The Sage Handbook of Social Science Methodology,London: Sage Publications, 2007, pp.246-263; Myron P. Gutmann, Emily Klancher Merchant and Evan Roberts, “‘Big Data’ in Economic History,”The Journal of Economic History,78(1), 2018;Thomas Piketty,Capital In the Twenty-First Century, Cambridge & MA: Harvard University Press, 2014; Thomas Piketty,。

数字史学使用的技术方法虽然多样,但产生大规模、可量化的数据几乎是所有技术路径都存在的特点。 无论是微观量化数据库的构建,还是基于文本的词义挖掘或词频分析,或是基于大规模数据探索而形成的主题建模以及各类人物关系的网络分析等,都需要在一定量的信息或数据基础上进行量化的分析研究。 同时,这些技术之所以能够实现各种分析目的,也在于技术介入后能挖掘或连接起大量史料。 这类大规模史料的组织与分析,需要但不能仅靠学者个新技术介入后的量化分析是以微观信息为基础的。 微观信息的连接,是由点成线的工作——群体数据直接来自于每一个个体,是个体与群体的融合。 纵观量化研究不断进化的历程,从摩尔根(Lewis Henry Morgan)时代的社区级研究,到计量经济史家的市场级研究,再到剑桥人口与社会结构团队之后开始的个人层级量化研究,研究的基础越来越扎实,研究的发现也越来越丰富,这也是数字史学所追求的方向之一。 微观信息是个体或最基本研究对象的信息,由此连接形成的群体信息集合不仅具有坚实的个体或单元基础,还能便于学者开展多样化的计算研究。 相对于过往量化研究习惯使用的统计数据,微观数据更贴近具体研究对象,其数据集合更能反映群体的准确状况,且研究者可以对微观数据变量进行多重计算与分析,以理解变量(因素)间关系和变化趋势等。 因此,对历史学家而言,微观数据库更像是一个分析工具或研究平台,而不只是简单的史料证据①梁晨、李中清:《从微观数据到宏观历史:作为桥梁的数字史学》,《中国社会科学评价》2021 年第2 期。。

CapitalandIdeology,Cambridge & MA: Harvard University Press, 2020.感谢两位教授提供以上观点和材料。人的长期积累。 没有新技术方法的介入,再勤奋的学者,依靠传统方法,在稍具规模的史料面前也会陷入“无力”的局面,更毋庸说真正的大规模数据和复杂史料。 技术介入后重组的史料,形态也从自然文本转变为各类电子数据库,且多数具有结构化或可量化的属性,这为各种量化分析工具的使用提供了可能,也是技术方法介入能够平衡“分析与描述”这一冲突的原因所在。 以清华留美生职业信息数据收集和研究为例,其最终呈现出的是一张二维数据表格,表格略去了职业信息背后的信息源。 事实上,每个职业信息的背后,都会有一条或数条支撑该信息的原始材料。 这样的二维表格中的每一个信息都可以借助统计软件进行量化分析,甚至一些并不是节点,而是范围的变量,机器或软件也能识读和分析。

最后,技术方法的介入与历史学研究需要发挥想象力之间也并不矛盾。 柯林武德(R. G.Collingwood)在强调历史研究须克服材料不足,在历史框架下发挥想象力时说:当我们眺望大海时,看到一艘船。 五分钟之后,当我们再次眺望时,船已经移动到不同的位置。 因此,我们必须想象,当我们没有眺望的时候,船在一点一点占据着两处的中间地带②柯林武德:《历史的观念》,北京:商务印书馆,1997 年,第336 页。。 这一比喻被很多历史学家用作历史学需要想象力的依据。 但个人以为,历史研究之所以离不开想象,主要乃为弥补史料所不足。 同时,想象又必须以研究者对历史框架有较准确的把握,或对研究对象所处历史链条的走向与趋势有较准确的判断为前提。 因此,对历史学家来说,首要的工作并不是想象,而是要尽可能地从史料中发掘出更多历史节点信息,去压缩每一个5 分钟的空白间隔,让后续的学术想象建立在3 分钟、2 分钟甚至更短的间隔上。 或者说,历史学家首先应该通过描绘出更多的节点,让历史的链条更为细致和准确,为理解历史、研究历史提供保证。 技术恰恰赋予了历史学家从比较史料回归到更具起点性的连接史料的能力,能帮助历史学家挖掘出更多节点信息并连缀成线,进而形成更扎实的学术研究和更具说服力的学术想象。

(三)时代变迁下的新史学

时代与环境的巨变,不仅推动了社会的更新演进,亦会产生新的史学。 进入21 世纪以后,数字史学的兴起,或能在平衡历史学理论话语的跨学科和技术方法的跨学科两种努力的同时,推动时代新史学的形成。 理论话语的跨学科与技术方法的跨学科,对历史学家形成的挑战各不相同。 学术的理论话语,通常是根据特定研究对象概括总结而成,若移用于他者,则存在能否适用的问题。 同时,理论话语的底色往往深受所处社会的价值观影响,甚至具有意识形态性,存在如“东西”一类的差别,如不仔细消化吸收,很容易形成误导性研究①李剑鸣在分析欧美史学话语体系引入对中国学界的影响时,也曾指出其中多有不适应之处,需要消化吸收。 李剑鸣:《欧美史学的引入与中国史家的话语权焦虑——一个当代学术史的考察》,《清华大学学报(哲学社会科学版)》2022 年第1 期。。 技术方法则不存在价值观或“东西”差别,这对人文学科是不容小觑的优势。 但要使技术介入能真正推动史学研究,还需要警惕两方面的问题:一是不能只重视技术,忽视技术与材料的结合。 技术方法的介入是为了更智慧地分析史料。 二是不能因为有了数字技术,学者就放弃自身的学术思考②先后主持建设“中国历代人物传记资料库”(CBDB)和“中国历史地理信息系统”(CHGIS)的哈佛大学教授包弼德(Peter K. Bol)强调“数字人文领域,学者们的学术思考依然是必不可少的”。 包弼德:《数字人文要配合学术思考》,《数字人文》2020 年第4 期。。 数字技术的引入,目的仍在于更好地帮助学者开展学术思考,而不是取而代之。

作为现代学科的历史学,离不开现代性的研究手段和严谨的科学精神,史料与方法,对历史学来说具有同等重要性。 傅斯年认为,现代史学事业的进步“在于由人文的手段,变做如生物学、地质学等一般的事业”③傅斯年:《史学方法导论》,第3 页。。 由此,史学工作的核心有两个:一曰到处找新材料,二曰用新方法(科学付给之工具)来整理材料,以努力达成“聪明的考证”④傅斯年:《历史语言研究所工作之旨趣》,《国立中央研究院历史语言研究所集刊》第1 本第1 分,广州:商务印书馆,1928年,第7 页。。 吴承明则提醒历史学家:“要得出正确的结论,研究方法也必须科学化。”⑤李伯重:《大数据与历史学科学化》,《北京日报》2017 年7 月10 日,第15 版。因此,历史学家不仅要尽可能地占有史料,还要想方设法使用严谨又聪明的方法去挖掘史料中蕴藏的信息或史实。 作为人文学科的历史学,警惕科学主义的泛滥是合理的,但同样,历史研究不能没有科学精神和科学方法,更不必将科学精神泛政治化或与人文精神对立。

美国历史学家威廉·麦克尼尔(William H. McNeil)在重新看自己的代表作《西方的兴起:人类共同体史》时曾说:“历史学家是从他们自己时代的移动舞台上研究课题的,其结果是使过去不断改变着轮廓。”⑥威廉·麦克尼尔:《二十五年后再评〈西方的兴起〉》,《西方的兴起:人类共同体史》,北京:中信出版社,2018 年,第ⅹⅶ页。时代的舞台虽然限制着历史学家,但历史学家更必须进入自己的时代舞台,才能做出展现“时代轮廓”的成果。 在当下数字化生存的时代,历史学者不必为数字技术的介入感到焦虑,而应积极参与并加以引导。 实际上,今天的历史学家不用“自称数字人文学者或数字历史学家”,但“几乎所有的历史学家都已经经历了数字化的洗礼”⑦肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索历史大数据:历史学家的宏观视角》,第42 页。。 随着数字技术不断升级发展,相信历史学家们都会逐渐拥有适合自己研究的“工具箱”。

猜你喜欢

历史学家史学史料
吕振羽史料学理论与实践
五代墓志所见辽代史料考
美育史料·“八·一三专号”
扬雄的蚕丛说与史学价值
史料二则
王绳祖先生与十卷本《国际关系史》
凡尔赛宫在世纪法国文学作品中的意象分析
傅斯年向夫人认错
《西方史学通史》第三卷“拜占庭史学”部分纠缪
史学漫画馆