APP下载

古代文学研究的数据意识与数据意义

2023-01-16王兆鹏

南京师范大学文学院学报 2022年4期
关键词:名篇影响力作家

王兆鹏

(四川大学 中国俗文化研究所,四川 成都 610065;中南民族大学 文学与新闻传播学院,湖北 武汉 430074)

今天我们需要大数据,是因为我们已经进入了大数据时代。各行各业都在运用大数据来升级换代,连延续几千年的刀耕火种的农业也用上了大数据。可是我们古代文学研究领域的学者,有的对大数据置若罔闻。我们必须跟上时代的步伐,特别是年轻一代的学者,应该拥抱时代,承担时代赋予的责任。运用大数据,不仅仅是一种研究方法的选择、研究视野的拓展,也是大家应该承担起来的责任。大家肩上有三重责任:

第一是要推动学术进步。我们已经进入了信息时代,现在的本科生、硕士生、博士生应该怎样去推动学术进步?数据化是一条很重要的途径。按照传统的学术观念和研究方法,古代文学研究很难有革命性的变化。但时代为我们提供了非常有利的、人人可用的数字技术。我们不能辜负时代,要充分利用数字技术去推动古代文学研究的数据化与现代化,这是新生代学人的责任。作为个体,可以自由选择研究方法,坚守学术传统;但作为新生代学人,有责任用新方法、新视野把学术研究向前推进。

第二是做好文化传承。在大数据时代、读屏读图时代,我们应该怎样传承文化?仍然只靠一支笔或是口耳相传?信息化、可视化时代,文学研究应该怎样利用虚拟现实、区块链、元宇宙等技术、方法、理念来更好地传承文学经典与文化精华,是我们不能回避的课题和责任。当新技术风生水起时,从事传统文化、文学研究的专业工作者若不参与其中,所谓的传承文化、传承经典,只是一句空话。

在信息时代,文学研究隐藏着一种新的危机,那就是“古籍在国内,而数据在国外”。很多古籍文献数据由外国人开发和掌握。若今后我们要使用的古代文化、文学数据需要向外国人购买,那样不仅会尴尬,也会深度影响我们的文化自信、文化安全。我们必须完全掌握属于自己的古籍文献数据,为学术研究、社会文化建设服务。今后研究古代文学,如果我们只是找出几条文献依据,而外国学者拿出大数据作为研究依据,我们将无言以对。所以,用大数据来传承文化,不仅仅是一种责任,还有一种紧迫感和危机感。新生代的学者,要有世界眼光、时代意识,要有责任感和使命感。

第三是适应人才培养的需要。无论是师范生,还是非师范生,大家都肩负着培养人才的责任。现在的教育理念和方法是基于工业化时代的,进入信息时代、大数据时代后,我们要思考怎样适应时代的需求,培养新时代所需要的人才。当学生都了解并运用虚拟现实、区块链、元宇宙时,如果身为师长还视而不见,则无法培养出新时代需求的新型人才。这几重责任,都需要我们去了解大数据、运用大数据。

一、数据意识

当下是文学研究需要大数据、也能产生大数据的时代。大数据从哪来?文学研究历来缺乏数据意识和数据积累。我们提出的理念是:凡资料,皆数据。无论是什么样的文献资料,都可以转化为数据。先说数据有哪些类型。

(一)数据类型

数据有三大类型:

从形态上看,可以分为显性数据和隐性数据。显性数据是直观的,俯拾即是。比如古代文学作品选里的作者和作品目录,人名和地名辞典里的人名、地名目录,都是显性数据。隐性数据,是材料里隐含的、不能直接看到的数据,需要加以人工标引。比如,作者的社会身份、作品的创作时间和地点,就需要根据有关传记资料或考证成果予以人工标引。从作家年谱里提取作家的行踪数据,也需要标引和挖掘。一篇作品,隐含有多种数据,如仿效、化用了前人哪篇作品,又被哪些后人仿效、化用,以往这些隐性数据很难获得,如今随着数字技术的进步,计算机经过学习,能自动对不同的作品进行比对,从而为我们提供每篇作品的接受史数据。

比如,要了解杜甫的诗《登高》有多少人仿效唱和,我们在诗词“知识图谱”数据库(1)“知识图谱”数据库,是笔者的团队与苏州图谱信息技术有限公司合作开发的。网址是https://cnkgraph.com/,相关数据还在开发阶段,可免费试用。里,可以找到20首后人追和的诗作,还可以进一步了解每句诗有多少后人模仿化用。例如,诗句“无边落木萧萧下”,化用的人最多,后世有88首仿效和化用。这些数据,可以用来分析一首诗在后世影响的大小及其变化。以前笔者做接受史研究,非常希望有这类创作接受的数据,可当时很难获取。现在有了这类数据,就可以丰富和完善接受史研究。而且随着技术进步,以后这类数据会越来越丰富、越来越完善。

从性质上看,可以分为定质化数据和定量化数据。所谓定质化数据,是能够衡量测度对象内在质量优劣高低的数据。定量化数据,是计算对象数值多少的数据。定量化数据,只能比较数量的差异,而不能衡定质量的异同。目前我们还只有定量化数据,笔者30年来积累的定量化数据有几百万条,但定质化数据一条也没有。这需要学界的共同努力。

3.从来源上看,可以分为原生数据和衍生数据。原生数据,是客观信息,比如作品选目录里的作者、时代和作品篇名等信息。衍生数据,是需要标引再生的数据,如作者的文体身份,是诗歌作者还是散文作者,作品的文体是诗还是词抑或是赋等。这些身份、文体属性经过标引后就成为新的数据,即衍生数据。用户目的不同,标引的内容、角度不同,衍生出的数据也不一样。

(二)数据来源

上文提到,凡资料,即数据。文献来源不同,数据的内容和功能也不一样。古代文学研究,至少有六种数据来源。

第一种是文学史。《中国文学史》著作,是中文系学生的必读书。现在各大学使用的文学史教材,有的是用高等教育出版社出版的袁行霈先生主编的《中国文学史》,有的是用袁世硕先生主编的《中国古代文学史》,还有中国社会科学院文学研究所编著的《中国文学史》,或者是北京大学游国恩先生等主编的《中国文学史》。文学史教材转化为数据,首先需要建立数据录入的模板(见表1)。

表1 中国文学史所论作家作品数据表

例如录入袁行霈先生主编《中国文学史》唐代部分的数据,“作家姓名”栏,按目录依次填王绩、王勃、杨炯、卢照邻、骆宾王、杜审言、沈佺期、宋之问等;“章节层级”栏,因为李白、杜甫各占一章,就填“一章”;陈子昂,一人独占一节,就填“一节”;张若虚、王维、王昌龄、崔颢、高适、岑参等,都是几人合为一节,就各填“合节”;王绩、四杰、杜审言、沈佺期、宋之问和张九龄等,都是在各节目录下出现姓名,可填“节下”。其他栏目,也根据文学史正文的实际情况填上相关数据。

通过章节篇幅的数据,就可以看出诗人诗史地位、影响力的不同。独占一章者,为第一层级;独占一节者,为第二层级;合一节者为第三层级;节下提及其名者,为第四层级。如果参照钟嵘《诗品》的做法,将四个层级依次换为上上品、上品、中品、下品,那么,李白、杜甫和李商隐可视为上上品,陈子昂可视为上品,张若虚、王维等人可视为中品,其他诗人可视为下品。当然,这只是一家文学史的评价,属一家之言。如果将20世纪以来数百种文学史数据录入,就可以全面看出作家地位的不同及其变化。比如以前的文学史都是在节下提及张若虚,很少在“节”的目录中出现。也就是说,以前都将其作为下品诗人对待,而袁本文学史把他提到了中品。晚唐的李商隐,在以前的文学史都是占一节或共占一节,属于上品或中品诗人,到了袁本文学史,却独占一章,这表明他的文学史地位已跨入上上品,与李、杜并驾齐驱。这是南开大学罗宗强先生提出的意见,他是唐五代文学卷的主编。他力主把李商隐升为一专章,也就是从上品诗人提升为上上品诗人。编写组讨论时有不同意见,因为以前的文学史很少把李商隐作为上上品诗人看待。但罗先生力主其说,并提出了许多理由依据,编写组就遵从了他的意见。到现在,也为学界所普遍接受认同。

如果把20世纪以来成百上千种文学史著作全面转化为数据,不仅可以统计分析个体作家历史地位的变化、群体流派的演进,还可以考察不同时期文学观念、审美意识、价值标准的不同与变化,看出学术的发展与进步。比如,宋代词人张元干、朱敦儒,由原来的节下提及上升到节的目录中,不仅表明他们的历史地位有所提高,也表明学术界对他们的研究更加深入,提升了对他们在词史进程中贡献的认识。文学史著作的基本理念是守正出新,不能把没有得到学界认同的个人主观化的见解写到文学史中。随着学术研究的深入和进步,我们对有些作家和群体流派的贡献会有新的认识。数据的统计分析,可以看出学术研究的发展变化。

第二种是作品选。作品选里也都是数据,比如郁贤皓先生主编、高等教育出版社出版的《中国古代文学作品选》,笔者主编的武汉出版社出版的《中国古代文学作品选》。除了作为高校教材的作品选,各种古代文学作品选本,诸如唐诗选、宋词选、李白诗选、杜甫诗选等读物,也一样包含有丰富的信息数据。

首先是作家数据。每位作家入选的作品文体不同、篇数不同。比如苏轼,诗词文各体皆工,哪部作品选都会入选他的诗、词、文、赋;李、杜以诗见长,入选的诗作会很多;韩愈、柳宗元的散文和诗歌,也是作品选必选的对象。一位作家,入选的作品越多,表明他的文学地位越高、文学影响力越大。

其次是作品数据。一部作品入选的次数越多,表明它的影响力越大。作品数据录入的方法,也是先建数据表(见表2)。

表2 中国古代文学作品选数据表

作家姓名、作品篇名和首句,是原生信息数据。体裁、主题、时代是标引出来的衍生数据。之所以诗歌也要列出首句,是为了区别同题的作品和组诗中的单篇作品。如果统计了几十上百种选本,就可以统计分析每篇作品影响力的大小和变化、每位作家创造力和影响力的高低变化。有的诗人是百花齐放,有好多作品受人欢迎,有的一枝独秀,总是那一首作品受人关注。有的作家众体皆擅,多项全能,有的作家属单项选手,专擅一体。统计数据既能给每位作家画像,也能衡量他贡献的大小、影响的高低。唐诗究竟哪首诗影响力、知名度最高?是杜甫的《登高》还是崔颢的《黄鹤楼》?李白《登金陵凤凰台》有意与崔颢《黄鹤楼》一争高下,究竟是崔氏原唱受人欢迎,还是李白的拟作受人关注?数据会提供具体的答案。

第三是文学总集的作家信息数据。比如《全唐诗》《全唐文》《全宋诗》《全宋词》《全宋文》,收录了唐宋时期全部作者的所有作品,里面都有作者小传。作者小传中的信息,可以转化为数据。需要注意的是,《全唐诗》《全唐文》是清人所编,作者小传的信息不尽准确。《全宋词》成书较早,作者小传的信息,后来学界多有订正。所以,录入时要注意参考学界成果加以订正。

宋代作家信息的数据(参表3),可以根据《全宋诗》《全宋词》《全宋文》来录入。作家姓名栏填苏轼、辛弃疾等。时代栏,填宋代或唐代。如果专注于宋代,可填北宋或南宋,甚至是北宋前期、北宋中期或后期;如果是唐代,可分初、盛、中、晚唐。根据研究者的不同需求,可细分也可粗分。生卒年栏,生卒年可考的就填,生卒年不明的就留空。但要注意按《全宋诗》《全宋词》《全宋文》原来的排列次序来填。排列次序,隐含着作者的时代信息,特别是生卒年不详的作者,原书所排列的时段、位置,都有一定的历史依据。为了标明每位作者所在的时段,笔者依据“三全”的顺序,分别给每位作者编一个代码,如S4012、C1097、W1599,分别代表三位作者在《全宋诗》的第4012页、《全宋词》的1097页、《全宋文》的1599页。这些都是起始页,同时代表作者所处的时代位置。

表3 作家基本信息数据表

作家籍贯,分省市县三级,是为便于分地分层统计。还可以列出古代路或道、州、县三级,以便古今对照。文体身份,指作者是诗人还是词人抑或是散文作者,可用代码表示,如S代表诗、C代表词、W代表文,SCW代表其人兼三种诗词文作者三重身份,SC代表作者同时有诗词传世,SW代表其人有诗文传世。填入后由计算机来统计,又快又准确。不过,统计作品数量,要注意一题多篇的情况,特别是诗歌,有的一题之下有多首,要注意分开统计。比如陆游的诗歌题目只有五千多篇,诗作却有九千多首。

数据经整理加工,逐步开发成为数据库,有助于研究的多角度与多层面的开展。笔者运用这些数据的论文已经发表(2)王兆鹏,齐晓玉.宋代诗文词作者的层级与时空分布[J].中南民族大学学报(人文社会科学版),2022,42(01)。,被中国人民大学报刊复印资料《中国古近代文学研究》全文转载,《新华文摘》也有论点摘编。去年在学报网络版刊出后,还受到《2021哲学社会科学学科研究发展报告(文学)》课题组的关注和介绍。数据统计分析成果受到学界的关注,也表明该研究方法的科学性与创新性。

第四是研究论著目录数据。数据来源于研究论文目录和研究著作目录。国内论文目录,可以从中国期刊网、中国人民大学报刊复印资料、全国报刊索引等网站获取。著作则可以从全国新书目、国家图书馆官网等查询,海外有关中国古代文学研究论著目录来源不一。既可从各国各地政府图书馆、著名高校图书馆查询,也可从相关专题目录汇编中查询。如日本吉田诚夫、高野由纪夫、樱田芳树编集《中国文学研究文献要览1945-1977》(日外アソシエーツ株式会社1979年版),谷口洋、稀代麻也子、永田知之、内山精也、上田望编集《中国文学研究文献要览·古典文学1978-2007》(日外アソシエーツ株式会社2008年版),胡建次和邱美琼编译《日本学者中国古典诗学研究主要文献目录1900-2007》(百花洲文艺出版社2009年版),金时俊、徐敬浩编《韩国中国学研究论著目录1945-1999》(首尔松出版社2001年版)等。论著目录的模板,需要包含如下栏目(见表4):

表4 论著目录数据表

前四个栏目,都是原生客观信息,后面几栏,都是需要标引的衍生数据。例如,“晋玉《漱玉断肠词》,《文艺杂志》1915年第1期”这条目录,分别录入作者、作品、来源、时间四个栏目。对象,指论文研究的作家,这篇论文研究的是李清照和朱淑真,对象栏则应填上李、朱二人的名字。角度,指研究角度是考据还是理论阐释。这一栏,比较主观,可以根据研究者的需求来设定或变更栏目内容。时代,指论文研究对象的时代,如果数据库包含几个时代,就应该填宋代,如果数据库只含宋代的研究成果,那就可填南宋,以区别于北宋。文体,是指论文研究的诗、词还是文。《漱玉断肠词》是研究两位女性词人的词,所以文体栏应该填“词”。单篇,指论文研究的是作家的那一篇作品,如李清照的《声声慢》之类。但此文是整体研究,不是专门研究哪一篇、哪一首作品,所以此栏留空。地域,指论文作者是哪里人,以便统计作者的地域分布。如果数据库包含海内外,地域就填中国大陆或中国台湾、中国香港或美、日、韩等。如果只是国内数据,就按省份或城市来填。

一条或几条论著目录意义不大,但几千条、几万条目录,就大有用处。可以据此统计分析一个时段、一个地区的研究格局、动态。笔者搜罗了3万多条20世纪海内外研究唐代文学研究的论著目录,把这些目录转化成数据库,然后运用这些数据统计分析,发表了十几篇论文。这几年笔者的团队又陆续搜罗了30多万条中国古代文学研究的论著目录,可以全方位统计分析20世纪整个中国古代文学研究的状况,既可以考察一百多年来作者队伍的代群分布、时段分布,也可了解各个时段研究热点的分布与变化。

第五是研究著作,比如作家年谱与传记、别集编年笺注、作家生平考证论文等。我主持研发的唐宋文学编年地图的数据,就是从这三类研究成果中挖掘提取来的。唐宋文学编年地图数据,录入表格如下:

表5 作家活动编年数据表

这个表格是经过反复摸索试验后定下来的。看起来简单,做起来却不容易。开始我们是把作家活动和作品编年分开来做,后来发现做了很多重复劳动,于是合并简省为一个表。表中的数据,没有原生数据,全是按预设的目的从文献资料中挖掘提取而来。

以白居易为例,根据《白居易年谱》,他大历七年正月二十日生于新郑。这条内容,分别填入上面表格中对应的栏目。京畿道、郑州和河南、郑州等地名信息,都是录入时人工补充的信息。现在随着技术的发展,我们开发的数据库中,已经可以自动比对地名的所属关系。现在只填一个古地名郑州,数据库会自动比对唐代郑州属于京畿道,宋代属于京西北路,而不用人工填写。机器自动比对后填写,不容易出错。而人工做,不小心就会把地名的对应关系弄错,还是需要校验。交往人物、编年作品,有则填,没有信息就留空。“作品文体”,是指编年作品属于诗、词或文,以便分体统计。文献来源,填所依据的作者书名及版本页码等信息。文献来源,不止一种。白居易事迹,既参考了朱金城《白居易年谱》,也参用了谢思炜的《白居易文集校注》。

这些作家活动数据,与《中国历史地图》数据融合,就形成唐宋文学编年地图平台(3)https://sou-yun.cn/MPoetLifeMap.aspx。。编年地图,不只是把作家一生的活动轨迹予以可视化呈现,还可以发现很多学术问题,引发我们进一步思考和研究。

第六是工具书。工具书往往是格式化、条目化的,转化为数据更方便。比如,浙江大学龚延明等先生编撰的《宋登科记考》,搜罗的宋代进士的信息相当丰富完备。我们按照进士姓名、及第年份、及第科目、进士籍贯(分路、州、县三级)等栏目,将宋代进士的信息转录成《宋代进士数据库》。

李之亮先生前年些出版了两套《宋代职官通考》《宋代郡守通考》丛书,是学术含量很高的学术著作。笔者团队曾把这两套书转化为《宋代文官数据库》,检索统计都十分方便,既可以了解宋代每一年从中央到地方的各路分州府有哪些官员,也可以分地统计各路、各州府历年有哪些官员,还可以考察每位官员一生做了哪些官、在哪些地方做过官。数据非常有用。

比如,在宋代300多年的历史上,有多少人在建康做过知州、知府,每一年是谁任知州知府,打开数据库,瞬间就可以统计出结果。建康一地出了多少进士,有多少状元,每科多少人,打开《宋代进士数据库》,一查即知。

有了数据意识,什么资料都可以转化为数据。再强调一遍:凡资料,即数据。凡数据,皆有用。

二、数据意义

现在论证第二个问题:数据有什么用?有什么学术意义?

有人认为文学是审美的,美的东西是无法用数量、数据来衡量的。既然美的东西不用能数据来衡量,那数据就没什么用,跟文学也没有关系。我们现在要破除这种执念,特别是在大数据时代,文学数据有大用、有妙用。艺术体操、花样滑冰、高台跳水等运动项目,既是竞技的,也是审美的。比赛的时候,不是用分数来衡量高下吗?这些项目的世界冠亚军不是通过打分决出胜负的吗?书法绘画是一种纯艺术、纯审美的东西。拍卖行里、书画市场里,不是用价格来衡量它艺术价值的高低吗?当然价格的高低,有市场因素起作用,但书画家影响力的高低、作品艺术价值的大小,是决定性因素。

一首诗、一首词、一部小说,既是审美的艺术作品,也含有竞技性。我们为什么不能用数据来衡量它价值的高低呢?只是我们现在还没找到一种有效的方法来衡量它、测度它。笔者认为,构建一套文学评价指标体系,建立计算模型和一套标准化的操作规程,也能准确衡量出一部作品价值的高低。

数据与文的关系有无?例如,诗人的地位、影响力,和他的作品数量有没有关系?传统的观念是,文学作品要靠质量、靠精品,这当然没错。但是,如果仅有一首精品,能不能成为杜甫?如果李白只有一首经典作品流传,还能不能成为后人心目中的李白?

我们来看《全唐诗》中的数据。在唐诗中,从影响力来看,杜甫、李白分别居第一和第二;而作品量,他俩也位居第二、第三。也就是说,杜甫的影响力是第一,作品量是第二;李白的影响力第二,作品量为第三。这个数据表明,诗人的影响力、文学史地位,跟他作品的数量正相关。再来看《全宋词》。宋词里辛弃疾的影响力高居第一,苏轼居第二;作品量呢,也是辛弃疾第一,苏轼第二。这再次表明,作家的影响力、文学史地位,跟他作品的数量高度正相关。假如辛弃疾的名篇佳作只有一首,苏轼一生也只创作了一首词,或者只有一首好作品传世,他俩还能成为后人无限景仰的辛弃疾、苏轼吗?宋诗里,影响力最大的是苏轼,其次是陆游。陆游的诗作最多,有九千多首,名列第一;苏轼的诗作近三千首,作品量排在第七。

这些数据表明,在唐宋诗词里,诗人的影响力跟他的作品数量高度正相关,但不是完全成正比。不是作品数量越高,影响力就越大。因为,有些诗人作品量虽然很多,但影响力不大。所以,影响力大的诗人,作品量都很高,但不能说,诗人的作品量越多,影响力就越大。南宋赵汝腾《石屏诗序》说:“诗之传,非以能多也,以能精也。精者不可多,唐诗数百家,精者才十数人,就十数人中选其精者,才数十而已。惟少陵、谪仙能多而能精,故为唐诗人巨擘也。”虽然他强调,诗歌传播要靠精品,而精品难得,但他也明确地说,正因为精品难得,所以要成“巨擘”,必须是“多而能精”。质量与数量要双高。李、杜能成为巨擘,就是因为他们的作品又多又精。

事实表明文学跟数量、数据大有关系。接着来看数据究竟有哪些作用和意义。

其一,数据可以发现新问题、提出新观点。我们平常说唐诗宋词是经典,但五万多首唐诗、两万多首宋词,并不是每首都是经典。究竟哪些诗词作品影响力较大、较受大众欢迎?有人喜欢“鹅鹅鹅,曲项向天歌”,有人喜欢“床前明月光,疑是地上霜”,还有人喜欢或者说更熟悉“春眠不觉晓”。就这三首启蒙诗,哪篇影响力最大?启蒙诗知名度高,但在诗人心中、专家眼中,未必是顶级的经典。文学史上,可读性与艺术性之间、创造性与影响力之间,不一定都成正比。知名度很高、可读性很强的作品,文学价值不一定是最高的。那怎样来衡量唐诗宋词的价值和影响力呢?

我们还是用数据来回答。目前的数据,还无法测度一篇作品内在艺术价值的大小,因为还没有建立起作品评价的量化指标体系和计算模型,但可以衡量一篇诗词作品的外在影响力。我们选取了五种指标:后代诗人、词人追和的频次,历代选本的入选频次,历代诗论家的品评频次,当代学者研究的频次,网页著录及评论的频次。按照这五种指标搜罗数据后再加权计算,衡定每首诗词影响力的大小。将影响力位居前列的视为名篇。

根据具体数据我们分别排列出唐诗名篇三百首、宋词名篇三百首、宋诗名篇三百首、唐文名篇三百首,每篇作品得分多少、差距多大,一目了然。过去评判作家作品时,主要凭借专家学者主观评价,易受个体的好恶影响。例如,只凭感觉,认为这篇作品影响很大、那篇作品影响较大。很大、较大,究竟差别是多大,只凭感觉,而无具体的量化指标和数据支撑。今天我们能用数据呈现出确切的答案。在影响力最大的唐诗三百首名篇中,位居前列的十大名篇是:

表6 唐诗十大名篇表

以前从来没有人为唐诗作品的影响力、知名度排出名次,最多只争论哪首作品该排在第一,如严羽说崔颢的《黄鹤楼》应为第一,但他没有说哪首诗该居第二、哪首诗可列第三,而且只是凭主观感觉、个人好恶,很难有公信力、说服力。今天我们用大数据为唐诗宋词排名,可能有人不同意这个排名,因为和他心目中的十大名篇差别太大,但这是客观数据得出来的结论,有理有据。我们不仅能够排列出三百首名篇、百首名篇、十大名篇、第一名篇,而且可以分析出其理据。崔颢的《黄鹤楼》能成为唐诗第一名篇,除了本身的艺术含量之外,重要原因是有传播故事,而且还有李白这样的超级名流推介。传播故事与名流推介的双重作用,强化和扩大了崔诗的影响力。十大名篇中,其他作品也都有传播故事起作用。

再看宋词十大名篇:

表7 宋词十大名篇表

从得分来看,第一名《念奴娇·赤壁怀古》远高于其他词作,是当之无愧的宋词第一名篇。唐诗里,第一名《黄鹤楼》的得分也比第二名之后的唐诗高出好多。从形成的原因看,宋词十大名篇,也有传播故事和名流推介。苏轼本人,就是《念奴娇·赤壁怀古》的推广者。宋人盛传,东坡在玉堂,问善歌的幕士,他的词跟柳永词有什么不同。幕士回答说:柳永词适合十七八女孩儿,按红牙拍歌“杨柳岸晓风残月”,东坡词须关西大汉,执铜琵琶铁板唱“大江东去”。这个故事,差不多尽人皆知。经典作品,本就受人关注,加之有趣的故事,更会让人津津乐道,从而提高其知名度、美誉度和影响力。

其实,用大数据分析得出排行榜,不是我们的根本目的。我们的目的,是要追寻探讨为什么这些诗词影响力最大、原因何在,对诗词的当下传播有什么启示,诗词的影响力在不同时代有什么变化、为什么有变化,和当时的文学思潮、价值观念、审美意识有什么深层的关联。过去依据有限的文献记载和评点,只能静态了解后世论者对唐诗宋词的态度,而大数据则能动态地显示一篇作品在不同时代影响力的变化,从而发现不同作品不同的特质。数据显示,苏轼《念奴娇·赤壁怀古》,是永恒的经典,哪个时代都受人欢迎;而岳飞《满江红》则是后起的经典,在明清之前影响力有限,到20世纪30年代以后,随着政治环境的变化,才声华日上,成为举世传诵、家喻户晓的名篇。

有人会问,为什么陈子昂的《登幽州台歌》、张若虚的《春江花月夜》这些名篇,没有入围唐诗十大名篇?《登幽州台歌》甚至排名在百名之外。数据告诉我们,这两首作品在明清以前,压根就没有什么名气,直到现当代才受人关注。近代著名学者王闿运称扬张若虚的《春江花月夜》是“孤篇横绝,竟为大家”,现代著名诗人、学者闻一多又极力称颂它是“诗中的诗,顶峰上的顶峰”,于是,《春江花月夜》就名声大振,凡是唐诗选本,无不入选。我们的唐诗宋词排行榜,涵盖的是历代数据,不是一个时代的数据,反映的是每首作品在历代的综合影响力而不是一个时代的影响力。

数据还可以发现个体作家创作历程的变化,例如,李白创作高潮在何时?杜甫的创作高峰在哪个时段?李白和杜甫是唐诗顶峰上的顶峰,但不是一步登上顶峰,而是逐步登上顶峰的。数据可以显示李杜创作历程和影响力的变化过程,但现在还没有人做过统计分析。

笔者统计了苏轼创作历程的变化。他的词创作,可分为五个阶段:第一阶段,治平元年至熙宁七年(1064-1074)任凤翔签判至杭州通判时期,作词57首;第二阶段,熙宁八年至元丰二年(1075-1079)知密州、徐州、湖州时期,写有52首词;第三阶段,元丰三年至七年(1080-1084)谪居黄州时期,作词97首;第四阶段,元丰八年至绍圣元年(1085-1094)回朝任翰林及出守杭州、颍州、定州时期,作词62首;第五阶段,绍圣二年至元符三年(1095-1100)谪居惠州、儋州时期,共写词24首。这是依据邹同庆、王宗堂先生《苏轼词编年校注》编年的统计。苏轼可编年词共292首,而谪居黄州五年,就创作了97首。由此可以发现,苏词的创作高峰是在谪居黄州期间。居黄五年的词作,占了他一生词作总量的三分之一。他的十首经典名作,也一半写在黄州。这五首名篇是:《念奴娇》(大江东去)、《水龙吟》(似花还似非花)、《卜算子》(缺月挂疏桐)、《洞仙歌》(冰肌玉骨)、《定风波》(莫听穿林打叶声)。黄州,是苏轼政治上的低谷时期,却创造了词作的辉煌。其中原因,今年5月14日笔者在《光明日报》国学版发表的短文《苏轼:问汝平生功业,黄州惠州儋州》,做过简略的分析,以后还会展开讨论。

其二,数据可以改变甚至颠覆传统的认知。例如,陈振祥先生的《中国文化地理》提出的中国文化中心三次南移论被广泛接受。陈先生认为,中国文化中心,原来是在黄河流域的中原。三次大战乱,即永嘉之乱、安史之乱、靖康之乱,导致文化中心南移。到靖康之乱,文化中心彻底南移到南方。笔者的数据却表明,文学中心的南移,其实在晚唐的时候就基本完成,到北宋初,已彻底南移。且看表8数据:

表8 北宋时期南北方作家分布表

宋初,南方作者共有280人,而北方只有181人。到北宋庆历年间,也就是范仲淹、欧阳修生活的时代,南方作者多达623人,北方只有203人。元祐时期,也就是苏轼、黄庭坚生活的时代,南方作者达到976人,而北方仍维持在200多人的水平。数据表明,北宋的文学中心完全移到了南方,此后北方就再也没有超越南方。至于文学中心南移的原因,不仅仅跟战争因素有关,还跟别的因素有关。比如,安史之乱后,唐代北方的诗人还在增长,而南方诗人数量降低,到了晚唐,南方诗人才超过北方,表明战争造成的文化中心流动,至少有滞后效应。或者说,造成唐代文化中心南移的战争,不仅是安史之乱,晚唐的内战也造成了巨大的社会流动和文化中心的转移。

我们从数据中还发现,文化中心向南移的“南”,并不是广义的南方,即长江以南,而是东南。宋代东南沿海地区的作家最多,且看下面的统计表:

表9 宋代作家、进士地市排名对比表

这个表格,大大出乎我们的意料。宋代州级作家的数量,居然是福建南平最多,夺得第一名,同属福建的福州获得第二名。南平市的知名度在当下好像不是很高,著名词人柳永的家乡崇安(现今名武夷山市)就属南平,南宋的首任宰相李纲也是南平邵武人。宋代作家人数最多的十大州府中,福建占三席:南平、福州、莆田;浙江占四地:杭州、温州、宁波、金华;江西有三州:抚州、吉安、上饶。宋代的文学中心,是在江浙、福建的东南沿海。宋代福建文学的盛况很值得研究,这是以前我们没有注意的。

对比一下宋代进士排行榜,福建南平、福州的作家人数最多就不难理解了。宋代的进士人数,福州第一,近4000人;南平的进士名列第二,有2000多人。这两个地方教育文化高度发达,所以文学昌盛,作家人数特别多。文学的兴盛与教育文化的发达是分不开的。宋代南平地区,印刷业高度发达,名扬天下的“建本”就出产在南平。所以,南平夺得宋代作家数量的冠军,虽然出乎我们的意料,却在情理之中,只是我们以前不知道而已。

此外,我们过去了解的文学版图都是静态的,是按作家籍贯来考察地域分布的,且看图1。唐代有籍贯可考的诗人1669人,其中河南、陕西、河北三省人数最多,共占42%。如果加上江苏、浙江、山西三省,七省就占总人数的70%。七省的诗人数量,占了唐代全部诗人总量的七成。可见唐代诗人地理分布的失衡。

图1 唐代著名诗人籍贯分布图

这幅图,是学术、技术、美术的有机融合,是笔者请武汉大学测绘学院的绘图高级工程师乔俊军先生绘制的。为绘此图,他潜心研究,写了两篇论文来探讨。未来的文学研究,不仅要数据化,还要可视化。由这幅画,可以看出可视化的优越性、直观性。地图中的热力图,与饼形图、柱形图有机融合,还加上具体数据与百分比,既有学术性,又有观赏性。

文化发达的地方,占籍诗人就多;偏远落后之地,占籍诗人很少。但许多诗人,因贬谪或因逃避战乱,而流寓到原本诗人很少的地方,从而改写、扩大了诗歌的静态版图。以前没有大数据,我们无法了解诗人都往哪些地方流动,无法看到诗坛地理分布的动态变化。如今的大数据,则展示出不同的诗坛景观。

从图2可以看出,唐代都城西安、洛阳和经济文化发达的苏州,诗人活动密集,创作的诗也很多。但奉节、常德、三台、永州、宜春等,原本都是偏远之地,本地占籍诗人为零,而产生于此地诗歌量却为数不少,这得益于诗人的社会流动将诗歌带进了这些偏远之地、落后之邦。重庆奉节(即夔州),是因为杜甫流寓此地而留下大量名篇佳作,后来刘禹锡任夔州刺史,又写了大量诗篇。湖南常德,因为刘禹锡谪居其地、王昌龄路过其境,带来浓郁的诗风。湖南永州,因柳宗元贬谪到此而改写了原本贫瘠的诗坛。江西宜春,是韩愈和李德裕先后带去诗歌创作的种子并开花结果。大数据清晰显示了诗人的流动怎样改变着原本分布失衡的诗歌版图。

图2 唐代部分县市的诗人活动与创作统计

其三,数据也可以验证传统的结论。比如,传统观点都认为唐诗的高峰在盛唐,宋词的高峰在元祐。著名诗人余光中先生有诗说:“李白绣口一吐,就是半个盛唐。”意思是李白一人就占了半个盛唐。这从大数据中可以得到验证、确证。唐诗百首名篇,盛唐占59首;唐诗十大名篇,盛唐占8首(已见前表);唐诗十大名家,盛唐占7家:李白、杜甫、王维、孟浩然、高适,岑参、王昌龄;唐诗第一名篇,也在盛唐。

宋词的高峰在元祐,也得到数据的充分验证。宋词百首名篇,元祐时期占37首,名列宋词六个阶段的首位。宋词十大名家,元祐时期占4家:苏轼、晏几道、秦观、周邦彦。宋词第一名篇,苏轼《念奴娇·赤壁怀古》也产生在元祐时期。

王国维曾在《清真先生遗事》中说:“词中老杜,非先生(周邦彦)不可。”以前人们都觉得这是一己之见,难称公允之论。而数据显示,宋词三百首名篇,周邦彦独占40首,位居第一;宋词一百首名篇,周邦彦占15首,也是第一名,超过苏(11首)、辛(12首)。就名篇占有率而言,宋代词人中只有周邦彦可比杜甫。杜甫的唐诗名篇占有率雄居第一。像杜甫是学诗的最高典范一样,周邦彦也曾被推举宋学词的最高典范。周济《宋四家词选》就说:“问途碧山,历梦窗、稼轩,以还清真之浑化。”数据印证了王国维和周济的眼力。

三、结语

数据的意义,远不止发现新问题、纠正旧观点、验证老结论这三点。当然,数据也不是万能的,有些问题数据也无法解决和说明。所以,定量分析方法必须与定性分析方法相结合。定性分析和定量分析各有优势和短板,定性分析方法代替不了定量分析方法,定量分析也不能替代定性分析方法。所以,定量分析与定性分析的结合,才是未来人文社会科学发展的必然趋势。

猜你喜欢

名篇影响力作家
作家的画
作家谈写作
作家现在时·智啊威
重点:名句名篇默写
“囫囵吞枣”讲名篇
天才影响力
名篇中的文品与人品
黄艳:最深远的影响力
为《小评论》连载的《尤利西斯》辩护:析伍尔夫名篇《现代小说》的创作背景和传播路径
3.15消协三十年十大影响力事件