APP下载

“从此,我们多了个天眼般的阅读者”

2019-12-19

南方周末 2019-12-19
关键词:南方周末曲线软件

“计算机不理解任何人类语言,但是它有两个好处,第一很快,第二很稳定。你让我看两千万字的小说,我看到后面就完全忘记前面。”

“用数

字史学的方式去研究历史,人的价值或者个性怎么办?”

南方周末记者 曹颖

南方周末实习生 杜嘉禧

发自上海、广州

战玉冰用12.5小时“读”完了749部中国网络小说,总字数七亿两千九百多万字。即便按一天一部的速度阅读,普通人要用两年多时间才能读完。战玉冰只用了半天时间,因为他借助了一款大数据软件。

软件是上海作家走走开发的。2017年,走走辞去《收获》杂志社的编辑职务,与郑翔宇联合创业,新业务主要是为影视公司评估文学作品。当时,影视公司热衷于购买网络文学的作品版权。这些作品动辄几百万字,走走读完一部就需要一周。这也是行业内普遍的烦恼。走走畅想,如果有一个工具,能帮大家迅速看完小说,告诉大家情节是什么就好了。大数据软件的雏形诞生了。

软件研发不久,影视行业遭遇寒冬,走走和郑翔宇的公司业务短缺,面临转型。2019年,《收获》杂志复刊四十周年,杂志社得知走走的软件,想用这款软件做一个报告,分析过去四十年《收获》刊载小说的风格变化。走走的软件从此迈向人文学科。

报告由复旦大学博士生战玉冰撰写。战玉冰的专业是中国现当代文学,学者们研究时也会用到统计,比如鲁迅《狂人日记》里写到了多少次“狂人”、多少次“吃人”。“通过统计数据来树立小说的主题,这样的研究很多。”战玉冰的博士论文需统计民国时期侦探小说发表情况,他用了半年时间,才统计完这项庞大的数据。《收获》四十年刊载的小说也是庞大的数据,借助软件,战玉冰只用两周就拿到了想要的数据。

数字文学只是“数字人文”的众多分支之一,其他分支包括数字史学、数字哲学、数字艺术等等。据南京大学艺术学院副教授陈静研究,中国学界2009年才开始广泛关注数字人文。这一年,武汉大学王晓光教授发表科普文章《“数字人文”的产生、发展与前沿》,在“科学网”上获得上万在线点击。2011年,中国首家数字人文研究中心落户武汉大学。

“数字人文不仅是量化的方式或者统计的方式,也可以用文本挖掘,用社会网络信息,或者用可视化的方式呈现你的论文结果。”南京大学历史系教授王涛告诉南方周末记者,他2014年就接触到“数字史学”,但在他的世界史研究方向,至今仍然很少有人应用数字方法做研究。

和尿布一起购买

最多的商品是啤酒

根据大数据统计,在《收获》复刊四十年来刊载的小说中,第一个十年最突出的高频词是“我要”。战玉冰分析,“我要”意味着经历“文革”十年压抑之后,个人主体意识的觉醒和自我表达欲望的急剧提升,这也与当时以控诉“文革”为主题的“伤痕文学”和书写自我经历的“知青文学”的流行相互契合。从第二个十年开始,高频词变成了“我们”“他们”“自己”。文学创作逐渐恢复到了对日常生活的关注、描摹和书写当中。

后来,战玉冰又用软件分析了48部茅盾文学奖获奖作品,排名第一的高频词是“心里”。这个结果符合战玉冰对“严肃文学”的想象和认知,但他找不到二者之间必然的因果关系。“能感觉到,但是我就是说不清楚,最后论文其实也没有说清楚。”战玉冰告诉南方周末记者,当时他认为学术研究就应该注重因果关系,因此感到痛苦。

为此,战玉冰看了很多数字研究的书。他读到沃尔玛超市抓取交易数据,发现和尿布一起购买最多的商品是啤酒。超市没有追问为什么,只是根据这个结果,把啤酒跟尿布摆在一起。战玉冰豁然开朗:“相关性本身是有价值的,不一定非要把它变成因果。”

王涛曾用软件统计德国史研究,数据显示,学者们最关心的问题是犹太人问题,最关注的时期是二战时期。这一现象和王涛自己的经验一致,他在文中写道:“此前,我们只能凭印象认识到德国史研究的流行度,现在借助大数据的定量分析,证实了我们的印象。这应该是数字人文最令人着迷的地方。”

高频词似乎成为研究者重点关注的对象,王涛反思:“我们把更多注意力投注在大样本的数据,丢弃了低频率的内容。对于历史研究而言,这些被忽视的内容可能同样具有价值。”

2019年,李洱小说《应物兄》摘得茅盾文学奖。战玉冰通过软件分析意外地发现,“心里”并非这部小说的高频词,但其余四十七部获奖作品中,“心里”均是高频词。《应物兄》似乎不符合数据呈现的“严肃文学”的特征。

这个特例同样有研究价值。战玉冰发现,李洱在小说里用了一种近乎冰冷的客观叙事态度来取代主观抒情和心理描写,李洱常常使用“他问自己”“他听见自己说”一类的表达方式,把人物的心理活动,变成一种主客体之间的对话。

上述分析与李洱的解读不谋而合,“熟悉我的人都知道,我是很强调小说的对话性的。小说现代性的最重要的标志就是对话性,它包含着作者和读者对话,作者和作品中人物的对话,作品中人物之间的对话,以及读者和作品中人物的对话”,2019年12月13日,李洱在南方周末举办的N—TALK“文学之夜”现场表示,文学的使命就是表达差异,“所有的对话都伴随着争议、质疑,而争议和质疑会打开小说的空间”。

《长安十二时辰》的

故事形状是

“倒N型”

2019年,《思南文学选刊》揭晓了国内首个AI文学榜单,评委是大数据软件“一叶故事荟”(时称“谷臻小简”),二十种文学杂志提供了771部短篇小说供其评选。

2019年1月21日前,莫言的《等待摩西》始终最受“一叶故事荟”青睐,但1月21日新作品送到,它“变心”了。最终陈楸帆的《出神状态》成为“一叶故事荟”评选出的年度最爱短篇小说。

“一叶故事荟”通过数据分析评判文学作品,包括判断情节曲线、人物情绪纠结度等。在它的评判下,《出神状态》的系数为0.998941,略高于《等待摩西》的系数0.998931。但开发这个软件的走走说:“计算机跟人一样,没法评判语言的好坏,你没法说阎连科的反讽质量低于余华的零度叙事。”

情节曲线也应用于人文学科研究,通过分析文本,软件描画出冲突曲线模型,即用一条简单的线条描绘一个故事的“形状”,其中包含情绪情感、结构意义、节奏节拍等几个维度的特征。走走向南方周末记者展示了六个模型:W型、N型、V型、M型、倒N型、倒V型,前三种是积极型结局,后三种是消极型结局。“当故事情节为积极向上或者冲突较为激烈时曲线呈现上升趋势;当故事情节为消极向下时曲线呈现下降趋势。当故事情节出现情况好转或悲剧来袭时,曲线则呈现出拐点,曲线拐点越多即表明故事中大的情节、转折越多。”这六种模型是“一叶故事荟”分析了国内近二十年间改编成影视的724部文学作品所得。

《长安十二时辰》的故事形状是倒N型,《霸王别姬》的故事形状是M型,“以《白鹿原》的故事形状(W型)为例,情节较积极,但在故事走到约三分之一的时候,氛围走入全文最低谷,虽然最后有所回升,但整体基调以悲凉为主。”走走指着电脑上的模型解释。

走走与王涛在历史研究领域合作,尝试描绘口述史的故事形状。“口述史本身,某种意义上就是一个故事,就是一个人的故事,我们可以从文学文本这个角度来理解口述史这个材料。”

《被改变的人生——南京大屠杀幸存者口述生活史》一书记录了49位幸存者的回忆,软件测绘出他们的情绪变化图谱,初步结果显示大部分口述者遵循着“甜-苦-甜”的V型情感模式,但走走对南方周末记者说:“应该更注意那些相反情绪,呈倒V型的叙述者,他们的人生可能过得并不好。”

冲突曲线模型的灵感来自美国作家冯内古特。“他曾提出一个问题,我能不能用一条线画出一个故事来,从开始到结束有一根线。”技术负责人郑翔宇受此启发,把故事里的事件、节奏、情节变化转换成程序语言,让计算机处理。“计算机不理解任何人类语言,但是它有两个好处,第一很快,第二很稳定。你让我看两千万字的小说,我看到后面就完全忘记前面。”

战玉冰用冲突曲线模型分析了茅盾文学奖获奖作品,数据呈现的结果是,第一至四届及第六届的“明快-沉郁”作品数据比例普遍在0以上,其他五届的数据则基本保持在0以下,历届获奖作品似乎呈现逐渐偏向沉郁的特征。他分析,这与小说主题从宏大历史叙事向日常生活叙事转变相一致。

这些曲线也意外地勾勒出作者的写作风格,走走向南方周末记者展示莫言《蛙》和余华《现实一种》两部作品的故事曲线。莫言在描写王仁美死亡事件时,“一尸两命”情节的故事曲线情绪值接近0,余华在写山岗被处以死刑时,数据分析出的曲线情绪值也一样。“可能那些著名作家,尤其像余华、莫言这种,他写死亡这种事情,反而不是大悲大喜的,反而特别冷静。”走走表示“零度叙事”虽不是新鲜话题,但数据分析或许能发挥辅助作用。

海子自杀前的

文字情绪

比过去都低

接受采访时,战玉冰已经使用数据分析完成四篇论文报告。写到第三篇时,他心头曾有过一丝负担:这三篇文章的核心思路都是使用大数据来分析某一批中国当代小说,方法论上的相近性可能会造成论述观点与行文结构的重复。

战玉冰使用大数据分析发现,国内被影视改编的文学作品,故事曲线比较普遍的是“W”形和“N”形。战玉冰在论述时强调:“这一数据分析和研究的意义并非是要为作家提供写作上的指导,或者告诉作家如何去迎合市场、如何才能更好地卖出自己小说的影视版权。”

美国“相对论传媒”电影部门创始人瑞恩·卡瓦诺崇尚数据,利用数据预测电影票房表现再决定是否投资。他的名言是“即使我同意拍了,模型不同意也不行”。他曾与索尼联合出品了电影《百货战警》,票房大约是投资的十倍。后来,电影《点球成金》找到卡瓦诺投资,他经过数据分析后认为这部电影不会赚钱。然而《点球成金》全球票房突破1亿美元,并获2012年奥斯卡金像奖最佳影片提名。卡瓦诺的电影部门最终在2015年宣布破产。

老师曾提醒战玉冰,学术研究还是要回归传统方法,“数据相对浅表化,通过理论达成的研究对思维的锻炼更深刻。”如今,战玉冰的主要精力用在三个传统研究方向上,新增的数字人文方向,被他排在第四位。曾有一句话让战玉冰深有感触,他依稀记得其大意:“数据是不可能取代人类的,也不要通过人类排斥数据。只是从此以后,我们多了一个更加全面的、天眼一般的阅读者。”

杭州师范大学心理科学研究院副研究员胡超和走走合作,研究写作对心理治疗的帮助,借用软件来分析文本中的情绪表达。“以往很多心理学研究重形式、轻内容,而文字是人类心理内容最重要的载体。一个现实因素是人工文本分析成本极高,这在快节奏发论文、申请基金的压力下尤其突出。文本自动化分析技术可能是突破瓶颈的测量技术。”胡超告诉南方周末记者。

胡超目前发现,海子等自杀的诗人在其自杀前的作品文字情绪比过去都低,且更多采用第一人称视角的“我”进行叙述。但对于已有的数据分析结果,他也存疑:“专业作家和普通人群的表达方式可能不同,有正话反说的现象,文字所表达的情绪可能不代表他本人的真实情绪。”

“现在技术就是需要越高层次、越抽象的理解力的时候,机器和人差得越远。”郑翔宇表示机器目前尚不能完全理解需要生命体验的事情,如诗歌。“你去核查一篇文章的语法是不是正确,这件事机器已经超过人。诗歌需要一种经验,需要一种很抽象的理解力,同时需要人作为人的经验去理解。”

“用数字史学的方式去研究历史,人的价值或者个性怎么办?”这是王涛常常听到的质疑,对此他并不担忧,“虽然数据库是一样的,算法是一样的,甚至题库都是一样的,但是你给不同的人看,他基于他的见识,基于他的知识储备,他对结果的认知可能是不一样的。”

猜你喜欢

南方周末曲线软件
一份来自南方周末的特别邀请
更多评论,请见南方周末APP
更多评论,请见南方周末APP
更多评论,请见南方周末APP
有趣的识花软件
梦寐以求的S曲线
即时通讯软件WhatsApp
曲线的华丽赞美诗
丰富多彩的Android软件
招魔法练出“腿曲线”