机器人中文新闻易读性的实证研究

2020-12-07李静姝

传媒 2020年20期

李静姝

摘要：目前的中文新闻易读性研究与应用，往往是偏质化的、单面向“写”一方的，鲜有的量化研究使用的理论也有过时之嫌，缺乏受众因素相关的研究。本文沿着中文词（词组）与句子构造同一性的特质，在文本结构层面研究分级词与易读性的映照关系，提出了中文新闻的文本假设、分级词频、易读性曲线和易读性指数等概念，并实证性地建立起了中文新闻易读性测量的灰色系统理论模型，实证结果表明，中文新闻易读性应充分关联汉语特质和中文新闻文本特点，从认识其灰性本质“切入”，利用分级词频“白化”出易读性。

关键词：机器人中文新闻易读性实证研究

2015年9月10日，腾讯财经推出第一篇机器人中文新闻，在新闻史上因“首发效应”镌刻上了人工智能中文新闻的历史“原点”。随后新华社、今日头条、《光明日报》等媒体紧随其后推出其机器人新闻产品，借助传统媒体和新媒体的“双平台发力”，机器人中文新闻影响日现。这一新闻采访与写作的现象级光芒投射进媒介的天空，从而折射出新闻传播领域宝贵的创新意识。但距2006年美國汤姆森公司用机器人记者撰写新闻，我们晚了近十年。综合目前机器人中文新闻的发展现状，多数以事实信息生成为主，且模板化较为明显，难以跳出算法的“窠臼”。就技术实际应用而言，还处于噱头大于实用的初级阶段。从2015年9月第一篇机器人新闻至今，尚未度过落地期从而有进一步的发展。笔者认为，从新闻传播的视角，探寻并解决某一“落地”问题，可促其日臻完善。

机器人报道的质量评价有多个维度，与可信度评价相比，机器人生成报道的可读性对读者的选择性阅读影响可能更大，未来应当进一步研究可读性等报道质量方面的因素对读者选择性阅读的影响。新闻易读性的测量一直是新闻学的重要研究内容，易读性又称“可读性”，指文本易于阅读和理解的程度或性质。笔者针对新闻易读性测量中训练样本集的文本特征、模拟受众、易读性“得分”及测量方法等问题，提出中文新闻易读性基于《新汉语水平考试（HSK）词汇表（2015年修订版）》的灰性本质及易读性曲线的概念，继而通过GM（1，1）建模测量中文新闻文本的易读性指数，并以腾讯机器人—Dreamwriter撰写的新闻文本为例，进行实证研究。

一、中文新闻易读性新测量模型的建立

通过黄敏的研究可以了解到，早在20世纪70年代，陈世敏和杨孝溁作为中文新闻易读性研究的开拓者分别提出“易读性分数”和“读物难易程度”的易读性公式，黄敏还结合既有的研究探讨了汉语特质与中文新闻易读性的关系。而2015年以来，中文新闻易读性的相关研究并不多见，杨纯莉2018年的硕士论文基本反映了该领域的研究现状。由于已有的易读性评价思想往往是根据文本库各个文本特征与其阅读测试的对应关系建立回归方程，然后对待评价文本或者说测试文本的文本特征进行“代入计算”。这类方法对于新闻的易读性测量，既拘囿于文本库，又极易受到模拟受众诸如阅读动机、文化程度等的严重影响。因此，实践中所获得的易读性公式千差万别，文本特征的“物理意义”也难以合理解释和理解，中文新闻易读性新的测量模型有待建立。

1.中文新闻易读性的文本特征。大众传播的定义要求它尽可能接触最大数量的受众，因此，它须尽量采用人们容易理解的书写形式或表达方式。在西方，莱弗利和普雷西在1923年设计了第一个易读性公式，提出词汇的难度是决定文字资料难易程度的关键因素的假设。此后的易读性研究无一例外地把词、句作为易读性研究的“主角”。逻辑学和语言学的知识告诉我们，文本词汇的难度是易读性的必要条件。已有的研究表明：在影响文本易读性的字、词、句、段、篇等不同层面因素中，词汇因素无疑是最为重要的。朱德熙先生在《语法答问》中归纳的汉语语法特点：一是汉语词类跟句法成分之间不存在简单的一一对应关系；二是汉语句子的构造原则跟词组的构造原则基本上是一致的。

鉴于以上分析，中文新闻易读性的测量可以基于词汇表，就像是易读性的原本概念——英语的标准频率表一样。根据中文新闻的特点，笔者参考赵宁宁等的研究拟定文本指标为：文本字数（fw）；成词率（fb）；分级词频（fHSKx，x=1，2，…，6）；难词频（fdif）；平均句长Asl共计10个指标。

2.易读性曲线与易读性指数。通过既往的中文新闻的易读性的研究分析，可看出：第一，汉语水平基于新HSK词汇表的分级与新闻文本易读性间存在一定的“映照”关系；第二，fHSK1-6、 fdif呈递减趋势，其逆序则为F：{ fdif、fHSK6、…fHSK2、fHSK1}呈递增趋势；第三，对F序列进行累积得到新序列R，化趋势为规律。鉴于此，实际上中文新闻易读性外延明确，与受众汉语水平成正相关，而内涵不明确——易读性与R序列的关系，这正是20世纪90年代我国学者邓聚龙先生创立的灰色系统理论所描述的灰色系统或简称灰系统。笔者对R序列进行灰色建模—— GM（1，1），以着重系统行为数据间、内在关系间挖掘量化的方法，是外延内涵均取的方法。

根据以上分析，可以建立一个中文新闻文本易读性模型，是个相对性概念。两个文本的易读性可由其F序列的递增趋势相关联，假设高级别词频小、低级别词频大，则易读性就强，反之易读性就差。为了把F序列的趋势转化成正增长序列R，且两者的映照关系为cumsum（F）→ R。如果将R对F序列的变化过程（k = 1，2，…，7）作图，这条曲线本文称之为中文新闻文本易读性曲线，且变化梯度愈大易读性愈强（如图1）。

在GM（1，1）中，发展系数a反映了易读性曲线的态势，根据中文新闻写作的规范，-a值的物理意义明确，若以A表示-a，A值愈大易读性愈强，A称为易读性指数，这就是中文新闻文本易读性的测量模型的简要表达。

3.新词的构建及分级入库。依照孔子学院总部编写的HSK考试大纲（1～6级），新HSK词汇表共有六个等级，分别含词汇150、152、300、600、1298和2500个。但随着社会发展进步，需要新词汇来反映新的事物、新的现象。朱立迎和刘宗保分别就现代汉语新词语构词法、造词研究和述评进行了研究。本文参照这些“造词”、探源和析构等“造”的方法，简约开辟新闻稿中的所谓新词分级方法。以新HSK词汇表的一至六级为基础，步骤如下：一是将待分级词汇进行“解构”。如精准扶贫，分词为：精准扶贫、精准、扶贫、精、准、扶、贫；二是遍历词汇表对分词进行“匹配”。结果（括号内为词汇级别）：精（4）、准（2）、扶（5）、贫（6）；三是从难规则构词入库。可得：精准扶贫（6），即为六级。

二、研究实例

采集2019年1月的机器人Dreamwriter撰写的新闻44篇，外加2015年9月10日第1篇Dreamwriter新闻，共45篇。其中NBA2018—2019赛季15篇、足球新闻10篇、财经新闻20篇。

1.文本集概述。将这45篇机器人新闻作为一个文本集。文本字数均值和标准差分别为1146.8字、973.7字，文本字数相差较大。字数较多的为3篇足球的综述文章，字数较少的为个股新闻。如此看来，机器人新闻能驾驭长篇体育报道。从平均句长在24.6字～81.3字、均值和标准差分别为35.5字、9.8字看，句子长短跨度较大，其中4篇平均句长超过50字的，都为股市新闻，且每篇字数也都超过1000字，股市新闻信息罗列现象明显。

2.模型检验与比较。基于新HSK词汇表的中文新闻易读性测量模型为：dR（1）/dt + aR（1） = u，其中R（1）为原始R序列的一次累加序列，R（1）为R（1）的均值化。这样每个文本就对应一个微分方程，其精度检验采取后验差检验。

3.建模与分析。对45篇Dreamwriter新闻逐一建模、精度检验，结果精度无一例外的是“好”的。通过以上模型比较，本文给中文新闻易读性指数A定一个参考值：以0.28～0.30为“中等”、0.30～0.35为“较易”、大于0.40为“易”。

从各级词频均值来看，一～六级词频到难词频存在下降趋势，且趋势明显。一～五级累积词频占到97%，这说明与传统的记者稿的易读性大抵相当。我国著名编辑家刘光裕在研究中曾指出：“汉字集巨大，但常用字并不多……能识2000汉字便能读懂文章的97.4%。”这也侧面支持了以上观点。

笔者拟定10个文本特征的最后3个最大相关量都在前7个当中，即明朗了可以用一至六级词频和难词频7个指标表征文本的易读性。45个文本计算A值的模型精度均为“好”。在表1中，易读性“较易”以上的占到80%，由此可得这些新闻易读性较高，但差距不小。NBA新闻的易读性都在“较易”以上，且相对稳定，表明这方面的报道相对成熟。3篇综述文章的文本字数/易读性指数分别是：法甲4980/0.3253、西甲5316/0.2974和英超2170/0.3157，从易读性的角度足见其驾驭文字的能力。至于财经新闻，“开山之作”易读性指数接近0.4，可能是因为它是一篇宏观经济新闻。而易读性指数较低的是对股市分析的报道，而非个股新闻。新闻学的知识告诉我们，笔者提出的模型既客观地评价了不同内容对易读性的影响，又反映出了Dreamwriter新闻易读性的“档次”。

三、结语

最后，从易读性的视角，就中文机器人新闻的守正创新提出几点建议。

1.正确认识政策环境，强化传媒产业基础。近年来，国家出台了一系列推动人工智能和“互联网+”的政策措施，必将对智媒体乃至传媒产业生态环境的优化建设，提供坚实的政治、体制机制和法律保障。基于“媒体商业化—人工智能—大数据技术”的链接，建立自我强化的媒体生态系统，形成多元化、可持续的商业模式和盈利模式，实现信息与用户需求的智能匹配的媒体形态。这需要机器人新闻继续在传统媒体和新媒体“双平台发力”的同时，深化传媒业改革，激发创新驱动的活力，促进机器人新闻的升级换代。

2.加强中文机器人新闻的系统集成。机器新闻写作遵循“抓取—分析—套用模板—成稿—人工把关”，故需要创建“资深新闻记者+中文文本处理专家+汉语言传播专家”集成模式，把工程和人文有机地结合起来，讲深入浅出的“行话”。隔行如隔山，学无止境；隔行不隔理，触类旁通。因此，选择机器人中文新闻某个方面，坚持问题导向，通过理念、手段和基础工作创新，来加快其日臻完善。“算法、模版是机器新闻写作永远跳不出的‘窠臼”，前文所言机器人财经新闻存在句子过长致使易读性下降的问题，这有悖于莱弗利和普雷西“可能使用简短的字和句”的忠告，不能不说是“模板”的问题。同样是财经新闻的个股新闻，在文字前附有一幅图片，可视化增加了文本易读性，相反相成，这又不失为“模板”好的一面。因此，各有关专家应取长补短、补齐短板，沿着智媒发展之路分段领跑，汲取机器人新闻的源头活水。

3.强化技术手段创新。单就机器人新闻文本字面的易读性而言：一方面，算法中耦合进易读性评价模块；另一方面，要机器深度学习那些易读性高的新闻文本，换句话说就是要在构建新闻文本库时把易读性作为优选的重要指标之一。而就机器人新闻的大数据性质而言，可利用其易于可视化、可预测、能发现关联关系的优势，来增加易读性、可信度和兴趣度。

4.进一步扩展应用范围。机器人新闻应当大力推广到媒体融合、各种（国内）联赛等，生产用户偏好的新闻内容和新闻风格，提供与用户的个人生活场景相匹配的私人订制产品。鉴于易读性是语言分级读物编写在语料分级加工阶段首要考虑的第一原则，本文所建立的模型是基于国家标准的“必要条件方法”，将对中小学标准化教材和对外汉语教学不无裨益。

5.更加深化“人机协同”。对于中文机器人新闻来说，只有关联起“内容—技术—管理”，才能切实提高報道质量。尽管机器人新闻的议程设置让渡于算法和模板，大多数情况下，人工审核不但不能省，还要加强并对易读性予以重视。试想，搭建一个平台，在此人、机两种记者研讨易读性的话题，机器人新闻质量的提高便走出了先手棋。

作者系华东师范大学传播学院博士研究生

本文系国家社科基金重大项目“加快推进传统媒体和新兴媒体融合发展研究”（项目编号：14ZDA049）的研究成果。

参考文献

[1]喻国明，刘瑞一，武丛伟.新闻人的价值位移与人机协同的未来趋势——试论机器新闻写作对于新闻生产模式的再造效应[J].新闻知识，2017（02）.

[2]唐绪军，等.中国新媒体发展报告No.9（2018）[M].北京：社会科学文献出版社，2018.

[3]陈阿林，张素.中文阅读难度模型及易读性公式探索[J].计算机科学， 1999（26）.

[4]黄敏.汉语特质与中文新闻易读性公式研究[J].新闻传播与研究，2010（04）.

[5]邓建国.机器人新闻：原理、风险和影响[J].新闻记者，2016（09）.

[6]赵宁宁，韩晓媛.阅读测试中的文本易读性研究[J].考试研究，2017（04）.