智媒时代的新闻内容核校实践与前瞻

2020-07-08王熠成鹏刘颖旭

中国记者 2020年6期

□ 王熠成鹏刘颖旭

内容提要媒体智能化发展使得新闻内容核校和核查迎来了新的挑战和机遇，本文通过分析内容检校技术发展，结合新华社研发“较真”智能检校工具的五大工作实践，探索在人工智能、区块链、大数据发展趋势之下，新闻内容核校的新模式。

人工智能时代来临，智能语言处理、视觉识别等技术驱动促进媒体的智能化发展。媒体多元化内容和跨媒体信息给新闻的质量核校和内容核查带来了新的挑战和机遇。

新华社技术局积极探索新技术应用，将人工智能深度融合在全媒体采编发的内容核校环节，实现了新华社稿件核校工作从“人工”向“人工智能+”的阶段性跨越。基于对新华社百万级优质稿件进行算法学习，结合业务部门积累总结的权威语料库，打造出“较真”智能检校服务。本文结合“较真”的开发与实践，介绍实现对新闻内容质量和网络新闻的真实性进行把控，建立更适配“主流媒体”的内容核校机制的体会与认识。

一、媒体新闻内容核校现状

新媒体的新闻借助数字技术、网络技术，通过多类型移动终端传递信息，具有即时性、强扩散性、强互动性等特点。信息传播速度的提升，促使信息生产加速，事先审查的内容激增、时间缩短、难度加大。高扩散和互动的特性使得信息传播具有不可预测性，而另一方面，自媒体蓬勃发展，使得大量UGC（用户产生内容）出现，匿名性、碎片化、娱乐性内容缺乏合理规范约束，使得新闻内容核查技术亟需升级。

借助人工智能技术，国内外机构已经形成了新的核查力量和核校机制。

1.通过人工智能拓展事实发现的渠道和维度。例如，路透社的“路透新闻追踪器”能够实时监控推特上的话题，从业者可在此基础上依据该软件算法设置的40项评分指标判断是否继续进行人工调查。

2.利用人工智能助力事实核查和版权检验。例如，杜克大学记者实验室部署使用的ClaimBuster软件能够基于自然语言处理和机器学习技术，区分文本中陈述性的事实和值得核查的观点性内容。该软件使用来自直播活动的音频或视频并将其转换为文本，用过滤器识别其中有关事实的语句，然后将这些语句与数据库进行匹配。

3.使用人工智能改变传媒内容纠错的方式。例如，Grammarly为媒体撰稿人提供英语的语法纠错，标点修改，词句润色，句子结构优化等功能。以色列Ginger产品可根据每句话的上下文在MS-Word、Outlook、PowerPoint、IE和Firefox中纠正拼写和语法错误。

二、新华社媒体智能化内容核校实践

随着互联网时代的到来，新媒体信息传播迅捷，新华社发稿需求呈现出“新媒体时代无改稿”的特点，对重要稿件准确及时播发提出更高的要求，新闻内容核校工作面临更大的挑战。技术局突破多项技术难点，立足新闻稿件采写需求，打造出具有高准确率、强政治内核的“较真”智能检校服务。

1.以新闻场景为导向。“较真”是一款有新闻通讯社特点、具备政治属性的智能内容检校服务，不断推出面向多个媒体场景的检校能力。针对两会新闻报道，更新两会报道规范用语规则，对类似“社会主义核心价值观”简称规范，“大众创业、万众创新”的误用均进行了语料更新。针对“新中国成立70周年”的18种不规范表达，在国庆报道前增加检校范围，对类似情况查漏补缺。针对历史稿件中曾出现的问题，建立逻辑排序、电头检查、敏感词、人名不一致性检查算法，将经验成果不断积累。比如将台湾与新加坡不可以并列在一起，“全国人大常委会副委员长”不应该错为“全国人大副委员长”等问题。

2.以主流规则为约束。新华社是国家通讯社，政治性差错虽然少见，但是影响面广、后果严重。单纯依靠机器学习解决不了政治属性问题，所以我们增加了大量人工设定的规则作为系统的“定盘星”，将价值取向主观因素转换为可量化、可衡量的规则逻辑，把权威的数据变成知识库，并且通过人机协同的方式不断更新，从政治固定搭配、习惯语、逻辑规则多方实现对算法的驾驭。

3.以优质稿件为基石。优质的数据是好的决策结果的先决条件，对于高度依赖内容的核校算法而言，优质的文字稿件就是一位优秀的指导老师，为核校算法提供正确的学习方向和知识语料。新华社稿件涵盖了政治、体育、社会、生活、文化等多种类型，数据规模庞大，目前在数据库中的稿件总数超过1亿条。稿件数据里面蕴含了海量的语言智慧：优质的语言表达、合理的语义结构、完善的知识特征。因此，我们以新华社稿件为学习语料，为后续算法进行知识习得、理解领悟、迁移应用创造了良好的应用基础和指导内核。

4.以先进算法为手段。在中文语境下，解决内容核校问题是一道超级难题。错误类型千奇百怪，有输入法联想导致的同音错，拼音错误，形近字错误，网络乱用语错误等。而且，汉语表达主观多样，分词断句需要根据上下文语义进行理解。

项目突破了对上下文语法及搭配错误的判别技术难点，以深度学习为基础，构建基于LSTM、Fasttext、Ngram、Bert多个算法模型，针对词模型、字模型、概率预测，每个模型都有独特的理解力，算法将多个模型共同进行融合决策。对于可能出现错误的位置进行预判和修正，不断调试参数，机器逐步形成了对新闻语法的表达概念。再利用强化学习“举一反三”，通过快速记录对错误的反馈和干预，进行算法自我迭代，将系统调试得日趋精准。

5.以自主研发为保障。新闻内容核校是一个需要长期维护的服务能力，互联网信息传播增速导致新词、新概念、新说法层出不穷，我们依靠强大的自研团队和维护运维团队，完成对稿件数据学习、业务验证、增强数据学习的良性闭环。根据测试数据表明，“较真”智能检校服务准确性已经超过市面同类厂商。

从2019年1月上线以来，“较真”智能检校功能服务调用超过55万余次，随着服务推广，每月使用量增长超过30%，编辑部及职能部门用户认为“该系统算法先进，查错能力优于传统检校软件”，在多次重大报道发稿核校工作中为编辑记者提供了有力的辅助支撑。

三、智能化内容核校发展前瞻

在完善新华社自身对内容核较之外，如何及时发现互联网上的虚假新闻也是智能核校的发展方向。2018年《科学》指出，美国大选期间平均每人每天要看4篇假新闻。基于人工智能技术的造假能力远超虚假检测能力。主动研发针对算法作恶、新闻误导、机器人伪造等现象的核较能力是国家媒体的社会责任。

1.增强多媒体新闻可信度认证

随着互联网传播形态的变化，媒体开始往图、文、短视频的多媒体形式转变。融媒体内容承载着更加丰富与直观的信息，因此虚假新闻更倾向于多媒体模式描述新闻事件，使得信息更容易传播且更具煽动性。因此，针对多媒体内容的检测是对新闻内容核较的重要挑战。通过特征、热门图片比例、图片清晰度、压缩比等方式，可发现新闻内容本身的图文不符合、图片篡改等问题。通过判断配图是否具有强烈的视觉冲击以及文字是否会有极端的情感煽动性，可判断新闻传播真实性。

2.完善基于大数据的新闻质量核校

为适应新媒体时代新闻生产和传播的新特点，建立互联网新闻可信度评估体系，从可读性、逻辑性、可信度、专业性、交互性、有趣度、动人度、完整性多个维度进行新闻质量评估预测，通过大数据分析形成新闻写作话术体系，从而为记者编辑撰写高质量新闻提供大数据的分析支撑和引导。

3.探索基于区块链的新闻可靠性评估

区块链新闻是将所有的新闻生产、制作、传播等皆在“区块链”场景中产生，所有的过程在区块链程序代码当中留下标记，具有透明可查且不可篡改等显著特征，从而创造一种新机制来追踪和评估新闻的可靠性，这一机制与区块链技术应用的分布式存储结构、密码学、智能合约等技术相关。此方法局限性在于只能覆盖区块链上呈现的范围，离开这个场域的新闻生产过程依然存在监管死角。