APP下载

基于大规模文本语料库的CNN涉华报道分析

2016-07-18邓海龙

考试周刊 2016年54期
关键词:美国有线电视新闻网语料库

邓海龙

摘 要: 美国有线电视新闻网(CNN)是美国的主流媒体之一,在较大程度上反映了美国政府的基本立场和态度。本文从CNN官方网站上采集历时十五年的节目脚本材料,建成语料库,使用语料库检索分析方法,考察了自2000年以来CNN涉华节目的基本演变过程及总体形态。数据显示,随着中国国力增长,CNN对中国的关注度持续上升;近十五年,我国受到的关注度明显高于日本和印度,除少数波动外,总体上高于俄罗斯。

关键词: 美国有线电视新闻网 涉华报道 语料库

一、引言

凭借强大的政治、经济和文化影响力,美国媒体在世界上扮演着重要角色。深入研究美国主流媒体中的涉华报道特点,有助于理解以美国为首的西方人是如何看待中国的。以他人为镜,可以知己所短,有利于改进我国国家形象建构的具体策略和实现手段。另外,西方国家成熟的新闻报道模式有不少值得借鉴与参考之处,从而进一步提高和改进对外新闻报道水平。

美国有线电视新闻网(Cable News Network,以下简称CNN)是美国乃至全球具有重要影响力的媒体,其新闻报道及时、深度和全面,与此同时,由于它与美国政府之间关系紧密,在较大程度上反映了美国政府的意识形态和政治立场,其新闻报道常常被指责带有一定的偏见(任亚娜, 2009)。本文选择以CNN为研究对象,通过采集CNN的节目文本材料,建设大规模历史文本语料库,使用大数据分析手段,考察从2000年以来CNN涉华节目的基本演变过程及总体形态。

二、基于大规模文本语料的研究方法

近年来,国内针对西方发达国家主流媒体的涉华报道相关研究层出不穷(张天培, 2008;任亚娜, 2009;田维钢, 2013 )。从掌握的文献来看,当前的研究还以定性分析为主,偏重于宏观考察和个案剖析;虽然有部分基于数据定量,但语料库规模较小,时间跨度不长。随着网络传播的日益普及和计算机技术在各个领域的广泛渗透,基于大规模语料展开语言和传播研究越来越为学界接受、认可乃至推崇(宋红波 & 王雪利, 2013;喻国明, 2014)。基于语料展开研究具有一定的优势,容易做到研究结果可验证,研究过程可重复,达到一定程度上的客观性。

目前,CNN网站提供了公开播映节目转写而成的文本材料(transcripts)供大家阅读使用(详见http://transcripts.cnn.com/TRANSCRIPTS/ ),使我们基于大规模文本语料开展CNN涉华报道研究成为可能。笔者通过编制程序批量下载收集该网站上的新闻脚本,经过加工建成语料库,以供检索和研究之用。根据需要和现实条件,本研究总共收集了从2000年1月到2014年12月间CNN节目的转写文本,历时15年,包含19万多期节目。每个月的语料集中储存在一个文本文件中,累计有180个文本文件,全部占硬盘空间达4.28G。语料容量粗略估计超过6亿词次(token),在自建专门用途语料库中已经达到较大规模语料层次。需要说明的是,据CNN网站声明,该网站上的节目转写文本并非固定不变,还会时不时地更新,包括增加转写的节目数或者修改转写错误等。

三、语料检索说明

为检索方便,本研究对下载后的CNN节目转写文本进行了简单清理和格式化储存,采用XML标记将节目标题、转写文本、播出时间和下载链接等元信息进行标注管理和保存。由于个人电脑的负载能力或者软件设计的应用目标等限制性因素,目前流行的免费语料检索软件AntConc在检索超过一百兆的文本文件时,经常容易卡死。如果将180个文件分开检索,然后逐个登记,则容易出错。为此,本研究使用编程语言python中的正则表达式模块进行批量检索。经过抽检少量文本进行对比,发现与AntConc的检索结果一致,说明该检索结果是准确的,可以采用。

作为研究前提,这里对涉华节目的界定及其检索作简要说明。从公开发表的期刊论文来看,很少有学者明确定义“涉华报道”这个概念,基本上把它作为一种默认常识。面对小规模语料的时候,这种依赖常识的辨识方法是可以适用的。一旦推广到大规模语料,任何检索对象就必须清晰地得到界定。因为不同概念定义,就会有千差万别的检索结果。有学者采用检索英语新闻报道标题中是否含有 “China”一词确定它是否为涉华报道(司国安 & 苏金远, 2007),这有它的合理性,因为标题一般反映了新闻报道的中心意思。本研究参考了这种做法,但采取了检索正文内容是否包含“China”的做法。理由是,有些标题中没有包含 “China”的节目,有可能也是涉及中国的。这样虽然增加了误判率,却提高了命中数。考虑到语料规模比较大,本研究只是基本趋势分析,这样做是合理的。

为了简化问题,本研究中只用“China”进行检索,没有考虑使用 “Chinese”,以及中国港澳台地区中涉及的词汇,如“Hong Kong”,“Macau”,“Taiwan”等。同理,对比检索其他国家(日本、印度和俄罗斯)时,只使用了 “Japan”,“India”,和“Russia”等词,没有使用其他形式。另外,本文没有检索涉及欧洲等发达国家节目,主要原因是考虑到可比性,因为美欧有着许多共同背景,他们之间的相互关注度和认同度应该不是亚洲国家能够与之相比的。个别国家,如英国,在实际搜索上也有具体困难,因为它的英语名称较多,包括U.K.,United Kindom,Britain等,检索比较复杂。

四、涉华节目的年度走势

在CNN节目转写文本语料库中检索 “China”得到涉华节目数量,按年度汇总,除以年度总节目得到涉华节目比率,绘制成图表如下。

从图1可以看出,CNN的涉华节目从2000年至2014年,整体走势是上升的,可以反映出CNN等美国媒体在最近十几年以来,对中国的关注度不断加强,意味着中国在国际上的地位是逐年攀升的。具体而言,大约分为三个阶段。第一阶段是低谷期。2000到2002年,涉华节目平均只占约6%,2002年略有下滑迹象。这个阶段,中国的GDP总量还相对较低,没有引起美国媒体足够重视。第二阶段是上升期。从2003年起,直到2008年,急剧上升,很快达到了近十五年来的关注度高点。从经济发展来看,这个阶段的中国GDP不断赶超法国、英国、德国,直逼日本,引起国际社会的广泛关注。第三阶段,稳定期。从2009到2014年,其中2012年达到另一个顶峰。在这个阶段,中国GDP超过日本,成为全球第二大经济体,国际地位达到新的高度并得到巩固。另外,这个阶段正值我国政府换届,引起西方媒体更多关注也是理所当然的。

检索日本、印度和俄罗斯相关节目,并与涉华节目数量绘制成折线图进行比较。如下图2所示。

由图2可以清晰地看出,中国在CNN中受到的关注度在总体上显著超过了其他三个国家。从涉及各国节目数量来看,日本和印度两国根本无法跟中国相提并论,近十五年一直在我国之下。只有俄罗斯在2002、2003、2013、2014这四个年度超过中国,而其中2013~2014两年应该与俄罗斯在乌克兰克里米亚问题引起国际社会关注有较大关联。

五、涉华节目的月份热点

将十五年的涉华节目百分比按月份进行汇总,绘制成图3所示,可以分析CNN涉华节目在每个年度内的走势倾向。

从图3可以看出,每年的3、4、5、11月份是CNN涉华报道热点,而这些时段恰好与我国上半年的“两会”(全国人民代表大会和中国人民政治协商会议)和下半年的中共中央委员会全体会议相契合,这两个时间段都事关中国重大政治生活,影响未来发展方向。由此可见,外媒对中国的关注还是着眼于我国重大政治事件,尤其高度关注每年上半年两会期间。

六、结语

通过检索和分析大规模CNN节目转写文本语料可以看出,中国在美国媒体中受到较高程度的关注,近十五年完全高于日本和印度,除了少数波动年份外,总体上高于俄罗斯。我国作为国际大国的地位在西方主流媒体上得到鲜明体现。因此,可以推断中国对世界的影响越来越大,在国际舞台上扮演着越来越重要的角色。另外,数据表明,CNN涉华节目报道与我国国内的政治生活紧密相关,反映出国内政治活动的活跃程度。

当然,本研究还存在一些不足之处。首先,检索方式相对简单。仅用国家名称进行检索,虽然有利于简化问题,适应大规模数据批量检索方式,但分析的深度却略嫌不足,对现象描述还停留在宏观层次。其次,分析的内容相对简单。比如,由于数据量较大,本研究对涉华节目中表现出来的态度倾向等没有进一步深入挖掘。在后续研究中可以进一步挖掘和揭示CNN节目转写文本语料中反映出来的传播规律和语言特征,并设计和编制更完善的检索工具,使语言分析更全面和深入。

参考文献:

[1]任亚娜. 论cnn对华态度在变化中的守衡[J]. 青年记者, 2009(23):66-67.

[2]司国安, 苏金远. 2006中国国家形象——基于《纽约时报》涉华报道的文本分析[J]. 新闻知识, 2007(05):51-53.

[3]宋红波, 王雪利. 近十年国内语料库语言学研究综述[J]. 山东外语教学, 2013(03):41-47.

[4]田维钢, 杨蒙, 郎靖和. 五大西方主流媒体涉华报道的特点[J]. 现代传播(中国传媒大学学报), 2013(04).

[5]喻国明. 基于语料库方法的舆论热词数据库的构建——以2011—2013年全国两会舆情中心词和关联词的发现与分析为例[J].新闻与写作, 2014(01):54-60.

[6]张天培. 从cnn事件看美国媒体对华负面报道的根源和形成原因[J]. 理论界, 2008(08):214-215.

猜你喜欢

美国有线电视新闻网语料库
CNN中国疫情报道的特征与启示
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
奥巴马、克林顿收到可疑炸弹包裹
美国CNN英语报道中的“一带一路”倡议
基于JAVAEE的维吾尔中介语语料库开发与实现
美国枪击,9人丧生
基于网络语料库的“给力”研究
语料库语言学未来发展趋势