APP下载

中美贸易战社交媒体话语的情感倾向及主题焦点研究*

2022-11-01浙江工商大学徐玉苏钱毓芳

外语教学理论与实践 2022年2期
关键词:语料贸易战建模

浙江工商大学 徐玉苏 钱毓芳

提 要: 为了探究西方社交媒体对中美贸易战的态度及关注焦点,本文爬取了贸易战期间Twitter上相关的热门英文推文,对其进行了情感倾向分析和主题建模。研究发现83%的推文带有消极情感倾向且情绪反应激烈;对消极推文的主题建模展示了Twitter用户对贸易战的八大评论焦点,几乎全部围绕贸易战给美国及世界带来的诸多不利影响。研究结果表明特朗普在贸易战这一经济策略上受到了普遍的批评和抨击,并没有得到民意的支持。

1. 引言

在当下网络舆情研究的进程中,社交媒体大数据的价值表现极为突出。很多社会热点的舆情问题,如民众态度、人际互动、集群行为、舆论演变等,都能通过网络平台的大数据得到精准测量和可视化呈现,为舆情的监测与引导等研究提供了坚实的技术保障。

自从中美贸易战爆发后,网络舆情发展态势迅猛,特别是随着中美双方交锋的不断升级,迅速引发了来自不同立场和观点的激烈争辩。而主流社交媒体Twitter则成为了西方的舆论主阵地。Twitter是目前普及度最广、用户人数最多的全球化社交媒体之一。Twitter的字数限制(140字)和交互性的平台功能设置使得推文针对性强、中心明确、言简意赅地表达出用户的态度倾向。这些推文话语不仅完整地记录着社会舆情和民意,能成为舆论监督的利器和实时的民意调查系统,而且它们传达的态度、意见和情绪表现的总和会构成社会舆论,舆论的一致性、强烈程度和持续性则会影响事态的发展和进程(陈力丹,2012: 35)。

因此,对中美贸易战时期Twitter相关舆情的研究能成为舆论分析、监测和预警的有效途径,成为我们感知中国国际形象、评价中国国际影响力的重要来源。同时,对相关话语的批评分析能揭示语言结构背后隐含的价值体系和意识形态,因此,对进一步应对中美博弈及改善国际舆情环境具有重要的参考价值。

2. 研究方法

本文利用爬虫程序从Twitter获取相关语料。为了探究Twitter用户对中美贸易战的态度和关注焦点,我们编写Python程序运用情感分析(sentiment analysis)和主题建模(topic modeling)技术对语料开展话语研究。

1) 语料收集与处理

目前,获取Twitter数据主要有调用API接口和采用爬虫程序两种方法。由于利用API接口获取数据的方法对访问的频次和时间有较多限制,因此本文利用Twitter自带的搜索功能,采用爬取网页数据的方式来收集语料。我们以;作为确切短语,以2018年3月22日贸易战正式爆发为起点,并设置2020年1月16日中美第一阶段经贸协议签订为终点,搜索该时间段内相关的热门英语推文。之后,我们利用Gooseeker爬虫程序提取了推文五个字段的内容,分别是用户名、发布日期、推文文本、转推量和点赞量。经过清洗和人工筛选,去掉无关和少于5个字符的文档以及重复文本,最后共获取原创(不包含转发和回复)热门英语推文12,022条。之后,我们又过滤了非文本成分(如html链接、图片链接、@人名、hashtag#等),并利用PyEnchant类库对文本进行了拼写更正。

2) 语料分析

(1) 情感分析(sentiment analysis)

情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,从而得到对评论事件的总体态度和评价。本文采用VADER(Valence Aware Dictionary and Sentiment Reasoner)情感分析技术(Hutto et al., 2014)对每条推文进行情感倾向分析,以明确Twitter用户对中美贸易战的态度。VADER是专为社交媒体设计的基于词库和语法规则的情感分析工具,包含了对近万单词、标点符号以及网络用语的情感强度统计。在计算时可查询每个单词或符号的情感强度指数,然后正则化,得到句子的情感综合指数。

(2) 主题建模(Topic modeling)

主题建模的本质是通过对文本中词的分布规律的观察,生成主题集合并获取主题及各主题关键词的概率分布。目前最为常用的LDA(Latent Dirichlet Allocation)方法是由D. M. Blei于2003年提出的三层贝叶斯主题模型,在主题建模方面具有显著的优势。LDA适用于处理通用的中长篇文本,如果直接对推文进行主题建模,在一定程度上会受到推文篇幅过短、内容和格式散乱等方面的影响。然而社交媒体本身存在一定的“聚集策略”,例如本文中的推文语料均围绕同一术语“中美贸易战”,因此按照术语模式,可以将这些推文聚集为一个长文本,再进行LDA模型的训练(Hong & Davison, 2010;张培晶、宋蕾,2012)。据此,我们把由情感分析获得的积极和消极这两类推文分别合并后再进行主题建模,抽取主题分布及关键词,以明确持不同态度的用户所关注的内容焦点。

3. 研究结果

1) 情感倾向

图1. 推文情感倾向分布图

因单词带有一定的负面情感,我们先将其过滤,之后在Python程序里加载VADER程序包,运行后即获得每条推文的情感综合指数,可视化结果见图1。图中纵轴代表推文的发布时间,横轴代表VADER情感综合指数,每一个标记点则对应一条推文。根据程序设置,VADER情感综合指数大于等于0.05为积极情绪,代表肯定或赞成的褒扬态度;介于-0.05和0.05之间为中立情绪,代表没有明显的态度倾向;而小于等于-0.05则为消极情绪,代表批评或否定的反对态度。另外,正值的指数越靠近1,代表积极的情感越强烈;而负值的指数越靠近-1,则代表消极的情感越强烈。从图中我们不难发现,标记点在时间轴上几乎呈均匀分布,表明数据量充分,民众情绪稳定。其次,大于等于0.05的标记点分布较为稀疏,而且指数越靠近1,标记点的数量越为稀少;相反,小于等于-0.05的标记点分布非常密集,而且随着负面情绪的增强越来越稠密。介于-0.05和0.05之间的标记点分布尽管也较为密集,但数量有限。可见,在谈及中美贸易战时,只有极少部分民众发表的是带有积极或者中立情感的评论,绝大多数持消极情绪,且言辞激烈。我们对情感倾向分布进一步作概率统计,得出带积极情感的推文比例为12.2%,而带消极情感的推文比例则高达83.0%,其它则为中立。

另一方面,转发和点赞量能反映人们对推文观点的认可程度。转发或点赞量越多则说明当前推文受到的认可程度越高。因此,我们对所有推文、转发量前10%的推文以及点赞量前10%的推文的情感指数分别作了统计分析,发现其各自的均值、标准差和消极推文的比例都非常接近(见表1)。由此说明,当前统计所反映的情绪稳定,样本量充分,所得到的结果能够体现民众的主流情感倾向。

表1. 关于推文的相关统计数据

综上所述,Twitter用户对中美贸易战的态度呈现出近乎一边倒的消极情感倾向,且情绪较为激烈。对事件情绪的分析从本质上而言就是对情绪背后社会背景的剖析。那么,造成消极情绪的缘由是什么?民众表达的是对中国的不满,对特朗普政府的批评,还是对贸易战的担忧?这可以利用主题建模来进一步明确推文所关注的焦点。因此,我们将分别对积极和消极这两类推文进行主题建模,以探究情绪背后深层次的原因。

2) 主题建模

在对推文做主题建模之前,要进一步对清洗过的语料进行预处理。首先,我们把积极和消极这两类推文分别聚集为两个长文本,然后进行分词并全部转化为小写,再去除停用词和标点符号。由于语料围绕中美贸易战,因此相关词汇,,,,,,等不具备更细粒度的主题识别能力,也需要去除。之后,我们使用Python调用第三方的LDA库(Gensim),经过多次反复循环调整主题数和迭代次数,使最终输出的结果达到最佳为止。

(1) 积极推文的LDA建模

对积极推文的LDA建模发现,无论主题数设置为多少,每个主题下显示的关键词均趋于雷同。关键词大致可分为四类: 主体名词(,,,等);与贸易相关的名词(,,,,等);富含积极情感的形容词(,,,等);表示正面意义的动词(,,等)。上述的情感倾向分析显示只有极少部分的推文对中美贸易战持积极正面的态度,而LDA分析进一步告诉我们积极的评价集中于“农民、经济、市场、国家、增长”这几个相当有限的维度,而出现最多的动词大多是对“赢”的渴望或呐喊。如:

[1] “I am the chosen one,” Donald Trump told reporters on Wednesday. He looked up to the heavens as he said this, CNBC reports, so perhaps he truly believes that God anointed him toa trade war with China, which he also started.

译文: 唐纳德·特朗普周三对记者说:“我是被选中的人。”CNBC报道说,他说这话的时候仰望着天空,所以也许他真的相信是上帝选定他与中国的贸易战,这也是他发动的。

[2] The Trump economic miracle is still in full swing AND he isthe trade war while he’s at it. Amazing!

译文: 特朗普的经济奇迹仍在如火如荼地上演,他正在这场贸易战。太神了!

分析中另一个较为显著的现象是几乎所有主题下出现的第一个关键词都是。我们利用AntConc软件观察了的出现频率及相关语境(见图2)。在1,471条的积极推文中,共出现了631次,而对语境的考察显示,与贸易战几乎如影相随。如:

图2. Trump一词的检索行

[3] There was an article in the NY Post last week that has me thinking Presidentwith China is actually helping us. In the long run, we will be better off.

译文: 上周《纽约邮报》有一篇文章让我认为实际上是在帮助我们。从长远来看,我们会过得更好。

[4]has come with an unexpected bonus: more trade. A rush to get ahead of higher tariffs, particularly on U.S. imports from China, has motivated American companies to increase orders, which has helped boost volumes at the country’s ports.

译文:带来了意想不到的好处: 更多的贸易。提高关税特别是对美国从中国进口的商品征收关税,促使美国公司提前增加订单,这有助于增加美国港口的货运量。

可见,民众在评论中美贸易战时经常提到是由特朗普挑起的争端,这除了与特朗普高调的处事风格有关外,还受中美两国不同的政治体制影响。中国的外交政策由外交部、商务部等有关机构共同制定,而美国总统则被宪法赋予了外交方面最高的实质性权力,包括以签订行政命令的方式来决定外交问题。此外,这些民众在对贸易战作积极评价时突出强调其决策者,不难猜测他们也是特朗普的拥护者。他们把对总统的支持转移到其颁布的行政命令上,通过大肆宣传命令的正面效应来增强心理认同和情感共鸣,从而达到促进政治意识认同、强化政治关联、巩固其领导地位的目的。

(2) 消极推文的LDA建模

我们对消极推文也开展了不同主题数目设置下的若干建模。当主题数目设置为8时,获得了最优的主题识别结果。因此,我们把LDA的结果整理成8个主题,每个主题保留10个关键词,见表2。

表2. 消极推文的关键词分布及主题命名

如表2所示,主题1中的关键词s,,,,显然与股票相关,而,,带有明显的负面评价,结合例子我们能明确该主题是关于股票下跌的事实描述及由此产生的恐慌情绪的宣泄,因此我们把这一主题命名为“股票下跌”。同理,主题2中的关键词,,,,,,涉及关税对农民、大豆生产及其出口的负面影响,故命名为“农民利益受损”;主题3中的关键词,,,,,,,涉及关税对消费和就业的不利影响,故命名为“消费和就业影响”;主题4中的关键词,,,,,,,主要涉及人民币、美元、比特币等的下跌,故命名为“货币下跌及财政赤字”;主题5中的关键词,,,,,,,,代表对市场发展和全球经济衰退的担忧,故命名为“经济衰退”;主题6中的关键词,,,,,,,,,有关美国与其他国家的外交关系,故该主题被命名为“外交关系影响”;主题7中的关键词,,,,涉及对华为的制裁以及孟晚舟被捕事件,故命名为“华为事件”;主题8中的关键词,,,,,有关贸易战对美国一些大公司的负面影响,故命名为“对美企的影响”。经过命名,我们得到了消极推文的8个主题,即8个内容焦点。

从经济与民生层面来看,Twitter用户关心并担忧贸易战对经济发展、股票市场、消费就业和企业发展所带来的打击与破坏。因篇幅有限,本文仅从转发量位于前10%的推文中选取部分例子加以说明。

[5] Trump’s trade war with China is doing, and it’s showing up in.in a wide range of businesses, from clothing to machinery, are.

译文: 特朗普与中国的贸易战对美国经济,而且在也有所体现。从服装到机械,很多行业的。

[6] BREAKING;as trade war between U.S. and China escalates;.

译文: 破发;随着中美贸易战升级,;。

[7] This is—— for both. Our escalating trade war with China will lead toand.

译文: 这对来说都是——的。我们与中国不断升级的贸易战将导致和

[8] Factories in China and the U.S. have seen. Ain Chinese demand for iPhonesnearly $75 billion off. Thecaused by the trade war has spread farther than expected.

译文: 中国和美国的工厂。中国市场对iPhone的需求,使苹果近750亿美元。贸易战造成的比预期的要大得多。

美国的农民是特朗普的主要支持者,但用户们纷纷发推文控诉美国农民遭受了“巨大的损失”、“破产”、“被压垮”、“被迫自杀”等。例如:

[9] We’re borrowing billions from China to subsidize farmers who arein a trade war that’sthem because Donald Trump is an economic ignoramus who doesn’t understand trade or markets and his sycophants won’t tell him he’s wrong.

译文: 我们从中国借了数十亿美元来补贴那些在贸易战中的农民,因为唐纳德·特朗普是一个不懂贸易和市场的经济无知者,而他的马屁精们不会告诉他他错了。

[10] Virginia’s soybean industry was already gettingbefore this latest round of tariffs. This trade war is not holding China accountable. It’sfarmers and small business owners all over the country who are just trying to earn a living.

译文: 在最新一轮关税出台之前,弗吉尼亚州的大豆产业已经了。这场贸易战并没有让中国承担责任。它了全国各地一心只想谋生的农民和小企业主。

[11] WISCONSIN FARMER TELLS FOX NEWSRISING IN RURAL U.S. AMID CHINA TRADE WAR.

译文: 威斯康星州一位农民告诉福克斯新闻,在中国贸易战中,美国农村地区的、案件不断增多。

以上例子中的划线部分显示了用户对贸易战的关注焦点和直接公开的意见与情绪。可见,贸易战对于美国自身的不利影响昭然若揭。而且,,,,,,等词以及全部字母大写的书写格式蕴含着强烈的消极情感倾向,表达了民众对贸易战的强烈不满与排斥,也验证了上述由情感倾向分析得出的结果,即持消极情绪者大多言辞激烈。

其次,Twitter用户还关注贸易战对美国国际关系和世界经济局势所带来的负面影响。例如:

[12]. Currently, it’s engaged in an, aand a. It has also threatened.

译文:。目前,它正与,,并。它还。

[13] Trump’s reckless trade war is poised to. How many senators and representatives spoke out against this? The ones who didn’t should get voted out now! China hits the United States with tariffs on $3 billion of exports.

译文: 特朗普鲁莽的贸易战准备。有多少参议员和众议员对此表示反对?那些没有提出反对的人现在应该被淘汰了!中国向美国征收30亿美元出口关税,重击了美国。

因主题7“华为事件”从关键词考察内容不甚明确,我们对有关华为的所有推文做了细致分析以进一步明确用户们的评论焦点。推文中出现频率最高的言论是: 孟晚舟在加拿大的被捕事件使得美国的国际外交关系变得更为混乱;对华为的禁令加剧了对贸易战的恐慌;禁令会损害美国的芯片制造业及整个高科技生态体系。还有不少声音指出,把华为列为国家安全威胁是出于政治目的,特朗普不应该将华为作为贸易战筹码;贸易战阻碍了美国自身的5G发展,促使华为开发出自己的操作系统。但也有少量推文对华为进行负面的评论。

4. 讨论与分析

美国发动贸易战,从本质上而言陷入了“修昔底德”之困,反映了美国对中国的防范与压制(陈继勇,2018)。但是,出乎特朗普政府的意料,中国坚决维护自身立场和人民利益,不仅有理有据地驳斥了其破坏世界贸易秩序的霸凌行径,并且作出了强有力的精准反击,使得美国自身的利益也遭受了巨大的损失。这在本文的实证研究中得到了进一步验证。

研究结果表明,特朗普采取的中美贸易战这一经济策略受到了普遍的批评和抨击,并没有得到太多Twitter用户的支持。对推文的情感倾向研究显示,83%的推文带有消极情感倾向,且情绪反应普遍较为激烈。而对消极推文的主题分析则进一步揭示了负面情绪产生的根源,即贸易战给美国及民众甚至世界经济和局势带来了诸多不利影响,包括美股大跌、农业受损、就业困难、生活成本上涨、货币下跌、债务上涨、企业利润受损、全球经济衰退、外交关系紧张等。Twitter上关于贸易战的质疑与批驳折射出各方利益博弈态势的微妙变化,本质上是各社会阶层利益冲突与矛盾的显现与迸发。Twitter平台的互动与开放性会迅速扩大负面情绪的传播,进而形成一股广泛的社会合力,甚至影响事件的走势。事实证明,特朗普于北京时间2020年1月16日正式签署中美第一阶段的经贸协议,宣告中美长达两年的贸易战暂告一段落。此外,本文的研究发现也与美中贸委会于2021年1月份发布的题为《美中经济关系: 关键时刻的关键伙伴关系》的报告不谋而合。报告称,与中国的贸易争端未能实现特朗普政府的相关政策目标。它不但没有给美国经济带来好处,反而降低了美国的经济增长和就业。“据估算,在峰值时美中贸易战争端导致美国减少24.5万个工作岗位”。“除了短期内对经济生产造成重大冲击外,长期来看,还会永久性地降低美国GDP”。这也进一步验证了本文研究结果的效度和信度。可见,社交媒体大数据的话语分析能为热点事件的舆情分析、监测和预警提供有效的研究路径。

Twitter等社交媒体技术的问世赋予了人们更多的话语权和自由表达的空间,已成为民众集会就社会现实中关乎共同利益的议题开展讨论从而实现政治和民生参与的公共领域。然而,基于Twitter的研究结果也应客观辩证地加以分析与审视。首先,在全球化经济时代,中美贸易战早已超越了两个经济体的范畴,其影响波及全球各个国家和不同行业领域。本文的推文语料主要来源于美国本土的Twitter用户,还有一些来自其它国家。当前的情感倾向分析结果无法区分不同国家群体对当前舆论的影响,但主题分析所提炼出的关注焦点几乎都与美国人民利益息息相关,更多地体现了美国民众的呼声。需要明确的是,不论哪个国度的群体发声都会对事件的发酵和演变产生直接的影响。其次,尽管来自美国的Twitter用户仅代表美国人口的非多数派,但几乎囊括了美国所有政客、利益集团、媒体和大量关心时政的民众(章瀚夫,2018)。本文爬取的语料来自Twitter上关于贸易战议题的热门推文,大部分被转发上百次甚至几万次,具有一定的影响力,可以说能代表平台上的主流思想。值得一提的是,Twitter貌似是独立于其它媒体的新媒介,但是在这个错综复杂的信息时代,来自主流的传统媒体也会很大程度上间接对Twitter上的舆论产生影响。而现在美国的主流媒体已沦为民主党的宣传工具,再加之话语的主导权主要掌握在受教育程度相对较高的阶层,所以从美国两个党派的支持者在Twitter上的影响力而言,特朗普政府会略微逊色。这在2018年末美国独立民调和智库机构皮尤研究中心对2 791名美国Twitter用户的调查报告中得以验证。因此,Twitter上针对特朗普的攻击以及对其施政的悲观情绪也会在一定程度得以增强。这一结论从当前结果的分析中可见一斑。

5. 结论

社交媒体话语作为新兴的语言交际变体必定对语言及其功能以及话语分析相关领域研究产生巨大的影响。本文采用数据驱动下的研究范式,利用计算机文本分析技术从语篇层面上对语料进行了情感倾向与主题焦点的定量研究,揭示了Twitter用户对于中美贸易战的评论态度与关注焦点。从某种程度上说,对Twitter相关话语的研究更加直观地反映了部分民众对中美贸易战的评价和立场,更接近涉华舆情的“民意”调查。本文也从应用的角度反向检视情感和主题分析技术在话语研究中的价值和应用前景。而对社交媒体的话语分析亟需加强学科交融,实现将理论阐释、逻辑分析与实证应用相结合,进行定性与定量的多维度考察。

猜你喜欢

语料贸易战建模
物理建模在教与学实践中的应用
在经历中发现在探究中建模
思维建模在连续型随机变量中的应用
求距求值方程建模
可比语料库构建与可比度计算研究综述
贸易战重压市场 等待企稳再低吸
中古汉语分期研究所涉及的语料问题
如何争取中美贸易无战事(经济茶座)
如何使用第二外语学习者语料
英语教学中真实语料的运用