APP下载

基于随机森林的“广西生态环境”微信公众号信息传播影响因素研究

2020-04-22梁炜

价值工程 2020年8期
关键词:随机森林信息传播微信公众号

梁炜

摘要:为更好地挖掘微信公众号在政务服务领域的社交价值和媒体价值,以广西壮族自治区生态环境厅微信公众号2017年11月15日-2019年5月31日发布的827篇文章为基础,利用随机森林模型,从文章的发布位置、文章来源、内容分类、标题字数、内容字数、图片数量、发布星期等方面探讨影响政府服务微信公众号信息传播的因素。研究结果表明,“广西生态环境”微信公众号发布文章的发布星期、发布位置、内容分类和来源分类等因子对文章传播效益影响较大,内容字数、标题字数和图片数量等因子对文章的传播效益影响较小。

Abstract: In order to explore the social value and media value of WeChat subscription in the field of government services, the 827 articles issued by Department of ecology and environment of Guangxi Zhuang Autonomous Region from November 15, 2017 to May 31, 2019 were selected. Based on the random forest model, this paper discusses the factors that influence the information dissemination of the government service WeChat subscription from the perspectives of the publishing location, article source, content classification, number of title words, number of content words, number of pictures and publishing date of the articles. The research results show that factors such as the publishing date, location, content classification and source of the WeChat subscription of "Guangxi Ecology and Environment" had greater influence on the transmission benefit of the articles. The factors such as the number of content words, the number of title words and the number of pictures had less influence on the transmission benefit of the articles.

關键词:广西生态环境;微信公众号;随机森林;信息传播;影响因素

Key words: Guangxi Ecological Environment;WeChat subscription;random forest;information dissemination;influencing factors

中图分类号:F323.22                                   文献标识码:A                                  文章编号:1006-4311(2020)08-0247-03

0  引言

2016年3月5日,李克强总理代表国务院在十二届全国人大四次会议上作《政府工作报告》中提出了“互联网+政务服务”,标志着我国政府职能正向着服务型转变[1]。各级政府都在大力推动“数字政府”建设,不断深化“放管服”改革。中国政务新媒体建设取得了空前的发展,中国政务微博微信账号迅速增加,政务客户端发展迅猛,“两微一端”成为政务新媒体发展新模式。

政务服务微信公众号以其丰富的内容及多样化的传播形式成为政府部门为公众提供信息服务的新平台。如何使政务服务微信公众号信息有效传播,更好地挖掘微信公众号在政务服务领域的社交价值和媒体价值,是一个值得政府网信部门深入研究的课题。本文根据微信公众号信息传播特征,利用随机森林模型,从文章的发布位置、文章来源、内容分类、标题字数、内容字数、图片数量、发布日期等方面探讨影响政府服务微信公众号信息传播的因素,以期为同类微信公众号文章提供参考建议。

1  数据来源与方法

1.1 数据来源说明

本研究以广西壮族自治区生态环境厅微信公众号2017年11月15日-2019年5月31日发布的827篇文章为基础,统计出这827篇文章的发布位置、文章来源、内容分类、标题字数、内容字数、图片数量、发布日期7个影响因子数据,并选取了阅读量、点赞量和分享量组成评价因子。发布排位、来源分类、内容分类和发布日期为分类型统计数据,标题字数、内容字数和图片数量为数值型统计数据,如表1所示。

1.2 研究方法——随机森林

随机森林模型在bagging算法的基础上演化而来由美国科学家Leo Breiman于2001年提出[2],它用Bootstrap方法生成M个训练集,再对每个训练集构造CART决策树,并且随机选取特征,在其中寻找最优解进行分裂。随机森林实际上相当于对样本个特征都进行了采样,所以可以避免过拟合。最后投票表决得出结果。随机森林有一个重要优点是没必要对它进行交叉验证或用一个独立的测试集来获得误差的无偏估计。他可以在内部进行评估,在过程中可以对误差建立一个无偏估计。(图1)

随机森林模型使用基尼指数(gini)或袋外数据(out-of-bag,oob)错误率来评价每个特征对结果的影响程度(VIM)。

1.2.2 袋外数据错误率

在随机森林的Bootstrap方法中每次约有三分之一的样本不会出现在采集样本集合中,这些没有参与决策树建立的数据称为袋外数据(out-of-bag,oob)。

对于随机森林中的每一颗决策树,使用相应的oob(袋外数据)数据来计算它的袋外数据误差,记为erroob1。随机地对袋外数据所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为erroob2,假设随机森林中有N棵决策树,那么对于特征x的重要性计算表达式如下:

若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高[4-6]。

2  预测模型构建

本研究的模型构建流程主要包括4个步骤:①采集样本;②数据预处理与特征工程;③将样本按7:3的比例分割为训练集与测试集,建立模型;④特征重要性评估。

2.1 数据预处理与特征工程

2.1.1 数据格式化

①独热编码。

本研究部分选取因素具有离散特征,无法直接使用在分类器中。为解决分类器处理离散特征数据的问题,本研究对发布位置、文章来源、内容分类、标题字数、发布星期进行了独热编码处理。经过独热编码处理后,影响因子由7维扩充到26维。

②评价指标构建。

本研究选取了阅读量、点赞量和分享量组成评价因子,这三个指标分别从不同角度体现了发布文章的传播影响效益。为综合评价文章的传播影响效益,利用SPSS软件对三个指标进行主成分分析,提取出主成分。分析结果显示,阅读量的信息载荷为0.465,分享量的信息载荷为0.46,点赞数的信息载荷为0.252。

同时采用自然断点分级法(Jenks)构造出最终分类评价特征,构成评价指标level。该评价指标为只包含0与1的二分类评价指标,其中0表示非热点推送文章,1表示热点推送文章。

2.1.2 数据平衡化

经过数据预处理后数据中的热点样本26条,非热点样本801条,数据分布非常不均匀。为了提升模型拟合程度,本研究采用SMOTE方法利用小众样本在特征空间的相似性来生成新样本。经平衡化处理后,热点与非热点样本均为801条。

2.2 模型实现与评价方法

本研究的随机森林模型由Python平台的机器学习库sklearm构建,使用默认值参数进行计算并生成预测集,然后采用混淆矩阵和袋外样本来估计评估模型的准确率与泛化能力。

混淆矩阵由测试集与预测集组成,其中正類(positive)表示为热点推送文章,负类(negative)为非热点推送文章。经分析发现,244条样本在测试集与预测集中均表现为正类即热点推送文章,为真正类(TP);221条样本在测试集与预测集中都为负类即非热点推送文章,则为真负类(TN);9条样本在测试集中为正类,预测集中为负类,则为假负类(FN);7条样本在测试集中为负类,预测集中为正类,则为假正类(FP)。

2.3 影响因子分析

运用基尼指数方法对26个影响因子进行重要性评估,分析其对发布文章传播效益的影响程度,如表2所示。分析表2可知,研究选取的7个一级影响因子中,对文章传播效益影响较大的为发布星期、发布位置、内容分类和来源分类,四者重要程度合计达到82%;内容字数、标题字数和图片数量对文章的传播效益影响较小,重要程度合计仅为18%。进一步分析二级影响因子发现,在星期三推送、发布位置处于第二位、内容分类为污染防治、来源为中央、内容字数较多的文章传播效益影响程度较大,重要程度基本在8%至11%之间;同时也可以看到,星期六、星期日发布的文章传播效益影响程度较小,发布位置靠后为第五、第六推送位置的文章几乎没有传播效益影响,内容为标准规范的文章受关注程度也较低。

3  结论

本文使用机器学习的方式,以“广西生态环境”微信公众号发布文章的相关统计数据为研究对象,从827个样本中得到了高准确率的随机森林模型,并讨论了影响推送文章传播能力的各项因子。研究结果表明,“广西生态环境”微信公众号发布文章的发布星期、发布位置、内容分类和来源分类等因子对文章传播效益影响较大,内容字数、标题字数和图片数量等因子对文章的传播效益影响较小。

利用随机森林模型可实现在不增加运算量的前提下,提高分类和预测的准确率,用于变量重要性评估上具有算法上的优势。本研究的主要创新点是将随机森林模型应用到微信公众号传播影响研究问题中,并且取得了较为满意的结果,可为未来“广西生态环境”微信公众号运营,提高政务信息传播效益提供依据。

参考文献:

[1]中华人民共和国中央人民政府.政府工作报告[R/OL].(2016-03-17).http://www.gov.cn/guowuyuan/2016-03/17/content_5054901.htm.

[2]Breiman L. Random forests[J]. Machine Learning, 2001,45(1): 5-32.

[3]Raschka S. Python Machine Learning[M]. Packt Publishing, 2015: 80-90.

[4]Tibshiranni R. Bias, Variance and Prediction Error for Classification Rules[C]. Technical Report, Statistics Department, University of Toronto, 1996. http://utstat.toronto.edu/reports/tibs/biasvar.ps.

[5]Wolpert D H, Macready W G. An Efficient Method To Estimate Baggins Generalization Error[J].Machine Learning, 1999, 35(1): 41-55.

[6]Breiman L. Bagging Predictors[J]. Machine Learning, 1996,24(2): 123-140.

猜你喜欢

随机森林信息传播微信公众号
拱坝变形监测预报的随机森林模型及应用
微信公众号在高校“Photoshop图像处理”课程中的应用
如何进行突发事件中的舆情引导