APP下载

基于互联网传播文本的地区环境形象评价方法

2022-11-11段长宇胡裕民赵志杰李晓亮

科技管理研究 2022年19期
关键词:语料分类算法

段长宇,胡裕民,赵志杰,李晓亮

(1.北京大学环境科学与工程学院,北京 100871;2.生态环境部环境规划院,北京 100012)

随着互联网的普及化,环境信息频繁出现于网络新闻报道和社交平台,形成了大量与环境相关的互联网信息文本。这些文本包含了地区环境质量、环境表现等信息,属于一类重要的生态环境大数据[1]。利用互联网环境传播文本评价地区的环境表现,有助于认知当地的环境问题,推进城市的环境管理工作和可持续发展[2]。

与环境监测数据不同,互联网传播文本结构多样、内容复杂,收集和处理方法比较依赖于计算机文本处理技术,即自然语言处理技术(natural language progressing,NLP)。自然语言处理指的是计算机批量处理文本的方法,其本质与人类对文本的阅读、统计和分析相同,被广泛地运用到机器翻译、语音协助和文本识别等领域。自然语言处理技术的兴起,使网络文本处理的效率和精度大幅提升。

互联网传播文本形式多样,包括社交媒体讨论和环境新闻等,研究选取互联网环境新闻作为研究对象。环境新闻也称为环境报道,其定义并不明确。总体而言,环境新闻可以看作是一种传递环境信息,反映环境问题的新闻报道。针对网络环境新闻的研究集中于环境新闻的发展历程[3]、环境新闻的分类框架以及环境传播中特定媒体的表现作用[4]。除此之外,与地区相关的环境新闻,包含该地区的环境信息,可以用来分析特定主体的环境形象[5]。此类研究尚处于起步阶段,相关研究分别针对省级区域[6]、政府主体以及国家层面进行了概念阐述和探讨[7-8]。

本文从互联网新闻文本出发,基于自然语言处理技术,构建地区环境形象评价方法,并针对长三角地区的环境新闻,探讨方法的可行性。研究还根据互联网环境文本的特点,梳理分析了地区环境形象的整体特征,建立了环境领域的特有语料库和评价指标,为文本类型的生态环境大数据处理提供一定参考。

1 环境形象评价框架的构建

环境形象指的是某一主体在环境领域对公众产生的印象,是该主体环境行为的外在表现。以地区为例,环境形象代表了地区在环境领域的发展状况,包括该地区的重点环境问题、突出的环境事件以及公众对该地区的环境评价。

1.1 环境形象评价的研究路线

环境形象评价方法的研究路线见图1。第一步,利用网络爬虫从互联网获取与环境相关的网络文本,清洗、过滤无关部分,剩余的环境文本主要包括该地区的环境新闻和社交媒体讨论等。第二步,采用专家评测的方式,划分环境评价的维度。将训练文本人工标签,构建标准的分析语料库。第三步,基于构建的环境形象语料库,采用支持向量机(SVM)、朴素贝叶斯(BAYES)和卷积神经网络(CNN)3种算法,调整语料数量和训练模式,优化评价模型。第四步,利用测试文本检测不同环境评价模型的效果,最终构建环境形象评价方法。

1.2 环境形象的维度

环境形象具有不同维度,与环境新闻的结构和环境领域的特点相关。互联网环境新闻分布广泛、数量巨大,包含公众的情感倾向。在传播的过程中,环境新闻还产生了转载、发布时间以及传播链等信息。环境新闻的内容一般会涉及明显的环境要素,如水环境、大气、土壤、固体废物、重金属等。环境新闻在来源上也具有一定差异,主要的来源包括:新闻门户网站、政府公告和通报以及企业的环保宣传等。

根据环境新闻的特点和地区环境分析的需要,研究从3 个维度对环境新闻进行标签,分别是环境新闻包含的环境要素、新闻表现出的情感倾向以及环境新闻本身的文体来源。按照文本涉及的环境要素,新闻文本分为6 类标签,包括水、空气、土壤、废物、生物和噪声。按照新闻的具体来源,新闻文本分为5 类标签,包括公司广告、环境质量公开、一般环境新闻、政府公告和其他。其基本内容和来源如表1 所示。

按照文本内容包含的情感倾向,环境新闻分为5 个等级,程度从负面到正面依次增加,分别为“非常负面”“较为负面”“无明显倾向”“较为正面”和“非常正面”,其典型内容和代表词汇如表2 所示。

表2 情感倾向

1.3 模型算法与检验指标

机器学习和深度学习技术在文本挖掘领域应用广泛,常用的算法包括朴素贝叶斯、卷积神经网络和支持向量机等[9]。在环境研究领域,互联网环境文本格式不统一,内容复杂。文本内容经常表现为社会-环境复合类型,处理难度较大。环境领域的研究主要利用文本分类和情感分析手段处理互联网环境文本,挖掘其内在信息,从而推进环境管理工作。总体而言,环境文本的处理分析主要包含以下5 个研究方向:(1)环境管理政策的研究和优化。在企业环境表现和环境绩效评价上,通过词义分析,可从文本中挖掘新的评价指标[10],从而优化传统的环境评价方法[11]。(2)环境事件的传播规律和应对策略。与环境领域相关的舆情包含大量的情绪信息,利用自然语言处理技术,可以快速分析公众对环境事件的反映[12],更好地解决社会发展与环境保护之间的冲突[13]。互联网环境讨论文本在经过情感分析和时空统计后,可以揭示公众对环境事件(雾霾天气)的关注程度与时间响应状态,有助于政府了解公众情绪,应对环境危机[14]。(3)利用社交媒体信息预警和报告环境公共事件。2011 年,有研究者提出将互联网讨论作为新型传感器的方法和概念,用以及时发现和报告自然灾害[15]。此后,相关概念和研究框架逐渐明晰,网络社交媒体讨论也被广泛地应用到多个环境场景识别领域[16]。此类研究主要集中于环境突发事件的管理,包括地震发生时震源和程度的识别[17]、山火的监测和预警[18]、洪涝灾害强度的报告等[19]。(4)通过社交媒体促进公众环保行动[20]。社交媒体上存在大量与环境政策相关的讨论。这些文本包含了公众对环境政策的态度和认知情况。基于这类环境文本,可以调查公众对生物防治政策的支持度[21]、公众对气候变化状况的认同感以及气候变化在社交舆情上的传播路径和情感表现[22-24]。(5)补充传统的环境质量监测手段[25]。环境空气质量的变化会在互联网上引发讨论。许多研究基于社交媒体上与天气相关的讨论文本,结合空气质量监测数据,建立响应模型,从而对地区的空气环境质量进行实时推算[26],类似研究已经在推特以及新浪微博等社交媒体上得到验证[27-28]。

1.3.1 监督式学习算法

研究采用监督式学习算法构建文本分类和情感分析模型。文本分词算法选用结巴(JIEBA)分词,计算词频权重时采用词频-逆文档频次算法(term frequency-inverse document frequency,TF-IDF)。词频-逆文档频次算法是一种基于统计的词意权重计算方法。词频(TF)用于衡量词汇出现的频次,即一个词在所有文档中出现的次数,见式(1)。逆文档频率(IDF)用于衡量词汇的特异性,即该词汇在不同文档中频次的分布情况。当一个词在特定文档中出现的频次远高于在所有文档中的出现频次,其对文档的区分度越好,见式(2)。TF-IDF值即两者的乘积,见式(3)。

在训练分类模型时,采用3 种算法:支持向量机、朴素贝叶斯和卷积神经网络。对比3 种不同的分类算法,生成最优分析模型。支持向量机(support vector machine,SVM)是一种在机器学习中应用广泛的分类算法。在自然语言处理中,文本在分词后可以建立特征的词向量集合。支持向量机通过建立最大间隔超平面,对数据集合进行分类。朴素贝叶斯(naive Bayesian,BAYES)是基于贝叶斯定理和特征条件独立假设的分类方法。其分类模式也建立在训练集合的基础上。基于文本分词后生成的特征关键词,求算特征词条件联合分布的概率,通过贝叶斯定理推算概率最大的输出,即分类结果。卷积神经网络(convolutional neural network,CNN)是一种深度学习算法,其基本单元为人工神经元,通常由输入层、卷积层、池化层、全连接层和输出层组成,在情感分析领域应用广泛[29]。本文在构建CNN 算法时,设置卷积核数目为256,卷积核尺寸为5,每批次训练抽取的文本数目为64 个,总训练次数为100 次。

1.3.2 精度检验指标

在文本分类中,用于评价的指标一般有精确率(Precision,P)、召回率(Recall,R)以及其调和平均值(F1-score),即PRF 值。精确率P是指分类为真的样本占总样本的比例,用于衡量分类的准确度,计算方法见式(4);召回率R是指分类为真的样本占所有真实样本的比例,用于衡量分类的覆盖程度,计算方法见式(5)。F1 值为准确率和召回率的调和平均值,用于衡量分类方法的整体效果,计算方法见式(6)。其中,TP 指的是分类为真且实际为真的样本个数,FP 指的是分类为真但实际为假的样本个数,FN 指的是分类为假但实际为真的样本个数,TN 指的是分类为假且实际为假的样本个数。

评价多分类模型的效果一般采用微平均值(micro F1-score)。微平均值计算每个分类子类的TP、FP、TN 和FN,然后按照二分类问题的统一计算PRF 值。环境形象评价方法有3 种分类维度:文本来源、环境要素和情感极性。这3 种分类均为多分类问题,即一种分类下存在两个以上的类别。因此,环境形象评价方法采取微平均值(micro F1-score)作为评价指标。

1.4 环境新闻语料库

监督式学习的算法需要构建标准语料库。本文根据环境领域的特点对语料分类和编码,生成环境特有语料库。语料库的构建流程如下:收集环境语料,导入分类系统,人工筛选和编码;分类原则保持一致,分类类别包括环境新闻的文体来源、涉及的环境要素以及情感倾向;分类遵循相互对照的原则,编码结束后对语料库进行信度检验,分类一致的语料作为标准的环境语料库,语料库数量见表3。

表3 环境语料库数量 单位:条

2 模型训练和优化

模型的优化从3 个角度展开,一是选取最优的分类算法,二是确定合适的训练集规模,三是调整环境形象分类类别。

2.1 训练集规模选择

为考察各模型在不同训练语料数量下的性能表现,进行20 组试验,每次从标准语料库中随机抽出100、200、300 1 900、2 000 条训练语料构成训练集,从训练语料之外抽取100 条语料构成测试集。每组实验进行10 次,取其结果的平均值作为最终结果。

3 种算法在不同训练语料数量下的微平均值(F1值)如图2 所示。在文体来源的分类上,随着训练语料数量的增加,3 种方法的分类效果均会在开始提高,后趋于稳定。当语料数量大于500 条时,朴素贝叶斯的分类效果不再提升;当语料数量大于700条时,卷积神经网络和支持向量机的分类效果逐渐稳定;支持向量机算法的表现最好,F1 值可达0.90,卷积神经网络算法其次,F1 值可达0.88,朴素贝叶斯算法最差,F1 值则稳定在0.85 左右。

在情感极性上,随着训练语料数量的增加,3种算法的F1 值均会在开始时升高。当训练语料数量超过1 600 条时,3 种算法模型的F1 值趋于稳定,支持向量机和卷积神经网络算法的F1 值均在0.75以上,朴素贝叶斯算法的F1 值远低于支持向量机和卷积神经网络,在0.65 左右。在环境要素的分类上,随着语料数量的增加,支持向量机和卷积神经网络算法的F1 值均先升高,后趋于稳定。当语料数量大于1 200 条时,这两种算法的F1 值不再升高,稳定在0.68 左右;而朴素贝叶斯的分类效果随语料数量增加提升并不明显,分类效果也较差,F1 值在0.64左右。

图2 不同语料规模下分类模型的F1 值

2.2 分类模式选择

方法利用文本分类和情感分析等自然语言处理技术分析互联网环境文本,生成特定的环境标签。分类数目也会对模型的效果产生影响。为考察环境维度划分的合理性,研究对情感分析和环境要素的分类进行了调整和测试。

在情感极性的分类上,合并“负面”“较为负面”类型,“正面”“较为正面”类型,分类数目从5类变为3 类,调整规则后情感极性共分为“负面”“中性”和“正面”3 种类型。选取2 000 条训练语料测试分类调整后的模型效果。如图3 所示,在调整分类规则后,3 种方法的分类效果都有明显提升,微平均值在调整后提高了0.1 左右。

图3 调整情感极性分类后模型的F1 值

在环境要素的分类上,原有的分类模式为多分类,将环境文本划分为水、大气、土壤等6 个类别,模型分类时只对文本生成一个标签。不同类别的语料之间存在重合,多分类的效果较差,微平均值在0.7左右。因此,环境要素的分类更改为二分类的方式,即按照是否含有某一环境要素对环境文本进行分类。测试结果如图4 所示,二分类模型具有较高的微平均值,模型效果更好。训练语料数量超过500 条时,F1 值逐渐趋于稳定。在土壤、声、生物这3 种要素的识别上,模型的微平均值可达0.90。在废物、水环境、空气这3 种要素的识别上,模型的微平均值也均在0.80 以上。

图4 环境要素在二分类模式下的F1 值

2.3 模型优选

从分类效果上看,朴素贝叶斯的微平均值明显低于其他两种算法。而在处理时间上,卷积神经网络算法的效率最高。因此,评价方法选取卷积神经网络作为模型构建的内在算法。在分类框架上,环境要素的二分类以及文体来源的多分类效果较好,微平均值随着语料数目的增加趋于稳定。因此,在环境要素的分类上,采用二分类的方式进行模型训练。在情感分析上,不同分类的微平均值随着训练语料的增加逐渐提高。因此,情感分析模型采用3种分类类别(正面、负面、中性)。模型构建时的训练语料数量为2 000 条。

最终得到的环境形象评价流程如图5 所示。环境要素分类模型的微平均值在0.80 到0.90 之间,情感分析模型的微平均值在0.80 以上,文体来源分类模型的微平均值在0.90 左右,分类的效果较好,基本满足地区形象评价的要求。

图5 基于互联网传播文本的环境形象评价流程

3 环境形象评价方法在长三角地区的应用

方法可以对地区的环境新闻进行分类处理和情感分析。依托计算机自然语言处理技术,方法可以快速分析互联网生态环境大数据,实时动态地展现地区的环境形象,为地区的环境管理提供科学化支持。为验证方法的可行性,研究搜集了长三角地区各城市的环境新闻,对不同城市的环境形象进行评估。长三角各地区的环境新闻主要来自于网络爬取,基于的网页平台为百度搜索。通过设置关键词的形式,网络爬虫逐日搜索环境新闻,经过筛选后存储至服务器。存储的文本信息包括新闻标题、新闻内容、新闻的产生时间和获取时间以及该新闻所属的地区。

3.1 长三角地区环境新闻概览

环境新闻的检索时间为2017 年1 月至2020 年12 月,来源网站主要包括人民网、新浪网、凤凰新闻等。长三角地区的环境新闻共计733 393 条,其中上海市30 247 条,江苏省257 910 条,浙江省247 602 条,安徽省197 634 条。方法对环境新闻进行文本分类和情感分析,得到了地区关注的环境要素和环境情感形象。如图6 所示,各省市关注的环境要素主要集中在“水环境”“空气”以及“废物”这3 类。其中,上海市涉及“废物”的环境新闻占比相对较高。这说明上海市的环境舆情对垃圾分类政策十分关注,反映了上海市在垃圾分类工作上的开展状况。

图6 长三角省市各要素新闻数量占比

3.2 长三角地区环境形象分析

长三角地区城市的环境形象以正面为主,负面新闻在数量上占比相对较低。但负面新闻包含的环境信息更具代表性,更能反映地区的环境讨论热点。因此,基于2017 年至2020 年长三角地区的互联网舆情,研究统计了长三角各城市的负面环境新闻占比,以此反映不同地区的环境形象。长三角地区的负面环境新闻平均占比为10%,不同城市之间差异较大,总体占比在3%至20%之间(见图7)。环境形象较好的城市包括湖州市、南京市、黄山市、舟山市、嘉兴市和上海市,负面新闻占比均低于6%。而环境形象较差的城市包括盐城市、温州市、淮南市,负面新闻占比均高于15%。环境污染事件和环保督察政策对城市的环境形象影响很大。盐城市的负面环境形象主要来自于响水企业爆炸事故和辉丰公司的污染报道。温州市的负面环境形象主要来自于中央生态环境保护督察组的问责和通报。淮南市的负面环境形象则主要来自于重污染天气相关报道以及环保督察的整改通知。

表4 长三角城市负面环境新闻占比

针对环境文本的内容,方法还可以进行关键词分析和热点舆情提取。如图7 所示,环境词云图展示了地区的热点环境问题。巢湖市的环境热点讨论包含“污水”“湿地”“流域”等关键词,黄山市的环境热点讨论包含“垃圾”“太平湖”等关键词。

图7 黄山市和巢湖市环境词云

不同地区的讨论主题存在城乡差异。以安徽省合肥市为例,中心城区包括庐阳区、瑶海区、包河区、蜀山区等,周边县城包括长丰县、肥东县、肥西县等。在环境形象关键词上,中心城区集中出现“垃圾”“分类”等关键词,而周边农村地区则集中出现“水污染”“臭水河”以及“生态治理”等关键词(见表5)。

表5 合肥市各区县的环境形象关键词

4 结论

(1)互联网环境传播文本包含了地区环境领域的相关信息。利用自然语言处理技术,构建地区环境传播大数据的处理方法,对地区环境新闻进行文本挖掘,可以用于评价地区的环境形象,识别地区的环境问题。

(2)环境形象分析方法采用有监督式分类算法,能快速处理和分析地区环境文本大数据,实现生态环境大数据的信息挖掘与应用。

(3)环境形象评价模型主要采用卷积神经网络算法处理环境文本。文本分类模型和情感分析模型的微平均值在0.7~0.9 之间。

(4)方法评价了长三角地区各城市的环境形象,验证了其实际运用的可行性。长三角地区的环境形象整体呈正面,不同地区在环境讨论主题和环境要素分布上有一定差异。

(5)方法利用文本分类和情感分析手段,处理分析地区环境传播大数据,监控地区环境舆情,评价地区环境形象,有助于地区环境管理和决策的科学化。

猜你喜欢

语料分类算法
哪种算法简便
面向低资源神经机器翻译的回译方法
可比语料库构建与可比度计算研究综述
Travellng thg World Full—time for Rree
进位加法的两种算法
根据问题 确定算法
按需分类
教你一招:数的分类
说说分类那些事
给塑料分分类吧