APP下载

基于领域情感词库的大气质量感知满意度研究*

2020-09-24宋鹏飞张立国

环境污染与防治 2020年9期
关键词:词库词典副词

郑 岩 孙 勇# 季 民 宋鹏飞 张立国

(1.山东科技大学测绘科学与工程学院,山东 青岛 266590;2.山东省国土测绘院,山东 济南 250013)

大气质量感知是人通过主观的直接感受对客观空气质量的反映[1]。公众对于大气质量感知的满意度是政府进行大气污染评价的重要依据。受ZEITHAML[2]提出的消费品质量感知启发,许多学者对大气质量感知进行了研究。张君等[3]通过大气质量感知研究表明,公众对大气污染的关注度在不断提升。张文晓等[4]研究发现,居民收入、人力资本水平、职业状况会对大气质量感知满意度产生影响。FEO等[5]研究发现,垃圾处理厂及其产生的气味对周边居民的大气质量感知满意度产生直接影响。这些研究基本上都采用的是纸质调查问卷方式,这种方式研究成本大、覆盖范围窄、更新速度慢,不利于进行大气质量感知满意度的动态跟踪。

随着网络技术的发展和普及,公众更倾向于在网络上发表言论,很多有关空气质量的投诉和建议平台也应运而生。这些平台中的评论数量多、更新速度快、覆盖范围广,利用公众对于大气质量感知的各种情感色彩和情感倾向性的词(即情感词)进行情感分析[6-8],可获得公众对于大气质量感知的满意度。因此,建立公众对于大气质量感知的情感词库至关重要。目前,国内仅有大连理工大学、台湾大学和知网等的基础情感词库,对大气质量感知的适用性较差。为此,本研究构建了一套完整的大气质量感知领域情感词库,基于该领域情感词库分析大气质量感知满意度,以提高利用网络平台进行大气质量感知满意度评价的精度。

1 方 法

1.1 数据搜集

(1) 空气质量投诉网络平台数据:来源于山东省环境公诉(信访)平台(http://124.128.64.175/tabid/202/Default.aspx)的公众投诉数据,主要提取了2011年6月至2018年10月的22 269条投诉数据。

(2) 网络问卷调查数据:为更精准地获取更多大气质量感知领域情感词,自主设计了网络调查问卷(http://123.206.81.238:8008/air/index.html),获取了2018年12月至2019年2月的719条有效数据,涵盖山东省、江苏省、湖北省、河北省、福建省、北京市和安徽省等地区。

1.2 基础情感词库构建

基础情感词库由基础情感词典和修饰词词典构成。基础情感词典选用的是大连理工大学信息检索研究室整理并标注的中文情感词典,包括动词、名词、形容词、副词、网络用语和成语,每一个词语都标注了对应的情感极性(中性、褒义和贬义),中性的情感强度为0,褒义和贬义的情感强度分别分为1、3、5、7、9共5个级别。修饰词词典包括否定词和程度副词。其中,程度副词包括欠、稍、较、很、极其5个级别,本研究对这些程度副词权重进行了量化赋值,欠为0.6、稍为0.8,较为1.2、很为2.0、极其为3.0。目前,这些程度副词的权重量化基本仅凭经验赋值。

1.3 领域情感词典构建

以空气质量投诉网络平台数据和网络问卷调查数据作为原始文本语料,按图1流程构建领域情感词典。领域情感词典共包含2 137个词语,包括词语及其分类、极性和情感强度等注释。

(1) 分词处理

本研究采用Jieba分词工具对原始文本语料进行分词处理,但其对专业领域的新词识别精度不高[9-10],因此本研究加入了大气质量感知领域的自定义词典[11]。

(2) 结合基础情感词典去重

图1 领域情感词典的构建Fig.1 Construction of domain emotion dictionary

在分词处理的基础上,将得到的分词短语与基础情感词典中的词语进行比对,去重后得到候选情感词。

(3) 选择与大气质量感知相关的情感词

根据基础情感词典中的分类,分类选择与大气质量感知相关的情感词,作为初始领域情感词(2 072个)。

(4) 补充网络搜索领域情感词

在百度百科中检索“大气污染”又获取大气质量感知领域词126个,与初始领域情感词去重后合并,得到最终领域情感词(2 137个)。

(5) 情感强度标注

1.4 大气质量感知满意度计算

把领域情感词典合并到基础情感词库中就构成了领域情感词库。随机选取3 000条空气质量投诉网络平台数据,利用情感词库进行大气质量感知满意度计算。首先根据式(1)计算第m个短语的大气质量感知满意度(E(Pm)),每个分句的大气质量感知满意度取该分句中所有短语的大气质量感知满意度最小值,所有分句大气质量感知满意度最小值作为整条文本语句的大气质量感知满意度。

表1 情感强度标注准则

E(Pm)=E(PW)×(-1)q×E(PA)

(1)

式中:E(PW)为某情感词的情感强度;q为某情感词的否定词个数;E(PA)为程度副词的权重。

2 结果与讨论

2.1 计算精度对比

将3 000条空气质量投诉网络平台数据利用情感词库计算得到大气质量感知满意度,与5人人工标注的大气质量感知满意度平均值进行对比,计算绝对误差绝对值作为精度判断依据,结果如表2所示。本研究设定绝对误差绝对值≤2为符合精度要求,否者为不符合。由表2可以得出,采用基础情感词库计算得到的大气质量感知满意度符合精度要求的条数只占33.1%,而利用领域情感词库计算得到的大气质量感知满意度符合精度要求的条数高达93.9%。由此可见,大气质量感知领域情感词典可为大气质量感知满意度计算提供强有力的支撑。

表2 精度对比结果

2.2 大气质量感知满意度分析

利用空气质量投诉网络平台数据采用领域情感词库对山东省最近1年的投诉数据进行大气质量感知满意度计算,并按地级市进行统计汇总(见图2)。

图2 山东省大气质量感知满意度Fig.2 Atmospheric quality perception satisfaction of Shandong Province

由图2可以看到,烟台市、潍坊市、临沂市、青岛市4个地级市大气质量感知满意度较差,而威海市和日照市两个沿海的地级市大气质量感知满意度相对较好一些。分析山东省各地级市工业收入发现,工业收入排名靠前的城市投诉多,大气质量感知满意度偏差。

由于空气质量投诉网络平台数据多为负向情感,具有一定的情感偏向性,为避免这种情感偏向性对计算结果造成的影响,进一步选用网络问卷调查数据对更多省份(选择回收数据大于10条的省份)进行大气质量感知满意度计算,结果如图3所示。

图3 其他省份大气质量感知满意度Fig.3 Atmospheric quality perception satisfaction of other provinces

由图3可以看到,不同省份表现出不同的大气质量感知满意度,福建省正向大气质量感知满意度较高,而江苏省、湖北省和河北省则具有较强烈的负向大气质量感知满意度。总体而言,公众感知大气污染越严重,该地区的整体大气质量越差,说明公众大气质量感知满意度能够正确反映区域的整体大气质量状况。

3 结 论

(1) 建立了大气质量感知领域情感词库并用于大气质量感知满意度计算,计算精度高达93.9%,远高于利用基础情感词库计算得到的大气质量感知满意度精度(33.1%),可有效计算大气质量感知满意度。

(2) 山东省烟台市、潍坊市、临沂市、青岛市4个地级市的大气质量感知满意度较差,而威海市和日照市两个沿海的地级市大气质量感知满意度相对较好一些。工业收入排名靠前的城市投诉较多,大气质量感知满意度偏差。

(3) 不同省份表现出不同的大气满意度,福建省正向大气质量感知满意度较高,而江苏省、湖北省和河北省则具有较强烈的负向大气质量感知满意度。公众大气质量感知满意度能够正确反映区域的整体大气质量状况。

猜你喜欢

词库词典副词
韩国语副词“더”与汉语副词“更”“再”的对应
一“吃”多用
米兰·昆德拉的A-Z词典(节选)
米沃什词典
输入法词库取证比较研究
短句—副词+谓语
词典引发的政治辩论由来已久 精读
输入法词库乾坤大挪移
漫画词典
副词和副词词组