APP下载

基于美团在线评论的付费自习室评价研究

2022-05-21刘银婷李秋敏詹洁

商展经济 2022年10期
关键词:特征词自习室负面

刘银婷 李秋敏 詹洁

(成都信息工程大学 四川成都 610103)

随着社会就业压力的提高,终身学习的意识深入人心,付费自习室是共享经济发展下的产物,有自习需求的人们在家或多或少会被干扰。公共图书馆座位有限,咖啡馆相对嘈杂,所以付费自习室逐渐变成了合适的选择,商家通过构建沉浸式学习格子间并提供相应的学习条件和学习氛围,消费者依据使用时间付费来获得自习室座位的使用权。目前,国内学者对付费自习室的研究多集中在付费自习室的发展历程、兴起原因、用户满意的影响因素和未来发展,在研究方法上多为对问卷调查结果的简单描述统计,未建立模型构建指标深入探讨,基于线上评论信息挖掘分析的研究较少,本文意在借鉴其他学者的研究方法;首先,通过收集美团平台中付费自习室的在线评论文本,对评论数据进行机械压缩去词、分词、过滤停用词等初步处理;然后,对文本进行情感倾向分类和语义网络分析,分别建立正面、负面评价的词频联系;最后,通过主题模型提取潜在主题,得到消费者对付费自习室的满意点与抱怨点并对付费自习室的发展提出建议。

1 数据来源与预处理

1.1 数据来源

由于目前付费自习室多分布于人口密集、教育资源领先、付费意愿强烈的一线和新一线城市,故分别选取北京、上海、广州、深圳、成都、长沙、郑州七个城市中具有代表性的付费自习室作为分析对象,利用Python语言的Scrapy爬虫框架对美团平台上中付费自习室的在线评论进行解析,爬取得到近5000条在线评论文本数据,除去无效评论与不齐全记录后筛选得到4538条评论作为样本数据。

1.2 数据预处理

机械压缩去词:在美团付费自习室的在线评论中常存在着大量重复语料、颜文字、缩写词汇如“非常好好好好好好好好好,很安静”“不错不错不错”等,过于冗余,需要对其进行机械压缩去词处理[1]。

分词:由于文本的句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,并按照规则重新合成词序列。本文采用Python开发的一个中文模块——jieba分词,对评论内容进行中文分词。

过滤停用词:在文本处理中,停用词是指那些包含信息少且在文中大量出现的词语。它们通常是一些单字及高频的单词,如“的”“甚至”“我”“吗”等。因此,过滤停用词能有效提高文本的检索效率和效果,以避免对文本特别是短文本造成负面的影响。本文在哈尔滨工业大学停用词表基础上结合具体评论内容构建综合停用词表,对分词结果进行过滤[2]。

表1 数据预处理结果

2 研究方法与分析

2.1 基于机器学习的情感分析

本文将收集到的10000条带有标注的语料集作为训练集,使用朴素贝叶斯模型进行训练拟合,训练出更好的词向量,来预测新数据的分类结果,在准确率达到98.5%,损失率为0.61%的情况下,预测付费自习室的评论内容分为带有正面情绪的评论与带有负面情绪的评论两类[3],结果如表2所示。

表2 情感分布情况

上述结果显示,消费者对付费自习室的正面评价有4265条,占总评论条数的93.98%;消费者对付费自习室的负面评价有273条,占总评论条数的6.02%。从总体上说,当前消费者对付费自习室的评价大多为好评。但差评的内容更是关注的重点,情感分类只能直观地看出消费者总体使用感受,不能得到具体的内容反馈。

2.2 语义网络模型

为了找出各评论词汇的主要内容之间的关系,进一步建立语义网络模型,分别提取出正面情绪词汇和负面情绪的高频词汇,并过滤掉无意义的词语,基于高频词表提取特征值,最后构建正面评价语义网络和负面评价语义网络,生成共现矩阵词表展现文本数据的一般关注对象[4]。语义网络如图1、图2所示。

图1 正面评价语义网络

图2 负面评价语义网络

根据付费自习室正面评价的语义网络图,可得以下结论:在付费自习室的环境方面,正面语义网络中存在安静、干净、氛围等相似词汇关系;在付费自习室的设施方面,正面语义网络中存在微波炉、茶水、咖啡、零食等相似词汇关系;在付费自习室的服务方面,正面语义网络中存在姐姐、热情、前台等相似词汇关系;在付费自习室的地理位置方面,正面语义网络存在好找、区域、地铁站等相似词汇关系;在消费者体验方面,正面语义网络中存在舒服、沉浸、很棒、不错、喜欢、效率等相似词汇关系。

根据付费自习室负面评价的语义网络图,可以得到以下结论:在付费自习室的环境方面,负面语义网络中存在隔音、装修、味道、通风、空气等相似词汇关系;在付费自习室的设施方面,负面语义网络中存在厕所、空调、桌子、卫生间等相似词汇关系;在付费自习室的服务方面,负面语义网络中存在小姐姐等相似词汇关系;在付费自习室的地理位置方面,负面语义网络中存在位置等相似词汇关系;在消费者体验方面,负面语义网络中存在不好、花钱、体验、略贵等相似词汇关系。

为了更直观地看出正面、负面语义的具体范围,本文制作了词云图,如图3、图4所示。

图3 正面评价词云图

图4 负面评价词云图

综上所 述,付费自习室能够为我们提供安静的学习氛围,是受到消费者追捧的主要原因。付费自习室行业突然兴起,大量商家跟风创建付费自习室的同时环境和设施并没有达到消费者的要求,存在隔音不好、通风不畅、厕所脏乱少等问题。

2.3 主题模型

为对在线评论的潜在主题进行挖掘,展现主题之间的差异化特点,需要进行特征主题分析,进一步细化特征词类型[5]。本文使用基于机器学习的情感分类结果产生的正面评价和负面评价作为输入数据集,对不同情感倾向下的潜在主题分别进行挖掘,得到付费自习室评价的潜在主题与特征词的概率分布情况,选择前三个主题作为评论集中的热点,并得出对应的热点评论词。

根据付费自习室正面评论的三个潜在主题的特征词的提取,主题一中的高频特征词,即热门关注点主要是“自习室”(0.026%)、“学习”(0.026%)、“安静”(0.014%)、“体验”(0.014%)、“环境”(0.014%)、“氛围”(0.011%)、“不错”(0.010%)、“地方”(0.010%)、“感觉”(0.009%)、“挺”(0.008%),由此可以看出,主题一主要是反映付费自习室很安静;主题二的高频特征词,即热门关注点主要是“自习室”(0.024%)、“环境”(0.023%)、“学习”(0.018%)、“不错”(0.011%)、“体验”(0.011%)、“特别”(0.010%)、“喜欢”(0.009%)、“免费”(0.008%)、“真的”(0.007%)、“姐姐”(0.007%),由此可以看出,主题二主要是反映消费者对付费自习室的环境很满意;主题三的高频特征词,即热门关注点主要是“学习”(0.054%)、“环境”(0.044%)、“安静”(0.036%)、“不错”(0.021%)、“适合”(0.016%)、“氛围”(0.015%)、“姐姐”(0.013%)、“地方”(0.009%)、“自习”(0.009%)、“干净”(0.009%),由此可以看出,主题三主要是反映付费自习室的学习氛围良好。

将付费自习室正面评论的三个主题特征词出现的概率进行统计加和,得到条形图如图5所示,可以明显看出,付费自习室正面评论中主题分布差异较大,主题三占比最高,占0.226%,主题一、主题二分别占比0.142%、0.128%。由主题一主要关注在付费自习室的学习氛围方面,我们可以得到结论:有自习需求的人们在家或多或少会被干扰,公共图书馆座位有限,咖啡馆相对嘈杂,所以能提供良好学习氛围的付费自习室逐渐受到了消费者的追捧。

图5 付费自习室正向评论分布图

根据付费自习室负面评论的三个潜在主题的特征词的提取,主题一中的高频特征词,即热门关注点主要是“环境”(0.017%)、“贵”(0.012%)、“自习”(0.009%)、“位置”(0.007%)、“价格”(0.007%)、“学习”(0.006%)、“座位”(0.006%)、“希望”(0.006%)、“体验”(0.006%)、“卡”(0.005%),由此可以看出,主题一主要是反映消费者认为付费自习室价格贵;主题二的高频特征词,即热门关注点主要是“自习室”(0.010%)、“学习”(0.009%)、“环境”(0.009%)、“厕所”(0.008%)、“位置”(0.008%)、“吵”(0.008%)、“楼下”(0.007%)、“公共”(0.007%)、“服务”(0.006%)、“区域”(0.005%),由此可以看出,主题二主要是反映消费者认为付费自习室周围环境吵;主题三的高频特征词,即热门关注点主要是“自习”(0.008%)、“通风”(0.007%)、“地方”(0.007%)、“差”(0.006%)、“学习”(0.006%)、“空调”(0.006%)、“唯一”(0.006%)、“房间”(0.005%)、“特别”(0.005%)、“太”(0.005%),由此可以看出,主题三主要是反映消费者认为付费自习室通风不好,空气差。

将付费自习室负面评论的三个主题特征词出现的概率进行统计加和,得到条形图如图6所示,可以明显看出,付费自习室负面评论中主题分布差异不大,主题一、主题二、主题三分别占比0.081%、0.077%、0.061%。根据三个主题关注的内容,我们可以得到结论:消费者对付费自习室不满意的原因有付费自习室价格较昂贵;付费自习室所处的地理位置周围环境不安静;付费自习室通风不是太好,空气质量差。

图6 付费自习室负向评论分布图

3 结论与建议

3.1 相关结论

为得到消费者对付费自习室的客观全面的评价,本文在对美团平台中付费自习室在线评论的文本挖掘过程中,进行了情感分类、语义网络分析和LDA模型主题分析,实证研究的结果为当前消费者对付费自习室的评价大多是正向评价;付费自习室受到消费者的追捧的主要原因是提供好的学习氛围;消费者对付费自习室不满意的主要原因是付费自习室价格昂贵、付费自习室所处的地理位置周围环境不安静、付费自习室通风不好、空气质量差、付费自习室的厕所等设施有待完善等。

3.2 相关建议

建立分区自习室,分人群收费,合理定价:由于每个受众的收入水平不一,对付费自习室价格的接受程度也不同,因此可以建立低价区和高价区等不同类型自习室,满足不同消费水平人员的需求。同时利润高和利润低的自习室能综合维持企业的持续经营[6]。

合理选址,选择安静的环境:学习环境是影响学习效率的一大因素,商家在选择付费自习室的创建地点时,应该尽量选择周围环境安静的地点;另外,商家应使用隔音较好的隔板及静音设备,给消费者提供安静的学习环境[7]。

优化付费自习室的设施:商家在付费自习室中尽可能地提供便利服务,付费自习室的设施应更加齐全,提供干净充足的公共卫生间、日常生活的必需品与宽敞的学习空间,另外室内也要常通风,保持空气清新[8]。

猜你喜欢

特征词自习室负面
边读研边做副业
付费自习室爆火,“焦虑性充电”有无必要
基于类信息的TF-IDF权重分析与改进①
付费自习室走红
突然爆红的“付费自习室”会是一个新风口吗?
负面清单之后的电改
基于改进TFIDF算法的邮件分类技术
正面的人和负面的人
产品评论文本中特征词提取及其关联模型构建与应用
面向文本分类的特征词选取方法研究与改进