APP下载

基于CRTP模型的极端消极评论的内容价值研究

2019-09-10佘玉萍车艳

关键词:内容分析

佘玉萍 车艳

摘 要:以获取有助于改进电子商务中商品质量的评论为直接目标,研究用户评论的内容价值。主要面向用户极端消极评论,从评论内容的极端消极评论的筛选、文本词条化、词条之间的紧密联系等方面来探讨评论文本的价值,采用多层次的文本内容分析技术提取词条间联系,设计可行的面向极端消极评论的内容价值的CRTP模型。实验表明,基于CRTP模型的极端消极评论内容分析可有助于商品质量及服务改进,提高评论的效用价值。

关键词:极端消极评论;中文文本挖掘;CRTP模型;内容分析

中图分类号:TP181

文献标识码: A

随着电子商务网站的发展,大量针对商品或者服务的用户评论也随着商品的销售而不断更新。在线用户评论成了用户体验的直接表现,也为后续用户参与提供了参考。用户评论一般有积极评论(也称为好评)和消极评论(也称为差评)两种,对用户体验有着积极和消极的影响。积极评论是商家和消费者都比较喜欢与关注的一类评价,而消极评论却是商家想删除的一类评价,但是反过来,如果能分析消极评论里提及的缺陷并进行改进,恰恰可以帮助商家提高产品及服务质量,对各商家自身改进具有现实及经济意义。

1 相关研究

对产品评级最高或最低分数是一种极端评级行为,存在评论者故意褒扬或诋毁产品的可能性。具体模型设置中,在五星评级体系中对产品评定为一星和五星,是一种极端评级行为[1]。研究表明情感极性通过评级体现,如五星评分制的系统中积极情感对应的产品评级为四星和五星。MUKHERJEE[1]等人发现,85%的虚假评论者发布的评论中80%的评论为积极评论,所以本文以商家的角度,从可信度更高的极端消极评论入手进行分析。站在商家的角度,消极的评论更真实,更有助于改进产品,即便是同行竞争者的虚假恶意评价,也可以起到防范作用。在这一背景下,用户评论,尤其是极端消极评论的效用分析成了电子商务的热点研究,同时也成为中文文本挖掘的研究热点。

相关研究中,评論内容质量问题通常被理解为评论内容对于有目的的信息使用的影响程度。随着大数据时代的到来,在线评论日益增多,海量的数据及其真假难辨的质量使评论的效用研究具有更好的现实意义[2]。目前对于评论效用评价的研究主要有以下方法:一类是以计量分析为主的评论效用评价研究,主要采用回归模型解释影响评论效用的重要因素。LU和MUDAMBI[3,4]等人把评论的质量看成是质量影响因素的线性组合,文献[2,5,6]则把评论的质量转化成多元线性回归的模型,提取了所有可获得的与评论内容相关的数据特征。尤其是从评论人特征以及面向评论内容的情感特征来探究评论对消费者和商家的效用价值。这类研究侧重主客观分析,缺少对评论内容进行进一步的语义分析。另一类是把评论效用评价分析转化为分类任务,利用机器学习的方法来构建分类预测模型。KIM[7]等利用支持向量机(SVM)分别从结构、词法、句法、语义、元数据5个文本特征对评论有用性进行研究。ZHANG ZHU[8]等人同样采用了SVM预测评论质量,发现了专有名词、情态动词等语言特征在预测时的贡献最显著。虽然SVM在文本分析上优于诸多其他分类算法,但结论不易被较好理解。

本文主要对评论文本内容进行深层次分析,因此围绕本文的研究目标,研究评论内容的内容价值。GHOSE[2]等人的研究面向英文评论内容,本文是基于中文评论内容,在研究评论效用评级CRTP模型的同时,主要从极端消极评论的获取,中文评论文本的词条化及词条间的联系进行了探索,最后通过实验进行了验证分析。

2 研究流程及模型

2.1 研究流程

本文以京东平台上洪恩教育官方旗舰店采集的点读产品(TTP581)的用户评论为研究数据,停用词采用的是文献[9]中的中文停用词表(共1893个)。极端消极评论的文本分析的流程是收集评论数据集,筛选出极端消极评论数据(即评论星级为1星),考虑消费者可能一次购买点读产品以及附属产品,但评论语却是多条重复的,考虑本文研究的是评论内容的效用性,所以删除同一个消费者账号下的重复评论,之后根据停用词表把评论进行过滤,接下去的任务也是研究的重点,如何进行有效的中文评论文本处理(简称CRTP模型,Chinese Review Text Processing)。极端消极评论文本分析的处理流程如图1所示。

2.2 CRTP模型

本文提出了分析评论内容效用的模型,CRTP模型。评论内容效用分析要从中文文本挖掘入手,对评论语进行预处理,评论语词条化,最为关键的是如何挖掘评论内容的价值,本文主要研究词条间的联系,根据联系的紧密程度来观察词条的关系,进行预测评论的文本内容的效用。CRTP模型的目的就是有效进行评论语的词条化以及研究词条间的紧密联系。假设R={r1,r,…ri,…,rn}为极端消极评论集,T={t1,t2,…,tj,…tm}为评论词条集合。在构建CRTP模型前需要先构建一个评论词条矩阵(如表1所示),其中wij为tj在ri中出现的次数,如果第i个词条在第j个评论里多次重复出现,本文只做一次计数,这样可以杜绝同一个评论语里恶意多次复制同一个句子或者短语的现象。

4 结束语

在线用户评论的分析是文本分析的一个领域,目前国内外已有很多研究[11],而中文用户评论的研究相对较少,且深入分析中文评论文本内容的几乎没有,针对极端消极评论文本内容分析从而获取改善商品的研究几乎没有。本文在面向极端消极评论的内容价值分析做了初步探索的同时,也以点读产品(TTP581)的评论数据得到了有助于改善商品的文本分析,且通过实验验证了CRTP模型的可靠性,但仍然有待于改进,如本文的极端消极评论只考虑评论星级为1星(最低)的情况,可能遗漏其他星级评论对商品的有效评论。

参考文献:

[1]MUKHERJEE A,VENKATARAMAN V,LIU B,GLANCE N .What yelp fake review filter might be doing[C].//Proceedings of the International AAAI Conference on Web and Social Media.Washington, USA, 2013: 409-418.

[2]GHOSE A,IPEIROTIS PG. Estimating the helpfulness and economic impact of product reviews: mining text and reviewer characteristics[J]. IEEE Transasctions on Knowledge and Data Engineering,2011,23(10):1498-1512.

[3]LU Y,TSAPARAS P,NTOULAS A, et al. Exploiting social context for review quality prediction[C].//Proceedings of 19th international conferece. on World Wid Web. New York: ACM Press,2010.691-700.

[4]MUDAMBI SM,SCHUFF D. What makes a helpful online review a study of customer reviews on amazon.com.MIS Quarterly,2010,34(1):185-200.

[5]GHOSE A,IPEIROTIS PG. Desining novel review ranking systems:Predicting the usefulness and impact of reviews[C].//Proceedings of the 9th Int'l Conf. on Electronic Commerece: The Wireless World of Electronic Commerece.New York:ACM Press,2007.303-310.

[6]OTTERBACHER J. “Helpfulness” in online communities: A measure of message quality[C].//Proceedings of the 27th Int′l Conf.on Human Factors in Computing Systems. New York:ACM Press, 2009.955-964.

[7]KIM S,PANTEL P,CHKLOVSKI T, et al. Automatically assessing review helpfulness[C].// Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Liguistics,2006:423- 430.

[8]ZHANG Z, VARADARAJAN B. Utility scoring of product reviews[C].//Proceedings of the 15th ACM international conference on Information and knowledge management. New York:ACM,2006:51-57.

[9]CSDN,最全中文停用詞表[EB/OL].https://blog.csdn.net/shijiebei2009/article/details/39696571 ,2014-09-30.

[10]Wikipedia,Zipf's law[EB/OL].https://en wikipedia. org/wiki/Zipf%27s_law ,2018-10-6.

[11]林煜明,王晓玲,朱涛,等.用户评论的质量检测与控制研究综述[J]. 软件学报, 2014,25(3):506-527.

(责任编辑:于慧梅)

猜你喜欢

内容分析
国内电子商务学术研究进展分析
美国科学教育标准实施的新动向
三重表征视野下“金属晶体”内容分析与教学过程设计
改革开放以来幼师学前心理学教材发展演变历程
“老人摔倒”新闻正面报道的负效应研究
2016年《中国日报》“两会”数据新闻报道研究
从《远程教育》35年载文看远程教育研究趋势
基于引文分析与内容分析的专利计量与评价的理论探索
历史人物人格主要研究方法评析