APP下载

电商平台恶性用户治理文献综述

2019-09-10王逸勐

青年生活 2019年35期
关键词:水军电商平台社交网络

王逸勐

摘要:随着各式电商平台、社交平台的兴起,相关利益群体开始利用平台机制,操控舆论,影响正常用户认知并以此谋利。相关恶性事件频频发生,平台生态的治理成为一个日渐严峻的问题。本文通过梳理相关研究的四条脉络,总结出三条相关研究未来发展的有效途径,并提出基于无监督学习的恶性用户治理方法以解决当下研究遇到的困境。

关键词:恶性用户  水军 社交网络 无监督学习 电商平台

引言

用户是电商平台生态中的核心元素之一。

以用户评论为例,相较于实体店,电商平台无法提供直接的产品体验,用户在进行商品选择时,在很大程度上要依靠于其他用户对产品的评价[1]。一个好的用户评论体系能够显著提高电商平台对入驻商家的治理水平,降低监督成本,形成一系列良性连锁反应。

然而,当下各电商平台中刷单现象严重,各商家用户评论中充斥着的各种水军与刷单机器人的言论,并在极大程度上决定了电商平台中目标产品的评价舆论场,从而影响用户决策[2]。

杨珂等[3]指出,目前电子商务领域多盛行电商水军与商家合作,对目标产品造势营销,以影响消费者。如今,社会上存在着一群职业套利群体. 他们通过机器人, 注册机, 模拟器, 猫池等多种形式在平台上注册大量虚假用户账号, 从而扰乱平台环境、利用平台漏洞并以此谋利。

在2018 年中国信通院和腾讯联合发布的《数字金融反欺诈》[ 4]中列举了 2018 年发生的多起较严重的职业“羊毛党”套利事件: 某“羊毛党”发现国内某知名电商平台存在漏洞, 利用这个漏洞可以无限制领取 100 元无门槛全场通用券, 于是他通过手中大量该电商账号领券, 并以每张券不足 1 元购买 100 元话费或 QQ 币的形式套现. 最后为了逃避被追责, 该“羊毛党”将漏洞发到羊毛群中, 引发大量“羊毛党”疯狂“薅羊毛”, 最终造成电商平台巨额损失. 据官方通告, 损失在千万元级别。

另外需要指出的是,在电商平台与社交平台逐步融合的当下,网络水军对电商平台的影响力正在逐步扩大。研究表明[5],现阶段,“机器人水军” 的发展已经影响到社会政治、经济等多元深层结构与领域。“机器人水军”推动的虚假信息和营造的网络环境被传播、放大后,直接影响经济市场,被渲染、传播的网络热点事件,会对民众形成误导,深刻影响民众的社会生活。

近期,央视曝光明星流量造假问题,并表示要求相关部门严打流量造假行為。就此,新浪微博作出回应:

首先,外挂软件刷数据,流量“竞赛”已蜕变为互联网黑产,在这种“竞赛”中,微博作为平台不仅收获不到正常的用户和流量,反而要承担由此带来的风险,微博是完全不愿意见到这种“竞赛”继续下去,并且也做出了相关的产品调整。

其次,刷数据主要表现为刷转发、刷评论,目前这种已经脱离常识的数据也都并非由真人粉丝完成,而主要是借助各种可以登录多个微博账号的“外挂”软件完成,而“外挂”的开发运营者,则依靠登录账号的数量赚取利润。

针对以上现象中可能存在违法犯罪行为,从去年开始微博已经多次向公安机关提供所掌握的证据材料进行报案。[6]

水军相关的产业在暗处悄悄生长,其破坏力已不容小觑。

2019年6月10日晚间,“蔡徐坤1亿微博转发量的幕后操盘手星援App已被查封”的消息引爆网络。

去年8月,蔡徐坤通过微博发布原创歌曲MV《Pull Up》,仅用10天左右的时间便实现转发量破亿次,但与高转发量相对应的却是,评论量仅约240万次,点赞量则约106万次,差距最高可达95倍,使得造假的质疑愈演愈烈。

这条被怀疑数据造假的微博也受到监管部门的关注,在公安部开展“净网2019”专项行动的过程中,北京市公安局网安总队会同丰台网安对此介入调查。随后在今年3月,警方锁定位于福建省泉州市丰泽区某办公楼内的星援网络科技有限公司,将4名涉案人员全部抓获。其中,该公司法人蔡某因涉嫌破坏计算机信息系统已被丰台检察院批捕,同时警方正对另外三人开展进一步工作。且经调查发现,不到一年的时间,“星援”App便非法获利近800万元。

不仅如此,北京商报记者经调查发现,“星援”App只是众多刷量软件的冰山一角,市面上还存在多个提供刷微博转发量、评论量、点赞量的软件。[7]

可见,从电商平台到社交平台,相关恶性群体已在暗处悄然发展壮大,乃当今社会的一大隐患。

简而言之,对于现有各类平台,都有必要在构建平台伊始便有意识地构造对于水军的系统性防范工程。而相关研究正是旨在为平台提供相关建议,帮助平台建立高效的网络水军防范系统。

研究背景

Web 2.0 时代的到来,改变了网站设计和使用的 方式,其一大特征就是用户生成内容( User-Generated Content,UGC) ,即网站等线上内容由用户创作、贡献

而成。对于多数用户来说,其创造内容的动力主要是——自我表达、获得他人的认可、解决遇到的问题等,他们往往是主动地、自发地创造内容,是内在需要主要驱动的。其中,社交网络作为互联网最重要的平台,在内容分享、娱乐交友、电子商务等各方面发挥不可替代的作用。

网络水军则是被雇佣以发布特定的内容,来达到宣传、营销、炒作等目的,这种行为往往是被动的、利益驱动的内容创造。并且随着社交网络的逐步兴起与壮大,其自身也成为了网络水军生长的温床。

发展脉络

综合该领域研究,可以发现以下四条清晰的发展线索。

反水军战场——从邮件系统到社交媒体

早期的水军主要活跃在国外的邮件系统中,因而关于水军识别方面的研究最早也是起源于国外对于垃圾邮件的识别领域。其研究方法以内容分析为主,邮件特征提取是反垃圾邮件和识别水军的核心。在这个时期,仅通过简单的文本分类即可取得较好的识别效果。

该时期的研究主要集中于基于邮件文本内容、基于异常行为和基于图片特征提取等方面。其中代表性工作包括三方面的内容:

首先,基于文本内容的特征提取主要利用了词汇袋法(bag-ofwords,BoW ) 、稀疏二元多项式哈希(space binary polynomial hashing,SBPH) 、正交稀疏词汇(orthogonal space bigrams,OSB) 、人工免疫系统(biological immune system,BIS)等方法;其次,基于行为的垃圾邮件检测是通过提取垃圾邮件区别于正常邮件的行为特征来检测过滤垃圾邮件。常用的有基于邮件头部信息及系统日志的行为特征 、基于附件的行为特征和基于网络的行为特征等;最后,基于图片的特征提取关键在于提取有效的图片特征。

隨着Web2.0时代的到来,博客、微博等社交平台与电商平台的兴起给了网络水军一个崭新的舞台,在不同活动领域的水军具有截然不同的活动特征,相应的分析方法也因而有所不同。由于在社交平台和电商平台上水军产生影响力的方式不同,研究工作一般基于用户的属性特征和行为特征进行展开。

近年来,网络水军的行动越发呈现出专业化、组织化、隐蔽化等特征,水军们开始有计划有组织地展开行动,电商与水军之间互相勾结的状况也屡见不鲜。因而以往基于用户行为特征、文本内容的和融合特征的分析方法也开始丧失功效,正是在这种背景下,各种基于社交网络的分析方法开始被提出。

特征选取——从文本与行为特征到网络特征

如吴恩达所说:“应用机器学习其实就是在做特征工程,特征工程是非常难、耗时、也是需要专业知识的一个工作。鉴于水军识别本质上是一个分类问题,特征选取是解决该问题的核心。也正因为如此,多数水军识别领域的研究都集中于特征的选取上。如杨臻等[8]提出“评论数偏多、原创话题较少、活动时间集中、评论情感偏向明显”等特征;谢忠红等[9]通过分析正常用户和水军的关系图,提出了粉丝数、关注数、好友粉丝比、注册时间、活跃度、关注速率、双向关注比和互粉数八个特征,张艳梅[10]等提出了粉丝关注比、平均发布微博数、互相关注数、综合质量评价、收藏数和阳光信用六个特征。

然而以上种种基于文本、用户行为以及综合特征的特征选取方法在新环境下的水军识别中已经不再适用。随着各方对水军防范意识的增加,水军的作战策略也在改变,以往的特征已经不能有效辨别他们。在这种背景下,各种基于社交网络分析的方法也应运而生。

如李涛[11]等通过水军账户与普通账户之间深层次的区别,找到了事件参与度、二阶关联性、关系紧密度等特征;文献[12]提出将网络水军看作为整个网络用户中的离群点,崔丽娟[13]等在此基础上利用频繁子图和离群点算法挖掘出来的用户群体定义为疑似网络水军团体。

除此之外,还有一些研究者独辟蹊径,发现了一些有趣的特征选取方法。如陈彤等在发现了水军团体的“对抗性”行为特征后,提出了1用户评论情感与用户打分不一致、用户文字评论与用户上传图片评论都极其相似、用户上传与产品没有任何关系的图片评论三个“隐性特征”。

另外,考虑到水军识别系统最终要实现实时性的在线识别,李岩[15]等使用计算波动率的方式构造了社交网络用户的动态行为特征,构造的特征计算量小、便于实际运用。相较于以往的静态特征,动态特征更符合水军识别系统的需要。

然而,到底哪些行为特征对水军识别较为有效,学术界和工业界均尚无定论。

分析对象——从个体到团体

研究伊始,各种研究的关注点都放在对个体水军的判别上。然而,随着网络水军团体的发展,一方面,越来越多的网络水军之间已形成一定的组织结构,开始有目的有组织地行动;另一方面水军之间为了隐藏自己的内容、行为等异常特征形成了紧密的联系,其个体呈现出的特征趋向于正常用户,导致以检测单个网络水军为主的方法准确率不高。

不少研究者开始将网络水军团体作为研究对象,他们先利用以往的水军识别技术发现网络水军,再利用聚类、社区划分等算法挖掘网络水军团体。然而由于以上提到的种种原因,水军往往表现出与正常用户相似的行为,使得基于聚类的方法不够有效,另外杨柯等研究发现,对隐藏性较高不共享大量目标产品的电商水军团体,单纯以行为特征构建排序或分类识别模型的识别准确率存在瓶颈。

以往都是以识别单个水军为主的研究方法,很少有研究者对网络水军的整体性进行研究。而Chunlong等人[16]通过大量的实验发现网络水军是一个有组织的、具有高度协作性的群体,为网络水军团体的识别研究提供了有效证据。

杨柯等利用电商水军在电子商务平台中形成的用户关系网络,探查其异常用户关系,从而定位密集活动的大规模电商水军团体。崔丽娟等利用改进的频繁子图挖掘算法找出经常一起出现在多个炒作博文 下的用户群体。通过利用图结构,更直观,更清晰地呈现出水军团体成员之间的关系,体现了网络水军团体的结构特征。在此基础上,利用网络水军团体与普通用户群体之间的不同特征,训练了一个基于 C4.5 决策树的网络水军团体分类系统,对疑似网络水军团体判定,得到网络水军团体。

算法设计关注点——从准确度到兼顾效率与可拓展性

现有研究多致力于提升检测算法的准确性,较少关注算法的效率和扩展性,难以有效应对真实环境中的大规模用户数据。大数据分析从来都是一个工程问题,不管研究什么问题,都必须从准确度、效率、可拓展性、实时性等多维度综合考虑,

对此,张 璐等提出一种高效的水军群组检测算法,从两个方面提升算法效率。首先,提出基于余弦模式挖掘的候选群组提取算法,通过余弦相似度衡量群组成员间的耦合性,更加精准地提取候选群组,降低后续识别的计算量。其次,利用组投影技术和 Spark 计算框架设计分布式群组提取算法,提升算法的运行速度和扩展性。

未来发展方向

从研究发展的发展脉络,不难总结如下三条发展方向。

首先,在网络水军日益专业化、组织化、隐蔽化的大背景下,以往那些仅仅关注于文本特征、行为特征和综合特征的研究方法已经不再有效,亟待根据水军活动的现状,从新的视角展开研究。而基于社交网络的研究方法是一条有效路径。

此外,以往的研究缺乏对工程上可实施性、实时性的关注,仅仅从水军分辨的准确度这单一维度设计算法。然而在实际的应用中,在巨量的数据、有限的计算资源以及对实时结果的要求下,准确度并没有那么重要。因此,在相关的研究分析中,应该站在工程的角度,通盘考虑这个问题,这是以往很多研究所欠缺的。

最后,杨柯还指出,电商水军识别结果的不易评价是困扰电商水军研究者们的一关键问题。识别模型的真实用户评论集表现需结合准确的用户分类标记进行,但在电子商务领域中为保护用户隐私信息,无法百分百精确建立用户分类标记。已有电商水军识别的结果多数以专家和众包服务所建立的用户标记为基准,计算识别结果准确率难以得到有效提高。

因此,在这种数据标签极难获取的情况下, 如果一位地使用当前主流的大數据拟合小目标的监督式建模框架, 就必须通过人工标注来获取训练数据,如此一来会耗费大量的人力物力资源。不仅如此, 模型的效果很大程度取决于特征的完备性, 而特征工程往往强依赖业务经验, 开发出一个有效的特征可能会需要一个人或团队花上几周甚至几个月的时间。这大大降低了识别的效率与准确率,完全不符合平台对于恶性用户识别的“实时性”、“鲁棒性”等要求。

如何通过无监督、自监督的建模框架,利用无标签的数据实现对于平台潜在恶性用户的识别与挖掘是今后的一大发展方向。然而时下在恶性用户识别领域则鲜有对该方向的研究,如前所述,大部分研究者将对于恶性用户的识别定位为一个“二分类问题”。该定位首先意味着将研究的底座放在了监督式框架之上,则必然会遇到之前所提到的若干问题;另外,“二分类”问题会导致数据间“关系型”数据的丢失,而正如之前所提到的,在未来通过“社交网络”进行分析是研究的一大趋势。

因此,在未来的研究中有必要重新定义恶性用户识别问题的本质,综合考虑恶性用户群体的发展特性、识别算法与模型的工程可行性等多方面因素。

参考文献:

[1]Chevalier J A, Mayzlin D. The Effect of Word of Mouth on Sales: Online Book Reviews[J]. Journal of Marketing Research

[2]李璐旸,秦兵,刘挺. 虚假评论检测研究综述[J]. 计算机 学报. 2018, 41(04): 946-968.

[3]电子商务网络水军的智能识别研究 杨珂 莫倩

[4]腾讯&中国信通院. 2018.11. 数字金融反欺诈-洞察与攻略

http://www.caict.ac.cn/kxyj/qwfb/bps/201811/t20181127_189555.htm

[5]中国信息安全测评中心 赵爽 冯浩宸  “机器人水军”发展与影响评析

[6]钱玉娟 经济观察报 http://www.eeo.com.cn/2019/0224/348529.shtml

[7]“星援”App被端 流量造假得不偿失 北京商报 2019-06-12

[8]基于多特征的网络水军识别方法 杨 臻,张明慧,肖 汉

[9]基于逻辑回归算法的微博水军识别 谢忠红,张 颖,张 琳

[10]基于贝叶斯模型的微博网络水军识别算法研究 张艳梅 黄莹莹 甘世杰 丁熠 马志龙

猜你喜欢

水军电商平台社交网络
“超前点评”折射“水军”控评乱象
蒙古水军曾称霸世界
网络水军
基于电商平台的大学生互联网创业经济研究
社交网络自拍文化的心理解读
基于用户体验的电商平台界面管理影响因素研究
试论电商平台主导的供应链融资
50 SHADES OF ONLINE LIT