APP下载

数据争夺战:黑客、内鬼与行业潜规则

2018-04-23王梓辉

三联生活周刊 2018年16期
关键词:用户信息

王梓辉

被指泄露并利用了5000万Facebook用户数据的数据公司“剑桥分析”近日被多位爆料人指出,该公司也参与了支持英国脱欧的活动。英国脱欧组织“投给脱欧”前员工沙尼(左)和“剑桥分析”前数据分析师克里斯托弗·威利出席活動

失控的数据

毫无疑问,马克·扎克伯格(Mark Zuckerberg)肯定是进入2018年之后科技界心情最糟的人之一。此前顺风顺水的Facebook公司在3月下旬被曝出了严重的用户数据泄露丑闻,截至本文写作时,Facebook公司股价连日下挫,市值已经缩水近1000亿美元。短短几周时间,它就蒸发了相当于一个星巴克公司的市值。

打击不仅来自于市场。4月4日,美国国会众议院能源与商业委员会宣布,Facebook公司创始人扎克伯格已经同意于当地时间11日出席听证会,就近期Facebook用户数据泄露事件进行解释。一时间,扎克伯格和他一手创立的社交帝国风雨飘摇。

导致这一切发生的原因是几千万Facebook用户个人数据的泄露事件。事情的缘起听上去有些不可思议。3月下旬,据美国《纽约时报》和英国《卫报》等媒体报道,剑桥分析(Cambridge Analytica)这家与Facebook有合作关系的数据分析公司未经许可收集了数万Facebook用户的信息资料,对这些用户的行为模式、性格特征、价值观取向等各种数据进行分析,然后有针对性地推送信息和竞选广告,以影响美国选民在总统大选中的投票。而美国总统特朗普就是他们的客户。在其官网上,他们不仅毫不避讳地列出了这些选举活动,还写道:“CA Political重新定义了数据与竞选之间的关系。通过更好地了解你的选民,你可以在降低整体成本的同时取得更大的影响力。”在视个人隐私为红线的欧美社会,这种行为被视为是不可原谅的错误。

但事实上,在国内的互联网安全圈看来,类似Facebook的信息泄露事件在国内早已司空见惯。“这样的事情在国内其实是经常发生的,只是国内不像国外透明度这么高,全都被披露出来了。”360企业安全研究院院长裴智勇对本刊说道。中关村大数据产业联盟秘书长赵国栋则直言:“中国的问题相比Facebook这样的情况来讲,有过之而无不及。”

一些数字能从客观上证明这种说法。根据《2017政企机构信息泄露形势分析报告》显示,从2015到2017年,我国每年因网站漏洞导致的信息泄露数量超过50亿条,而这还只是360这一家互联网安全公司的统计数据,其中泄露的信息85%以上都是用户的个人信息。今年1月,四川省公安厅召开“向人民报告”网安专场新闻通气会,会上透露,2017年仅四川省就有250余亿条公民个人信息被泄露,这意味着我们每个人平均至少有几十条个人信息在网络上流传。

因为缺乏足够的重视,很多类似的信息泄露事件只在媒体上停留少许就被略过,大部分用户根本无从知晓自己的个人数据信息的泄露状况。

一个简单的例子很有说服力。《中华人民共和国网络安全法》(简称《网络安全法》)规定必须要实名制,但实名制又会让公民的个人信息暴露在危机四伏的网络环境中。中关村大数据产业联盟秘书长赵国栋就向我们抱怨道:之前共享单车特别火的时候,各种单车公司都莫名其妙地成立了,但活下来的可能就一两家,其他公司都倒闭破产了,但他们一样搜集了你的大量数据,包括你的身份证号、你的手机号、你的银行信息,这些都被他们拿走了,而他们破产之后还谈得上对这些信息的保护吗?

这种状况不仅发生在创业小公司,几千人的大公司也绝谈不上足够安全。去年5、6月份,跨境电商平台“小红书”被曝出用户信息大面积泄露事件,先后有50名受害者因在小红书上网购后遭遇假冒客服而被骗,累计受骗金额高达近90万元。据报道,这些用户在小红书上网购之后,都接到自称是“小红书客服”的电话,假冒客服以客户购买的商品存在质量问题而需要退款为由实施诈骗。对此,小红书公司向媒体回应称,他们了解情况后第一时间进行了内部验证与技术排查,并未发现近期有批量账号敏感数据泄露现象。

更早,2017年4月,黑客“CosmicDark”在网上售卖从优酷窃取约的1亿用户账号,售价约2000元人民币。CosmicDark称,该数据库于2016年被泄,去年才在互联网上公开暴露,而直到现在都不清楚这些数据库是如何被窃取的。

“非常糟糕。”这是某知名网络安全公司公司研发总监阿吉用来形容国内网络数据安全状况的词。而普通用户对此几乎毫无还手之力。

与Facebook有合作关系的“剑桥分析”数据分析公司被指未经许可收集了数万Facebook 用户的信息资料,图为“剑桥分析”在伦敦的办公楼

黑客与内鬼

要知道你的数据都被怎样窃取了,你可以简单地将它们分为两类:黑产与白产。它们之间的根本区别就是,黑产是在地下以完全非法的手段进行数据窃取与交易,而白产则是利用法律的漏洞与不健全在灰色地带以合法身份进行相关的操作。

在我国,网络黑产早已不是一个新的话题了。根据相关统计,截至2017年年中,中国网络黑产从业人员已超过150万,市场规模高达千亿。通常情况下,你不太容易发现网络黑产的踪迹。裴智勇告诉本刊,网络黑市们通常活跃在一些普通人不知道的地下网站、专业QQ群和专业社区里,还有一些比较极端的会在暗网上进行交易,而这里流通的数据就是那些通过黑客窃取、网络攻击等非法行为获得的数据。

“在网络安全上面,只有两种企业,一种是被黑过的企业,另外一种是不知道自己被黑的。”阿吉颇为促狭的话中道出的却是国内互联网安全的现状。

“拖库”是目前黑产上信息来源规模最大的一种方式。所谓“拖库”就是指黑客入侵网站,把账号、密码等用户信息相关的数据库全部盗走的行为,因为这种方式能够一下子把一个网站大量的信息全部盗走,一般来说比别的方式效率都高。而可怕的是,这种信息大规模泄露的情况绝不仅仅发生在那些缺乏自我保护能力的小公司身上,根據裴智勇所知的情况,你能想到的国内的互联网企业基本都被拖过库,“比如说BAT,比如说360,都被拖过库,只是程度范围不一样”。

2015年10月,网易邮箱被曝出过亿数据泄露,泄露信息包括用户名、密码、密码保护信息、登录IP以及用户生日等多个原始信息,影响数量共近5亿条。虽然网易方面拒绝承认,但业界基本公认这种情况就是被拖库了。

除了企业,事实上,只要一家机构的信息出现在互联网上,它都有可能被拖库。而且相比具备一定专业防护能力的互联网公司,很多政府及民间机构毫无防备之力。裴智勇在采访中告诉本刊,前两年,他们发现有一个地方的政府网站在3年内被不同的组织拖库了7次,查出来这个问题之后问该网站负责人怎么办,那位负责人觉得这个网站反正也没有人运维,就把它关了,但是关了也没有解决数据泄露的问题。

与地下黑客们“交相呼应”的则是企业内鬼。去年7月由电商生态安全联盟发布的《电子商务生态安全白皮书》显示,内鬼类风险导致的信息泄露事件占比达到了49%。腾讯玄武实验室负责人于旸是业内知名专家,他曾经透露自己2015年在查看某应聘者时,就注意到一位应聘者的身份可疑,不仅曾在多家公司连续跳槽,而且不断换城市,还存在简历造假的情况,最终经过调查发现该应聘者果然是黑产团伙成员。“内鬼远比你们想象的常见。”于旸说道。

去年3月,京东内鬼事件就颇引人关注。该公司前网络工程师郑某在2016年6月加入京东之后,利用职务之便,越权非法获取大量所供职公司的数据,然后将之售卖给地下黑产,其中涉及交通、物流、医疗、社交、银行等个人信息50亿条。当时郑某加入京东还不足半年,尚处于试用期。

更早的时候,支付宝的前技术员工李某在2010年分多次在公司后台下载了支付宝用户的资料,内容超过20G。李某随后伙同两人将用户信息多次出售给电商公司、数据公司,据称3万条可卖500元。支付宝后来承认数据被盗,但表示其销售的数据不含密码、不含核心身份信息,并在调查后将李某移交公安机关侦办。

对于黑客和内鬼的危害程度,业界说法不一。一位曾经做过黑客的网络安全从业者对本刊表示,80%的数据泄露是企业内鬼所为,黑客和其他方式仅占20%。但裴智勇则认为内鬼只是偶发,更多的都是员工违规操作和外部侵入。但不管是通过何种方式从BAT还是地方政府网站泄露出去的数据,大部分都出现在了网络黑市上。有知情人士向本刊透露,一般的“网银四大件”(即姓名、身份证号、电话号码、账号密码)在黑市上的价格大致在5元100条;而如果你愿意花更多的钱,几百元就能让你获得另一个人几乎全部的信息。“过去他住过哪个酒店、去过哪里都能给你查出来,这个人在你面前基本就透明了。”

商业利益驱动的行业潜规则

黑客与内鬼游走在违法的边缘,他们一旦失手将面临法律制裁,但如果从每个用户个人所遗失的信息规模角度看,商业利益驱动的行业内数据交易才是用户避无可避、逃脱不掉的隐私之殇。

从数据采集,到数据交易,再到对数据的挖掘,这一环环串起了一个完整的生态系统,而广告则是其中的核心。“整个互联网行业的大半部分收入是来自于广告,大概要到七成到八成左右。”《计算广告》作者、大数据专家刘鹏告诉本刊。事实上,如果你了解互联网行业,你会知道谷歌与Facebook这样的世界级互联网巨头一年超过80%的收入来自在线广告业务。而广告则是大数据的最典型的应用。

一个简单的例子就能说明数据的价值。有一个网站在它的广告位投放了剃须刀的广告,这个广告位卖1万元,如果能有10万个用户看到这个广告,剃须刀厂商就要给这家网站1万元。但剃须刀是主要面对男性的产品,女性用户不是它的目标受众,为此,这家网站又拉来一个化妆品的广告投给女性用户。这样,这家网站找每一个广告主各收6000元,一共能收入1.2万元,投入产出比就提高了,多出来的这2000元就是数据变现的价值。而这仅仅是一个性别数据的价值,如果你能知道更多关于用户的信息和购物偏好,你显然能挣更多的钱,这些钱都是数据变现带来的收益。

为了获得关于你足够多的数据,互联网公司们想出了几个办法。在PC端,各家网站通过代码来记录用户的行为;在移动端,最主要的办法则是SDK。而在这个时代,移动端毫无疑问是我们所有人数据的主要来源。

SDK是Software Development Kit的缩写,即“软件开发工具包”。简单来说,它是辅助开发某一类应用软件的相关文档、范例和工具的集合。很多APP开发者为了缩短工作周期与工作量,会将一些固定功能通过接入外部SDK来实现。这些SDK包一方面能够帮助一款APP实现获取定位、打开摄像头等基础功能,另一方面也在你不知道的时候拿走了你很多的个人数据。数据分析公司友盟+高级产品研发专家马巍源曾说过,几乎所有的APP都会使用SDK,而SDK收集用户信息的行为非常普遍。这意味着,你授权APP收集的个人信息被第三方获取了,而你很可能却对此毫不知情。

北京网贷协会数据安全专家韩洪慧曾在采访中提道:“SDK一旦嵌入,如果你注册登录了这个APP,并默认授权,所有的行为数据都能记录,它会在不知不觉中扒取手机通讯详单、聊天记录、银行账号的密码口令、短信、通讯录、行动范围、位置信息等。”“过度采集用户信息在互联网公司很普遍。”赵国栋则直言道。

而所有这些数据信息去哪儿了呢?很大一部分都流向了在线广告联盟。裴智勇为本刊解释道,很多中小开发者为了方便自己变现,会加入由大公司牵头成立的广告联盟,比如国外的谷歌和Facebook,国内的BAT等等;加入广告联盟之后,APP中就会嵌入这个广告联盟的SDK包,这个SDK包一方面能把用户的行为数据同步给这个广告联盟,很多APP的数据汇集到一起就能对用户的行为进行分析,知道用户喜欢干什么、想干什么;再者就是广告联盟也会承接很多广告,这些广告会发布到各个联盟成员的APP上,产生的收益双方再来分钱。这就是广告联盟的作用。

除此之外,互联网公司的数据采买需求也是用户数据流失的一大方向。阿吉告诉本刊,目前很多中小开发商开发的APP一直在后台不停地收集用户各式各样的信息,尤其是在安卓平台上。拿到这些数据之后,他们会有两种处理方式:一种是直接分析这些数据,然后把这些分析报告拿出去做一个价值转换;另一种则是直接把它收集到的原始数据提供给有这种数据需求的公司。而这些数据信息甚至已经成了这些APP能免费供给用户使用的价值来源。

赵国栋告诉本刊,像BAT这样的互联网公司,虽然他们自己已经有很多很多的数据了,但他们依然是采买数据的大户。“这些大公司深刻地理解‘数据霸权的意义和重要性,他们是如饥似渴地获取更多的数据。”通过不同数据之间的互联与映射,这些互联网公司都具有了描绘出用户个人画像的能力,下一步,他们就能针对每个用户的具体情况做出更有针对性的商业措施,最终形成具有马太效应的数据霸权。

发展与制衡

令人沮丧的是,不同于Facebook被舆论围攻以及各方介入调查的状况,我国大部分的数据泄露事件因为无法可依,即便是上亿条数据的交易,由于缺乏司法解释,往往不了了之。阿吉告诉本刊,在两三年前,我国根本就没有任何法律去管理类似事情,直到去年6月1日正式生效的《中华人民共和国网络安全法》才给这种混乱局面带来了一些改变,其中规定非法获取、出售公民个人信息最低50条以上即可认定为“情节严重”,达到入刑的标准。不过,由于技术的飞速发展,法律法规实际上是落后于技术发展的,因此在具体实施上仍然面临很大的挑战。

上海京衡律师事务所隋兵律师告诉本刊,目前针对个人信息保护主要依据的是《网络安全法》第41条,即“网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则”。合法当然是必须的,那么关键就落在“正当”和“必要”这两个概念上了。但由于“正当”和“必要”这两个概念比较宽泛,所以很多公司目前都是在形式上做到所谓的“合法”,然后在“正当”和“必要”上面打擦边球。

今年1月,支付宝发布年度賬单,最下方的“我同意《芝麻服务协议》”一行字不仅字体小,而且默认打勾。协议声称,支付宝可以直接向第三方提供用户相关信息,并且可以进行分析、推送给合作机构,以及有权不支持用户撤销第三方的信息查询授权。之后被用户发现并举报,支付宝才道歉并修改了默认用户同意的选项。“我个人认为这种行为就处于灰色地带,它用了一种比较隐蔽、用户可能忽略的方式,但它在形式上做到了获得用户授权的目的。”隋兵说道。

而诸如此类的擦边球在互联网行业非常普遍。在百度搜索、淘宝这些产品的“隐私协议”中,你仍然能看到他们列出了“会在第三方有合法、正当理由的前提下,与联盟成员、合作伙伴及其他受信任的第三方供应商、服务商及代理商共享您的信息”的相关内容。这意味着,当用户在初次使用这些产品时,对其弹出的一个询问您是否同意的授权书点击了“同意”之后,你的信息就被一大堆这些产品的合作方共享了。而我们都知道,几乎不会有用户真的认真看那些写满字符的“授权书”;即使你认真看了,如果你点击“不同意”,你就无法使用这些产品了。两相权衡之下,用户几乎没得选。

在专业人士看来,这似乎是一个无法被彻底解决的难题。在数据已经成为互联网行业发展原动力的情况下,各个公司对数据的渴求只会越来越大。从2017年开始,马云就多次在演讲中提到“人类将真正开始进入到数据时代”的观点,他也表示“阿里巴巴不是零售公司,是一家数据公司”。

去年6月,顺丰与阿里菜鸟就因为用户数据的归属问题产生了激烈对峙。菜鸟率先指责顺丰在2017年6月1日凌晨关闭了对菜鸟的数据接口;随后,顺丰方面回应称是菜鸟基于自身商业利益出发,要求顺丰提供与其无关的客户隐私数据,但顺丰拒绝配合,他们给出的理由是,此类信息隶属于用户,未经用户许可,无法提供。最终,在国家邮政局的协调下,双方才做出了妥协。这种级别的对抗也反映了数据对双方的重要性。

作为在线广告与大数据专家,刘鹏就认为这其实不是立法问题,反而是一个技术问题,“立法解决不了网络数据的使用问题”。阿吉也认为目前的现状就是数据使用技术的发展远远超过了法律法规的完善速度,在这种状况下,我们很多时候只能依靠互联网厂商的自觉性。

在可见的未来,我们也许都将处于这种用户不得不接受的现状中。在Facebook事件爆发之后,百度公司创始人李彦宏在中国高层发展论坛上就这个问题发表观点:“我想中国人可以更加开放,对隐私问题没有那么敏感。如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。”尽管外界对这个观点批评声一片,但回归现实层面,这也许就是我们不得不接受的现状。

猜你喜欢

用户信息
关注用户
关注用户
关注用户
Camera360:拍出5亿用户
100万用户
如何获取一亿海外用户
信息