APP下载

从“谷歌流感趋势”预测谈健康医疗大数据伦理*

2019-02-26李晓洁丛亚丽

医学与哲学 2019年14期
关键词:流感趋势用户

李晓洁 丛亚丽

流行病伴随了人类文明发展的各个阶段,近现代发生的大规模流行病事件,对人类社会造成了巨大的损失和恐慌。对于流行病疫情的提早预测和早期控制是保障公共卫生的重要手段。大数据为研究人类健康状况提供了新的方式。传统对于流行病学的监控基于临床诊疗数据,在大数据时代,对于流行病学的健康基于互联网来源的数据,这些数据是人们在网络搜索中获取的。从这个意义上说,不仅个体的身体状况能揭露医疗信息,利用网络搜索数据也可以进行医疗信息的探索。“谷歌流感趋势”是该模式典型案例之一,其一登场,惊艳各方,但最终在各方批评之中匆匆退场。但“谷歌流感趋势”是企业和政府部门合作,利用大数据预测流行病趋势的一次尝试和创新,对其进行探讨有助于反思健康医疗大数据发展中可能产生的伦理问题和挑战,对于当前和未来健康医疗大数据的发展都具有借鉴作用。

1 信息流行病学与“谷歌流感趋势”的诞生

2002年,Eysenbach[1]首次提出信息流行病学概念,并在2009年进一步完善。信息流行病学是研究电子媒介、互联网或者人群中的信息分布及影响因素的科学。从20世纪90年代中期开始,就有研究表明网络上健康信息的可获得性,分布和质量会影响上网人群[2]。早期对于流行病监测的方式,以全球公共卫生情报网(Global Public Health Intelligence Network)为代表,对于全球公共卫生新闻进行系统搜索、挖掘和过滤,并转化为关于疾病暴发的专业数据,经过卫生组织调查与核实,有选择地向普通受众和专业机构发布疾病方面的信息。

传统的监控方式由疾控中心向用户“提供数据”。伴随大数据技术的发展,信息流行病的研究方法由“供给侧”数据向用户“需求侧”转变[3]。供给侧是指用户通过在博客、微博、社交网站等公开发布的信息,如Chunara等[4]使用来自Twitter的账户来检测霍乱(cholera)在海地疫情暴发以及疫情的严重程度。

由于搜索引擎的流行,信息流行病学转向“需求侧”,即通过大数据研究健康信息的趋势,及其预测功能和人群的关注与需求,来分析了解用户行为。这种流行病学监测基于如下假设:特定搜索词语来自患有传染病或者其周围环境出现了传染病的用户。假设特定的搜索词与流感疫情相关,那么对于搜索词的挖掘就可以看作是疾病变化的预警。

“谷歌流感趋势”是由谷歌公司研究者和美国疾控中心共同开发的线上服务。2008年11月~2015年8月,该线上服务依据用户网络搜索关键词来预测流感,并且每天更新。2007年~2008年,“谷歌流感趋势”比疾控中心提前两周预报了发病率。2009年,“谷歌流感趋势”团队在《自然》杂志发文解释了“谷歌流感趋势”的算法机制,即通过分析45个与流感相关关键词来进行预测。但文章并没有详细指出这45个关键词[5]。

从2009年开始,“谷歌流感趋势”的精准度受到噪音影响,开始频频出错。2009年,甲型H1N1流感流行了一年多,“谷歌流感趋势”却没能准确预测。2001年8月~2013年8月的108周,“谷歌流感趋势”有100周高估了流感的实际发病率。到2013年,“谷歌流感趋势”预测结果高出美国疾病预防与控制中心报告的1.5倍。

尽管谷歌公司调整了算法,但也难挽“谷歌流感趋势”的颓势。2015年,“谷歌流感趋势”正式下线。“尽管当前这一线上服务已经停止,但谷歌公司仍然在持续收集相关数据,并将这一数据与哥伦比亚大学公共卫生学院、波士顿儿童医院等研究机构以及疾控中心等政府机构共享。”

2 “大数据的傲慢”

“谷歌流感趋势”数据的可靠性遭到人们的质疑。2014年,Lazer等[6]在《科学》杂志发文报告了谷歌流感趋势。这也使得人们对大数据技术的可靠性产生怀疑,原因主要在于以下方面。

第一,数据挖掘中,会出现“过度拟合”现象。过度拟合的根本原因在于大数据分析是通过相关关系而非因果关系进行。大数据得出的结论与传统经过科学研究得出的结论存在根本差异。对“相关性”的追求可能导致错误的结果。从这个角度看,“谷歌流感趋势”可以观察到2007年~2008年疾控中心的所有数据,因而在寻找搜索词和疫情相关的最佳算法就很清晰,与样本内的观测值也能做到很好的拟合。但从2009年之后,“谷歌流感趋势”面临的完全是未知的数据,而2009年~2010年的流感疫情数据可能与2007年~2008年流感疫情数据不相同,出现了新的样本,而其使用的最佳算法是基于2007年~2008年的数据库,新的数据库适合的算法也随之发生改变。正如Lazer等[6]所说的“大数据傲慢”,即认为大数据可以完全取代传统的数据收集方法,而非补充。

第二,“无污染”的用户。“谷歌流感趋势”隐含的假设是用户的搜索行为是自发的、不受周围环境影响的。但在网络信息时代,人们获取信息的范围已经超越了传统意义的“社群”,当前用户可以通过互联网便捷地获取来自世界各地的信息,这些信息会影响用户的搜索行为,使其输入了“肌肉酸痛”、“温度计”、“胸闷”等搜索词,而“谷歌流感趋势”无法鉴别用户搜索行为的原初动机,使最终结果发生偏差。“谷歌流感趋势”数据产生的偏差受到“用户”和“技术”的双重影响。用户受周围环境“污染”后的搜索行为会影响算法的演变,使得算法的走向违背了开发者的初衷。从这个角度看,用户不仅“被动”地受算法的影响,反过来也“主动”影响算法的走向。

第三,进入大数据时代,数据的资源化和资本化为数据的挖掘和使用提供了强大的动力。谷歌公司作为一家互联网企业,收集了用户数据,而数据搜索会影响公民的行为。企业作为数据生成机构,可能出于商业利益、增加自身影响力等目的操纵数据的生成[7]。

3 个体隐私与公共利益的权衡

“谷歌流感趋势”是出于“公共利益”研发,而非出于盈利目的。毋庸置疑,“谷歌流感趋势”提供非营利性服务,旨在帮助访问者了解近期流感疫情趋势以及严重程度。可以节省公共资源,提升公共健康水平,也是疾病监控的新的创新和尝试。因而,即使侵犯了用户隐私权,但也能得到辩护,即用户的个体善是应当让位于流行病监控的“共同善”。

用户通过使用谷歌搜索引擎,在网络上形成了带有自己身份的数字信息,这些信息由用户的网络活动产生,是大数据时代特定的产物。人们在不同的网络情境中,构成了多元数字身份。在谷歌流感趋势中形成的数字身份具有特定性,如可能会泄露用户的身体状况、用药偏好、家庭住址等等。尽管谷歌公司声称采取了匿名化等方式隐藏用户身份,如“谷歌流感趋势”研发者之一Ginsberg[8]称“谷歌数据库中的所有搜索词都不会和特定用户相关联”,“数据分析都是由机器自动进行,避免人为阅读和分析”。用户的搜索数据存储于谷歌数据库中,谷歌公司作为数据控制者,可能通过“窥探”数据,进行相关产品开发,或者与其合作者进行合作等。由于暴露用户属性及行为特征,据此抽象出包含基本属性、社会属性、行为属性及心理属性的用户画像,这便利了广告精准营销,辅助产品设计[9]。“谷歌流感趋势”的隐私保护策略并不能完全保护用户隐私,用户面临着丧失信息掌控权的风险。

当前,“谷歌流感趋势”虽然已经停止更新,但依然在收集用户数据,并且将这些数据与学术机构和政府部门共享。所以公众已经失去参与到这一数据共享的机会中,对于数据的用途、数据使用的授权也更加难以把握。虽然谷歌收集公民搜索数据可以通过共同善进行辩护,但是“谷歌流感趋势”的下线剥夺了用户监督和参与的权利,公众参与对于使用搜索数据来检测流感的参与降低。谷歌公司作为数据控制者,对用户数据的处理无需获取用户同意,这种权利的不对等性也加重了用户权利维护的困难。

从这种意义上来说,“谷歌流感趋势”对于当前的隐私保护体系提出挑战,即如何给予用户知情同意?怎样的知情同意制度是合理的?“谷歌流感趋势”收集的数据怎样使用才是合理的?“谷歌流感趋势”的公益性和谷歌公司本身的商业性之间如何调和?对于互联网上的医疗数据,应当在怎样的情况下被共享和使用?谷歌公司继续收集用户的行为,使得用户对其搜索数据失去控制权。用户对于搜索数据用于何种用途也毫不知情。公民的自主权丧失,传统的隐私观念和伦理价值观受到冲击。但是从保护公民个人隐私的角度来说,当前没有机制确保用户“退出”或者收回对其搜索数据的使用,问题在于这些数据的所有权是谁?谁应当获取这些数据?以及谁可以监控对这些数据的使用?以上都是值得深入探讨的问题。

4 被动共享、算法黑箱和监督的缺失

用户在谷歌数据的搜索痕迹被储存在谷歌数据库中,谷歌公司仅在其内部及合作伙伴中共享。对于外部人员来说,由于“谷歌流感趋势”没有公开算法以及数据,公众获取的是“信息”而非“数据”,外部同行无从对其进行监督,谷歌公司是否人为干预和操纵数据分析结果?广告商是否会基于“谷歌流感趋势”与谷歌公司进行合作?这些都因为算法和数据的不透明性而无从得知。

如果将数据共享,则存在知识产权、隐私保护和组织政策文化障碍等方面的困境。首先,谷歌公司投入了资金、人力等资源收集数据,如果将这些数据共享,存在署名权、专利权、商业获益问题。其次,如果将这些数据共享,则公民的隐私更容易被侵犯。上述问题不仅存在于搜索引擎中,智能穿戴产品数据、社交媒体数据、个人设备等都存在此类问题。

从数据的收集和使用过程来看,用户完全“被动”加入数据库,并且没被提供“选择退出”(opt out)的机会。“谷歌流感趋势”向用户展示的是可视化的“信息”而非“数据”,这些信息经过互联网公司“非透明”的编辑和加工,所得结果是否完全客观无从得知,但这些信息极易引导用户行为。例如,看到流感疫情的预测,用户会去药店购买药物,减少出行等,潜移默化中,部分用户的行为会受到线上平台的影响。“在互联网的信息洪流中,互联网所建构的超现实性可能会取代人类传统思维模式的真实性。”[10]互联网公司与用户之间存在权利的不对等性,用户可能被互联网公司操控行动,陷入虚拟世界中而不自知,甚至无法摆脱这种操控。

5 “大数据”时代的“小数据”

“谷歌流感趋势”的运行模式是利用用户互联网搜索的“大数据”+疾控中心“小数据”相互比对,分析二者之间的相关性的基础上而产生。设计者企图通过5 000万搜索列表来建立与1 152个数据点之间的关系。而“谷歌流感趋势”的预测结果表明,从技术上说,寻找大数据与小数据之间的相关性存在数据“过度拟合”的风险。

除了过度拟合的风险,“谷歌流感趋势”也引导我们思考新的问题,即大数据时代,在公共平台上可以让所有人使用的“小数据”与企业收集的大数据相结合,可能揭示新的信息,产生新的用途。疾控中心在网站上公布流感疫情数据,可以供任何人下载,但这些数据将被什么人使用,用于何种目的,疾控中心无法把控。如谷歌公司就可以结合疾控中心的数据来分析用户的搜索动机,来提前预测流感疫情。

所以在小数据时代“公开”获取的数据在大数据时代是否还应当保持公开? 当前政府着力推进政府数据共享,如《国务院关于印发促进大数据发展行动纲要的通知》《国务院关于印发政务信息资源共享管理暂行办法的通知》等文件都强调大力推动政府信息系统和公共数据互联开放共享,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展。数据共享有助于推进对相关数据的研究和使用,实现数据存储价值。但在推进数据共享的同时,政府应当发挥监督作用,监管政府数据的使用方向[11]。

谷歌公司搜集和储存“大数据”,不可避免地也将与其合作者共享。如果这些数据被用于商业用途,即使“谷歌流感趋势”的初衷是出于慈善目的,但也可能在发展过程中转变,设计者可能通过修改算法,产生合适的数据,以适应其商业策略,公益性的健康服务平台可能产生与初始目的截然不同的结果。用户选择谷歌搜索,是出于对谷歌公司的信任,一旦丑闻发生,公众对于谷歌的信任崩塌,对谷歌公司未来的发展也将产生深远影响。

大数据时代的技术创新不仅推进了技术的发展,也带来新的伦理问题,如传统的隐私观念在大数据时代受到挑战。小数据时代的法律和价值观可能与大数据时代存在脱节,这就需要政府和法律部门顺应时代发展趋势,使法律法规适应健康医疗大数据的发展。

6 进一步反思

“谷歌流感趋势”是互联网企业利用大数据造福社会的创新性尝试。虽然已经下线,但谷歌公司仍然在持续收集数据并与合作者共同研究,未来的版本也许能够更精准地预测流感疫情。同样,“谷歌流感趋势”也暴露了大数据面临的一些伦理问题。这些伦理问题的产生,既有大数据技术本身的原因,也与当前社会环境、数据主体自身以及数据控制者谷歌公司有密不可分的联系。

首先,数据主体对身份数据化风险感知不足。多数人在享受“谷歌流感趋势”带来的便利的同时,对其存在的风险性问题感知不足。公民利用搜索引擎的同时也留下了数字痕迹,被动地“贡献”数据给谷歌公司,存在隐私泄露的风险,特别是当“谷歌流感趋势”下线之后,用户对谷歌公司数据使用的监督降低,如果公民没有加强自身的隐私观念,未来存在风险隐患。

其次,谷歌公司作为数据控制者,通过“用户身份信息在特定时间内删除”,“避免非授权主体使用数据”等方式保护公民隐私。但由于当前对于数据控制者的伦理和法律规范尚不完善,用户的数据到底属于谁?相关的法律规定通常非常模糊,使得数据控制者对数据的使用更多依赖于控制者的自身的道德素养。

最后,大数据技术本身的负面效应。在大数据时代,数据控制者不会将数据以及算法公开,造成了黑箱。数据控制者收集和储存数据,但这些数据将来会有哪些用途,会与哪些处理者共享尚且不得而知。这也给数据买卖、数据滥用等行为带来可乘之机。而当用户发现自身信息被盗用,或者被精准推送广告,即使可以通过技术手段追踪,但也存在维权成本过高的问题。

从宏观社会环境角度来看,健康医疗大数据面临的伦理问题与当前功利主义价值追求有着密切联系。用户的搜索数据一旦被互联网公司收集,就由其把控。在利益的诱使下,企业加大搜集数据的规模和频率,往往却忽略了道德方面的考量。

数据鸿沟和数据垄断也是“谷歌流感趋势”伦理问题产生的原因。用户使用谷歌浏览器的搜索数据被谷歌公司垄断,谷歌及其合作者可以“窥探”用户数据。但谷歌公司长期发展离不开用户信任感的培养,而用户的隐私也亟待保护,上述伦理问题的解决需要多方面的沟通与监督。

对于“谷歌流感趋势”产生的伦理问题,政府作为监管者的作用尤其重要。政府应当引导、鼓励企业负责任地创新,对数据控制者和处理者的行为进行监督。与此同时,也应当发挥自由市场的作用,让互联网公司之间形成有效的合作机制,达到相互监督的效果。怎样建立跨行业、跨政府、不同利益关联者、不同数据控制者之间的合作仍然面临很大挑战。在大数据时代,通过加强信息安全教育,提升数据主体隐私意识和信息保护意识也非常重要。可以通过课程、讲座的方式,向公众科普关于数据网络的前沿知识,让公众在享受互联网便捷的同时,隐私也能受到保护。

从“谷歌流感趋势”2008年上线至今,已然11年。从大数据发展历史的整体来看,“谷歌流感趋势”可能只是“初级的”、“碎片化”的尝试,但其公共卫生的目的指向还是比较明确的。那么,在信息流行病学领域, 如下问题值得进一步商榷:是否技术就可以完全解决大数据预测的不确定性问题?如果不能,为了公共卫生和公共利益的预测,即便预测错了(排除极度的不认真等行为),带来一些经济损失或者不便,社会是否有资格追究责任?是否可以用不同的伦理标准进行分析? 伦理学在其中有什么可以贡献的空间呢?

猜你喜欢

流感趋势用户
流感大作战
趋势
简单易行防流感六法
冬春流感高发 加强防治最重要
初秋唇妆趋势
关注用户
关注用户
关注用户
SPINEXPO™2017春夏流行趋势
趋势