APP下载

论大数据背景下科学发展的第四范式

2020-09-02卢雨生

现代交际 2020年13期
关键词:相关性大数据

摘要:进入21世纪,数据的收集、存储、处理技术的发展给大数据时代的到来提供了可能。大数据时代我们能够接触海量数据,对事物的分析可以采取全样本数据模式。事实证明,海量数据的分析方法带来更高的精确性,而这种全样本数据模式也给数据收集带来了混乱,我们允许这种收集过程中的不精确性。海量数据+混乱=思维的变革,研究的目的从因果性转向相关性,这是大数据时代的思维核心。思维的转向不代表对因果性的完全否定,甚至相关性的分析可以为因果性的探寻做铺垫。大数据的兴起也引起了科学发现模式的改变,第四范式:数据密集型科学发现必然会对科学哲学的相关论题提出挑战,这是需要用科学哲学来回应的。

关键词:大数据 相关性 第四范式

中图分类号:TP311  文献标识码:A  文章编号:1009-5349(2020)13-0244-02

就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到[1]。数据更容易采集、存储、处理才使得大数据开启了一次重大的时代转型,这将引起思维、商业、管理的大变革。我们可以称其为大数据革命,但革命的意义不在于分析数据的机器,而是如何运用数据本身。

一、思维的变革:从因果性到相关性

大数据的名称来自未来学家托夫勒所著的《第三次浪潮》。2008年9月,美国《自然》杂志,正式提出大数据概念;2011年2月1日,美国《科学》杂志通过社会调查的方式,第一次分析了大数据对人们生活的影响;而最早应用大数据的是麦肯锡公司。大数据的创新在于分析信息时的重要转变,一是在大数据时代我们可以分析更多的数据,甚至可以获得某个事件的所有数据。二是由于我们能够获得更多的数据,我们不再追求精确性。大数据时代的到来给人们的思维带来了全新的变革,我们可以采用全数据模式,样本即为总体。谷歌流感趋势预测不是依赖随机样本,而是从数据总体出发分析了美国几十亿条网络搜索记录。分析总体能够提高预测的准确性,甚至能够推测出某个具体城市的流感状况;Farecast的初始系统有12000个数据,可以对机票价格做出比较完美的预测。随着研发者加入更多信息数据时,它的预测结果会更加精确。同样我们对于数据的追求不是执迷于精确性,而是允许混乱。2006年谷歌开始设计翻译系统。谷歌利用的是一个更大更繁杂的数据库,也就是全球互聯网,而不是收集两种语言简单的文本翻译。谷歌在设计翻译系统时不会将自己限制在一个小圈子里,它参照各个公司的对译文档、官方的公告文件等。尽管输入源头很广泛,输入内容也很繁杂,但谷歌翻译系统的翻译质量却是最好的。

海量数据采集、存储、处理等技术的实现为全样本采集带来了可能,大数据与随机样本对比,人们自然倾向于前者。而海量数据必然会带来数据混乱这种不精确性,这是一种必然性。但实践证明我们可以接受这种混乱,允许不精确性。这两种转变互相联系、影响,最终促进了思维的转变:从因果性到相关性。在大数据时代,海量数据加上混乱的不精确性,我们知道是什么就可以了,无须关注为什么。这不是对科学因果性的完全否定,探寻事实背后的原因仍然具有意义,只是在某些特殊背景下,我们不必知道原因,原因的追寻不是迫在眉睫的事情,甚至是可以不存在的。格雷格林登在攻读博士期间在网上卖书,他喜欢读书也喜欢卖书,但他更喜欢帮助人们找到感兴趣的点,这或许是亚马逊个性推荐最初的灵感。亚马逊刚开始的推荐系统采用人工推荐的形式,书评人写评语并将它们放在网页上,这成了亚马逊的金字招牌。尝到甜头的亚马逊打算创新,根据用户以往的购物喜好为其推荐书籍。他们收集了用户买了什么书,一起买的书中有什么相关性,什么书是只浏览却没有购买的购物信息。通过这些数据亚马逊找到了客户之间的相似性,并且为他们推荐非常原始的信息。例如你买了一本有关量子力学的书籍,系统就会给你推荐大量有关物理学书籍,而事实上你只是一个科学史的兴趣爱好者,对于物理基本一窍不通。这给用户带来的体验并不是完美的,林登很快找到解决方案,推荐系统没必要对不同用户进行对比分析,它需要做的是找到产品之间的关联性。亚马逊立即申请了协同过滤技术的专利,系统对于用户的需求提前分析,用户登录网站就会很容易得到自己想要的信息。林登回忆道:“如果系统运行良好,亚马逊应该只推荐你一本书,而这本书就是你将要买下的那本”。

二、第四范式:数据密集型科学发现

美国计算机专家、图灵奖得主吉姆·格雷(JimGray)在2007年1月11日的一次学术会议上发表了题为“e-Science:科学方法的一次革命”的学术演讲,明确提出了科学分期和分类的新方法[2]。他按照时间和研究工具两个维度将历史上的科学划分为经验科学、理论科学、计算科学和数据密集型科学四大类型。这四种不同类型的科学对应着四种不同的科学发现模式。第一种科学发现模式是经验范式,从时间角度来看是人类早期对于不能合理解释、相对复杂的自然现象的观察,从工具维度来说采用的是肉眼和常用的一些生活工具,此时科学还没有职业化,只是作为一种业余兴趣爱好。近代西方哲学有明显的认识论转向,从传统希腊重视本体论的探讨到向认识论方向倾斜,形成了两种认识理论,一是经验论即上述的第一范式的科学发现模式;二是唯理论,即第二种范式的科学发现模式——理论范式。对于理论范式的介绍从理论主义代表人物中就可以清晰了解,柏拉图认为人可以通过理念构建世界和触及真知,笛卡尔通过我思来推理我在这个命题,大数学家莱布尼兹试图运用0和1构建整个世界。经验论认为科学发现的重点应该落实到经验基础上,无论是普通肉眼观察还是精密的实验检验。而唯理论在于理性的分析概括和逻辑的推导。经验论善于从有限事例中归纳出一般原理,而唯理论更愿意从原理出发推导演绎出结论。随着科学的发展,两种观点在一定程度上出现了辩证的统一,但由于经验事实获取和逻辑推导的局限性,这两种范式只适合解决一些简单科学。面对一些复杂现象形成的复杂性科学,第三范式借着计算机发展的东风开始通过模拟来进行科学发现。这种范式离我们并不遥远并且正在作用于我们的生活。

第四范式:数据密集科学发现模式的出现,对科学发现的问题提出了新的挑战,可以说,小数据时代科学研究离不开数据的参与,而大数据时代科学始于数据。科学始于数据是一种全新的科学发现逻辑模式,这是时代进步和工具提升带来的全新变革,这将改变科学发现过程中的各个方面,但并不意味着其他科学发现逻辑起点失效,各种逻辑途径的科学发现还是可以共生共存、辩证统一的。科学分界的目标就是将真正的科学与非科学、伪科学、形而上学区分开来,看似很简单的问题却成了科学发展过程中的关键。科学来自自然哲学,而自然哲学最早又与宗教有着千丝万缕的关系。自从文艺复兴起,科学开始与哲学分离,为了摆脱宗教的束缚而独立。科学以反对形而上学的名义与哲学做区分,同样以提倡实验、理性独立于宗教。随着科学的快速发展,科学的权威性越来越强,似乎科学就是真理。哲学变得没落,为了吸引眼球,哲学家推崇科学的哲学,而宗教也变得科学起来。这使科学独立问题变得十分模糊,那么分界问题也就被提上日程。相对论和量子力学理论提出后科学发展似乎到达了极限,很长时间内没有突破性科学发现。东方道家和佛学的复归例如气功、中医等,为了特殊利益而宣传的邪教等伪科学,这些都给科学分界问题带来了复杂性。

从弗朗西斯培根到康德,从第一代实证主义到第三代实证主义,这些哲学家都论及分界问题,但是他们都不能明确提出这个问题,而是正面论证他们自己预设的所谓科学本质问题,亦即科学究竟是什么的问题。他们至多在论证这个本质问题时顺便涉及分界问题。哲学家更愿意用经验去证实什么是科学,波普尔把分界问题称作康德问题,他认为康德对数学物理与形而上学的做出的区分就是一种分界问题,并且率先明确提出了分界问题[3]。波普尔认为爱因斯坦的相对论打破了经典牛顿力学永为真理的神话,科学是一种猜想、假说,并不是真理,科学也是可以出错的,因此说科学是可证伪的。无论一个理论被多少经验证实最终都有可能被推翻,事实上它们就相对成熟的科学假说,牛顿理论在那个年代被人们看作真理,但目前来看科学似乎是介于真理和谬误之间。就像波普尔自己说的:“二百多年来,牛顿理论第一次变得成问题了”。在波普尔之前大部分人愿意用证实的方法无意识地解决科学分界问题,他们只证实了什么是科学的。而波普尔提倡用证伪的方法对科学分界,也有像费耶阿本德这种反科学主义、无政府主义,他反对方法,提倡取消对科学分界问题的讨论。科学哲学家先后用证实、证伪,以及库恩范式理论和拉卡托斯科学研究纲领来给科学分界问题制定标准,但并没有一个完美的统一。

大数据时代,数据的地位越来越高,我们是不是可以尝试用数据来量化科学呢?自然界的各种物理量由于可以被量化,自然科学各学科率先进入科学共同体中。但是,人文学科却由于缺乏量化指标而一直被科学共同体拒之门外。社会科学由于借用自然科学的研究方法而得到了部分指标的量化并初步跨进科学的门槛,但因没有被全面数据化而没有被科学共同体全面接纳[4]。可以看出数据量化的重要意义,万事万物都可以通过量化、数字化被感知,那么海量数据可以尝试作为科学分界标准的一个新指标。这是在当下大数据时代我们能够预测到的不远的事实,随着大数据的发展和数据的全面化,大数据会给科学分界标准带来更多的可能性,这是值得期待的。

三、结语

大数据的广泛应用,使得我们生活的方方面面都得到了改变,这种改变是中性的,我们在享受大数据带来的准确预测中,也应该注意到技术异化、隐私等方面的问题,这些是大数据发展必须面对的问题。只有妥善处理,才能真正迎接美好的大数据时代。

参考文献:

[1]维克托·舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[2]吉姆·格雷.吉姆·格雷论e-Science:科学方法的一次革命[C]//TonyHey.第四范式:数据密集型科学发现.潘教峰,译.北京:科学出版社,2012:9-24.

[3]周林东.科学哲学[M].上海:复旦大学出版社,2005:106.

[4]黄欣荣.数据密集型科学发现及其哲学问题[J].自然辩证法研究,2015,31(11).

責任编辑:赵慧敏

[作者简介]卢雨生,黑龙江大学在读硕士研究生,研究方向:科学技术哲学。

猜你喜欢

相关性大数据
基于Kronecker信道的MIMO系统通信性能分析
小儿支气管哮喘与小儿肺炎支原体感染相关性分析
脑梗死与高同型半胱氨酸的相关性研究(2)
脑梗死与高同型半胱氨酸的相关性研究
会计信息质量可靠性与相关性的矛盾与协调
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
决策有用观下财务会计信息质量研究