APP下载

大数据知识实现的维度分析

2017-05-17苏玉娟

理论探索 2017年2期

〔摘要〕 解决大数据知识的实现问题,应从历史、科学、认知、伦理、语义学和社会等六个维度来思考。从历史维度看,知识实现的历史进程,数据的多样性和巨增性,数据科学的发展为大数据知识实现提供了可能;从科学维度看,数据科学的理论创新和大数据技术成熟水平是支撑大数据知识实现的科学技术基础;从认知维度看,大数据知识实现包括认识论和实践论两个层面的认知,认知过程不仅求真而且求效,认知结果具有客观性与语境依赖性;从伦理学维度看,大数据知识实现需解决复杂的伦理问题;从语义学维度看,大数据知识的语义表征是大数据隐性知识向显性知识转换的桥梁;从社会维度看,大数据知识实现来源于社会支撑,又服务于社会需要。大数据知识实现的不同维度之间具有协同性、历时性、共时性等特征。

〔关键词〕 大数据知识,历史维度,科学维度,认知维度,伦理维度,语义学维度,社会维度

〔中图分类号〕N03 〔文献标识码〕A 〔文章编号〕1004-4175(2017)02-0064-05

大数据时代,大数据技术通过对大数据存储、分析、挖掘、可视化等形成大数据知识,大数据知识成为继经验知识、理性知识和计算知识之后知识实现的新范式。组织理论家罗素·艾可夫勾勒认为知识的三角形金字塔包括三层,最下层为数据,中间层为信息和知识,最高层为理解和智慧。这样,大数据知识实现彰显知识生产和应用的整个过程。大数据知识实现离不开历史的大数据资源和大数据科学技术的发展,及科学同共体、政府、企业和民众的认知及他们所承担的伦理责任,同时还需要语义学将大数据所隐含的知识显性化,社会也为大数据知识实现提供人才、技术、制度等方面的支撑。这样,大数据知识是在历史、科学、认知、伦理、语言学、社会等维度相互关联中实现的,每个维度承担着不同的功能。

一、历史维度

“我们要全面地看待科学的功能,就应该把它放到尽可能广阔的历史背景上来考察。” 〔1 〕大数据知识实现的历史维度不仅包括知识实现本身的发展,而且包括大数据、数据科学的历史进程。

(一)不同时期的知识实现。对于知识实现可以追溯到古希腊。早在古希腊时期,亚里士多德就将知识分为纯粹理性、实践理性和技艺。目前知识有内在主义和外在主义两种类型。内在主义者柏拉图认为知识是被证明为真实的信念,外在主义者海德格尔认为知识是对实践行为有益的理论认知。知识的分野直接影响对知识的实现。知识作为可以指代某种信念或实践行为的符号,有陈述性知识和程序性知识两种形态。陈述性知识侧重于“是什么”的知识,程序性知识是关于“如何做”的知识。也就是说陈述性知识侧重内在认知信念的实现,程序性知识侧重外在实践知识的实现。随着知识主体从哲学家扩展到科学共同体再扩展到政府和民众,知识实现就不能局限于对信念的真的确证。吉姆·格雷认为科学发现形成经验、理论、计算和数据挖掘等四种关键性范式。经验范式客观要求知识实现凸显经验归纳形成的知识与客观的相符性。理论范式客观要求知识实现应凸显建模和归纳形成知识与客观的相符性;计算范式要求通过模拟和计算形成的知识与客观相符;数据范式客观要求通过数据挖掘形成的知识不仅应反映事物运行客观性的陈述性知识,而且应反映将相应知识应用于实践的程序性知识,形成大数据-信息-表述性知识-程序性知识的实现过程,凸显大数据知识实现的客观性与实践性。知识从经验范式走向数据范式,为大数据知识实现提供了历史机遇。

(二)不同时期的数据发展。从知识实现的历程看,知识从来没有离开过数据。传统经验阶段,知识多是来源于对经验数据的归纳与总结,知识实现形式多是文字的,虽然經验数据比较少,但是仍然是知识产生的主要来源。实验科学阶段,随着近代科技革命的不断推进,理论建模与实验数据的相符性成为知识实现的重要形式。计算科学阶段,知识实现来源于模拟和计算等途径的数据,通过对数据的分析挖掘形成相应的信息和知识。大数据时代,随着社交网络、镜像世界中数据的爆炸式增长,自然界和人类行为通过大数据形成记录下来,这些大数据具有数据体量巨大、类型繁多、价值密度低、处理速度快等特征。数据资源的不断拓展和激增,使大数据成为知识的重要来源之一,为大数据知识实现提供了数据资源。小数据与大数据知识最大的区别在于小数据先有研究目的再收集数据作证,而大数据不作理论预设,通过对已存在的大数据发现其中的知识,这是大数据时代知识生产的一种新途径和新方式。没有大数据,就没有大数据知识,也就谈不上大数据知识实现了。正是数据与知识实现的历史演进,凸显大数据知识实现的历史变革性。

(三)数据科学的发展。大数据知识实现不仅与知识和数据的发展相关,而且与数据科学的发展相关。20世纪60 年代数据科学已提出,当时并没有得到学术界的认可。1996年数据科学开始受到重视,成为一些会议的主题。2001年美国统计学教授威廉·S.克利夫兰首次将数据科学作为一个单独的学科。数据科学主要研究数据的理论、方法和技术,包括数据理论和数据技术。正是数据科学的发展,使存储、分析、挖掘和可视化复杂的巨量的结构性和非结构性大数据成为可能,使大数据转换成信息和知识成为可能。数据科学的发展,为大数据知识实现提供了科学基础。

从历史维度看,知识实现的历史进程、数据的多样性和巨增性、数据科学的发展为大数据知识实现提供了可能。大数据知识实现正是建立在历史基底上,体现了大数据知识实现的继承性与变革性。

二、科学维度

大数据本身并不是信息和知识,只有通过大数据技术对自然、社会和人类行为产生的大数据的存储、分析、挖掘、可视化等,大数据才能转换为信息和知识。大数据技术为人类获取信息和知识提供了一种新途径。

(一)数据科学的理论创新是大数据知识实现的理论基础。今天,数据科学的发展为大数据知识实现提供理论、方法和技术方面的支撑。特别是数据技术随着处理大数据能力的提升逐步发展为大数据技术,包括对大数据的存储、分析、挖掘和可视化等。数据科学的理论创新包括对数据的存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类、数据实验和逻辑推理方法的研究等。大科学时代,科学走在技术的前面,科学引领技术进步。数据科学的理论创新为大数据技术创新和知识实现提供理论基础。

(二)大数据技术成熟水平是大数据知识实现的技术支撑。大数据技术主要解决大数据开发利用的技术问题。随着社交网络和现实世界大数据资源的巨增,大数据已成为重要的现代战略资源。大数据技术成熟水平是制约大数据知识实现的重要环节。“技术成熟度指单项技术或技术系统在研发过程所达到的一般性可用程度。” 〔2 〕传统意义上对技术成熟度的衡量侧重技术指标,如技术基础研究、可行性证明、技术研发、技术演示、系统开发与运行、产出产品和能力等。大数据技术目前被广泛应用于经济、交通、环保、健康、安全等领域。技术性是大数据技术成熟首先要考虑的。大数据技术是否能实现对现实世界和网络世界大数据的全样本采集,决定大数据分析结果的客观性和真实性。由于目的不同,大数据所彰显的意义可能不同,会呈现不同的知识形态。如对于交通大数据,根据分析目的的不同,我们不仅可以分析交通拥挤产生的原因,还可以分析民众出行的习惯及方式等。大数据技术对大数据处理的关键是要彰显大数据所实现的意义,意义经过客观判断和理论概括形成知识,意义多样性的彰显也是大数据技术成熟度的重要衡量指标。由于大数据资源包含国家秘密、行业秘密和个人隐私,大数据技术需要在技术层面解决大数据的安全问题。所以,对于大数据技术的成熟程度的衡量我们不仅需要技术性,还需要全样本性、多样性、安全性等指标。

从科学维度看,数据科学的理论创新和大数据技术成熟水平是大数据知识实现的科学技术基础。数据科学特别是大数据技术的发展,实现了大数据向信息和知识的转换。

三、认知维度

传统意义上,知识论主要从认识论层面研究主体是如何认知客体的。大数据作为新的知识实现方式,需要科学共同体、政府、企业和民众等主体实现对大数据客体的认知,在此基础上形成知识。认知过程彰显认知主体的多元性、认知对象的复杂性、认知过程的求真与求效和对认知结果的确证。

(一)认知主体的多元性与认知对象的复杂性。认识论的核心之一是研究主体与对象的关系。大数据知识实现要将主体对对象的认知实现出来。小科学时代,认知主体主要是哲学家或科学家,认知对象主要是自然界。知识生产的过程是认知主体对认知客体概念、体系等方面的把握。大数据时代,随着科学共同体的不断发展和政府的广泛参与,认知主体从个体扩展到科学共同体、政府、企业和民众。大数据应用于科学研究和政府、企业、个体等层面的决策,认知主体包括科学共同体、政府、企业和民众,“认知主体高度分化并社会化” 〔3 〕。传统意义上,认知对象是经验世界。大数据知识实现认知的对象“来源于自然科学大数据、社会科学大数据和人类本体大数据” 〔4 〕。这些大数据不仅数据量巨大,而且包括结构性和非结构数据,非常复杂。大数据本身不是信息和知识,它需要借助人的认知将大数据转换成陈述性知识和程序性知识。

(二)认知过程的求真与求效。传统意义上,知识实现主要将已确证的真的信念实现出来,认知过程是求真的过程。“大数据认识论中,甲方所关注的不仅是真,而且是善,当然也可能是恶,不仅是客观,而且要有用,也就是所谓求真求效。” 〔4 〕随着大数据战略的不断推进,政府、企业和民众渴望从大数据中获得具有指导实践的知识。这样,对大数据的认知包括认识层面的求真以形成陈述性知识和实践层面的实效以形成程序性知识,是求真与求效两个阶段的认知。首先,在认识层面不同主体通过大数据技术对大数据的存储、分析、挖掘和可视化结果的认知,形成反映经验世界和网络世界确证是真的“是什么”的陈述性知识。其次,在实践层面不同主体根据不同需要,在认知基础上形成具有实效性的“怎么做”的程序性知识。大数据知识实现就是将这两个过程认知的结果实现出来,实现知识从表象到规定再到具体实践。

(三)认知结果的确证。“确证是负责地形成的、可信赖地产生的、使相信者具有充分证据的、在内在可把握的基础上、在真实根据基础之上形成的、作为对认识者如何追求其认识目的评价概念等。” 〔5 〕749传统意义上,对认知的实现彰显知识的客观性,即知识在多大程度上与对象相一致,就是对于同一性的实现。基于大数据知识的实现,不仅应彰显客观性,而且应彰显数据语境的依赖性。基于大数据知识实现的客观性来源于大数据关联性分析基础上所呈现的差异性或异常性反映,它不是求同,而是求异,这种异是建立在客观经验数据和网络数据之上。大数据知识实现来源于相应的大数据,大数据不同,彰显的知识可能不同。这样,大数据知识的认知实现具有语境依赖性。

从认知维度看,大数据知识实现包括认识论和实践论两个层面的认知,认知过程不仅求真而且求效,认知结果具有客观性与语境依赖性。

四、伦理维度

传统的经验范式中知识来源于哲学家和科学家对经验事实的概括,由于經验事实的获得具有普遍性,他们的善与恶对知识实现影响不是很明显。随着实验工具的不断发展,很多科学研究需要借助实验数据进行理论概括。数据的真实程度直接影响知识实现的结果。大数据时代,大数据知识实现更复杂,伦理问题不仅存在于学术领域,而且存在于社会领域;不仅涉及科学共同体,而且涉及政府、企业和民众;不仅存在于知识生产过程,而且其结果的不当应用还会对国家、社会和个人产生新的伦理问题。

(一)科学共同体担负着解决大数据技术的伦理责任。一些科学家为验证其理论的正确性,不惜作出虚假数据,这是在知识生产过程中产生的伦理问题。大数据时代,在民众、企业不知情的情况下,他们产生的大数据已进入大数据仓库,大数据时代没有旁观者。所以,科学共同体应从技术层面过滤或隐蔽个人隐私、企业秘密和国家秘密,能够从更具普遍的技术层面分析、挖掘和可视化大数据,形成大数据知识,使大数据知识实现更具有普遍性。

(二)政府担负着解决大数据应用的伦理责任。随着大科学时代的到来,科研经费来源、研究方向及科研成果的应用等越来越成为政府的事情。人们曾谴责科学家不负责任将核能用于战争,其实核技术应用的方向在当时已不是科学家能控制的,而是政府的事情。大数据技术也不例外。随着大数据战略的不断推进,政府拥有最广泛的大数据,政府对大数据知识应用方向负有社会责任。目前,大数据知识多是应用于环保、安全、健康、交通、气象等公共治理领域。由于大数据来源于民众,必须服务于民众,政府使用大数据知识的方向应接受民众的监督。同时,政府在应用大数据知识时,应保护国家安全、企业秘密和民众隐私。

(三)企业和民众担负着解决大数据可靠性的伦理责任。传统小数据时代,民众主要担负着使用知识的角色,企业既生产知识也使用知识。大数据时代,民众和企业都产生大数据,他们对大数据的可靠性负有伦理责任。一方面,一般企业对于自身产生的大数据可靠性负有伦理责任。一些企业出于利益考量,雇用“水军”点赞或好评是存在的,造成网络上虚假的大数据,这些行为会影响大数据知识本身的可靠性,进而影响大数据知识实现结果的客观性。为此,“我们应该对依赖有缺陷的大数据可能给公共服务及公共政策造成的影响有所警惕” 〔6 〕。另一方面,大数据服务企业对大数据采集、存储、挖掘等负有伦理责任。目前,政府多是将大数据业务外包给大数据服务企业,这些企业对大数据的安全、分析结果的可靠性等负有伦理责任。对于民众来讲,最关心自身的隐私安全。一些民众为规避大数据,不惜制造一些虚假数据。因此,基于大数据知识实现的要求大数据应在个人隐私与公共大数据之间保持必要的张力,在应用民众产生的大数据之时,要保障民众的隐私。

从伦理学维度看,大数据知识实现需解决复杂的伦理问题。只有科学共同体、政府、企业和民众都负担起相应的伦理责任,大数据知识才可能求真求效,更具有可靠性。

五、语义学维度

语义学研究词语和句子的意义、词汇意义和意义关系。“语义学指称了符号与它们所实现的事物之间的对应关系。” 〔7 〕语义学的本质就是要实现意义的表征。

(一)语义表征是实现大数据隐性知识向显性知识的转换。从形式看,数据语义通过对客观实在的相关性分析,形成彰显对象之间的关联性,这种相关性中包含隐性的大数据知识。这些隐性知识通过词汇、句子的意义和关系,回答“是什么”的语义形式,表征为陈述性知识,这种知识是一种显性知识。大数据知识主要功能在于服务于社会领域,实现社会治理精准化,这客观要求大数据知识回答“怎么办”,表征为程序性知识,这是另一种形式的显性知识。语义表征实现了大数据知识从隐性走向显性,从数据形式转换成文字、语言、图表等可以被人类认知的形式,提高了大数据知识被认知和应用的便捷性。没有语义学表征,大数据知识只能处于隐性形式,是不能被广泛传播和应用的。

(二)语义表征具有主体能动性和语境依赖性。大数据技术主要在技术层面实现了对大数据的存储、分析、挖掘和可视化,这个过程是大数据隐性知识被发现的过程。大数据隐性知识是否可以转化为显性知识,需要依靠科学共同体、企业、政府和民众的认知。“在大数据认识论中,问题已经转化为能够认识的是否都要去认识。” 〔3 〕不同主体的理论背景、社会背景、历史背景、文化背景等都会影响大数据知识语义表征的客观性。同时,语义表征具有语境依赖性。大数据知识实现通过揭示语义与各种大数据世界之间的关联来说明意義。大数据不同,彰显的意义也就不同,语义表征的结果也就不同,相应的知识也就不同。因此,大数据知识的语义表征是主体能动性彰显和语境相结合的结果。

从语义学维度看,大数据知识的语义表征是大数据隐性知识向显性知识转换的桥梁,是实现大数据知识走向社会化的关键,是大数据知识的意义被表征的过程。

六、社会维度

随着知识社会化程度的提高,知识发现与应用是社会建构的结果。大数据时代,大数据采集边界、应用范围等都是社会建构的结果。一方面,社会提供相应的人才、技术、资金、制度和文化支撑;另一方面,大数据知识实现具有经济、生态、政治等方面的社会价值。

(一)大数据知识实现需要社会支撑。社会建构论认为世界是客观存在的,但是对于世界的理解和赋予的意义都是由每个人决定的,强调个体经验、心理反应和信念。由于强调相对性,容易导致相对主义。小科学时代,知识实现都是科学家和哲学家自己的事情。大数据时代,大数据本身是对经验世界和网络世界的再现,我们采集、分析、挖掘和可视化哪些大数据,是社会建构的结果。同时,政府需要在人才、技术、资金、制度和文化等方面提供支撑,提高全民大数据安全意识、应用意识和责任意识。

(二)大数据知识的应用体现社会价值。一般而言,知识都是通过陈述性知识和程序性知识形式表征出来的,解决“是什么”和“怎么办”问题。小科学时代,知识侧重陈述性知识。随着科学技术社会化进程的加速,知识的社会需求越来越多。特别是大数据时代,大数据被广泛应用于环保、健康、交通、反腐等领域,程序性知识的需求更明显。这样,大数据知识的环保、健康、安全、政治等方面的价值都是社会建构的结果。为了满足社会需求,促进社会进步,我们需要不断拓展大数据的应用范围,彰显其更多方面的社会价值。

从社会维度看,大数据知识是社会建构的结果,因而其相对主义倾向是比较明显的。为此,我们需要通过大数据融合,将大数据知识建立在更具普遍意义的大数据基础上,实现去语境化,提高大数据知识的适用性。

七、启示

大数据知识实现是一个复杂的过程,历史、科学、认知、伦理、语言学和社会等维度之间不是零乱地或者机械地存在着,而是动态有机地相互作用, 彰显为协同性、历史性和共时性等特征。首先,不同维度之间具有协同性。虽然不同维度在大数据知识实现过程中发挥不同的功能,但是只有它们之间的协同,大数据知识才能实现。历史维度为大数据知识提供基础的大数据资源,科学维度为大数据知识提供技术支撑,认知维度为大数据知识提供主体性支撑,伦理维度为大数据知识提供客观性和安全性支撑,语义学维度为大数据知识提供意义表征的支撑,社会维度为大数据知识提供最终的归宿。只有不同维度有机地协同起来,大数据知识才能实现,缺少任何一个环节,都会影响大数据知识的客观性与实效性。其次,不同维度之间具有历时性。对于一个确定要研究的大数据来说,不同维度的出现具有一定的先后性,如历史维度、科学维度、认知维度、伦理维度要先于语义学维度和实践维度,体现不同维度发展的历时性特征。再次,不同维度之间具有共时性。由于大数据处于动态运行过程中,每一时刻不同维度又处于共时的发展中,你中有我,我中有你。只有每个维度都承担好自己的责任,大数据知识的价值才能更好地彰显。

参考文献:

〔1〕苏玉娟.民生科技解决民生问题的维度分析〔J〕.科学学研究,2009(8).

〔2〕王立学,冷伏海,王海霞.技术成熟度及其识别方法研究〔J〕.现代图书情报技术,2010(3).

〔3〕吕乃基.大数据与认识论〔J〕.中国软科学,2014(9).

〔4〕吴基传.大数据与认识论随笔〔EB/OL〕.http://www.cnii.com.cn/wlkb/rmydb/content/2013-12/02/content-1263979.htm.

〔5〕Sosa, Ernest.Knowledge and justification〔M〕. Aldeshot: Dartmouth Publishing Company,1994.

〔6〕苗东升.从科学转型演化看大数据〔J〕.首都师范大学学报,2014(5).

〔7〕安 军,杨烨阳.知识实现的概念图表理论〔J〕.科学技术哲学研究,2012(6).

责任编辑 周 荣