APP下载

数据本体的概念及意义解析

2020-12-01

岭南学刊 2020年6期
关键词:本体论本体概念

倪 钢

(广东工业大学 马克思主义学院,广东 广州 510090)

一、数据本体何以可能

1.数据世界及其探究过程是数据本体的前提和基础。人类历史和世界文化正处于非凡的数据化及智能化时代。20世纪80年代未来学家阿尔文·托夫勒在《第三次浪潮》一书中预测了大数据时代的来临,大数据时代被描述成历史的“华彩乐章”[1]11。以V·M·舍恩伯格的相关大数据著述发表为标志,人类社会全面开启理论和实践维度的大数据时代,在这个时代,人类社会的物质方面和精神方面融合成为数据过程,最终导致数据世界的生成和演化。数据世界是基于自然、社会及人类的客观和主观方面建构和发展起来的融合世界,这个世界的特征也体现在信息及大数据的某些方面。

早期大数据研究者们考察了大数据的“4V”(volumevarietyvelocityvalue)特征,这些特征的具体表现形式也复杂多样。[2]85美国学者弗洛里迪等人建构了信息哲学体系,在这个体系之内,数据及其本体论问题也成为信息哲学的重要内容。[3]21在信息本质研究方面,一些专家提出多样化的理论观点,这些观点也提供了考察数据本体的哲学维度和观点。例如,美国学者伯格曼比较详细地研究了新千年以来信息本体及其本质的演变过程。[4]35语言学家克里斯特详细讨论了基于网络技术的界面语言及网络符号的本体论问题,此类探究也为数据本体研究提供了某些语言学方面的依据。[5]30

基于哲学的观点探究大数据若干特征不仅可以揭示数据现象层面的问题,也可以揭示数据本体层面的某些问题。首先,关于大数据的海量化特征问题。根据电子计算机的内在逻辑结构单元的设计及规范化的数据计量标准,比特(Bit)和字节(Byte)是数据的最小计量单位,数据按照其体量大小排列成序列(B、KB、MB、GB、TB、PB、EB、ZB、YB、BB等等),数据体量达到PB级别才可以算大数据。但是,一些数据体量虽然没有达到大数据级别,却由于网络传播及交往的无限性,普通数据或准大数据在社交网络、移动网络、智能平台工具、服务网络平台等助推和交互作用下,发展成为大数据。例如,商业网平台淘宝会员每天产生交易数据达到几十TB以上,FACEBOOK用户日志数量达到几百TB。一些研究者强调大数据本身包含数据种类及规模的海量性。基于哲学考量,大数据的海量化特质还包括以下内容:其一,大数据存在方式、存在领域和存在状态的数量大。一些大数据的存在领域和存在状态尚需要进一步挖掘和整理。其二,数据关联方式和关联结果的类型复杂、种类繁多,不确定性内容多。其三,大数据表现方式和获取方式的体量大。其四,大数据获取及分析对象的范畴大、细节问题多。

其次,关于大数据的多样化特征问题。被称为大数据的数据对象包含广泛的数据生成者、传播者和使用者的内容,这些数据本身的表现方式和体现形式极其复杂多样;同时,大数据的非时空限制及高度的动态发展过程导致大数据存在样态和类型的无限变化。简言之,多样化的大数据呈现结构化和非结构化的特征;同时,大数据本体也演化为不同的类别。从哲学认识论的角度看,大数据的多样化特征体现为数据主体、数据客体、数据中介的复杂存在方式和发展样态。

再次,关于大数据的快速发展及演变特征问题。大数据本身是一个复杂多样的系统和生态化发展的体系。一方面,无限多样化的数据高速生成和演变,信息孤岛很容易被大数据的传播机制所摧毁;另一方面,数据的生成、获取、处理、传播、发布等科技手段日益强大,面向数据分析和数据处理的速度消除了时空环境的界限。

最后,关于大数据的价值特征问题。一切数据都具有认识和实践方面的价值,大数据同样具有理论与实践方面的价值属性。经济及科学研究领域对大数据价值的认识和理解经历了一个量变到质变的过程,大数据已经成为重要的资源。相关关系研究是大数据研究的核心内容之一,大数据的生成、获取、处理及分析、应用与传播等过程包含着基于目的性的数据挖掘、模型分析、趋势预测、博弈设计等方面的内容。面向大数据的机器学习、人工智能、云计算等数据研究及处理过程,一方面可以揭示数据本身之间的逻辑关联及其隐含的客观事实,另一方面可以发现跨领域及跨时空的数据演变过程隐含的客观规律和社会事件的预期结果。近十年以来,大数据相关的科学技术理论及具体方法已经向三次产业领域拓展,并且出现了“大数据产业”这样一种增值极快的产业形态。大数据产业融合了三次产业类型,它消除了产业之间的壁垒,建构新的产业形态和产业发展的逻辑。例如,大数据改变了一些企业的营销模型,创造了新的城市管理及公共文化治理的进路。再如,大数据为城市管理问题研究提供了模型和方法工具。有学者借助于协同学的理论观点,讨论了数据之间、计算处理过程、分析过程、人机关系等方面的协同管理问题,建构了一种“4C”模型考察相关理论和实践价值问题。[6]

2.数据本体是自然、社会及人类思维的融合过程和结果。世界万物可归结为自然界、人类社会、人的思维,这三种基本存在融合成一个数据本体及其衍生的世界。一切过程以数据化的方式被认知理解;另一方面,数据化的思维过程和实践过程导致世界的创新性整合与分化。

大数据作为一个反映时代特点的术语,源于因特网和云计算技术,它也有着极其深刻的商业和社会背景。从字面意义角度看,“大”的意义和内容确实难以计数,哲学、文学、科学技术等各种领域,都给出“大”的理解。老子的《道德经》把“大”和“道”并称为最神秘的事物,“强为之名曰大”[7]169。简言之,大是相对的概念,它形容一个事物对周边环境或其他事物的超越或突显;同时,大也是一个抽象的概念,它用以表达人类智慧或理性难以精确表示的一个复杂性的事物,但是,它可以是任何形式的无限拓展或延伸,甚至包容了无限小的世界。大数据概念包括的另一个词素是“数据”。数据这个词语的字面意义相当简单,它类似数学中的数字或数量;数据是一个表达精确事物或精确思维方式的概念,它可以是单一的数字,也可以是集合性的数字,还可以是某些图表或公式。在当代,随着计算技术和网络技术的日新月异,随着云计算、物联网、智慧城市等术语的提出及相关实践探索的发展,人们对于数据概念的理解发生复杂的变化。数据化的意义也正从不同的方面体现出来,数据的处理技术显示着无法替代的作用。因此,大数据概念已经被赋予更多学术内涵,它已经不仅仅是数据,而成为方法工具或思维方式。大数据概念研究及具体问题分析过程从更加具体的方面揭示了数据本体概念包含的融合性内容。

3.数据本体生成和演化机制复杂多变。数据世界的生成和演化因素是多方面的,数据本体生成和演化的机制也复杂多变。社会生产力和人类精神世界的巨大发展,科学技术理论和方法的运用,自然界、人类社会、人类思维的互动融合等,这些方面是数据世界及其本体化发展的最基本的因素。数据分析及大数据研究背景中的问题界定也突显出来,它似乎是明确的,又似乎是难言的。

信息科学及数据分析领域的本体问题探究越来越受到重视,数据的本体论问题的深度探究需要三个前提条件:一是以数据为核心要素的数据世界的生成,数据世界成为科学研究和实践探索的重要对象;二是数据分析及大数据研究范式成为跨学科的理论工具,大数据的理论与实践日益深入人类社会的各类领域;三是人类思维及研究范式也开始引入数据化进程,人工智能及各种数据分析模型的运用拓展了人类思维的能力和范围。

体量庞大、增速极快的大数据的本体论、认识论、价值论等方面的探究,一方面需要借助信息科学及电子科技的知识和方法,另一方面也需要借助哲学社会科学的相关理论和方法。事实上,“大数据分析”并不只是一个严格的科学模型的逻辑展开过程,它也是一个运用人类的理性能力及相关哲学社会科学理论和方法的过程。“数据本体”之概念探究即是一个数据分析过程绕不过去的基本问题。

二、数据本体概念解析

1.本体概念定义。基于恩格斯的观点,科学研究过程中任何概念的抽象定义只有微小价值。但是,这种观点主要是从科学研究过程的实践角度及客观过程方面考虑的,当概念研究深入到某种具体过程之后,它的意义和价值即突现出来。对于某种问题的具体探究过程而言,概念定义是不可或缺的,在某些特定的情况下,概念定义甚至是最基本、最关键、最困难的事情。大量学术成果表明,数据本体已经成为信息科学和计算机科学研究领域普遍存在的概念,但是,数据分析过程中的数据本体概念定义呈现出多样化和不确定性的状态。

自然科学关注自然界及一切客观的自然现象和自然规律的问题,着力探索自然现象和规律的发现和揭示,在现象和规律研究的基础上,完成创造发明或理论建构。这样一个复杂艰难的研究过程必然涉及到大量的本体论问题。本体论或本体相关的知识理论,成为科学实验或实践探索过程的前提或基础。自然科学研究语境的“本体”可以被定义为某种知识性的要素或逻辑结构。在自然科学、哲学社会科学及人文学科领域都有大量学术成果涉及本体概念及其解释内容,在不同学科知识背景中,本体的含义有很大差异。一般地说,自然科学语境的本体概念被理解为某种实体或过程的集合体。自然科学研究语境的本体概念与可观测的某种对象对应,而哲学、社会科学和人文科学语境的本体概念有更多的抽象性内容。简言之,本体可以指实体、过程、概念、关系、理解、模式等等。例如,有人认为知识系统可以成为本体,可以把约定的原则当成本体,可以把客观对象的实体关系在主观中的表达方式理解为本体。[8]再如,有人在具体的自然科学研究过程中,把自然界中的某种“无色透明玻璃状本体共聚物”称为本体。[9]

从词源学的角度看,本指代宇宙或自然的本身或由来,引意为万事万物的根源、根据、中心、本原。本的此类含义直接影响着本体概念的内涵和外延。日常生活实践中,本即指草木的根或茎干,隐喻事物的根源、根基或某个事物的中心部分。本用于主体自我指称,说明借代事物的本来面目等含义。本也有原本、原来、本钱、根据等意思。在一些场合,本作为量词指代书册、版本、脚本、本章、方案,等等。体的基本涵义是主体或事物的身体或部分,强调某种状态的表达。在日常用语和科学研究中体获得了丰富内涵和外延。体代替书写中的字体、文体、书体,也代指某种事物的体制、整体、形体、喻体、机体。在一些场合,体由名词转化为动词,意指主体或主观的体验或感知过程。[10]1657作为本体词素的体之基本含义是事物存在的状态、形状、形制、生成,同时它主要是一种客观事物或现象的表现形态及其体验或感知的过程。

学术研究领域的本体概念的定义和解释,大概是从三个维度展开的:第一,作为实体的本体;第二,作为理论基础或基本概念的抽象物;第三,作为过程或互动关系的对象物或表征物。事实上,这种定义模式和解释方式也和哲学领域的概念定义模式有关,一般认为本体论,即涉及各种实体的原理,即可被一种语言系统确认的各类抽象实体。本体论涉及的本体主要是抽象化的或理论化的实体,这个实体既属于客观的自然世界或精神世界,它也属于主观创造的或思维的世界,同时,它可以用某个规定的语言体系或理论领域进行定义或理解。

2.数据本体概念的科学解释。自然科学、社会科学、人文学科领域的本体论和数据本体研究,既体现了数据本体的广义理解也反映了一定条件下的狭义理解。计算机科学及人工智能等研究领域的数据本体概念研究比较普遍。近几年来,西方学者Hearst、Buitelaar、Amsler、Fisher、Stephens等从人工语言、语言学分析与标注、矢量聚类方法、词汇关联度等视角考察了数据本体论的定义和概念性问题。相关研究表明,本体是共享概念模型的形式化、明确规范。这些学者认为概念模型是指抽象出客观世界中的一些现象的相关概念而得到的模型,其表示含义独立于具体的环境状态,其明确的意思是指使用概念及其严格限制的相对明确的定义,其形式化主要是指逻辑和语言类型的形式化,成为一种机器语言,其共享是指本体中的知识和概念在领域研究和理论知识的应用过程中达到群体公认的程度和水平。

一些计算机专家和信息工程师对数据概念进行了广义和狭义的两个方面的理解。广义的数据是指人类实践或科学技术活动过程中涉及到的一切数字、图表、符号、公式、法则、规范、影像资料等等。例如,统计、观测、调查、分析、计算、文献、实验等领域或过程方面的数据。狭义的数据是指与生产实践和人类社会生活密切联系,基于一定的生产管理或社会目标,运用一定的科学技术手段获得的各类现象、事件、过程、交互关系的量化信息或可数字化表达的结果,这些结果的体现形式或表现方式也是多种多样的,例如,描述、数字、符号、公式、图表、模型、影像、交互作用、功能显示、观测记录、心理过程表征等等。一些学者提出基于本体论及语义Web的产品信息建模的观点,在本体论分析基础上,建立了对象封装、中间件、产品信息模型、层次化结构,通过引入中间件层,实现产品信息语义一致性,增强了模型互操作性。也有学者提出“本体是对客观存在的抽象理论——人对客观世界的反映,用于描述事物的本质”[11]。在人工智能研究领域,Neches等人较早给出本体的定义,他们认为本体是“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的、规定这些词汇外延的规则的定义”,这种定义模式也成为本体代数学的重要内容。[12]在智慧城市理论与实践研究领域,学者们也广泛探究面向智慧城市建设的大数据、物联网及云计算的本体论问题。[13]15

图1基于哲学考量的本体概念类型图示

3.数据本体概念的哲学解释。科学语境的本体论强调本体构素包含以下几个要素:概念、本质、属性、案例或说明。这种观点并没有重视本体论实践中的过程、关系、功能及意义的本体构素。我们还必须联系大数据及信息科技领域的数据概念进行讨论。事实上,数据科学或信息科学领域的本体论也包含了过程性、功能性、关系性及意义性的内容,本体可以概括为三种类型:第一,自然物体或物质实体成为本体;第二,研究的概念模型或理论框架成为本体;第三,研究过程逻辑体系或主客体关系成为本体。如图1所示。

哲学维度下的本体可以体现为理念本体、实体本体、关系本体、过程本体、实践本体等等类型。科学或哲学语境的本体论涉及本体概念及基本类型、本体属性、本体实践方式及本体案例说明,这几个方面成为科学技术领域的学术成果中关于本体论的最基本的内容。按照一般的知识逻辑,数据本体也就是数据的根本形态或原本形制,按照这种思路,还可以对数据本身进行具体的分析,例如,数据本体可以是数据本质的核心形态、数据的本真形体、数据的生成根源等等。

理论和实践领域的数据分析及其相关研究成果表明,在不同语境和场合背景下,人们对于大数据、数据分析等概念并无统一性的理解,在信息科技及计算技术相关的研究领域,数据本体被赋予不同的意义,也产生相关的理念混乱和逻辑混乱。例如,大量的研究成果混淆了一般性的数据分析过程和大数据分析过程,究其原因,主要是没有清晰界定数据本体概念。再如,一些研究成果运用了大数据分析的模型,但是,缺少前提和假定条件的解释和说明,究其原因,也主要是没有明确数据本体的对象性能指和所指。

三、“数据本体”概念探究的意义

根据哲学认识论及大数据研究过程的具体内容的逻辑关联,我们提出数据本体意义探究的理论空间结构(如图2所示)。这个数据本体概念及意义生成解释的理论空间结构,提供了考察数据本体及相关意义问题的领域及向度。例如,数据本体涉及的客观世界与主观世界的物质及精神内容,这些内容通过自然界、人类社会、思维和实践结合为一个数据本体为基础的数据世界。人类主体在实践和认识过程中,一切观念的、心灵的、思维的、语言的、符号的、模型的、设计的等意识过程及思维过程的结果与数据本体发生复杂多样的联系。简言之,数据本体联结着物质世界和精神世界,它也成为人类意识及思维的过程及结果的承载方式和显现方式。

图2数据本体意义研究的理论空间图示

从学术研究的角度看,数据本体概念探究也展示了若干方法论意义:首先,它具有梳理和澄清意义。在数据本体探究的过程中,研究者可以在概念方面和实践领域澄清不同领域使用的数据或数据本体概念的内涵和外延。其次,它有助于概念限定和精确解释。数据本体论探究可以帮助研究者确立清晰的问题意识,使用严格的概念术语,规范研究过程及表达内容。再次,它为具体的数据分析过程提供逻辑和理论依据,为不同类型的数据分析的相关研究确定边界。最后,它为一切形式的数据分析提供方法论。实际上,数据本体的定义和解释过程通常是和研究设计及逻辑框架结合在一起的,明确的数据本体概念界定和解释表征着研究过程的合理性和科学性。

数据本体相关理论及实践意义的解析维度和意向性考察,不仅决定了它的真实意义,也提供了具有应用价值的观点和方法。例如,商业领域的大数据分析模型被拓展到城市管理和文化治理的某些应用领域。在教育、医疗及相关公共管理的领域,研究者们不仅关注数据分析的过程和具体操作程序,也关注数据本体的定义和界定,并进一步深化、拓展具体研究过程。城市公共管理领域的相关数据分析研究表明,一些课题研究的设计及相关数据分析过程,由于数据本体概念及其深层问题的探究的相关内容缺失,导致研究结论的片面性或简单性,一些政府治理相关的大数据研究表现某种缺陷,例如,“研究的中心聚焦度不高”“并未从政府治理本质出发理解大数据”[14]等等。城市治理相关的数据本体论的探究有可能补充和完善这些研究的缺失。

在政府信息化、公共交通智能化、城市管理数字化的过程中,数据本体概念应用于越来越多的城市管理过程和公共文化的技术服务过程,基于信息技术的公共文化呈现“界面化”样态,“界面文化”也创造了新的文化本体。[15]12数据本体的概念及意义探究的结果也有助于某些具体的理论及现实问题研究。例如,在城市治理领域,数据本体概念及意义的深度探究不仅提供了数据分析的理论原则和依据,也拓展了研究语境和理论空间。

猜你喜欢

本体论本体概念
Birdie Cup Coffee丰盛里概念店
眼睛是“本体”
幾樣概念店
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
学习集合概念『四步走』
张载哲学的本体论结构与归宿
聚焦集合的概念及应用
基于本体的机械产品工艺知识表示
微电影本体论辨析