APP下载

AI重塑知识观:数据科学影响下的知识创造与教育发展

2023-06-14郝祥军顾小清

中国远程教育 2023年5期
关键词:数据挖掘科学

郝祥军 顾小清

摘要:在数据定义万物、数据量化万物、数据联接万物的人工智能时代,数据科学在大数据的推动下取得快速发展,将目标直接指向了如何从数据中提取和建构知识。数据科学指向的数据挖掘与知识创造过程系统描绘出从数据到知识发现的完整流程。本研究试图从数据科学的视角探寻以数据为核心的新知识观形成,从数据与智能技术带来的知识生产方式与知识生产要素的变化中尝试刻画出重塑的知识观轮廓,并对“教什么知识”“知识如何教”“如何化知识为素养”三个问题进行探讨并做出回答,以寻求教育迎接知识创新人才挑战的发展路径。

关键词:数据科学;人工智能;知识观;数据挖掘;知识创造;知识生产;知识教学;教育发展

中图分类号:G511       文献标识码:A        文章编号:1009-458x(2023)5-0013-11

一、引言

随着大数据、人工智能、物联网等智能技术的深入发展,人类社会逐渐从“信息化”转向“智能化”,万物互联成为智能时代的关键特征。这种特征背后的一个假设就是“万物皆可数据”,人与人之间、人与物之间、物与物之间都可以以数据作为纽带形成联接,在平行宇宙中镜像构建出一个数据世界。恰如古希腊哲学家毕达哥拉斯的“数是万物本原”的观点,直接将数据视为世界的本体或本质去讨论(林夏水, 1989)。当前,技术的发展日新月异,似乎由于数据与技术的推动人类将更接近这一本质。例如,以机器学习为内核的人工智能(Artificial Intelligence, AI)已经渗透到社会的各个领域,出现智能社会、智能交通、智能教育、智能医疗等新的发展趋势。人工智能的核心是算法,算法的核心是基于数据的机器学习,以机器学习为内核的AI在本质上也是数据驱动的智能,或称为“计算智能”。因此,数据是AI成功的重要因素,数据和智能构成一体两面的关系(程学旗 等, 2020)。而数据科学是一种“使数据有用”的科学理论和技术系统,探索将数据转化为信息、信息转化为知识、知识转化为决策的机制和方法(Xu, 2021)。正是在数据科学的影响下,科学的知识发现与生产从仅追求因果性走向重视相关性,提出了“科学始于数据”的知识生产新模式,为人类探索世界提供了新的思维范式与方法途径(黄欣荣, 2014)。那么,在数据定义万物、数据量化万物、数据联接万物的人工智能时代,当一切皆可用数据表征、描述、解释和预测时,人们认识世界的方式是否会因此改变?知识创造与生产模式会发生什么变化?是否会重塑出新的知识观?教育又该如何应对新知识生产模式带来的人才挑战?本研究将从数据科学的视角尝试回答这些问题。

二、数据科学的由来与内涵

数据科学由来已久,其内涵也历经多次演变,而大数据的出现和发展是推动数据科学形成的最直接、最重要、最核心的动力。据研究记载(聂淑媛, 2019),数据科学一词最早于1966年被图灵奖获得者丹麦计算机科学家彼得·诺尔(Peter Naur)提出,意指研究数据使用和本质的科学;1996年数据科学第一次正式出现在日本神户召开的第五届IFCS大会的主题中,大会明确了数据科学的含义,即“数据科学应该是统计学、数据、计算机及其相关方法的综合交叉,通过数据收集、数据存储、数据处理和数据应用等过程与环节,最终达成利用海量数据揭示自然现象和社会本质的终极目标”。自此,数据科学的概念被提出,但一直未被正式讨论;直到本世纪初大数据出现,数据科学才重新走进人们的视野。2007年图灵奖得主美国数据库专家吉姆·格雷(Jim Gray)提出数据密集型科学研究范式(Tolle et al., 2011),该研究范式进一步凸显数据在科学知识发现与生产上的价值。发展至今,数据科学已经成为一门强调如何从数据中获取知识洞见的交叉学科,主要与统计学、计算机科学、机器学习等具有千丝万缕的联系。而且,数据科学在金融、商业、教育、新闻等众多领域已成功实践,在“实践倒逼理论创新”的趋势下,亟待从数据科学的学科视角深入挖掘蕴藏在实践背后的新理念、新方法、新技术和新理论(朝乐门, 2019)。

那么究竟何为数据科学?中国工程院李国杰院士(2012)从社会学的角度解释为,数据科学是关于大数据时代的科学,旨在揭示大数据时代的新挑战、新机遇、新思维和新模式,是大数据时代新理论、新方法、新模型、新技术、新平台、新工具和新应用等组成的一套知識体系。后来,经过进一步讨论认为,“数据科学是方法论和本体论在数据价值实现目标下的统一”(程学旗 等, 2020)。在方法论上,数据科学的内涵是“数据驱动科学发现”,即延续了数据密集型科学研究范式中通过数据揭示事物本质规律的思想;在本体论上,数据科学是“用科学方法来研究数据”,即强调了数据作为反映自然世界的符号化表征,运用科学方法来探索数据的一般性规律。而国外学者对数据科学的认识似乎更加技术化。普罗沃斯特(Provost)等认为,数据科学是支持和指导从数据中原则性地提取信息和知识的一套基本原则,与其最密切相关的概念是数据挖掘(Provost & Fawcett, 2013)。例如,使用分布式计算环境中的大型多结构数据的统计和机器学习技术来识别相关性和因果关系,对事件进行分类和预测等(Das et al., 2015)。马丁内斯(Martinez)等将数据科学定义为计算机科学、数学和统计学之间的多学科交叉领域,包括利用科学方法和技术从大量结构化或非结构化数据中获取知识和价值(Martinez et al., 2021)。虽然数据科学的定义还未统一,但从众多概念定义来看,数据科学是研究如何从数据中提取和建构知识的计算原理、方法和系统的领域,旨在通过数据驱动的方式揭示事物规律和科学发现以解决复杂的实际问题。

综上所述,数据科学作为大数据技术推动下的产物,其出现有其必然性和必要性。尤其当前处在数据驱动的智能时代,数据已经上升为生产资料,数据科学则可以为发掘数据效能提供理论方法与技术支撑,从而增强大数据的能力,并将其转化为实际生产力。因此,从知识创造与生产的角度来看,数据科学为数据到知识的转变提供了理论指导和技术路径。恰如徐(Xu)等总结的“三个转变、一个实现”,即数据科学的目标是实现对现实世界的认识和控制,数据科学的科学任务是完成数据空间中从数据到信息、从信息到知识、从知识到决策的转变(Xu et al., 2021)。因此,数据科学就是探索如何从数据到知识转变过程的理论、技术和应用的一套体系,直接以数据增值过程指向知识创造,进而实现对以往知识生产流程的再造。

三、数据科学指向的知识创造

数据科学作为一门以数据为研究对象的科学,将目标指向如何实现从数据到信息、从信息到知识、从知识到决策的转变,暗含着一个以数据为出发点的知识创造过程。最早的DIKW金字塔模型形象地诠释了数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)之间的关系以及数据向上转化的过程(Rowley, 2007)。那么,如何从数据到信息,又从信息到知识,从而实现数据增值呢?数据是物理世界和人类社会活动的数字记录,是编码形式的信息载体,常见的数据表达包括表格、图形、图像、视频和文本等多类型;信息是具有语义解释的数据,是经过一定抽象和处理后对人类有意义和有用的形式的数据;知识是通过信息的合成、相关性、演绎和推理获得的,并且已被验证为准确和一般人相信的信息(Xu et al., 2021)。通过数据和信息与知识之间的概念关系可知,数据发挥价值需要经过一套完整的增值过程,而这个过程就是数据挖掘或知识发现。

(一)数据挖掘过程:数据驱动的知识发现

由于数据库的大量应用,各领域非常关注如何从数据中获取价值。如果没有使用适当的技术来提取有用的知识,这些数据库中包含的所有价值和丰富的信息都有可能被漠视和浪费。法耶德(Fayyed)等认为,“数据库知识发现”就是从数据中发现知识的全过程,包括数据如何存储和访问,算法如何缩放到海量数据集并仍然高效运行,结果如何解释和可视化等;数据挖掘是将适当的预处理数据转化为模式,随后可以转化为有价值的和可操作的知识(Fayyed et al., 1996)。之后一系列关于数据挖掘的过程模型被提出并应用,如KDD(Knowledge Discovery Databases)、 SEMMA(Sample, Explore,Modify, Model, Assess)、CRISP-DM(Cross-Industry Standard Process for Data Mining)(Shafique & Qaiser, 2014)。其中,CRISP-DM过程模型(如图1所示)作为跨行业数据挖掘标准是目前使用最广泛的工具,经过20多年的发展,其数据挖掘模式仍然适用于今天的数据科学项目;从精确的业务目标开始,转化为明确的数据挖掘任务,最终将“数据转化为知识”(Martínez-Plumed et al., 2019)。

業务理解:这是数据挖掘的第一步,因为最初的数据挖掘服务于商业应用,故此阶段侧重于从业务角度理解业务(知识发现)的目标和要求,从而定义数据挖掘问题、制定挖掘目标;在目标导向下为整个流程初步拟定计划,筛选挖掘技术和工具。

数据理解:该阶段从最初的数据收集开始,然后进行一些数据获取与检测活动。重点是数据收集、数据检测和质量验证,以熟悉数据、识别数据质量问题、形成对数据的初步见解或检测感兴趣的子集,进而在洞察数据的基础上生成隐藏信息的假设。

数据准备:该阶段包括从初始数据构建最终数据集所需的所有活动,重点是选择和准备最终的数据集。这个阶段可能包括许多任务记录、表和属性选择以及数据的清理和转换。数据准备工作也可能会重复执行,因为需要对原始数据进行反复清洗、过滤、组织和重构等以达到“建模”阶段的要求,并且要能够匹配最初的业务目标与挖掘目标。

建模:在该阶段,选择和应用各种建模技术,设置不同的参数,建立不同的模型,并将参数校准到最优值。针对同一数据挖掘问题类型可能有多种技术方案,有些技术对数据的形式有特定的要求。因此,该阶段通常需要返回到数据准备阶段,为适应建模要求而重新调整数据形式。

评估:重点是对得到的模型进行评估,并决定如何使用挖掘结果。从数据分析的角度来看,该阶段似乎已经建立了高质量的模型。在继续进行最终的模型部署之前,应更彻底地评估模型并检查构建模型所采取的步骤,以确保它正确地实现了知识发现目标,并就未能考虑到的内容进行再补充和深化。

部署:重点是确定获取知识和结果的使用。这个阶段还着重于以用户可以使用的方式对所获得的知识进行组织、报告和呈现。

各阶段的详细任务如表1所示。由于技术“黑箱”的缘故,其实并非所有人都清楚数据是如何从生成到被检测、清洗和建模,再到被解释或赋予意义的。该模型清晰地诠释了以目标为导向的数据增值的重要环节及其相互关系,交代了从数据到信息的转化、再到最终被应用于知识产品的流程。这个过程有迭代优化的周期:在数据理解阶段之后,数据分析人员往往需要回到业务理解中重新考虑最初的知识发现目标;在数据建模阶段之后,需要新的数据预处理来改进衍生数据模型,甚至开发其他数据模型;评估阶段的调查结果还可能需要从第一个阶段开始,即业务理解,以防模型不支持事先确定的知识发现目标。以此来看,数据挖掘是一个从相对明确的业务目标和数据开始的过程,这些目标和数据已经收集并可用于进一步计算处理,这种过程类似于在确定矿物或金属存在的特定地理位置开采有价值的矿物或金属:数据是矿石,在矿石中发掘有价值的知识(Martínez-Plumed et al., 2019)。

(二)知识创造过程:人的智慧与数据协同

数据挖掘虽然实现了从数据中提取有效信息乃至形成知识认知,但其本质上还不是真正意义上的知识创造,因为真正的知识创造需要有人的智慧性参与。正如知识创造理论之父野中郁次郎(Nonaka, 1994)提出的知识创造动态模型,强调知识的社会化、外在化、组合化和内隐化,尤其强调社会互动有助于扩大和发展新知识,以及知识是通过默会(隐性)和明确(显性)知识之间的持续对话而创造的。这凸显人的智慧性在知识创造过程中的重要性。基于此,Nonaka(1994)开发了组织知识创造过程模型(Organizational Knowledge Creation Process, OKCP)(如图2所示)。这里的“组织”是指具有共同业务目标的机构或群体。该模型充实了个体与群体之间知识的传播路径,强调了扩大个体知识、为共享知识寻找共同概念(概念化)、将共享知识具体化为具体产品或系统(结晶化)、评估所使用的产品和知识(论证)以及通过组织传播概念(知识网络化)的重要性。

从该模型的要素来看,首先知识创造的原动力是个体,个体通过直接的“实践”经验积累隐性知识。随后,个体在组织内部分享和交流经验,并在互动过程中对隐性知识进行概念化和反思,个体的知识就通过这种经验与理性的相互作用而扩大,并结晶成一个独特的视角。其次,“论证”是最终聚合和筛选的过程,它决定了组织内创造的知识在多大程度上对组织或社会真正有价值。从这个意义上讲,论证决定了所创造知识的“质量”,并涉及判断真实性的标准。这符合传统认识论中对知识的定义,即“知识是证成的真信念”(Knowledge is justified, true beliefs)(斯坦福哲学百科全书,2020),其强调的是知识的真实性以及被论证。最后是知识网络化。在该阶段组织群体已经将概念化、结晶化和论证的概念整合到组织知识库中,组織知识库构成了一个完整的组织知识网络;通过已建立的组织或社会愿景和新创建的概念之间相互诱导的互动过程,新的知识被创造出来,最终扩大了个体知识内容并更新了个体内部知识结构。值得强调的是,知识创造过程是一个永无止境的循环过程,它不局限于组织内部,包括许多与外部环境的接口,因为环境是激励组织内知识创造的持续来源,比如来自环境中的社会发展意图、混乱与波动、信息冗余等都会引发组织知识创造。

该模型揭示了从人的经验知识出发经过社会化反思与论证而产生新知识的过程。但大数据时代海量数据成为知识发现与创造的新源泉,新的知识创造方式应融合数据挖掘的理念与方法,并将人的智慧性与技术的智能化进行融合。为此,海科等人(Haiko et al., 2021)从数据科学的视角整合了CRISP-DM框架与OKCP框架,构建了数据科学指向的知识创造过程模型,即数据智能和分析的知识创造模型(如图3所示)。他们认为CRISP-DM框架与OKCP框架刚好形成相辅相成的关系,能将“利用个人默会知识创建组织知识”和“专注于数据挖掘模型的构建”的优势结合,能为数据分析师和领域专业人员之间的知识协同作用创造空间。

根据其内容介绍,本研究将该过程划分为三个阶段:

第一个阶段是业务理解与概念化阶段。该模型的前两个活动“扩大个体知识”“分享隐性知识”可以等同于CRISP-DM框架的“业务理解”。不同个体通过社会化互动进行经验知识的发散与聚合,能够增加组织整体知识和提升不同个体对业务内容的共同理解。比如,领域专家与数据分析师的知识背景不同,他们可以在此阶段形成数据挖掘目标的共识。该模型的第三个要素“业务概念”(Business concept)是CRISP-DM与OKCP的融合要素,因为“业务概念”活动的目的是个体通过互动分享来扩充知识,以增强对业务内容的理解(这与CRISP-DM的“业务理解”一致),从而促进业务内容的概念化,这为发展业务概念创造了有利条件,而且该阶段获得的业务概念将为后续活动中的“模型创建”提供蓝本。

第二个阶段是数据准备与建模阶段。该阶段是进入以数据为中心的循环圈。首先,“数据理解”是依据确定的业务概念来确定数据的来源与采集方式等。其次,“数据准备”即对数据进行清理、筛选和整合,并保证数据质量(“数据理解”“数据准备”是CRISP-DM的关键要素)。再其次,“模型创建”是CRISP-DM“建模”与OKCP“结晶化”的结合,强调建立不同的数据挖掘模型以及将业务目标具体化到最终产出的制品。最后,“评估和论证”是两个框架的第三个结合点,这里强调既要测试和验证数据,对模型进行评估,也要根据领域专业知识为模型提供论证。在数据与领域专业知识的双重标准下对模型进行评价和论证,将能够充分判断模型是否足够优化、是否可以使用、是否还需要改进;若模型需要更多改进,则返回至“业务概念”活动寻求获得有关业务内容的新见解,启动新一轮迭代循环。

第三个阶段是知识生成与模型应用阶段。该阶段包括两项内容:一是OKCP“知识网络化”,意在组织内进行知识传播,促进由数据挖掘获得和提炼的新知识与个体知识的重组,以建立新的知识结构或扩充知识内容。二是CRISP-DM“部署”,重点是对新知识、新模型的应用,应向组织成员以及业务相关利益者介绍说明如何使用已经建立的知识发现模型。相对而言,CRISP-DM在以数据作为原料的知识发现方式上更加敏锐,所以选择将“部署”活动作为模型组成要素,而且在“部署”活动中能够提供如何在组织中实施应用知识发现模型的策略,以促进有效应用该模型来发现更多新知识。

通过以上数据科学指向的数据挖掘与知识创造过程,我们可以知道新的知识创造方式已经形成,数据也已成为新的知识生产要素。从数据到信息,再到知识,这一数据增值链条阐释了数据科学指向的知识创造是对大规模、多样性的数据进行聚集、清洗、挖掘和再生产,从而形成一种基于数据集与算法逻辑规则的知识发现、理解和应用。这种以数据为主要原料的知识生产过程以及智能化算法与技术的加持,或许已经在颠覆我们以往对知识的认识,促使人们形成新的知识观。比如在知识主体上,吴飞等(2020)指出“人类的知识生产经历了从传统的个体思考、专业组织到算法引导和人机协同的新阶段”,人机协同的新阶段则生动诠释了人工智能参与知识生产的形态——人的智慧性与技术的智能化融合。而且在知识的含义、知识的类型、知识的获取方式、知识的意义等众多方面对知识哲学产生了深刻影响(肖峰, 2020a)。

四、数据科学下新知识观的形成

数据在智能时代的重要性日益凸显,因为数据是实现智能的基础,从这个角度甚至可以狭义地认为人工智能是数据科学的重要分支。从人们认识到与行动相关的知识对发展人工智能的重要性开始,专家知识系统、机器学习(深度学习、强化学习)等一系列关于知识工程的技术或算法接连出现。智能技术让机器从大量数据集学习中形成自己的知识或是由机器感知外部环境获取数据来发现知识,逐渐颠覆了人类传统知识创造依靠经验、认知乃至直觉的方式(顾小清 & 郝祥军, 2022)。在数据与技术的双重推动下,人类的科学知识生产方式与生产要素都发生了巨大变化。

(一)知识生产方式的变化

认识论是有关知识的哲学分支,知识是认识论领域的核心主题,它研究我们所知道的(内容)、我们如何知道(方法)以及知道意味着什么(意义)。早期的研究者们大致形成三种知识观念:一是“唯理论”,代表者有笛卡尔、斯宾诺莎和莱布尼茨等人,他们主张“天赋观念”是知识的源泉,唯有经过人脑的演绎和综合推理获得的理性认识才是可靠的知识,因此唯理论推崇演绎法;二是“经验论”,代表人物有贝克莱、休谟和马赫等,他们认为感知经验是知识的来源,是对客观世界的直接反映,通过经验归纳和总结形成知识,因而经验论崇尚归纳法;三是对“唯理论”和“经验论”的综合,代表人物是康德,其将感知经验作为认知基础,需要通过“天赋”的认知规则即演绎、归纳和類比等才能形成知识,两者缺一不可。由此可知,传统的知识观强调经验以及主体认知,夹杂着一定的主观性。

科学是知识生产的重要途径(张康之, 2021)。在近代认识论的演变当中,科学知识生产经历了从“科学始于观察”到“科学始于问题”,再到今天“科学始于数据”的转变。首先,“科学始于观察”是现代西方科学哲学中逻辑实证主义所秉持的观点,他们认为观察包括自然观察与实验观察两种,任何观察都代表科学研究者对于事物对象的客观认识,是人的感官能够感知的。在这种观察感知的基础上通过归纳方法总结出科学知识,可以说深受经验认识论的影响。其次,“科学始于问题”是证伪主义者波普尔提出的著名观点(邱仁宗, 2006, p. 51),他认为逻辑实证主义所尊崇的观察并不具备绝对的客观性而且是有限的,这种归纳得出的认识深受科学研究者的背景与理论预设影响,因而提倡科学的逻辑起点应始于“问题”,科学研究者针对现有理论无法解决的“问题”提出各种猜想与假设并在实验当中验证(问题→猜想性理论→排除错误→新问题)。可以看出,“科学始于问题”的知识生产方式综合了经验论与唯理论的思想,强调实验法对发现科学知识的重要性。最后,“科学始于数据”成为大数据时代知识生产与科学发现的一种新方式(黄欣荣,2014)。时至今日,各类信息媒体或智能工具为人类构建了一个数据世界,从数据中挖掘新知识、新规律是数据科学“开矿掘金”,实现数据到信息、知识的转化增值,指向知识创造与生产的使命。“科学始于数据”的方式就是以规模巨大、类型多样的数据作为知识生产原料,这将能够打破传统以主观经验为主导的知识生产局限,走向以客观数据为主导的规律探索与知识发现。

“科学始于数据”的知识生产方式得益于数据量化万物的思想,哪怕是人类已经固化于书本的知识乃至人类的社会化行为都可以被技术数字化、符号化为数据表达。所以,这里的数据不仅仅是指狭义理解中的数字形式,而是对人类世界一切事物的数据化表征,可以是人类原始的行为与经验,也可以是人类已经确证或固化于书本的知识,包含表格、图形、图像、视频和文本等多类型、多模态的数据形式,所以数据的类型也分为非结构化、半结构化和结构化。这种量化的方式使得现在的人工智能机器能够灵活运用人类知识,比如AlphaGo在机器学习算法支持下从预置的大量人类棋手棋局模板中学习围棋知识实现了人机较量;“微软小冰”通过学习人类已经广泛流传的诗歌、音乐和美术等作品实现艺术创作,甚至举办了画展、出版了个人绘画作品集,引发了人类对AI知识产权主体的伦理探讨(曹新明 等, 2020)。正如陈丽(2019)在阐述知识观变革的动因时指出的,“信息与行为的可量化”使得人类第一次可以运用数据科学方法精准分析和系统掌握人类行为的规律。这揭示了数据科学影响下知识生产方式变化的根本原因,即以数据作为纽带形成连接,创建了平行于宇宙的镜像数据世界。同时,这一知识生产方式的变化也从正面诠释了人类认知的三类进路(董春雨 等, 2018):一是纯粹靠人类感知获得的经验知识;二是以实验为手段,通过仪器量化来衍生人类感知与经验;三是大数据技术推动“万物数据化”,以“数据+算法”获得一般性规律。这同样也揭示了知识形态的演进过程,即从经验形态的知识(在感官所能触及的层次上把握世界)到原理形态的知识(以普遍公式和系统推理构成的演绎体系表达的知识,并通过实验加以验证),以及今天有信息技术支撑的交叠形态的知识(韩震, 2021)。信息技术支撑的交叠形态的知识是以计算科学来阐释人类的社会现象与科学问题,通过大量、多源的数据采集、处理、挖掘和分析来构建一个与客观世界平行的镜像数据世界并获得认识,从而实现大数据知识发现与生产。

(二)知识生产要素的变化

以数据为关键原料的知识生产范式的出现与知识形态的演变,意味着新的认识论或知识观正在悄然形成。例如,董春雨等(2019)就在大数据、机器学习科学应用背景下讨论了机器认识论的可能性,总结出以数据为基础的认识论正在从人类中心走向非人类中心。今天处在知识经济时代的重要发展阶段,生产要素的形态随着经济发展不断变迁。2020年3月30日中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据增列为生产要素,数据成为新的生产力。众所周知,生产力包括劳动者、劳动对象、劳动工具,三者的结合构成生产方式。那么,“科学始于数据”的知识生产方式的形成代表着知识生产要素,即“知识生产主体”“知识生产对象”“知识生产技术与工具”发生了重大变化。

1. 知识生产主体,出现人、智能机器和人机协同三者共生的形态。人自出生时起就开始与外界产生各种交互而获得知识,最原始的是通过观察模仿行为,进而形成认识、创新行为,逐渐适应社会生活。这也是现在广受肯定的具身认知下的知识观,即“知识是内嵌于环境之中,是认知主体与对象、环境相互作用的结果”(范文翔 等, 2020),强调了“物体—背景—身体”的整体结构,体现了“人”作为认知主体的知识建构形态。智能机器也是基于知识的运行结果,机器最初被“输入”人类的知识(专家知识系统)、模拟人的思维,然后变得能够自动学习或生产(机器学习)原本需要通过实践、认知和顿悟才能获得的知识。智能机器开始能够参与乃至主导一些人类的知识生产活动,比如大家所熟知的“微软小冰”,还有我们每天阅读的新闻资讯也开始转变为人机协同编辑甚至机器自动化生成,原有的传播格局被打破(任瑞娟 等, 2021)。知识创造似乎再也不是人类独有的智慧专利。尽管目前机器还不能达到人的智能程度,但机器已经表现出来的高级智能不容小觑,基于深度学习、强化学习算法的“自学习”过程在人工智能领域已经实现。智能化的技术使得碎片化知识和跨领域知识能够快速整合与联结,知识生产与迭代速率已经超乎想象,基于算法规则的知识生产已经在文艺创作、新闻、医学、生物等各类活动当中实现。但人和智能机器都有各自的局限,比如人在面对海量数据时的处理能力不足,智能机器对数据分析结果的理解力与可解释性不足,等等。人工智能所能支持的自主知识创造是机器对人类智能理性思维的机械模仿,本质上依然欠缺人的社会与情感属性。正如王鑫等(2018)在探讨人工智能的知识观时指出的,AI已经发展到如何具备人类思维与常识的技术节点,需要尝试修复机器先天欠缺的“灵魂”,赋予机器常识,促进机器的知识理解、交互、自主学习与常识推理能力。对于现在的机器智能水平而言,想要跨越这个技术节点,必须人与机器高度协同。所以,在数据成为重要知识生产要素的形势下,在当前乃至未来的知识生产活动中,人、智能机器以及两者协同都是可以共同存在的主体形态(郝祥军 & 贺雪, 2022)。人的归人、机器的归机器,让人和机器在各自最擅长的领域或环节发挥最大的作用,未来的知识生产分工也将更加明确。

2. 知识生产对象,范围不断拓展以及需要进行数据化形式转换。在人类以往的知识生产活动中,知识生产主体主要面对的都是自然物理空间与人类社会空间,探索的是人类复杂的自然科学与社会科学问题。但随着大数据时代的到来,信息爆炸与数据量暴增,人类开始从数据映射的信息空间中挖掘反映自然人类与社会的规律。人类社会、物理世界、信息空间构成了当今世界的三元,三者之间相互作用决定了社会发展呈现出数字化、网络化和智能化的技术特征(徐宗本, 2019)。因此,知识生产对象相比以往有两个关键特征。其一,知识生产的资源范围被拓展。恰如陈丽等(2019)在阐述“互联网+教育”背景下所出现的回归论知识观时指出,互联网的出现正在改变知识的内涵、生产方式和传播方式,为人类创建了继社会空间、物理空间后的信息空间,呈现出信息贡献草根化、信息生产众筹化、联结关系网络化等关键特征,知识不再仅存于单个人的头脑中,还存在于个体、组织和机器等不同主体组成的网络中。而且在知識被生产和被吸收的同时,也会以某种信息形态在数据库中被存储下来。在知识生产资源获取上将不再局限在纸本文献或组织内部,而逐渐延伸到互联网、社交媒体和社区网络等内容上,实现了跨时空的范围拓展。对于数据科学下的知识创造而言,存储于互联网中的知识或信息就是一种数据形式,可以被特定智能技术(如语义分析和自然语言处理)进行知识表征和推理。其二,知识生产资料的数据化。信息空间的主要成因是客观世界的量化与数据化,在数字化环境当中人的行为和事物都被智能设备完整记录和储存,数据与事物之间形成一种数据世界与物理世界的映射关系。当数据量化万物,人类生活空间的一切事物就都可以在数据科学的指导下实现价值挖掘。在AI影响下的认识论中,人借助AI辅助认识时,必须是在对人所面对的世界加以数据化后,机器的认识过程才可开启,所以对于人的认识对象的数据化是智能机器在认识对象上的特点,也是前提(肖峰, 2020 b)。王竹立(2019)曾以软、硬知识为主要划分标志来描述新知识观,提出了“知识结构由静态层级变成动态网络”“软知识越来越多,硬知识也开始变软”“知识生产由单纯依靠人类变为人机合作”等变化,恰恰从知识生产主体和知识生产对象层面肯定了智能时代新知识观的发展转向。所以,从知识生产对象来看,数据科学影响下知识观以量化、数据化的资料为核心原料,而且在互联网和智能技术塑造的时空中,数据化的生产资料范围逐渐覆盖到人类社会、物理世界和信息空间三元融合的空间。

3. 知识生产技术与工具,主要以智能算法为支撑,凸显相关性思维。当前人工智能技术发展日新月异,数据挖掘在人工智能和统计分析的推动下取得了较大突破,实现了自动化、智能化知识发现以及趋势预测。尤其机器学习的快速发展,极大提升了数据挖掘或数据库中知识发现的效率与质量。亚马逊首席科学家李沐(知乎, 2017)认为,成功的机器学习应包括“数据、转换数据的模型、衡量模型好坏的损失函数和一个调整模型权重来最小化损失函数的算法”四大要素。而这与前文数据挖掘过程对“数据准备”“建模”所提出的要求不谋而合。知识发现技术中基于算法的方法是主要一类,典型的应用于知识发现的算法有贝叶斯网络、决策树、K-means聚类、关联规则挖掘、联机分析处理(On-line Analytical Processing, OLAP)、神经网络、遗传算法和模糊分类等。在算法的支持下,知识发现的知识类型包括分类型、关联型、预测型和偏差型等。因此,从知识生产的工具来看,大数据时代的知识生产技术与工具转向了以智能算法为支撑的数据挖掘。而这种算法支撑下的知识生产凸显一种思维转变,即从因果转向强调相关。因为在万物皆可数据化的条件下,人类越发趋向于发掘数据规律,不再追求数据之间的因果关系而追求其相关关系(比如沃尔玛超市的啤酒和尿布的关系发现)。这是大数据作用下的一种认知,即“相关关系比因果关系能更好地了解这个世界”(舍恩伯格 等,2013,p.67)。肖峰(2020 a)在人工智能的知识哲学研究中以AlphaGo可以下棋但不懂棋理知识为例,也论述到人工智能只是从相关性分析中统计出一种数据意义上的最优解,而不会对事物进行因果性的理解和把握来决策。所以,在智能技术塑造的充满不确定性的社会中,随着知识经济的发展,以物质形态出现的生产要素在产品中的价值比重下降,而越发注重知识、信息的资源价值,知识生产的方式与思维也随之改变(张康之, 2021)。而且,今天越来越多的科学数据或信息都长期存储在可以开放获取的各类智能系统当中,知识的呈现也不再局限于白纸黑字,而更加倾向于选择数字化和数据化表达。智能技术对人类世界的感知、建模和分析都在朝着数据定义万物、数据量化万物、数据联接万物的方向发展。这就要求知识生产工作者应掌握数据挖掘的技能,以胜任现在乃至未来的很多科学发现与知识生产工作。

知识是指人在实践中认识世界和自我的成果,与人的认识和经验、信息和信念等具有密切关系(潘洪建, 2004, pp. 2-14)。所以,知识也是认识论关注的核心,知识观是指人们对知识的基本看法、见解与信念,是人们对知识问题的总体看法。因此,知识观从人的认识上来看是关于知识的理论探讨,主要围绕认识的来源、认识发展的过程以及认识与实践的关系等问题(肖峰, 2020 a)。综上所述,知识生产方式转向以数据挖掘为主要选择,标志着人类的知识生产打破了只通过“人在实践获得认知”的方式局限,现在机器可以直接模拟人的思维处理海量数据,自动生产原本需要通过实践、认知和顿悟才能获得的知识,以及人可以操作机器来分析那些并非自身实践的数据来获取认知,这在一定程度上也改变了认识与实践的关系。从知识生产的要素变化来看,首先知识不再仅是“人”这一主体认识世界和自我的成果,而是需要机器来处理突破人类极限的海量数据,走向人机协同知识创造;其次,机器可以直接越过人类而从数据中挖掘知识其实已经改变了认识的来源,即知识生产的对象(以前是人通过经验、顿悟和逻辑推理获得知识,现在倾向于以海量的数据作为知识原料);最后,知识生产的过程在技术提供的便利条件与工具支持下发生了变化,知识生产速度逐渐得到指数级提升,进一步加剧了知识生产的量级(顾小清, 2021)。所以,在知识生产方式与要素的变化推动下,知识的内涵或许已经发生相应的改变,可能不仅仅是人在实践中认识世界和自我的成果,也逐渐包括了人和机器从镜像数据世界中发掘和认知现实世界的成果。

五、新知识观下的教育发展

知识生产方式与要素的变化暗示着以数据为内容的新知识观的形成(顾小清 & 郝祥军, 2022)。这是处在知识经济时代无法回避的趋势,数据发展成为生产要素与生产力,已经在各类知识生产过程中“诱导”着知识观的重塑。这推动着人才培养的协同升级,因为知识生产与人才培养具有场景一致性、主体一致性和目标重叠性(马廷奇 等, 2019)。本研究认为在新知识观下,培养面向未来的人才,迎接知识创新挑战,有三个问题需要在新的时代背景下探讨并回答。

一是教什么知识的问题,应尝试构建学科知识图谱,发现学科知识关系。目前,知识还是教学的重点内容,教师固守的教学知识来源主要还是教材。同时,课程标准是教材编写的主要依据,也在某种程度上规定着教师教什么知识。即使相关的课程标准也在不断更新,教材知识编排似乎还是遵循以往经验主导的逻辑在推进,凭着专家、教师累积的教学经验与理解来划定整个学科知识的范围。这样的方式虽然经过时间的考量有其合理性,但在知识选择、编排等方面的科学性以及知识本身性质、特点、价值的客观性上却有缺陷。以此来看,教什么知识不是简单回答教什么具体知识的问题,而是回答什么知识更具价值的问题(季苹, 2009, p. 3)。这更加证明“教什么知识”是不能仅凭人类经验就能回答的。如今,数据科学在大数据与人工智能的推动下为发现事物规律提供了重要的理论与方法支撑,其可视化的知识处理方式也使得人类能够更加直观地理解隐藏的知识关系。现在备受推崇的知识图谱技术,能够用来分析学科知识的核心结构与发展历史,并通过挖掘分析对学科与跨学科知识之间的相互联系进行可视化,揭示知识的动态发展规律。所以在数据分析的支持下,这将使教学知识更加具有完整性,从是什么、为什么、价值与意义等方面系统呈现知识的内容与结构,进而提升知识教学的深度与广度。因此,在新知识观背景下,回答教什么知识的问题则可以运用数据科学的手段对学科知识进行全面关联,发现潜在规律,组建学科结构化的知识库,搭建学科与跨学科的实体或概念以及之间的联系,借助知识推理能力把各个知识点联系起来,使其以更好的組织形式得到管理,实现领域知识共融。尤其在新课程标准颁布之后,新的教材编写在即,应借助智能算法与数据分析技术构建学科知识图谱,加强课程标准与学科教学的科学衔接,为大规模个性化教育实践提供基础。

二是知识如何教的问题,应协同教师与数据的智慧,促进个性化教育。教学观的发展与知识观的演进有着内在一致性,有什么样的知识观就可能导致什么样的教学观(潘洪建, 2004, pp. 31-32)。所以,知识如何教的问题在新的知识观背景下需要重新思考与回答。在回答这个问题之前,我们应注意知识的可传递性,要清楚教和学是两个过程,若要知识有效传递则需要满足主体的认知态度一致性、认知目标一致性和认知方法一致性(季苹, 2009,pp. 34-36)。知识的可传递性要求知识教学要注重认知主体的动机和与其个性特征相适配的方法,其潜在内涵恰恰指向“因材施教”的个性化教育。因此,关于知识如何教的问题是现代教学观的重要内容,应在新的时代背景下扎实落实以学习者为中心的教育思想,关注人的全面发展,利用智能技术推动个性化教育的落地。数据科学指向的知识创造将人的智慧与数据协同,既体现了人在社会活动中的主体地位,也强调了数据所蕴含的知识价值。同样,在知识如何教的问题上,应协同教师与数据的智慧,教师从以人为本、学生成长的价值内涵出发做好教学设计,同时在智能技术的赋能下多维度、全过程采集教与学的数据,通过数据发现教学状态、反映教学活动规律,从而使教师不断生成对教学的理解,优化教学实践。今天的人工智能凸显数据驱动的智能特征,以数据来满足知识传递过程中主体的认知态度、认知目标和认知方法的一致性,具有一定的可行性,因为数据驱动的精准教学模式做到了实时记录、跟踪和分析学习者的学习状态和行为表现,有效促进了教师开展差异化教学的探索。同时,以自适应学习技术和认知图谱技术为主要支撑的知识追踪、学习诊断和学习推荐也助力个性化学习的落地。所以,关于知识如何教的问题,应明确教师与数据在教学实践中所扮演的功能角色,从以往预设性教学转向生成性教学,使教师的智慧与数据驱动的智能得以协同,探索满足学生个人发展需要的个性化教育实现路径。

三是如何化知识为素养的问题,应以数据科学的思想和方法指导构建知识与素养的关联逻辑。知识经济加剧了知识的开放性,人类再也不需要靠“死记硬背”的方式获取和应用知识,而如何运用知识、创造知识将成为人类需思考的问题。因此,在知识生产方式与生产要素发生巨大变化的条件下,教育需要发展的是如何培养学生的知识创新与应用能力。用或者不用,在智能技术的支持下数据或信息都在那,我们可能不再受制于知识生产的原料(数据),而渐渐受限于对事物规律与内在本质发现的思维与能力。素养是运用知识和技能解决复杂问题的能力,核心素养的落地需要处理好知识与素养的关系,亟须打破传统知识观的局限以构筑新知识观下素养生成的知识基础(张良, 2019)。知识如何转化为素养,在前人的智慧中强调“知行合一”,这正凸显知识在实践中的人文性、境域性和价值性,因为素养的“用武之地”在于问题情境(李松林 等, 2020)。因此,新知识观下的教育发展应重视重构知识与实践的关系,强调重建“境域”和发展“人性”,以在情境中做到知识价值的辩护(叶波, 2021)。有研究以推进知识学习走向思维发展为目标,强调以问题为线索的学科知识图谱构建,通过知识抽取技术、语义链接技术和可视化技术来确定知识、问题和能力之间的关联关系,从而提出遵循“发现问题—提出问题—分析问题—解决问题”的思维逻辑来组织学生展开学习与探究(范佳荣 等, 2022)。所以,关于如何化知识为素养,还应坚持问题实践的思想,而为了更好地实践则可借鉴数据科学的思想和方法,分析课程、知识单元、知识点、教学目标、教学问题之间的多维语义关系等,挖掘和整合知识与事物、知识与知识、知识与行动、行动与思维之间的关联逻辑,描绘知识、问题与素养三者之间的关联结构以及素养生成的路径,从而指导以知识通达素养的教学实践。

六、结语

数据已经成为新的生产要素,是国际知识创新竞争必须紧紧把握的生产力,以数据为原料的知识生产是知识经济时代的关键特征。当前,社会各界正在享受大数据的红利,数据科学也再次迎来了春天,人工智能也在基于数据的机器学习下成功迎来新的浪潮,推动着关于知识的科学(知识的表示、知识的获取和知识的应用)加速转变,为数据转化为信息、信息转化为知识、知识转化为决策的机制和方法提供了新的理论与技术支撑。但技术的成熟应用是一个不断发展的过程,镜像数据世界的打造还需要克服很多现实世界的问题,比如數据安全、算法偏见等,更多利弊需要人类自身来权衡和选择。尤其在教育的育人实践上人类更需要遵循以人为本的理念,探索符合人的全面发展和生命成长的技术融合教学的方式。所以,以数据为核心的新知识观虽已在悄然萌芽,但未来还需要更多的讨论和实践,以求更加清晰地刻画出重塑的知识观轮廓,同时为教育的人才培养方式调整提供新的方向。

[参考文献]

曹新明,& 咸晨旭. (2020). 人工智能作为知识产权主体的伦理探讨. 西北大学学报(哲学社会科学版),50(1),94-106.

朝乐门. (2019). 大力推进数据科学的理论研究. 计算机科学,46(2),1.

陈丽,逯行,& 郑勤华. (2019). “互联网+教育”的知识观:知识回归与知识进化. 中国远程教育(7),10-18.

程学旗,梅宏,赵伟,华云生,沈华伟,& 李国杰. (2020). 数据科学与计算智能:内涵、范式与机遇. 中国科学院院刊,35(12),1470-1481.

董春雨,& 薛永红. (2018). 大数据时代个性化知识的认识论价值. 哲学动态(1),95-101.

董春雨,& 薛永红. (2019). 机器认识论何以可能?. 自然辩证法研究,35(8),3-10.

范佳荣,& 钟绍春. (2022). 学科知识图谱研究:由知识学习走向思维发展. 电化教育研究,43(1),32-38.

范文翔,& 赵瑞斌. (2020). 具身认知的知识观、学习观与教学观. 电化教育研究,41(7),21-27.

顾小清. (2021). 当现实逼近想象:人工智能时代预见未来教育研究. 开放教育研究,27(1),4-12.

顾小清,& 郝祥军. (2022). 从人工智能重塑的知识观看未来教育. 教育研究,43(9),138-149.

韩震. (2021). 知识形态演进的历史逻辑. 中国社会科学(6),168-185.

郝祥军,& 贺雪. (2022). AI与人类智能在知识生产中的博弈与融合及其对教育的启示. 华东师范大学学报(教育科学版),40(9),78-89.

黄欣荣. (2014). 大数据对科学认识论的发展. 自然辩证法研究,30(9),83-88.

季苹. (2009). 教什么知识:对教学的知识论基础的认识(第1版). 教育科学出版社.

李松林,& 贺慧. (2020). 整合性:核心素养的知识特性与生成路径. 教育科学研究(6),13-17.

林夏水. (1989). 毕达哥拉斯学派的数本说. 自然辩证法研究(6),48-58.

马廷奇,& 李蓉芳. (2019). 知识生产模式转型与人才培养模式创新. 高教发展与评估,35(5),8-16.

聂淑媛. (2019). 数据科学的发展与人才培养研究. 统计与信息论坛,34(1),117-122.

潘洪建. (2004). 教学知识论(第1版). 甘肃教育出版社.

邱仁宗. (2006). 科学方法与科学动力学(第2版). 高等教育出版社.

任瑞娟,王保超,& 赵雅倩. (2021). 演进与动向:人工智能在传媒领域的应用. 新闻与传播评论,74(2),26-35.

斯坦福哲学百科全书(Stanford Encyclopedia of Philosophy).(2020-04-11). Epistemology. 斯坦福哲学百科全书网站. https://plato.stanford.edu/entries/epistemology/#Aca

王鑫,& 沙永锋. (2018). 从AI到AM:人工智能的知识观. 新闻与传播评论,71(6),41-50.

王竹立. (2019). 新知识观:重塑面向智能时代的教与学. 华东师范大学学报(教育科学版),37(5),38-55.

维克托·舍恩伯格,& 肯尼思·库克耶. (2013). 大数据时代(盛杨燕,周涛 译). 浙江人民出版社.

吴飞,& 段竺辰. (2020). 从独思到人机协作——知识创新模式进阶论. 浙江学刊(5),94-104.

肖峰. (2020a). 人工智能的知识哲学审思. 求索(1):87-94.

肖峰. (2020b). 人工智能与认识论新问题. 西北师大学报(社会科学版),57(5),37-45.

徐宗本. (2019). 数字化 网络化 智能化 把握新一代信息技术的聚焦点. 网信军民融合(3),25-27.

叶波. (2021). 化知识为素养:现实困境、理论阐释与教学实现. 中国教育学刊(8),45-49.

张康之. (2021). 重建相似性思维:风险社会中的知识生产. 探索与争鸣(7),121-132,179.

張良. (2019). 核心素养的生成:以知识观重建为路径. 教育研究,40(9),65-70.

知乎. (2017-09-06). 机器学习的简介. 知乎网站. https://zhuanlan.zhihu.com/p/29100405

Das, M., Cui, R., Campbell, D. R., Agrawal, G., & Ramnath, R. (2015). Towards methods for systematic research on big data. IEEE International Conference on Big Data. IEEE, 2072-2081.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27-34.

Haiko, V., & Bulder En, S. V., Cunningham, S., & Janssen, M. (2021). Data science as knowledge creation a framework for synergies between data analysts and domain professionals. Technological Forecasting and Social Change,173(4),1-10.

Li, G., & Cheng, X. (2012). Research status and scientific thinking of big data. Bulletin of Chinese Academy of Sciences, 27(6),647-657.

Martinez, I.,Viles, E., & Olaizola, I. G. (2021). Data science methodologies: Current challenges and future approaches. Big Data Research, 24(3), 1-18.

Martínez-Plumed, F., Contreras-Ochando, L., Ferri, C., Hernández-Orallo, J., Kull, M., Lachiche, N., ... & Flach, P. (2019). CRISP-DM twenty years later: From data mining processes to data science trajectories. IEEE Transactions on Knowledge and Data Engineering, 33(8), 3048-3061.

Nonaka, I. (1994). A dynamic theory of organizational knowledge creation. Organization Science, 5(1), 14-37.

Provost, F., & Fawcett, T. (2013). Data science and its relationship to big data and data-driven decision making. Big Data,1(1),51-59.

Rowley, J. (2007). The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, 33(2), 163-180.

Shafique, U., & Qaiser, H. (2014). A comparative study of data mining process models(KDD, CRISP-DM and SEMMA). International Journal of Innovation and Scientific Research, 12(1), 217-222.

Tolle, K. M., Tansley, D. S. W., & Hey, A. J. (2011). The fourth paradigm: Data-Intensive scientific discovery. Proceedings of the IEEE, 99(8),1334-1337.

Xu, Z. (2021). Four major tasks of data science. Data Science and Management, (3),1-2.

Xu, Z., Tang, N., Xu, C., & Cheng, X. (2021). Data science: Connotation,methods, technology, and development. Journal of Information Technology and Data Management, 1(1), 32-37.

AI Reshapes the View of Knowledge: Knowledge Creation and Education Development under the Influence of Data Science

Xiangjun Hao and Xiaoqing Gu

Abstract: In the era of artificial intelligence (AI) data defines, quantifies and connects everything. Data science has achieved rapid development driven by big data and directed the goal that how to extract and construct knowledge from data. The process of data mining and knowledge creation systematically depicts the complete process from data to knowledge discovery. The study attempts to explore the formation of a new view of knowledge centered on data from the perspective of data science, and tries to portray the outline of a reshaped view of knowledge from the changes in knowledge production methods and knowledge production factors brought about by data and intelligent technology. Finally, the study provides answers to the three questions of “what knowledge to teach”, “how to teach knowledge”, and “how to turn knowledge into literacy” in order to seek a development path for education to meet the challenges of knowledge innovative talents.

Keywords: data science; artificial intelligence; view of knowledge; data mining; knowledge creation; knowledge production; knowledge teaching; educational development

責任编辑 刘莉

猜你喜欢

数据挖掘科学
探讨人工智能与数据挖掘发展趋势
点击科学
点击科学
点击科学
科学大爆炸
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
科学拔牙
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究