APP下载

基于第四范式的数据分析思考∗

2021-11-08孟红茹孟二龙

计算机与数字工程 2021年10期
关键词:密集型范式算法

孟红茹 孟二龙

(1.陕西中医药大学 咸阳 712046)(2.火箭军工程大学 西安 710025)

1 引言

科学研究发展伴随着人类技术的进步,经历了描述自然现象的实验科学、以牛顿定律和麦克斯韦方程为代表的理论科学和模拟复杂现象的计算机科学,自图灵奖得主吉姆·格雷正式提出科学研究第四范式概念以来,特别是随着大数据在科研领域迅猛发展,逐步形成了数据密集型的第四范式。

2 数据分析研究范式的演进

数据分析与科学技术的发展并非同步前进,而是在相当长的历史时期内,处于相对停滞的状态。经过长期缓慢的量的积累的过程之后,随着科学技术爆发式进步并应用于数据分析领域,数据分析技术短时期内迎来“拐点”,取得突破性演进发展。

2.1 以经验主义为依托的第一范式

处理数据与信息是人类所特有的能力,对数据的分析运用自古有之,早期的信息处理是出自本能的一种无意识行为,远比今天更为简单纯粹,同时也随着人类科技的发展而不断演进,变得更加有内涵。自文字诞生以后,信息分析处理便立刻在信息管理中发挥作用。在古代军事行动中,除了双方操戈相向之外,数据信息的分析处理也占据绝对重要地位,受思辨科学影响,主要是依据过往经验对搜集到的极为有限的数据信息进行简单的分析、归纳和总结,找出部分内在规律,用以指导战争实践,在此基础上诞生了《孙子兵法》等集大成者的典范之作[1]。但长期以来受制于信息数据量不足、累积足够量的数据所需时间太长、数据和目标信息相互之间性惯性不高等因素,早期的数据信息分析处理方法和技术发展一直受限。

2.2 以理论推导为路径的第二范式

19世纪至20世纪以后,西方国家凭借数学科学快速发展,在作为情报学起源之一的文献学也取得重大突破,人们开始注重探寻隐藏在规律背后的逻辑原理,得以推动数据研究正式成为演化为科学研究工作[1]。此阶段,以理论模型和总结归纳方法为根基,通过“大前提-小前提-结论”的三段论式推演得出结论的逻辑推理开始崭露头角,更加注重数据的“量”和“质”的辩证关系,利用概率论和统计学,通过数学模型对相关信息内容进行量化分析,从而可以间接得到所需信息,逐步产生了以兰彻斯特方程为代表的理论研究方法。但缺点是难以通过理论上的逻辑推理,归纳演绎出对影响局势发展的信息对抗、战斗精神等无法具体量化的复杂因素,而这些却恰恰是难以忽视的核心关键性影响因素。

2.3 以科学计算为基础的第三范式

随着计算机技术的产生和发展,科技作为影响数据分析进程的核心因素的地位越发凸显。20世纪中期电子计算机诞生后,便被立刻用于借助计算机超强的计算和储存能力进行人工难以实现的仿真模拟和精确计算,结合快速发展的科学构建数学模型、定量分析方法,很快在通过数值模拟分析从而预测未来、结合图论发展新的模型、利用数学进行计算优化等方式等领域取得突破性发展成果。但其不足之处在于,主要停留在基于工具数据信息,而无法智能化感知计算过程和结果,难以准确描述信息深层机理。

2.4 以数据密集型分析处理为核心的第四范式

技术革命都是围绕着足以影响人类进程的核心技术的突破而发展演进,计算机的计算能力和数据收集能力在摩尔定律下呈指数级速度增长,计算机技术的进步也推动了数据驱动方法飞速发展。在大数据产生来源、仿真模型、参数设定等不确定性影响下,以数据为主的现代数据信息处理核心,已经完成了从因果关系到数据相关性的转变,更加注重数据的分析和挖掘深度。目前,数据分析领域数据密集型研究方法应用的基础,就是在对前三种研究范式有机统一和优势融合发展的基础上,逐步形成以计算机为主要载体进行的数据收集、整理、分析和运用的研究方式[2],是持续增强的处理信息能力和从数据中筛选可用信息的水平,以大数据和人工智能技术高效融合为代表的技术革命,代表着人类在数据处理领域已经跨进机器智能时代[3]。

3 采用第四范式进行数据分析研究的本质与内涵

采用第四范式进行数据分析与研究,实质就是回归问题处理的本质根源,利用高效便捷的方法论,最大程度地破除“迷雾”、消除不确定性。

3.1 “简单性原则”解决复杂具体问题

在科学理论技术发展“效率”原则驱使下,科学研究始终遵循由难到易、由简到繁的“简单性原则”发展逻辑,其在本质上是一种完全中立的科学研究方法[4]。而数学是人类认识世界的基本途径,也是科学研究不断取得进步和发展发展的重要工具。数学“简单性原则”就是以问题最简单的出发点为突破口,将整体分化为局部而各个击破,进而探寻解决问题的最佳途径。采用数学思维“简单性原则”的角度分析和处理具体情况,核心思想就是利用具体的数学方法将复杂的数据分析处理问题简单化[5]。

数据密集型的第四范式研究方法,就是利用行之有效的数学思维方式,将毫无头绪杂乱无章的海量数据信息进行条块化分割,通过智能化软件核心组成模块的数据模型处理,可以有效提高分析的准确性,从差异性最小化的角度,最大限度地提升分析处理的准确性,减少因个人认识差异而导致的不一致性,实现数据信息分析处理过程简单化、高效化[6]。

3.2 数学模型为基础的人工智能分析方法

在日益复杂的环境和海量信息数据喷涌的未来,瞬息万变的决策中有越来越多的复杂情况需要分析决断,就需要构建科学合理高效的数学模型来仿真实验,利用数学模型方法具有联系范围大、辐射邻域广、使用适应性强等特点,通过数学模型分析方法实现逻辑思维和科学计算的有机融合。计算机获得智能并不是依靠和人一样的逻辑推理和理论分析,而是利用人工智能的深度学习能力,从无处不在的数据中分析处理获得信息和知识,随着数据量的累积和分析处理技术的发展,计算机也变得越来越“聪明”和“智能”。

数据密集型的第四范式研究方法,就是在科学方法的基础上建立范式的科学模式,从建立数学模型的层面对具体问题抽象化,将数据分析处理中的实际需求,转化为相匹配的数据和统计学等模型,再利用条件概率和假设分析等方法,人员将会将重心放在处理数据来源、方位和运用上,以保障数据信息处理的高效性和准确性。

3.3 运用大数据进行深层挖掘

长期以来,受制于数据量小和信息相关性弱的缺点,加上人们对数据的认识和分析利用能力不够,无法挖掘出隐藏在看似普通的数据背后的有效信息,导致数据的作用被长期低估,“重方法轻数据”的问题更是长久存在,严重制约了数据信息分析处理和转化运用的发展进程[7]。信息革命从根本上改变了数据搜集的模式和方法,大数据则重新定义了数据信息环境。大数据方法思维的核心,是在持续增强的技术进步和处理信息的能力的基础上,处理方式从简单的表象分析转变为复杂的深度挖掘,逻辑关系从直接因果关系转变为间接关联关系,不断提升从海量数据中筛选出有用信息的能力水平,用全新的数据处理思维和方式提供解决问题的新方法,最大程度消除信息本身不确定性。

数据密集型的第四范式研究方法,就是以大数据思维为核心、以计算机设备为主要工具,从数据数据的产生、存储、传输和处理全过程高度依赖信息设备的研究方式,突破传统思维方式、认知水平、手段方式等全方位束缚和禁锢,在未来瞬息万变产生的海量信息中,满足数据信息数据分析处理高效、快速的即时性要求,牢牢掌控发展变化全局[8]。

3.4 “道”和“术”的高效融合

老子曾讲:“有道无术,术尚可求也。有术无道,止于术。”“术”是从方法论的范畴研究解决问题的方式,具有具体性、局部性和动态变化的特点;“道”则是从根源的角度探寻问题的本质和原理,更加强调抽象性、整体性和静态稳定性。“术”与“道”在人类发展进步的过程中发挥着车之双轮、鸟之双翼的举足轻重的作用,既要发挥“术”的实践指导作用,又要注重“道”的规范引领作用,只有实现“术”与“道”的有机融合,才能实现健康有序的稳定向上发展。

在数据密集型的第四范式研究方式中,利用科学技术的发展,采用标准的数学模型、智能化算法、大数据分析运用等科学研究方法,对具体问题进行的具体分析,就是“术”的具体运用。而数据密集型第四范式研究方法本身的产生,以及简单性指导原则运用,用于规范和引导科学研究发展趋势,是对科学分析方法论的升级和演进,就是人类探寻分析和解决问题过程中“道”的直接体现[9]。

4 第四范式对数据分析的影响

第四范式下数据信息的产生、存储、传输和处理过程,则是在以无意识的机器为主的包容性状态下进行,是在计算机能力、通信技术、应用数学和认知科学等方面的综合拓展应用,正朝着准、快、稳等方向发展。

4.1 “准”-有的放矢

数据信息所能产生的效能,很大程度上取决于发掘隐藏在数据信息背后的能力,而数据工作在数据的收集、处理和分析过程中处于不断动态变化,赋予了数据信息的模糊性和不确定性。数据工作的规划与指示、信息收集、处理与开发、分析与产出、传播与整合、评估与反馈全过程,就是要从不确定性中得到确定性、从杂乱无章中梳理出条理[10]。采用数据密集型的第四范式科学算法,最大优势在于系统决策水平能力与数据量的累积成正比,就是通过机器对数据更强的洞察力和更高的执行力,提升对数据背后的态势感知能力和分析层次深度,深入分析挖掘大数据之间相关特性,从而最大限度消除问题的不确定性[11]。2017年美国国防部提出的“算法战”的核心思想,就是通过人工智能技术、大数据分析技术和算法学习技术的深度融合,更高效地挖掘出有价值的信息,提升数据信息运用效率,快速实现大量数据到有实际价值的数据信息的转化[12]。

图1 数据信息收集、分析、处理流程

4.2 “快”-速战速决

数据密集型的第四范式下的数据分析处理模块化、实时化、全维化的特性高度契合了数据分析时效性指标要求,加快了信息流转和数据处理速率,通过强化自适应、自修正能力,提升主动适应和进一步处理具体信息的能力,通过互信息性发掘隐藏在数据背后的信息。得益于军事科技的超前发展,实战中美军“OODA”循环周期的发现、判断、决策、打击链路时间周期,也随着科技发展而不断迭代加速,由海湾战争中的100min、科索沃战争中的40min、阿富汗战争的12min提升到伊拉克战争的10min。

图2 OODA循环时间

4.3 “稳”-精准决策

数据本身充满不确定性,数据分析就是用一定的手段和方法,挖掘出蕴含在其背后的信息,用确定的方法最大程度地消除其不确定性。随着数据库规模的不断扩大,数据处理将会变得更加精确,算法的决策质量也将不断提高,更多的关键决定将由算法取代人力处理。从方法上讲,采用数据密集型的科学算法,就是基于从大数据中获得信息,在人机结合的基础上,实现传统的人类进行逻辑推理为主、计算机辅助决策到数据算法主导下的机器支配决策的转变,采用信息熵处理方式,对数据信息进行量化度量和分析处理,对信息的互信息性进行取舍和分析,减少数据分析中人为的取舍或权重划分[13]。更重要的是,人工智能算法决策可以不受人类情绪的影响,发挥相对稳定,这个特质在决策中至关重要。

5 有效应对第四范式对数据分析影响的应对措施

对数据的分析判断能力,是战争决策者的战略智慧与谋略的综合运用,是真正考验是否具备掌控全局的能力的标准。决定性的信息客观隐藏于海量数据信息中,只有善于用技术手段分析和处理数据,才能发掘出隐藏在数据背后的信息。

5.1 采用数据驱动方法,拓展新的思维方式

数据分析的进步,不仅仅表现于组织形态、技术装备或形式方法的更新,更关键是在于认知和思维方式的进步。要改变战争思维,从以人力为中心走向以数据为中心、从以信息为中心走向以算法为中心的观念。从对数据信息的定量化处理出发,综合运用相关性思维方式,深度挖掘和分析数据背后隐藏的信息,用以辅助优化决策[14]。采用相关性思维提升决策效能。在海量数据基础上的博弈进程中,不能将传统的数据处理思维与大数据思维简单等同,而是要采用数据相关性思维,实现西方式科学统计方法和东方式宏观规律把握的有机契合,利用机器强大的学习能力,在大量具体的代表性数据中,寻找出最为契合数据的数学模型。

5.2 紧跟智能革命发展,转变智能问题为数据问题

数据是封装的智能,智能是开放的数据。敌我双方在斗“力”的同时,斗“智”也显得更加重要,数据分析处理就是斗“智”的重要舞台。数据分析运用不仅可以助力决策者掌控全局和具体细节,并且能够改变决策者认识、分析的思路[15]。爆炸方式产生的信息数据已经无法通过人力来处理,而计算机利用数据多维度的优势,学习和处理信息的能力和速度远超人力。在大数据应用技术快速发展之前,计算机尚不具备解决需要人类智能决策问题的能力,但今天,在大数据和机器智能飞速发展的情况下,计算机已经可以完成过去只能由人类完成的工作。大数据发展应用与人工智能技术的高效融合,将智能型决策问题转变为数据处理问题,利用数据决策消除不确定性,推动了数据分析领域从感性认知和理性分析到智能决策的跨越。

5.3 把握算法演进趋势,改进数据分析指导方法

过去的40年,摩尔定律主导和引领了信息产业技术的发展,在未来,数据和算法将是其继续不断演进迭代的推动引擎,数据驱动发展、算法主导一切的时代已经到来[16]。科学有效的算法,不仅能够非常清楚准确地用算法模型来解决看似毫不相关的隐深问题,决策的准确性和质量随着数据库规模的扩大而不断提升,并且能够不受人工心态变化的影响,克服人工处理中的倾向性问题,得出客观的结论[17]。数据密集型的第四范式算法应用,已经从根本上重新塑造了对数据信息的获取、分析、应用全过程。从数学和算法的角度将数据分析问题具体化,寻求更优化的解决方案。对数据信息进行综合处理,利用第四范式的密集型数据处理理论指导数据的组织和分类,以提供高效可靠的存储和预处理,通过密集型数据分析方法指导决策。

6 结语

技术时代的变迁必然引发既有模式的巨大变革,在数据爆炸式增长和智能算法主导的未来,数据的分析处理既发挥着更加重要的作用,同时也面临着全新的挑战和要求。未来在摩尔定律理论框架内,计算机资源成本日益降低而人力成本翻倍增长,利用符合技术和时代发展需求的方式进行数据信息分析处理成为必然发展趋势。

猜你喜欢

密集型范式算法
以写促读:构建群文阅读教学范式
密集型呼吸灯灯串设计与实现
从教师视角谈“读思达”课堂范式——以“百分数的认识”为例
专利密集型产业技术创新效率的研究
Travellng thg World Full—time for Rree
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换
加快推动知识产权密集型产业发展的思考
学习算法的“三种境界”
算法框图的补全