APP下载

数据挖掘在科技评估中的应用

2019-08-13唐云鹏

科学导报·学术 2019年10期
关键词:神经网络数据挖掘

唐云鹏

摘 要:简要回顾了科技评估方法的发展历程,从科技评估概念、特点及其在我国的开展情况入手,系统研究了数据挖掘在科技评估中的应用,并对实践过程中出现的问题进行了分析。将数据挖掘应用于科技评估有助于提高科技评估工作的产出效益,促进科技评估工作进一步发展。

关键词:科技评估;数据挖掘;神经网络

前言

随着我国科技计划管理体制改革的深入,评估活动越来越受到各级政府的高度重视。只有运用科学、公正的方法进行全程评估,才能确保科技项目系统产出的水平及价值,使其真正起到推动社会经济发展的作用。

评估方法综合反映了在科技评估活动中各种基本要素之间的相互关系,是科技评估活动的基础与核心。评估结果的获取必须依赖于评估的方法。采用科学的、适应评估对象客观发展规律的评估方法是科技评估工作的重点。科技评估方法的供需矛盾,是制约我国科技评估事业发展的重要因素。近年来,各方面对科技评估的需求日益强烈,但科技评估的方法相对落后不能适应需要。不同部门或地区评估机构的能力与水平参差不齐,评估机构的综合素质和能力制约了科技评估事业的发展。从目前我国科技评估发展的现状看,一方面,迫切地需要加强全国评估能力的系统建设,规范科技评估活动;另一方面,需要在实践特别是承担重大评估任务过程中,进一步探索符合我国国情的科技评估理论与方法,逐步建立和完善科学的评估规范、标准、手册等。

一、数据挖掘和科技评估

1.1 早期科技评估方法的概念与特征

(1)共词分析。共词分析是指对于给定学科主题的论文做成的数据库,计算出关键词重复(“共现”)次数,实质上就是一个关于某些共同关键词出现频率的模型,这种测度方法假设描述科学发现的词汇是关键词或索引词。

(2)同行评议法。同行评议法是充分依靠科研人员团队进行民主管理,选择更优配置知识生产要素方案的方法。作为评价事物的一种方法,在我国以及欧美国家被广泛采用,各国科学基金机构基本上都采用这种方法作为资源分配的辅助决策手段。

(3)AHP法(层次分析法)的核心问题是排序问题,包括递阶层次结构原理、标度原理和排序原理。早期的科技评估方法还有很多,具体应用时要根据实际情况进行选择和改进。

二.数据挖掘概述

数据库技术的日臻成熟为人们对数据进行深层次探索提供了条件。所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值信息的过程。与传统分析工具不同,数据挖掘使用基于发现的方法,运用模式匹配和其它算法

决定数据之间的重要联系。总的来说,数据挖掘包含从数据仓库中萃取价值的各种方法和技术。这些技术扫描大型数据库,并抽取其中的模式和关系,它们是将统计工具和分析思维相结合的产物,有助于解释萃取出的信息。近年来,随着数据挖掘在商业市场中的普及,以下技术获得青睐并纳入数据挖掘技术体系内:决策树、链接分析、最近邻分析、人工神经网络、自动聚类探测、记忆推理、遗传算法等。实质上,数据挖掘技术已经不再是统計学方法的简单应用,而是要求

规则归纳法、人工智能和关系型数据库的联合工作。

上世纪90年代后期,知识工程概念深入人心,各学科的动态增长体现了科学领域的多维性,科研活动进一步要求使用复杂精细的信息检索技术和挖掘技术,无疑扩大了数据挖掘在“知识发现”方面的影响。“数据——信息——知识”这种线形转化关系分布在科研多维领域的各个轴线上,数据挖掘是这种线性转化的起点,更是知识循环反馈中积极的一环,它对现有的知识进行收集、整理、分类和管理,进一步通过知识交流来扩展科学领域整体知识储备,由此产生出新概念、新思想、新体系。

三.数据挖掘在科技评估中的应用

数据挖掘在从结构化的和非结构化的数据库析取信息时,关注的是数据库整体即所有的词、所有的数量关系和所有的图像。因为知识的高阶结构,如理论、专业等,不仅是文字组合,更体现着一种聚集关系,这种关系的最高级层次是科学期刊和科学书籍。词、句子、段落和小节等都维系这种聚集关系。在评估科学成果(例如文献产出)时,数据挖掘是一个适当的测度方法,它将词放到文献结构中去考虑,搜索处在这类文献中出现的句子以及概念构造,以逻辑顺序非形式化进行论证。

实质上,数据库内容结构分析法识别出的是科学主题(或概念)、这些主题间的关系以及它们在文献数据库中的发展和进化,允许分析人员创建一个有关科学的主题、论题或理论的进化模型。数据库内容结构分析法比传统的共词分析又进了一步。它通过关注主题或概念,而不是索引词,能够对科学文献进行更丰富的挖掘。引入人工智能后,我们可建立一个半自动、基于规则的数据挖掘系统,在用户积极参与下完成数据抽取工作。

数据挖据在科学评估中的作用:识别影响或控制科学资源分配的要素、财政和人力资源的耗费。(1)提供与科学工作者相关的资源消耗的模式数据(人口统计学等)。(2)开发关于科学团体的模型以及其它相关服务供应者服务效果的模型。

四、数据挖掘的不足和改进之处

作为多种技术的混合体,数据挖掘已经对科技评估产生了切实的效益。但它也存在一些不足:(1)尽管数据挖掘有能力产生一些模型,但是对于揭示出的模式含义的解释是获得良好评估效果的关键。例如:揭示出的模型确实反映科技的状况和进步了吗?如果是,又反映到了什么程度?应注意科技活动和社会指标之间的联系,在数据库内部对相关指标数据进行统计性操作,尝试发现关联性。(2)科技评估方法对信息的需求以能全面描述对象多维信息为主,力求准确完整。数据挖掘的效果主要取决于数据和数据源的质量。需加大数据筛选的力度,保证数据的有效性和稳定性。(3)科技评估的方法是以系统工程方法为主的体系,有很广的集成度。在指标设计方面,如果缺少统一的理论框架,将导致科技指标模型只是简单的堆砌不同的指标,不能明确阐述更复杂的现象。一个连贯性、实用性强的指标体系应该建立在很强的关联性基础之上。可以创立更多的指数并将它们内在一致的方式联系起来。(4)对算法的过度依赖,会降低计算机化模式的可信度。在科技工作中,需要大量的人员的推理过程,科学假设及论证的过程是大脑思维的过程,计算机算法尚不能完全模拟,但这一点可以通过带有数据挖掘功能的专家支持系统逐步完成。

对于评估方法的研究,国内外学者做了大量的工作。事实上,数据挖掘对于我国各行各业来说还是一个新兴和重要的概念。除科技评估外,电信、零售、税务、能源等行业都具有数据海量的特点和深度分析的需求,可以预见,这些行业的现有信息系统必然向数据挖掘系统演化,数据挖掘的应用前景十分乐观。广阔的应用前景预示着新技术的研发价值,公司最近的一份报告列举了在今后,年内将对工业产生重要影响的,项关键技术,其中以数据挖掘为核心的知识发现和人工智能排名第一。我们有理由相信,在不久的将来,结合了数据挖掘技术的科技评估方法将对中国科技事业取得世界领先地位起到不可替代的作用。

参考文献:

[1] 张星明 - 科技成果鉴定及其改革的研究 北京:中国科学技术信息研究所

[2] 王屏慧 - 科技项目评价方法.北京:科学出版社

[3] 张晗,崔雷 - 生物信息学的共词分析研究 情报学报

(作者单位:昆明市科技型中小企业技术创新基金管理中心)

猜你喜欢

神经网络数据挖掘
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于改进VGG-16神经网络的图像分类方法
数据挖掘技术在内河航道维护管理中的应用研究
基于自适应神经网络的电网稳定性预测
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于BP神经网络PID控制的无刷直流电动机调速系统设计
基于R的医学大数据挖掘系统研究