APP下载

以培养数据挖掘创新型人才为导向的仪器分析课程

2022-03-18刘亚娟

科教导刊·电子版 2022年6期
关键词:分析仪器数据挖掘仪器

刘亚娟 王 声*

(广州医科大学药学院 广东·广州 511436)

1 仪器分析课程简介

仪器分析可以作为药学,分析化学,医学等专业学习的基础课程,在物质分析及应用的相关课程中起到起承转合的过度作用[1,2]。在学生初步学习掌握酸碱滴定、氧化还原滴定、络合滴定和沉淀滴定等化学反应以及电化学对物质进行常量的定性定量分析的基础知识之后,本课程进一步深入介绍电化学进行物质定性定量分析的原理和方法,同时引入现代常用的光谱分析和色谱分析方法,使学生具备利用现代仪器解决实际问题的思维,掌握常用光谱和色谱分析原理和具体方法,了解新方法的进展和应用[3]。后续的专业课程的学习,可以包括涉及食品、医学、生物、药学领域的物质定性定量具体方法应用,这些课程都需要学生具备利用现代仪器进行物质定性定量的基础知识。本课程目标为培养适应中国中国特色社会主义建设和粤港澳大湾区生物医药事业发展需要的人才,具有扎实的基本知识、基础理论和基本技能,具有人文情怀、责任担当、国际视野、创新精神和实践能力的高素质人才。

然而传统的仪器分析教学中的数据分析往往只采用简单的单变量分析,也就是一个样本对应于一个变量,利用传统的单变量数据分析会损失大量的信息[4]。现代分析仪器,包括光谱,色谱或者质谱仪器产生的都是多变量数据,也就是多元数据。因此我们需要在传统的仪器分析教学中加入数据挖掘,主要是多元分析的教学,使得仪器分析教育可以与时俱进,培养仪器分析创新人才[5]。

2 数据挖掘在仪器分析中的应用

现代仪器所产生的大量数据的获取可能会导致名副其实的“数据海啸”,我们需要使用数据挖掘仪器所产生的数据中获取信息[6,7]。数据挖掘是一个广义的术语,它描述了使用统计学方法从“大数据”中提取有用信息,尤其是模式识别的信息的过程。所谓模式识别的就是用机器学习的方法根据样本的特征将样本划分到一定的类别中去。机器学习指的是使用算法从数据中学习并进行预测。大部分的机器学习算法都是多变量分析方法,也就是多元数据分析,其中每个样本都有许多相应的变量。通常多变量分析包括三种不同类型的方法:

(1)探索性方法[8],包括主成分分析(principal component analysis,PCA)、独立成分分析(independent component analysis,ICA)、顶点成分分析(vertex component analysis,VCA);

(2)分类方法[9],包括无监督聚类方法,例如,层次聚类分析(hierarchical cluster analysis,HCA)和 k-最近邻法(kmeans)以及有监督方法,例如线性判别分析(linear discriminant analysis,LDA);

(3)偏最小二乘法(partialleastsquares,PLS)、多元曲线分辨率(multivariatecurveresolution,MCR)等量化方法[10]。

机器学习包括多变量分析和其他一些统计方法,可以分为有监督和无监督机器学习两类。有监督/无监督指的是分析模型当时是否有训练机。无监督机器学习方法(无训练集)包括所有探索性(降维)方法(例如PCA)和所有聚类方法(例如HCA);监督机器学习方法包括监督分类方法,如 LDA[9]、支持向量机(support vector machine ,SVM)[11]、人工神经网络(artificial neural network ,ANN)[12]、k-最近邻(k-nearestneighbor,KNN)[13]、t-分布随机邻居嵌入(tdistributed stochastic neighborembedding,t-SNE)[14]和所有量化方法。

图1:现代分析仪器产生的大部分属于多变量分析数据。多变量分析数据的数据挖掘过程可以分为三个步骤,包括,(1)数据预处理,(2)模式识别(聚类分析,分类分析和定量分析),(3)模型验证。

图2:光谱数据的PCA模型

现代的分析仪器,例如各种光谱,色谱方法所产生的数据都属于多变量分析。多变量分析数据的数据挖掘过程可以分为三个步骤(图 1),包括,(1)数据预处理,(2)模式识别(聚类分析,分类分析和定量分析),(3)模型验证。现代分析仪器,例如色谱和光谱产生的数据都是多变量(多元)数据,也就是一个样本对应的是多个变量,而传统的分析采用的是单变量分析,这使得我们在分析过程中损失了大量的信息。因此培养数据挖掘创新型人才,在培养仪器分析行业创新型人才方面发挥着重要作用。我们以培养数据挖掘创新人才为导向,目的是为了提升学生的数据挖掘技能,强化创新性的仪器分析课程。

3 如何在仪器分析教学中融合数据挖掘内容

仪器分析教学中的融合数据挖掘的教学主要通过数据挖掘技术的教学和具体每个章节中将仪器本身的知识和数据挖掘方面的知识相结合。数据挖掘技术的教学在下面一个段落中会具体介绍。现在举例介绍每个章节中仪器分析和数据挖掘知识方面的结合。

对于现在的分析仪器,在大部分的情况下,对于一个样本,我们可以获得一个向量,例如通过紫外检测,我们可以获得一个样本的在P个波长下的紫外光谱,如果我们有N个样本,我们可以获得一个矩阵X(N×P)。这是一组标准的多变量的数据,它具有二维的结构。矩阵是这类型数据最常用的表达形式,我们可以矩阵进行多元分析。主成分分析是用来分析多元数据最为常见的方法之一,它的原理是对不同样本在不同变量下产生的矩阵进行分解,获得新的变量(方向),利用新的变量可视化原始数据,获得分类等信息。主成分分析(PCA)是用来分析多变量数据最为常见的方法之一。它的原理是对不同样本在不同变量下产生的矩阵进行分解,获得包含最大方差的新方向(新的变量)。从图2中我们可以看到一个光谱数据如果通过主成分分析,获得一个得分(分类信息)和载荷矩阵(光谱信息)。对于一个具有n个样本和p个变量的矩阵而言,我们可以进行主成分分解获得得分T和载荷P:

除了光谱之外,中药的色谱分析也常常需要使用数据挖掘方法,例如中成药香砂养胃丸的分析。木香是中成药香砂养胃丸的重要成分,具有健脾祛湿,消除胀满的功能。木香烃内酯和去氢木香烃内酯是中药木香中的药用功能成分,它们具有抗菌,镇痛和增强脾胃功能等作用。在传统的高效液相色谱的检测中,我们需要耗费大量的时间做优化实验条件,为了改进这一缺陷,我们可以利用数据挖掘技术,在色谱峰不需要完全分开的情况下,利用“数学分析”部分增强“物理化学分离”,使得分析过程简化,不需要获得最优化色谱条件,并且只使用简单的提取过程,除此之外,我们还缩短了色谱的保留时间,使得分析快速简单[15]。

4 如何实现数据挖掘技术的教学

数据挖掘的学习包括计算机语言的学习,算法的学习以及和仪器相结合的实例的学习。计算机语言的学习方面,我们主要通过MATLAB程序语言的教学来实现[16]。MATLAB是Matrix Laboratory,矩阵实验室的简称,它是由美国 The MathWorks公司开发的商业计算机软件。MATLAB尤其适用于矩阵的计算,这在多元分析当中有极大的优势。除此之外,MATLAB还配套有各种工具箱,例如机控制系统设计与分析、影像处理、深度学习等。这些配套的工具箱可以使得用户更好的进行仪器方面的多元分析。除此之外,由于计算机程序语言的学习较为困难,我们还设计开发了基于MATLAB的图形用户界面,使得学习编程有困难的学生,也可以通过理解仪器和算法本身学习数据挖掘。算法的学习上主要是介绍一些基本的算法尤其是和仪器分析本身的教学相结合,让学生更好的理解算法。

5 如何实现课程思政

本课程主要涉及分析类内容,课程主要内容为现代仪器的发展和原理介绍以及分析仪器的应用和数据分析。因此,课程思政也主要从此两个主要内容出发:一是通过介绍分析仪器目前的发展,让学生了解我国在分析仪器建造中所处的阶段,以及发展的目标,提高学生的使命感;二是将基础课程与最新的科研成果结合,使学生了解学科及课程知识在国家的大发展,尤其是人工智能中起到的作用,激发学生的学习东西,扩充学生的专业背景知识。鼓励学生积极聆听国内外知名教授领衔的荣誉课程,了解行业动态、最新科研成果及进展,开拓国际视野,培养创新素质,切实提高学生创新精神和创新能力。本课程思政的具体实施从两个方面出发:(1)借助视频、动画等多媒体教学工具,让学生在生动形象的形式下了解我国在相关领域的杰出贡献,增强学生的爱国热情和民族自豪感;激发学生的学习东西,扩充学生的专业背景知识。(2)介绍各种机器学习算法在仪器分析中的应用的同时,介绍他们在其他领域的应用,并且了解我国在该领域的研究成果。

6 总结

传统的仪器分析课程的数据分析的教学往往都是基于传统的单变量分析,这样的分析是的现代仪器数据中的大量信息丢失,因此我们提出在仪器分析教学中加入数据挖掘的教学内容。数据挖掘主要利用现代分析仪器所产生的多元数据,可以利用机器学习算法对数据进行模式识别。数据挖掘的教学主要分为计算机语言,机器学习算法以及仪器数据的分析三个方面。在结合了数据挖掘的教学后,学生可以更好的掌握仪器中数据的获取。通过在仪器分析的教学当中与时俱进的引入数据挖掘技术的教学,可以更好的培养出仪器分析方面的创新人才。

猜你喜欢

分析仪器数据挖掘仪器
北京市华云分析仪器研究所有限公司
北京市华云分析仪器研究所有限公司
实验室分析仪器的保养与维修
我国古代的天文仪器
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
“十二五”工业过程分析仪器需求可达300亿
星敏感器用仪器星等的确定