APP下载

数据挖掘在生物信息学中的应用

2018-02-14褚皓

数字技术与应用 2018年10期
关键词:生物信息学数据挖掘

褚皓

摘要:本文重点介绍了生物信息学和数据挖掘技术的基本概念,以及生物信息学的一些主要研究方向。同时也举例了一些数据挖掘技术在生物信息学领域的具体应用,强调了如今数据挖掘技术在生物信息学领域中存在部分不足以及未来广阔的应用前景。

关键词:数据挖掘;生物信息学;数据挖掘工具;生物学数据库

中图分类号:TP399   文献标识码:A    文章编号:1007-9416(2018)10-0000-00

1 引言

近年来,基因组学和蛋白质组学的快速发展积累了大量的生物数据,为揭开生命神秘的面纱提供了良好的数据基础。生物信息学,或计算生物学,是用信息技术和计算机科学来解释生物数据的跨学科科学,它是伴随基因组研究而产生的,其研究内容也紧随着基因组研究而发展。

如今,在生物信息学领域中最受关注的一个方向就是应用和开发数据挖掘技术来解决生物问题,其中包括蛋白质结构预测、基因分类、基于微阵列数据的癌症分类、基因表达数据的聚类以及蛋白质相互作用的统计建模等。由此可见,数据挖掘在生物信息领域前景广阔。

2 生物信息学

生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合所形成的一门交叉学科[1]。生物信息学这个术语是由保利恩·霍格威格在1979年为研究生物系统中的信息过程而创造的。它自上世纪80年代末后大量应用于基因组学和遗传学领域,尤其是涉及到高通量DNA测序的基因组学领域。

生物信息学也可以定义为计算机技术在生物信息管理中的应用,它是从生物序列和生物分子中提取、存储、组织、分析、解释和利用信息的科学。在过去的几十年中,得益于DNA测序技术和生物绘图技术的进步以及基因组技术和电子信息技术的高速发展结合在一起产生了大量与分子生物学相关的数据信息。生物信息学的主要目标是通过对这些信息的分析挖掘增加对生物过程的理解。

生物信息学研究的一些重要领域包括:

2.1 序列分析

序列分析是生物信息学的基础,主要通过应用计算机对DNA序列或多肽序列进行序列比对、序列数据库和重复序列搜索等操作,研究生物序列在医学分析和基因组定位过程中相似的位点以及不同的位点。

2.2 基因组注释

基因组注释在生物信息学中指通过计算的手段来为基因组中的基因或其他生物元素进行标注[3]。第一个基因组注释软件系统是由Owen White博士在1995年设计的。

2.3 基因表达分析

基因的表达水平可以通过运用各种技术测量mRNA表达水平的方式来确定,比如采用微阵列技术,cDNA表达序列标签测序(EST),基因表达系列分析(SAGE),大规模并行测序(MPSS),或各种复合原位杂交法等。以上所有技术都有着良好的抗噪性,且不受生物测量误差影响。这一领域还涉及到需要开发相应统计工具以分离并移除高通量基因表达研究所产出信号值中的噪音。

2.4 蛋白质表达分析

基因表达的测量方法有很多,包括mRNA表达和蛋白表达。由于蛋白质是细胞活动的最终催化剂,但蛋白表达水平是确定实际基因表达水平的最佳线索之一。蛋白质微阵列和高通量质谱(MS)可以提供生物样品中蛋白质的快照图像信号。生物信息学在蛋白质微阵列和高通量质谱研究中起着重要的作用。

2.5 癌症突变分析

受癌症影响的细胞的基因组往往以复杂乃至不可预测的方式排列,因此大量的测序工作被用来对此前未知的癌癥基因的点突变进行识别。生物信息学家一直在开发专业的自动软件系统,以处理高通量测序产出的海量序列数据。他们不断运用新开发出的算法和软件,将测序结果与不断完善的人类基因组序列和多态序列进行比对。同时,新的物理检测技术,比如利用寡核苷酸微阵列技术来识别染色体的增益和损耗,以及利用单核苷酸多态性阵列来检测已知的点突变等,在肿瘤研究中的复发病变基因序列分析中也得到了广泛的应用。

2.6 蛋白质结构预测

蛋白质的氨基酸序列(又称为初级结构)可以通过编码该蛋白质的基因序列来确定。一般情况下,蛋白质初级结构决定了其原生环境中的结构。因此,深入了解这种结构对于理解蛋白质的内在功能至关重要。在蛋白质初级结构之上还有二级结构、三级结构和四级结构。蛋白质结构预测也是药物设计和新型酶设计的重要内容。

2.7 比较基因组学

比较基因组学是研究不同的物种间基因组结构和功能的关系的学科。基因发现是比较基因组学的一个重要应用,主要应用于发现基因组中新的非编码功能元素。蛋白质、RNA以及不同物种调控区域间差异也是比较基因组学的主要研究方向。近年来,随着生物信息学的快速发展,基因组比较算法研究在计算机科学领域也非常流行。

2.8 生物系统建模

生物系统建模是系统生物学和数学生学的重要组成部分。研究人员开发和运用高效的算法、数据结构以及可视化工具,将海量生物数据进行集成化处理,以便于最后应用于计算机建模作业。这涉及到了使用计算机模拟生物系统,比如代谢产物与酶的网络、信号转导通路和基因调控网络之类的细胞子系统,以观察和分析这些细胞过程之间的复杂关系。近年来,通过计算机模拟简单生命形式逐渐成为生物学家理解生物进化过程的一种重要尝试。

2.9 高通量图像分析

如今,得益于计算机技术的发展,大量的生物医学图像数据得以在短时间内被自动处理、量化和分析。现代图像分析系统加强了研究人员观测大型复杂图像的能力。一个完善的分析系统甚至可以完全独立运行。生物医学成像技术对于诊断和研究已经变得越来越重要并已在实际案例中得到应用,比如临床图像分析与可视化、DNA图谱中的克隆重叠推断、生物图像信息学等。

2.10 蛋白質对接

在过去的二十年中,数以万记的蛋白质三维结构已通过x射线晶体学和蛋白质核磁共振波谱(蛋白质NMR)技术得到确定。因此,生物学家们如今面临的一个核心问题是不通过具体的生物学实验,而仅仅基于这些三维结构来预测蛋白质间的相互作用是否可行。

3 数据挖掘

数据挖掘是指从大量数据中提取或“挖掘”知识,是在大量数据中发现新的模式和关系的科学。它被定义为通过挖掘存储在数据仓库中的大量数据以发现有意义的新关联、新模式和新趋势的过程。数据挖掘有时也被称为数据库中的知识发现(KDD)。数据挖掘并不专属于某一个学科门类,而是多学科交叉,相关学科包括数据库、统计学、机器学习、领域知识等[2]。

对于生物信息学来说,数据挖掘理论非常适用,虽然高通量测序会产出大量的生物数据,但是在生物个体的分子水平上仍缺少一个完整的数据理论体系。同时,庞大的生物信息数据库也为知识发现理论的发展带来了机遇和挑战。在生物领域进行数据挖掘有助于从生物学和其他相关生命科学领域(如医学和神经科学等)产出的海量数据中提取有用的知识,或在相关领域取得突破。

在处理实际问题时,数据挖掘的主要目标其实就是描述和预测。数据挖掘的主要任务,包括如从数据中发掘出一些新的模式和细节的步骤,如下所列:

分类:分类是将一个数据项映射(分类)到某个预定义的类中。

估计:根据提供的数据为一些未知的连续变量估出的值。

预测:与分类和估计类似,根据一些事物未来行为或未来的估值进行分类。

关联规则:确定哪些工作可以同时进行,也被称为依赖建模。

聚类:将一个总体分成若干组或群。

可视化:运用可视化技术描述数据。

数据学习可以分为两类:定向(“监督”)和无定向(“无监督”)学习。前三个任务——分类、估计和预测——是监督学习的例子。后面三个任务——关联规则、聚类和可视化——是无监督学习的例子。监督学习的目标是在所有变量之间建立关系,并从中发掘新的模型。

由于数据发掘和只是发现在现代生物学中的巨大作用,新的数据发掘工具的研发是如今最热门的课题之一。

4 数据挖掘在生物信息学中的应用

数据挖掘在生物信息学中的应用包括基因发现、蛋白功能域检测、功能基序检测、蛋白功能推断、疾病诊断、疾病预后、疾病治疗优化、蛋白与基因交互网络重构、数据清理、蛋白质亚细胞定位预测等。

例如,微阵列技术经常用于疾病诊断。根据癌症患者基因型的微阵列数据可以预估患者的生存期,以及肿瘤转移或复发的风险。机器学习能够通过质谱技术用于多肽的识别。串联质谱中片段离子之间相关性的研究对于通过数据库搜索以减少多肽识别的随机错配至关重要。因此,现在急需一种对相关性信息的进行综合高效评分的数据挖掘算法。

5 结语

在生物信息学领域中,数据挖掘仍然受到生物数据库本身大小、数量、多样性、数据质量、数据来源以及生物本体样本缺失等各方面的限制。随着基因组研究的进展与现代生物技术的发展,如何将众多的数据挖掘技术应用于生物信息分析是当前研究的热点,包括适合生物信息处理的数据挖掘体系架构、算法的开发、新的数据挖掘分析功能研究等[4]。数据挖掘技术与生物信息学的紧密结合会得到更多更有意义的挖掘结果,对人类社会的进步起到积极的作用。

参考文献

[1]Luscombe NM,Greenbaum D, Gerstein M. What is bioinformatics? A proposed definition and overview of the field. Methods information in Medicine,2001,40(4):346-58

[2]王星,等.大数据分析:方法与应用[M].北京:清华大学出版社,2013:13

[3]梁艳春,张琛,等.生物信息学中的数据挖掘方法及应用[M].北京:科学出版社,2011:12.

[4]李佳,江涛.生物信息数据挖掘应用研究[J].中国科技信息,2009,(20):42-43

Application of data mining in bioinformatics

CHU Hao

(Beijing Capitalbio Technology, Beijing  102600)

Abstract:This article highlights some of the basic concepts of bioinformatics and data mining and some of the major research areas of bioinformatics. The main application of data mining in the domain of bioinformatics is explained as well. It also emphasizes some of the current shortcomings and promising opportunities in future of data mining in bioinformatics.

Key Word: Data mining, Bioinformatics, Data mining tool, biology database

猜你喜欢

生物信息学数据挖掘
基于并行计算的大数据挖掘在电网中的应用
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究