APP下载

病毒基因组生物信息分析系统的构建及关键技术探析

2018-06-05黄雪莹

神州·下旬刊 2018年4期
关键词:基因组数据库生物

黄雪莹

摘要:在生物信息学蓬勃发展的背景之下,本文将针对病毒基因生物信息分析系统的构建及构建过程中所使用到的关键技术进行研究。

关键词:病毒基因组生物信息分析系统;构建;技术

生物信息分析系统应具备对生物信息进行收集、分析、挖掘等功能,而由于病毒自身进化速度较快,所产生的数据量自然也要更多一些,因此,针对病毒基因组建立专门的生物信息分析系统是非常有必要的。本文将首先对这一系统构建过程中应用到的关键技术进行介绍,在此基础上研究具体的系统构建办法。

一、关键技术

(一)生物数据集成

生物数据集成主要是指将从WEB数据库中得到的数据进行转换、集成的过程,现阶段常用的集成方法主要有以下两种:1、虚拟本地数据库方法。顾名思义,这一方法主要是指在分布式、异构式数据库的基础上构建一个软件层,并通过一个虚拟的集成视图来完成对数据的各项操作。2、数据仓库方法。这一方法主要是指从不同的一级数据库中提取数据后将他们集成并存储到一个集中的数据库中以供用户进行后续操作。结合这样的概念不难分析出,除了对数据进行查询之外,这一方法同样支持用户进行后续的分析、计算和评估工作。结合本文所讨论的内容来说,这样的特点对于特定数据库的建立是非常有益的。

(二)应用软件集成

病毒基因组生物信息分析系统的开发必然需要对大量关联复杂、形式多样的数据进行处理,在这样的背景之下,原有的开发模式已经不能满足这样的需求,相关人员必须针对系统间各个机构之间的共享、复用、集成等进一步的进行研究。本文主要对生物信息领域常用的分布式开发集成技术进行介绍:1、CORBA、DCOM等传统分布式体系结构。CORBA即通用对象请求代理体系结构,这一体系结构可以分为对象请求代理、公共对象服务、公共设施三部分。CORBA虽然能满足软件与硬件互联的需求,但同时因为其系统过于庞大,相关技术和标准更新的都比较缓慢。DCOM的全称为分布式组件对象模式,是对COM的拓展,这也就导致了这种模式对于Windows以外的操作系统的支持并不理想。2、Web服务。Web服务主要是通过一系列协议来完成分布式计算的,因此,只要系统支持这些协议,那么就能支持Web服务的应用。近年来,Web服务在生物信息领域已经得到了初步的应用,这一技术能有效的消除不同软件平台之间的差异,满足生物信息分析系统对于大量软件的应用需求。3、网格服务。网格服务是在Web服务的基础上提出的,网格服务定义了一组接口用以解决动态服务创建、服务生命周期管理等问题。通过这一技术的应用,系统中的所有组成部分都将被抽象为“服务”,进而在此基础上通过标准接口来进行管理。

二、系统构建

(一)生物信息分析系统

结合上文中的内容,病毒基因组生物信息分析系统的构建模型如下,本文将分层对其进行介绍。(见图1)

数据源层:系统数据来源。常用的数据存储方式可以分为关系数据库、文件数据库两种。

数据处理层:这一层应完成对源数据的集成操作。结合上文中的内容,本文采用以数据仓库方法为主、虚拟本地数据库方法为辅的方式来完成系统的构建。通过两种数据集成方式的同时应用,系统将能在构建新数据库的同时实现动态更新功能。在图一中,数据处理层主要由HTML处理器、格式转化器两部分组成,其中,前者主要完成对HTML数据的处理,并将相关数据存储到文件数据库中;格式转化器则主要负责为应用层不同的应用提供所需的数据格式。

应用层:应用层是整体系统的核心组成部分,在系统的构建过程中,上文提到的三种应用集成模式都可以完成软件复用及数据复用的需求。病毒基因组生物信息分析系统应具备以下功能:1、数据检查更新。通過对本地数据库与网络数据库的对比找出本地数据库中不包含的新数据,并在此基础上进行下载更新。2、数据检索及管理。数据的检索和管理主要是针对数据库的增、删、改、查等操作。3、数据分析。向用户提供一个完善的生物信息分析环境,并结合用户需求完成数据分析工作,将结果返回给用户。

表示层:在本文所介绍的模型之中,系统表示层主要由数据管理界面和数据应用界面组成,其中,前者主要提供数据处理接口,后者主要用来接收用户的需求。在整个系统中,这一层将直接的与用户进行交互,而C/S模式的应用能极大程度的降低后台数据管理的复杂性,B/S模式则能为系统内部资源的共享和传输提供便利,具体构建模式的选择应结合具体需求来确定。

(二)系统特点

结合上文中的内容,本文所介绍的病毒基因组生物信息分析系统主要具备以下特点:1、层与层之间是独立的。在这样的特性支持下,针对不同层的开发工作将能同步进行,只需要对相应的接口进行约定即可。在这样的背景之下,系统开发的复杂性和开发周期都将得到极大程度的降低。2、底层数据与上层应用的联系将变得更弱。底层数据与上层应用的联系过于紧密必然会导致上层应用需要频繁的进行更新,而数据处理层的添加将能有效的解决这一问题。3、系统的可扩展性提高。随着生物信息领域的不断发展,这一系统必然也需要进行功能上的扩展,而在本文所介绍的模型之下,系统扩展将变为针对中间层的处理,工作量将会大大降低。4、能为用户提供个性化接口。对上文中的内容进行分析不难发现,表示层并不关心下层结构的实现细节,因此,对表示层做出的更改也并不会对系统功能造成影响,具体客户端的表现形式可以是多种多样的。

结语

综上所述,具备指向性的生物信息分析系统的构建已经成为必然,而通过生物信息分析平台多层模型的应用,系统的灵活性、可扩展性等都能得到有效提升,因此,在后续的发展过程中,相关的科研人员应进一步对这一模型的具体应用进行研究,以此来保证病毒基因组生物信息分析系统能为更好的为相关生物研究提供服务。

参考文献:

[1]曹永忠.新城疫病毒生物信息分析系统的构建及其全基因组的比较研究[D].扬州大学,2009.

[2]陆王红.病毒基因组生物信息可视化系统研究[D].扬州大学,2008.

猜你喜欢

基因组数据库生物
宏基因组测序辅助诊断原发性肺隐球菌
科学家开发出人工基因组高效简化策略
第12话 完美生物
生物趣多多
隐藏在深海里的神秘生物
深海里的神秘生物
数据库
数据库
数据库
数据库