APP下载

利用爬虫构建生物细胞器基因组数据库

2019-06-11陈琦吉嘉铭徐逸卿

电子技术与软件工程 2019年7期
关键词:细胞器键值字段

文/陈琦 吉嘉铭 徐逸卿

本研究以物种细胞器基因组数据为对象做分析,在不损坏原始数据的情况下大批量整合,提供一种完善且高效的基因数据获取、分析方式。细胞器指细胞内具有特定功能的子单元。在真核细胞中有着不同种类的细胞器,而原核生物本身不具有细胞器,但有些则含有基于蛋白质的细菌微室,被认为是原始的细胞器。

葡萄Vitis vinifera是最古老的果树种之一,与多个物种存在遗传进化关系,对葡萄的基因分析有助于了解其进化发育和其他相近物种遗传特征。国内外学者使用线粒体DNA和叶绿体DNA的分子生物学分析获取细胞器基因组的特征,对细胞器基因组的分析是理解其遗传进化的重要途径。线粒体基因组具有高拷贝数、高替代率、母系遗传等特点,线粒体DNA被广泛用作许多领域的工具。叶绿体基因组编码蛋白质对光合作用功能非常重要,人们在研究其基因序列的时候发现它在物种的进化、遗传、系统发育关系等方面具有重要的作用。

基因组数据库为基因研究提供所需的物种种属、细胞器类别、基因序列等重要数据。随着生产完整基因组序列的效率提高,难以使用原始文献进行广泛比较。现有的物种数据库没有标准化且存在错误数据导致没有能够承担该任务的工具,通常还缺乏充分利用这些数据的描述符。曾被许多生物学家所使用的GOBASE数据库,组织并整合了与细胞器相关的分子序列、RNA二级结构和遗传图谱,以及所有真核物种的分类信息,该数据库于2010年8月停止维护更新。行业中缺少一个专用于细胞器基因组的数据库,也缺乏对基于细胞器基因组相关研究的后续支持。

1 材料与方法

1.1 数据库与数据格式

选用NCBI的Genome库获取物种的细胞器基因组数据,相应的数据文件以GenBank的格式被提供下载和访问。NCBI自1992年以来一直负责提供GenBank DNA序列数据库,并与个别实验室和其他序列数据库进行协调,为每种生物体分配了唯一的标识符以供识别。同时提供了一个序列相似性搜索程序用于在生物体中找到与查询序列相似的序列,可在15秒内在数据库内完成序列比较[8]。GenBank序列数据库收集了所有公开可用的核苷酸序列、蛋白质序列和基因图谱等信息。GenBank数据库包含序列文件,索引文件等,对其所含的数据和基因序列进行分析、拆离和存储是本研究的重点。

1.2 信息抓取流程

使用相关数据接口和爬虫处理来自NCBI中细胞器基因组数据,对核苷酸序列和蛋白序列等序列进行特征识别和提取,最终构建物种的细胞器基因组数据库,为做进一步的生物学相关研究提供了数据支持。细胞器基因组是NCBI参考序列项目的一部分,该项目为本研究提供了源数据。本研究的数据处理以葡萄的叶绿体基因组(NC_007957.1)和线粒体基因组(NC_012119.1)为例作为分析对象。每个物种的细胞器基因组都被分配了一个唯一可识别的索引编号。根据已获得的编号序列,以统一资源定位符的格式获取资源拼接出完整可访问的资源路径(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“编号序列”&rettype=gb&retmode=text)。

设计爬虫访问拼接后的路径地址,通过索引编号的检索逐个获取。再以同样的方式下载线粒体基因组数据。分析文本特征之后将其中功能不同的数据和序列提取出来分别存储,该特征模式适用于几乎所有物种。以葡萄为例如下图1所示,图中左侧字段的层级关系,将被程序分离处理转换为数据库中对应的键间关系。文件转化为数组对象,利用不同区域的特征确定该字段所在层级。在此基础上建立文本分析模型。使用程序将整个文本划分为层次分明的数个字符串,提取字段为键,紧跟在后的字符串为值填充数据库。枚举空白字符数为0的键值,获得一级目录的最大深度。使用正则式匹配无缩进字符串,结果如图1中红框所示。以此类推,以缩进层次为特征分别枚举出第二层级(图1中蓝框)和第三层级(图1中绿框)的关键字和对应信息。第四层级到达了碱基序列和蛋白质序列的层次,单独使用不同的算法对其进行处理,“/”后的字段是第四层的键值,遍历所有文件,获得第四级目录字段出现的深度。从中再次提取出关键字如source下的/organism、/organelle、/mol_type等键值。

分块取值并填充到键值树,将结果插入数据库。按照生成的键值树结构建立数据库,并根据字段和属性自动生成数据表,编写程序将各层级的键值插入到数据表中。一至三级存放文件索引字段及相对应的信息,第四级存放如核苷酸序列、蛋白质序列的长文本。分离层次后在数据库中建立相对应的数据表。便于相关研究对不同序列的要求,对数据库中的数据信息进行了分类和导出。分别生成相应的文本文件和基因示意图,以文件树的结构存放在服务器中供研究人员下载调取。整体目录结构、文件信息、序列数据等将被自动化脚本定期更新后上传至服务器供访问。将分析结果用算法实现并与下载用的爬虫程序整合,将流程自动化,使其能够自动访问NCBI下载并更新细胞器基因组的数据,按照特征分析、分类,生成对应的数据表及相应的字段,写入数据库。为相关基于细胞器基因组的研究,例如构建系统发育树、基因共线性分析等提供了数据条件。

2 结果与分析

功能完备且便于使用的细胞器基因组数据库的出现为相关生物学研究提供了极大的助力。至2019年初,本研究建立的数据库共收录相关细胞器基因组数据共12130组,其中线粒体基因组9185个,叶绿体基因组2374个,质体571个。如图2自1990年以来各细胞器基因组通过测序收录的数量,线粒体基因组的测序数量自2000年后数量大幅增长,自2005年至今新增加的通过测序的线粒体基因组数量已翻了十倍。叶绿体基因组和质体基因组自2005年起每年新增测序数量也有明显增长。由于叶绿体仅出现在大部分高等植物细胞和藻类中、质体仅出现在植物细胞中,能获取到叶绿体或质体样本的物种有限,导致了叶绿体基因组和质体基因组测序数量增长速度受到了限制。

基因测序技术的发展是使测序数量大幅增长的原因之一。其中线粒体基因组的增长趋势尤为突出,这是由线粒体的本身生物特性导致的。线粒体在生物体中分布广泛,可轻松获取大量样本。动物线粒体DNA比核遗传标记发展更快,同时也是系统发育和进化生物学的支柱。本研究结合了来自NCBI的细胞器基因组数据及相关计算机算法,设计构建了一个更易于研究使用的专业细胞器基因组数据库,分析了不同细胞器基因组测序研究的组成与发展趋势,为相关生物学研究提供了数据依据,为更好地发展如构建系统发育树等研究项目打下了基础。

图1:基因文件四层级分级示意图

图2:不同年份细胞器基因组的总测序数量

猜你喜欢

细胞器键值字段
图书馆中文图书编目外包数据质量控制分析
我国科学家绘制“生命暗物质”图谱
植物细胞器DNA的新功能
——可作为磷酸盐库再利用!
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
注册表值被删除导致文件夹选项成空白
“扫除”技巧之清除恶意程序