APP下载

原核生物基因识别问题的相关分析

2017-02-16杨汉铭

科技与创新 2017年1期
关键词:结构特征

杨汉铭

摘 要:原核生物基因识别属于生物信息学的范畴,作为一门交叉性的学科,生物信息学中融入了对生物信息的解释、分析、分发、存储、处理和获取等多方面的内容,利用生物学、计算机科学和数学等工具,对大量数据中包含的生物学意义进行理解和阐述。通过分析DNA序列,有效分析蛋白质中非编码和编码序列的特征,以期提升蛋白质编码基因的识别率。简要阐述原核基因组中ORF及基因的结构特征,尝试提取描述基因特征的参量,通过分析重叠基因,有效设计自训练识别原核生物基因算法。

关键词:原核生物;基因识别;结构特征;蛋白质编码

中图分类号:Q93-33 文献标识码:A DOI:10.15913/j.cnki.kjycx.2017.01.038

在生物信息学领域中,基因识别是一项重要内容,通过分析基因序列,能够提取基因特征结构信息,得到相应的理论模型,设计识别算法,从而实现对计算机辅助基因的识别。在基因识别中,主要识别RNA基因、蛋白质编码基因。过去,采用生物学实验的方法确定基因及其结构,存在费用高、周期长等问题。因此,采用非实验的方法定位基因,确定基因结构,具有十分重要的意义。

1 Fisher判别法

过去,应用统计模式识别方法存在的一个问题,就是特征数或维数问题。基于此,逐渐产生了一种能够将特征空间维数降低的方法,其中一种较为常用的方法就是Fisher线性判别法。在这种方法中,在一条过原点的直线上投影d维空间的所有模式,从而形成在一起聚合的一个群,其在一维直线上可能存在混杂的投影。但是,如果转动这条支线,就能够在某个方向上很好地区分不同模式的投影。假设存在X1,X2 2种模式样本集,各自的d维样本数为n1,n2,假设能够有效区分模式样本投影的直线正方向单位向量为W,丨W丨=1,在直线中,X1,X2的投影能够分别得到r1,r2 2个集合,而y∈ri,即x∈Xi在单位向量W中的投影,则y=WTX。在Fisher先行判别方程中,对编码区的识别存在多维空间的一个超平面,用矢量c代表,其中包含了c1,c2……cm这m个组分,这个内容可以从2组样本中得出。其中,第一组g=1表示编码样本,第二组g=2则表示非编码样本。

2 蛋白质编码区的识别

在生物信息领域,蛋白质编码区的识别是一项十分重要的内容。通过训练已知蛋白质的正负样本,可确定识别标准,从而预测未知序列。随着基因识别算法的发展,对序列编码能力的尺度的衡量是基因识别算法中最重要的内容。但是,在实际应用中,对于原核生物基因的识别仍然存在不足。在提取过程中,重要的部分是参量,选择的参量应当恰当有效,同时,具有明确的统计学意义和生物学意义,并且具有足够高的识别率。在实际应用中,利用氨基酸不均匀度能够达到96.5%的识别率,GC含量的增加能够有效提升识别率。在不均匀度中发现了很多参量,例如密码子不均匀度、碱基不均匀度等,这些都能达到较高的识别率。其中,碱基含量不均匀度能够达到97.8%的识别率。而采用Bayes判别法、Fisher判别法等均能够达到不错的识别率。对于生成负样本,可通过随机两两交换基因碱基一万次、直接利用基因间序列、生成[0,3]的随机数等方法加以实现。采用这种方法识别蛋白质编码区,能够达到95%以上的识别率。

3 自训练原核生物基因识别

近年来,随着模式生物基因组、人来基因组的大规模测序,产生了大量未注释DNA序列。因此,为了自动注释原始序列,需要采用准确、快速的算法。在基因识别中,主要的问题是正确识别给定基因组的基因范围,以及其在基因组序列中的具体位置。目前,常用的基因识别方法是基于序列比对方法。这种方法基于同源蛋白质,具有相似的基因结构,是对其与已知基因未知序列相似性的比对进行判断和识别。不过,这种方法的局限性是显而易见的,一旦遇到不具有相近亲缘关系的新物种,这种方法就不能适用。所以,可采用自训练方法识别原核生物基因,也就是从头计算方法。在这种方法下,可以考虑基因结构保守性的特点,通过分析已知基因结构的特征,提取其中的信息参量,并基于相应理论模型设计算法,从而实现对原核生物基因的识别。

在基因识别中,除了原核基因识别以外,还包括真核基因识别,只是原核基因的结构更为简单,所以,识别原核生物基因意义更为重要。在识别原核生物基因时,ORF筛选是一项重要的工作,通过下载到某物种序列,寻找正反链中起始于TTG、GTG、ATG,终止于TGA、TAG、TAA的,长度在300 bp以上的,是3的倍数的ORF,共得到6个相位。在ORF的筛选中,排除非基因的ORF,并找出训练集,训练一组参量,识别筛选后的ORF。在筛选过程中,主要采用的方法有去短留长、信息熵相乘、出现频率、错位方差、碱基平均自信息、氨基酸自信息量等。

4 结束语

生物信息学是目前十分重要的学科之一,其包含了很多相关学科的知识和内容。原核生物基因识别作为生物信息学中的一个重要问题,近年来,通过不断的研究,取得了较大的进展。在识别过程中,Fisher是常用的判别方法。基于此识别蛋白质编码区,并用自训练方法識别原核生物基因,有良好的效果。

参考文献

[1]杜武英,黄江,胡旭初,等.猪带绦虫乳酸脱氢酶基因的序列分析、克隆表达和免疫学分析[J].中国人兽共患病学报,2010(03):246-251.

[2]郝志敏,申珅,李志勇,等.玉米大斑病菌Stga-2及其启动子的克隆与基因表达分析[J].中国农业科学,2010(18):3705-3712.

[3]谢兆辉,曾强成,沈亮,等.真核生物翻译过程中的mRNA质量控制[J].生物化学与生物物理进展,2013(01):22-29.

[4]朱丛睿,周明旭,朱国强.大肠埃希菌内参基因gapA克隆表达及抗体的制备与应用[J].扬州大学学报(农业与生命科学版),2015(02):14-18.

〔编辑:白洁〕

猜你喜欢

结构特征
水环境影响下的屯城古村营建特征研究
淮南花家湖轮虫群落结构特征及季节变化
浅谈电力变压器结构特征和检验方法
哈尼语颜色词研究
论《四月物语》中的散文式结构
浅谈高考数学中的审题要点
鄂温克族之柳条包工艺
离心压缩机叶轮结构特征三维建模方法探究
电力调度数据网结构特性探究