APP下载

基于支持向量机的供体剪接位点识别

2018-10-20曾莹

数码设计 2018年12期
关键词:供体碱基位点

曾莹

摘要:剪接位点识别是基因识别中的关键环节。本文对待测样本采用0/1编码,以表征各位置上的碱基,并结合碱基二联体出现的频次,最后采用支持向量机( SVM)进行分类决策。HS3D数据集上的仿真结果显示,本方法获得的预测精度为92.84%。

关键词:剪接位点;基因识别;支持向量机( SVM);0/1编码

中图分类号:Q271

文献标识码:A

文章编号:1672 - 9129(2018)12 - 0082 - 01

引言:随着人类基因组计划的实施,基因组序列数据呈指数增长。如何解读人类基因组,挖掘其背后隐藏的信息,是一个迫切需要解决的问题。基因识别基因组注释的核心任务之一,旨在采用生物学实验或计算机手段识别DNA序列中的基因。绝大多数真核基因是不连续结构,由外显子和内含子交替组成,其中,外显子是编码蛋白质的序列片段,内含子是非编码蛋白质的序列片段。外显子和内含子的边界即为剪接位点,内含子的5端起始碱基为CT,称作供体剪接位点,3端起始碱基为AC,称作受体剪接位点。因此,准确识别剪接位点,能够精准定位基因外显子的边界,对于真核生物基因识别起着至关重要的作用。尽管99%的剪接位点遵循“CT - AC”规则,但这种强保守性并不能有效检测剪接位点,因为在DNA序列的非剪接位点上还存在着大量GT/AG,因此,剪接位点识别可以看成一个二分类问题。本文主要研究基于机器学习方法的供体剪接位点识别。

1 数据及其预处理

实验数据源自HS3D( home sapiens splice sites dataset)数据集。我们从该数据集中选取2796个真实供体位点作为正样本,并随机抽取2796个虚假供体位点作为负样本。所有样本均为140个碱基长度(即140bp)的序列,其中第1~70个碱基为外显子序列,第70~140个碱基属于内含子,而保守位点CT则位于第71、72位。

本文将序列中保守GT的位置设为00,上游区域位置分别标记为-l,-2,…,- 70,下游区域位置则记为l,2,…,68。对样本序列中的每个位置,分别构建一张24的列联表,以统计该位置上的四种碱基在正负样本中出现频次,然后计算各个位置对应的卡平方值,由于序列-3~+5、+7、+8、+10位的卡平方值高于其他位点卡平方值的平均值,考慮到窗口的连续性,我们最终确定序列长度为8bp(-3~ +5,不含00位),后续实验均基于8bp供体位点序列。

2 特征提取

对序列长度为8bp的各个样本,首先将其每个位置上的A,C,G,T四种碱基分别按:A - 0001,C- 0010,G- 0100,T- 1000进行编码;然后,分别提取16个碱基二联体(即二联体AA,AT,AC--)在序列中出现的频次。这样,对任一个序列样本,可得到一个48维(8 x4+16)特征向量。

3 基于SVM的分类决策

SVM能够解决小样本、高维数、非线性、过拟合及局部最小等问题,在生物信息、图像识别等问题中得到了广泛应用。本文采用LIBSVM作为分类器,其核函数固定为径向基核,参数c、g自动搜索获取。

4 实验结果

在HS3D数据集(2796/2796个正/负样本)上,采用10折交叉测试进行验证,即将数据集均分为10份,每次使用其中的9份进行训练,余下的l份进行测试,重复10次,最后将10次测试的精度均值作为最终结果,即敏感性( Sensitivity,SN)为0.9233、特异性(Specificity,sP)为0.9335、准确度( Accuracy,ACC)为0.9284。

参考文献:

[1]马猛,汪洋.应用序列特征分析基因剪接信号[J].计算机工程与应用,2012,48( 27):180 - 185.

[2] Li J L,Wang L F,Wang H Y, et al.High - accuracy splice siteprediction hased on sequence, component and position features[J]. Cenetics&Molecular Research 2012. 11(3):3432 - 51.

[3]李琴,张瑾,骈聪等.基于位置关联权重矩阵及序列组分的多样性增量识别剪接位点[J].生物物理学报2014,30(5):391 -400.

[4] Meher P.Sahu T,Rao A, et al.A statistical approach for 5'splicesite prediction using short sequence motifs and without encoding sequence data[J].BMC Bioinformatics 2014, 15(1):1- 14.

猜你喜欢

供体碱基位点
基因“字母表”扩充后的生命
相信科学!DNA追凶是如何实现的?
创建新型糖基化酶碱基编辑器
DNA甲基化跨代遗传取得新进展(2020.6.11 中国科学院)
鸡BCO2基因功能性单核苷酸多态性的生物 信息分析
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
一种改进的多聚腺苷酸化位点提取方法
我国活体器官移植供体的民法保护
浅析民事法律关系客体