APP下载

支持向量机和邻接法在夜蛾科昆虫条码研究中的应用

2012-10-12韩辉林迟美妍武春生张爱兵首都师范大学生命科学学院北京00048东北林业大学林学院黑龙江哈尔滨50040中国科学院动物研究所北京000

生物安全学报 2012年4期
关键词:条形码夜蛾成功率

李 俊,韩辉林,高 强,金 倩,迟美妍,武春生,张爱兵*首都师范大学生命科学学院,北京00048;东北林业大学林学院,黑龙江哈尔滨50040;中国科学院动物研究所,北京000

夜蛾科隶属鳞翅目,为该目第一大科,目前已知种类超过3.5万种(Poole,1989)。由于夜蛾科昆虫具有危害方式多样、发生时期不同、近缘种类繁多、个体变异丰富等特点,且从事传统分类的学者日趋减少等,导致除粘虫类、地老虎类、烟青虫Helicoverpa assulta(Guenée)、棉铃虫 Helicoverpa armig-era(Hübner)等重要的农林害虫外,其他大部分种类的相关研究极其薄弱(陈一心,1999)。近年来,随着形态分类学多元信息的整合以及分子生物学技术的快速发展,传统夜蛾科分类系统发生了很大变化(Zahiri et al.,2010、2012)。但是,由于新系统还存在一定的不稳定性,本文以传统的分类系统为主予以研究。

DNA 条形码被 Hebert et al.(2003a、b)和 Remigio&Hebert(2003)提出之后,得到了国际上的广泛关注。许多研究者将DNA条形码应用于物种鉴定中,其利用一段基因序列作为分子标记来快速、准确、自动化地对物种进行鉴定(Hajibabaei et al.,2006)。目前,DNA条形码数据分析倡议协会(DNA Barcode Data Analysis Initiative,DBDAI)把线粒体COⅠ基因5'端起始的长度为658 bp的一段序列作为动物物种鉴定的标准序列(Ratnasinghan&Hebert,2007)。这段COⅠ序列在后生多细胞动物群,包括脊椎动物(Francis et al.,2010;Hubert et al.,2008;Tavares & Baker,2008)和无脊椎动物(Jennings et al.,2010;Johnson et al.,2008;Zhou et al.,2009)的物种鉴定和隐存种鉴定方面都很有效(Efe et al.,2009;Johnson et al.,2008;Kerr et al.,2009)。但是,DNA条形码技术在物种鉴定方面仍然存在争议(Will&Rubinoff,2004),一些以形态鉴定为主的学者认为,物种鉴定需要依靠经验(Elias et al.,2007;Hurst& Jiggins,2005;Meyer& Paulay,2005;Wiemers & Fiedler,2007)和理论知识(Hickerson et al.,2006)的积累。

支持向量机(support vector machine)又称支持向量网络(Cortes& Vapnik,2009),于1995年被提出,是在统计学理论基础上发展起来的一种新的机器学习方法,在机器学习的许多方面表现出特有的优势,如解决小样本、非线性和高维模式识别等问题,并且在函数拟合等机器学习中得到推广和应用(郎宇宁和蔺娟如,2010)。由于支持向量机具有理论完备、适应性强、全局优化、训练时间短、泛化性能好等优点,已经成为目前国内外研究的热点(边肇祺和张学工,2000)。目前,支持向量机在数据分类(杜灿谊等,2012;李晟和何明一,2012;秦传东等,2012)、回归估计、函数逼近等领域展开了应用并取得良好的效果(Brown et al.,2000;Mukherjee,2003;Walavalkar,2003;Zhao & Principe,2001)。然而,支持向量机应用于DNA条形码方法的例子还较少。因此,本研究以北京妙峰山采集的101只夜蛾科昆虫的COⅠ序列和网站下载的14条夜蛾COⅠ序列作为研究材料,通过传统的形态鉴定方法和DNA条形码分类方法鉴定物种,利用支持向量机和邻接法(Mailund et al.,2006)对鉴定结果进行研究,以进一步验证COⅠ基因对鳞翅目夜蛾科的鉴定效果。

1 材料与方法

1.1 试验材料

在北京妙峰山地区的鹫峰(E116°06.081'、N40°06.907')、陇驾庄(E116°03.347'、N39°58.321')、涧沟(E116°01'55.1″、N40°03'44.7″),利用高压汞灯诱集夜蛾科昆虫,分别采样21、20、60头,然后冷冻致死。

1.2 样品的保存与鉴定

样本采集后展翅保存,制作外生殖器玻片,以进行形态学鉴定。经形态专家鉴定,101个样本来自58种夜蛾(表1)。

1.3 COⅠ序列的扩增及分析

DNA模板选自样本腿部肌肉组织,通过Biomed组织/细胞基因组DNA快速提取试剂盒提取。COⅠ序列通过聚合酶链式反应(PCR)扩增,反应体系 30 μL:模板 DNA 3 μL,引物 COⅠ F 0.6 μL,引物 COⅠ R 0.6 μL,耐热聚合酶链反应化合物 15 μL,双蒸水 10.8 μL。采用的引物:上游引物 F1 ATTCAACCAATCATAAAGATAT,下游引物 R1 TAAACTTCTGGATGTCCAAAAA。PCR反应条件:94℃预变性2 min;40个循环包括94℃变性20 s,52℃退火20 s,72 ℃复性45 s,72 ℃延伸10 min,4 ℃保存。取3 μL反应体系进行1%琼脂糖电泳检测,若有条带在650 bp左右,则送中科希林生物有限公司北京分公司测序。

将提取的COⅠ序列组合分成3套数据集。所有夜蛾样本组成的数据集为数据集Ⅰ,剔除所有单序列的夜蛾种类组成的数据集为数据集Ⅱ,在数据集Ⅱ的基础上增加网站上下载的14条夜蛾科数据构成的数据集为数据集Ⅲ。将这些COⅠ序列集分别通过 Chromas进行编辑和修改,再用 Mega 4.0(Tamura et al.,2007)对序列进行比对,转化为Mega 4.0(Tamura et al.,2007)可读文件。在此基础上,使用 Mega 4.0(Tamura et al.,2007)和 K2P(Kimura,1980)模型中的计算和建树功能,对3套数据进行遗传距离分析并构建NJ树(Saitou&Nei,1987)。

表1 样本及其COⅠ序列的GenBank登录序列号Table 1 Noctuidea samples and GenBank accession numbers of their COⅠgene sequences

对所构建的NJ树进行成功率的评价。在序列Q经形态鉴定为物种A的情况下,序列Q跟物种A聚在一起,而A没有其他的分支,认为NJ树聚类成功;Q在物种A和B之外,认为Q属于其他物种,NJ树聚类失败;物种A形成2个分支,而序列Q聚集在占物种A个体数大于或等于50%的分支上,认为Q属于A物种,NJ树聚类成功;如果测试序列Q聚集在物种A个体数不到50%的分支上,则认为其不属于A物种,NJ树聚类失败。这样计算1000次的成功率:

Nsample=Nseq×1000;Rsuccess=Nsuccess/Nsample

支持向量机对3套数据进行分类,采用libsvm软件对所得到的妙峰山夜蛾科昆虫的COⅠ序列数据集进行研究,将其转化为libsvm可读文件(A=0.1,T=0.2,C=0.3,G=0.4)。在支持向量机类型为C-SVC和核函数类型为径向基函数的基础上,得到夜蛾科COⅠ序列的成功率。为了得到支持向量机的准确率(accuracy)、敏感性(sensitivity)、特异性(specificity)和精密度(precision)4个参数,在原有的3套数据集上加入了22条舟蛾序列作为负样本,分别命名为数据集Ⅰ'、数据集Ⅱ'和数据Ⅲ'。以数据集Ⅱ'为例,数据集Ⅱ'有55条序列,加入22条舟蛾科的COⅠ序列,总共77条COⅠ序列,随机抽取数据集Ⅱ'80%的序列(62条序列)作为训练,数据集Ⅱ'20%的序列(15条序列)作为测试,通过以下公式(Perruchet& Peereman,2004;Velez et al.,2007;Walker et al.,1990)计算支持向量机的 4个参数。重复随机抽取1000次,得到它们的平均值进而验证支持向量机的测试效果。

2 结果与分析

2.1 基于NJ方法和支持向量机的夜蛾科鉴定

采用NJ方法的鉴定中,由于数据集Ⅰ存在许多单序列样本(有些夜蛾种类仅有1个样本),在对NJ方法成功率的评估上效果不是很理想(55.5%)。因此,在数据集Ⅱ中剔除单序列样本后进行验证,成功率达到89.1%(95%的置信区间CI:82.4% ~ 95.8%)(Clopper & Pearson,1934)。在对数据集Ⅲ的评估中,成功率达到91.3%(95%的置信区间 CI:86.3% ~96.3%)(Clopper& Pearson,1934)。

通过支持向量机的方法对3套数据集(未加入舟蛾数据集)进行鉴定,得到数据集Ⅰ、数据集Ⅱ、数据集Ⅲ的成功率分别为41.3%(95%的置信区间CI:40.7% ~42.0%)、83.8%(95% 的置信区间 CI:83.1% ~ 84.5%)、83.5%(95% 的置信区间 CI:82.9% ~84.1%)(Clopper & Pearson,1934)。

舟蛾数据集对支持向量机的成功率影响较小(表2)。从图1也可以看出,增加物种数量和同种个体数,NJ方法的验证效果会提高,而对支持向量机的影响较小。总体来说,NJ方法的效果优于支持向量机,主要由于它们的验证方法不同,支持向量机需要把数据集分为2份,一套进行训练,一套进行测试,很可能将2个同种数据作为预测的数据集,从而降低了成功率。如果样本容量足够大,同种个体数足够多,支持向量机的成功率可能会提高。

表2 通过3套数据集计算出的支持向量机的4个参数Table 2 Four parameters of SVM calculated by three databases

2.2 系统发育树分析

基于数据集ⅡCOⅠ序列构建的NJ树如图2所示。NJ树可以正确地按照亲缘关系将55个样本聚类,节点中的数值为各自的Bootstrap值。从图中可以发现,除棉铃虫和烟青虫、大三角鲁夜蛾Xestia kollari(Laderer)和兀鲁夜蛾 X.ditrapezium(Denis et Schiffermuller)外,其他样本在NJ树上大体都有清晰的划分。从传统形态学上看,棉铃虫与烟青虫的亲缘关系比较近,生活的环境相似,它们之间出现了杂交现象。DNA条形码鉴定是依靠物种的种间基因遗传差异比种内基因遗传差异大进行区分的,而棉铃虫与烟青虫遗传交流比较多,因此它们在NJ树上聚为一类,线粒体COⅠ基因很好地反映了这个事实。大三角鲁夜蛾和兀鲁夜蛾也有类似情况。乏夜蛾Niphonyx segregate(Butler)中编号为LJZ100726.357的样本在NJ树上为单独一支,可能由于基因杂交或样本问题,这有待进一步研究。

图1 通过邻接法和支持向量机在夜蛾科COⅠ序列数据集物种鉴定的成功率(未加入舟蛾数据集)Fig.1 Success rate in species identification,based on the COⅠ gene,using either the SVM or NJ,performed on the non-joined Noctuoidea dataset

3 讨论

本研究中,邻接法(Mailund et al.,2006)在数据集Ⅱ和数据集Ⅲ的成功率都为90%左右,而支持向量机的成功率为83%左右,两者都有很高的成功率。这验证了DNA条形码在分类学上的应用价值。已有证据表明,COⅠ序列在某些类群或者某个地区内有很好的鉴别能力,如COⅠ序列鉴定热带鳞翅目昆虫的成功率达到97.9%(Hajibabaei et al.,2006)。

DNA条形码作为一种新兴技术,在对物种分类识别上具有快捷、简单的优点。前人已有DNA条形码与机器学习方法相结合的研究,在2008年Zhang et al.将人工智能的思想引入DNA分子分类学领域,提出了基于BP人工神经网络的物种鉴定新方法。本研究将DNA条形码与支持向量机结合证明了DNA条形码在样品鉴定中具有较高的准确性。虽然现在普遍应用的邻接法(Mailund et al.,2006)的成功率比支持向量机高,但是随着分子技术的不断更新,生物信息数据量不断扩增,将有越来越多的人依赖人工智能的方法对数据进行查询。因此,本研究也是对数据查询方法的一种探索。DNA条形码快速识别数据网络的建立,将为以后的研究提供便利,也给生物多样性研究创造了有利条件。

图2 基于数据集Ⅱ的COⅠ序列构建的部分夜蛾种类的NJ树Fig.2 NJ-tree of 55 slected Noctuidae species based on the COⅠ gene of database Ⅱ

边肇祺,张学工.2000.模式识别.北京:清华大学出版社.

陈一心.1999.中国动物志.北京:科学出版社.

杜灿谊,杨翠丽,潘威.2012.支持向量机在汽车自动变速器故障识别中的应用.汽车工程,34(3):241-244.

郎宇宁,蔺娟如.2010.基于支持向量机的多分类方法研究.中国西部科技,9(17):28-29.

李晟,何明一.2012.基于向量机的数字图像鉴别技术研究.科学技术与工程,12(10):2323-2327.

秦传东,刘三阳,张市芳.2012.一种肿瘤基因的支持向量机提取方法.西安电子科技大学学报:自然科学版,39(1):191-196.

Brown M,Lewis H G and Gram S R.2000.Linear spectral mixture models and SVM for remot sensing.IEEE Trans Geoscience and Remote Sensing,38:2346-2360.

Clopper C J and Pearson E S.1934.The use of confidence or fiducial limits illustrated in the case of the binomial.Biometrika,26:404-413.

Cortes C and Vapnik V.1995.Support vector networks.Machine Learning,20:273-297.

Efe M A,Tavares E S,Baker A J and Bonatto S L.2009.Multigene phylogeny and DNA barcoding indicate that the Sandwich tern complex(Thalasseus sandvicensis,Laridae,Sternini)comprises two species.Molecular Phylogenetics and Evolution,52:263-267.

Elias M,Hill R I,Willmott K R,Dasmahapatra K K,Brower A V Z,Mallet J and Jiggins C D.2007.Limited performance of DNA barcoding in a diverse community of tropical butterflies.Proceedings of the Royal Society of London,Series B:Biological Sciences,274:2881 -2889.

Francis C M,Borisenko A V,Ivanova N V,Eger J L,Lim B K,Guillén-Servent A,Kruskop S V,Mackie L and Hebert P D N.2010.The role of DNA barcodes in understanding and conservation of mammal diversity in southeast Asia.PLoS ONE,5:e12575.

Hajibabaei M,Janzen D H,Burns J M,Hallwachs M and Hebert P D N.2006.DNA barcodes distinguish species of tropical Lepidoptera.Proceedings of the National Academy of Sciences USA,103:968-971.

Hebert P D N,Cywinska A,Ball S L and deWaard J R.2003a.Biological identifications through DNA barcodes.Proceedings of the Royal Society of London,Series B:Biological Sciences,270:313 -322.

Hebert P D N,Ratnasingham S and Waard J R D.2003b.Barcoding animal life:cytochmme c oxidase subunitⅠdivergences among closely related species.Proceedings of the Royal Society of London,Series B:Biological Sciences,270:596 -599.

Hickerson M,Meyer C P and Moritz C.2006.DNA barcoding will often fail to discover new animal species over broad parameter space.Systematic Biology,55:729 -739.

Hubert N,Hanner R,Holm E,Mandrak N E,Taylor E,Burridge M,Watkinson D,Dumont P,Curry A,Bentzen P,Zhang J,April J and Bernatchez L.2008.Identifying Canadian freshwater fishes through DNA barcodes.PLoS ONE,3:e2490.

Hurst G D D and Jiggins F M.2005.Problems with mitochondrial DNA as a marker in population,phylogeographic,and phylogenetic studies:the effects of inherited symbionts.Proceedings of the Royal Society of London,Series B:Biological Sciences,272:1525 -1534.

Jennings R M,Bucklin A and Pierrot B A.2010.Barcoding of arrow worms(phylum Chaetognatha)from three oceans:genetic diversity and evolution within an enigmatic phylum.PLoS ONE,5:e9949.

Johnson S B,Waren A and Vrijenhoek R C.2008.DNA barcoding of Lepetodrilus limpets reveals cryptic species.Journal of Shellfish Research,27:43-51.

Kerr K C R,Birks S M,Kalyakin M V and Red'kin Y A.2009.Filling the gap-COⅠ barcode resolution in eastern Palearctic birds.Frontiers in Zoology,6:29.

Kimura M.1980.A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide-sequences.Journal of Molecular Evolution,16:111-120.

Mailund T,Brodal G S,Fagerberg R,Pedersen C N S and Phillips D.2006.Recrafting the neighbor-joining method.BMC Bioinformatics,7:29 -36.

Meyer C P and Paulay G.2005.DNA barcoding:error rates based on comprehensive sampling.PLOS Biology,3:2229-2238.

Mukherjee S.2003.Classifying Microarray Data Using Support Vector Machines.A Practical Approach to Microarray Data A-nalysis.Boston:Kcuwer Academic.

Perruchet P and Peereman R.2004.The exploitation of distributional information in syllable processing.Journal of Neurolinguistics,17:97 -119.

Poole R W.1989.Noctuidae.Lepidopterorum Catalogues(New Series).New York:Leiden.

Ratnasinghan S and Hebert P D N.2007.BOLD:The barcode of life data system(www.barcodinglife.org).Molecular E-cology Notes,7:355 -364.

Remigio E A and Hebert P D N.2003.Testing the utility of partial COⅠsequences for phylogenetic estimates of gastropod relationships.Molecular Phylogenetics and Evolution,29:641-647.

Saitou N and Nei M.1987.The neighbor-joining method:a new method for reconstructing phylogenetic tree.Molecular Biology and Evolution,4:406-425.

Tamura K,Dudley J,Nei M and Kumar S.2007.MEGA 4:molecular evolutionary genetics analysis(MEGA)software version 4.0.Molecular Biology and Evolution,24:1596 -1599.

Tavares E S and Baker A J.2008.Single mitochondrial gene barcodes reliably identify sister-species in diverse clades of birds.BMC Evolutionary Biology,8:81.

Velez D R,White B C,Motsinger A A,Bush W S,Ritchie M D,Williams S M and Moore J H.2007.A balanced accuracy function for epistasis modeling in imbalanced datasets using multifactor dimensionality reduction.Genetic Epidemiology,31:306-315.

Walavalkar L.2003.Support vector learning for gender classification using audio and visual cues.International Journal of Pattern Recogniton and Artificial Intelligence,17:417 -439.

Walker H K,Hall W D and Harst J W.1990.Clinical Method.3rd edition.Boston:Butterworths.

Wiemers M and Fiedler K.2007.Does the DNA barcoding gap exist?—A case study in blue butterflies(Lepidoptera:Lycaenidae).Frontiers in Zoology,4(8):16.

Will K W and Rubinoff D.2004.Myth of the molecule:DNA barcodes for species cannot replace morphology for identification and classification.Cladistics,20:47 -55.

Zahiri R,Holloway J D,Kitching I J,Kaila L,Lafontaine J D,Mutanen M and Wahlberg N.2012.Molecular phylogenetics of Erebidae(Lepidoptera,Noctuoidea).Systematic Entomology,37:102-124.

Zahiri R,Kitching I J,Lafontaine J D,Mutanen M,Kaila L,Holloway J D and Wahlberg N.2010.A new molecular phylogeny offers hope for a stable family level classification of the Noctuoidea(Lepidoptera).Zoologica Scripta,40:158-173.

Zhao Q and Principe J C.2001.SVM for SAR ATR.IEEE Transactions on AES,37:643-653.

Zhang A B,Sikes D S,Muster C and Li S Q.2008.Inferring species membership using DNA sequences with back-propagation neural networks.Systematic Biology,57:202 -215.

Zhou X,Adamowicz S J,Jacobus L M,DeWalt R E and Hebert P D N.2009.Towards a comprehensive barcode library for arctic life—Ephemeroptera,Plecoptera,and Trichoptera of Church Manitoba,Canada.Frontiers in Zoology,6:30.

猜你喜欢

条形码夜蛾成功率
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
创意条形码
如何提高试管婴儿成功率
科学认知草地贪夜蛾 打赢防控攻坚战
草地贪夜蛾的识别与防控
草地贪夜蛾的识别及防控措施
从条形码到二维码
从条形码到二维码
如何提高试管婴儿成功率
条形码大变身