APP下载

一种用于“自顶向下” 质谱数据分析的软件及其在蛋白质光解离质谱中的应用

2019-09-19周敏石莹莹张凯林张先燚孔祥蕾

分析化学 2019年8期
关键词:位点质谱离子

周敏 石莹莹 张凯林 张先燚 孔祥蕾

摘要:随着完整蛋白质离子碎裂技术的发展及其在自顶向下(Top-down,TD)蛋白质组学中的运用,蛋白质裂解的碎片质谱可提供更加丰富的碎片信息,因此,开发新的算法用于碎片离子的自动分析,已经成为自顶向下蛋白质组学中非常重要的任务。本研究开发了一个应用于分析自顶向下质谱数据的软件(NanKaiTop-Down,NKTD),其主要特点是采用“由一到多”式的寻找同位素峰簇的方法,实现了对重叠谱峰的自动解析。算法对已识别离子进行数据后处理和分析的结果有利于研究蛋白质离子在不同碎裂技术下产生的碎片离子信息。利用此软件对泛素蛋白离子在红外多光子解离(IRMPD)和紫外光解离(UVPD)两种裂解方法下的数据进行分析,结果表明,泛素蛋白离子在UVPD方法下产生的碎片离子种类非常丰富,其裂解位点覆盖率也远优于IRMPD方法。更为重要的是,在自顶向下质谱学中,这两种裂解方式具有良好的互补性。

关键词:自顶向下;蛋白质;谱峰识别;红外多光子解离;紫外光解离

1引言

电喷雾电离(Electro-sprayionization,ESI)[1]和基质辅助激光解吸附电离(Matrix-assistedlaserdesorptionandionization,MALDI)[2]技术的发明使得生物质谱进入一个全新的时代,也使蛋白质组学研究得到了快速发展。在蛋白组学研究中,使用最为广泛的是“自底向上(Bottom-up,BU)”的策略[3,4],即将蛋白质复杂样品的酶切产物通过色谱进行分离后,再利用质谱并结合数据库搜索,实现肽段和蛋白质的鉴定。与BU策略互补的一项技术是“自顶向下(Top-down,TD)”策略,以及在此基础上发展起来的“自中向下(Middle-down,MD)”方法[5,6]。其中,自顶向下方法是直接将完整的蛋白质进行分离和离子化,然后在气相中利用串联质谱技术将其裂解,并通过数据库比对,实现蛋白质的鉴定以及翻译后修饰位点的鉴定。随着高分辨质谱技术及串联质谱技术的快速发展,以及TD方法的准确性和独特性,这种策略在近年逐渐成为蛋白质组学方法学研究的热点[7~16]。

自顶向下质谱技术现已在蛋白质鉴定中占有非常重要的地位。在此类工作中,通过算法自动解析质谱数据,进而实现蛋白质分子的鉴定,已经成为蛋白质组学研究中的热点。因此,许多研究人员和商业公司开发了许多优秀的算法和程序,如:ProSight[17,18]、MS-TopDown[19]、TopPIC[20]、MASHsuite[21]、MSpathFinder[22]、Ptop[23]、CUDA-TP[24]、SQID[25]、Sequest[26]、Mascot[27]、OMMSA[28]、ProVerB[29]、RT-PSM[30]等。这些算法多基于实验质谱与现有的数据库中的理论谱进行匹配,通过打分函数进行评判,将分值最高的、匹配度最好的理论谱对应的候选片段认定为该实验图谱对应的最佳结果。这些算法的实现,对蛋白质鉴定和分析起到了极大的促进作用,大大节省了相关科研工作者的时间和精力。

另一方面,在自顶向下的蛋白质组学中,为了更有效地实现蛋白质分子的裂解,研究者开发了多种蛋白质分子串联质谱的方法,如低能碰撞诱导解离(Collisioninduceddissociation,CID)[31]、电子捕获裂解(Electroncapturedissociation,ECD)[32,33]、电子转运裂解(Electrontransferdissociation,ETD)[34]、高能碰撞裂解(High-energydissociation,HCD)[35]、红外多光子解离(Infraredmultiphotondissociation,IRMPD)[36]、紫外光解离(Ultravioletphotodissociation,UVPD)等。这些质谱技术在“自顶向下”的蛋白质组学中的应用,使得蛋白质离子裂解后产生大量的、种类丰富的碎片离子。为了能够理解这些碎片离子种类、碎裂时的序列覆盖率以及其它信息(如气相中蛋白质离子的构象及构象变化),许多课题组研发了相应的算法和软件,以实现对这些碎片离子的鉴定和数据分析,如THRASH算法[37]、Decon2LS[38]、DeconMSn[39]、MS-Deconv[40]。其中,Horn等[37]開发的THRASH算法现已被广泛运用在很多软件中,成为目前主流的自顶向下质谱数据处理算法之一。该算法采用减法式谱峰发现的方法寻找可能的同位素峰。Jeon等[41]也对这一算法进行改进,使得其运行速度得到了提升。尽管如此,由于碎片离子的多样性以及普遍存在的谱峰重叠的情况,此类算法在重叠峰的处理中仍不够理想。在处理重叠峰的众多算法中,“同位素轮廓指纹比对”算法利用比例配分的方法能够较准确地解析出重叠峰,但其速度较慢;田志新课题组发明了一种生物质谱重叠同位素轮廓的解析方法,该方法以参与重叠的离子的理论同位素轮廓中无重叠的最高峰作为参考峰,对相应的实验同位素轮廓中每个同位素峰的实验强度进行归一化,因此该方法的计算量小、通量高、准确度高[42~46],但在处理离子同位素全部重叠的情况下,该算法的处理效果就会稍弱一些。另外,已有的程序中,对复杂碎片离子的数据分析仍不够充分,影响了对实验结果的充分解读。基于此,本研究开发了NanKaiTop-Down(NKTD)应用程序,有效地解析了质谱图中的重叠峰,并进一步实现数据的分析和挖掘。

2实验部分

2.1仪器与试剂

配有电喷雾离子源的7.0TIonSpec型傅里叶变换离子回旋共振(Fouriertransformioncyclotronresonance,FT-ICR)质谱仪(美国Varian公司);光学参量振荡(Opticalparametricoscillator,OPO)Firefly-IR型红外激光器(英国MSquared公司);波长为193nm的ExcimerLasersSeriesCL5300型准分子激光器(俄罗斯Optosystems公司);SSH-R型机械快门(日本Sigma-Koki公司)。

甲醇(色谱纯,百灵威科技有限公司);乙酸(98%,天津市光复精细化工研究所);牛泛素蛋白(Bovineubiquitin,98%,Sigma-Aldrich公司);实验用水为超纯水,由Milli-Q型超纯水系统(美国Millipore公司)制備。

2.2实验方法

2.2.1样品制备牛泛素蛋白未经过进一步提纯,采用水-甲醇-乙酸(49∶49∶2,V/V)溶液配制成1μmol/L牛泛素蛋白溶液。

2.2.2FT-ICR高分辨质谱将已经制备好的牛泛素蛋白样品溶液以120μL/h的速度注入进电喷雾离子源,并通过电喷雾电离产生带有不同电荷的牛泛素蛋白离子。FT-ICR质谱仪通过存储波表逆傅里叶变换(StoredwaveforminverseFouriertransform)的方法[47],将目标离子选定在质谱仪器的分析池中,再分别将OPO红外激光器产生的红外激光和准分子激光器产生波长为193nm的紫外激光引入到分析池中,并设定机械快门控制激光照射目标离子的时间为8s,记录光解离质谱。

3算法设计

NKTD程序基于MATLAB软件平台编写,质谱数据以ASCII数据格式(分别按离子的质荷比及相应的强度值)被程序读入。程序主要由4个模块组成,分别为:数据库建立、谱峰识别、谱峰匹配和数据分析。整个程序的流程如图1所示。

3.1数据库的建立

在用户输入目标蛋白质或多肽的氨基酸序列,以及离子所带的电荷范围之后,程序会首先读取氨基酸序列,依据用户所设定的离子电荷范围搭建此蛋白质碎裂产生的所有可能的a,b,c,x,y,z以及其它相关离子的分子式[48],再从这些离子的分子式中分别读取离子所含元素(如C,H,O,N,S等)的数目,最终将这些元素数目代入元素同位素质量分布数据库[49]中进行组合,建立离子同位素峰簇质量分布数据库。用户也可根据可能的翻译后修饰,或其它特殊要求自行对数据库进行相应的扩充。

3.2实验谱峰寻找

在THRASH算法中,对实验谱峰的搜寻是基于计算出较合理的谱峰信噪比[37],但这种方法的弊端是:若计算得到的信噪比过大,则会减少识别实验谱峰信号的数目,相反则会将部分噪声信号识别成实验谱峰信号。为了避免计算出不合理的信噪比,NKTD不采用计算谱峰信噪比的方法,而是采用计算实验谱峰的背景噪声,用户设定信噪比阈值的方法[50]:(1)以1m/z大小的窗口,每次移动0.5m/z步长,对输入的质谱数据进行扫描,并且在每个窗口中对数据求平均值;(2)每10个窗口(用户可定义)之间,平均值最小的窗口认定为噪声窗口;(3)将噪声窗口中的强度值绘制成直方图。为了消除谱峰信号或射频信号的高度对判断噪声峰值引起的干扰,当直方图中最小值小于最大值的5%时,该最大值的直方图被舍弃;再将最小值与次最大值比较,若小于次最大值的5%,则该次最大值被舍弃;依此处理,直至剔除所有可能含有谱峰信号或射频信号的直方图,再对余下的进行求均值,最终认定该均值为噪声。

以泛素蛋白在UVPD下m/z846.4~847.8区间内的实验碎片质谱峰(图2A)为例,在得到噪声值后,逐点扫描实验碎片质谱数据,当该数据点大于用户定义的信噪比值,则将该数据点输出,输出的数据点为谱峰的剖面式信号(图2B),随后程序会对剖面式信号值进行中心化,求出每个谱峰的峰值(图2C中黑色中心线所示)。

3.3谱峰匹配

为实现对实验中观察到的离子进行指认和分类,NKTD程序将实验谱图与数据库中的理论预测谱峰进行比对,对满足匹配要求的谱峰打分,再将分值高的理论谱峰选出,若满足阈值,则认定为对应的离子。其中打分函数的设定显得尤为重要,同时打分函数需要通过不断地修正才能给出更合理的置信水平。高分辨实验质谱数据中获得的是离子同位素分布信息,其包含离子的质荷比信息以及对应的强度信息。此算法从离子的质荷比信息出发,结合其强度信息,采用“由一到多”式的谱峰相减,再组合打分的方法,实现了实验中观察到谱峰与数据库中预期离子理论谱峰的匹配。此算法对重叠峰进行分析的具体过程如下及示意图(图3)所述:(1)NKTD对实验谱峰进行识别后,得到的是实验谱峰的峰值数据点,包含离子的质荷比信息(me)及强度信息(Ie)(图3A);(2)算法依次将实验谱峰中峰值数据点的质荷比(mei)与已经建立好的离子同位素质量分布数据库中最高丰度的单同位素峰的质荷比(mti)进行求差,得到di,若di的绝对值满足已经设定好的阈值D(默认设置为0.02,但用户可改),则将该实验数据点认定为“一”,再分别向该实验数据点的左右两个方向寻找该离子的同位素峰簇,寻找到的离子同位素峰簇则认定为“多”,如图3B中红色的中心线所示(NKTD匹配到了理论值为T1离子):

3.4数据处理

基于前3个模块的数据预处理,软件对已经识别出的离子按照要求进行分类和相关的数据分析。主要内容有:离子归类、裂解位点分析、质子化位点分析等。以下将以\[Ubiquitin+10H]10+的红外光解离和紫外光解离质谱为例,对碎片离子的种类、裂解位点及质子化位点进行数据分析。

3.5软件操作界面

NKTD1.0版本的用户操作界面基于MATLAB软件进行GUI编程开发,其操作界面如图4所示,主要分为菜单栏、参数设置区、功能按钮区、显示区及作图区。由于该软件目前只支持在正离子模式下對已知氨基酸序列的蛋白质(或多肽)在不同裂解方式下产生碎片离子的质谱图进行解析,因此,在文后支持信息中以解析带有11价正电荷的泛素蛋白离子在波长为193nm的紫外激光照射条件下产生的碎片离子质谱图为例,对软件的操作步骤及功能进行详细介绍。

4结果与讨论

蛋白质光解离技术在近年来得到了快速的发展。早期的自顶向下蛋白质光解离主要使用的是CO2激光器[51],其裂解产生的碎片离子种类与使用CAD裂解方法产生的离子种类基本一致,均为b,y离子,这一事实与能量在蛋白质离子中吸收再分配相一致[52]。Brodbelt的研究所用193nm的紫外激光器致使蛋白质离子发生裂解,且观察到更为丰富的碎片离子[53,54]。

4.1碎片质谱解析

本研究利用红外多光子解离(IRMPD)[55]、紫外光解离(UVPD)的蛋白质碎裂技术,分别对\[Ubiquitin+10H]10+进行了实验,并通过此软件对其碎片离子质谱进行解析,得到的碎片离子分布如图5所示,IRMPD产生的碎片离子种类较UVPD少。为了进一步研究IRMPD与UVPD产生碎片离子种类的区别,利用NKTD软件对两张碎片离子质谱图进行了详细的数据分析。

4.2碎片质谱数据分析

两种方法所产生的碎片离子的种类分布如图6所示,IRMPD产生的碎片离子种类为b和y离子,与广泛使用的CAD方法一致。但其中b和y离子的分布并不均等,分别占36%和64%。即观察到的y离子种类比b离子种类高约70%。另一方面,UVPD产生的碎片离子种类丰富且整体分布较均匀。其中a与x离子的分布非常接近,分别为19%和20%。c与z离子的分布也有类似的趋势,分别为16%和14%。但b与y离子分布差距稍大,分别为14%和17%。

NKTD程序按照离子种类在不同氨基酸序列位点对其所带电荷数目进行数据分析,从而得到如电子版文后支持信息图S6所示的离子在不同位点所带质子数目的信息。此信息有助于理解气相蛋白质正离子的质子分布以及所映射出的结构信息[48]。更为重要的是,对碎片离子的进一步分析可以直观地得到目标蛋白离子分别在IRMPD和UVPD条件下发生断裂的氨基酸序列位点。如电子版文后支持信息图S7所示,在IRMPD下泛素蛋白发生断裂的氨基酸序列位点明显比在UVPD下发生的断裂位点少,对应的10个断裂位点分别为10、18、24、26、27、28、37、39、52、58。碎片的序列覆盖率仅为13%,与CAD的结果基本一致。而利用UVPD技术则可更好地实现“自顶向下”的蛋白质碎裂,序列覆盖率>76%。深入比较可以发现,UVPD碎片谱中发生序列缺失的第10、24、26、27、58号位点,正是IRMPD技术中的裂解位点。此结果揭示了IRMPD或CAD技术与UVPD技术在蛋白质分子裂解过程的差别以及互补性,为设计更有效的自顶向下的蛋白质组学的实验手段提供了新思路。

5结论

为满足基于自顶向下技术的蛋白质组学研究的需求,本研究开发了一个自动分析和处理已知序列蛋白质分子的碎裂质谱数据的程序NKTD。在对实验谱峰进行识别的过程中,NKTD采用了“由一到多”的谱峰相减再组合打分的方法,较好地实现了重叠谱峰的自动解析,减少了人工干预。利用NKTD程序进一步对泛素蛋白离子在IRMPD(2990nm)和UVPD(193nm)实验中所获得的光解离碎片质谱进行了数据分析。结果表明,IRMPD方法中产生的主要是b,y系列的碎片离子,而UVPD方法产生的碎片离子种类非常丰富且整体分布较为均匀,裂解位点覆盖率也远优于IRMPD的结果。两种方法在裂解方式上的不同使得它们具有非常好的互补性。NKTD程序的数据分析能够更直观地展示出完整蛋白质离子在不同碎裂方法下的裂解情况,有利于进一步理解相关的质谱数据。另一方面,NKTD程序的算法和数据分析还需进一步改进,并在蛋白质翻译后修饰、氢氘交换位点、氧化位点确认等实际数据分析中发挥作用。

References

1FennJB,MannM,MengCK,WongSF,WhitehouseCM.Science,1989,246(4926):64-71

2KarasM,BachmannD,BahrU,HillenkampF.Int.J.MassSpectrom.IonProcesses,1987,78(87):53-68

3WashburnMP,WoltersD,YatesJR.Nat.Biotechnol.,2001,19(3):242-247

4AebersoldR,MannM.Nature,2003,422(6928):198-207

5XuP,PengJ.Anal.Chem.,2008,80(9):3438-3444

6FornelliL,AyoubD,AizikovK,BeckA,TsybinYO.Anal.Chem.,2014,86(6):3005-3012

7McLaffertyFW.Acc.Chem.Res.,1994,27(11):379-386

8ZubarevRA.KelleherNL.McLaffertyF.J.Am.Chem.Soc.,1998,13(120):3265-3266

9KelleherNL.LinHY.ValaskovicGA.AaserudDJ.FridrikssonEK.McLaffertyFW.J.Am.Chem.Soc.,1999,121(121):806-812

10KelleherNL.Anal.Chem.,2004,76(11):196A-203A

11BogdanovB,SmithRD.Mass.Spectrom.Rev.,2005,24(2):168-200

12ChaitBT.Science,2006,314(5796):65-66

13SiutiN,KelleherNL.Nat.Methods,2007,4(10):817-821

14WhiteleggeJ.ExpertRev.Proteomics,2013,10(2):127-129

15ArnaudCH.Chem.Eng.News,2013,91(20):11-17

16SUNRui-Xiang,LUOLan,CHIHao,LIUChao,HESi-Min.Prog.Biochem.Biophys.,2015,42(2):101-114

孫瑞祥,罗兰,迟浩,刘超,贺思敏.生物化学与生物物理进展,2015,42(2):101-114

17LeducRD,TaylorGK,KimYB,JanuszykTE,BynumLH,SolaJV,GaravelliJS,KelleherNL.NucleicAcidsRes.,2004,32(Suppl2):340-345

18ZamdborgL,LeducRD,GlowaczKJ,KimY,ViswanathanV,SpauldingIT,EarlyBP,BluhmEJ,BabaiS,KelleherNL.NucleicAcidsRes.,2007,35(Suppl2):701-706

19FrankAM,PesaventoJJ,MizzenCA,KelleherNL,PevznerPA.Anal.Chem.,2008,80(7):2499-2505

20KouQ,XunL,LiuX.Bioinformatics,2016,32(22):3495-3497

21CaiW,GunerH,GregorichZR,ChenAJ,GeY.Mol.Cell.Proteomics,2015,15(2):703-714

22ParkJ,PiehowskiPD,WilkinsC,ZhouM,MendozaJ,FujimotoGM,GibbonsBC,ShawJB,ShenY,ShuklaAK,MooreRJ,LiuT,PetyukVA,Toli'-N,Paa-Tolic'L,SmithRD,PayneSH,KimS.Nat.Methods,2017,14:909-914

23SunRX,LuoL,WuL,WangRM,ZengWF,ChiH,LiuC,HeSM.Anal.Chem.,2016,88(6):3082-3090

24DUANQiong,TIANBo,CHENZheng,WANGJie,HEZeng-You.JournalofComputerResearchandDevelopment,2018,55(7):1525-1538

段琼,田博,陈征,王洁,何增有.计算机研究与发展,2018,55(7):1525-1538

25LiW,JiL,GoyaJ,TanG,WysockiVH.J.ProteomeRes.,2011,10(4):1593-1602

26EngJK,MccormackAL,YatesJR.J.Am.Soc.MassSpectrom.,1994,5(11):976-989

27CottrellJS,LondonU.Electrophoresis,1999,20(18):3551-3567

28GeerLY,MarkeySP,KowalakJA,WagnerL,XuM,MaynardDM,YangX,ShiW,BryantSH.J.ProteomeRes.,2004,3(5):958-964

29XiaoCL,ChenXZ,DuYL,SunX,ZhangG,HeY.J.ProteomeRes.,2013,12(1):328-335

30WuFX,GagnéP,DroitA,PoirierGG.RapidCommun.MassSpectrom.,2006,20(8):1199-1208

31TangXJ,ThibaultP,BoydRK.Anal.Chem.,1993,65(20):2824-2834

32ZubarevRA,KelleherNL,McLaffertyFW.J.Am.Chem.Soc.,1998,120(13):3265-3266

33ZubarevRA,HornDM,FridrikssonEK,KelleherNL,KrugerNA,LewisMA,CarpenterBK,McLaffertyFW.Anal.Chem.,2000,72(3):563-573

34SykaJEP,CoonJJ,SchroederMJ,ShabanowitzJ,HuntDF.Proc.Natl.Acad.Sci.USA,2004,101(26):9528-9533

35BiemannK.MethodsEnzymol.,1990,193(193):455-479

36LittleDP,SpeirJP,SenkoMW,O'ConnorPB,McLaffertyFW.Anal.Chem.,1994,66(18):2809-2815

37HornDM,ZubarevRA,McLaffertyFW.J.Am.Soc.MassSpectrom.,2000,11(4):320-332

38JaitlyN,MayampurathA,LittlefeldK,AdkinsJN,AndersonGA,SmithRD.BMCBioinf.,2009,10(1):87-101

39MayampurathAM,JaitlyN,PurvineSO,MonroeME,AuberryKJ,AdkinsJN,SmithRD.Bioinformatics,2008,24(7):1021-1023

40LiuX,InbarY,DorresteinPC,WynneC,PevznerPA.Mol.Cell.Proteomics,2010,9(12):2772-2782

41JeonSH,ChangHS,HurM,KwonKH,OhHB.Bull.KoreanChem.Soc.,2009,30(9):2061-2065

42XiaoK,YuF,FangH,XueB,LiuY,TianZ.Sci.Rep.,2015,5:14755

43XIAOKai-Jie,TIANZhi-Xin.ChineseJournalofChromatography,2016,34(12):1255-1263

肖開捷,田志新.色谱,2016,34(12):1255-1263

44XIAOKai-Jie,TIANZhi-Xin.ChemistryofLife,2017,(1):19-24

肖开捷,田志新.生命的化学,2017,(1):19-24

45TIANZhi-Xin.ChinaPatent,201410593905,2017

田志新.中国专利,201410593905,2017

46LiL,TianZ.RapidCommun.MassSpectrom.,2013,27(11):1267-1277

47CodyRB,HeinRE,GoodmanSD,MarshallAG.RapidCommun.MassSpectrom.,1987,1(6):99-102

48ChuIK,SiuCK,LauJKC,TangWK,MuX,LaiCK,GuoX,WangX,LiN,YaoZ,XiaY,KongXL,OhHB,RyzhovV,TurecˇekF,HopkinsonAC,SiuKWM.Int.J.MassSpectrom.,2015,390:24-27

49SniderRK.J.Am.Soc.MassSpectrom.,2007,18(8):1511-1515

50KaurP,O'ConnorPB.J.Am.Soc.MassSpectrom.,2006,17(3):459-468

51LittleDP,SpeirJP,SenkoMW,O'ConnorPB,MclaffertyFW.Anal.Chem.,1994,66(18):2809-2815

52GriffinLL,McAdooDJ.J.Am.Soc.MassSpectrom.,1993,4:11-15

53MorrisonLJ,BrodbeltJS.Analyst,2015,141(1):166-176

54HoldenDD,McgeeWM,BrodbeltJS.Anal.Chem.,2016,88(1):1008-1016

55YangYJ,LiaoGH,KongXL.Sci.Rep.,2017,7(1):16592

猜你喜欢

位点质谱离子
相信科学!DNA追凶是如何实现的?
DNA甲基化跨代遗传取得新进展(2020.6.11 中国科学院)
鸡BCO2基因功能性单核苷酸多态性的生物 信息分析
原位电离小型便携式质谱的研究进展
一种改进的多聚腺苷酸化位点提取方法
顶空—固相微萃取—全二维气相色谱—飞行时间质谱测定水中短链氯化石蜡
电感耦合等离子体质谱用于多组分免疫分析研究进展
类固醇激素的低温等离子体质谱研究
在细节处生出智慧之花
小议离子的检验与共存