APP下载

基于蛋白质组学技术的新型冠状病毒肺炎研究进展*

2022-10-25宫鹏云胡鸿珂张永彪

生物化学与生物物理进展 2022年10期
关键词:组学标志物蛋白质

刘 响 宫鹏云 汤 敏 胡鸿珂 张永彪** 刘 超**

(1)北京航空航天大学医学科学与工程学院,北京 100191;2)北京航空航天大学生物与医学工程学院,北京 100191)

2019年12 月,一种新型冠状病毒(后命名为严重急性呼吸综合征冠状病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2))引起的肺炎疫情爆发,世界卫生组织(World Health Organization,WHO)将 该 疾 病 命 名 为新型冠状病毒肺炎(coronavirus disease 2019,COVID-19),简称“新冠肺炎”,并于2020年3月宣布COVID-19成为全球性大流行病[1]。截至2022年3月18日,全球已累计报告超4.6亿名确诊病例,逾608万名患者死亡,目前仍在持续扩散中[2]。COVID-19现在是影响全球公共健康的最具破坏性的流行病之一,引发国内外广泛关注。为了找到遏制COVID-19大流行的解决方案,全球研究工作已迅速动员起来,在基础研究、诊断、治疗和药物研发等方面开展了一系列研究并取得了重要进展。

蛋白质组学(proteomics)是1994年由Marc R.Wikins首先提出,是以所有基因表达的全部蛋白质为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学[3-4]。蛋白质组学技术是当前解决医学和生物学中诸多问题的重要工具之一,已被广泛应用于传染性疾病的研究当中。通过对病原体和感染后的宿主细胞、组织、体液等进行蛋白质组学研究,同时结合免疫学进行分析,可为传染性疾病的诊断、治疗、预防等方面的研究提供新的策略和依据。COVID-19疫情爆发以来,蛋白质组学技术已被广泛应用于COVID-19的研究中,并在筛选生物标志物、研究病毒感染的分子机制和研发预防和治疗药物等3个方面取得较大进展。

本文首先介绍了SARS-CoV-2的基因组结构和病毒感染过程,总结了目前常用的基于质谱的蛋白质组学研究技术,并对基于质谱的蛋白质组学技术在COVID-19生物标志物研究、感染机制研究和药物治疗靶标研究中的应用进展进行了梳理、总结和展望,以期对COVID-19的防控和治疗提供有力的支撑。

1 SARS-CoV-2的基因组结构和病毒感染过程

COVID-19是 由SARS-CoV-2引 起 的 疾 病[5]。经基因组测序,SARS-CoV-2为有包膜的单股正链RNA病毒,其基因组序列与严重急性呼吸综合征冠 状 病 毒(severe acute respiratory syndrome coronavirus,SARS-CoV)序列相似度约为80%,与中东呼吸综合征冠状病毒(Middle East respiratory syndrome coronavirus,MERS-CoV)序列相似度约为50%[6-7],属于β冠状病毒属,是一种新型的冠状病毒[5,8]。

SARS-CoV-2的基因组大小约29 900个碱基,包含14个主要的开放阅读框(open reading frame,ORF),编码27种蛋白质(图1),位于基因组5'端的ORF1ab和ORF1a基因分别编码2个多聚蛋白pp1ab和pp1a,多聚蛋白pp1ab和pp1a经剪切可产生16种非结构蛋白(non-structural proteins,NSPs),包括nsp1~16。基因组的3'端编码4种主要的结构蛋白和8种辅助蛋白,其中刺突蛋白(spike protein,S蛋白)、包膜蛋白(envelope protein,E蛋白)、膜蛋白 (membrane glycoprotein,M蛋白)、核衣壳蛋白(nucleocapsid protein,N蛋白)是结构蛋白;ORF3a、3b、p6、7a、7b、8b、9b和ORF14是辅助蛋白[7,9]。这些蛋白质是SARS-CoV-2感染宿主的物质基础。

SARS-CoV-2感染宿主细胞是通过病毒表面的S蛋白与宿主细胞表面的跨膜蛋白血管紧张素转化酶2(angiotensin converting enzyme 2,ACE2)发生相互作用所介导的[7,10]。S蛋白由2个糖基化的亚基S1和S2组成,其中S1亚基含有受体结合域(receptor binding domain,RBD),负责识别细胞的受体;S2亚基含有膜融合过程所需的基本元件,催化病毒和细胞膜的融合[10]。ACE2是一种细胞表面肽酶,可水解血管紧张素II,ACE2是目前已知最主要的SARS-CoV-2受体,在大多数器官中均有表达,特别是在肺和小肠上皮中高表达[11]。病毒感染宿主细胞的过程(图2)包括:①病毒的S蛋白与宿主细胞表面受体结合后,通过两种方式进入细胞,一种是被质膜上的跨膜丝氨酸蛋白酶2(TMPRSS2)切割S蛋白,激活病毒膜与宿主膜融合,另一种是被组织蛋白酶L(CTSL)切割和激活S蛋白,介导SARS-CoV-2通过内吞进入细胞,基因组RNA释放到细胞质中。②宿主核醣体结合到病毒RNA,翻译pp1a、pp1ab多聚蛋白。③产生的多聚蛋白pp1a和pp1ab被翻译后加工成单个非结构 蛋 白(nsp1~16)。④RNA依 赖RNA聚 合 酶(RNA-dependent RNA polymerase,RdRp)与nsp7、nsp8等因子形成转录复制复合体(replication and transcription complex,RTC)复制病毒RNA,负链RNA可用于翻译各种结构蛋白,如E、N、S和M蛋白。⑤复制后的RNA由N蛋白包裹与M蛋白、E蛋白和S蛋白组装成完整的病毒颗粒。⑥病毒通过高尔基体或溶酶体释出感染其他细胞[12-15]。

ACE2广泛分布于人体的多个组织,包括肺、小肠、心脏、肝脏、肾脏、胰腺、睾丸和神经组织等[15-19]。因此SARS-CoV-2能够侵染人体的多个组织,对人体造成严重伤害,导致严重的呼吸系统问题、免疫功能障碍、神经系统损伤以及心血管、肺、胃肠道、肾脏功能障碍和多器官衰竭等[16-22]。

2 基于质谱的蛋白质组学技术

生物质谱技术是蛋白质组学研究中最重要的分析技术。目前常用的质谱包括两种:基质辅助激光解吸电离-飞行时间质谱(matrix-assisted laser desorption ionization time-of-flight mass spectrometry,MALDI-TOF MS)和液相色谱-电喷雾质谱联用(liquid chromatography-electrospray ionization mass spectrometry,LC-ESI-MS)[23]。两者都可以用于蛋白质分析鉴定,但是电离原理不同,应用方向各有特点。MALDI-TOF MS常用于简单样品如纯化蛋白质的分析鉴定,其特点是速度快、灵敏度高,常用于蛋白质、多肽、核酸等的分析检测,以及微生物菌种鉴定和质谱成像等,在SARS-CoV-2病毒颗粒的鉴定和生物标志物研究中发挥重要作用;LC-ESI-MS主要用于来自组织、细胞等复杂蛋白质与多肽样品的分析检测,其特点是灵敏度高、检测范围广,在COVID-19的生物标志物、发病机制和药物靶标研究中都发挥了重要的作用。

2.1 MALDI-TOF MS技术

MALDI-TOF MS技术的原理是将蛋白质、多肽等样品溶液与芳香族有机酸等小分子基质溶液混合后点在金属靶盘上,待溶剂挥发后形成共结晶,用激光照射晶体时,基质分子吸收激光能量、蒸发和离子化,并带着样品分子解吸附进入气相,基质-样品分子之间发生电荷转移使样品分子电离,采用飞行时间质量分析器检测带电荷的分析物,从而获得样品的质荷比(m/z)信息。MALDI-TOF MS一般用于蛋白质、多肽、核酸、脂质和寡糖的分子质量测定、蛋白质的肽质量指纹图谱分析与快速鉴定。MALDI-TOF/TOF MS可得到MS/MS谱图,可以得到肽段氨基酸组成信息。

MALDI-TOF MS常用于微生物菌种快速鉴定。每一种微生物都有其特征的蛋白质指纹图谱,通过MALDI-TOF MS分析获得微生物菌种核糖体蛋白指纹图谱,与已知微生物菌种蛋白质指纹图谱数据库比对分析后,实现微生物菌种的快速鉴定。MALDI-TOF MS数据库中菌株种类丰富,来源广泛,在临床上常用于常见致病菌检测。基于MALDI-TOF MS的蛋白质组学及多肽组学技术也成为SARS-CoV-2快速检测的潜在技术,已有研究报道利用MALDI-TOF MS技术鉴定鼻咽拭子中的SARS-CoV-2病毒蛋白,检测准确度可达到93.9%[24-25],这些研究揭示了MALDI-TOF MS技术的临床诊断应用价值。

2.2 LC-ESI-MS技术

目前蛋白质组学研究主要使用LC-ESI-MS联用技术,其原理是:样品经色谱柱分离后,经毛细管喷头流出时,在千伏级高压电场的作用下形成带电小液滴;随着液滴的溶剂蒸发,液滴表面离子密度增大,当库伦斥力和液滴表面张力极限值相等时发生库伦爆炸,形成更小的带电液滴;然后在电场作用下重复蒸发、分裂的过程,直至形成气相离子进入质量分析器被分离检测。该方法的优点是可以实现从液态到气态分子的转变,产生的离子可以带有一个或多个电荷,这种多电荷离子的产生大大扩展了普通质谱仪能分析的质量范围,使质谱仪可以分析分子质量为几十万道尔顿的蛋白质分子[23,26]。因此,LC-ESI-MS技术在蛋白质组学研究中应用最为广泛,适用于蛋白质质谱鉴定、蛋白质组定量分析、蛋白质翻译后修饰鉴定和蛋白质相互作用研究等。

目前基于LC-ESI-MS的蛋白质组学技术主要采用3种采集方式:数据依赖性采集(data dependent acquisition,DDA)、数据非依赖性采集(data independent acquisition,DIA)和靶向数据采集[27]。

2.2.1 数据依赖性采集(DDA)技术

DDA技术的原理是利用一级全扫描检测肽段母离子,然后按照母离子的信号强度排序,将强度较高的一系列(topN)母离子由强到弱依次进行选择、碎裂和检测二级碎片离子。同时,质谱的动态排除、动态背景扣除、价态排除等技术,使DDA尽可能多地采集有效母离子的二级谱图,实现鉴定结果最大化[28]。DDA技术在SARS-CoV-2感染后的病毒蛋白质鉴定、蛋白质组定量、蛋白质翻译后修饰(如S蛋白的糖基化以及蛋白质组的磷酸化等)鉴定和蛋白质相互作用研究中发挥重要作用。基于DDA的同位素标记定量是目前应用最广泛的蛋白质组学定量技术,其中使用最多的同位素标记试 剂 是iTRAQ(isobaric tags for relative and absolute quantitation)和TMT(tandem mass tags)。标记定量的主要策略是向每组多肽样品中引入不同的稳定同位素标记的小分子,通过同位素标记后所产生的质量差来识别肽段的来源。标记定量方法将不同组样本混匀后同时进行质谱检测,可以避免样品前处理所带来的定量误差[29]。目前标记定量最多可实现16标同时定量,特别适用于采用多种处理方式或来自多个处理时间的COVID-19样本的差异蛋白质组分析。

2.2.2 数据非依赖性采集(DIA)技术

DIA技术的原理是首先将质谱扫描的整个一级质量范围根据离子密度分割为若干窗口,每个窗口依次选择、碎裂、扫描,DIA能够获得每个窗口范围内所有母离子的全部碎片离子信息,循环时间固定,同时数据可以回溯,有效解决了DDA技术存在的随机性和低丰度离子缺失的问题。但是DIA模式产生的碎片离子谱图过于复杂,丢失了母离子与碎片离子的对应关系,因此高度复杂的混合二级谱图对肽段和蛋白质的正确解析提出了挑战。为了减少肽段共流出问题,降低DIA谱图的复杂度,一些具有革命性突破的DIA策略也相继被开发。如diaPASEF技术[30]通过离子淌度提供额外一个维度的分离,使DIA数据采集时在不牺牲窗口循环速度的同时,降低谱图复杂度和提高离子利用率,带来4D-蛋白质组学在鉴定深度、检测周期、定量准确性等性能的全面提升。Scanning-SWATH技术[31]利用四级杆的连续扫描功能,通过设定更小的质量隔离窗口和超高的扫描速度,提供更好的谱图专属性和灵敏度,提高定性、定量的准确度。综上,DIA技术是一种高通量的蛋白质组学研究手段,可应用于COVID-19大样本量高通量差异蛋白质组学研究和翻译后修饰位点分析。

2.2.3 靶向数据采集技术

靶向数据采集技术针对目标蛋白/肽段离子进行靶向监测和采集,主要采集方式包括基于三重四级杆质谱仪的多反应监测(multiple reaction monitoring,MRM)和基于高分辨质谱仪的平行反应 监 测(parallel reaction monitoring,PRM)。MRM技术选择目标肽段的特定母离子和子离子对进行靶向质谱分析,最大限度排除干扰离子的影响,显著提高了目标肽段的信噪比,常用于高通量靶向蛋白质定量。该技术具有灵敏度高、准确性好、特异性强的优点,被誉为质谱定量的“金标准”,特别适用于蛋白质标志物的高通量验证[32]。PRM是MRM的一种衍生技术,是基于高分辨、高精度质谱进行靶向定量,PRM选择目标肽段的特定母离子碎裂,对母离子得到的所有子离子进行全扫描。PRM基于高分辨质谱,精度更高、抗背景干扰能力更强[33-34]。在应用方面,MRM/PRM技术可替代传统的Western blot技术,能够实现在大规模生物样本中进行高通量的目标蛋白质验证,提高实验效率。在COVID-19研究中,MRM和PRM技术常用于发现的潜在生物标志物和药物靶标的验证。

3 蛋白质组学在COVID-19研究中的应用

基于质谱的蛋白质组学技术进行COVID-19研究的工作流程如图3所示,通过对病原体和感染后的宿主细胞、组织、体液等进行蛋白质组学研究,可以快速全面的筛选到重要的目标蛋白,并结合生物信息学分析、蛋白质相互作用分析等,为揭示COVID-19相关的生物标志物、研究分子机制、识别潜在药物靶点提供了一种有效的策略。

3.1 面向精准诊断的生物标志物研究

生物标志物是指一种可客观检测和评价的指标性物质,作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子[35]。生物标志物的发现对于疾病的早期诊断、治疗监测、疾病分级以及预后评估等领域具有重要的价值。随着质谱技术的进步以及生物信息学与统计学算法的发展,运用蛋白质组学方法寻找和发现有价值的生物标志物是目前研究的一个热点。其中鼻咽拭子、唾液、血液和尿液等体液样本具有低侵入性、易于获取、易于采集和处理、成本低等优点,成为人类疾病标志物研究的最佳样品来源[36]。

3.1.1 鼻咽拭子检测和病毒颗粒标志物

鼻咽部位是SARS-CoV-2发生感染和免疫反应的“第一战场”,因此,鼻咽拭子、唾液样本等常用于进行病毒颗粒的检测和诊断标志物研究。病毒颗粒是由病毒的结构蛋白(S蛋白、M蛋白、E蛋白、N蛋白)等以及遗传物质RNA组成。采用蛋白质组学技术对SARS-CoV-2进行研究,可以获得病毒颗粒的蛋白质组成及其修饰信息,从而发现特征性蛋白和特征多肽,用于病毒检测和疾病的早期诊断(表1)。

基于MALDI-TOF MS的蛋白质组学技术用于SARS-CoV-2快速检测显示了较好的准确度。Nachtigall等[24]采用MALDI-TOF MS技术结合机器学习的方法对362份鼻拭子样本(211份SARSCoV-2阳性样本和151份阴性样本)进行检测。研究发现,支持向量机模型(support vector machines,SVM)分析得到了最高的准确率(93.9%),阳性样本的误判率为7%,阴性样本的误判率为5%。结果表明,MALDI-TOF MS和机器学习分析可用于检测鼻拭子样本中的SARS-CoV-2。Iles等[25]采用MALDI-TOF MS进行SARS-CoV-2病毒蛋白检测,结果显示,在假病毒、唾液和漱口水样本中均能检出S蛋白的S1和S2b片段,其中S1片段的检测率和特异性接近100%。该方法取样容易、样品处理简单、分析速度快、准确率高,这些特点揭示了MALDI-TOF MS技术的临床诊断应用价值。

高通量DDA/DIA技术结合PRM/MRM靶向定量的策略发现多个特征多肽可作为SARS-CoV-2病毒颗粒的检测标志物。Gouveia等[37]采用DDA技术鉴定到101条来自SARS-CoV-2的特征肽段,通过排除与其他物种有交叉和有变异的多肽,最终选择S蛋 白 的3个 特 征 肽(FQTLLALHR、HTPINLVR、LQSLQTYVTQQLIR)和M蛋白的1个特征肽(VAGDSGFAAYSR)作为最佳特征肽段可用于SARS-CoV-2感染的检测。Bezstarosti等[38]通过DDA技术鉴定到9个SARS-CoV-2病毒蛋白;通过PRM靶向定量技术在临床病人鼻咽拭子和痰液样本中定量到4个特征肽段:3个来自N蛋白(GFYAEGSR、ADETQALPQR、AYNVTQAFGR),1个来自M蛋白的特征肽段可应用于SARS-CoV-2感染的检测。Cazares等[39]建立了基于PRM技术检测SARS-CoV-2病毒S蛋白和N蛋白的检测方法,S蛋白的特征肽(FQTLLALHR)、N蛋白的特征肽(DQVILLNK)可用于病毒检测。Cardozo等[40]采用DDA技术结合PRM技术的策略建立高通量SARS-CoV-2临床质谱检测方法,可直接从鼻咽和口咽拭子中检测SARS-CoV-2 N蛋白的肽段,通过在985例临床样本中对该方法进行定性和定量验证,准确度>87%,特异性>95%。以上结果揭示了DDA/DIA技术结合PRM/MRM靶向定量的策略具有高通量、高灵敏度、高准确度的特点,显示了MRM/PRM技术的临床诊断应用价值。

综合以上研究结果,目前用于鼻咽拭子检测的病毒颗粒标志物主要来源于SARS-CoV-2的结构蛋白N蛋白、M蛋白和S蛋白。有以下特征肽段可作为SARS-CoV-2感染诊断的标志序列:N蛋白的特征 肽 段GFYAEGSR、RGPEQTQGNFGDQELIR、ADETQALPQR、DQVILLNK;M蛋白的特征肽段EITVATSR、VAGDSGFAAYSR;S蛋白的S1片段和特征肽段QIAPGQTGK、FQTLLALHR、HTPINLVR、LQSLQTYVTQQLIR。这些多肽序列有望应用于SARS-CoV-2感染的临床筛查和病毒检测。

Table 1 Application of proteomics in the study of SARS-CoV-2 nasopharyngeal swab test and viral particle biomarkers表1蛋白质组学在SARS-CoV-2鼻咽拭子检测和病毒颗粒标志物研究中的应用

3.1.2 血浆/血清生物标志物

血液是临床检测中最常用的样本。血液由血浆和血细胞组成,血浆是血液中加入抗凝剂分离后的上清液;血清为未加入抗凝剂,经血液凝固后析出或离心后上层的液体,血清与血浆的主要区别是血清中不含纤维蛋白原,血浆和血清蛋白质表达的变化都可反映人体生理或病理状态,可用于疾病诊断、早期筛查以及预后评估等领域。通过对比COVID-19患者和健康人的血清/血浆蛋白质含量差别确定差异表达蛋白质,并分析相关的差异蛋白参与的分子通路和生物学功能(表2)。这些差异蛋白可作为诊断疾病和监测疾病进程的标志物,可以预测疾病的易感性和临床结局。

基于TMT标记定量的蛋白质组学研究发现多个潜在的不同疾病进程的COVID-19血浆/血清生物标志物。Shen等[41]采用TMT标记定量技术进行COVID-19患者血清的蛋白质组学和代谢组学表征,利用机器学习模型筛选到22个重要的蛋白质和7个代谢物,可用于进行严重COVID-19患者的预测和分类。这些差异化合物介导的病理生理途径包括免疫或炎症反应、血小板脱颗粒、凝血和代谢途径,其中最显著上调的是急性期蛋白,包括SAA1、SAA2、SAA4、CRP、SERPINA3、SAP/APCS等。Yan等[42]结合蛋白质组学、代谢组学分析技术和患者临床生化检测指标发现,血清乳酸脱氢酶(LDH)水平与COVID-19的严重程度有关,血清LDH水平升高可能是缺氧和炎症引起的组织损伤的结果。Shu等[43]采用TMT标记定量技术进行COVID-19血浆生物标志物研究,通过机器学习方法筛选了11个宿主蛋白可组合作为不同疾病进程的生物标志物,其中ORM1/AGP1、ORM2、FETUB和CETP可用于鉴别COVID-19患者和健康对照;CETP、S100A9和CRP可用于预测COVID-19重症患者是否有致命的结局;AZGP1、ORM2和CFI可用于预测轻症到重症的临床结局;SERPINA3/ACT、LCP1/LPL和PI16的生物标志物组合可用于预测康复。

基于DIA技术的蛋白质组学研究发现,多个潜在的血浆/血清生物标志物,可用于进行严重COVID-19患者的预测和分类。Messner等[44]基于DIA技术筛选到27种差异表达的潜在生物标志物可用于进行严重COVID-19患者的预测和分类,其中补体系统蛋白(C1R、C1S、C8A、CFB、CFI、CFH)、急性反应期蛋白(CRP、SAA1、SAA2、HP)、白介素-6信号通路因子(ITIH4、LRG1、LBP)随疾病程度增加而上调,而载脂蛋白(APOA1、APOC1)、ALB、GSN、TF随疾病程度增加而下调。Geyer等[45]应用基于diaPASEF的4D-蛋白质组学技术检测COVID-19患者血清的54 d纵向时间表达变化,结果显示先天免疫系统的蛋白质如CRP、SAA1、CD14、LBP和LGALS3BP在感染过程的早期下降,25 d后又逐渐升高;凝血调节剂(APOH、FN1、HRG、KNG1、PLG)和脂质稳态相关蛋白(APOA1、APOC1、APOC2、APOC3、PON1)在疾病过程中逐渐升高。其中促炎急性期蛋白ITIH4在死亡病人取样第1天就显著升高,其可能会成为预测死亡风险的生物标志物。Vollmy等[46]采用基于DIA技术的蛋白质组学方法筛选到9个蛋白质生物标志物组合(HRG、FETUB、ITIH1、ITIH2、HPR、SERPINA3、LCAT、IGFALS、IGFBP3)用于死亡风险评估和预测。Chen等[47]结合转录组学、蛋白质组学和代谢组学进行血浆生物标志物分析,发现HGFAC、F13A1和CLEC3B可作为血浆蛋白质生物标志物。Messner等[31]应用Scanning SWATH采集技术进行COVID-19血浆高通量蛋白质组学分析,仅1 min梯度即可定量190个血浆蛋白质,该研究新发现11个在COVID-19患者中差异表达的生物标志物,主要为急性期反应和补体级联反应相关蛋白。

综合以上血浆/血清蛋白质组学研究结果,COVID-19血浆/血清生物标志物主要是与急性期反应、补体级联反应、炎症反应、免疫反应、凝血级联反应和脂质代谢相关的蛋白质,其中急性期反应蛋白SAA1、CRP在多个研究中发现对预测疾病严重性进程具有重要意义。

Table 2 Application of proteomics in the study of COVID-19 plasma/serum biomarkers表2蛋白质组学在COVID-19血浆/血清生物标志物研究中的应用

续表2

3.1.3 尿液生物标志物

尿液样本因非侵入性、易获取、可反映疾病的动态变化等优点,在生物标志物研究中越来越受关注。尿液没有稳态调控机制,能更早的反应疾病变化[48]。通过对比COVID-19患者和健康人的尿液蛋白质含量差别确定差异表达蛋白质,并分析其参与的分子通路和相关生物学功能(表3),可以为早期诊断和疾病进程研究提供重要意义。

Table 3 Application of proteomics in the study of COVID-19 urine biomarkers表3蛋白质组学在COVID-19尿液生物标志物研究中的应用

Bi等[49]全面分析了COVID-19患者血清和尿液的蛋白质组学和代谢组学数据,结果显示尿液蛋白质组比血清蛋白质组有更高的检测灵敏度,并建立了基于20个尿液蛋白质的生物标志物组合,具有对COVID-19轻重型进行分类预测的潜力。Tian等[50]采用基于diaPASEF的4D-蛋白质组学技术进行COVID-19尿液生物标志物和感染机制研究,发现在COVID-19感染早期发生免疫抑制和紧密连接障 碍,其 中MT1G、LPL、β2M、PRKACA、FOLR2和APOA4发生显著改变,有望作为尿液生物标志物。Li等[51]采用DDA技术进行COVID-19尿液蛋白质组学分析,发现COVID-19患者补体系统、缺氧反应分子上调;而血小板脱颗粒、糖代谢和脂代谢下调。其中,上调的蛋白HYOU1、D-dimer、SERPIND1和 下 调 的 蛋 白NPC2、APOA1、CUBN有望作为尿液生物标志物。Chavan等[52]采用TMT标记定量技术进行尿液蛋白质组学分析,发现在COVID-19阳性样本中,急性期反应、先天免疫反应、补体激活的调节和血小板激活过程相关蛋白上调;细胞黏附、细胞外基质组织和白细胞迁移过程相关蛋白下调。Li等[53]采用定量蛋白质组学和代谢组学方法全面分析了COVID-19患者血浆和尿液中的分子变化,发现了一系列生物标志物。在验证组尿液样本中,生物标志物组合预测AUC值达到0.904。Ni等[54]分析了大量基于LC-MS/MS的尿液蛋白质组学数据,发现在1 925名成人的尿液样本中80.1%的样本检测到ACE2,284名健康儿童中14.1%的样本检测到ACE2。研究证明,尿液中ACE2可以通过基于质谱的蛋白质组学方法检测,尿液ACE2水平在大队列长期监测结果中较稳定,并且与多种生理和病理条件有关。ACE2有望作为预测SARS-CoV-2感染风险及其并发症的生物标志物。

综合以上尿液蛋白质组学结果,尿液蛋白质组比血清蛋白质组有更高的检测灵敏度,COVID-19尿液生物标志物与血浆/血清生物标志物反映了相同的生物学通路的变化,包括急性期反应、补体级联反应、炎症反应、免疫系统、凝血和代谢途径等。尿液样本具有完全无创、可连续收集、更容易检测低丰度蛋白、早期发现、检测敏感、特异性强等优势[49],被认为是鉴定生物标志物的理想来源,并且在大队列长期监测结果中较稳定,有望作为COVID-19早期诊断和疾病进程研究的重要生物标志物来源[55]。

3.2 面向SARS-CoV-2感染的分子机制研究

蛋白质组表达的改变不仅可以用于发现生物标志物,而且可以揭示疾病的发生发展变化过程。尽管现在对COVID-19进行了快速和广泛的研究,但对其发病机制,特别是病理生理条件下的分子机制仍然知之甚少。通过蛋白质组学技术可以快速全面的筛选到重要的目标蛋白,大大缩短实验周期,并结合生物信息学通路分析、蛋白质相互作用分析,为揭示与SARS-CoV-2致病性相关的分子机制提供了一种有效的策略。目前,基于蛋白质组学技术对SARS-CoV-2感染的分子机制研究主要采用病毒感染的细胞模型和患者组织或体液样本进行研究。

3.2.1 基于病毒感染的细胞模型研究

病毒感染可以通过操纵宿主代谢来启动,适应宿主代谢环境是病毒病原体复制、繁殖和战胜它们入侵的邻近细胞的先决条件[56]。为了解感染后宿主蛋白质组的变化、深入认识发病机理、探究生物学机制,通常必须借助病毒感染细胞的模拟样本。Bojkova等[57]通过研究病毒感染的细胞模型发现SARS-CoV-2感染后重塑了蛋白质翻译、剪接、碳代谢、核酸代谢和蛋白质稳态等中心细胞途径。

蛋白质的磷酸化对蛋白质的功能具有重要影响,可以改变细胞的信号传导、发育和分化以及周期控制和代谢。Bouhaddou等[58]采用Vero E6细胞模型进行了SARS-CoV-2感染后的磷酸化蛋白质组学研究,发现SARS-CoV-2感染调节宿主激酶信号,其中p38丝裂原活化蛋白激酶(p38/MAPK)、酪蛋白激酶II(CK2)、钙/钙调素依赖性蛋白激酶II(CAMK2G)等激酶活性上调,而周期蛋白依赖性激酶(CDK)、蛋白激酶B(AKT)以及Rho家族的激酶活性出现下调。结合细胞学和生物化学的实验证明,病毒N蛋白能够同CK2结合并进而调节细胞骨架的组装,而病毒侵染会导致p38/MAPK的升高并导致细胞周期中止。Stukalov等[59]用SARS-CoV-2、SARS-CoV分 别 感 染A549肺 癌 细胞,分析了病毒对宿主细胞转录组、蛋白质组、泛素化和磷酸化修饰组的影响。该研究共定量到16 399个磷酸化位点,其中4 643个磷酸化位点在病毒感染后出现显著变化,与细胞存活、细胞周期进展、细胞生长和动力、应激反应和DNA损伤反应有关的中心激酶(CDKs、AKT、MAPKs、ATM和CHEK1)参与了调控。细胞相互作用分析结果显示,SARS-CoV-2调节多种细胞功能,如先天免疫调节通路、胆固醇代谢等,SARS-CoV和SARSCoV-2病毒感染均导致I型干扰素反应下调并激活促炎信号。

蛋白质糖基化修饰作为最常见也是最重要的一种翻译后修饰种类,在病毒的生命周期中起着不可替代的作用,包括调节蛋白质折叠、干预受体结合、影响蛋白质降解率、调控宿主偏好和屏蔽免疫系统识别的免疫原性表位等[60-61]。Watanabe等[60]研究表达于293F细胞系SARS-CoV-2的S蛋白,发现22个N-糖基化位点均发生N-糖基化修饰,糖链类型包括高甘露糖型、杂合型和复杂型,其中高甘露糖型和复杂型糖链占比较高,这些位点上15%的糖链含至少一个唾液酸残基,52%的糖链发生了岩藻糖基化。Dong等[62]采用LC-MS/MS技术对SARS-CoV-2的S蛋白进行O-糖基化修饰分析,鉴定到27个O-糖基化位点和66种O-糖链结构,其中26种含唾液酸残基、37种发生了岩藻糖基化。Tian等[61]采用基于质谱的糖蛋白质组学技术,从SARS-CoV-2病毒颗粒中提取的S蛋白上鉴定到了17个O-糖基化修饰位点,其中有11个位点发生在N-糖基化位点1至3个氨基酸附近(“N±1~3”),其中的4个位点发生了唾液酸修饰(T236、S659、T1076和T1077),通过定点突变验证N-糖基化位点是这些O-糖基化位点出现的先决条件,并将这一现象命名为“O-Follow-N”规律(表4)。糖基化修饰对于COVID-19发病机制的探索、疫苗和治疗药物的设计开发,以及检测试剂盒的生产具有重要意义。

Wang等[63]采用4D蛋白质组学技术和生物成像技术,通过模拟肺泡-微血管屏障,揭示了SARS-CoV-2感染对于肺泡上皮细胞和肺微血管内皮细胞的损伤机理。在肺泡上皮细胞中,细胞周期、细胞增殖和细胞程序性死亡等生物学过程受到显著影响。SARS-CoV-2感染肺泡上皮细胞后,可激活其抗病毒和先天免疫反应,上调促炎细胞因子表达,如IL-1α和干扰素。这些细胞因子释放到细胞外空间,并进一步诱发相邻肺微血管内皮细胞的损伤,最终导致肺泡-微血管屏障破坏。

综合以上基于病毒感染的细胞模型研究结果,揭示了SARS-CoV-2感染细胞后重塑了蛋白质翻译、剪接、碳代谢、核酸代谢和蛋白质稳态等中心细胞途径,细胞周期、细胞增殖和细胞程序性死亡等生物学过程受到显著影响。

Table 4 Partial reports of N-glycosylation and O-glycosylation of SARS-CoV-2 spike protein based on glycoproteomics表4基于糖蛋白质组学技术的SARS-CoV-2刺突蛋白N-糖基化和O-糖基化修饰的部分报道

3.2.2 基于患者组织或体液样本研究

通过对COVID-19患者的组织和体液样本的蛋白质组学分析,可以快速全面的得到所有蛋白质变化的信息,为揭示与SARS-CoV-2致病性相关的分子机制提供了一种有效的策略。目前研究结果显示,COVID-19患者中与免疫反应和炎症反应、代谢途径、凝血级联反应等通路相关的蛋白质严重失调。

COVID-19患者适应性免疫应答降低,炎症反应的多个通路被激活。Nie等[20]通过蛋白质组学技术,系统分析了COVID-19去世患者7种器官的组织病理学改变。在肺中检测到两种免疫关键蛋白癌胚抗原相关细胞黏附分子1(CEACAM1)和CD276蛋白上调,在肺和脾中检测到淋巴细胞特异性酪氨酸蛋白激酶(LCK)下调,表明T细胞介导的免疫反应在肺和脾脏受到抑制;同时脾脏中T细胞衰竭和单核细胞生物标志物上调提示高炎症反应;在肾皮质中检测到涉及炎症反应的多个通路被激活,包括LPS/IL-1介导的RXR功能抑制、急性期反应、toll样受体信号、IL-6信号和NF-kB信号。Li等[64]采用定量蛋白质组学方法对COVID-19病人外周血单核细胞(PBMCs)进行分析,发现COVID-19患者体内的T细胞激活、中性粒细胞介导的免疫反应通路发生显著变化,通路分析结果揭示了病毒蛋白与细胞炎症和先天性免疫反应相关蛋白的特异性相互作用,其中Nsp10与NF-κB抑制因子(NKRF)相互作用促进IL-8的诱导,这有助于IL-8介导的中性粒细胞趋化和COVID-19患者过度炎症反应。Chen等[47]对不同疾病程度的COVID-19患者以及健康对照血液样本进行蛋白质组学分析。结果显示,轻症和重症患者免疫反应表现不同,SARS-CoV-2在轻症患者的特点是入院时T细胞信号激活和T细胞分化富集,随后迅速减少;在重症患者中持续检测的T细胞信号呈阴性。重症患者在整个住院期间,IFN信号持续被激活,而先天性免疫信号的负调控因子(如TRIM59、USP21和NLRC3)下调。与轻症患者相比,重症患者IL-6、IL-8和IL-10水平显著升高。

COVID-19患者体内代谢途径紊乱,脂蛋白代谢、糖酵解和三羧酸循环(TCA循环)途径失调,脂肪酸β氧化和氧化磷酸化被激活。Chen等[47]通过血液多组学分析结果显示,轻度和重度COVID-19患者的可溶性低密度脂蛋白受体(sLDLR)、卵磷脂胆固醇酰基转移酶(LCAT)、胆固醇酯转移蛋白(CETP)等脂蛋白代谢相关关键蛋白水平明显降低;COVID-19患者TCA循环周期中的酶如ACO2、IDH、OGDH、DLD、SDH和MDH较低,而脂肪酸合成的关键酶(乙酰辅酶A羧化酶(ACAC)和脂肪酸合成酶(FASN))升高;另外,血浆乳酸和乳酸脱氢酶也同时显著升高。这些数据揭示了SARS-CoV-2感染导致脂蛋白代谢、糖酵解和TCA循环的失调。Nie等[20]对COVID-19去世患者7种器官的蛋白质组学研究中发现多种代谢过程被抑制,包括糖原分解、半乳糖降解和糖酵解;而在大多数器官中,脂肪酸β氧化和氧化磷酸化被激活,这表明一种转换到高效率的能量生产模式。Shen等[41]对COVID-19患者血浆蛋白质组学和代谢组学分析,发现多种载脂蛋白的失调,包括APOA1、APOA2、APOH、APOL1、APOD和APOM。载脂蛋白在胆固醇反向转运中起重要作用,揭示了胆固醇代谢失调。Chen等[65]分析了COVID-19患者在发病和康复阶段的血清蛋白质组,结果显示COVID-19患者在疾病期和恢复期胆固醇代谢和心肌功能相关通路长期紊乱。

COVID-19患者发生凝血功能障碍。COVID-19患者血液临床凝血试验结果显示D-dimer、凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)上调,揭示血小板脱颗粒和凝血级联功能障碍与COVID-19的 严 重 程 度 密 切 相 关[43,66-67]。D’Alessandro等[68]对COVID-19患者的血清蛋白质组分析,结果显示凝血/纤溶级联反应相关蛋白,包括SERPINA1、SERPINA3、SERPINF2等丝氨酸蛋白酶抑制剂和羧肽酶(CPB2/TAFI)的蛋白表达水平显著增加。Nie等[20]对COVID-19患者7种器官的蛋白质组学研究数据揭示了参与凝血、抗凝和纤溶系统的多种蛋白质失调,其中凝血酶原(F2)、凝血因子XI、XII、XIIA(F11、F12和F13A1)在COVID-19患者中均出现异常;纤维蛋白原α链、γ链和β链增加(FGA、FGG和FGB),这些蛋白质可以分裂成纤维蛋白,从而形成血凝块;在COVID-19器官中检测到多种丝氨酸蛋白酶抑制剂的失调:肝素辅因子2(SERPIND1)是一种凝血酶的抑制剂和肝素的辅因子,纤溶酶原激活物抑制剂(SERPINE1)是一种主要的纤溶酶抑制剂,可以破坏血液凝块。肾皮质中SERPIND1的下调和SERPINE1的上调可能是导致COVID-19肾皮质微血栓形成的原因。同时,COVID-19患者肺、肾、下肢静脉均可见微血栓,微血栓的形成是凝血、抗凝和纤溶系统之间的不平衡造成的。

综合以上蛋白质组学研究结果,揭示了COVID-19感染患者中免疫反应和炎症反应、代谢紊乱、凝血级联反应相关的蛋白质严重失调,通过影响上述通路而引发机体功能障碍和代谢紊乱是SARS-CoV-2感染机制之一。

3.3 面向精准治疗的药物靶标研究

目前,COVID-19的治疗药物作用机制主要可以归纳为两大类:一类是阻止病毒和宿主细胞结合,作用的靶位是S蛋白、ACE2、TMPRSS2等,如目前处于临床试验阶段的该类药物有TMPRSS2抑制剂甲磺酸卡莫他司、单克隆抗体药物等;另一类是阻止新病毒在宿主细胞内的产生,抑制病毒复制和翻译过程,作用的靶位是RdRp或者3CLpro等,如目前处于临床试验阶段的该类药物有瑞德西韦、法维拉韦、利巴韦林、洛匹那韦和法匹拉韦等[15]。尽管这些在体外显示出抗病毒活性的药物已进入临床研究,但是一些药物临床试验结果显示对重症患者无效或治疗价值有限。到目前为止,还没有治疗COVID-19的特效药物[69]。蛋白质组学研究可以辅助绘制病原体在感染、入侵、持久性和发病机制后对宿主引起的变化的全景图,并有助于确定新的治疗靶点[53]。

Bojkova等[57]研究证明,SARS-CoV-2重塑了人类细胞中的翻译、剪接、碳代谢、核酸代谢和蛋白质稳态等中心细胞途径。该研究测试了多个关键途径的抑制剂。a.翻译抑制剂:环己亚胺(翻译伸长抑制剂)和依米汀(40S核糖体蛋白S14抑制剂)可抑制SARS-CoV-2在细胞中的复制;b.剪接体抑制剂:以剪接因子SF3B117为靶点的剪接体抑制剂pladienolide B,可在对人类Caco-2细胞无毒的浓度下抑制SARS-CoV-2病毒复制;c.糖酵解抑制剂:己糖激酶的抑制剂2-脱氧-D-葡萄糖可阻断糖酵解,抑制SARS-CoV-2在Caco-2细胞中的复制;d.核苷酸合成抑制剂:鸟苷核苷酸从头合成中的限速酶肌苷单磷酸脱氢酶(IMPDH)的抑制剂利巴韦林,可抑制SARS-CoV-2在细胞中的复制;e.蛋白酶稳态扰动抑制剂:p97是蛋白质稳态的关键成分,p97的抑制剂NMS-873在低纳米摩尔浓度下抑制SARS-CoV-2复制。该研究为COVID-19的治疗提供了新的潜在靶点。Bouhaddou等[58]通过分析受感染细胞的磷酸化图谱,揭示现有的激酶靶向药物有望阻止SARS-CoV-2劫持宿主细胞。通过对全景磷酸化图谱中失调的激酶和通路分析,找到87种相关的药物和化合物。通过测试发现,p38、CK2、CDKs、AXL和PIKFYVE等激酶家族的抑制剂显示出了强大的抗病毒活性,对COVID-19的治疗方法提供了新的思路和依据。

Gordon等[70]鉴定了332个SARS-CoV-2与人类蛋白质之间的高可信度蛋白质-蛋白质相互作用,这些相互作用与蛋白质贩运、翻译、转录和泛素化调控等多个生物学过程有关。以这些相互作用为靶点,筛选到两类有效降低SARS-CoV-2病毒感染的分子:mRNA翻译抑制剂(zotatifin、ternatin-4和PS3061)和Sigma1、Sigma2受体的调节剂(氟哌啶醇、PB28、PD-144418和羟氯喹)。研究发现,PB28的效力是羟氯喹的20倍,mRNA翻译抑制剂显示出较强的病毒抑制作用,使得这类化合物成为极具吸引力的潜在药物。Stukalov等[59]以病毒-宿主蛋白相互作用为靶点,测试了48种药物对SARS-CoV-2的影响。其中用于治疗癌症和自身免疫性疾病的B-RAF抑制剂(索拉非尼、瑞戈非尼、达拉菲尼)、JAK1/2抑制剂(巴瑞替尼)和MAPK抑制剂(SB-239063)可导致病毒生长的显著增加;而DNA损伤诱导物(替拉扎明、Rabusertib)和mTOR抑制剂(雷帕霉素)可抑制病毒生长;FLT3酪氨酸激酶抑制剂(富马酸吉列替尼)、AKT抑制剂(Ipatasertib)、MMPs抑制剂(普马司他和马立马司他)的抗病毒活性最高。这些化合物对SARS-CoV-2的复制具有明显的抑制作用,但对细胞生长无影响或影响较小。这些研究基于宿主-病毒潜在的蛋白质相互作用分析,为后续进行药物筛选和开发抗SARS-CoV-2相关药物研究提供了新的思路和策略。

明确药物靶标是治疗COVID-19的必由之路。21世纪以来已经发生了3次由冠状病毒引起的重大传染病疫情,但截止目前仍未发现特效治疗药物。SARS-CoV-2未来可能会在人类社会长期存在,成为全人类需要面对的共同挑战。因此,需要开发针对SARS-CoV-2及广谱冠状病毒的特效药物。蛋白质组学在寻找药物靶标方面具有高通量、高灵敏的优势,是未来筛选和开发抗SARS-CoV-2药物的重要技术手段。

4 总结与展望

自COVID-19大流行以来,应用基于质谱的蛋白质组学技术进行COVID-19生物标志物研究、疾病机制研究、药物靶点筛选的研究与应用已经展现巨大的潜力。采用蛋白质组学技术在鼻咽拭子等样本中成功鉴定和定量来自SARS-CoV-2病毒颗粒的多个特征肽段,这些特征肽段可作为潜在的SARSCoV-2感染快速筛查和诊断的标志物;高通量DDA/DIA技术结合PRM靶向定量的策略,从COVID-19患者的血清/血浆或尿液样本中筛选与感染相关的蛋白质,发现可作为诊断疾病和监测疾病进程的标志物,可以预测疾病的易感性和临床结局;蛋白质翻译后修饰研究、SARS-CoV-2与宿主细胞相互作用蛋白质组学研究,为揭示与SARSCoV-2致病性相关的分子机制提供了一种有效的策略;基于蛋白质组学进行病毒-宿主蛋白质相互作用分析,在寻找药物靶标方面具有高通量、高灵敏的优势,为抗SARS-CoV-2药物研究提供重要的技术手段。

虽然应用蛋白质组学技术在COVID-19研究中取得较大进展,但仍有一些亟待解决的技术瓶颈,例如:a.目前质谱技术的自动化程度还有待提高,前处理过程也相对复杂,需要建立自动化和通量化的微量临床样本前处理技术体系;b.目前临床微量样本的质谱数据采集过程涉及较多步骤和参数,需要建立完整的行业标准以规范实验过程,保证实验间的重复性;c.针对大队列临床微量样本的蛋白质组学数据解析,还需要进一步提升鉴定和定量软件的灵敏度和准确度,发现低丰度蛋白质和标志物;d.蛋白质翻译后修饰(如S蛋白的糖基化以及蛋白质组的磷酸化、泛素化等)较复杂,样品中翻译后修饰蛋白质含量低、动态范围广给相关研究带来了很大的挑战,需要提高大规模翻译后修饰位点的鉴定和定量的能力;e.目前发现的蛋白质标志物和药物靶点均处于基础研究阶段,需要结合生物学和免疫学方法,实现候选蛋白分子的规模化验证。更先进的蛋白质组学技术必将促进COVID-19的精准诊疗研究。

随着质谱仪器性能和算法软件的不断发展与革新、相关技术瓶颈的不断突破,蛋白质组学数据采集和数据分析全流程标准化体系的建立,其应用的广度及深度将会迅速发展。蛋白质组学样品制备自动化技术逐渐成熟,可以实现短时间内对数以千计样本的快速前处理;随着大队列临床蛋白质组学的发展,生物标志物走向临床已成为发展趋势,单次分析可同时精确地检测出几十个甚至上百个生物标志物,并可检测出多种传统诊断技术无法检测到的生物标志物;将修饰蛋白质组学及蛋白质相互作用方法学应用于临床研究,实现修饰位点和药物靶点的精准检测,将拓展蛋白质分子机制的研究和药物靶点的发现。随着SARS-CoV-2突变株的发现,COVID-19发病机制愈加复杂,其精准诊疗面对更严峻的挑战,蛋白质组学技术有望走向临床成为广泛接受的COVID-19诊疗手段。

猜你喜欢

组学标志物蛋白质
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
蛋白质自由
影像组学在肾上腺肿瘤中的研究进展
多项肿瘤标志物联合检测在健康体检中的应用价值
人工智能与蛋白质结构
东莨菪碱中毒大鼠的代谢组学
基于TCGA数据库分析、筛选并验证前列腺癌诊断或预后标志物
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
冠状动脉疾病的生物学标志物