APP下载

单核苷酸多态性 (SNP) 分析在鼠疫菌基因分型中的应用

2019-12-23孔进姣石丽媛

中国人兽共患病学报 2019年11期
关键词:鼠疫分支多态性

孔进姣,石丽媛,王 鹏

鼠疫是严重危害人类健康的烈性传染病,它通过媒介蚤造成鼠间的传播,人类也会偶然被感染,在一定的条件下甚至可造成人间鼠疫的流行。鼠疫杆菌是引起鼠疫的病原体,是一种高毒力,高传染性、高致病性的细菌性微生物,是由假结核耶尔森菌在3 300年前进化而来的[1]。在进化过程中鼠疫菌为了应对生态环境的优胜劣汰不断进行选择性适应,从而导致了基因在生态位上的变异,形成了特征多样性的鼠疫菌株[2]。目前我国存在12块鼠疫自然疫源地,由于这些疫源地内的地理景观和生态环境不同,使得疫源地内的鼠疫菌株在免疫原性、毒力、感受性、敏感性、流行病学特征方面存在较大差异,这将更加有利于菌株来源的分析。现在鼠疫仍是我国主要的公共卫生问题之一,弄清鼠疫的来源及变异,是预防与控制鼠疫暴发流行的科学基础,而单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是溯源的常用技术之一,了解其目前的研究现状,将有助于疫情的监测与防控。因此,本文对SNP的最新研究成果及其在鼠疫菌分型中的应用进行简要的综述。

1 SNP分析概述

SNP是指在基因组上由单个核苷酸的变异所引起的 DNA 序列的多态性。在细菌的基因组中,这种变异可能发生在编码区,分为同义SNP(sSNP)和非同义SNP(nSNP),sSNP不会引起所编码氨基酸的改变,其多态性能客观的反应细菌的进化情况,而nSNP不仅引起编码氨基酸的改变,也引起编码蛋白序列的改变,甚至可能使编码氨基酸的密码子转变为终止密码子,引起无义突变;也可能发生在非编码区,这个区域SNP数量众多,但不会改变个体表型特征,却能作为群体遗传和进化研究的遗传标记[3]。目前通过许多生物化学方法已经能确定个体的SNP,并且SNP因具有高分辨率和完整的数据信息,现在已经广泛应用于金黄色葡萄球菌、炭疽芽孢杆菌、鼠疫耶尔森氏菌、肺炎衣原体和梅毒螺旋体等致病菌的群体遗传的研究中[4-7]。近来由于SNP技术的成熟,数据信息日益增多,这也带动了SNP数据库的建立,现在国际上关于致病性细菌的SNP数据库主要有Sujay、Chatto、padhyay等人建立的微生物变异组数据库 (Microbial Variome Database),Geoffrey L、Winsor 等建立的假单胞菌属基因组数据库(Pseudomonas Genome Database),以及Broad研究中心开发的基因组分析工具包(Genome Analysis Toolkit,GATK)[8-9],这些数据库的存在将推动SNP分析的进一步发展。

2 SNP分析的特征

目前对细菌的分型技术主要有早期的表型分析、血清型分析、噬菌体分析和质粒分析以及基于基因水平的多位点可变数目串联重复序列分析(MLVA)、差异片段分析(DFR)、成簇的规律间隔的短回文重复序列(CRISPRs)、DNA分析技术(RAPD)、插入序列周围DNA多态性分析技术(ISCP)等多种方法[10]。生态分型能找到菌株的地理分布,揭示细菌与宿主和人的关系,但由于分辨率低不能发现菌株间的亲缘关系及差异。血清型、噬菌体分析由于同质性较高,适用于血清型和噬菌体型较多的菌株,而质粒分析则通过质粒大小和含量的变异来进行分型,但通常无法区分亲缘关系和地理区域较近的菌株。PFGE分辨率强、重复性好,但费用昂贵,需与其他分型技术联合使用。MLVA方法操作简便、成本低、分型能力较好,适用于在基层推广,分型依赖于VNTR位点的选择。CRISPRS位点多态性高,是细菌分型的理想靶标,分辨能力强,能反应一定的遗传关系,但费用较高。RAPD适用于分析同科同属甚至同种下的种型差异,无需特异的DNA信息,随机性强,但可比性、可重复性较差。ISCP技术是一种快速、简便、有效的分型方法,稳定性好,但对于基因比较保守的菌,会使设计插入序列引物时比较困难[11]。

传统的分型技术已经不能满足疾病诊断和流行病学调查的需要,随着分子分型技术的不断更新发展,基于全基因组的单核苷酸多态性鉴定和构建最大似然树,已成为研究种间及种下分型的的“金标准”[11]。与其他分型技术相比,他数量多、分布广泛、遗传稳定,适用于快速、规模化筛查;等位基因频率容易筛查,易于基因分型;可操作性和重复性容易受到选择压力、环境等因素的影响,适合于亲缘关系较近的物种内微进化特性研究[12];可以对拷贝数非常低及降解的样本进行分型。这些特性使SNP能够应用于溯源、DNA分析、个体化用药、复杂疾病的定位以及法医工作等方面。当然,SNP对技术人员的专业要求较高,只能用于识别、发现基于全基因组的系统发育群。而要实现SNP分型的快速化,准确化和规模化,首先要确保用于细菌分型的是序列的保守的基因或者是基因中序列的保守片段,其次,要保证聚合酶链式反应(PCR)的高保真性,这可以通过选择高保真性的DNA聚合酶(如Pfu DNA Polymerase),提高退火温度和纯化模板来实现;再次,确保基因测序产物的准确性,目前已有研究发现当测序深度≥6X,等位基因比率在15%~85%的阈值范围内,结合聚类分析,测序结果的准确性高达100%[13]。而鼠疫菌进化形成较晚、基因组较保守、进化时间短、遗传较稳定,SNP变异位点较少,因此SNP技术可以通过将散在病例寻找潜在联系,及时发现疫情,对已确认的暴发疫情进行传染源的追踪,从而有效预防疫情的再次发生。

3 SNP分析方法

虽然SNP位点的发现高度依赖于全基因组的数据,但是目前已使用简单的PCR扩增和测序,多重luminex检测、变性HPLC、MALDI-TOF质谱(MS)、溶解错配扩增突变实验(Melt-MAMA)、TapMan实时PCR、高分辨率溶解曲线(HRM)、等位基因特异寡核苷酸连接反应、质谱和变性高效液相色谱(DHPLC)等技术完成了SNP位点的筛选。其中多重PCR是早期分析常用的技术,多结合DHPLC等一起使用,TapMan实时PCR特别适用于需要高灵敏度的情况,多重luminex检测基于luminex悬浮芯片技术和高密度SNP芯片技术[1,14]。

根据遗传信息构建系统树的方法主要有距离矩阵法、最大简约法、最大似然法(ML)和贝叶斯法,其中常最用的是最大似然法,其与距离矩阵法相比,似然法试图充分有效地利用所有资料而不是将资料简缩为距离的集合,与简约法的不同之处在于其进化概率模型采用了标准的统计方法[15]。

4 SNP分析在鼠疫菌中的应用

基于世界各地不同疫源地菌株的分子分型技术和全基因组测序的进展,Achtman[16]、Morelli[17-19]、Touchman[20]、Riehm[21]等人对CO92、KIM、91001、FV-1以及美国、马达加斯加、蒙古等多个国家的鼠疫菌进行研究,确定了鼠疫耶尔森菌病原体的全球发育系统,建立了包括1、2、0三个分支和0.PE1、0.PE2、0.PE3、0.PE4、1.ANT、1.ORI、2.ANT、2.MED,8个主要种群的遗传进化树,估计出每个分支的进化时间,确定了古典型菌株主要由1.ANT和2.ANT两个种群组成,并推断出美国菌株起源于中国并经远洋扩散到美国。崔玉军[22]、李艳君[23]、王娜[24]、朱鹏[25]等人也先后利用不同方法把国内不同疫源地的鼠疫菌分为12个型,12个SNP型又分属于分支1(东方型菌株)、分支2(中世纪型菌株)和分支0(田鼠型菌株)三大分支,古典型菌株则分散于三个分支内,并发现了我国菌株具有明显的地理区域性和生态集聚性特征,证实了基因组具有高度的多态性,构建了中国鼠疫菌遗传进化图,建立了一种快速高通量的检测鼠疫菌的技术,这不仅为鼠疫的地理定位提供了理论支持,也为疫情的监测及诊断提供了技术支持。

2013年Cui等人[26-27]首次使用基于全基因技术的SNP分析,对来自亚洲、非洲、欧洲和美洲的133株鼠疫菌以及28个EV-76的SNP进行了鉴定,证实了第一次鼠疫大流行的时间点与安哥拉菌株的分化时间点高度吻合;第二次鼠疫大流行与当下鼠疫菌的分支形成息息相关;丝绸之路、唐蕃古道和茶马古道对鼠疫的传播发挥了极其重要的作用。并通过分子钟分析得出SNP的固定率在系统发育过程中存在较大差异的结论。这次研究谱写了鼠疫菌间的进化关系史,描绘了中国鼠疫间的传播途径和进化关系,明确了不同分支的鼠疫菌的SNP变异累计速率差异较大,重建了疫苗菌株的谱系的传播史。2015年郭辰仪等[28]从乌苏地区菌株鉴定出166个SNP 位点,并把所有菌株定位于0.ANT1分支中。此研究还发现了12个变异热区,而最明显的热区均位于rpoz编码基因,基因总长276bp。此次研究推论出rpoz基因可能与环境适应性密切相关,是增强鼠疫流行强度的一个生物因素,这在鼠疫的预防控制环节中起到了至关重要的作用。

2016年Seifert等[29]对德国出土的5具鼠疫菌阳性的人的骸骨进行SNP分型发现s12、s1431、s1195三个异常位点,证实了在德国500公里的范围内长期存在一种独特的基因型。2017年Galina等人[30]首次把吉尔吉斯斯坦3个高山疫源地的菌株定位于0.ANT2、0.ANT3、0.ANT5分支,并发现该地所有高致病性菌株的祖先起源于天山山脉。Mitchell等[31]以马达加斯加菌株为试点研究了一种agarose-MAMA PCR的分型方法,这种方法的实现增强了发展中国家实验室基于单核苷酸多态性的基因分型能力。2018年Zhgenti等[32]利用SNP芯片对格鲁地区和高加索地区的12株菌进行了分析,不仅证实了该方法具有高通量及较好的重现性,也证实了高加索地区存在两个独立的、距离较远的发育群。Kutyrev等[33]对独立国家联合体27个疫源地的158株菌的种群结构进行研究,建立了鼠疫菌高加索(0.PE2)、安哥拉(0.PE3)、中亚(0.PE4)、提贝提卡(0.PE7)、乌列盖卡(0.PE5)和青海卡(0.PE10)7中种群分类亚型。这些研究丰富了鼠疫的发育系统,为鼠疫的快速溯源提供理论依据。

5 鼠疫菌突变位点分析

截止2019年4月3日为止,国际上公布的(NCBI数据库)已完成全基因测序的鼠疫菌有378株。标准株CO92的基因大小为4.82986MB,GC%含量为47.6065,KIM的基因大小为4.70174,GC%含量为47.6558,91001的基因大小为4.80322,GC%含量为47.7169。这3株菌的基因序列是研究其他鼠疫菌的比对序列国内的菌株主要与CO92进行比对,获得特有基因组和泛基因组,确定突变位点,通过聚类分析,构建系统发育树,从而实现鼠疫菌的溯源的研究。

SNP位点的突变通常是由于碱基的转换和颠换所引起的,其中转换指腺嘌呤A和鸟嘌呤G或胸腺嘧啶T和胞嘧啶C之间的置换,颠换指嘌呤与嘧啶间的置换。一般基因序列中具有众多的SNP位点,从多位点中找出变异位点是进行SNP分析的关键。前人研究发现S1-S14位点突变仅存在于古典型及东方型菌株中,S15-S19位点突变仅存在中世纪型及古典型菌株中,S20-S25位点突变仅存在中世纪型菌株中,S126位点的突变仅在古典型菌株中发现,而田鼠型菌株均不出现S1-S126位点的突变情况。表1列出了前期研究发现的特异性SNP位点及其位点上突变的碱基[22-25],从中可以看出突变多发生在碱基T上,占了45.78%(38/83),其次是A 27.71%(23/83),G和C分别占了14.46%(12/83)、12.05%(10/83),这些数据显示发生在嘌呤之间的突变远高于嘧啶之间,这可能成为研究鼠疫暴发流行的的一个关键节点。

表1 特异的SNP位点及鼠疫菌变异位点的碱基状态

Tab.1 Base state of specific SNP sites andyersiniapestismutation sites

SNP位点SNP位点类型SNP位点SNP位点类型SNP位点SNP位点类型SNP位点SNP位点类型S1T/CS17T/TS82TS240GS2A/GS18AS83TS360TS3T/CS19A/TS84TS391TS4A/CS20TS85G/TS402TS5AS21C/AS86C/TS488TS6G/AS22AS87T/GS812TS7C/TS23TS88CS2230GS8A/TS24TS89TS2251TS9TS25A/TS90TS2381TS10C/TS29AS91AS2437AS11AS30AS92AS2778AS12T/AS31G/AS93AS3006GS13TS34GS126AS3383TS14GS36AS177CS2920CS15T/GS80T/GS234TS3104TS16A/TS81TS236T

6 中国鼠疫菌的SNP分析现状

根据进化领域目前最新的研究结果显示[26],中国鼠疫菌可分为 5 大种系(0、1、2、3、4)26谱系,其中分支0多为古典型和田鼠型的菌株,包括0.ANT1、0.ANT2、0.ANT3、0.PE2、0.PE3、0.PE4A、0.PE4B、0.PE4C、0.PE7,10个分支;分支1多为古典型和东方型的菌株,包括1.IN1、1.IN2、1.IN3、1.ANT、1.ORI1、1.ORI2、1.ORI3、Ancient genomes,8个分支;分支2多为中世纪型和古典型的菌株,包括2.ANT1、2.ANT2、2.ANT3、2.MED1、2.MED2、2.MED3,6个分支;3和4分支包括3.ANT1、3.ANT2和4.ANT1,3个分支。其中可以公开获得菌株的基因组的分支有0.PE2、0.PE3、0.PE4B、1.ORI1、1.ORI2、1.ORI3、1.ANT、2.ANT1、2.ANT3、2.MED1。其中鼠疫菌的共同祖先假结核菌均位于0分支上,而最古老的鼠疫菌种群0.PE7,仅在青藏高原被分离出,经鉴定发现除了0.PE4 之外,所有已知的谱系均可以致病。结合地理情况来看,青藏高原附近聚集了4个种系的菌株,由此向外延伸,东北部和西北部主要是2及0,西南主要是1和2,南部主要是1,而3和4主要存在于北部地区[25]。近年来已经把研究的重点定位于基因组的遗传多样性,而SNP数量较多,在所有分型中具有最高的分辨率,尤其现阶段处于二代测序技术普及,三代测序技术广泛应用的时期,基于全基因序列来开展SNP位点的研究已经越来越多,其在鼠疫的系统发育研究中已经占据了无以取代的地位。

利益冲突:无

猜你喜欢

鼠疫分支多态性
单核苷酸多态性与中医证候相关性研究进展
一类离散时间反馈控制系统Hopf分支研究
MTHFR C677T基因多态性与颈动脉狭窄及其侧支循环形成的关系
软件多分支开发代码漏合问题及解决途径①
RANTES及其受体CCR5基因多态性及环境因素在昆明汉族T2DM发生中的交互作用
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
《鼠疫》:即使生活是一场灾难,也要用爱去抗争
鼠疫并非无药可治
重新认识鼠疫
巧分支与枝