APP下载

孕妇血浆中胎儿游离DNA片段浓度和长度均值的计算方法研究

2017-10-09路建波高华方曹宗富蔡瑞琨闫有圣

中国计划生育学杂志 2017年6期
关键词:游离外周血均值

路建波 高华方 曹宗富 李 乾 蔡瑞琨 闫有圣 马 旭*

1.国家卫生计生委科学技术研究所(北京,100081);2.甘肃省妇幼保健院

·技术与方法·

孕妇血浆中胎儿游离DNA片段浓度和长度均值的计算方法研究

路建波1高华方1曹宗富1李 乾1蔡瑞琨1闫有圣2马 旭1*

1.国家卫生计生委科学技术研究所(北京,100081);2.甘肃省妇幼保健院

目的:建立计算孕妇外周血中胎儿游离DNA片段(cffDNA)浓度和长度均值的新的数学模型。方法:根据孕妇外周血中母亲和胎儿的DNA片段的长度分布不同的现象,利用K-means算法和EM算法开发新的算法。用提出的新方法分析孕妇外周血样本的DNA片段长度分布,cffDNA浓度和片段长度均值。结果:①三份样本中来源于母亲的DNA片段长度均值,分别为167bp,166bp和165bp;cffDNA的长度均值为160bp,163bp和158bp;②孕妇血浆中cffDNA的浓度分别为10.4%,5.5%,17.4%。此结果与基于Y染色体的百分含量的方法计算所得的结果相近。结论:用本课题组提出的新方法分析孕妇外周血的cffDNA的浓度和长度均值是有效的、准确的。

EM算法;产前诊断;二代测序;胎儿游离DNA浓度; DNA浓度

我国每年出生缺陷发生率为4%~6%[1],给家庭和社会带来了沉重的负担。为降低出生缺陷的发生,应该尽早进行产前筛查。目前常用的方法有羊水细胞法、绒毛细胞法和胎儿脐带血法,但这些方法都是有创产前筛查,对胎儿和孕妇均有一定危险性。1997年,卢煜明等[2]在孕妇血浆中发现少量胎儿游离DNA片段 (cffDNA),这些片段在孕妇外周血中含量很少;从妊娠第7周开始就可以检测到,最初3个月内几乎每周都增加,在随后的几个月进入平台期,在分娩前迅速增加,分娩后2 h内迅速消失[3-8]。cffDNA的这个特点使其可以在妊娠早期特异地被检测,且不会受到以往妊娠的干扰,为无创产前检测提供了新途径。本文提出一种新的方法来计算孕妇外周血的cffDNA的浓度和母亲的DNA片段长度均值以及cffDNA片段的长度均值。

1 资料与方法

1.1研究过程

研究表明,孕妇外周血中大多数游离DNA片段长度小于300bp[9-14],孕妇和胎儿的片段长度分布也不相同,根据这一特点结合K-means算法和EM算法提出一种新的模型方法。利用该算法分析孕妇外周血中的DNA片段高通量测序数据。经过该方法计算得到的cffDNA的浓度和长度均值和已有的基于Y染色体的百分含量的计算方法[15-16]的计算结果进行比对。

1.2孕妇外周血二代测序片段的处理

本研究利用模拟数据建立数学模型,分析了3位孕妇外周血二代测序结果,包括序列长度和突变的碱基等数据。二代测序的原始数据为fastq格式。对二代测序数据和参考序列(hg19)进行比对,删掉与参考序列重复的片段。

1.3孕妇外周血游离DNA片段长度统计

采用本研究组编写的R语言软件进行孕妇和胎儿的混合DNA片段总体长度分布统计得到长度分布图,与文献[14]分布图进行比对。

1.4孕妇和胎儿DNA片段初始值的计算

用K-means聚类算法计算初始值,包括母亲和胎儿的游离DNA片段的浓度、均值和方差。

1.5数学模型的建立

对二代测序的混合游离DNA片段,假设孕妇的游离DNA片段和cffDNA片段分别服从正态分布,采用EM算法建立数学模型。具体如下。

假设孕妇外周血中cffDNA片段服从正态分布:Xi~N(μ1,σ12)。其中μ1、σ12分别来自cffDNA片段长度的均值和方差。

假设孕妇外周血中来自母亲的DNA片段长度服从正态分布:Xi~N(μ2,σ22)。其中μ2、σ12分别来自母亲游离DNA片段长度的均值和方差。

假设孕妇和胎儿的混合游离DNA片段长度服从正态分布:Xi~α1N(μ1,σ12)+α2N(μ2,σ22)。

E步:

M步:

经过E步和M步的迭代,最后收敛到一个固定值,得到参数的具体数值包括:孕妇和胎儿游离DNA分别对应的浓度、均值和方差,即α1、μ1、σ1和α2、μ2、σ2。

将该方法的计算结果与基于Y染色体的百分含量的计算方法[15-16]相比较。Y染色体百分含量(chrY%)=0.157F+0007(1-F),该方法需要用实验测出Y染色体的百分含量,F为cffDNA浓度。

2 结果

2.1混合DNA片段长度分布图

3例孕妇外周血中游离DNA的长度分布图,见图1。从这3幅图可以看出母亲外周血中游离DNA片段长度含量在0~165bp时呈指数增长,在165bp达到最大值,随后又随着游离DNA的长度增加而减少。分析得到:混合的孕妇外周血中的游离DNA片段长度分布服从正态分布,研究结果与Chandrananda等人[14]的研究结果基本一致。

2.2两种方法计算结果比较

经过研究分析得到第一个孕妇血清样品的结果如下:来自母亲的游离DNA片段长度均值为167 bp,cffDNA片段长度均值为160 bp。cffDNA浓度是10.4%,用Y染色体的百分含量算出来的浓度是10.5%。第二个样品的数据分析结果如下:来自母亲的游离DNA片段长度均值为166bp,cffDNA片段长度均值为163 bp。cffDNA的浓度为5.5%,用Y染色体的百分含量算出来的浓度是5.6%。第三个样品的分析结果为:来自母亲的游离DNA片段长度均值为165 bp,cffDNA片段长度均值为158 bp。cffDNA的浓度为17.4%,用Y染色体的百分含量算出来的浓度是15.9%。由此可见,通过片段的长短分布可以大致估算胎儿的DNA片段的浓度。计算的均值和Chandrananda等人[14]的研究结果较接近。研究结果表明母亲的游离DNA片段长度主要分布在166bp左右,而胎儿的游离DNA片段长度主要分布在160bp左右。

图1 3例孕妇外周血中混合DNA片段的长度分布图

3 讨论

2012年香港的卢煜明教授团队[9]提出了一种计算cffDNA浓度的方法,并且编写了相应的软件(FetalQUANT)。利用大规模并行二代测序(MPS),从DBSNP数据库中选择了20 000个单核苷酸多态性(SNP)位点,分4种组合进行了研究:AA(AA), AA(AB), AB(AA), AB(AB)。这里括号外面的是母亲的分型,括号里面的是胎儿的分型。FetalQUANT方法用到大规模并行二代测序,成本较高,且收敛速度较慢。本课题组提出的基于K-means聚类算法和EM算法的新算法,成本较小,算法收敛速度快。

到目前为止,基于孕妇外周血中cffDNA的无创产前检测已经有很多应用:胎儿性别鉴定、母胎间RhD血型不合鉴定、胎儿非整倍体疾病鉴定以及Y染色体连锁病如软骨发育不全、强直性肌营养不良、地中海贫血等疾病的诊断。在这些应用中,cffDNA浓度的准确计算对于诊断疾病至关重要[7]。例如,对于常染色体隐性疾病的产前诊断,孕妇外周血中突变型和野生型的相对浓度可用于推测母体突变是否传播到胎儿[17]。孕妇血浆中游离DNA片段的长度分布和胎儿以及母体的均值计算,对于研究母体血浆游离DNA的特征具有重要意义[14]。

本文重点研究了孕妇外周血中cffDNA片段的长度分布、浓度和均值等参数。由于孕妇外周血中来自母亲的游离DNA片段和cffDNA片段是混合的,很难区分,所以导致浓度和均值的计算比较困难。本课题组提出了一种新的方法来计算这些参数,即采用K-means聚类算法和EM算法相结合的综合方法,用MATLAB语言编写程序,通过对孕妇血清样本DNA的计算以及与传统的方法相比较进行研究。该方法利用孕妇游离DNA片段长度分布的不同,针对孕妇和胎儿分别建立正态分布的模型。与现有的计算cffDNA浓度的结果比较,本研究的初步结果显示所提出的方法准确而有效。但由于高通量测序误差和其它误差的存在,仍然需要大量的实验数据来修正模型的参数。

[1] 杨麒巍.选择性扩增孕妇血浆中游离胎儿DNA方法建立及其在21-三体综合征无创性产前检测中的应用[D].长春:吉林大学,2015.

[2] Lo YM, Corbetta N, Chamberlain PF, et al. Presence of fetal DNA in maternal plasma and serum[J]. Lancet, 1997, 350: 485-487.

[3] Goya R, Sun MG, Morin RD, et al. SNVMix: predicting single nucleotide variants from next-generation sequencing of tumors[J]. Bioinformatics, 2010,26: 730-736.

[4] Lo YM, Chan KC, Sun H, et al. Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus[J]. Sci Transl Med, 2010,2(61):61ra91.

[5] Chitty LS, Lo YM. Noninvasive Prenatal Screening for Genetic Diseases Using Massively Parallel Sequencing of Maternal Plasma DNA[J]. Cold Spring Harb Perspect Med,2015, 5(9):a023085.

[6] Lo YM, Hjelm NM, Fidler C, et al. Prenatal diagnosis of fetal RhD status by molecular analysis of maternal plasma[J]. N Engl J Med, 1998,339: 1734-1738.

[7] Lo YM, Lun FM, Chan KC, et al. Digital PCR for the molecular detection of fetal chromosomal aneuploidy[J]. Proc Natl Acad Sci USA, 2007,104: 13116-13121.

[8] Lo YM, Tein MS, Lau TK, et al. Quantitative analysis of fetal DNA in maternal plasma and serum: implications for noninvasive prenatal diagnosis[J]. Am J Hum Genet, 1998,62:768-775.

[9] Jiang P, Chan KC, Liao GJ, et al. FetalQuant: deducing fractional fetal DNA concentration from massively parallel sequencing of DNA in maternal plasma[J]. Bioinformatics, 2012,28(22):2883-2890.

[10] Fan HC, Blumenfeld YJ, Chitkara U, et. al. Analysis of the size distributions of fetal and maternal cell-free DNA by paired-end sequencing[J]. Clin Chem,2010, 56(8):1279-1286.

[11] van der Vaart M, Pretorius PJ. The origin of circulating free DNA[J]. Clin Chem, 2007 , 53(12):2215.

[12] Jiang P, Chan CW, Chan KC, et al. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients [J]. Proc Natl Acad Sci USA, 2015, 112(11): E1317-1325.

[13] Hernández-Gómez M. Non invasive prenatal test (NIPT) in maternal blood by parallel massive sequencingInitial experience in Mexican women and literature review[J].GinecolObstet Mex, 2015, 83(5):277-288.

[14] Chandrananda D, Thorne NP, Bahlo M. High-resolution characterization of sequence signatures due to non-random cleavage of cell-free DNA[J]. BMC Med Genomics, 2015,8-29.

[15] Xu XP, Gan HY, Li, FX, et al. Amethod toquantify cell-free fetal dna fraction in maternal plasma using next generation sequencing: Its application innon-invasive prenatal chromosomal aneuploidy detection[J]. PLoS One, 2016, 11(1):e0146997.

[16] Chiu RW, Akolekar R, Zheng YW, et al. Non-invasive prenatalassessment of trisomy 21 by multiplexed maternal plasma dna sequencing: large scale validity study[J]. BMJ, 2011:342, c7401.

[17] Lun FM, Chiu RW, Chan KC, et al. Microfluidics digital PCR reveals a higher than expected fraction of fetal DNA in maternal plasma[J]. Clin Chem, 2008, 54(10):1664-1672.

[责任编辑:王丽娜]

Theresearchoncalculatingconcentrationandmeanofcell-freefetalDNAinmaternalplasma

LU Jianbo1, GAO Huafang1, CAO Zongfu1, LI Qian1,CAI Ruikun1, YAN Yousheng2, MA Xu1*

1.HumanGeneticsResourceCenter,NationalResearchInstituteforFamilyPlanning,Beijing, 100081;2.GansuProvincialMaternityandChildCareHospital.

*Correspondingauthor:genetic88@126.com

Objective: To propose new mathematical model of the cell-free fetal DNA (cffDNA) concentration and their length mean value in pregnant women’s plasma. Methods:There was few method to be proposed for analyzing the concentration of cffDNA in pregnant women’s plasma. The existing methods were almost based on single nucleotide polymorphisms (SNPs). In this study, a new method were proposed, which had used K-means algorithm and Expectation-Maximization (EM) algorithm to develop a new method based on the length distribution of DNA fragments of mothers and fetuses in pregnant women’s plasma. The DNA fragments length distribution, cffDNA concentration and the length mean were analyzed by the new method. Results: The DNA fragments length distribution, cffDNA concentration and the length mean were analyzed by the new method.① From three samples, the mean of maternal DNA length of the were 167bp, 166bp, 165bp, respectively, and their corresponding mean value of fetal DNA length were 160bp, 163bp, 158bp, respectively. ②The fractional concentration of cffDNA from the three samples of pregnant mothers was 10.4%, 5.5% and 17.4%, respectively, which was similar with the results based on the percentages of the Y chromosome. Conclusion:Numerical experiments shows that the calculation of the concentration and the length mean value in pregnant women’s plasma are effective and accurate by the new method, which based on K-means algorithm combines with EM algorithm.

Expectation-Maximization algorithm; Non-invasive prenatal diagnosis; Next generation sequencing; Cell-free fetal DNA; DNA concentration

10.3969/j.issn.1004-8189.2017.06.004

国家重点研究发展计划(2016YFC1000307);国家重点研究发展计划子课题(2016YFC1000307-10);国家卫生计生委科学技 术研究所科技创新基金面上项目(2017GJM04)

2017-01-01

2017-03-13

*通讯作者:genetic88@126.com

猜你喜欢

游离外周血均值
游离股前外侧穿支皮瓣修复足踝部软组织缺损
外周血B细胞耗竭治疗在狼疮性肾炎中的应用进展
ACS患者血清FSTL-1、外周血淋巴细胞中PPAR-γ、 MMP-9与冠状动脉狭窄程度的关系
外周血红细胞膜脂肪酸C20:1n9水平与冠状动脉病变严重程度的关系研究
莫须有、蜿蜒、夜游离
陶珊珊作品
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
浅谈均值不等式的应用
均值不等式的小应用