APP下载

法医族源推断的分子生物学进展

2018-03-31

法医学杂志 2018年3期
关键词:法医甲基化遗传

(四川大学华西基础医学与法医学院,四川 成都 610044)

族源推断(ancestry inference)是指通过评估一系列指标而推断未知来源样本或个体的地理起源或其遗传信息中不同地理起源成分的构成比例。从人类学中的肤纹骨骼指标,到群体遗传学中各个层面的遗传标记,评估指标通常具有地域或群体特异性。有研究[1]证实,由于进化过程中地理隔离、遗传漂变等因素的综合作用,人类遗传差异程度与采样地间的地理距离成正比[2-3]。由于地理距离和区域划分的限制,人类的繁衍交配并非完全随机,也不是严格的异血缘交配,海洋、山脉等天然存在的屏障将人类活动限制在一定的区域范围内,不同区域间的基因交流相对较少。通常,基因交流频繁发生的个体间被认为拥有相同的基因库,即同一族源。

法医族源推断,是将进化研究领域的族源推断应用于司法鉴定或刑事侦查的实践当中,为司法案件的审理提供重要证据,为缩小嫌疑人的排查范围提供线索,从而协助司法程序顺利完成。除了具备科学研究的普遍特征外,法医族源推断还应满足法医学实践的特殊要求,特别是要应对具有不稳定、不确定、微量、指征模糊等特点的法医学检材。探寻更加高效的特异性推断指标是法医族源推断最重要的任务之一。随着科学的发展与技术的进步,人类的自我认识深入到基因层面,DNA作为遗传信息的直接载体,成为法医族源推断指标的理想来源。测序技术的不断完善带来了海量的遗传数据,为新型遗传标记的探索奠定了坚实的基础。法医族源推断指标的探索从表型到基因型、从描述到量化,产生了质的飞越。用于族源推断的遗传标记也被称为祖先信息标记(ancestry informative marker,AIM),通常是指在不同群体间等位基因频率分布差异较大的多态性位点,一组AIM的联合分析可以推断某特定群体的遗传成分构成,也可以推断某一个体的祖先来源。本文将对法医族源推断的发展进程进行综述,分析各种推断指标及判别方法的特征及其适用范围,进而对该领域的研究方向作一展望。

1 族源推断遗传标记AIM

受气候、疾病发生情况、饮食及种植等因素的影响,不同地区会有不同的自然选择策略[4],相关基因会因此产生等位基因频率分布的地理差异,具体表现为相同基因中特定等位基因在特定地区的表达,以适应相应的地理环境,如SLC24A5在欧洲人中产生去色素化作用、为对抗区域性疟疾趋化因子基因的达菲抗原受体(Duffy antigen receptor for chemokines gene,DARC)在非洲人群中产生了新的等位基因以及为适应乳品的摄入β半乳糖苷酶-微小染色体维持蛋白基因(lactase-minichromosome maintenance proteins 6,LCT-MCM6)在三个地理位置上互不相连的地区人群中产生了相同的等位基因等[5-7]。还有一些基因的等位基因频率分布具有显著的地理差异,但其表型变化并不明显,如EDAR和ABCC11在东亚人群中的多态性要明显少于其他地区[8-9]。自然选择作用可能会使某些等位基因在特定的区域达到很高的频率,甚至是成为该地区所特有的等位基因,但是这种情况还是比较罕见[10]。但相应基因中编码的单核苷酸多态性(single nucleotide polymorphism,SNP)无疑是法医族源推断的理想标记,可以作为族源推断体系的重要组成部分。

1.1 AIM-SNP

人类基因组计划公布的SNP图谱[11]为早期法医AIM的选择提供了数据基础。第一个用于法医族源推断的检测体系是以商业化试剂盒的形式呈现的,2003年由DNAprint公司授权,名为“AncestrybyDNA”。该试剂盒采用SNPtream方法检测复合扩增的178个SNP,而具体的遗传标记、人群频率和法医学参数等数据在其商业应用的7年内并没有公布,直至2008年DNAprint公司终止该试剂盒的运营前才公开发表[12]。

法医族源推断体系的研究初期以鉴别大洲间人群为目标。其中,2007年,PHILLIPS等[13]建立的包含有34个SNP的复合扩增体系最为经典,也最常被提及。该体系之后被进一步优化[14],包括置换出一个效能较低的位点,新增更多DNA分型数据,完善了法医AIM-SNP频率数据库。此后,以大洲人群差异为对象的研究相继开展,2009年,KERSBERGEN等[15]报道的包含有47个SNP的分析体系,综合了地理、语系、Fst、STRUCTURE聚类在内的多方面参数作为筛选标准;LAO等[16]通过芯片分析,对体系内容进一步调整,将遗传标记数目压缩至10个。研究表明,这10个遗传标记的推断效能与ROSENBERG等[17]研究中的377个短串联重复序列(short tandem repeats,STR)相当,证实了SNP蕴含着丰富的族源推断信息。较为近期的是ROGALLA等[18]在2015年发表了一个仅包含14个SNP的复合扩增体系,旨在通过小而精的体系对未知检材的族源范围进行粗略的划定,以便后续工作的展开,具有较强的法医学实践价值。

而针对大洲内部,或某特定区域内的族源推断,由于涉及更细微的人群结构研究,起步相对较晚。典型的两个体系分别是:2013年发表的Eurasiaplex法医族源推断体系[19]和2016年报道的Pacifiplex环太平洋人群族源推断体系[20]。Eurasiaplex以23个AIM-SNP解决南亚人群和欧洲人群的鉴别问题,而Pacifiplex则通过29个AIM-SNP对环太平洋区域的人群进行溯源。二者在选点之初均考虑到与最经典的大洲判别体系34-plex进行区别,在物理位置上也有意隔离,因此,可作为大洲判别后进一步精准溯源的工具。类似的研究还有LAO等[21]针对多人种混合的移民国家建立的族源推断体系,以美国为例,研究族源混杂人群。体系包含有两组复合扩增系统,每组12个AIM-SNP,与PHILLIPS的经典34-plex体系只有一个重叠位点rs16891982,可作为新体系的质量控制位点。该研究是以国家为单位的混杂族源研究的先驱和典范。

GETTINGS等[22]于2014年报道了一个兼具族源推断和色素表型判别功能的复合扩增体系,以50个SNP在大洲层面上对未知样本进行族源推断,同时预测肤色、毛发、虹膜等颜色,是一种极具价值的尝试。为避免一些群体差异并不显著的色素预测SNP影响整体族源推断效能,50个遗传标记被分配至三个不同的复合扩增体系进行扩增检测,色素相关的预测位点全部位于同一扩增体系中,可依据不同的目的选择性地单独检测和分析。

不同目的的族源推断所选择的遗传标记较少重合。其中,rs16891982出现的频率最高,其次是rs3827760、rs2814778以及色素相关位点rs1426654;rs12913832 在 34-plex[13]、Gettings[22]和 FROG-kb 中均有涉及;rs1876482是一个富含东亚人群信息的代表性遗传标记,被Lao[16]、Gettings[22]和FROG-kb所采用。

二代测序技术(next generation sequencing,NGS)能够对多达400个目标SNP(InDel或者 STR)基因座进行直接测序分析,并具有与SNaPshot相当甚至更高的检测敏感度,满足了法医学检验检材少、精度高的要求,成为理想的法医学分析平台。大规模法医族源推断体系的研究按照发表的顺序分别为:PASCHOU 等[23]的 50个 SNP、KOSOY 等[24]的 128个SNP和GALANTER 等[25]的 LACE体系(446个 SNP)。这些都是针对非洲、欧洲及美洲人群的研究,并没有涉及东亚人群,而且所选位点都是独立的遗传标记,没有优化为复合检测体系。KIDD等[26]和PHILLIPS等[27]分别报道了包含有55个SNP和128个SNP的复合扩增体系,预计能够在NGS平台上进行同时检测。KIDD等[26]的研究采用新的人群数据对KOSOY等[24]的AIM进行了评估,结果表明,虽然最初的筛选没有考虑东亚人群,但这套遗传标记对于东亚人群也同样适用。KIDD等[26]对其进行了调整,平衡了体系在群体间的差异分布,减小了对不同人群分析的效能偏差,同时增加了一些分辨效能更高的遗传标记,从而建立了这个包含有55个AIM的体系,列在FROG-kb上。两个体系相结合,就组成了以Ion PGMTMNGS为平台的HID-Ion AmpliSeqTM族源试剂盒,而KIDD的55个AIM单独构成了以Illumina MiSeq ForenSeq NGS为平台的族源信息分析试剂盒。KIDD的55个AIM还被进一步挑选,其中41个用来建立了iPLEX体系(用于单碱基延伸的Sequenom质谱检测平台)[28]。该体系同样可以采用SNaPshot方法进行检测,是目前为止应用率较高的一组遗传标记。PHILLIPS等[27]报道的128个全球AIM借鉴了KIDD实验室的55个AIM和Galanter’s LACE的体系,侧重点在于平衡各个位点对于不同人群的分辨效能,从而避免混杂族源情况下对不同祖先人群比例估计的偏差。NGS技术的引用大大增强了遗传数据分析的深度,数据通量是传统PCR-CE分型方法的10倍以上,从而有效提高了族源推断效能及个体族源的混杂程度分析。

1.2 AIM-STR

以STR为遗传标记进行族源推断基本上有两种途径,一是沿用法医个体识别的标准STR,通过贝叶斯的分析方法得到最有可能的族源似然比[29-30];另一种是专门针对族源研究探索全新的STR遗传标记(AIM-STR)[31],以此为目的的研究通常会选择核心序列为二核苷酸的STR,这种遗传标记因为会在检测过程中产生较为明显的影子峰而很少在法医学实践中应用[32]。2002年,ROSENBERG等[17]首次采用STRUCTURE[33]以遗传相似度为标准对人类基因组多样性计划(human genome diversity project-centre d’etude du polymorphisme humain,HGDP-CEPH)的遗传数据进行聚类分析。ROSENBERG选择了377个高度多态的STR分析全球人群结构:K=5时的五类群体分别对应欧亚大陆,亚撒哈拉以南的非洲、东亚、美洲和大洋洲;而K=7时,在之前五大洲聚类的基础上,将亚欧大陆又细分为欧洲、中东和中/南亚。结果表明,以STR为遗传标记可以清楚地将世界人群进行分类,类别与大洲或是洲内相应区域人群相对应。PHILLIPS等[34]以ROSENBERG的377个STR为基础,以频率信息为指标,筛选得到一组分辨效能较高的四核苷酸的STR用于人群分析。为方便STR遗传标记的分析,用于SNP族源分析的网页版软件SNIPPER也做出了相应的调整,从最初的只能识别基因型信息到现在可以同时分析基因型信息和频率信息,从而能够同时分析STR和SNP。

1.3 AIM-InDel

2006 年 ,BASTOS-RODRIGUES 等[35]以 40 个插入缺失(insertion/deletion,InDel)标记作为遗传标记研究人群结构,虽然报道中的遗传标记更强调在欧洲人群中的杂合度而非族源信息含量,但对HGDPCEPH的分析依旧能够准确无误地划分出五大洲人群,并与 ROSENBERG等[17]采用377个STR的分析结果一致。2010年,SANTOS等[36]筛选出48个InDel遗传标记明确用于欧洲、非洲和美洲三个大洲间的人群鉴别,认为该检测体系更适合于对多族源混杂个体的推断。2012年,PEREIRA等[37]报道的包含有46个AIM-InDel的复合扩增体系,探索性地增加了东亚人群为研究对象,并采用小扩增子策略(均小于230bp)和聚合酶链反应-毛细管电泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)的直接检测途径,便于实际检案应用。另一个用于族源研究的AIMInDel体系来自于ZAUMSEGEL等[38],21个AIM-InDel构建复合扩增体系,该体系与前面提到的46-plex的体系没有重叠位点,提供了全新的遗传标记。在体系设定方面,这21个遗传标记仅用到了6-FAM和HEX两种荧光标记,留下了更多的空间为后续位点的添加和调整做准备。

1.4 非重组遗传标记

另外还有一系列DNA多态性遗传标记蕴含祖先信息,具有成为AIM的潜能,包括Y-STR、Y-SNP、mtDNA等。Y染色体上的非重组遗传标记(non-recombining part of Y-chromosome,NRY)和 mtDNA 由于只携带双亲其中一方的遗传信息,且不受重组交换的干扰,能够将亲代的遗传信息完整保存,并传递给下一代,与生物地理族源相关的信息也自然随之传递,因此成为研究人类进化的理想遗传标记[39]。NRY是研究父系血缘最理想的素材,而mtDNA是研究母系血缘的理想标记。除了能表现出显著的地理差异外,由于特殊的遗传方式,非重组遗传标记具有较小的有效群体数,对遗传漂变等更加敏感,常被用于群体遗传学研究[39-41]。

但针对法医族源推断的目的而言,这类遗传标记似乎并不理想。单独分析这类遗传标记进行族源推断具有较高风险,特别是当父系与母系具有较远的遗传距离时,分析结果常会偏离客观事实。一个经常被提到的例子就是单纯检测Y染色体遗传标记,错将北约克郡血缘样本的族源推断为非洲[42]。城市人群由于基因交流,族源混杂的情况越来越普遍,而这恰恰是非重组遗传标记族源分析的盲点。另一个方面,与Y染色体遗传标记或mtDNA相比,常染色体遗传标记的群体参考数据更易获得,30~40个样本的基因型数据就足以估计各等位基因的分布频率。在11-M马德里炸弹袭击的案件调查中[43],采用常染色体遗传标记与采用Y染色体遗传标记、mtDNA推断族源的结果不一致,就是由于北非人群数据库缺乏、参考数据不足而阻碍了对该区域人群的辨认。现在法医界鼓励扩大YHRD(http://www.yhrd.org/Contribute)和 EMPOP(http://www.empop.org/modules/contribute)[44-45]等单倍型数据库的建设,特别是报道较少的地区,从而加强单亲遗传信息对族源推断的应用效能。

2 分析方法简述

上述的各种指标要用来分析人群结构、亚结构或是推断族源还需要一些统计算法和模型的支持,同时,这些指标的效能及表现力也有赖于分析方法的选择和应用。进行人群分析的一个最基本的前提假设是:无论是个体的基因组还是一个群体的宏基因组都是来自于各个祖先人群基因组的混合[46]。因此,族源推断的研究分为几个不同的层面,包括人群、人群中个体以及个体中的遗传位点。基于此,人群分析和族源推断的算法也可以分为两大类,即全局族源(global ancestry,GA)和局部族源(local ancestry,LA)。

2.1 全局族源推断

GA的主要目的是通过对分布于整个基因组的各个遗传标记进行综合分析,得到不同族源的贡献程度。分析方法主要分为基于模型的和非参数型的两类。

基于模型的方法以特定的统计学模型为假设,估计个体的族源系数。例如,STRUCTURE[33]和ADMIXTURE[47]均以观测到的遗传标记分型来估计人群间的等位基因频率及族源混杂比例,而其前提假设是Hardy-Weinberg平衡和遗传标记间的连锁平衡。由于算法的不同,以相同准确度为前提,ADMIXTURE的运算速度更快。此后,相继出现了以STRUCTURE为基础的很多改良版本,包括修正了Hardy-Weinberg平衡的InStruct[48]、加快运算速度的fastSTRUCTURE[49]等。基于相同模型的还有FRAPPE[50]、稀疏非负矩阵因子分解(sparse non-negative matrix factorization,SNMF)和最小二乘法的联合应用使得运算速度又有了进一步的提高。空间族源分析(spatial ancestry analysis,SPA)[51]与上述方法均不相同,采用概率论的方法估计不同空间里等位基因频率的变化,从而将不同的个体聚类至二维或三维空间里。

非参数的方法利用聚类、主成分分析(principle component analysis,PCA)等多元分析技术推断数据信息的结构。聚类的主要目的就是直接找出数据中代表不同人群的子集合。PCA、多维测量(multi-dimensional scaling,MDS)和主坐标分析旨在将遗传标记分型信息的大部分变异在低维空间内呈现。这些方法推断出的坐标与样本采集的地理位置通常具有很高的相关性[52-53]。EIGENSTRAT[54]就是以PCA为主要算法的分析工具。对于相距较近的遗传标记,连锁不平衡能反映出特定的宗族血缘。对于由测序平台得到的较为密集分布的多态性信息数据,单倍型具有发掘同族信息的潜能,能够更好地发掘人群亚结构。为了利用单倍型结构进行高质量的PCA分析以及族源推断,LAWSON等[55]设计了 ChromoPainter和 fineSTRUCTURE两款软件。虽然能够为人群结构分析提供更为全面的信息,但单倍型的计算要比PCA和ADMIXTURE等程序耗费更长的运算时间。

2.2 局部族源推断

LA的推断方法是将基因组片段化,由于基因交流而形成的族源混杂则被看作是不同族源的DNA片段的组合。要了解各族源的混杂比例就需要估计基因组中不同区域所代表的特定族群。目前的大多数方法利用隐马尔可夫模型(hidden Markov model,HMM)或其扩展技术对数据进行概率模拟。

LA早期的推断方法基于STRUCTURE框架,采用HMM算法而并不考虑背景连锁不平衡。后期发展的一些方法,如 SABER[56]、HAPAA(基于 HMM 的混杂族源多态性分析)[57]、HAPMIX[58]等通过加大量运算准确模拟LD信息,能够同时考虑两个族源群体。混杂人群的局部族源推断(local ancestry in admixed populations,LAMP)[59]采用聚类的方法假设同时检测的位点间不存在重组情况,对每组相邻的SNP进行检测分析,在运算速度和推断准确度上都有了质的飞跃。为准确分析相互关联的两个群体,PASANIUC等[60]在LAMP的基础上进行了修改和优化,得到了WinPop(族源相近人群的位点特异性族源推断模型)。之后,针对LA推断陆续报道了一些新的探索,包括SupportMix[61]、族源特异性主成分分析(ancestry-specific principal components analysis,ASPCA)[62]、RFMix[63]、高效推断局部族源(efficient inference of local ancestry,EILA)[64]等,他们多采用PCA对不同片段的族源推断进行综合分析,以求在推断准确度和运算速度上进一步提高。

理论上,无论采用何种分析公式和预测模型,除了涉及连锁不平衡的分析方法外,位点数量和样本量的增长是体系推断效能提高的决定性因素。然而也有研究表明,只要满足样本量大于10,SNP数目大于100便可以对人群亚结构有较为准确的估计[65]。当遗传标记数目较少时,fastSTRUCTURE分析具有最优的表现,其次是ADMIXTURE和SNMF。考虑到各种算法检测到的群体多样性存在差异,对样本量差异所造成的偏差的敏感度不同,以及遗传噪音的普遍存在,有必要对同一组数据同时进行不同算法的分析。对不同算法的分析进行综合统计[66]能够起到互相验证的作用,保证系统推断效能,从而有利于族源推断的准确进行。

3 前景与展望

事实上,通过分析遗传变异来推断未知样本的族源在法医鉴定实践中还具有更为广泛的应用。除了辨认犯罪现场DNA样本的来源,获取相关信息缩小排查范围外,至少还有:(1)通过遗骸样本完成对失踪人员或大型灾难遇难人员的信息收集;(2)对法医DNA数据库的人员身份信息进行确认;(3)对与罪犯DNA数据库样本信息存在部分吻合并怀疑与其存在亲缘关系的未知样本进行区间判别[67];(4)通过个体族源信息评估表型特征的出现概率(采用Irisplex系统[68])。

越来越多的新方法或改良版本不断涌现,用于深度挖掘族源推断材料。表观遗传学的研究为遗传标记的选择带来了全新的视角。甲基化是目前为止研究最为透彻的表观遗传学机制,在体细胞中几乎全部发生在CpGs结构中的胞嘧啶残基上。CpGs主要分布于基因的启动子区域,形成CpG岛,调控相邻基因的表达。甲基化水平受到营养摄入,污染物暴露,社会环境等环境因素的影响[69],是良好的环境作用指示物。近年来,一些研究报道了甲基化水平表现出显著族源差异的CpG位点[70-73],这些差异主要来自于:(1)不同人群间SNP等位基因频率的分布差异[74]和(2)等位基因特异性的DNA甲基化和甲基化量化特征位点(methylation quantitative trait loci,mQTLs)[75]。与基因组变异不同,DNA甲基化的遗传模式随很多不同的因素变化,包括族源、年龄和细胞组成等。目前为止,甲基化水平的族源差异报道仅限于非洲人群和高加索人群。研究[70,73]显示,与高加索人群相比,非洲人群普遍具有较低的甲基化水平。LAM等[76]的研究表明,外周血的甲基化水平与种族、精神压力、生活早期的社会经济状态有关。无论是新生儿的外周血样本,还是CEPH数据库中的细胞系样本,非洲人均表现出较高加索人群低的甲基化水平[77]。也有研究致力于通过挖掘甲基化水平的族源差异位点来进行DNA甲基化研究的人群结构矫正。BARFIELD等[78]采用主成分分析的方法对不同组合的甲基化数据进行分析,以探究修正人群结构的方法。研究表明,结合SNP和甲基化位点的主成分分析能够取得较为理想的矫正效果,在无法获得全基因组SNP数据时,对相邻CpGs位点的分析可以作为较好的替代方法。针对法医学应用的表观遗传学标记,其显著的族源差异特征具备法医族源推断的要求,不失为一个理想的探究方向。

目前也有很多SNP体系可供选择,用于调整、合并、重组成为以NGS为平台的更大的分析体系。主要的思路还是首先建立能够对五大洲人群进行准确推断的检测体系,这五组人群的划分最符合人口的分布特征,是地理区域划分与遗传变异分布最为吻合的一种分组方式,在此基础上,建立用于划分亚人群结构的检测体系,从而有的放矢地针对某一特定地区的人群分布进行深入的研究和更加精确的划分。值得一提的是东亚人群,由于混杂程度高,可借鉴的数据少,东亚人群一直以来都是族源推断,乃至人群研究的难点。中国作为多民族融合的大国,具有人群多样化程度高、差异度小、历史悠久等特征,是族源研究的重要对象。针对精细化人群结构的划分要求所选遗传标记特异性高、均衡性好,在整合过程中需要注意:(1)同一个基因内不同的SNP可能被同时选入同一体系,此时需要考虑删除调整,以避免进行二次评估;(2)与自然选择相关的基因会表现出极为显著的频率分布差异,就单个遗传标记而言是比较理想的选择,但复合到体系中可能会影响同体系中其他的遗传标记,需要谨慎选择;(3)单倍型作为一系列不发生重组的遗传标记的组合,可以在很大程度上更加全面准确地反应人群结构,可以作为备选考虑[55,79]。同时,个体识别、族源推断、外部特征预测等遗传标记的同时检测也成为重要的研究内容之一,其实际应用价值高,能为案件处理提供更多的信息。于是,如何有效利用高通量高深度的分析平台成为接下来研究的主要方向,包括甄选效能更高的遗传标记、复合适用于特定案件分析的位点组合方式、调整遗传标记间的配比,从而平衡系统对不同人群的分辨效能等。

还有待进一步商讨的问题是,无论是遗传标记还是采样的人群,都具有异质性,而这一点也是进化生物学及群体遗传学研究的一大挑战,除非建立一个全球范围内的计划,统一确定待研究的人群和采用的体系种类,不然异质性是不可避免地存在的。由于研究对象与遗传标记选择差异,独立研究的所谓地理区域的划分或者人群结构分析都难免会有失偏颇。

猜你喜欢

法医甲基化遗传
非遗传承
虫虫法医
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
环境法医“捉凶”记
AMDIS在法医毒物分析中的应用
78例颅脑损伤死亡法医病理学分析
SOX30基因在结直肠癌中的表达与甲基化分析
鼻咽癌组织中SYK基因启动子区的甲基化分析