关于在人类基因组中检测结构变异计算方法的综述

2014-10-21姜雷

电子世界 2014年6期

【摘要】结构变异是基因的重排列，它对于进化有显著的贡献，在人类中自然变异通常涉及到基因相关的疾病。细胞压力过大，错误的重组机制能够导致基因序列大量不同的结构变异，传统的显微镜与阵列碱基方法常被用于检测大的变异或者是重复序列变异。下一代基因测序海森理论的启用对于在人类基因组中检测各种类型的结构变异都有空前的准确性。事实上，一个显著的挑战在于发展中的各种计算方法是否有能力在生成的模拟数据上检测出结构变异，在过去的几年中，基于在实验数据中获得四种不同类别的数据类发明了很多检测工具，这四种数据类分别是：成对碱基读取，读取深度，分裂碱基读取，组合序列。

【关键词】结构变异;重复序列变异;下一代基因测序;检测算法;成对碱基读取;读取深度;分裂碱基读取;重测序技术;集合

1.引言

结构变异描述了基因变异对于基因结构的影响，尽管人类基因变异最有可能引起的原因是单碱基变异，但是在人类基因组中蛋白显性与结构变异的相关性远远高于单碱基变异。结构变异发生的范围可以从几个bp（碱基的基本单位）到整个染色体。结构变异对于人种的多样性与疾病的发生有显著的影响，并且在任何的基因学研究中是非常重要的。结构体变异研究对于检测大变异，比如非整倍性变异与用微复制方法重组染色体有一定的局限性。

对于阵列碱基法，目前来说序列碱基法更容易解决检测小的微型的结构变异。下一代测序技术理论上能用前所未有的速度够识别出所有类型的结构变异，几种不同的方法在检测数据中显著的变异中都各有优点与不足。然而这些方法需要大量的计算分析，大量的算法在过滤数据上由显著的进展，与参考基因组或者其他样列做对比发现有相近的结构变异。在这里我将介绍结构变异在人类与其他物种上的效果，组合机制的不同导致变异信息的不同，最终产生不同的结构变异。随后，我将给出一个能够被用于检测结构变异所有方法的一个概述并提供目前可提供基于下一代测序技术用于检测人类基因组结构变异的计算工具的一个概述。

2.结构变异

2.1 结构变异的重要性

在人类基因组结构变异现在已知能够比单碱基覆盖更多的核苷酸，成百上千的结构变异产生于基因组上，有些变异跨染色体，打断基因中某些有规律的元素，但是这些变异对于蛋白表达通常没有影响，但是也能引起碱基数量变化，基因分裂，新融合基因，新的调整机制。

新的但碱基变异形成与不同的调整机制都取决于变异碱基的位置。尽管很多的结构变异不在编码区，它们仍然引入了大量的遗传因子和表型变异，不仅仅在人类中存在这一现象，在各个物种间都有。

考虑到结构变异对于表达的影响，结构变异的发生对于自然選择与进化也有着显著的影响。事实上，结构变异在新物种的进化上与变异物种的进化上都有很大的关联，在植物与灵长类动物上有很多这样的例子，同样人类的一些特殊基因上也有这样的例子。下面将展示与人类由饮食引起的基因进化，还有取决于结构变异的疾病基因。

大量与疾病有关的结构变异是结构变异中的典型，变异影响基因的表达或者影响编码序列都会产生广泛而大量的基因疾病。俩个展示罕见和普通结构变异与疾病之间关系的模型已经被提出，第一个模型描述了在人类中罕见与常见的变异引起的疾病并收集了大量关于各种先天性疾病，神经性疾病，肿瘤类疾病的信息。第二个模型关注人口中普遍存在的变异，特别是拷贝数量变异的家族基因，尽管收集信息时病情的复杂程度会影响模型的敏感性，特别是免疫系统的疾病。例如这个模型中的HIV，疟疾，还有多种多样的免疫疾病。尽管在俩个模型中能够发现很多的例子，但这些例子在由结构变异引起的人类疾病中也是不全面的。这个问题归咎于我们对于普通变异与罕见变异的定义过于简单化。然而，有一点是非常明确的就是检测结构变异对于人类疾病的调查有很深远的影响，无论在诊断上还是在疾病的治疗上。

除了在疾病中扮演的重要角色，结构变异在人类普通日常功能上也很重要。类别转换重组的过程就依赖于结构变异对自身的刺激。这个过程对于抗原刺激使多种繁殖B细胞成熟时很重要的，同样对于人类免疫系统的完善也至关重要。对于结构变异的研究也告诉了我们关于遗传的机制。在过去的几年中对于制造结构变异的需求以及结构变异在遗传机制中扮演的角色都变得显著。然而，重要的是在各个研究领域中识别结构变异的正确率问题。

2.2 引起结构变异的原因

我们首先考虑的是结构变异产生的随机性，在特殊情况下结构变异的形式，特殊环境的影响还有细胞压力触发的结构变异。各种各样的压力源如：碱基复制，转录，或者细胞氧化再或者基因自身的重组都会触发结构变异。这些压力源也会导致DNA断裂与敏感处DNA复制失控从而导致结构变异，特殊的序列对于结构变异更加敏感是源于他们自己的结构，以及相关联的蛋白与基因序列层次的改变。此外，功能基因重组涉及到免疫系统中的蛋白会产生迷失目标的效果，从而导致DNA链双项断裂。在DNA链中随后而来的错误配对与错误重组会引发结构变异，从而对蛋白的定位或者在俩个指定位置间的近似定位产生错误，最后影响了基因的表达。

例如，非同源碱基末端重接的重组机制非常易于产生DNA双链断裂，单个的双链断裂对于DNA的自我修复能力来说是很容易修复的，但是如果在同一个染色体中有俩个双链断裂，会引起染色体中产生备用链。交替尾部链接机制是和基因重组有关而又不同的一种重组机制，然而这种重组机制的精确性目前来说我们还不知道，等位基因重组机制修复DNA双链断裂是用一个模板序列相对应无差错的修复。然而这种修复机制的缺陷在于它能够导致非等位的基因重组。基于这个事实，非等位序列经常出现大量重复区域，假基因，以及多余复制碱基等因素导致的结构变异。另外基于非同源末端重接的重组机制下的复制，转录也被认为是产生结构变异的主要原因，而这俩个原因还会引起染色体混乱重组。现有几个模型的存在来解释这种结构变异的产生。微同源序列断裂修复模型指出单个DNA链断裂，然后复制到任何一个相近似的DNA单链，随后复制区域聚合，复制模板交换从而产生了染色体的混乱重组。还有一个相近的模型叫做锚点丢失与模版转换模型，模型中复制区域的锚点模版转换，听起来和上一个相似但是这个模型的转换是在DNA链没有断裂的情况下完成的。最后染色体内部和外部的非同源碱基碎片随机重组这一现象被称为染色体碎裂。在这个模型中一个或多个染色体被碎裂，然后随机融合。辐射和其它一些都可以引起大范围的染色体断裂。

2.3 结构变异的类型

结构变异可以以很多种形式发生，在这些形式中我们可以分为拷贝数量变异（CNV）与拷贝均衡变异。拷贝均衡变异包含反转变异与移位变异。拷贝数量变异包括删除，插入，复制。插入涉及一个新的序列或者异变碱基。新的序列的插入或者异变碱基的插入可能是由于碱基移位或者序列复制引起的。复制可能引起一系列串联的复制。碱基的复制分割点可能在附近的DNA源上，或者穿插于附近的合并的DNA進行复制。这个事件可能发生在染色体的内部。但是也有可能发生在不同的染色体间。从而导致染色体内部变异。结构变异的大小通常超过50bp或者1000bp。然而除了单碱基变异之外的任何变异都可以引起结构体变异。我们讨论的一些形式的变异通常发生在1bp到50bp之间，通常被称为非单碱基基因变异。

当然，一些变异的发生不单纯是一种类型，而是混合了多种类型。比如说反转序列碎片中可能同时包含一个删除类型的变异与插入类型的变异，或者其他类型的组合。所有变异形式中检测最不容易的是由染色体之间的重组导致的变异，额外还有，一条染色体上发生的删除而恰恰这条染色体其他位置上还有一个大小一样的插入，这导致很难发现变异的位置。然而不是所有形式的变异都可以检测出发生位置能变异的大小。准确的识别出结构变异需要全面的认知我们研究基因上的所有结构变异。检测变异类型的能力涉及不同变异类型，有的类型比较容易检测出，有的则复杂一些。我们将在下面进行讨论。

3.检测结构变异

像上面提到的那样，结构变异在大小上有很大的不同，比较大的结构变异被认为是微复制变异，它们可以被传统的细胞遗传技术所检测出，细胞遗传技术包括基因技术，比如说染色体核型技术，染色体绘画型技术。这些技术仍然被广泛应用，这些方法能够检测出大部分类型的几兆碱基大小的结构变异与非整倍体结构变异，基于这些技术上的提高仍在继续，为结构变异的检测问题的解决与灵敏度的提高都有待加强。

对于检测小的亚微观的结构变异，这些结构变异都有高分解度与高灵敏度，更多的新分子将在检测中被用到。这些方法无论在矩阵碱基或者是序列碱基中都被称为经典。用这些方法识别结构变异通常都用实验基因与参考基因组或者其他的样本基因组进行对比，来从他们的不同中来推断变异，下面，我将简要的介绍矩阵碱基与序列碱基法。

（1）矩阵碱基法

阵列原来是为了检测RNA表达分析而发明的，但是现在被应用在了一个更加广泛的范围上，包括检测结构变异。微矩阵碱基方法依靠在载玻片上识别微矩阵碎片，这些碎片用于固定基因中作为杂交试验基因的目标基因。尽管序列碱基法对于检测拷贝数量变异更加符合成本效益而且更流行，但是临床诊断上主要还是用微矩阵法进行筛查。用微矩阵法检测拷贝数量变异通常用俩种阵列，杂交基因比较阵列与单碱基突变阵列。近来的一些检测平台，以及一些公司开发的市场像Agilent，Illumina，Roche和Affymetrix。这些检测机构能够在一个基因碎片上检测出成千上万个探针，现在新发明的一些阵列变得更加灵敏更加实用。

（2）杂交基因比较阵列

杂交基因比较阵列平台可被用于在目标基因上俩个杂交荧光标记样本的相关单碱基变异的检测。实验的DNA是DNA碎片并且预先进行荧光标记。用不同的荧光染料标记，例如在不同的样本用绿色和红色进行标记，检测每种荧光的量就能知道实验用DNA中每个样本的数量大小。这对应用已知参考样本进行时很重要，比如一个样本中增加而另一个样本中发生了等量的缺失，再没有荧光标记之前是无法被检测出的。为了精确的识别结构变异，正规的来说我们通常都要知道实验样本所在DNA的GC含量，还有燃料是否失衡。

第一个杂交基因比较阵列实验是用于一段大的插入的人造细菌染色体。把人造细菌染色体作为目标，在目标中可以检测范围在100kb大小的单碱基变异甚至范围更大的变异。目前用于检测单碱基变异的寡核苷酸只能检测几千个碱基大小的单碱基变异。杂交基因比较阵列有一个比较大的优势是可以提供常用阵列，这些阵列可以像平台一样的被使用。杂交基因平台可以达到一个相当高的检测率，特别是用于普通问题的检测。

（3）单碱基突变阵列

单碱基突变阵列原本是被设计用于检测单个碱基的多态性，但是目前已经适应单碱基变异的检测。有一点与杂交基因比较阵列有些相似，单碱基突变阵列也是依靠目标DNA的杂交。然而仅仅测试样本是杂交的，而且不需要杂交的参考样本。对于拷贝数变异的检测是通过幻灯片上由许多点聚成群簇的强度而确定的。拷贝数量变异检测是看样本群簇值与参考基因组群簇值在实验中与在数据中的不同，还有通过不同算法的分析。这些分析的概述在温彻斯特的总结中可以看到。

与杂交基因比较阵列相似，单碱基突变阵列解决问题的能力与它第一次被应用的时候相比有了显著的提高，无论应用于哪种类型的变异。目前一个DNA碎片上可以存在成千上万个单碱基突变，为了增加解决问题的能力，设计阵列的重点在于要结合未知大小的拷贝数量变异区域内的单碱基突变信息，在一个实验样本中增加可以被检测出的变异数量来获得这些信息。但是这样做会有一个很严重的负面效果，它会使已知的拷贝数量变异产生很大的变差。单碱基突变阵列对于杂交基因比较阵列来说在检测拷贝数量变异上的灵敏度较低，但是单碱基突变阵列在提供基因变异类型信息与拷贝数量变异同源基因信息上有很大的优势，在检测拷贝数变异的时候也更加准确，并且允许丢失一定的杂交体。

参考文献

[1]Check，E.Human genome：patchwork people.Nature 437， 1084-6（2005）.

[2]Conrad，D.F.et al.Origins and functional impact of copy number variation in the human genome.Nature 464，704-12（2010）.

[3]Fanciulli，M.，Petretto，E.& Aitman，T.J.Gene copy number variation and common human disease.Clinical genetics 77，201-13（2010）.

[4]Feuk，L.，Marshall，C.R.，Wintle，R.F.& Scherer，S.W.Structural variants：changing the landscape of chromosomes and design of disease studies.Human molecular genetics 15 Spec No，R57-66（2006）.

[5]Hurles，M.E.，Dermitzakis，E.T.& Tyler-Smith，C.The functional impact of structural variation in humans.Trends in genetics ：TIG 24，238-45（2008）.

作者简介：姜雷（1987—），男，黑龙江佳木斯人，哈尔滨师范大学数学系在读研究生，研究方向：微分方程数值解。