APP下载

猪基因组结构变异研究进展

2022-09-30宗文成王立刚宋成义王立贤张龙超

畜牧兽医学报 2022年9期
关键词:白猪产仔数染色体

宗文成,王立刚,宋成义,王立贤*,张龙超*

(1.中国农业科学院北京畜牧兽医研究所,北京 100193; 2.扬州大学动物科学与技术学院,扬州 225001)

染色体重排(chromosomal rearrangement)导致不同染色体间遗传物质的交换,造成生物体基因组内出现了大量的结构变异(structural variation, SV),这是产生遗传变异的主要原因之一。一般来说,SV是基因组中大于50个核苷酸的重排,且主要出现在基因组的非编码区域,通常不会改变成熟蛋白的结构。尽管如此,SV的大小和位置可以决定转录调控元件的结合、mRNA 剪接和加工、基因组折叠和高阶结构以及翻译的变化,从而影响某些物种的表型。此外,SV与基因组的进化也有着密切的联系。

早在上世纪二十年代,Bridges就报道了果蝇()的基因组中存在着大的染色体重排,且后续研究发现棒眼基因()的复制能够导致果蝇棒眼的形成。但是关于畜禽的 SV 研究直到上世纪五十年代才有所进展,当时Knudsen在牛()的基因组中检测到染色体易位,并发现其与公牛的生育能力降低有关。关于猪()基因组的SV,近年来基于全基因组扫描技术的进步已经开展了一些拷贝数变异(copy number variation, CNV)相关的研究。Chen等首次详细注解了猪基因组的RNA转座子,发现SINE转座子在猪基因组内贡献了大量的多态并开发了分子标记。Zhou等则构建了猪基因组第一个综合数据库PigVar (http://www.biomedical.net/pigvar/),这个数据库汇集了来自287头猪及其亲属的SNP和211头猪的SV。

随着测序技术的发展和测序成本的降低以及SV检测方法不断的进步,SV在畜禽驯化、适应、生产、毛色、形态和疾病方面已被证实扮演了重要的角色。本文对SV的分类、形成机制、检测方法以及在猪的繁殖、肉质、生长、毛色、疾病、嗅觉和耳朵大小性状等方面的研究进行综述,并对未来的发展方向进行了展望和讨论。

1 SV分类

一般来说,按照基因组中DNA量的变化进行分类,基因组中的SV可分为两种类型,其中一类是非平衡性的CNV,即基因组DNA发生量的改变,例如核苷酸的缺失(deletion, DEL)、插入(insertion, INS)、移动元素插入(mobile-element insertion, MEI)和重复(duplication, DUP);另一类是平衡性的重排,即基因组DNA仅发生顺序的改变,例如染色体的倒位(inversion, INV)和易位(translocation, TRA)(图1)。目前,CNV作为SV的主要形式,更多的被定义为长度从一千碱基到数兆碱基不等的DNA片段。

该示意图描述了与参考基因组比对时测试基因组中的缺失、插入、转座子插入、串联和散在的节段重复、倒位和易位。Ref.参考基因组The schematic depicts deletions, novel sequence insertions, mobile-element insertions, tandem and interspersed segmental duplications, inversions and translocations in a test genome when compared with the reference genome. Ref. Reference genome图1 结构变异的类别[23]Fig.1 Classification of structural variation[23]

DEL是最常见的一种SV,指染色体上一段核苷酸序列的缺失,导致了碱基数目的减少。根据缺失位置的不同可分为中间DEL和末端DEL。

INS包括一般核苷酸片段的插入和MEI。一般的INS是指染色体中某一片段的插入,导致碱基数目的改变。通常来说,插入片段来源于基因组,同时会伴随着TRA的发生。MEI是指移动元素(即转座子)在基因组移动或转座的过程。转座子插入不同于一般核苷酸片段的插入,有研究已证实转座子插入不仅会造成DNA水平的结构变化,而且常常携带顺式调控元件的作用,例如启动子、增强子、隔离子和沉默子。

DUP一般包括串联重复(tandem duplications, TD) 和节段重复(segmental duplications, SD)两种类型,而基因区域发生重复被认为是基因组和系统进化的主要驱动力之一。TD是指染色体中某一段核苷酸序列以前后相接的方式重复多次形成的重复序列,而SD是指某一段核苷酸序列通过染色体重排的方式增加多个拷贝,且拷贝散落在基因组的其它位置。

INV是指染色体上某一片段的序列发生180度的颠倒,导致碱基顺序的改变,但是该区段碱基的数目不会发生改变。根据发生的次数,又可分为只发生一次的简单INV和发生两次或以上的复杂INV。

TRA包括染色体内易位和染色体间易位,一般不会改变核苷酸序列的碱基数目。染色体内易位是指某段序列转移到同一染色体其它区域,能够改变染色体上的基因位置。染色体间易位是指染色体某一片段转移到另一条染色体的某一区域,包括两条染色体的序列之间互相易位和单向易位。

2 SV形成机制

染色体重排主要由非等位基因同源重组 (non-allelic homologous recombination, NAHR)、非同源末端连接 (non-homologous end joining,NHEJ)、叉停顿和模板转换 (fork stalling and template switching,FoSTeS)和转座子插入(mobile-element insertion, MEI)引起,以上几种机制可以解释基因组内大多数SV的形成(图2)。

A.非等位基因同源重组(NAHR);B.复制叉延迟和模板转换(FoSTeS);C.非同源末端连接(NHEJ);D.转座子插入(MEI)A. Non-allelic homologous recombination(NAHR); B. Fork stalling and template switching(FoSTeS); C. Non-homologous end joining(NHEJ); D. Mobile-element insertion(MEI)图2 结构变异的主要形成机制[3]Fig.2 The main formation mechanism of structural variation[3]

2.1 NAHR

NAHR通常发生在有丝分裂和减数分裂时期,是指两个非等位基因的染色体同源片段发生交叉重组, 可导致染色体片段的INS、DEL和INV等。有报道称,NAHR一般发生在低拷贝重复序列(low copy repeats, LCR)之间,并与DNA复制密切相关。

2.2 FoSTeS

FoSTeS通常发生在DNA复制的S期。当DNA复制受阻或暂停时,滞后链与聚合酶解离,导致其从模板上脱落,并与另一个区域结合重新开始合成DNA。由于复制起点的位置改变引起DEL或DUP的发生,可导致大片段的SV。需要注意的是,通过 FoSTeS 形成的SV很难与由微同源介导的断点诱导修复 (microhomology-mediated break-induced replication, MMBIR) 生成的SV进行区分。

2.3 NHEJ

NHEJ 是一种 DNA 修复机制,经常参与DNA双链断裂(double-strand break,DSB)的修复,且在完成对DSB片段的末端修复后,在修复位点会留下了一个“疤痕”核苷酸序列。NHEJ机制通常会导致DEL和TRA的发生。

2.4 MEI

转座子的移动会引起染色体重排,导致大量的SV产生。根据转座机制,转座子可以分为两大类:第I类转座子通过“复制-粘贴”的方式进行转座称为反转录转座子(retrotransposon)。反转录转座子又可以分成两大亚类:一类是具有长末端重复序列(long terminal repeat, LTR)的反转录转座子,主要是内源性逆转录病毒(endogenous retrovirus, ERV)。另一类是非 LTR反转录转座子,包括长散在核元素 (long interspersed nuclear element, LINE)和短散在核元素(short interspersed nuclear element, SINE);第II类转座子通过“剪切-粘贴”的方式进行转座,主要包括1/,,,,和-等家族。据报道,转座子占据哺乳动物基因组中的三分之一到一半左右,且在SV中扮演了极其重要的角色,比如人类基因组研究中超过40%的SV与转座子重叠。

3 SV检测方法

自本世纪起,随着高通量基因组扫描技术的进步,微阵列比较基因组杂交(array-based comparative genomic hybridization, aCGH)、单核苷酸多态性(single nucleotide polymorphisms, SNP)芯片和下一代测序(next-generation sequencing, NGS)成为了SV检测的主要手段。其中,aCGH则是最早应用于CNV检测的技术,几乎参与了所有畜禽的CNV研究。随着测序成本的降低,NGS则成为了检测SV的主要手段,且与aCGH相比具有分辨率高、可检测倒位和易位以及一些新序列插入的优势。利用NGS数据与参考基因组比较来调查表型调控背后的机制一直是SV研究的主要方式,但是由于较短的读取长度,基因组重复序列区域尚未得到充分研究,而且短读的SV检测灵敏度低(30%~70%)和错误发现率高(85%)的特点有一定的应用限制。近年来,一些新兴基因组技术的出现,包括基于关联分子策略的Linked-Reads测序、Strand-seq测序和染色质构象捕捉技术(Hi-C)与基于单分子策略的PacBio单分子实时测序、Oxford Nanopore测序和光学图谱(BioNano)技术(图3),显著提升了SV检测能力和整体敏感性。使用三代测序(thirds-generation sequencing, TGS)生成的长reads可以弥补NGS技术的不足,因其具备足够跨越SV的长度,并且在重复区域中具有更高的可映射性。在50~1 000 bp范围内,TGS可以检测到比NGS多3~4倍的SV。目前,基于长reads的SV检测已开发了npInv、svim和pbsv等多个工具。另一方面,将三代测序和多种基因组技术结合已经成为基因组组装的黄金标准,利用新的基因组技术获得高质量基因组进行SV的研究也已在多个领域开展。

新兴技术在检测结构变异(SV) 的方式上各不相同:1) 10×Genomics Linked-Reads 基于基因组位点之间的条形码重叠检测 SV;2) Strand-seq 根据读取深度或映射方向的突然变化来确定 SV;3) 高通量染色体构象捕获 (Hi-C) 通过寻找基因组位点之间异常高频的接触来检测 SV;4) 单分子测序方法(PacBio、ONT和Optical mapping)基于可能涉及一个(读取内)或多个(读取间)读取的不一致映射特征推断 SV。chr. 染色体; H1. 单倍型1; H2. 单倍型2; WW. 沃森-沃森;WC. 沃森-克里克;ONT. 牛津纳米孔技术; PacBio. 太平洋生物科学Emerging technologies vary in how they detect structural variations (SVs):1) 10×Genomics Linked-Reads detect SVs based on barcode overlap between genomic loci; 2) Strand-seq determines SVs based on read depth or sudden changes in mapping orientation; 3) High-throughput chromosome conformation capture (Hi-C) detects SVs by looking for unusually high-frequency contacts between genomic loci; 4) Single-molecule sequencing (PacBio, ONT and Optical mapping) methods infer SVs based on discordant mapping signatures that can involve one (intra-read) or many (inter-read) reads. chr. Chromosome; H1. Haplotype 1; H2. Haplotype 2; WW. Watson-Watson; WC. Watson-Crick; ONT. Oxford nanopore technologies; PacBio. Pacific Biosciences图3 单分子和关联分子策略中的结构变异特征[35]Fig.3 Structural variation signatures in single-molecule and connected-molecule strategies[35]

4 SV在猪基因组的研究进展

4.1 SV与繁殖性状

染色体重排导致的SV与一些繁殖性状息息相关,比如TRA是导致家猪生殖功能障碍的主要原因之一,据估计,50%的低产公猪是携带者。另外,CNV已被证实可能在塑造繁殖性状方面发挥作用。

在繁殖性能方面,梅山猪一直是世界高产猪的代表品种,对梅山猪的SV检测有望解释其高产背后的机制。Zhou等使用NGS、Pacbio、GemCode Linked、BioNano和Hi-C技术,首次完成了梅山猪的高质量基因组组装。与杜洛克猪基因组比较发现,在1B的内含子区域检测到3个DEL和6个INS,并推测可能对繁殖性能有影响。另外,藏猪与梅山猪和大白猪相比,2R的内含子发生了DEL,推测其影响了生长速度。Du等发现,梅山猪基因组中2基因中140 bp 的DEL以及2J2和2G4A基因中的DUP与繁殖性能有关。Zhao等对包括梅山猪在内的中国猪种和欧洲猪种进行了大规模的SV检测,构建了一个包括56 930个推定SV的单核苷酸分辨率图谱,并确定在X染色体上一个35 Mb区域中的35个SV相关基因对繁殖能力具有重要意义,从而使中国和欧洲起源品种的进化速度存在显著差异,研究也为评估系统发育关系提供了新的证据。产仔数可以最直观地反映繁殖能力的高低,Liu等通过比较产仔数大(XL)的香猪和产仔数小(XS)的香猪基因组,总共鉴定了28 040个SV。其中4 637个SV仅存在于XL组,4 119个SV是XS组特有的,分别影响1 697和1 582个基因。通过分析发现,这些SV及其相关基因参与了多种分子功能,并与猪的繁殖性状相关。此外,还在香猪基因组中鉴定了14个与窝产仔数相关的候选基因。Ran等使用SNP阵列发现了一个在香猪6号染色体上包含基因的496 kb CNVR,调查了其在545头猪中的分布,证实CNV与卵巢中基因转录水平呈正相关,并且改变了产仔数性状。Liu等发现,SINE插入多态性存在于猪群中4基因的第一个内含子区域,与香猪的窝产仔数性状有关,其中SINE基因型相对于SINE基因型和SINE基因型具有更大的窝产仔数,可作为香猪窝产仔数的候选DNA标记。此外,Zheng等报道了中西方猪之间基因中的差异CNV可能与总产仔数和产活仔数有关。Wang等利用80K SNP芯片对大白猪进行CNV分析,结果表明CNVR61和CNVR283两个区域与窝产仔数相关。

4.2 SV与肉质和生长性状

肌内脂肪含量(intramuscular fat, IMF)是评价猪肉品质的重要性状,Wang等利用CNV进行GWAS分析,发现CNV可能通过其基因剂量影响1基因的表达,而1的表达可能通过途径影响肌肉细胞的增殖和分化,最终影响IMF含量。随后,Wang等又发现,CNVR可能通过调节1基因的可变剪接来改变PELP1蛋白的结构,从而影响猪的IMF。

在一些生长性状研究中。Yoshidomi等证明,猪胰淀粉酶CNV多态对30~100 kg猪生长过程中的平均日采食量、总采食量和饲料转化率有显著影响。Revilla等则报道了一个CNVR含有2,该基因在磷脂和三酰基甘油的生物合成中起关键作用,表明这种 CNVR可能有助于脂肪酸组成和生长性状的遗传变异。Qiu等证明,CNVR与杜洛克猪的平均日增重(ADG)、百公斤体重日龄(AGE)和背膘厚度(BFT)有关,表明这些CNVR可能在调节猪生长和脂肪沉积方面发挥多效作用。此外,通过组装高质量宁乡猪基因组并与杜洛克猪基因组比较,Ma等鉴定了大量的SV,并在4基因的第一个内含子鉴定了281 bp的DEL,其高的转录水平可能促进了皮下脂肪沉积。

4.3 SV与毛色和色素沉着

毛色是区分不同驯化物种的重要特征之一,在猪的不断驯化和选择中,已经产生了大量不同品种和种群特征的毛色和图案。关于InDel和错义突变引起的毛色变化已进行了不少研究,然而仅有原癌基因酪氨酸激酶受体(kit proto-oncogene, receptor tyrosine kinase,)是由大的结构变化引起。正常的信号传导是神经嵴衍生的黑素细胞发育和存活所必需的。在已报道的研究中,在基因座中SV的不同形式会导致3种表型:显性白色(完全白色)、斑块状白色(部分白色)和带状白色(前肢白色)。相较于野生型猪种,显性白色(长白猪和大白猪)基因座包含整个基因座的450 kb DUP1和至少一个拷贝中外显子跳跃的剪接突变,然后是位于上游100 kb的4.3 kb DUP2和下游100 kb的23 kb DUP3以及DUP3内部的一个4.3 kb DUP4;斑块状白色(皮特兰猪)只包括相对于野生型基因座的450 kb DUP1,而带状白色(汉普夏猪)只包括位于上游100 kb的4.3 kb DUP2和下游100 kb的23 kb DUP3以及DUP3内部的一个4.3 kb DUP4(图4)。关于基因座DUP的机制,之前有研究证实是由基因座两侧的LINE转座子的NAHR引起的。随后,Wu等利用杜洛克×(长白×大白)杂交猪(DLY)对基因座进行研究发现了影响毛色变化的新等位基因,不仅加深了对猪颜色表型分子机制的认识,而且为筛选有色DLY的大白猪和长白猪的/纯合子建立了一种简单而准确的方法。Qin等则利用CRISPR/Cas9基因编辑技术成功的校正了基因座450 kb的结构突变,为产生具有正常基因座的基因编辑猪奠定了基础。上海的浦东白猪是除荣昌猪外唯一具有白毛色的中国本土猪,Huang等发现浦东白猪携带与大白猪相同的基因型,并在-8基因座与大白猪共享单倍型,这表明浦东白猪中的欧洲猪谱系起源于大白猪。

A. 野猪(野生型)、汉普夏猪(带状)和长白猪(显性白色)基因库的测序覆盖深度表明,除了前面描述的 DUP1 之外还存在3个重复; B. 猪KIT等位基因的示意图。4个重复的剪接位点突变和可变拷贝数共同创造了巨大的单倍型多样性A. Sequencing depth of coverage for the wild boar(wild-type), Hampshire(belt) and Landrace(dominant white) pools demonstrating the presence of 3 duplications in addition to the previously described DUP1; B. Schematic of porcine KIT alleles. Together, the splice site mutation and the variable copy numbers of the 4 duplications create great haplotype diversity图4 猪KIT 基因座白斑等位基因的进化[67]Fig.4 Evolution of white spotting alleles at the KIT locus in pigs[67]

在其它研究中,Xu等利用公共全基因组测序数据鉴定的SNP、InDel和 CNV对57个品种的469头猪进行了全基因组关联分析(GWAS),确定了2、9、7、4、1和为与毛色相关的候选基因。其中,4和1位于显著CNV附近的候选区域,而2、9、7和基因位于显著InDel附近的候选区域。而据先前的报道,基因与巴马猪两端黑色素沉积有关。

4.4 SV与疾病

SV的发生通常会导致基因的破坏和新基因的融合,引起一些疾病的发生,例如公猪14基因2号外显子序列中51 bp的INS导致了公猪不育,母猪基因283 bp的INS会引发更高的滤泡囊肿风险,还有仔猪的腭裂与TRA有关。

巴马小型猪(BM)是巴马香猪(BX)的近交系,目前已成为研究人类疾病的重要模型动物。Zhang等完成了第一个染色体水平巴马猪基因组组装,并通过与杜洛克猪基因组的比较发现、5116和10D三个调节肥胖的基因外显子区域内出现了DEL和DUP,可能与巴马猪更难承受糖尿病的压力有关。Fowler等使用上百分位数和下百分位数的动物的估计育种值数据进行GWAS分析,推定了几个CNVR,它们包含的基因(1、、51和54)可能与肥胖有关。Dong等对3个本土小型猪种进行研究,利用SNP分型获得了一些与心血管疾病和阿尔茨海默病等疾病相关的人类直系同源基因的CNVR。Long等则发现一些罕见的CNV与猪的脐疝有关。Stachowiak等在9基因下游(约500 kb)检测到一个新的CNVR多态性与睾丸性发育障碍表型相关。Hay等发现,CNV可能与特定群体对猪繁殖与呼吸综合征(PRRS)的反应有关。此外,Wang等在6发现5个插入多态,表明192 bp ERV插入等位基因可能对免疫反应有益,可作为抗病育种的候选标记。

4.5 SV与其它性状

猪具有最大的功能性嗅觉受体(olfactory receptors,)基因库,这反映了嗅觉在这种动物中的重要性。显然是非常容易发生CNV的基因。据报道,猪基因组中的获得和损失加剧是导致种群之间发生CNV的主要原因。CNV在的巨大进化潜力可以为猪提供必要的可塑性来进化新的觅食策略,为快速适应不同环境发挥了作用。另一项报道发现,的CNV在猪的物种形成过程中维持生殖隔离方面可能也发挥了重要作用。

耳朵的大小和类型是区分猪品种的重要特征,有研究报道了一个38.7 kb的CNV改变了miR-584-5p的表达,导致了MSRB3基因的mRNA翻译受到抑制,从而影响了猪耳朵的大小。另一项研究发现,一个5号染色体的CNV在所有亚欧野生品种以及商业猪种中都是两个拷贝,但其在大多数亚欧家养品种中拷贝数大于3个。特别是八眉猪和民猪的所有个体中都有超过5个拷贝,这表明CNV的拷贝数增加可能导致了更大且不直立的耳朵。

Liu等报道了香猪一种全身皱纹、皮肤增厚和毛发稀疏的新皮肤表型。通过NGS的方法,将无皱褶香猪和欧洲猪比较确定了59个基因中的65个候选SV可能与该性状有关。

5 展 望

核苷酸长度大于50个碱基的SV广泛的分布在基因组中的内含子和非编码调控区内,它们产生的多态性可以解释大部分物种之间的表型差异。过往的研究已经证明,SV与一些动物经济性状、疾病和生物机制的调控密切相关。因此,准确的解析SV与表型变异之间的联系蕴藏着巨大的科研价值和经济效益。尽管近些年科学家在该领域取得了一定的进展,但是鉴于SV的类型和大小的多变性以及新基因组技术的检测偏差,SV的准确检测仍然是一个问题。继续开发新的检测技术并解决多平台间造成的差异,对每个物种构建较为一致的SV图谱可能是未来研究的趋势。另外,应用三代测序以及一些新的基因组技术组装高质量的基因组进行研究有望解决低质量的基因组组装导致的假阳性问题。利用SV进行分子标记开发也有巨大的潜力,尤其是转座子,因其具有的调控能力和广泛的分布非常适合作为分子标记的开发。而对于已开发标记的物种,解决大批量高效分型的方法,甚至基于SV开发芯片可能是另一个发展方向。总之,结合不断发展的新兴SV检测技术,并将其应用到动物育种领域研究中,不仅可以解析一些重要性状的调控机制,还可以提高基因组选择的准确性,提升育种效率和水平。

猜你喜欢

白猪产仔数染色体
不同胎次和产仔季节对母猪产仔性能的影响及窝产仔数分布研究
藏猪与大白猪胴体性能及肉质特性分析
农大“晋汾白猪”列入中国主导品种
高考那年,船沉了
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
猪人工输精产仔数因素分析及应对措施
吓死宝宝啦!
苏姜猪RPL10a假基因第2外显子多态性与产仔数的相关性
真假三体的遗传题题型探析