APP下载

全基因组关联分析及其在辣椒育种中的应用研究进展

2023-10-28袁娟伟贾利王明霞严从生张其安俞飞飞甘德芳江海坤

中国蔬菜 2023年10期
关键词:辣椒基因组关联

袁娟伟 贾利 方 凌 王 艳 王明霞 严从生 张其安 俞飞飞 甘德芳 江海坤*

(1 安徽农业大学园艺学院,安徽合肥 230036;2 安徽省农业科学院园艺研究所,农业农村部园艺作物种质创制与利用重点实验室,园艺作物种质创制及生理生态安徽省重点实验室,安徽合肥 230031)

辣椒(Capsicum annuumL.)属茄科辣椒属一年生或有限多年生草本植物,原产于墨西哥及中南美洲,15世纪末意大利探险家哥伦布在印第安发现后将其带回欧洲,并由此传播到世界各地(邹学校 等,2022;邹学校和朱凡,2022)。辣椒于明代沿丝绸之路开始传入我国,现如今已成为我国各地普遍种植的蔬菜作物之一。据FAO 数据显示,2018年我国辣椒播种面积为77.03 万hm2,产量为1 821.40 万t(王立浩 等,2021a)。近年来,我国辣椒年播种面积稳中有升,据国家大宗蔬菜产业技术体系统计,2020年我国辣椒种植面积已超过153.33 万hm2,约占全球辣椒种植面积的40%(王立浩 等,2021b),其播种面积及产值在我国蔬菜作物中均居首位。辣椒富含辣椒碱、辣椒素、VC、蛋白质及各种矿物质等营养成分,长期适量食用对于预防癌症、胆结石、咳嗽、流感等疾病有显著成效,还具有散寒除湿、促进食欲、消炎抗菌、抗衰老等作用,随着人们保健意识的增强,辣椒的保健功能日益受到重视(帅天罡 等,2014),辣椒新功能的研发与用途的拓展受到关注,其需求量也随之大幅增加。

全基因组关联分析(GWAS)的工作原理是应用基因组中数以百万计的单核苷酸多态性(single nucleotide polymorphism,SNP)作为分子遗传的标记,在全基因组水平上与特定性状进行对照及相关性分析,以获得与这些性状关联的候选基因(Humberto et al.,2015)。GWAS 技术已成为检测作物农艺性状的主要方法之一(Zhang et al.,2021),近年来也为培育高产优质的辣椒品种提供了便捷、高效的研究方法(Zhao et al.,2019)。GWAS 可以利用不相关的自然群体,同时针对多个性状进行多年、多点数据分析,并开发海量遗传标记,使得定位分析的精度在一定程度上得以提高,甚至可以定位到单个基因(赵红,2018),为阐明辣椒复杂性状的遗传结构提供了理论依据,可以为辣椒品种的改良起到指导作用。本文简要综述了GWAS 在辣椒各主要农艺性状遗传育种中取得的成就及所需要解决的问题,并提供解决途径,以期为辣椒分子标记辅助育种研究提供相关依据及理论参考。

1 全基因组关联分析

1.1 全基因组关联分析的提出

全基因组关联分析(GWAS)是一种用于剖析代表大群体的样本中自然遗传变异和孟德尔性状关联的实验设计(Visscher et al.,2017),能有效地进行候选基因的定位。1996年Risch 和Merikangas首次提出了GWAS 的概念,并预测未来人类复杂疾病中每一个基因的变异能在全基因水平上检测到(Risch & Merikangas,1996)。2001年Hansen等第1 次利用GWAS 技术挖掘了2 个与野生甜菜抽薹显著相关的变异位点(Hansen et al.,2001)。2005年Klein 等第1 次运用GWAS 技术探究年龄与黄斑变性的研究,发现了复杂疾病的分子遗传标记,在人类遗传学研究中成功应用,并得到了广泛的关注(Klein et al.,2005)。随后加之测序技术的进步,GWAS 已成为识别动植物复杂属性背后的自然变化的有力工具(Gupta et al.,2014),应用其高分辨率进行关联分析,预测候选基因并剖析人类、动物和植物的数量性状,在人类和动物复杂性状遗传研究中已取得初步成果(Huang & Han,2014),而在植物中目前主要应用于水稻(The,2014)、大豆(李廷雨 等,2020)、大麦(Alqudah et al.,2014)、高粱(Morris et al.,2013)、小麦(Zhou et al.,2017)、油菜(Hatzig et al.,2015)以及拟南芥(Si et al.,2016)等作物的分子育种研究,这些研究成果为其他作物运用GWAS 分析提供了理论依据。

1.2 全基因组关联分析的一般流程

GWAS 的流程主要包括以下5 个步骤:① 材料选择。优质的种质资源是进行GWAS 遗传分析的基础,资源越丰富才能尽可能多的包括该物种全部遗传变异信息,更有利于发现一些对性状影响较小的遗传变异,但随着群体来源越复杂,其出现假阳性的概率会越高,首先需要通过对家系群体的初步定位,此后再利用自然群体高精度定位(Rafalski & Morgante,2004),结合这两种方法可减少群体间假阳性出现的概率,有效提高关联分析的分辨率。② 植株表型性状观察。GWAS 分析的第1 步,即植株表型性状观察,基于表型性状具有可塑性,且受基因型的控制和周围环境的影响,因而对GWAS 分析的结果产生了影响(Winham &Biernacka,2013)。在试验开展之前进行合理的试验设计,遵循科学、随机的选择区组原则,可以在时间和空间上增加表型的可重复性,基于多年和多环境试验结果进行目标性状的表型鉴定时,要尽量避免环境的影响以及减少表型测量时的误差。③ 基因型鉴定。结合表型数据与基因型数据的关联分析,可以进一步对目的性状进行精确测定和评估。目前随着高通量测序技术的发展,Talini 等(2020)开发了441 327 个单核苷酸多态性,以检测与几个农艺和质量性状相关的显著位点,这样可以提高关联分析遗传定位的精度,且已经广泛应用于GWAS 分析研究。④ 群体结构及亲缘关系分析。群体结构是指材料的亚群分布情况,材料的亚群分化导致了标记间的非连锁关联,且地理隔离、人工选择、遗传漂变都会导致群体分化,因此在进行GWAS 分析之前要对群体结构和亲缘关系进行有效的分析评估。通过构建群体系统进化树、主成分分析等研究样本间的群体结构和亲缘关系(万何平等,2019),从而避免出现假阳性问题。⑤ 关联作图及候选基因挖掘。随着GWAS 研究的不断深入和应用范围的扩大,其算法模型和分析软件不断得到优化,常用分析软件TASSEL(Bradbury et al.,2007)、QTXNetwork 分析软件包(Zhang et al.,2015)、R 软件中的mrMLM 可以画出Manhat-tan图和QQ(Quantile-Quantile)图等(Wang et al.,2016)。

1.3 全基因组关联分析的研究方法

全基因组关联分析(GWAS)又称为关联映射或连锁不平衡(LD)映射,充分利用了物种内的高表型变异和自然种群中大量植物群体重组事件,已成为传统数量性状位点(QTL)映射的替代方法,能以相对较高的分辨率鉴定遗传位点的潜在性状(Wei et al.,2015)。GWAS 一般适用于研究SNP与作物表型性状之间的关系,是分析表型遗传机制及挖掘QTL 的重要手段,其具有定位精确度高、检测范围广、缩短构建群体时间等优点。

GWAS 是最近几年兴起的遗传分析方法,其统计模型从非参数卡方检验到普通线性模型(GLM)再到混合线性模型(MLM)持续改进,研究方法在全基因组关联分析的基础上进行了逐步扩展,从LD 分数回归分析到荟萃分析、基因多效性分析、孟德尔随机化和MAGMA 基因及通路分析等。

1.3.1 LD 分数回归分析 LD 分数回归分析是最近开发的用于检查GWAS 关联因果状态的一种新方法(Bulik-Sullivan et al.,2015a),该技术依赖于测定单核苷酸多态性(SNP)j的关联χ2统计的简单线性回归,即每个SNP 与目标SNPj的平方相关性的所有SNP 的总和,公式为:Lj=∑kT2jk(Devlin &Roeder,1999),可以估计和消除GWAS 中的多种形式的混淆而不会夸大假阳性的数量。其次,LD分数回归可用于遗传相关性的估计(Bulik-Sullivan et al.,2015b),是遗传相关性的稳健估计器。

1.3.2 荟萃分析 荟萃分析(meta-regression,MR)是全基因组关联分析中针对检验基因-环境交互作用的分析方法(Borenstein et al.,2009),是通过收集、综合多个研究的分析结果,将这些数据整合后进行二次分析,从而实现更大的有效样本量,提高发现新关联的概率,可以解决单个研究样本量太小的问题(Gene,1976;Lau et al.,1998)。常用荟萃分析方法有P值检验、固定效应方法、随机效应方法、贝叶斯方法、多变量方法、MA 方法和MR 方法等,其中MA 和MR 均是针对检验基因-环境交互作用而提出的。目前常用的分析软件有METAL、RareMETAL、META、MetABEL、metaSKAT 和GWAMA 等(Borenstein et al.,2009)。

1.3.3 基因多效性分析 多基因风险评分(polygenic risk score analyses,PRS)是通过汇总从全基因组关联研究中确定的多个遗传变异的信息来估计个体复杂特征和疾病的遗传可能性(Fisher,1919)。该模型首次应用是在农业中,特别是在牲畜遗传学中的估计育种值(Wray et al.,2019)。多基因风险评分的构建方法主要分为两种,基于贝叶斯和非贝叶斯的方法,常用的软件有LASSO、BLUP、LDpred、SBLUP、lassosum、SBayesR、PRS-CS、LDpred2 等(Wang et al.,2022)。

1.3.4 孟德尔随机化 1968年,Katan 在探索血清胆固醇水平与癌症风险关系时,首次提出孟德尔随机化的概念(Katan,2004),其以遗传变异作为工具变量建立模型,用于测试风险因素与各种表型间的因果关系(Davies et al.,2018),目前已被广泛用于流行病学中疾病复杂病因的探索。孟德尔随机化研究的常见类型有单样本孟德尔随机、两样本孟德尔随机、两步孟德尔随机、双向孟德尔随机、基因-风险因素交互作用孟德尔随机和多变量孟德尔随机(王莉娜和 Zhang,2017),随着研究方法的不断改进,其研究的把握度也在不断提高。

1.3.5 MAGMA 基因及通路分析 MAGMA 基因及基因集分析被认为是GWAS 中典型的单个SNP 分析的潜在更有力的替代方案(Wang et al.,2011),是基于多元线性主成分回归模型在标记之间正确结合LD 并检测多标记效应,以提供更好的统计性能(Massy,1965)。其模型是根据染色体位置提取某个基因SNP 矩阵,计算PC,然后去除特征值过小的PC,对剩下的主成分进行回归,最后通过F检验获得p值(H0∶αg=0),在进行通路分析时,MAGMA 首先将上一步所得到的每个基因的p值通过probit 方程转化为z值,可反映该基因关联的强度。与许多其他常用方法的比较表明,MAGMA 具有更强的统计能力,可以直接找到与目标性状相关的功能基因,也可发现由多个微效SNP关联的基因。

2 全基因组关联分析在辣椒育种中的应用

随着高通量测序技术的逐渐成熟和价格的平民化,多组学水平联合分析的GWAS 研究成为了现实。而GWAS 在辣椒育种中也是近几年才刚刚起步,研究的策略方法都有待改进和完善,主要是在辣椒农艺性状、品质性状与抗性等育种研究中取得的一些进展,为辣椒改良品种和分子辅助育种提供了一定的理论基础。

2.1 GWAS 分析在辣椒种质农艺性状中的应用

众所周知,随着辣椒全基因组序列的公布和新育种技术的不断开发与融入,辣椒丰富的遗传密码被育种家所解析,对于遗传改良的育种目标有了更高的要求,最值得关注的农艺性状包括产量、品质、抗性和机械收获性。果实纵径、果实横径、单节叶腋着生花数、单果质量、果形指数、VC 含量、辣椒素含量等是辣椒产量与品质的决定因素,而GWAS 分析能够对与果实产量和品质相关的农艺性状进行QTL 定位和候选基因预测,可以为辣椒分子标记辅助育种提供理论依据。

近年来,全基因组关联分析在辣椒农艺性状中取得了一定的研究进展(表1)。袁欣捷等(2020)以194 份辣椒核心种质为试验材料,利用广义线性模型(GLM)和混合线性模型(MLM)两种方法分析了与果实产量和品质相关的7 个农艺性状,筛选出了28 份优良农艺性状典型种质材料。Nimmakayala 等(2016a)通过GWAS 分析了96 份辣椒种质,在4 号染色体发现了与果梗长度相关的36 个SNP 位点和16 个与单果质量相关的SNP 位点。Lee(2020)利用GWAS 与QTL 相结合的方法对351 份辣椒品种进行分析,获得了与果实性状相关的178 个SNP 显著位点,其中果实纵径1 个、横径148 个、单果质量28 个、果肉厚1 个,使用17 个与果实相关的QTL 交叉验证了GWAS 结果,并确定了16 个与果实形态相关的驯化性状相关的候选基因,1 个基因(CA.PGAv.1.6.scaffold517.20)位于H04-0562 中4 号染色体,与果实纵径密切相 关;4 个基因(CA.PGAv.1.6.scaffold283.11、CA.PGAv.1.6.scaffold730.39、CA.PGAv.1.6.scaffold534.6和CA.PGAv.1.6.saffold3.11)与单果质量相关;1 个基因(CA.PGAv.1.6.scaffold1239.15)位于4 号染色体上,在单果质量和果肉厚中均被检测到;10 个基因(8 个位于9 号染色体,2 个位于12 号染色体)与果实横径相关,这些基因具有细胞分裂和增殖等分子功能;同时发现CA.PGAv.1.6.scaffold1368.1和CA.PGAv.1.6.scaffold1387.3位于12 号染色体,对花梗着生状态起着非常的重要作用。Kim 等(2022)对276 份辣椒种质进行了基因测序与表型分析,其结果发现1、2、7、11 号染色体上有4 个新的QTL,共鉴定出5 个控制辣椒多花形成的优良候选基因,分别为:WOX9、ME12-like5、WRKY71、AGAMOUS和SP5G,因辣椒遗传转化体系尚未完全建立,其基因功能无法有效验证,观察茄科家族其他成员(如番茄)中候选基因的同系物可以帮助验证功能分配,经前人研究确定WOX9是番茄花序结构的主要决定因素,而辣椒中的WOX9促进分生组织从营养阶段到生殖阶段的过渡,并且是花形成所必需的,因此其可能有助于控制每个节点的多个花朵。Yu 等(2016)证明WRKY71通过激活拟南芥中的开花位点(FT)和叶片表达来加速花分生组织的启动,SP5G控制初级和典型腋芽的开花时间,其突变会导致番茄植株迅速开花,并增强番茄植株的紧凑性以决定生长习性(Soyk et al.,2017)。Du 等(2019)对271 个辣椒品种(包括90 个块状、113个长角、25 个短角和43 个线形品种)使用TargetSNP-seq 进行基因分型,获得位于1、2、3、4、6 号和12 号染色体上的9 个位点(CaSSR013、CaSSR090、CaSSR105、CaSSR091、CaSSR039、CaSSR044、CaSSR107、CaSSR077 和CaSNP112)与果形指数显著相关(P< 0.000 1)。张小微等(2022)以195 份一年生辣椒构成的自然群体为试验材料,分别在2020年和2021年调查辣椒果色(青果色和熟果色)性状,通过DNA 测序和SNP 变异检测将得到的高质量SNP 位点用于GWAS 分析,筛选出8 个与辣椒果色相关的SNPs;共注释到31 个基因,预测呼吸爆发氧化酶同源蛋白A(Capana01g000138)、类异黄酮2′-羟化酶(Capana04g000616、Capana04g000617、Capana04g000618、Capana04g000619、Capana04g000620、Capana04g000621 和Capana04g000622)和F-box-like/WD 重复类蛋白TBL1Y(Capana04g000624)可能与辣椒果色相关。

表1 全基因组关联分析在辣椒农艺性状中的相关研究进展

2.2 GWAS 分析在辣椒品质性状中的应用

研究辣椒品质相关性状遗传机理对辣椒品质的改良有重要的作用,其品质性状有干物质含量、VC 含量、可溶性糖含量、辣椒素含量、粗纤维含量、蛋白质含量等,在食品、医疗保健等领域受到青睐。表2 主要从辣椒素含量进行描述,辣椒素含量受数量性状位点(QTL)控制,Han 等(2018)以辛辣的辣椒Perennial 和甜椒Dempsey 为双亲材料,得到208 份杂交种质并进行QTL 定位和GWAS 分析,共筛选出5 个与辣椒素合成途径相关的候选基因,分别为pAMT、C4H、CSE、4CL和FatA,每个基因在辣椒素生物合成途径中具有已知或潜在的功能。pAMT位于3 号染色体上,介导香草胺的形成(Lang et al.,2019);在6 号染色体上,肉桂酸4-羟化酶(C4H)参与苯丙烷途径,并在肉桂酸生物合成香豆酸盐中具有催化活性(Mazourek et al.,2009);而QTL 映射和GWAS 结果的比较鉴定出位于3 号染色体上的咖啡酰莽草酸酯酶(CSE),其功能尚不清楚,但已知CSE 可水解莽草酸咖啡酰(Vanholme et al.,2013);编码4-香豆酰辅酶A 连接酶(4CL)的基因位于3 号染色体(Ben-Chaim,2006),另一个编码酰基-ACP 硫代酯酶(FatA)的基因在脂肪酸生物合成途径中起作用(Yarnes et al.,2013)。Kethom 等(2019)利用收集的243 份材料进行多样性微阵列基因分型技术或DArTseq 技术,从泰国辣椒地方品种中筛选到逾22 000 个SNPs,经过滤得到9 610 个,经全基因组关联分析,鉴定出7 个与辣椒素类物质含量显著相关的SNP 位点。曼哈顿图显示分别位于1、3、4、6、7、10 号染色体。Nimmakayala 等(2014)通过GWAS 分析了96 份辣椒种质,在1 号染色体上发现了参与辣椒素与二氢辣椒素含量有关的基因。在此基础上,Han 等(2018)筛选出了参与辣椒素合成的5 个候选基因。当前辣椒品质改良育种研究较为薄弱,GWAS 分析在辣椒育种中的应用较少,这些新发现的遗传位点可以显著改善辣椒分子育种进程,鉴定的候选基因有助于阐明辣椒品质相关性状的生物合成机制。

表2 全基因组关联分析在辣椒素中的相关研究进展

2.3 GWAS 分析在辣椒种质抗性中的应用

目前辣椒生产上对抗性强、适应性强的品种需求量很大,但由于受到非生物胁迫和白粉病、疫病等形成的生物胁迫的影响,辣椒产量和品质均受到一定程度的影响,因而提高抗性是未来辣椒育种的目标之一。如表3所示,袁欣捷等(2019)对194份辣椒核心种质疫病抗性进行关联分析,结果发现12 个与疫病病情指数显著相关的位点,其中位于7号染色体的CM005 贡献率最大。苗悦(2022)对272 份一年生辣椒材料进行象耳豆根结线虫抗性鉴定,结合基因型数据进行GWAS 分析,筛选出222个与抗性显著关联的SNP 标记,共117 个QTL 位点,并鉴定了14 个辣椒抗象耳豆根结线虫相关候选基因,为辣椒抗病品种的培育和抗病机理的研究奠定了一定基础。Ro 等(2022)对342 份接种假单胞菌28 d 后的辣椒种质进行全基因组关联研究(GWAS),以确定与辣椒假单胞菌(分离KCP7)抗性相关的单核苷酸多态性(SNP),共获得45 481个SNPs,其中Chr02-1126 标记可用于准确预测辣椒遗传资源中疫霉病抗性。Siddique 等(2022)利用测序基因分型(GBS)构建高密度连锁图谱,鉴定了与辣椒黄叶卷曲病毒(PepYLCV)耐药性相关的SNP 标记,QTL 分析显示在1、7、12 号染色体分别存在3 个QTL 位点,即peplcv-1、peplcv-7 和peplcv-12,推断出与QTL 区域中PepYLCV耐药性相关的候选基因。目前GWAS 在辣椒抗逆相关性状研究中的应用还比较少,利用该方法虽然能够鉴定出一些与辣椒抗逆性相关的位点,但这些位点能否有效地应用到辣椒分子育种,还需要进一步验证。

表3 全基因组关联分析在辣椒抗逆性中的相关研究进展

3 展望

基于GWAS 分析方法利用作物表型特征与候选基因型相结合可用于作物品质的改良,具体包含了研究群体样本选择、表型鉴定、高通量测序、关联分析、基因功能注释、精细定位、候选基因挖掘与功能验证等。与传统的QTL 作图相比较,具有检测范围广、分辨率高、材料来源丰富(Winham &Biernacka,2013)的优点,在我国辣椒遗传改良育种方面应用潜力巨大,如辣椒的品质改良、抗逆性育种等相关研究取得了众多成果。

虽然GWAS 分析目前还存在一些不足,但随着分子生物学技术的不断深入,在辣椒实际应用中的局限会不断地被克服。且随着高通量测序等技术的进一步发展,水稻、玉米、大豆等作物重要参考植物基因组数据的公布,其基因组范围内的变异数据可用于遗传作图和作物演化研究分析,GWAS 分析在这些作物育种研究中较为成熟,可为进一步研究辣椒农艺性状、品质性状、抗逆性状以及品种改良和培育提供参考依据。在今后的辣椒育种研究中,要继续利用高通量测序等技术,进一步结合多组学融合分析和基因功能验证等方法,对辣椒群体进行全基因组水平基因型鉴定,开展遗传多样性和群体结构分析,挖掘辣椒若干个优良性状较为集中的候选基因,为辣椒优质育种提供一定的理论基础。

此外,GWAS 目前只是对候选遗传标记位点分布的一种理论预测,后续仍需要结合其他生物学方法进行一系列深入研究以继续探究其生物学功能,如通过qRT-PCR 验证、同源基因比对、多组学结合验证等才能进一步证实GWAS 分析结果。随着研究的不断深入和芯片技术的发展,基因组测序成本的下降和统计方法的完善,多种植物基因组测序相继完成,GWAS 将在未来的植物育种方面发挥越来越重要的作用,也将成为辣椒遗传研究中一种流行和常规的方法,更会在揭示辣椒复杂性状的遗传基础和品种改良中发挥超长的作用。

猜你喜欢

辣椒基因组关联
原来,你还是这样的辣椒
你的辣椒结出果实了吗?
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
牛参考基因组中发现被忽视基因
辣椒也疯狂
拣辣椒
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
基因组DNA甲基化及组蛋白甲基化