基于芯片和填充测序数据的肉鸡屠宰性状基因组选择准确性评估

2023-08-15尹畅朱墨陈艳茹童世锋赵桂苹刘杨

中国农业科学 2023年15期

尹畅，朱墨，陈艳茹，童世锋，赵桂苹，刘杨

1南京农业大学动物科技学院，南京 210095；2中国农业科学院北京畜牧兽医研究所/畜禽营养与饲养全国重点实验室，北京 100193

【背景】畜禽育种工作的核心是基因组估计育种值的准确性。不同水平的遗传标记密度对估计育种值的影响较大，随着基因分型技术的发展和高通量测序价格的下降，基于重测序数据的基因组选择研究不断涌现。理论上，标记密度更高可获得更高准确性的估计育种值。因为影响目标性状的数量性状基因座（quantitative trait loci, QTL）至少与覆盖全基因组范围的高密度标记中的一个标记处于连锁不平衡状态。所以，较高密度的标记水平，理论上标记与QTL之间的紧密连锁更好，从而保证了较高的预测准确性。但也有研究表明，填充测序数据与芯片数据相比，基因组预测的准确性提升并不明显。【目的】利用GBLUP方法，通过比较填充测序数据和芯片数据在肉鸡屠宰性状的基因组选择准确性，为肉鸡基因组选择育种的基因分型策略提供理论依据。【方法】依据芯片数据和填充测序(whole-genome sequence, WGS)数据，利用GBLUP方法，针对白羽肉鸡胸肌重、屠体重和腿肌重性状进行基因组预测，对其在基因组预测的准确性进行比较。首先，使用“京芯一号”鸡55 K SNP芯片对3 362只鸡进行基因分型，并从第7世代的第9批次中随机选取230只鸡进行全基因组重测序，然后利用Beagle 5.1软件将55 K SNP芯片数据填充至重测序数据水平。为避免染色体大小对填充准确性的影响，将选择鸡较大的3号染色体和较小的14号染色体来进行计算等位基因准确率（allele correct rate, CR）和基因型相关系数（correlation, Cor），并以此判断填充准确性。利用填充测序数据对3个屠宰性状的基因组育种值进行预测，并采用5-折交叉验证的方法评价预测结果的准确性、秩相关和无偏性。【结果】两条染色体的平均等位基因准确率为0.924，平均基因型相关系数为0.885，填充准确率较高，可以用于后期基因组预测研究。SNP芯片数据基因组育种值的预测准确性在0.2194—0.2629之间，填充测序数据基因组育种值的预测准确性在0.2110—0.2695之间。与55 K SNP芯片的结果相比，填充测序数据的基因组育种值预测的准确性差异不显著。【结论】与SNP芯片的结果相比，利用填充后的基因组数据对白羽肉鸡的3个屠宰性状（胸肌重、屠体重和腿肌）的基因组育种值预测准确性提升并不显著，该结论为畜禽遗传育种工作中的数据类型选择提供参考。

白羽肉鸡；屠宰性状；基因组育种值预测；填充测序数据；芯片数据；评估

0 引言

【研究意义】屠宰性状是肉鸡重要的经济性状，是肉鸡育种的重要选育方向，但由于屠宰性状无法活体测量，优秀的个体会因屠宰而失去繁育优秀后代的机会[1]。基因组选择（genomic selection, GS）是一个强有力的工具，它可以不经表型测定而直接获得个体的育种值。由于基因分型技术的快速发展，基因组选择在实际育种工作中的应用已经日渐成熟[2]。高密度的SNPs可以提供更多信息，理论上增加标记密度可提高基因组选择的准确性[3]。然而，对于大多数畜禽来说，使用测序数据进行基因分型的成本仍然很高。因此，对于基因组选择应该采用何种水平的遗传标记密度一直是研究的热点[4]。【前人研究进展】MEUWISSEN等[5]在模拟数据研究中发现，与30 K SNP芯片相比，使用测序数据的育种值预测准确性提高了40%。IHESHIULOR[6]等使用测序数据进行基因组选择时，预测准确性提高了92%。为了获得相对经济且较高密度的基因型数据，可以使用基因型填充方法获得测序水平数据后进行基因组选择[7]。受到填充准确性的影响，使用填充后的全基因组水平数据不能总是提高基因组选择的预测准确性[8]。与芯片数据相比，在奶牛和肉牛群体中填充测序数据的基因组育种值准确性也没有显著提高[9-11]，但使用填充后的基因组水平数据提高了澳大利亚绵羊寄生虫抗性的基因组选择准确性[12]。【本研究切入点】由于基因技术的迅速发展且基因分型的成本越来越低，基于填充数据进行畜禽的基因组选择已成为趋势[13]。现今，已有关于高密度芯片数据和填充数据在肉鸡基因组选择的研究，但中密度芯片数据和填充数据在基因组选择准确性的比较研究鲜有报道。【拟解决的关键问题】本研究旨在利用55 K SNP芯片数据和填充测序数据对白羽肉鸡的三个屠宰性状的基因组育种值进行预测，并将预测的结果进行比较，探究在白羽肉鸡屠宰性状的基因组预测研究中不同标记密度水平的数据对于预测准确性的影响。

1 材料与方法

1.1 试验动物

试验动物来自广东佛山高明新广农牧股份有限公司的白羽肉鸡祖代父系（B系），并且已连续完成了7个世代的生长性能选育。研究使用的群体是第5—7世代（2018—2020年）的3 362只肉鸡，共计11个批次，来源于227只公鸡和1 305只母鸡的后代。其中，2 502只鸡在42日龄时进行了屠宰性能测定，记录了胸肌重（breast muscle weight，BrW）、屠体重（carcass weight，CW）、腿肌重（thigh muscle weight，ThW），表型数据如表1所示。

表1 胸肌重、屠体重和腿肌重的描述性统计

1.2 表型数据预处理

对表型数据进行预处理，剔除表型的缺失值和异常值（平均值±3倍标准差）。本研究根据群体的实际情况，将世代、批次、性别作为固定因子，采用R语言中GLM模型对影响表型的固定因子进行校正，模型如下：

y=μ+Gen+Batch+Sex+e

式中，y为表型值，μ总体均值，Gen为世代效应，Batch为批次效应，Sex为性别效应，e为随机残差。

1.3 基因型数据的获取与质控

1.3.1 基因组DNA提取及分型采用常规酚-氯仿抽提法提取血样基因组DNA，使用NanoDrop2000核酸分析仪检测DNA的浓度和质量。质检合格后的DNA样品送至北京康普森生物技术有限公司，使用“京芯一号”鸡 55K SNP芯片进行基因分型[14]。

1.3.2 重测序数据从第7世代的第9批次群体中随机选择230个个体进行重测序，利用BWA软件将原始测序数据过滤后比对到鸡参考基因组上。利用GATK 3.5软件的Picard模块去除PCR重复、局部插入缺失重排和碱基匹配得分重排。采用HaplotypeCaller模块和GVCF形式进行个体SNP检测。使用GATK的SelectVariants模块选择出高质量SNP位点，并设定以下SNP过滤标准：Q＞40&&FS＜60.0&&ReadPosRankSum＞-8.0&&MQRankSum＞-12.5&&DP＞2，丢弃含有3个及以上等位基因的位点, 最终获得高质量的SNP数据用于后续分析。

1.3.3 芯片数据的质控采用PLINK（V1.90）软件对芯片的基因型数据进行质量控制[15]。质量控制的条件如下：（1）保留样本检出率大于90%的个体；（2）保留SNP检出率大于90%的位点；（3）保留次要等位基因频率大于5%的SNP位点。芯片经过质控后，保留3 314个样本和42 104个SNP用于后续分析。

1.3.4 基因型填充用Beagle 5.1软件[16-17]将55 K SNP芯片数据填充至重测序水平。进行填充之前，使用conform-gt软件对芯片数据与重测序数据进行比对，剔除芯片中特有的SNP。然后，采用Beagle 5.1软件将55 K SNP芯片数据填充至重测序水平，设置有效群体含量为61 500，其他参数默认使用原始参数。填充完成后对基因型数据进行过滤，保留等位基因的2≥0.9和MAF≥0.05的位点，过滤后，保留8 652 215个常染色体SNP用于后续分析。

1.4 基因型填充的准确性评价

研究中，等位基因准确率（allele correct rate，CR）和基因型相关系数（correlation，Cor）被用来评估基因型填充的准确性。等位基因准确率是填充正确的等位基因在参与填充的等位基因中所占的比例。基因型相关系数是推断的基因型与原始基因型之间的相关系数（将两种纯合基因型和一种杂合基因型分别编码0/1/2，计算填充前后的相关系数）。考虑到染色体大小对基因型填充准确性的影响，本研究将选择对较大的鸡3号染色体和较小的14号染色体进行计算，重复5次。

1.5 基因组选择的统计模型

y=Xb+Zg+e

式中，y是性状的表型值向量；b是固定效应的向量；g是加性遗传效应向量，服从正态分布：g～N（0，Gσ2 g）；e是随机残差效应向量，服从正态分布：e～N（0，Iσ2 e）；X和Z分别为对应的设计矩阵。其中，G矩阵[18]的构建根据VanRaden提出的形式计算，公式为：

式中，Pi是某个位点的次要等位基因频率；Z是x×y的标准化基因型矩阵，x是SNP数，y是有基因型的个体数。基于填充测序数据的G矩阵构建使用GCTA软件[19]。

1.6 基因组育种值准确性与无偏性的评价标准

本研究采用5-折交叉验证（5-fold cross-validation）方法来评估基因组育种值预测的准确性。5-折交叉验证的实施方法是，采用随机抽样的方法将样本分成随机的5等份，然后选择其中1份作为验证群体，其他4份作为参考群体，循环进行5次。本研究中，对每个性状的交叉验证进行20个重复。

为了评估基因组育种值预测的结果，本研究采用准确性、秩相关和无偏性作为评估预测准确性的指标。由于在实际群体中，真实育种值（true breeding value，TBV）无法直接得到，因此采用校正后的表型值（y*）来代替。校正后的表型值模型与GBLUP类似，其亲缘关系矩阵由系谱构建。

（1）准确性：验证群体的预测育种值（GEBVtest）与校正后的表型值（y* test）之间的皮尔逊相关系数，该值代表两个连续变量之间的相关性。

式中，var(GEBVtest)和var(y* test)是GEBVtest和y* test的方差；cov(y* test, GEBVtest)是GEBVtest和y* test之间的协方差。

（2）秩相关：验证群体的预测育种值与校正后的表型值之间的斯皮尔曼相关系数，该值代表两列有等级属性变量之间排名的相关性。

式中，di是两列等级变量之间的等级差数；n是总变量数。

（3）无偏性：校正后的表型值对验证群体的预测育种值之间的回归系数，该值越接近1，表明预测育种值是对校正后表型值的无偏预测。

2 结果

2.1 表型数据的描述性统计量与遗传参数估计

胸肌重、屠体重和腿肌重的遗传相关和表型相关如表2所示，其中屠体重与腿肌重间遗传相关与表型相关均最高。

表2 胸肌重、屠体重和腿肌重的遗传相关（下三角）和表型相关（上三角）

2.2 基因型填充的准确性

用Beagle 5.1软件将55 K SNP芯片数据填充至重测序水平。3号染色体和14号染色体等位基因准确率和基因型相关系数结果如表3所示，基因型填充的准确性结果如图1所示。两条染色体的平均等位基因准确率为0.924（0.917—0.932），平均基因型相关系数为0.885（0.856—0.902），填充准确率较高，可以用于后期进行基因组预测研究。

表3 3号和14号的基因型填充准确性

2.3 基因组选择的准确性与无偏性

2.3.1 准确性本研究利用GBLUP方法，采用5-折交叉验证的策略评估白羽肉鸡的3个屠宰性状的基因组育种值预测的准确性，并和55 K SNP芯片数据的结果进行比较，结果见表4。结果显示，SNP芯片数据计算的基因组育种值预测的准确性在0.2194—0.2629，填充测序数据计算的基因组育种值预测的准确性在0.2110—0.2695。对于胸肌重性状，填充测序数据计算的基因组育种值预测的准确性略高于SNP芯片数据。总体来说，试验中使用的两种数据类型对基因组育种值预测的准确性结果大致相似（图2）。

Chr3, 3号染色体; Chr14, 14号染色体

表4 3个白羽肉鸡屠宰性状的基因组育种值预测的准确性

2.3.2 秩相关本研究利用GBLUP方法，采用5-折交叉验证的策略评估白羽肉鸡的3个屠宰性状的基因组育种值预测的秩相关，并和55 K SNP芯片数据的结果进行比较，结果见表5。结果显示，芯片数据计算的基因组育种值预测的秩相关在0.2013—0.2489，填充测序数据计算的基因组育种值预测的秩相关在0.1920—0.2555。基因组育种值预测的秩相关中，胸肌重性状填充测序数据结果略高于芯片数据，屠体重和腿肌重性状芯片数据结果略低于填充测序数据，但两种数据类型对3个性状的基因组育种值预测秩相关结果大致相似（图2）。

表5 3个白羽肉鸡屠宰性状的基因组育种值预测的秩相关

*＜0.05，**＜0.01，***＜0.001

BrW，胸肌重；CW，屠体重；ThW，腿肌重

BrW, Breast muscle Weight; CW, Carcass Weight; ThW, Thigh muscle Weight

图2 基于芯片和填充测序数据计算3个白羽肉鸡屠宰性状的基因组育种值预测的准确性和秩相关

Fig. 2 Accuracy and rank of genomic prediction among three white-feathered broiler carcass traits based on SNP array and imputed WGS level data

2.3.3 无偏性本研究利用GBLUP方法，采用5-折交叉验证策略评估白羽肉鸡3个屠宰性状的基因组育种值预测的无偏性，并和55 K SNP芯片数据的结果进行比较，结果见表6。结果显示，SNP芯片数据计算的基因组育种值预测的无偏性在0.9340—0.9814，填充测序数据计算的基因组育种值预测的无偏性在0.9153—0.9553。填充测序数据计算的基因组育种值预测的无偏性与基于芯片数据计算的结果相似，基因组育种值预测的无偏性都接近1（图3）。该结果表明无论是芯片数据还是填充测序数据，GBLUP方法计算的基因组育种值都接近对于真实育种值的无偏预测。

表6 3个白羽肉鸡屠宰性状的基因组育种值预测的无偏性

图3 基于芯片和填充测序数据计算3个白羽肉鸡屠宰性状的基因组育种值预测的无偏性

3 讨论

3.1 填充测序数据对基因组育种值预测的影响

本研究应用填充测序数据结合GBLUP方法，对白羽肉鸡3个屠宰性状（胸肌重、屠体重、腿肌重）的基因组育种值进行预测，并将预测结果与基于55 K SNP芯片的结果进行比较。结果表明，除了在胸肌重的基因组育种值的预测中，填充测序数据的预测准确性高于芯片数据的结果，其余两个性状中，基于填充测序数据的预测准确性均低于基于芯片数据的结果。秩相关系数中也表现出相同的趋势。大量真实数据研究表明，基因组预测的准确性并不会随着标记密度的增加而显著提高[8,20]。在植物育种方面，ELBASYONI等[21]研究了冬小麦群体的4个性状，结果表明高通量测序数据只达到了与芯片数据相当的准确性。在家禽育种方面，HEIDARITABAR等[8]比较了商业白蛋鸡品系中全基因组测序数据和60 K SNP芯片数据对产蛋量的基因组选择准确性的差异，结果表明，测序数据对基因组预测的准确性仅提高了不到1%。NI等[20]在一个商业棕色蛋鸡品系中使用全基因组测序数据和336 K SNP芯片数据对3个产蛋性状的基因组育种值进行预测，结果发现，使用测序数据进行基因组预测并无显著优势。王家迎[22]通过计算肉鸡采食类、胴体类和生长类共23种性状，通过对比，高密度芯片数据和填充数据的估计育种值准确性没有显著差异。

3.2 填充测序数据的GEBV准确性提高不显著的可能原因

本研究发现填充测序数据的基因组育种值预测准确性，相较于55 K SNP芯片数据的结果没有显著提高，甚至在一些性状中还有所降低。分析其可能原因如下：（1）本研究使用的基因组预测方法是GBLUP，由于GBLUP方法无法充分发挥测序水平数据的优势，当SNP密度达到一定阈值后，再增加密度，获得的基因组亲缘关系矩阵并没有明显变化[23]。（2）畜禽的经济性状大部分是遗传背景复杂、受多基因控制的数量性状。虽然测序数据增加了与目标性状相关标记的数量，但也引入了大量与目标性状无关的标记，干扰了对育种值的准确预测。（3）填充数据中包含大量同其他位点有较强连锁不平衡的稀有位点，而在交叉验证中这些稀有位点很难在参考群和验证群里挑选出来，使得估计育种值准确性没有显著提高[24]。此外，已有研究表明，低次要等位基因频率的SNP可能在复杂性状中起重要作用[25]。然而，对于稀有SNP位点的准确填充也是一项挑战。大量研究表明，低次要等位基因频率的SNP的填充准确性较低[26-30]。本研究基于填充数据和中密度芯片数据进行基因组选择准确性的研究对不同基因组数据类型进行基因组选择具有一定的参考价值，对填充数据在实际畜禽育种工作中的应用具有一定指导意义。

4 结论

本研究将GBLUP方法应用于填充测序数据的白羽肉鸡3个屠宰性状的基因组预测，并将预测结果与55K SNP芯片数据结果进行比较。结果显示，填充测序数据计算的基因组育种值预测的秩相关与芯片数据计算的结果相似，对于胸肌重性状，填充测序数据计算的基因组育种值预测的秩相关高于基于芯片数据的结果；芯片数据计算的基因组育种值预测的准确性在0.2194—0.2629，填充测序数据计算的基因组育种值预测的准确性在0.2110—0.2695。与55 K SNP芯片的结果相比，填充测序数据的基因组育种值预测的准确性没有显著提高。

[1] 朱墨, 郑麦青, 崔焕先, 赵桂苹, 刘杨. 基于GBLUP和Bayes B方法对肉鸡屠宰性状基因组预测准确性的比较. 中国农业科学, 2021, 54(23): 5125-5131.

ZHU M, ZHENG M Q, CUI H X, ZHAO G P, LIU Y. Comparison of genomic prediction accuracy for meat type chicken carcass traits based on GBLUP and BayesB method. Scientia Agricultura Sinica, 2021, 54(23): 5125-5131. (in Chinese)

[2] LIU J, ZHOU J, LI J, BAO H. Identification of candidate genes associated with slaughter traits in F2chicken population using genome-wide association study. Animal Genetics, 2021, 52(4): 532-535.

[3] VANRADEN P M, O'CONNELL J R, WIGGANS G R, WEIGEL K A. Genomic evaluations with many more genotypes. Genetics, Selection, Evolution, 2011, 43(1): 10.

[4] BENEDICT M N, MUNDY M B, HENRY C S, CHIA N, PRICE N D. Likelihood-based gene annotations for gap filling and quality assessment in genome-scale metabolic models. PLoS Computational Biology, 2014, 10(10): e1003882.

[5] MEUWISSEN T, GODDARD M. Accurate prediction of genetic values for complex traits by whole-genome resequencing. Genetics, 2010, 185(2): 623-631.

[6] IHESHIULOR O O M, WOOLLIAMS J A, YU X J, WELLMANN R, MEUWISSEN T H E. Within- and across-breed genomic prediction using whole-genome sequence and single nucleotide polymorphism panels. Genetics, Selection, Evolution, 2016, 48: 15.

[7] MISZTAL I, LOURENCO D, LEGARRA A. Current status of genomic evaluation. Journal of Animal Science, 2020, 98(4): skaa101.

[8] HEIDARITABAR M, CALUS M P L, MEGENS H J, VEREIJKEN A, GROENEN M A M, BASTIAANSEN J W M. Accuracy of genomic prediction using imputed whole-genome sequence data in white layers. Journal of Animal Breeding and Genetics, 2016, 133(3): 167-179.

[9] HAYES B J, DAETWYLER H D. 1000 bull genomes project to map simple and complex genetic traits in cattle: Applications and outcomes. Annual Review of Animal Biosciences, 2019, 7: 89-102.

[10] KHATKAR M S, MOSER G, HAYES B J, RAADSMA H W. Strategies and utility of imputed SNP genotypes for genomic analysis in dairy cattle. BMC Genomics, 2012, 13: 538.

[11] BHUIYAN M S A, KIM Y K, KIM H J, LEE D H, LEE S H, YOON H B, LEE S H. Genome-wide association study and prediction of genomic breeding values for fatty-acid composition in Korean Hanwoo cattle using a high-density single-nucleotide polymorphism array. Journal of Animal Science, 2018, 96(10): 4063-4075.

[12] AL KALALDEH M, GIBSON J, DUIJVESTEIJN N, DAETWYLER H D, MACLEOD I, MOGHADDAR N, LEE S H, VAN DER WERF J H J. Using imputed whole-genome sequence data to improve the accuracy of genomic prediction for parasite resistance in Australian sheep. Genetics, Selection, Evolution, 2019, 51(1): 32.

[13] YE S P, YUAN X L, LIN X R, GAO N, LUO Y Y, CHEN Z M, LI J Q, ZHANG X Q, ZHANG Z. Imputation from SNP chip to sequence: A case study in a Chinese indigenous chicken population. Journal of Animal Science and Biotechnology, 2018, 9: 30.

[14] LIU R R, XING S Y, WANG J, ZHENG M Q, CUI H X, CROOIJMANS R P M A, LI Q H, ZHAO G P, WEN J. A new chicken 55K SNP genotyping array. BMC Genomics, 2019, 20(1): 410.

[15] PURCELL S, NEALE B, TODD-BROWN K, THOMAS L, FERREIRA M A R, BENDER D, MALLER J, SKLAR P, DE BAKKER P I W, DALY M J, SHAM P C. PLINK: A tool set for whole-genome association and population-based linkage analyses. The American Journal of Human Genetics, 2007, 81(3): 559-575.

[16] BROWNING B L, ZHOU Y, BROWNING S R. A one-penny imputed genome from next-generation reference panels. The American Journal of Human Genetics, 2018, 103(3): 338-348.

[17] STAHL K, GOLA D, KÖNIG I R. Assessment of imputation quality: Comparison of phasing and imputation algorithms in real data. Frontiers in Genetics, 2021, 12: 724037.

[18] VANRADEN P M. Efficient methods to compute genomic predictions. Journal of Dairy Science, 2008, 91(11): 4414-4423.

[19] YANG J, LEE S H, GODDARD M E, VISSCHER P M. GCTA: A tool for genome-wide complex trait analysis. The American Journal of Human Genetics, 2011, 88(1): 76-82.

[20] NI G Y, CAVERO D, FANGMANN A, ERBE M, SIMIANER H. Whole-genome sequence-based genomic prediction in laying chickens with different genomic relationship matrices to account for genetic architecture. Genetics, Selection, Evolution, 2017, 49(1): 8.

[21] ELBASYONI I S, LORENZ A J, GUTTIERI M, FRELS K, BAENZIGER P S, POLAND J, AKHUNOV E. A comparison between genotyping-by-sequencing and array-based scoring of SNPs for genomic prediction accuracy in winter wheat. Plant Science, 2018, 270: 123-130.

[22] 王家迎. 基于填充序列数据的基因组选择研究[D]. 广州: 华南农业大学, 2018.

WANG J Y. The study of genome selection by using imputed whole sequence data[D]. Guangzhou: South China Agricultural University, 2018. (in Chinese)

[23] SU G, BRØNDUM R F, MA P, GULDBRANDTSEN B, AAMAND G P, LUND M S. Comparison of genomic predictions using medium- density (～54, 000) and high-density (～777, 000) single nucleotide polymorphism marker panels in Nordic Holstein and Red Dairy Cattle populations. Journal of Dairy Science, 2012, 95(8): 4657-4665.

[24] PÉREZ-ENCISO M, RINCÓN J C, LEGARRA A. Sequence-. chip-assisted genomic selection: Accurate biological information is advised. Genetics, Selection, Evolution, 2015, 47(1): 43.

[25] MANOLIO T A, COLLINS F S, COX N J, GOLDSTEIN D B, HINDORFF L A, HUNTER D J, MCCARTHY M I, RAMOS E M, CARDON L R, CHAKRAVARTI A, et al. Finding the missing heritability of complex diseases. Nature, 2009, 461(7265): 747-753.

[26] HAYES B J, BOWMAN P J, DAETWYLER H D, KIJAS J W, VAN DER WERF J H J. Accuracy of genotype imputation in sheep breeds. Animal Genetics, 2012, 43(1): 72-80.

[27] HICKEY J M, CROSSA J, BABU R, DE LOS CAMPOS G. Factors affecting the accuracy of genotype imputation in populations from several maize breeding programs. Crop Science, 2012, 52(2): 654-663.

[28] LIN P, HARTZ S M, ZHANG Z H, SACCONE S F, WANG J, TISCHFIELD J A, EDENBERG H J, KRAMER J R, M GOATE A, BIERUT L J, RICE J P. A new statistic to evaluate imputation reliability. PLoS ONE, 2010, 5(3): e9697.

[29] MA P, BRØNDUM R F, ZHANG Q, LUND M S, SU G. Comparison of different methods for imputing genome-wide marker genotypes in Swedish and Finnish Red Cattle. Journal of Dairy Science, 2013, 96(7): 4666-4677.

[30] NI G Y, STROM T M, PAUSCH H, REIMER C, PREISINGER R, SIMIANER H, ERBE M. Comparison among three variant callers and assessment of the accuracy of imputation from SNP array data to whole-genome sequence level in chicken. BMC Genomics, 2015, 16: 824.

Assessment of Genomic Selection Accuracy for Slaughter Traits in Broilers Based on Microarray and Imputed Sequencing Data

1College of Animal Science and Technology, Nanjing Agricultural University, Nanjing 210095;2Institute of Animal Sciences, Chinese Academy of Agricultural Sciences/State Key Laboratory of Animal Nutrition and Feeding, Beijing 100193

【Background】In the breeding work of livestock and poultry, the core of which is the accuracy of genomic estimated breeding values. Different levels of genetic marker densities have a great impact on estimated breeding values, and with the development of genotyping technology and the decrease of high-throughput sequencing prices, genomic selection studies based on sequencing data have emerged. Theoretically, higher marker density can obtain higher prediction accuracy. This is because Quantitative Trait Loci (QTL) affecting the target trait are in linkage disequilibrium with at least one of the high-density markers covering the entire genome. A higher density of marker levels theoretically ensures tight linkage between markers and QTL, thus ensuring higher prediction accuracy. However, compared with microarray data, it has also been shown that the accuracy of genomic prediction for imputed sequencing data is not significantly improved. 【Objective】Using the GBLUP method, we compared the genomic selection accuracy of imputed sequencing data and microarray data for slaughter traits in broiler chickens to provide a theoretical basis for genotyping strategies for broiler genomic selection breeding. 【Method】 In this study, we used SNP array data and imputed whole-genome sequence level (WGS) data to perform genomic prediction for the traits of breast muscle weight, carcass weight and thigh muscle weight in white feather broilers using the GBLUP method, and then we conducted a comparative study on their accuracy in genomic prediction. First, 3 362 chickens were genotyped using the Jingxin No. 1 chicken 55 K SNP chip, and 230 chickens were randomly selected from the ninth batch of generation 7 for whole-genome resequencing, and then the 55 K SNP chip data were imputed to the resequencing data level using Beagle 5.1 software. Considering the effect of chromosome size on the filling accuracy, the larger chromosome 3 and the smaller chromosome 14 were used to calculate the allele correct rate (CR) and genotype correlation coefficient (Cor), and the imputed WGS accuracy was determined by this study. The genomic breeding values of three slaughter traits were predicted using the imputed WGS data, and the accuracy, rank correlation and unbiasedness of the prediction results were evaluated using a 5-fold cross-validation method. 【Result】The results showed that the average allelic accuracy of the two chromosomes was 0.924 and the average genotype correlation was 0.885, and the imputed WGS accuracy was high enough to be used for genomic prediction studies at a later stage. The accuracy of the predicted genomic breeding values calculated from microarray data ranged from 0.2194 to 0.2629, and the accuracy of the predicted genomic breeding values calculated from imputed sequencing data ranged from 0.2110 to 0.2695. The results show that the difference in the accuracy of the prediction of genomic breeding values from the imputed sequencing data was not significant compared with the 55 K SNP chip results. 【Conclusion】Compared with the results of 55 K SNP microarray, the improvement in the accuracy of genomic breeding value prediction for three slaughter traits (breast muscle weight, carcass weight and leg muscle) in white feather broiler using imputed genomic level data was not significant, which provides a reference for the selection of data types in livestock genetic breeding work.

white feather broiler; slaughter traits; genomic breeding value prediction; imputed sequencing data; microarray data; assessment