奶牛乳房炎风险评估体系在中国荷斯坦牛群中的应用及优化

2021-10-21李文龙赵婷婷达日格日乐史良玉王雅春

中国畜牧杂志 2021年10期

李文龙，赵婷婷，达日格日乐，史良玉，郭刚，王雅春，肖炜，俞英*

（1.中国农业大学动物科学技术学院，北京 100193；2.北京首农畜牧发展有限公司，北京 100076；3.北京市畜牧总站，北京 100107）

奶牛乳房炎是奶牛养殖业中最常见的疾病，对全世界奶业造成极大的经济损失，各类损失每年共计197亿～300 亿美元[1-2]。奶牛乳房炎可分为隐性乳房炎和临床乳房炎，隐性乳房炎造成的奶产量损失较严重[3]，发病率为 25%～68%[4]。2019 年我国牛奶总产量突破3 201.00 万t，同比增长4.10%[5]。为保证产奶量及原料乳品质的持续稳定提高，对奶牛乳房炎进行风险评估进而防范乳房炎的发生尤为关键。

国内外已有利用不同统计学模型预测奶牛乳房炎发生的研究[6-9]。研究发现奶牛群体改良（Dairy Herd Improvement，DHI）测定记录中的乳汁体细胞数（Somatic Cell Count，SCC）、胎次等均可作为变量预测奶牛乳房炎[9]。目前Logistic 回归、深度学习和随机森林等方法均已被应用于预测，不同模型的准确率无显著差异[10]。奶牛乳房炎风险评估方面的研究集中在模型的构建及指标监测[11-13]，然而关于模型在奶牛养殖中实际外部验证的预测效力及应用策略的研究鲜有报道。

课题组前期利用北京地区1998—2016 年196 万余条奶牛生产性能测定记录，以“泌乳牛群规模+胎次+测定季节+泌乳阶段+本月体细胞评分（Somatic Cell Score，SCS）”为变量构建了隐性乳房炎和临床乳房炎的Logistic 回归模型，两模型的预测准确率分别为67.6%和83.6%[9]。本研究基于史良玉等[9]构建的奶牛乳房炎Logistic 回归模型（Cow Mastitis Logistic Regression Model，CMLM），应用多个牧场近年实际DHI 数据，构建不同类型验证数据集对CMLM 在中国荷斯坦牛群中乳房炎风险预测的实际表现进行评估和分析，以期为CMLM 风险评估体系的预测效力和实际应用提供参考数据。

1 材料与方法

1.1 数据来源验证数据来自北京首农畜牧发展有限公司6 个牧场及浙江省嘉兴市一牧场的实际DHI 记录，筛选同一头奶牛连续2 个月都具有的DHI 记录，数据分布见表1，共计73 004 头次（151 月次）。

1.2 CMLM 风险评估体系及诊断类别概率截点 CMLM风险评估体系包括隐性乳房炎（CMLM-S）、临床乳房炎（CMLM-C）两类奶牛乳房炎Logistic 回归模型的概率公式：

式中，P 隐性乳房炎表示奶牛下月患隐性乳房炎的概率，P 临床乳房炎表示奶牛下月患临床乳房炎的概率，x1表示泌乳牛群规模，x2表示胎次，x3表示季节，x4表示泌乳阶段，x5表示本月SCS，β10和β20是常数项，其余β值分别为各变量系数[9]。

设定CMLM 风险评估体系的诊断类别概率截点为0.5。即如果P隐性乳房炎＜0.5，P临床乳房炎＜0.5，预测奶牛下月不患乳房炎；如果P隐性乳房炎≥0.5，P临床乳房炎＜0.5，预测奶牛下月患隐性乳房炎；如果P隐性乳房炎＞0.5，P临床乳房炎≥0.5，则预测奶牛下月患临床乳房炎。

1.3 分析及验证方法 CMLM 风险评估体系在中国荷斯坦牛群中应用效果的验证流程如图1 所示。

1.3.1 CMLM 外部验证区分度、校准度检验区分度（Discrimination）指正确区分个体是否会发生结局事件的能力，而校准度（Calibration）通常评价风险模型预测个体未来发生结局事件的概率准确性，二者是评估模型的重要指标。为对CMLM 进行外部验证以评估区分度和校准度，本研究将北京市2016—2020 年不同奶牛场、不同月份的DHI 数据作为验证数据集，读取DHI 中各风险因素数据，根据变量类型进行变量划分并赋值：利用国际通用的转换公式“SCS=log2（SCC/100 000）+3”将SCC 转化为SCS；泌乳牛群规模，划定200～400 头泌乳牛规模的奶牛场为小型奶牛场，400～800 头泌乳牛为中型奶牛场，大于800 头泌乳牛为大型奶牛场，据课题组前期结果[9]，≤800 头泌乳牛的奶牛场归为小群及中群，将其赋值为1，而大群赋值为2；胎次，分为1 胎（赋值为1）、2 胎（赋值为2）、3 胎及以上（赋值为3）；季节，分为6、7、8 月的夏季（赋值为1）与其他月份的非夏季（赋值为2）；泌乳阶段，分为1～100 天（赋值为1）、101～200 天（赋值为2）、201～300 天（赋值为3）及＞300 天（赋值为4）。随后变量值分别进入CMLM-S 及CMLM-C，得到奶牛下个月乳房炎患病预测结果。针对验证数据中隐性乳房炎、临床乳房炎奶牛发病情况及预测概率分别进行ROC 曲线及校准曲线的绘制以评判CMLM 的区分度和校准度。校准度曲线反映模型预测风险与实际发生风险的一致程度，用来评判模型的校准度[14-15]，校准曲线图中实线对角线表示理想情况下完美校准的对角线，以点相连的虚线反映实际观察风险和预测风险之间的关系。所有的分析绘图均使用R 4.0.0 进行。

1.3.2 CMLM 在不同类型验证数据集中预测的准确性DHI 是一套针对奶牛泌乳性能及乳成分的完整奶牛生产性能记录体系，实际情况中通常每场每月进行1 次测定。本部分研究中将每场每月DHI 及下月奶牛信息作为1个验证数据集，评估CMLM 的预测准确性。基于北京市的验证数据集，考评CMLM 在“多个牧场全年”、“多个牧场不同年份”及“同一牧场长时程”类型验证数据集中的表现。将奶牛实际DHI 信息中相应指标的数据作为变量值代入CMLM，得到奶牛下月预测患病状况，同时取第2 个月DHI 数据实际记录，依据SCC值对其实际乳房炎患病情况进行判断[9]，奶牛乳房炎发病判定标准采用马裴裴等[16]的研究结果：10 万/mL～50万/mLSCC 作为隐性乳房炎判定标准，大于50万/mLSCC作为临床乳房炎判定标准。同时统计特异度，本实验中特异度指评判CMLM 对健康奶牛的判断能力。预测结果与实际结果进行比较，统计CMLM 在不同类型验证数据集的预测准确率。

1.3.3 CMLM 在中国南方牧场的应用验证利用浙江省嘉兴市地区一“小群”荷斯坦牛场2019 年1 月—2020年连续13 个月次的DHI 数据，进行乳房炎风险预测（同1.2.2），评估CMLM 在中国南方小群牧场应用的乳房炎发病预测准确率。

1.3.4 基于连续3 个月预测信息筛选高患病风险奶牛生产实践中，牧场通常会对连续三个月均为乳房炎高发病风险的奶牛进行隔群或移群处理，筛选乳房炎高发病风险奶牛对于牧场具备指导性意义。利用连续3 个月的CMLM 预测信息，提取3 个月均预测准确且患乳房炎的奶牛，选择P临床乳房炎值最大的前20 头奶牛作为乳房炎高发病风险奶牛。探究乳房炎高发病风险奶牛在下一个月乳房炎的实际发病率。

2 结果

2.1 CMLM 在北京地区验证数据集中的区分度及校准度为统计CMLM 在北京地区验证数据集中的区分度，计算CMLM 在外部验证的ROC 图曲线下面积（Area Under the Curve，AUC），并与CMLM 在建模数据中的结果进行比较，以判断CMLM 外部验证区分度的表现。结果显示CMLM 在外部数据中，CMLM-S 的预测价值为0.712（图2-A），CMLM-C 的预测价值为0.798（图2-B），均较高。在建模数据中，CMLM-S 和CMLM-C的预测价值分别为0.721 和0.825。相比之下，CMLM在验证数据中仍能保持较好区分度，且与建模数据相比预测价值较稳定。CMLM-S 校准曲线（图2-C）相较于完美校准线整体趋势一致，而CMLM-C 的预测风险相较于实际风险略高（图2-D）。以上结果表明，CMLM在外部验证中区分度保持良好，且具备一定校准度。

图2 CMLM 在验证数据中的预测ROC 曲线、校准曲线

2.2 北京地区不同类型验证数据集乳房炎发病风险的预测准确率据图1 所示的评估流程，本部分研究首先计算了2019 年北京地区5 个荷斯坦牛场60 个数据集验证CMLM 的相关验证统计量，以探究CMLM 在“多个牧场全年”验证数据集中的表现。结果发现，在2019 年总共60 个验证数据集中，CMLM 的乳房炎发病预测准确率整体表现稳定，平均准确率为67.19%，其中最大值为77.98%，最小值为48.90%（表2）。单个数据集中最多包含1 094 头泌乳奶牛信息，最少包含169 头奶牛信息，数据集覆盖“大群”和“小群及中群”2 种类型的泌乳牛群规模。2019 年中，在相同牧场不同月份的数据集中，预测准确率无明显差异；同一月份内各个不同泌乳牛群规模的牧场预测准确率也无明显波动。特异度为将实际无病的奶牛正确诊断为非病牛的概率，在各个牧场不同时间段内，不同数据集的特异度均高于70%（表2）。以上结果表明，CMLM 在“多个牧场全年”的验证数据集类型中，其预测奶牛乳房炎发病状况的能力较优且稳定。

表2 2019 年北京地区荷斯坦牛场CMLM 的验证统计量

进一步增加1 个牧场，探究CMLM 在2020 年验证数据集中的表现。利用2020 年1—6 月共计36 个验证数据集进行验证，结果显示（表3），2020 年乳房炎发病预测准确率无显著变异，平均为69.87%，其中最大值为84.79%，最小值为53.46%，与2019 年相比无明显差异，特异度整体与2019 年也表现一致。由此可知，CMLM 在北京地区荷斯坦牛群“多个牧场不同年份”类型验证数据集中，表现稳健。

表3 2020 年1—6 月北京地区荷斯坦牛场CMLM 的验证统计量

A 牧场2016—2020 年6 月共 54 个月次数据集中乳房炎发病预测的准确率如表4 所示，扩大数据集的时间跨度之后，CMLM 的整体预测水平保持稳定。在54 个不同时间段的数据集中，预测准确率平均为70.12%，最高为81.02%。每整年的验证数据内预测准确率变异幅度较小，2016、2017 年的验证数据集内预测准确率的变异最大，但变异系数仅为0.09。

表4 A 牧场近5 年不同月份预测准确率统计

2.3 CMLM 在中国南方牧场的应用验证前期构建CMLM 的建模数据为北京地区196 万余条DHI 记录，建模数据更具中国北方牧场代表性。为验证CMLM 在南方奶牛群体中的预测效果，利用CMLM 对南方奶牛小群牧场的乳房炎发病情况进行预测，结果显示（图3），来自同一个牧场的连续12 个验证数据集中，CMLM对南方牧场的奶牛乳房炎发病情况具有良好的预测效果，平均准确率为77.64%，最高为85.29%，最低为70.13%。南方牧场不同月份之间的预测准确率无明显差异。

图3 浙江省G 牧场2019 年数据CMLM 验证统计量分布折线图

2.4 乳房炎高发病风险奶牛的预测情况本研究基于连续3 个月CMLM 预测信息，探寻筛选乳房炎高发病风险奶牛的策略，并将其作为优化应用的手段（图4）。在北京市所有牧场的数据中，共统计得到2 480 头次乳房高发病风险奶牛的信息。其中，2 458 头次乳房炎高发病风险奶牛下个月会发生临床乳房炎，22 头次没有发生，预测准确率约99.11%。表明基于此策略得到的乳房炎高发病风险奶牛下月患病概率极高，适宜作为候选的重点防控牛只。

图4 乳房炎高发病风险奶牛下月发病比率

3 讨论

随着时间推移，各种变量因素的变化均可能影响模型的预测效力[17]。本文基于CMLM，利用近年北京市牧场作为验证数据对其进行外部验证，发现CMLM仍然具有优良的预测准确性和区分度。此外，关于CMLM 在不同纬度地区及实际应用的研究，发现其具备在全国范围内推广应用的潜力。

CMLM 在验证数据中仍然具备较优的区分度。逻辑回归模型需在外部进行验证，以稳健用于其他群体[18]。模型区分度通常是验证时关注的重点，一般情况下，AUC 在0.50～0.70被认为模型区分度一般，AUC 在0.70～0.90 被认为该模型良好，AUC 高于0.90 被认为该模型是优秀的，而模型的校正度有时被忽略[19]。在国内外关于预测奶牛乳房炎的研究中，对模型进行外部验证并对模型进行校准度检验鲜有报道，很难明确这些模型在实际应用中的准确性和稳定性[20-22]。本研究中，以北京地区6 个牧场138 月次的实际DHI 记录作为CMLM 的验证数据集，发现CMLM 在验证数据中的区分度良好，其中CMLM-S 的预测价值为0.712，CMLM-C的预测价值为0.798。同时，CMLM-S、CMLM-C 在验证数据中的区分度与建模时基本一致，验证了CMLM 的稳定性。CMLM-C 模型的校准度相对不佳，校准结果表明模型的预测风险比实际风险高，校准曲线出现偏离。在其他牛群中使用该模型时，可能需要对其性能进行评估和重新校准，当然这也可能是由于验证数据集来源固定牛场受到某些未知因素的干扰，有待进一步收集数据进行验证。

CMLM 在多个牧场不同月份验证数据集的准确率和特异度整体上稳定，平均准确率为68.89%。在2019年“多个牧场全年”的验证数据集的准确率保持平稳，平均准确率为67.19%；CMLM 在2020 年的数据集中预测准确率平均为69.87%。在2019 和2020 年CMLM的预测准确率未发生明显改变。由此可判断，CMLM在利用不同年份多个牧场的数据集对奶牛乳房炎进行预测时，可以保证较高的准确率。时间对CMLM 预测效力的影响很小，可从A 牧场近5 年的数据进一步得到验证。预测结果中准确率明显较小可能是由于DHI 测定时样品采集的误差。除牛场管理、胎次、泌乳阶段以及季节和月份等因素外[23-24]，一些尚未进入DHI 测定的因素也会影响SCC 值，如乳房及乳头形态、乳房卫生情况、卧床卫生情况等[25-26]，这些因素也有可能影响奶牛个体乳房炎风险评估的准确性。

分析CMLM 在南方牧场中的应用情况，发现在小群牧场13 个月次的数据集中，整体准确性趋势稳定，且可保持较高水平。结果提示，CMLM 在南方小群牧场奶牛群体的应用具备可行性，可进一步研究以推广该评估体系在其他地理区域的应用价值。由于南方牧场数据集来自小规模泌乳牛群体，样本量较小，同时南北方高温时期、不同乳房炎类型奶牛占比有所差异[27]，仍需要继续收集其他南方地区不同规模牧场的数据，进一步完成模型在不同地理区域牧场奶牛群体的验证及优化。此外，关于乳房炎高发病风险奶牛的筛选策略得到的结果预测准确率也极高，为99.11%，表明可以作为一种较优的在牧场试运行应用的策略。

4 结论

本研究结果显示，CMLM 在中国北方牧场具备良好的应用性，其在验证数据中区分度依然保持良好；对于“多个牧场全年”、“多个牧场不同年份”及“同一牧场长时程”类型的验证数据集奶牛乳房炎的预测均具备较高的稳定性及准确性；在南方地区和实际生产实践中CMLM 同样具备应用潜力。该研究表明，基于“泌乳牛群规模+胎次+测定季节+泌乳阶段+本月体细胞评分”为变量构建的CMLM 可以稳定应用于中国荷斯坦牛群下月乳房炎发生风险的预测。

致谢：感谢提供DHI 数据的牛场及数据中心。