APP下载

基于深度置信网络-多类模糊支持向量机的粮食供应链危害物风险预警

2020-10-29王小艺李柳生孔建磊金学波苏婷立白玉廷

食品科学 2020年19期
关键词:预警危害粮食

王小艺,李柳生,孔建磊,*,金学波,苏婷立,白玉廷

(1.北京工商大学计算机与信息工程学院,北京 100048;2.北京工商大学 北京市食品安全大数据技术重点实验室,北京 100048)

国以民为本,民以食为天。作为人类赖以生存的重要商品,粮食安全问题是关系国计民生的战略问题,既影响着国家主权、经济和社会的稳定发展,又影响着人民身体的健康。然而近些年粮食安全问题时有发生,粮食供应从原材料到最终商品,需要经过种植收购、生产加工、仓储运输、销售消费等多个环节,是一个是多维、复杂、耦合的过程[1]。其中任何一个环节都存在不同类别和程度的危害物风险因素,且每个因素受到食品多样性、数据多源异构、地区分布差异、时间变化性等影响,这直接导致粮食供应链安全得不到保障,自然产生和非法添加的食源性危害物如重金属、农药残留、食品添加剂以及卫生条件控制不当造成的微生物、真菌毒素污染,严重威胁着群众的身体健康和生命安全[2-3]。为有效控制粮食供应链中每个环节的潜在污染源,预防和减少食源性风险威胁,风险预警正逐渐成为强化粮食供应链安全体系的有力保障[4]。所谓预警是对潜在危害物及可能产生风险信息进行动态监控、风险评估和综合分析判断的结构化决策过程,在全面收集预警指标数据、汇总多因素风险信息基础上,通过对相关数据分析、信息归纳、知识推演等处理,去伪存真,判断事物发展的走势,进行合理预测,提出不同警情的对策建议和反馈[5]。构建合理有效的粮食供应链风险监测与预警体系,在最大范围内有效防控风险,降低食品安全事故的发生概率,已成为当前亟待解决的问题。

目前国内外学者在食品风险预警领域做了很多研究,总体而言,食品安全预警系统可分为信息采集系统、预警分析系统、应急防控系统3 个主要部分,其中预警分析系统是整个食品安全风险预警系统的关键和核心。典型如欧盟批准的食品饲料快速预警系统,在危害分析关键控制点标准下构建,重点注重最相关的高风险危害物。而世界卫生组织建立的全球环境食品污染监测和评估系统,对全球26 个国家进行长期不间断微生物危害事件及疫情监控、动态监测和预警潜在危害风险[6]。近些年,我国食品安全监测和防控系统也在迅速发展。农业农村部通过无公害农业与食物安全预警系统对食源性农药残留、重金属超标监测,向全国发布农产品警情。国家市场监督管理总局为有效应对食品安全问题建立了包括信息处理系统、预警分析系统和快速反应系统在内的预警体系[7]。国家食品安全风险评估中心构建了涵盖全国31 个省份的全国食品风险监测和预警系统,涵盖生物性危害(细菌、病毒和寄生虫)、化学危害和微生物等各类危害物,开展食品暴露监测及食源性疾病监测和调查工作[8]。虽然目前中国已建立诸多食品安全风险监测与预警防范体系,但仍存在较多问题,如风险监测与预警脱节、供应链间危害因素迁移规律不清等,特别是预警方法不先进问题更为突出,导致难以做到与食品监测信息系统的连接,无法真正地做到对出现的食品安全风险提前预报[9]。

目前食品风险预警方法主要分为定性分析[10]与定量数据挖掘[11]两种。定性分析方法依托从调查问卷、专家咨询、政策与理论分析中得到数理统计数据,抽取关键危害因素及潜在关联,在食品管制、食品安全风险态度分析、食品安全问题认知度等研究中很常见;但其依赖的数据存在主观性,掩盖了危害物在供应链环节内耦合作用,容易导出违背事实规律的伪结论。而基于定量数据挖掘的预警方法,从大量的食品安全监督抽检数据入手,在生产、流通以及消费环节采集超标数值、不合格率等信息,实现食品安全隐患评价和预测预警[12]。常见数据挖掘方法有贝叶斯网络[13]、关联规则[14]、支持向量机[15]、决策树[16]、误差逆传播(back propagation,BP)神经网络[17]等。Wang Jing等使用模糊神经网络模型来预测并描述食品在各环节中的微生物数量,并以此作为参考来预警微生物风险,实现食品安全动态可追溯监管[18]。Wang Xueli等根据国家食品安全风险评估公布的湖南省21 866 例食源性疾病,就诊病例中确诊病例21 226 例这一数据,构建了贝叶斯网络模型预测每日真实患者数[19]。Zhu Changxing等为了克服传统食品风险预警模型在假设、样本量、泛化能力等方面的不足,将支持向量机分类理论与预警理论相结合,提出了一种食品安全预警模型[20]。王霞利用2010年食物摄入量数据构建了BP神经网络风险预警模型,预测2011年的食物摄入量[21]。这些方法科学有效地把监督抽检的数据转化为风险的量化分级,但粮食供应链中环节众多、危害物来源各异,现有数据挖掘方法需要依赖大量人工干预实现指标量化和权重分配,不利于日常食品安全预警应用和管理[22]。而且已有研究只是在当前数据出现超标、数据变动量超标时根据统计值做出预警,适用于小数据量预警处理,只在风险发展到临界点或即将到临界点时才呈现警示结果,不具备早期预测未来风险的预警本质,无法从海量多维异构数据中挖掘粮食供应链危害物风险预警作用机理,导致预警准确率低、人力工作量大、监管实施难等问题[23-24]。

相比传统预警方法存在的受供应链环节、危害物迁移扩散等众多因素的影响而经常呈现出非线性、波动性大等问题,深度置信网络(deep belief network,DBN)应用多层次结构模拟大脑认知神经系统,将数据间复杂关系抽象为特征或属性类别等高层表示[25],迅速得到了广大学者的高度关注,其通过大样本训练获得系统隐含规律,不需要严格的输入值间、输入输出值间假设关系,同时能够以区间数、模糊数等方式处理定性信息,目前DBN在产量预测[26]、水稻病害预警[27]、储粮虫害预警[28]、药品鉴别[29]等方面应用也得到了充分的肯定,能够在系统内部状态未知条件下实现基于现有定量定性知识的状态预测、预警。因此,针对粮食供应链危害物风险分级预警问题特点,本研究在分析中国质监部门实际抽检数据及预处理方法基础上,结合多类模糊支持向量机(multiclass fuzzy support vector machine,MFSVM)和DBN模型优势,自适应分析粮食供应链中多维异构抽检数据,构建基于DBNMFSVM的粮食供应链危害物风险分级预警模型,从而达到充分掌握供应链内各类危害因素迁移变化规律的目的,使危害物风险预警更加准确。

1 材料与方法

1.1 数据来源与特点

本研究以全国主要粮食生产地区的主要危害物进行实例分析,搜集整理国家粮食局、国家市场监督管理总局等网站公布的抽检数据,按照重金属、霉菌毒素、微生物、食品添加剂、农药残留等危害物类别及供应链环节来源进行分类整理和预处理,收集整理到2013—2018年的粮食及其加工品的抽检数据,包括除港澳台、西藏、新疆、内蒙古、宁夏和甘肃在外的26 个省份,涵盖中国粮食食品的主要产区和消费大省,亦属于人口密集地区。粮食食品种类由大米、大米加工品、小麦粉、小麦粉加工品、其他粮食加工品组成,这5 类产品涵盖了中国消费者最主要的粮食结构。抽检数据整体反映了各省份地区粮食供应链中危害物的类别、来源以及有关危害物的信息,每个数据样本由多个因素组成,包括:产品名称、标称生产企业及被抽样企业信息、抽样环节及场所、生产及抽检日期、食品分类、抽检项目及结果、标准值等。

鉴于粮食供应链安全受到社会、经济、监管、危害物毒性等众多因素影响,且供应链涵盖从种植、生产加工、仓储物流等众多环节,以及含各类商场、超市及其他消费场所在内的销售消费环节,这些环节均可能出现安全隐患和风险因素。因此,本研究深入整理收集粮食供应链相关信息,通过对文献、食品行业专业网站、新闻媒体信息的分析,得到匹配食品抽检数据的粮食供应链主要危害物计量统计信息。其中,参考国家统计局的第六次全国人口普查结果和《中国统计年鉴》获取粮食相关人口数据和消费数据;致病菌的污染情况、危害程度和流行病学数据则来源于《中国卫生统计年鉴》、《中国食品工业年鉴》。此外,其他信息还包括调研信息,包括统计中国食品安全网等网站公告的粮食安全事件情况,并采用调查问卷的方式,共邀请来自高等院校、食品药品监管部门、食品行业的专家及从业人员进行调研论证,发出共回收有效问卷553 份,获取蕴含专家综合分析及预警知识的调研问卷信息。

本研究在分析不同省份、不同时间的食品抽检数据基础上,结合计量统计信息和调研问卷信息辅助评价,构建多维层次指标体系,对粮食供应链危害物进行分级量化分析,初步评定出各类危害物风险等级。本指标体系分为14 个一级指标和34 个属性指标,如表1所示,每个一级指标由其多个属性指标加权求和得到,而上层评价指标需通过下层评价指标的评价结果反映出来,即涵盖定性指标,如社会关注度、危害程度、监管可及性等,同时兼顾定量指标,如全省年度总产量、粮食生产及消费价格、国家标准限定值等内容。各指标权重赋值由高等院校、食品药品监管部门、食品行业的专家及从业人员综合评价得出,伴随调研及问卷实施过程获得。根据专家们综合评定,对各样本数据中危害物进行风险分级,共细分出8 个等级:安全、较安全、预警、较低危险、中危险、较高危险、高危险和超高危险[30]。综合抽检数据、计量统计数据、调研数据等构建多维异构数据集合,本研究在分析多维异构食品抽检数据的基础上,将粮食供应链划分为生产、流通、消费3 个主要环节,以粮食供应链中的重金属(镉、铅、汞等)、霉菌毒素(黄曲霉毒素、脱氧雪腐镰刀菌烯醇、赭曲霉毒素、玉米赤霉烯酮等)、农药残留(马拉硫磷、戊唑醇等)以及其他主要危害物为研究对象,这些危害物反映了粮食供应链中主要危害物大类,会从各个方面影响人的身体健康。

表1 粮食供应链危害物数据结构Table 1 Hazard data structure sampled in cereal supply chain

经过上述过程,整合不同来源、不同类型的数据,形成粮食供应链危害物数据集,共有26 285 个数据样本。将数据集划分为训练集合和测试集合,划分比例为80%∶20%。所获得数据呈现多源头、多属性、强关联等特点,区别于图像、视频、文本等非结构化数据,每个数据样本由一行多列形式记录,存储在二维表中,除了整数、浮点等数值型定量特征,还包含非数字型定性特征,比如中文、英文字母、特殊符号等,是典型的多源异构的数据,涵盖了粮食供应链各环节中不同危害物潜在风险因素。

1.2 基于DBN-MFSVM的风险等级预警模型

本实验基于DBN-MFSVM的等级预警模型(图1)架构,其包含3 个步骤:1)将粮食数据中的类别特征进行嵌入编码,再对数值型特征进行归一化处理,最终预处理为结构化数据。2)使用DBN对结构化数据进行特征提取,挖掘供应链危害物风险变化内在关联,形成出高维度表征的特征集合。3)以高维特征为输入,应用MFSVM进行分类器参数优化,准确、高效地实现各主要危害物风险分级预警。

图1 DBN-MFSVM模型Fig. 1 DBN-MFSVM model

1.2.1 基于嵌入归一化的数据预处理

输入n个训练数据Xn={x1,x2, ...,xm}预警等级yn。在多维异构食品非结构化数据中,特征有数值型特征和中英文类别型特征。但计算机只能处理数值型数据,没法处理类别型数据。因此,需要对各种类别特征进行相应的编码,进行定性指标的定量化处理,本实验使用标签编码和独热编码相结合的编码方式,先应用标签编码将分类特征转化成连续的数值型变量,继而应用独热编码有效增加额外列属性,让0和1出现在对应的列分别表示每个分类值有或无。将样本中某个特征xm进行标签独热编码,如式(1)所示。

式中:δxmα是克罗内克函数,α与xm是两个输入,当α=xm时δxmα为1,不相等时δxmα为0。如果N是特征xm可能值的数量,则δxiα是长度为N的向量。举例说明,如抽检地分别为北京、山西、陕西,经过编码后表示为“北京100,山西010,陕西001”,这样消除了数值大小关系比较。但本数据中抽检地有26 个省份地区,直接编码会导致维度急剧增加,产生大量冗余的稀疏矩阵,加重了预警系统计算量。因此,在本实验中采用嵌入方式进一步挖掘不同维度之间的内在关系,对特征进行神经网络嵌入,如式(2)所示。

式中:ωαβ是连接独热编码层与嵌入层的权重;β是嵌入层的索引,映射的嵌入只是这一层的权重。如此,所有特征被嵌入到一个低维空间,每一个n×m的矩阵M都定义了Rm到Rn的一个线性映射:对应矩阵M中的一行,如式(3)所示。

使用嵌入来表示所有类别特征之后,所有嵌入层和所有连续变量的输入被连接起来,合并的图层被视为神经网络中的普通输入图层,可以使用标准反向传播方法训练整个网络,如此可以了解每个类别的内在属性,更深层地挖掘各特征组合的内在关联。鉴于各个特征属性定义及取值范围均不同,为了消除属性之间的量纲影响,需要对各属性进行归一化处理,使得不同属性之间具有可比性。对数值类型的特征进行线性函数归一化,将嵌入编码的数据对进行线性变换,将所有特征值范围定义在[0,1]内,实现对原始数据的等比缩放,为后续深度置信网络训练提供底层特征集合。归一化公式如式(4)所示。

式中:X为原始样本特征值;Xnorm为归一化后的特征值,xmax和xmin分别为该特征中的最大值和最小值。

1.2.2 DBN特征提取

本实验所使用的DBN是由多层RBM和一层BP神经网络组成,训练过程主要包含预训练和微调2 个阶段。

预训练阶段:使用对比散度算法,逐层来调整连接权重和偏置,首先训练输入层和隐藏层之间的参数,把训练后得到的参数作为下一层的输入,再调整该层与下一个隐藏层之间的参数,然后逐次迭代,完成多层RBM的训练。RBM由可见层和隐藏层构成的两层结构,可见层和隐藏层又分别由可见变量和隐藏变量构成。本实验中的DBN由一个可见层v和两个隐藏层h1、h2构成,相邻的两层即是一个RBM,则v-h1,h1-h2构成了两个RBM,具体见图1。

v表示所有的可见层单元,其输入为嵌入归一化后的数据特征;h表示所有隐藏层单元,模型的3 个参数包括权重矩阵W、可见层单元偏置A、隐藏层单元偏置B。对于一个有n 个可见单元m 个隐单元的RBM模型,vi表示第i个可见单元,hj表示第j个隐单元,它的参数形式为:Wij表示第i个可见单元和第j个隐单元之间的权值,ai表示第i个可见单元的偏置,bj是第j个隐单元的偏置。RBM是根据能量平衡原理的一种概率生成模型,利用无监督学习初始化权重值,从而学习出特征间的内在结构和关系。对于一组给定状态下的(v,h)值,观察数据得知可见层和隐藏层均服从伯努利分布,得到RBM的能量函数(公式(5))。

式中:θ=(Wij,ai,bj),为RBM模型的参数,能量函数表示在每一个可见层节点和每一个隐藏层节点之间都存在一个能量值。对该能量函数指数化和正则化后可以得到可见层节点集合和隐藏层节点集合分别处于某一种状态下(v,h)联合概率分布公式(式(6)),其中Z(θ)按公式(7)计算。

式中:Z(θ)为归一化因子,表示对可见层和隐藏层节点集合的所有可能状态的求和。由于RBM模型层间全连接、层内无连接,在给定可见单元的状态时,各隐藏层单元的激活状态之间是条件独立的。此时,第j个隐单元的激活概率可按式(8)计算。相应地,当给定隐单元的状态时,可见单元的激活概率同样是条件独立的。此时第i个可见单元激活的概率可按式(9)计算。

式中:f为激活函数,这里选用sigmoid作为激活函数。是因为它可以把(-∞,+∞)的值映射到[0,1]这个区间。也就是说,无论模型的可见层输入节点数据处于一个多大的范围内,都可以通过sigmoid函数求得它相应的函数值,即节点的激活概率值。

微调阶段:把训练RBM得到的输入作为BP神经网络的输入,进行前向传播,然后进行反向传播,将顶层训练的误差从输入层反向传播至输入层,微调各层的参数,使得误差最小。最终将DBN特征提取后的特征作为MFSVM分类器的输入,实现预警等级的分类。

1.2.3 多类模糊支持向量机

传统的支持向量机的两类性较强,但对本实验涉及的多类安全等级问题则表现欠缺。因此本实验使用模糊输入和模糊输出的支持向量机作为分类器,以径向基函数描述核函数,优化隶属度表现形式,并使用有向无环图(directed acyclic graphs,DAG)的形式将双模糊支持向量机推广到多类问题,构建MFSVM,提升支持向量机的分类能力和泛化性。将DBN模型提取的高维特征作为MFSVM分类器的输入,取n 个训练样本的高维特征及标签构建集合{(hi2,yi),i=1,2,...,n},通过模型训练在样本空间中获得划分超平面,将不同类别的样本分开,其目标函数见式(10)。

约束条件: yi(wTxi+b)≥1-ξi,i =1,…,n

式中:惩罚参数C是用来限制奇异点存在的程度;w和b分别为超平面的法向量和截距;松弛变量ξi对一些不能被超平面正确分类的样本进行补偿。之后,将拉格朗日算子ai引入公式,通过化简和转化,可以得到超平面的表达式(式(11))。

式中:K(xi,x)是为了解决非线性问题引入的核函数。选择了常用的径向基函数作为核函数,σ为核函数的带宽,控制函数的作用范围,其表达式见公式(12)。

实际应用中,每个训练样本对支持向量机所起的作用不同,边缘数据最容易错分且成为支持向量的机会较多,而中间数据成为支持向量的概率较小。因此在分类超平面求解过程中,需要引入模糊理论对不同的训练样本分布情况进行描述,定义了一个与分类超平面垂直的隶属度函数si,表达每个样本对分类超平面的重要性,将多个隶属度函数组合在一起可减少不可分区域,如此构建模糊支持向量机,完成目标函数的惩罚参数C和松弛变量ξ的平衡,目标函数(式(10))可改写为式(13)。

式中:si的取值区间为(0,1]表示了每个样本属于标签的可能性,该变量的取值较小,从而对惩罚参数C的取值进行了一定程度的限制,防止其取值过大或过小对分类性能产生影响,使分类器的性能更加稳定。在模糊向量机中时,每个样本的权值是通过隶属度函数来求得的,那么隶属度函数的选择和设计是模糊向量机模型建立的关键。本实验采用的隶属模型是基于样本到类中心之间的距离来度量其隶属度的大小。随后,在上述基础上,将模糊支持向量机向多类问题的推广,使用DAG方法将多个两类分类器组合成多类分类器。在训练阶段,对于本研究k类安全等级预警问题,设计k(k-1)/2二类分类器。而在决策阶段,使用从根节点开始的导向非循环图,具有k(k-1)/2个内部节点以及k个叶子节点,每个内部节点都是一个二类分类器,叶子节点为最终的类值。对一个测试样本,从根节点开始根据分类器的输出值决定其走左侧或右侧路经,一直到叶子节点为止得到样本所属的类值,最终构建了MFSVM模型进行安全等级的预警。

1.2.4 模型参数选择

DBN中的“深度”体现在有多个RBM层,隐藏层越多,网络能更加深度挖掘数据,但也导致网络计算耗时越大,效率越低。本实验选择由2 个RBM堆叠而成的DBN,以及一个MFSVM。DBN模型的节点数分别为83、70、50。其中,83 个输入变量表示输入的抽检数据的维度,包含了各个属性,RBM的神经元个数分别为70、50。训练中为了避免过拟合,设置迭代次数为100,学习率为0.001。

惩罚参数C和松弛变量ξ的选取对MFSVM模型的性能影响较大,目前主要采用经验确定法和网格搜索法,本实验采用网格搜索法对MFSVM模型进行参数选择,用优化后的MFSVM模型对危害物安全等级进行识别并输出预警结果。惩罚参数C代表错误的容忍程度,核参数σ是核宽度。过高或过低的参数值会造成MFSVM模型的“过学习”或“学习不足”现象,造成MFSVM不能有效对安全等级进行分类。采用网格搜索法对参数进行优化,将C和σ的取值在一定范围内划分为网格,遍历所有网格内的值,利用5折交叉验证法(cross validation,CV)来验证每一个C和σ,最终选取具有最佳分类精度的C=1,σ的取值空间为{0.001,0.01,0.11,10,100}。

1.3 评价指标

本研究主要针对粮食供应链危害风险预警开展研究,需要将输入的多维异构数据分类为安全等级、较安全等级、预警等级、较低危险等级、中危险等级、较高危险等级、高危险等级、超高危险等级8 个类别。因此实验采用准确率、运行时间以及混淆矩阵3 个方面来进行预警模型的评价。对于分类任务,使用真正例(TP)、真负例(TN)、假正例(FP)和假负例(FN)来比较分类器的预测结果与专家评价的结果。其中,正例和负例指的是分类器结果,而真和假指的是专家评价的结果,如TP是指分类器预测的等级与专家评价的等级都是安全等级或者别的等级。计算得到的准确率是分类模型所有预测正确的样本数占总预测样本数的比值,其表达式见式(14)。

运行时间是模型训练时间与模型测试时间的总和。准确率越高,运行时间越短,说明模型的性能越好。混淆矩阵是衡量分类型模型准确度的直观方法,可用以评判模型结果的指标好坏。

2 结果与分析

2.1 不同模型性能对比

将2 1 0 2 7 个样本当作训练集,用于训练整个预警模型,5 257 个样本作为测试集,用于测试整个预警模型的准确性。实验环境为Windows 1 064位系统,所用处理器为Intel(R)Core(TM)i5-4210M CPU@2.60GHz,运行内存为8 GB,数据加速器使用1 块NVIDIA RTX 2080 Ti。实验程序设计语言为Python及相关库,训练框架为PyTorch和Keras深度框架。为了验证本模型的准确性,并将其与传统的机器学习方法K最近邻、朴素贝叶斯、逻辑回归、支持向量机、决策树、随机森林以及DBN模型和BP神经网络进行对比测试,在训练集上进行训练,之后在验证集上执行评估以最小化过度拟合,当实现训练过程和参数的最佳选择时,在未知的测试集上进行最终评估,通过分析不同的性能指标,评估不同算法结果的可靠性。

表2 DBN-MFSVM与传统机器学习方法性能对比结果Table 2 Comparative performance of DBN-MFSVM and traditional machine learning methods

表2比较了不同方法准确率和运行时间对比结果,可以看出,DBN-MFSVM的准确率达到98.44%,性能优于其他传统机器学习方法,这表明DBN-MFSVM模型面对多维异构的食品抽检数据集,能够自适应处理数据,形成预警相关的高维度特征,并深入挖掘各危害因素在供应链环节中内在关联,避免了手工提取选择特征的繁重工作,提升危害物风险等级预警的准确率。而其他传统方法预警精度较低,且运行时间稍微较长,进一步证明本实验所采取的方法具备快速高效预警特性,可为粮食产品危害物监管实际应用提供参考。

2.2 损失函数和误差对比分析

为进一步说明本实验方法在预警应用上的鲁棒性,对比DBN和BP神经网络在数据集上的损失函数变化趋势,以训练过程中的损失函数值为纵坐标,以训练过程中向前迭代次数为横坐标,得到图2。

图2中,损失函数值越小,表明模型的鲁棒性越好,可以看出在迭代训练过程中,3 个模型的损失函数值呈下降趋势,均稳定了100 次迭代。其中,DBN-MFSVM模型的损失函数值下降最快,最终损失函数下降到0.016 2左右,表明该方法具有较强的稳定性能。而变化最慢的是BP神经网络损失函数,只降至0.306 2左右,性能远低于本实验模型。为进一步对比说明,从测试数据中随机选取100 个样本进行分析,绘制DBN-MFSVM、DBN和BP的误差曲线(图3)

图3 DBN-MFSVM、DBN和BP神经网络的误差曲线图Fig. 3 Error graph of DBN-MFSVM、DBN and BP neural network

由图3可知,本实验方法的误差范围在0.10~-0.05之间,变化幅度较小,模型对不同样本的分类准确率较高,且整体呈现稳定趋势。而其他方法则存在较大误差波动,意味对比方法在面对食品数据的分析预警时,容易出现误报错报的行为。

2.3 混淆矩阵分析

图4 DBN-MFSVM模型的混淆矩阵Fig. 4 Confusion matrix of DBN-MFSVM model

混淆矩阵反映了模型预警结果的性能,行代表真实的安全等级,列代表模型预测的安全等级,对角线为被正确预测的样本比例。由图4可知,大部分预测正确的样本都集中在对角线附近,说明本实验模型对整个多维异构食品数据的分级预警效果很好,但在预警等级(III)、较低危险等级(IV)和中危险等级(V)中存在一定的混淆偏差,其混淆程度分别为0.95、0.96和0.98,其不正确分类实例多数被分配到较低危险类别(IV)和中危险类别(V),说明本模型在这两个风险级别的存在预警偏差的情况,这就为供应链中重点监控提供了方向,可以起到节省监控成本的作用。

2.4 粮食食品供应链主要危害物风险预警系统

图5 粮食食品供应链主要危害物风险预警系统Fig. 5 Risk pre-warning system of main hazards in grain supply chain

基于以上的结果,将基于DBN-MFSVM的粮食供应链危害物风险预警方法结合Web技术构建了粮食食品供应链主要危害物风险预警系统(图5)。本系统旨在为广大粮食消费者提供一个可靠的、直观的粮食食品安全信息。本系统采用前后端分离的方式进行开发,其中前端使用React框架,版本为16.9.0;后端使用Django框架,版本为2.2。在本系统选择某些抽检数据时,前端会通过接口向后端发送请求,将选择的数据带到后端,后端通过调用本实验的方法给出预警等级,并将查询出的数据返回给前端,前端将数据转换成所需的数据结构,将其渲染到表格中,让用户能清晰地查询到每条数据的情况。为消费者提供更直观快速的粮食食品安全评测结果以及为粮食安全监管机构提供针对性的粮食抽检策略。

3 结 论

粮食供应链安全是多维、复杂、耦合的过程,受到食品多样性、数据多源异构、供应链环节等因素影响,存在被食源性危害物如重金属、农药残留、微生物、霉菌毒素等风险威胁。现有风险预警受到监管目的性、数据可及性及全局联动性等因素影响,存在一定应用局限性。本实验在分析全国26 个省份的大量抽检数据及关联信息基础上,建立了基于DBN-MFSVM的风险分级预警模型。首先采用嵌入归一化的数据预处理方法将原始数据处理为结构化数据,然后输入到DBN模型进行高维度特征提取,自适应地挖掘供应链中各危害因素间风险变化及内在关联概率,最后将二分类模糊支持向量机扩展为多类性能,形成MFSVM分类器,经过模型训练和参数优化,实现供应链中各主要危害物风险分级预警。对比结果显示,本实验模型综合风险预警准确率达到98.44%,性能优于传统机器学习模型,且对于粮食抽检数据具有更好鲁棒性和泛化性。建立的此风险预警方法能识别出粮食供应链中危害物风险程度和优先次序,科学分析我国粮食各供应链环节上各类危害物的风险分级情况,为监管部门制定有针对性的预警策略、确立优先监管领域和合理分配风险管理措施资源提供科学依据,也为广大消费者在选择粮食产品时减少食品安全风险隐患提供可行指导。

猜你喜欢

预警危害粮食
降低烧烤带来的危害
珍惜粮食
珍惜粮食 从我做起
请珍惜每一粒粮食
药+酒 危害大
法国发布高温预警 严阵以待备战“史上最热周”
我的粮食梦
园林有害生物预警与可持续控制
“久坐”的危害有多大你知道吗?
机载预警雷达对IFF 的干扰分析