APP下载

基于文本挖掘的我国食品安全事件特征分析

2022-11-28余惠琴王东波

关键词:特征词安全事件关联

余惠琴,吕 伟,王东波

(1.武汉理工大学 安全科学与应急管理学院,湖北 武汉 430070;2.武汉理工大学 中国应急管理研究中心,湖北 武汉 430070;3.武汉理工大学 湖北省危机与灾害应急管理研究中心,湖北 武汉 430070;4.南京农业大学 信息管理学院,江苏 南京 210000)

食品安全属于国家安全的重要范畴。自2009年食品安全法颁布以来,共经历了3次修订,食品安全保障成果显著。随着新时代新科技新资源的不断出现,旧的食品安全风险层出不穷,新的食品安全风险逐渐暴露出来。我国地域辽阔,食品种类多样,食品供应链复杂,食品安全风险分析有助于对危害因素进行了解[1],对食品安全风险特征进行分析,能有效识别食品安全管控中的薄弱环节,辅助食品安全风险防控决策。

基于食品安全事件数据,学者们开展了大量有关食品安全事件特征分析方面的研究。在食品安全事件流行病学特征上,马晓薇[2]、李光辉[3]等应用描述性流行病学研究方法对收集的食物中毒事件进行统计和分析,在事件高发季节、主要致病因素、主要发生场所上的分析结果基本一致,而在事件所属主要食物种类上存在区别,原因在于不同地理区域食物的多样性。为描绘食品安全事件的演化规律,倪德[4]采用事理图谱,借助自然语言处理技术,依次从分词模型构建、事件抽取、事理图谱构建三个方面开展研究,构建出了面向食品安全大数据的事理图谱。在食品安全事件数据收集过程中,有关的官方统计数据难以获得。由于食品安全事件往往是由媒体首先曝光,社会公众才得以知晓,因此,使用基于媒体报道的事件作为数据来源成为一种替代方法,已被广泛应用到社会学领域[5]。许多学者基于收集的食品安全事件案例,对食品安全事件的时间、空间、食品种类、供应链环节、风险因素种类、责任主体等方面的分布特征进行了多维度的分析[6-10]。随着食品安全大数据的出现,数据驱动的风险分析已成为食品监管、安全决策的重要手段之一,基于对食品安全数据的分析,领域人员可以掌握数据的分布特征,并发现异常以及探索数据间的隐含关联,以支持食品安全风险的识别、评估、预警和追溯[11]。

收集大量的食品安全事件报道数据,通过分析食品安全事件的诱因来识别食品安全风险,有助于了解食品安全风险因素的总体分布特征与规律,但工作量大且复杂,受人为因素影响较大。近几年,部分学者尝试通过Web大数据挖掘技术获取主流媒体中曝光的食品安全事件并进行分析[12],但相关研究还有待进一步完善[13]。例如,张红霞[14]以2010—2019年的9 314起食品安全事件为研究样本,运用NLPIR大数据语义智能分析平台进行词频统计和高频词提取,提炼食品安全风险因素,并对每起事件涉及到的风险因素进行判别分析,得出我国食品安全的主要风险因素分布总体特征,基于每项风险因素所涉及到的食品安全事件,进一步深入分析风险的产生原因和可能造成的后果。但其工作量大且复杂,食品安全事件风险因素的提取与原因判断需要大量人工介入。为减轻人工判断工作量,笔者基于收集的5 354个食品安全事件文本语料,运用文本挖掘方法提取文本关键词,结合特征词典,自动判断每个食品安全事件的特征。然后分别运用Ucinet、SPSS Modeler软件对食品安全事件特征进行共现分析与关联规则分析,发掘出了食品安全风险关键因素,掌握了食品安全事件内在特征与潜在规律,并据此提出了针对性的食品安全事件防控对策建议。

1 数据来源与获取

1.1 食品安全事件案例库构建

目前,国内外有关食品安全事件定义缺乏统一意见,主要基于食品安全的定义进行界定[15-16],将食品安全事件定义为:食品偏离标准做法或规范并导致食品不合格,或消费者由于受伤而感到不满,监管机构由于感知到食品不符合监管规范或感官问题而不满,且不同于禽流感和疯牛病[17]。近年来媒体报道的有关食品事件不胜枚举,但从食品安全定义来衡量,其中大量事件并非与“安全”有关,有很多并不存在健康风险,并不属于对人体健康有危害或者可能有危害的食品安全事件。因此,将食品安全事件定义为食品违反食品安全标准规定,含有物理的、化学的、生物的、食品添加剂、其他等有害物质,并流通到消费者手中,对人体健康已经或可能造成任何急性、亚急性或者慢性危害的事件。

基于一定的搜索策略,运用后羿采集器自动采集食品伙伴网上在2004—2019年之间的食品安全事件相关新闻文本。基于食品安全事件定义,对获取的食品安全事件相关新闻文本进行人工筛选,通过数据清洗删除缺失值和重复值,构建食品安全事件案例库。

1.2 食品安全事件特征词典构建

根据食品安全事件的定义与内涵,结合具体的食品安全事件案例文本,了解到食品安全事件主要包括发生时间、发生地点、食品种类、责任单位、污染源环节、危害因素、事件原因、事件后果、监管者、监管者行为、责任单位处罚、受害者、受害者行为等特征。食品安全国家标准食品添加剂使用标准(GB 2760—2014)将食品分为16大类,300多个小类,每个小类下又包括具体的食品名称。各省市均制定了相关的经营管理规定,将食品责任单位划分为小作坊、小餐饮、小食杂店、食品摊贩、企业、个体工商户等,但划分标准不统一,不够全面。而关于危害因素划分的权威性文件包括:GB 2760-2014 食品安全国家标准食品添加剂使用标准、GB 2762-2017 食品安全国家标准食品中污染物限量、GB 29921-2013 食品安全国家标准食品中致病菌限量、GB 2761-2017 食品安全国家标准食品中真菌毒素限量、GB 2763-2019 食品安全国家标准食品中农药最大残留限量、GB 31650-2019 食品安全国家标准食品中兽药最大残留限量、GB 14882-1994 食品中放射性物质限量浓度标准等,分别对食品添加剂、污染物、致病菌、真菌毒素、农药、兽药等危害因素进行细分。

有关食品安全特征词典的现有研究主要包括食品种类、责任单位、危害因素,而缺乏有关污染源环节、事件原因、事件后果的特征词典。考虑到食品安全事件新闻报道中,部分特征词汇采用俗语或惯用语,如果只采用标准文件内容会造成部分特征无法提取。事件原因与后果需要人为结合事件新闻报道进行判断,无法直接从新闻报道中提取出来。考虑到特征词典构建的复杂性及对特征分析的意义,笔者构建了食品种类、责任单位、污染源环节、危害因素、监管者、监管者行为、责任单位处罚、受害者、受害者行为等特征词典,并据此开展特征分析。

1.3 食品安全事件特征提取

为获取食品安全事件文本特征,需构建一套特征词提取策略。首先,基于构建的食品安全事件案例库,生成食品安全事件文本语料库,运用Python对食品安全事件文本语料库进行去除非中文字符、分词、去停用词等预处理,构建食品安全领域特征词典;然后,计算词的逆文档频率IDF值,构建自定义IDF字典,以提高关键词提取准确性;接着,运用TF-IDF算法提取所获取的所有食品安全事件文本的关键词;最后,基于构建的食品安全领域特征词典,对关键词进行特征匹配,获得每个食品安全事件文本的特征属性,作为食品安全事件特征分析的数据基础。

2 食品安全事件特征分析

2.1 食品安全事件特征共现分析

为可视化展现食品种类、责任单位、污染源环节、危害因素等特征之间的相关性与重要性,根据抽取的关键词共现矩阵,运用社会网络分析软件Ucinet中的NetDraw工具绘制特征词共现网络图。由于特征因素较多,调整最小连接线数,保留连接线数大于16的特征节点,得到共现分析网络图如图1所示,同时得到各特征节点的中心度值如表1所示。由图1可知,符号FT表示的是食品种类,符号SL表示的是污染源环节,符号HF表示的是危害因素,符号P表示的是责任单位,符号SP表示的是监管者,符号SA表示的是监管者行为,符号FUP表示的是食品单位处罚,符号VP表示的是受害者,符号VR表示的是受害者后果,符号VA表示的是受害者行为。图形的大小表示特征词的中心度大小,线的粗细表示特征词间关联强度。

图1 共现分析网络图

表1 食品种类、责任单位、污染源环节、危害因素等特征节点中心度值

①在食品种类中,FT8(肉及其制品)图形最大,更靠近中心位置,表示它在整个网络中的中心性最高,与其它特征词的链接最为紧密;其次是FT11(水果、蔬菜等)、FT9(乳及其制品);而FT12(甜味料)在整个网络中的中心性比较低,与其它特征词的联系也比较少。②在污染源环节中,SL5(生产加工环节)图形最大,更靠近中心位置,表示它在整个网络中的中心性最高,与其它特征词的链接最为紧密;其次是SL8(销售环节)、SL6(食用环节);而SL9(养殖/种植环节)在整个网络中的中心性比较低,与其它特征词的联系也比较少。③在危害因素中,HF2(其他污染)图形最大,更靠近中心位置,表示它在整个网络中的中心性最高,与其它特征词的链接最为紧密;其次是HF4(食品添加剂)、HF6(危害因素无法判定);而HF3(生物污染)在整个网络中的中心性比较低,与其它特征词的联系也比较少。④在责任单位中,P8(企业/公司)图形最大,更靠近中心位置,表示它在整个网络中的中心性最高,与其它特征词的链接最为紧密;其次是P9(商场超市)、P16(小作坊);而P5(家里/民房/租住房)在整个网络中的中心性比较低,与其它特征词的联系也比较少。

2.2 食品安全事件特征关联规则分析

为进一步明确不同特征间的相关关系,运用SPSS Modeler对其进行关联规则挖掘,找出影响食品安全的关键影响因素,并针对这些因素提出管控对策建议,从根源上强化对食品安全的管理,进而减少食品安全事件的发生。共进行4组关联规则分析,分别为:食品种类、责任单位、污染源环节、危害因素共4个对象;监管者、监管者行为共2个对象;责任单位、责任单位处罚共2个对象;受害者、受害者行为共2个对象。一种特征类别的食品安全事件可能受多种特征类别的影响,因此需要将分析对象的所有类别共同作为研究对象,找到呈现强关联规则的特征关系。

2.2.1 关联规则分析一

对食品种类、责任单位、污染源环节、危害因素4种特征进行关联规则分析,调整支持度与置信度的阈值,生成规则对应数量如表2所示。

表2 关联规则分析一 参数与规则数之间的关系

最终确定支持度为0.2%,置信度为60%,得到59条规则。得到的59条规则的提升度均大于1,说明规则后项受前项的影响大,所得到的规则都具有明显的实际意义,能够依据关联规则开展有针对性的食品安全防控工作。

2.2.2 关联规则分析二

对监管者、监管者行为2种特征进行关联规则分析,调整支持度与置信度的阈值,生成规则对应数量如表3所示。

表3 关联规则分析二 参数与规则数之间的关系

最终确定支持度为5%,置信度为60%,得到3条规则如表4所示。得到的3条规则的提升度均大于1,说明规则后项受前项的影响大,所得到的规则都具有明显的实际意义,能够依据关联规则开展有针对性的食品安全防控工作。

表4 监管者、监管者行为关联规则

2.2.3 关联规则分析三

对责任单位、责任单位处罚2种特征进行关联规则分析,调整支持度与置信度的阈值,生成规则对应数量如表5所示。

表5 关联规则分析三 参数与规则数之间的关系

最终确定支持度为0.01%,置信度为60%,得到2条规则如表6所示。得到的2条规则的提升度均大于1,说明规则后项受前项的影响大,所得到的规则都具有明显的实际意义,能够依据关联规则开展有针对性的食品安全防控工作。

表6 责任单位、责任单位处罚关联规则

2.2.4 关联规则分析四

对受害者、受害者行为2种特征进行关联规则分析,调整支持度与置信度的阈值,生成规则对应数量如表7所示。

表7 关联规则分析四 参数与规则数之间的关系

由表7可知,受害者与受害者行为之间不存在关联规则,关联关系不明显。

3 食品安全事件防控对策建议

根据共现分析结果,提出以下对策建议:①在食品种类中,重点加强肉及其制品的安全管控,其次加强水果、蔬菜等,以及乳及其制品的安全防控。②在污染源环节中,重点加强生产加工环节的安全管控,其次加强销售环节、食用环节的安全管控。③在危害因素中,重点加强其他污染的安全管控,其次加强食品添加剂的安全管控。④在责任单位中,重点加强企业/公司的安全管控,其次加强商场超市、小作坊的安全管控。

根据关联规则分析结果,提出以下对策建议:①为防止其他污染类的食品安全事件,应加强油脂类食品生产加工环节的监管,加强饮料类、焙烤类食品销售环节的监管,加强商场超市中乳及其制品的监管,加强工厂/食品厂的食用环节的监管,加强工厂/食品厂中酒类的监管,加强商场超市的包装、销售环节的监管,加强可可制品、巧克力及其制品、糖果类食品的监管。②为防控企业/公司发生食品安全事件,应加强企业/公司中乳及其制品物理污染的管控,加强企业/公司中其他类食品生产加工环节的管控,加强企业/公司中酒类受到食品添加剂污染的管控。③针对食品生产加工环节的管控,应重点加强小作坊中的水果、蔬菜类,粮食及其制品,肉及其制品的管控,加强工厂/食品厂、小作坊、企业/公司中的食品添加剂污染的管控,加强小作坊中的其他污染的管控,加强酒类,水果、蔬菜类、粮食及其制品、其他类食品的食品添加剂污染的管控,加强企业/公司的其他类食品、粮食及其制品、油脂类食品的管控,加强黑作坊/窝点/无证照经营场所的管控,加强油脂类食品其他污染的管控,加强工厂/食品厂中肉及其制品的管控。④针对食品销售环节的管控,应重点加强商场超市、乳及其制品的管控,加强肉及其制品生物污染的管控,加强食品摊贩、批发市场/农贸市场/集贸市场/供货商等场所中的肉及其制品的管控,加强食品店中其他污染的管控,加强食品摊贩的食品添加剂污染的管控。

猜你喜欢

特征词安全事件关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
2020年度区块链领域安全事件达555起
“一带一路”递进,关联民生更紧
基于改进TFIDF算法的邮件分类技术
奇趣搭配
产品评论文本中特征词提取及其关联模型构建与应用
智趣
食品安全事件的价格冲击效应
面向文本分类的特征词选取方法研究与改进
英国:公布食品安全事件年度报告