APP下载

基于机器学习和数据挖掘技术进行MDR风险预警的研究初探

2018-07-18杜红阳吴世福黄琳杜卫红王淑玉

中国医疗设备 2018年7期
关键词:注册证事件报告医疗器械

杜红阳,吴世福,黄琳,杜卫红,王淑玉

1.菏泽市药品不良反应监测中心,山东 菏泽 274000;2.山东省药品不良反应监测中心,山东 济南 250012;3.菏泽市立医院,山东 菏泽 274000

引言

为探索和研究医疗器械不良事件,我国的医疗器械不良事件(Medical Device Reporting,MDR)监测网络覆盖了全国各地区药品不良反应监测中心、医疗器械生产经营企业、医疗机构等。近年来,随着医疗机构、生产企业及公众对医疗器械不良事件监测工作的知晓度和熟悉度的不断提高,每年收集的医疗器械不良事件报告数量逐年增长,2016年,全年可疑医疗器械不良事件报告数已超过35万份。日益增长的报告数量和医疗器械本身的复杂性为进行及时分析发现可疑风险信号提出严峻的挑战,决定了一般常规性的预警方法无法完全满足其需求。例如通过设定警义、警限,以及报警区间来进行预警,未能考虑不良事件发生类型和不同医疗器械间的差异性对于MDR预警效果不佳。报告比例比法、报告比值比法、综合标准法、贝叶斯置信网络法等针对药品不良反应信号检测方法,也因医疗器械不良事件发生类型及缺少医疗器械专业术语标准库而不能直接应用于MDR预警。

为解决传统预警方法的不足,本文结合山东省药品不良反应监测中心医疗器械不良事件数据分析预警项目3年来的探索成果,将机器学习和数据挖掘技术应用到MDR预警研究中,依托国家食品药品监督管理局的医疗期器械信息数据库、山东省医疗器械不良事件报告和维基百科作为支持数据进行建模,为MDR风险预警问题提供了一种新方法。

1 相关技术原理介绍

1.1 word2vec

随着深度学习的发展[1-3],基于神经网络的自特征抽取的词向量表示方法越来越受工业界和学术界的关注。基于前人的对词语编码的研究,Mikolov等[4]在2013年提出了word2vec模型[5]用于计算词向量。word2vec模型利用词的上下文信息将一个词转化成一个低维稠密实数向量,越相似的词在向量空间中越相近。将词向量应用于自然语言处理非常成功,已经被广泛应用于中文分词[6-7]、POS Tagging[8]、情感分类[2-3,9]、句法依存分析[2,10]等,因学习到的词向量代表了词的语义,也可以用来做分类、聚类、也可以做词的相似度计算。

word2vec本质上来说就是一个矩阵分解的模型,简单地说,矩阵刻画了上下文的词的集合的相关情况[1]。对这个矩阵进行分解,只取每个词对应在隐含空间的向量,邻近的词之间关联很强,甚至可以通过一个词的上下文大概预测出中间那个词是什么。本文就是利用word2vec强大的词向量编码能力来实现文本信息的数值化,是进行文本数据挖掘的基础。

1.2 文本聚类

作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法[11-18]。

1.3 链接挖掘

传统机器学习的处理对象是数据属性值。对多个属性值用向量来表示,而网络数据中的节点不是简单的统计上独立的采样点,节点之间存在着联系。因此,使用机器学习技术,需要考虑数据之间的关系。这给传统机器学习带来新的挑战,并产生了一个新兴的研究方向——链接挖掘[19-20]。通过对链接的分析,我们可以获得关于实例更丰富、更准确的信息。我们借助链接分析其在关系反应,量化结构之间优势,可以展示同品种不同企业或者注册证号之间的风险量化和关联。

2 MDR关键预警指标

2.1 批次优势

批次优势(odds)指标反应某一批次产品不良事件发生数量与平均批次产品发生不良事件数量的比值,用来度量某一批次产品为可疑风险信号的可能性。

其中,a为某一批次医疗器械不良事件报告数量;b为去除分子批次后平均批次报告数量;α为平滑因子,消除报告的自然增长趋势和周期趋势影响,如果知道企业每一批次产品数量信息可加上作为修正;β为窗口,对风险比较大的批次,重点关注邻近批次不良事件发生情况。

比如某一批次产品如果发生了不良事件较多,odds可以把它度量出来,根据经验,这个时候它邻近批次需要重点关注,窗口的概念即是实现对关键批次邻近批次信息的关注。窗口可以分为两种,一种是固定窗口,一种是滑动窗口,窗口在本文的介绍中是一个可以需改的参数。举例:数据库中涉及某一医疗器械产品批次为170102,170113,170114,170115,170415,170116,170117,170205, 如果通过预警发现170115是一个可疑风险信号,设定窗口为1,如果是固定窗口则关注批次为:170114,170116,如果是滑动窗口则关注批次为:170113,170114,170116,170117。

2.2 最大聚合度

最大聚合度(MDP)反应某一批次最多不良事件类型例次占所有不良事件例次的比例,反应了类型最多的不良事件占比。

举例:某一批次产品,发生不良事件10例,事件表现为A,B,C。A事件发生7例;B事件发生1例;C事件发生2例。

最大聚合度=7/(7+2+1)=0.7。

由上例中容易理解最大聚合体这个预警指标的含义,它代表了不良事件发生类型的聚集程度。最大聚合度指标的具体构建用到了自然语言处理word2vec词向量编码技术,将数值化后的文本通过聚类算法进行文本聚类,对各个类别报告数量进行统计然后计算最大聚合度。

Mi:某一不良事件类型发生数量;max(Mi):最大类不良事件报告数量。

2.3 聚合风险比

聚合风险比(ARR)的计算公式:

聚合风险是批次优势和最大聚合度两个指标的乘积,是对聚集性风险信号的综合度量指标。

2.4 优势比

优势比(OR)反应了同一产品不同生产企业或者不同注册证号发生某一不良事件优势相对于产品平均发生某一不良事件的优势[21]。

n11:某企业产品(注册证号产品)发生某类型不良事件报告数量;n1:某企业产品(注册证号产品)发生不良事件报告数量;n*1:某产品发生某类型不良事件报告数量;n*:某产品发生不良事件报告数量。

3 MDR风险预警流程框架

医疗器械不良事件预警流程分为两个阶段:数据挖掘阶段和数据可视化阶段。在数据挖掘阶段,原始数据经过数据清洗、数据规整、数据转换、数据分析和数据挖掘等步骤构造出MDR预警指标,并将原始数据和预警指标进行关联。在数据可视化阶段,我们将预警指标通过条形图、网络图、气泡图、盒须图、词云图的形式展示,并赋予图形可交互的性能,方便医疗器械不良事件监测人员对预警风险信号进行初步筛查和验证。基于此思路,本文构建了基于机器学习、数据挖掘和数据可视化技术的MDR风险预警流程,见图1。

图1 基于机器学习技术的MDR风险预警流程

3.1 数据清洗

数据清洗这一步主要是删除一些逻辑性错误报告和医疗器械信息明显错误报告,例如:为降低后期数据处理的复杂度和预警的混杂,注册证号位数不对、产品和注册证信息不匹配、产品注册地和产品类别不匹配、产品注册有效期明显超期等产品信息存疑的报告将被删除。

3.2 数据转换

数据转换是指利用国家食品药品监督管理局的医疗期器械信息数据库建立映射规则,采用MYSQL数据库技术对原始数据中的医疗器械信息进行映射以实现原始报告中医疗器械信息的批量规整和标准化,采用VBA电子表格编程实现对批次优势、最大聚合度、聚合风险比、优势比等关键预警指标的构建。

3.3 数据建模

Word2vec技术实现对文本的编码,词向量编码是否能有效反应语义信息取决于模型的选择和语料库的选择,本文所使用的模型是Skip-Gram模型,构建语料库多是与医疗器械专业领域相关数据:国家食品药品监督管理总局发布的医疗器械召回信息、抽检不合格信息和警戒信息,山东省医疗器械不良事件报告和维基百科医学、药学、医疗器械相关百科数据作为支持语料进行建模,词向量语义编辑距离测试结果,见图2。

图2 word2vec词向量语义编辑距离测试结果

为寻找聚类方法和距离定义方式的最优组合,本文聚类方法选取了KMEANS聚类、DBSCAN聚类、层次聚类法和谱聚类4种方法,距离定义方式选取了欧式距离、曼哈顿距离、余弦夹角距离、相关系数和熵5种,对20种组合聚类结果人工观察与验证发现“KMEANS聚类+余弦夹角”和“层次聚类法+余弦夹角距离”组合聚类效果较优,考虑层次聚类算法拥有聚类前指定编辑距离阈值的优势,最终本文选取了“层次聚类法+余弦夹角距离”的方法。

3.4 建模结果的应用

建模结果的可视化展示,方便医疗器械监测人员从多个维度同时对一个风险信号进行评估,高效的发现假阳性和假阴性信号,同时弥补了传统预警结果不能交互式修改预警参数的缺陷,可根据监测、监管的需要进行回顾性分析及时验证医疗器械监测人员的经验假设。

去掉敏感信息后的聚集性风险信号预警可视化结果,见图3。气泡图反应了3个维度的信息,分别是聚合风险比,报告数量和风险信号打分,每个条形图反应了4个维度的信息,长度反应了风险信号涉及报告数量,宽度反应了odds值,颜色种类代表了报告单位,条形图上的数值代表了最大聚合度。建模结果使用过程如下:首先,气泡图和条形图是关联的,交互式气泡图可以对风险信号起到初筛作用,然后通过观察条形图4个维度信息可以进一步确定风险信号的等级,最后进一步查看条形图关联到每份报告的详细信息辅助医疗器械不良事件监测人员找出有价值风险信号并导出原始报告。据此流程进行聚集性风险信号的预警与传统预警方法相比可以提高人工分析验证风险信号的效率,也可以减少假阳性信号的出现。

图3 聚集性风险信号预警可视化展示

去掉敏感信息后的同品种不同注册证号不良事件对比可视化结果,见图4。图4a是社会网络分析图初始形态,通过对预警指标的调整而衍生出后面的4b~d等有价值的可视化图形。

图4 同品种不同注册证号不良事件对比可视化展示

图4b是关于不同注册证号多参数监护仪“黑屏”故障发生情况的分布图,图示中的连接边粗细反应了预警指标优势比值大小。图4c和图4d是关于某一注册证号婴儿培养箱独有不良事件发生情况的展示,图4c利用词云图的方式展示了独有不良事件表现的关键词,关键词的大小反应了独有不良事件的报告数量,图4d则是利用网络图的形式展示了婴儿培养箱不良事件故障表现、婴儿培养箱涉及注册证号个数、婴儿培养箱总体报告数量、独有不良事件占比等婴儿培养箱不良事件报告的相关信息。建模结果充分展示在图4b~d,不同注册证号(生产厂家)之间医疗器械不良事件的相同点和差异点得到清晰展示,据此设定阈值可以得到风险信号,修改阈值则可验证监测人员想法,辅助监测人员进行信号的筛选。

4 讨论

医疗器械不良事件报告数据库的定量风险信号预警工作正日益受到人们的重视,但目前仍处于探索阶段,尚无相关信号检测方法的金标准,各研究机构和监测机构罕有提出关于医疗器械不良事件信号检测方法。本文提出的基于机器学习和数据挖掘技术进行MDR风险预警的研究将定量风险信号预警方法应用于我国的医疗器械不良事件报告数据库能有效的发现上市后医疗器械存在风险。本次研究虽只采用了山东省医疗器械不良事件监测的数据,但鉴于各省市采用了统一的国家药品不良反应监测系统,因此本文所建立的方法完全可以做进一步推广。

本文提出的医疗器械不良事件风险预警方法仍有优化空间,结合本文研究效果期望来者在聚类算法的优化、非结构化数据预处理以及知识图谱、图模型、深度学习模型在预警工作中的应用上展开相关研究。

猜你喜欢

注册证事件报告医疗器械
医院医疗器械维修中存在的问题及维修管理策略
基于医院医疗器械故障信息的不良事件报告研究
欧盟医疗器械法规MDR正式执行
国产呼吸机注册数据分析
国产医用内窥镜系列产品注册情况研究
北京市医疗器械检验所
北京市医疗器械检验所简介
GE OEC Medical Systems,Inc.对移动式C臂数字X射线系统等产品进行召回
探讨新股发行由核准制转变为注册制的优势
42例丹红注射液不良反应/事件报告分析