APP下载

化学计量学在毒物化学归因中的应用

2021-05-17卢晓刚王红梅

分析测试学报 2021年4期
关键词:归因杂质样品

卢晓刚,王 飞,王红梅*

(1.国民核生化灾害防护国家重点实验室,北京 102205;2.陆军装备部装备项目管理中心,北京 100072)

法医学是一种利用科学手段处理、解决与司法体系利益相关问题的科学[1]。从复杂证据中提取关键信息,正确识别采集的证据样本,并根据类别特征对其进行分类有助于在法医案件中做出公正的判决。对于大量样本,输出数据量将大大增加,数据分析工作变得非常繁琐、耗时,且人工检测可能会产生假阳性结果。随着先进的化学计量学方法的多领域运用,其在快速时域中提供了准确和显著的分析归纳结果。将化学计量学方法与应用于法医领域的化学归因相结合,对研判因化学物质引起的化学安全事件起到了推动作用。

化学归因是应用法医学的思路和概念对毒物样本进行分析和鉴定,从而开展追踪溯源和归因研究。其主要目的是通过多种分析技术结合一定的化学计量手段对化学物质本身或其相关的材料成分进行解析,寻找其中有价值的成分,对感兴趣(或目标)的物质(或混合物)进行溯源[2],而这些有价值的成分称之为化学归因特征(Chemical attribution signatures,CAS)。利用CAS能够提供关键化学特征信息这一重要特性,不论是在中毒溯源还是在法医相关领域开展鉴定工作时,均可根据它们保留的、缺失的或出现的谱学信息相对强度等,将化学事件或事故现场发现的样品和污染证据与人、地点和其他信息相关联。

毒物的化学归因研究可起溯自2010年。本文作者从事有机合成及有机磷硫化合物的归因研究[3-5],结合自身研究工作,针对化学计量学在毒物化学归因研究中的应用进行评述,希望帮助相关研究人员进一步了解每种化学计量学方法及其在毒物化学归因中的应用概况。

1 多变量数据分析

不同种类的样品通过分析方法获得的光谱或色谱图是不同的。通过化学计量学手段提取样品中独特的信息对特定类别样品进行分类的方法,称之为化学模式识别(Chemical pattern recognition)。这些模式识别方法可分为有监督模式识别和无监督模式识别两大类。

目前,有监督模式识别方法已广泛应用于样品分类、判别分析、指纹提取和杂质检测等不同的数据处理。在这些方法中,必须有训练集和测试样本。通过训练集和测试样本寻找规律,训练模型的最优性能。然后,通过外部数据测试集对建立的模型进行评估,验证其有效性。使用有监督模式识别的方法有两种:一是基于类间判别,即偏最小二乘判别分析(Partial least squares discrimination analysis,PLSDA)[6]、K最近邻分类算法(K nearest neighbors,KNN)[7-8]、支持向量机判别分析(Support vector machine discriminant analysis,SVMDA)[9]和随机森林(Random forests,RF)[10-11]等;二是基于单个类的建模,即软独立建模(Soft independent modeling of class analogies,SIMCA)[12]。

无监督模式识别方法主要为主成分分析(Principal components analysis,PCA),通常作为数据分析的第一步,以检测数据的集中趋势。PCA在不丢失原始数据的情况下对数据集降维处理[13-15]。由PCA生成的几个主成分能够解释数据集中的大部分信息。除了PCA分析外,无监督模式识别方法还包括K-均值和层次聚类分析(Hierarchical cluster analysis,HCA)[16]等聚类分析用作分类目的。

2 化学计量学在毒物化学归因中的应用

使用WOS(Web of Knowledge)知识网络对2009年至2020年在法医学中运用多元分析的文献进行了调查,发现采用化学计量学方法进行法医检查的范围很广。法医学针对物理层面的分析涉及涂料[17]和纺织纤维[18]等,结合化学计量学的分析方法检测微量和未知样品。经过详细的分析检查后,法医专家判定这两件物品/证物是否相同。PCA对数据进行了简化,是近年来使用最多的方法。一般会将PCA和其他判别分析方法结合使用,判别分析的改进形式可能会获得更好的有价值的结果。法医学针对生物层面的分析鉴定包括血迹[19]和唾液[20]等相关证据。最近的文献表明,在进行DNA分析前,化学计量学与分析方法的结合,可以提供关于个体鉴别的有用信息。这种结合方法提供了基于生物学证据对嫌疑人进行区分/个体化的有价值的结果。法医学针对化学层面的分析研究涉及药物片剂[21-23]、烟草[24]和枪弹残留物[25]等证物及其鉴定,一些非破坏性的光谱方法,如拉曼光谱[21]、红外光谱[26-28]和荧光光谱[29-30]获得较多的应用。研究人员利用气相色谱-质谱(GC-MS)[31]和液相色谱-质谱(LC-MS)[32]等多种分析技术,同时利用化学计量学不同的变量方法对输出数据进行分析,以获得有效、快速、可靠的结果。然而,关于毒物化学归因有关的文献目前较少。表1汇总了毒物化学归因研究中有关文献的研究信息。

表1 毒物化学归因研究Table 1 Chemical attribution of toxic chemicals

2.1 化学计量学在毒性无机物化学归因研究中的应用

无机氰化物是一种重要的化工原料,可应用于化学合成、冶金、电镀、农药及金属处理等各个方面[43-44],但它们也是一种剧毒化合物,皮肤伤口接触、吸入、微量吞食均可导致中毒死亡。2011年,Fraga等[33]使用氰化钾(KCN)作为模型毒物,探索了阴离子杂质作为法医特征的可行性。该研究针对来自4个国家的8种KCN原料,制备了60种KCN水溶液样品,采用阴离子交换柱和电导检测对样品进行高效离子色谱(High performance ion chromatography,HPIC)分析,对比标样和空白样,筛选出11种阴离子杂质。根据样品和阴离子浓度构成了一个数据矩阵。为获取数据集的集中变化信息,采用HCA和PCA进行分析。为进一步优化样本聚类,采用Fisher比值法和级别分离法(Degree-of-class separation,DCS)对KCN样品进行杂质特征选择,筛选出4种特征阴离子杂质。为考察以11种阴离子杂质和4种特征阴离子杂质构建的KNN分类模型匹配库存来源的能力,选取了10个测试样品进行比较,根据4种特征阴离子杂质进行的来源匹配正确率达到100%,而根据11种阴离子杂质的匹配出现了一处错误。作者采用Fisher比值法和DCS进行特征选择,提高了分类的准确性和置信度,减少了数据处理量,有利于模型的广泛应用。

2016年,Mirjankar等[34]进一步采用同位素比值质谱法(Isotope ratio mass spectrometry,IRMS)和电感耦合光学发射光谱法(Inductively coupled plasma optical emission spectroscopy,ICP-OES)对氰化物的化学归因特征进行研究。为了提高判别的准确性以及剔除无用的杂质信息,在特征变量选择方面采用区间偏最小二乘(Interval partial least-squares,iPLs)、基于遗传算法的偏最小二乘(Genetic algorithm-based partial least-squares,GAPLS)与Fisher比值法进行比较,此外,还采用PLSDA、SVMDA与KNN对收集到的数据进行比较分析。经过数据比较发现,总体而言,iPLs和Fisher比值法优于GAPLS。这两种特征变量选择法提高了KNN和SVMDA分类的能力,可将分类误差降至零。

2.2 化学计量学在毒性有机物化学归因研究中的应用

2.2.1 典型化学毒剂的化学归因研究2010年,Fraga等研究了沙林(GB,异丙基甲基膦酸二氟酯)的化学归因特征[45],在此基础上,进一步开展了GB的源匹配研究[35]。该研究以2份97%纯度的甲基膦酰二氯(DC)商业库存作为原材料合成了6个批次的GB及其中间体甲基膦酸二氟酯(DF),通过GC-MS对DC、GB和DF样品进行了分析。在数据分析前,对数据进行了归一化处理,可有效纠正由样品制备引起的变化。由样品的杂质谱库柱状图可以明显看出不同的库存样品之间存在特征分布。作者对比分析了GB和DF的杂质谱库与DC杂质谱库的差异性,发现合成的GB杂质谱的相对数量与相应的DC库存杂质谱相似,说明一些特征杂质在合成过程中未发生变化,可作为归因溯源的依据。经由HCA聚类分析,能够直观地看到GB样品与相应DC样品库的聚类信息。作者对筛选的特征杂质也进行了简要分析,推测这些杂质可能来源于样品合成过程中的溶剂、催化剂等。

2016年,Fraga等[37]在研究氮芥化合物(HN3)时,探索了合成的HN3与不同试剂库存匹配的可行性。首先采用GC-MS对具有不同库存的4种试剂(三乙胺、亚硫酰氯、丙酮和氯仿)样品的杂质进行分析,得到相应的杂质谱库。为提高分类的准确性,采用Fisher比值法和DCS进行特征选择。根据4种试剂的化学归因特征,采用PLSDA和KNN对试剂样品进行分类。所建立的分类模型通过交叉验证,最高平均分类误差仅为11%。对比了未建立分类模型的样品,发现未建立分类模型的7个氯仿库存仅有2个得到正确分类。虽然基于试剂杂质谱库建立的模型具有较好的分类性能,但分析由这些试剂合成的HN3样品时未获得理想的结果。由于在合成HN3样品过程中,一些杂质出现损耗及反应变化,基于最初的试剂库存杂质谱库,考察HN3合成样品及其重复样品和特定的试剂库存之间并未发现明显的相关性,无法通过PLSDA和KNN进行分类关联。需要进一步捕获更加稳定的CAS以建立样品与库存的关联性。

2018年,Hojer等[38]开展了芥子气(HD)合成路线的溯源分析研究,根据11种文献报道的HD合成方法,制备了66个样品。样品经GC-MS分析,所得的质谱数据分析比对筛选出103个CAS。对样品-CAS组成的数据集进行PCA分析获取数据集的集中变化,而后运用正交偏最小二乘判别分析(Orthogonal partial least squares discriminant analysis,OPLSDA)建立样品分类的多元模型。所建立的模型对不涉及纯度较高合成步骤的方法路线能够较好地分类。该研究还考虑了老化的影响,但由于选择的CAS随着时间推移发生变化,导致某些合成路线的样品分类出现偏差。该作者还研究了一种能够快速进行现场分析的手持式拉曼和便携式红外仪器(Attenuated total reflectance Fourier transform infrared,ATR-FTIR)[39]。利用HD的光谱数据构造随机森林多元模型,根据光谱中波数的微小变化对测试集样本进行分类。随机森林算法在处理数据方面不涉及降维,它是在随机选择的数据和变量的子样本上构建许多树(一个森林)。使用分层随机样本代替每棵树上的简单随机样本,以确保所有数据源均被平等地表示出来,由于每棵树中只使用数据的1个子样本,因此未使用的数据可用于评估算法,而不会过度拟合。拉曼和红外光谱在一定程度上可互补,两者的组合数据可使模型性能得到增强,建立的模型针对测试集的分类准确率能达到83%。然而,这项研究对涉及纯度较高合成步骤的方法路线的分类不理想。

早期关于俄罗斯维埃克斯(VR)的研究主要集中在化学验证分析,即证明化合物的使用或存在[46-48]。2018年,Holmgren等[40]开展了VR的溯源分析研究,采用气相色谱-电子电离质谱(GC-MS-EI)分析了6条路线中杂质和副产物的化学成分,并标记了49种潜在的CAS。首先利用PCA获取数据集中的变化,在不丢失原始数据的情况下对数据集进行降维处理。由PCA生成的7个主成分可解释82%的数据集中信息。用PLSDA建立分类模型,根据CAS的分布情况对训练集样品进行合成路线的分类。建立的PLSDA模型对由6条路线合成的11个测试样品进行了分析预测,准确性达100%。另外,该研究还对样品进行了衍生化处理,得到相应的衍生化杂质谱库。然而,相较于未包含衍生化信息的模型,包含衍生化信息的模型预测性能并未提升。衍生化所针对的是酸、醇类等极性化合物,这些极性化合物不存在太多的特异性,基本属于所有合成路线的共性化合物,对分类性能贡献不大。该研究所有样品的合成和分析由两个实验室完成,可在一定程度排除人员以及环境因素对实验的影响。该工作是瑞典与美国合作完成的法医系列研究之一,在此基础上,两国的实验室还拓展研究了不同食品基质对CAS的影响[41-42]。对复杂食品基质中含有的VR研究分为两部分进行,第一部分采用LC-MS/MS多反应监测方式进行样品检测,标记了17个CAS,利用PLSDA建立多变量统计校正模型。该模型能够对6种路线合成的VR样品组成的外部测试集进行正确匹配,识别率达到94%。V类神经毒剂在水中易水解[49],这项研究所筛选的特征杂质在实验所选食品基质中比较稳定,因而能够达到准确预测的效果。第二部分主要聚焦3条合成路线的VR样品,比较VR原体样品和食品基质中VR样品的差别,重点检测挥发性杂质,采用固相微萃取技术处理样品,虽然不同基质会对萃取的样品造成一定影响,但利用该技术能获得60%以上的CAS信息。研究采用GC-MS和LC-MS相互结合鉴定目标物的化学归因特征,能够获取更多有价值的杂质信息[50]。该研究进行了特征化合物重要性排序,发现无论在VR原体样品还是在食品基质VR样品中,LC-MS检测出的特征化合物均占据较大比例。这些化合物结构比较稳定,不易发生水解。该研究将PLSDA与梯度提升机器(Gradient boosted machine,GBM)结合建立分类模型,GBM是一种基于逻辑的决策算法[51],对过度拟合问题具有鲁棒性,且对小的训练数据集具有较高的性能[11,52],研究测试的样品匹配率大于75%。

2.2.2 有机磷农药的化学归因研究化学计量学手段在处理复杂数据时具有出色的表现。2016年,Strozier等[36]选择随机森林统计识别技术(Balanced random forest,BRF)与全二维飞行时间质谱(GC×GC-TOF MS)结合分析3种有机磷农药(毒死蜱、敌敌畏和百治磷)。为了减小样品老化以及仪器波动的影响,样品在不同时间进行至少7次的重复分析,确保了数据的可靠性。根据杂质峰的存在与否或者峰的响应强度,区别不同来源的样品。在使用椭圆面积变量的3次实验中,分类成功率为97%~100%;使用输入/输出变量的3次实验中,分类成功率为87%~100%。为验证BRF分类模型的准确性,该实验采用毒死蜱的4个盲样进行测试,使用输入/输出或椭圆面积变量进行盲样识别时,每个样本均能正确进行归属分类。

上述研究中,PCA分析是近来使用最广泛的方法,因为它将数据矩阵进行降维,通过降维得到的几个主成分进行分析。在模型开发前可应用PCA来考察数据集之间的线性关系,然后运用判别分析的高级形式获取相应的预测模型。模型的准确性和重要性取决于仪器的敏感性和输出数据,研究人员往往会开发多个模型比较样品的分类效果,从而获取最佳结果。不同算法以及不同模型的比较也表明,其均可以应用于相似类型数据集的建模。多变量分析中,一般要进行一定的数据预处理,否则可能会获得假阳性结果。

3 结 论

多元分析方法因有助于样品的鉴定、区分和分类等目标任务的快速调查研究,在毒物化学归因分析中的运用正在迅速增加,但化学归因研究需要数学建模的基础知识,如果缺少化学计量学的基本信息,可能无法获得可靠、准确和重要的预测数据分析模型。本综述总结了有监督和无监督模式识别方法及其在毒物化学归因中的应用。为获得良好的模型效果,需考虑提供充足的样本量以代表数据集中的可变性,同时开发的模型需先用PCA进行分析,以减少错误分类的几率,再进行一定的交叉验证。对于目标样品的数据研究,往往涉及多个方面的影响因素,数据量比较庞大,而在数据处理方面,人工神经网络具有一定的优势,因而未来人工神经网络结合化学计量学的方法在化学归因领域中可能会得到更好的发展和应用。

猜你喜欢

归因杂质样品
粮油检测实验室样品管理浅析*
剔除金石气中的杂质,保留纯粹的阳刚之气
完善样品管理制度确保农产品抽检结果的准确性
班主任引导高三学生考后积极归因的探索
为何越来越爱
农村留守初中生的学业成就归因倾向研究
积极归因方式:当船漏水了
实验室样品管理
质检机构样品管理的重要性
二则