APP下载

基于拉曼光谱技术的联苯苄唑药物有效成分的快速鉴定和生产溯源研究

2020-09-14罗思恒周志明黄剑英潘城李玲玲郑淑凤张志敏刘国坤

分析化学 2020年9期
关键词:主成分分析

罗思恒 周志明 黄剑英 潘城 李玲玲 郑淑凤 张志敏 刘国坤

摘 要 有效成分的定性和定量分析是药物分析的核心。实际样品测定中,通常需要进行样品前处理,以消除复杂辅料成分的干扰,此过程耗时长,且难度较大。因此,发展快速定性筛查技术,提高药物分析的工作效率非常必要。本研究以联苯苄唑药品作为模型药物,将拉曼光谱技术和主成分分析(Principal components analysis,PCA)和支持向量机(Support vector machine,SVM)等机器学习算法联用,探讨了其用于药物有效成分快速定性分析的可行性。针对不同药品中辅料成分复杂、组成不一,并且其拉曼光谱谱图与低含量(1%)的联苯苄唑分子的谱图存在明显交叠的问题,以原料药的拉曼光谱为基准,利用PCA方法精准定位和提取成品药拉曼谱图中联苯苄唑分子的特征拉曼光谱信息,实现了准确定性分析。本研究无需获得每一种辅料的特征拉曼光谱谱图,根据拉曼谱图中1600和1650 cm1等处谱峰的细微差异,采用PCA方法结合SVM分类器策略,实现了药物生产溯源的准确区分和鉴定。本研究为药物分析研究提供了一种无损快速溯源的分析方法。

关键词 拉曼光谱;主成分分析;有效成分鉴定;生产溯源

1 引 言

药物分析的核心是对其有效成分和辅料进行定性鉴定和定量分析,以判断药物是否符合相关标准,为药物生产和新药研制提供可靠的质量控制技术。此外,利用不同厂商辅料的细微差异,可进行药物生产溯源[1,2]。

传统药物检测技术主要包括薄层色谱、气相色谱、高效液相色谱、超高效液相色谱和高效液相色谱-质谱联用等[3]。薄层色谱法不需要复杂的仪器设备,但操作复杂且每次只能对单个组分进行分析,效率较低。色谱及色谱-质谱联用等技术测试精度高,通常作为实验室标准方法鉴定和区分目标物质,但对技术人员要求较高,操作难度较大且耗时长[4~6]。近年来,X射线衍射法、紫外-可见吸收光谱法、荧光光谱法、红外光谱法等被广泛用于药物检测。Al-Kindy等[7]利用时间分辨荧光技术分析了溶液与尿样中布洛芬的含量,方法重现性好,可用于布洛芬药物的检测。Zhu等[8]利用液相色谱-质谱联用技术分析人血液中奥普力农的含量,并进行了人体内的药物代谢动力学研究与评价。

拉曼光谱是一种能够提供分子指纹图谱的振动光谱技术,因对测试样品要求低(固、液、气三相的样品均可直接检测)且测试简单而受到广泛关注,已逐渐成为重要的药物分析方法。 Dies等[9]将表面增强拉曼光谱与PCA方法结合,实现了水溶液和复杂的唾液样品中微量可卡因、海洛因等违禁药物的高灵敏检测。Roggo等[10]在无先验信息的前提下,利用拉曼光谱和非线性支持向量机(SVM)准确识别药物中的活性成分,实现了高精确度的药物真伪检测。Le等[11]结合拉曼光谱和偏最小二乘判别分析和偏最小二乘回归,无需破坏包装,实现了封装在玻璃小瓶中的5-氟尿嘧啶、吉西他滨等5种抗肿瘤药物的定性分析。鉴于在药物分析方面的显著优势,拉曼光谱技术被收录于2015年版《中国药典》中。然而,在进行多种物质的归类及鉴定时,常需要结合理论计算对拉曼特征峰进行指认。此外,在实际药品中存在大量干扰物,拉曼谱峰重叠严重,增大了解析的难度,尤其是当光谱特征较为相似时,高效快速地提取有效信息十分困难。

主成分分析(PCA)是化学计量学中的常用方法,通常用于数据降维、潜变量提取与数据压缩,结合投影判别法可用于确认化学组分数、分类和聚类[12~15]。化学计量学结合拉曼光谱已有很多文献报道。张逊等[16]利用拉曼光谱、自适应迭代惩罚最小二乘法和主成分分析去除芒草细胞壁谱图数据的噪声信号,再利用聚类分析,成功区分了非植物与植物光谱,分类结果优于未去噪数据。黄庶识等[17]利用拉曼光谱技术对阴道毛滴虫和口腔毛滴虫进行测定,利用PCA和辨别函数分析预处理后的数据,扩大两组数据之间的差异性,实现对两种不同环境的毛滴虫区分。在药物分析中,PCA通常仅作为数据预处理的方法使用,较少对其提取的特征进行追踪与分析。

联苯苄唑药物对皮肤真菌、酵母菌、霉菌及其它真菌(如秕糠状鳞斑霉菌、微小棒状杆菌)有效,其作用迅速、持续时间长且价格较低,因此应用广泛。本研究以具有广谱抗真菌作用的联苯苄唑药物为模型,建立药品鉴定分析体系,利用PCA算法,通过将不同主成分与特征峰一一对应,进行目标物的定性和定量分析。在此基础上,对于主成分的提取过程进行追踪与分析,探讨聚类过程的实验依据。在无需获得辅料的特征拉曼光谱谱图的前提下,对不同厂家联苯苄唑药品进行有效准确区分和鉴定,实现了药物的生产溯源。

2 实验部分

2.1 仪器与试剂

拉曼光谱谱图由i-Raman Plus BWS465-785S 拉曼光譜仪(中国必达泰克光电科技(上海)有限公司)采集,激光波长785 nm,光谱范围150~3350 cm1,分辨率为3.5 cm1,激光功率320 mW,检测器类型为致冷薄型背照式CCD阵列。

实验所用联苯苄唑成品药和原料药均来自市场抽样。9种成品药和2种原料药分别来自不同制药厂家,成品药样本的总数为179,原料药样本总数为2。为方便后续讨论,将9种成品药样本进行编号,并将标注各类样品数量,如表1所示。将分别来自广州和重庆制药公司的2种原料药编号为1号原料药和2号原料药。

2.2 光谱采集

成品药与原料药均为乳膏剂,呈白色胶状。取联苯苄唑药品铺展于锡箔纸表面,样品厚度约为2 mm,面积约为25 mm2,进行拉曼光谱测试。激光功率为100%,积分时间为30 s,积分次数为3次。每个样品至少进行3次重复测定,取其平均谱图,以确保数据的可靠性。原料药谱图数量为9,为保证谱图数量而多次测量结果;成品药谱图数量为179,数量充足且与实际样本一致。

2.3 数据分析

将所得9种成品药的拉曼谱图(总数为179)和两种原料药的拉曼谱图(总数为9)数据进行如下预处理:一阶微分求导、多元散射校正、中心化处理。然后,采用SPSS 21.0软件进行PCA运算:在不损失主要信息的前提下,将谱图数据进行降维处理,得到正交的得分矩阵与载荷矩阵。以得分矩阵前2列或前3列进行投影,即可得到降维或聚类结果;从载荷矩阵可得到不同谱段对得分矩阵的贡献度,得出不同谱段与不同主成分的关系,并以此解释分类依据。

3 结果与讨论

3.1 有效成分的信息提取与鉴定

相比于高纯度的原料药,成品药成分较复杂,主要是因为成品药中有效成分的含量通常取决于治疗所需要的功效水平,如联苯苄唑在成品药中的含量仅为1%,此外,成品药中通常添加多种辅料成分。由图1A中联苯苄唑成品药(1号样品谱图中随机选取)与原料药(1号原料药谱图中随机选取)的拉曼光谱图可知,原料药位于998、1179、1280和1604 cm1处的特征谱峰在成品药的谱图中虽清晰可见,但谱峰的相对强度并不一致,说明成品药中与原料药相关的特征峰可能存在原料药与辅料特征峰交叠情况,即存在复杂辅料成分的贡献。上述结果也说明,仅依赖特征谱峰位置对有效成分进行定性分析可能存在误判(尤其是所选特征谱峰的数量较少时)。因此,首先将实验数据中所有的原料药(数量为9)和成品药(数量为179)的拉曼光谱谱图进行预处理,采用PCA浓缩提取谱图中的药物有效成分信息。然后,结合投影判别法,以3个最主要的主成分PC1、PC2和PC3作三维图,所得结果如图1B所示。其中,编号1聚类为原料药,其余为成品药。结果表明,不仅原料药与其它药物可显著区分,不同来源的药物间也存在有效聚类,如2、3号聚类实现了两种药品的产地区分,说明PCA对于药物的判别具有一定作用。

根据PCA原理,可根据谱图变化的趋势将不同的谱段划分为多个主成分,在投影分类清晰的前提下,不同谱段对其主成分具有不同的贡献度,该贡献度大小可通过载荷矩阵显示。因此,本研究根据载荷矩阵,将拉曼谱图中区分贡献度占优的谱段以红色标出,结果如图1A所示。由图1A可知,显著的组分差异导致成品药与原料药的拉曼谱图间也存在明显的差异性。然而,经过PCA分类,与有效成分相关的主要特征谱峰(如998、1179、1280和1604 cm1等)被划分为同一主成分PC1,说明这些特征峰的主要贡献一致,皆来源于与原料药成分一致的有效成分。上述结果表明,采用PCA算法实现了拉曼谱图由高维向低维数据的转变,降低了冗余信息的干扰,有效提取和浓缩了药物有效成分信息,有利于更加快速准确地进行定性分析。

3.2 分类与鉴定

PCA基于投影判别法观察其空间分布及聚类情况,可用于物质的鉴定。将实验中涉及的9个不同厂家179个成品药的拉曼光谱图进行PCA处理,并对多次投影结果进行比对。以获取的最优主成分为轴,利用变量三维空间投影,系统考察各种预处理后的结果。图2为无预处理、求导预处理、求导和中心化预处理,以及进行求导、多元散射校正和中心化预处理后的PCA分布图。黑圈代表仅含有单种药品样本,红圈代表含有多种药品样本。由图2A~2C可知,预处理不充分时,仅能有效聚类2~3类,聚类效果不理想。经过系统预处理后,绝大部分样品都形成良好的聚类(图2D),其中6个聚类按照样品来源进行分类(样品编号已在图2D中标出),其余3种样品仍无法有效区分(如红圈所示)。

光谱信息中存在的噪声等冗余信息影响聚类的效果。对比4种不同的预处理方案并推测,预处理步骤中一阶求导可以增强光谱分辨率并降低背景干扰;多元散射校正有效解决了由于样本某些物理性质(如颗粒大小及形状)导致的乘子效应;中心化处理可提高模型的稳健性和预测能力。因此,3个预处理步骤协同提高了聚类的准确度。

由图2D可知,预处理步骤尚无法有效聚类分离包含在红圈内的药物。这主要是由于这些样品在这3个主成分所构成的三维空间中的差异较小,说明样品的差异在于其它主成分。因此,对于红圈内的样品,以PC1、PC4作为坐标轴进行二次投影分类,结果如图3所示。由于图3中9号样品的分布较散乱,为减少人为因素的干扰,需进一步利用机器学习的分类算法确保分类的正确性。支持向量机(Support vector machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,在包括拉曼光谱定性分析等许多领域都得到了广泛应用[18~20]。利用SVM进行分类的结果如图3B所示,结果与图3A一致,即红圈样品的分类已明确。

经过两次PCA投影后,按照生产厂家将样品准确分为9类,正确率为100%,已基本达到分类要求,但尚不清楚有效分类及图3中9号样品聚类效果不理想的原因,需进一步探索。

PCA运算过程中所得的载荷矩阵的评定是基于拉曼谱图中不同谱段贡献度的差异。因此,在图4中,将对分类有贡献的PC1、PC2、PC4和PC6所对应的拉曼谱段用不同颜色在實验所得9个不同厂家样品的拉曼谱图中标出,并将样品的编号在图4中进行标记。从图4中可以直观地看出,PC1包含大量相似的谱图信息,特别是其包含了除了1604 cm1以外所有的原料药特征峰。在PC2中同样存在着包含大量相似谱段的情况,如仅用PC1及PC2进行分类,是难以实现的。

实验中发现,1600 cm1(PC4)和1650 cm1(PC6)处两个谱峰的峰形和相对强度在多个样品之间存在差异,因此在进行投影时,选择包含1600 cm1(PC4)或1650 cm1(PC6)等存在较大差异的峰的主成分加以辅助,通过将图像投影至更高维的空间,以增加空间容量,基于其协同作用,最终对这些样品进行有效区分。

将9种成品药的辅料通过药品说明书进行统计,所得结果如电子版文后支持信息表S1所示。根据表S1,对分类结果做进一步分析发现,各种样品中辅料成分复杂,并且有一定相似性,如均含有硬脂酸、单硬脂酸甘油酯和甘油等物质;各成品药中的辅料含量或某些特殊辅料存在差异,从而使得PCA算法可以对这些样品进行有效区分。因此,相同原料药和相似的辅料导致在区分过程中必须提取样品间微小的差异信息。

结合表S1,对样品需要两次区分的原因进行探究。根据表1中编号,第一次PCA中,7、8、9样品虽然互相难以区分,但与其它样品却清晰分开,这是由于7、8、9号样品相对于其它样品具有大量的特殊辅料成分,如7号样品含有特殊辅料鲸蜡醇十六酸酯、苯甲醇等;8号样品含有特殊辅料白凡士林、甲醇等;9号样品含有特殊辅料硬脂山梨坦、二甲硅油等。但是8、9样品在许多辅料成分上具有明显的相似性,相互区分较困难。同时,取PC6为辅轴时,所包含的峰并未显示其差异性,无法体现出其辅料中不同成分的差异;而第二次区分能成功分类,是因为样品在PC4包含的位于1600 cm1处宽峰的相对强度存在差异。

针对此批样品辅料表的细节,结合分类结果进一步分析,将不同样品在不同主成分上的距离可视化,按照图5A计算流程图作图得到图5B,以直观显示同一主成分中不同样品之间的分布情况。可以观察到,在PC1分量上,大多数样品差距不明显,说明PCA分类需要多个辅助轴的必要性。基于圖5B并结合表S1中样品的差异,可详细分析不同辅料对某一主成分的贡献度。

首先对分类过程起主要贡献的辅料种类进行分析。图5B中的1、2和3号样品,其在各个主成分的距离差都较小(PC4和PC6中尤为明显),具有一定相似性,这两类样品在表S1中也在聚山梨酯为分界的上半部分表中仅有十八醇一种辅料存在差异。8和9号样品在PC1上的距离很近,PC1同时也是信息量最大的主成分,在表S1中两类样品虽然在白凡士林、清凉香精等辅料成分上存在较大差异,但是差异并没有在PC1中有所体现,而其相同的成分(如硬脂酸、轻质液滴状石蜡等)主要存在于聚山梨酯为分界的上半部分表中,这与PC1上两类样品距离近相符。7、8和9号样品在PC1的距离相差较大,PC1是包含信息量最大的主成分,7号样品与8、9号样品的辅料差异也基本只存在于上半部分表。同时表S1中辅料排序为说明书上的书写顺序,辅料表中的辅料的排序与辅料的含量相关。综上,可以推断,在分类中发挥主要作用的辅料是以聚山梨酯为分界的上半部分表中包含的辅料。

结合图表,以个别辅料对于PCA的贡献度进行分析,同样可以得出有效结果。由图5B可知,在PC4上2、3号样品间差距小,说明二者共有成分包括轻质液滴状石蜡、硬脂酸、单硬脂酸甘油酯等,对PC4具有较大贡献,从而导致第一次PCA中两类区分距离较近;而7、9号样品在PC2上的差距小,结合表S1可知,共有成分为十八醇,可以推断其对PC2存在较大的贡献而导致这两类样品在第一次PCA中无法区分;在PC6上9号样品与其它样品相距很远,说明其独有的辅料成分硬脂山梨坦和二甲硅油对PC6的贡献较大。

总之,可借助类似方法通过反追踪主成分对于原始谱图的贡献,推断辅料和主成分之间的关系,以及检验PCA投影判别法的有效性。

3.3 误差分析

基于PCA的投影判别法不仅只是简单的聚类,其聚类的效果同样可以反映其它重要信息。如图2和图3中,部分点的聚类效果不理想,存在部分点偏离的情况,如图2D中1号样品存在多个离群值。将这些样品点的拉曼谱图与聚类较好的典型谱图比较,在图6中可以观察到离群点的拉曼谱图在谱峰的相对强度差异显著。为探究离群值产生的原因,对离群样本进行重复多次实验,但未能重复该现象,因此判断此离群值为测量误差所致。基于PCA的投影判别法可对在质量控制过程中产生的大量数据进行快速筛查和分析,迅速识别离群样本,并可结合重复实验验证离群现象的真实性,有力提升了相关分析检测的时效性。

实验表明,在多次PCA运算过程中,9号样品无论是第一次主成分投影图,还是第二次投影图,其样品分布都较为分散。针对此现象,本研究提取出具有代表性的原始谱图并进行对比,结果如图7A所示。其中,998和1280 cm1处两个特征谱峰的相对峰强存在明显差异。为确认此差异性是否为测量误差所致,选取一个样品抹匀后进行了多次测量,结果如图7B中黑色图谱所示。对同一样品的不同点进行多次测量,这两个谱峰的相对强度也存在显著差异。与原料药的特征拉曼谱图(图7B红色谱图)进行比对,通过结合谱峰位置和相对谱峰强度这两个重要信息,可以发现这两个峰来自于原料药(有效成分)。联苯苄唑均为白色外用乳膏剂,其它厂家药品样本在分类过程中并无此类情况发生,且拉曼谱图中特征峰的峰形、峰强均相对稳定。故推测该厂家此批次药品样本在生产过程中,由于此类成品药中原料药通常仅约占1%,因此在混匀过程中无法达到100 μm(激光光斑尺寸)级别的混匀,这种微米级的不均是否会对药效产生影响还有待于进一步分析。

4 结 论

采用拉曼光谱结合PCA投影判别法对联苯苄唑的9种成品药和2种原料药进行了成分分析和快速分类。结果表明,通过PCA方法可实现药物有效成分的信息快速提取,利用载荷矩阵对于不同谱段对不同主成分的贡献度进行判定,确保PCA方法提取信息的准确性。利用PCA方法对经过多种预处理的药物拉曼光谱进行降维,并结合投影判别法,选择最优的坐标轴,实现对药物的分类。根据不同样品在各个主成分的距离图,结合药物辅料成分表,对辅料与主成分的贡献度进行分析,可对主成分和辅料之间的关系进行判断。本研究结果表明,准确反映谱图信息的PCA投影结果可有效协助产品质控,排除实验误差,对实验和生产都具有重要作用。拉曼光谱和主成分分析的结合于对目标药物的有效成分提取和生产溯源具有一定的优势,鉴定快速且可以进行生产溯源,为新药研制及药物分析提供了一种可靠的思路和方法。

References

1 Fitzgerald R L,Rivera J D,Herold D A. Clin. Chem.,1999,45(8): 1224-1234

2 Chan J W,Taylor D S,Zwerdling T,Lane S M,Ihara K,Huser T. Biophys. J.,2006,90(2): 648-656

3 QUAN Chun-Mei,CHENG Lei,CAO Shuai. Shandong Chemical Industry,2019,332(10): 35-37

权春梅,程 磊,曹 帅. 山东化工,2019,332(10): 35-37

4 Das G,La Rocca R,Lakshmikanth T,Gentile F,Tallerico R,Zambetti L P,Devitt J,Candeloro P,De Angelis F,Carbone E,Di Fabrizio E. J. Biomed. Opt.,2010,15(2): 027007

5 D′Atri V,Fekete S,Clarke A,Veuthey J L,Guillarme D. Anal. Chem.,2019,91(1): 210-239

6 CAO Lu,ZHU Jia-Sen,GUAN Yan-Yan,ZHANG Wei-Hong,GONG Li,XIE Fang-Yan,ZHOU Hai-Bo,LAI Zhi-Hui,CHEN Jian. Journal of Light Scattering,2019,31(2): 102-109

曹 露,朱嘉森,管艷艳,张卫红,龚 力,谢方艳,周海波,赖志辉,陈 建. 光散射学报,2019,31(2): 102-109

7 Al-Kindy S M,Suliman F E. Luminescence,2007,22(4): 294-301

8 Zhu P,Wen Y G,Chen J M,Zhuang J,Zhou Z L,Zheng S Y,Wu R B,Xiao X J,Lu C,Fan R X,Guo H M,Fan X P. J. Pharm. Biomed. Anal.,2011,54(1): 198-202

9 Dies H,Raveendran J,Escobedo C,Docoslis A. Sens. Actuators B,2018,257: 382-388

10 Roggo Y,Degardin K,Margot P. Talanta,2010,81(3): 988-995

11 Le L M M,Berge M,Tfayli A,Zhou J,Prognon P,Baillet-Guffroy A,Caudron E. Eur. J. Pharmaceut. Sci.,2018,111: 158-166

12 FENG Shang-Yuan,PAN Jian-Ji,WU Yan-An,LIN Duo,CHEN Yan-Ping,XI Gang-Qin,LIN Ju-Qiang,CHEN Rong. Scientia Sinica Vitae,2011,41(7): 550-557

冯尚源,潘建基,伍严安,林 多,陈燕坪,席刚琴,林居强,陈 荣. 中国科学:生命科学,2011,41(7): 550-557

13 GAO Qun,ZHANG Zhong-Hu,LU Feng. Spectroscopy and Spectral Analysis,2012,32(12): 3258-3261

高 群,张中湖,陆 峰. 光谱学与光谱分析,2012,32(12): 3258-3261

14 LIU Yan,ZHANG Zhong-Hu,LU Feng. Computer and Applied Chemistry,2011,28(11): 1433-1435

柳 艳,张中湖,陆 峰. 计算机与应用化学,2011,28(11): 1433-1435

15 ZHANG Hai-Peng,FU Tong,ZHANG Zhi-Ru,FAN Zhi-Min,ZHENG Chao,HAN Bing. Journal of Jilin University(Medicine Edition),2013,39(5): 938-943

张海鹏,付 彤,张志茹,范志民,郑 超,韩 冰. 吉林大学学报(医学版),2013,39(5): 938-943

16 ZHANG Xun,CHEN Sheng,WU Bo-Shi,YANG Gui-hua,XU Feng. Chinese J. Anal.Chem.,2016,44(12): 1846-1851

张 逊,陈 胜,吴博士,杨桂花,许 凤. 分析化学,2016,44(12): 1846-1851

17 HUANG Shu-Shi,LAI Jun-Zhuo,LIANG Yu-Fen,WEI Jun-Bin. Chinese J.Anal.Chem.,2011,39(4): 521-527

黄庶识,赖钧灼,梁裕芬,韦俊彬. 分析化学,2011,39(4): 521-527

18 Widjaja E,Zheng W,Huang Z W. Int. J. Oncol.,2008,32(3): 653-662

19 Li S X,Zeng Q Y,Li L F,Zhang Y J,Wan M M,Liu Z M,Xiong H L,Guo Z Y,Liu S H. J. Biomed. Optics,2013,18(2): 027008

20 WANG Xian-Shuang,GUO Shuai,XU Xiang-Jun,LI Ang-Ze,HE Ya-Ge,GUO Wei,LIU Rui-Bin,ZHANG Wei-Jing,ZHANG Tong-Lai. Chinese Optics,2019,12(4): 888-895

王宪双,郭 帅,徐向君,李昂泽,何雅格,郭 伟,刘瑞斌,张纬经,张同来. 中国光学,2019,12(4): 888-895

猜你喜欢

主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
大学生创业自我效能感结构研究
塔里木河流域水资源承载力变化及其驱动力分析
我国上市商业银行信贷资产证券化效应实证研究
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
农村劳动力转移影响因素与转移数量的动态关系研究