APP下载

2个中药品种常数及多种中药配对的精确分类鉴别

2018-12-25邹华彬

世界中医药 2018年12期
关键词:样本数信息量指纹

邹华彬

(山东大学化学与化工学院,济南,250100)

亦采用双指标等级序列个性化模式识别法[29-30,33]对4种中药红外指纹图谱进行了分析,当统计相似尺度Pg≥Pg+1.1S~Pg≥Pg+1.3S时,可以精确鉴别4种复方,且样品的正确识别率为90.5%~95.2%。2种理论方法的分析结果等价,皆可以将4种组成相似的生物复杂体系-中药复方进行精确鉴别分类,且相互验证。但2个中药品种常数具有确定的绝对定量标准,且具有鉴别判断的简易性、明确的物理意义和生物学意义。

1 仪器与试药

1.1 仪器 美国NICOLET-5700-FT-IR傅立叶变换红外光谱仪(光谱范围4 000~400 cm-1,分辨力4 cm-1);高速粉碎机,压片机,分析天平(METTLE TOLEDO),灵敏度0.1 mg。

1.2 试剂 溴化钾(分析纯,国药集团化学试剂有限公司)。

1.3 分析样品 桂附地黄丸、明目地黄丸、金匮肾气丸及知柏地黄丸(皆为水丸或浓缩丸)样品如下。见表1。

本论文中所研究的4种中药复方组成如下[40]:

桂附地黄丸:地黄、茯苓、牡丹皮、山药、山茱萸、泽泻、附子、肉桂。

金匮肾气丸:地黄、茯苓、牡丹皮、山药、山茱萸、泽泻、附子、牛膝、车前子、桂枝。

明目地黄丸:地黄、茯苓、牡丹皮、山药、山茱萸、泽泻、白芍、当归、枸杞、蒺藜、菊花、石决明。

知柏地黄丸:地黄、茯苓、牡丹皮、山药、山茱萸、泽泻、黄柏、知母。

由上述4种中药复方的组成分看,他们皆具有6种相同的草药,金匮肾气丸与桂附地黄丸具有7种相同的草药。4种中药复方之间的化学成分具有很高的相似组成,且各自的化学成分具有非常高的复杂性。因此,准确鉴别它们具有极大的困难。

2 方法与结果

2.1 理论方法 2个中药品种常数的理论推导根据生物体系的双指标信息理论方程-生物遗传与变异信息理论方程[38]。任意2个样品或任意样品2个不同演化阶段的遗传与变异信息量为:

表1 4种中药复方样品

I=-(PglnPg+PalnPva+PblnPvb)(1)

下面列出各个变量定义见文献[5-9]:

共有峰率Pg:2个比较的指纹图谱a、b中的共有峰数与该2个指纹图谱的独立峰数Nd的比值。Pg它只是共有峰Ng的函数。简化表示为P。该共有峰率指标与Jaccard及Sneath、Sokal系数[41]本质相同。

Pva:图谱a的变异峰率。Pvb:图谱b的变异峰率。

Pa=na/Nd,Pb=nb/Nd(5)

Pa,Pb分别是样品a,b的变异峰占独立峰的比例。

表2 最大信息量区间之Pg及其该区间对应的信息量变化率

注:*对称度为α=0.5,1时,最大信息量对应的共有峰率Pg=0.61;△对称度为α=0时,最大信息量对应的供共有峰率Pg=0.70。根据图1信息理论方程曲线,以最大信息量点对应的Pg为中心,取其左右各变化0.05计算信息量,以直观给出信息量的变化程度。对称度ɑ=0,对应的最大信息量点为Pg=0.70=70%;对称度ɑ=0.5,1,对应的最大信息量点皆为Pg=0.61=61%.插入Pg=0.66这个点,是为了增加数据点的密度

图1 信息理论方程曲线

注:对称变异曲线对称度α=1(Pa=Pb),非对称变异曲线α=0.5(Pb=1/2Pa),α=0(Pa≠0,Pb=0)

各类指纹峰之间的关系为:Nd=Ng+na+nb,Na=Ng+na,Nb=Ng+nb

Nd:2个相互比较的指纹图谱的独立峰,即指比较的2个指纹图谱a、b中吸收峰的种类数。Na:指纹图谱a的总指纹峰数。Nb:指纹图谱b的总指纹峰数。na:图谱a的变异峰数;nb:图谱b的变异峰数。

该方程存在着2个极大值信息量,分别对应于对称变异Pa=Pb,α=1,共有峰率为Pg=61.0%,及极端非对称变异,α=0,Pa≠0,Pb=0,共有峰率为69.5%。见图1。

根据I~Pg图,可以发现,对于对称变异α=1及非对称变异α=0.5曲线的最高点在Pg=0.610,且在Pg=0.610附近存在一个平坦区域,信息量变化不大。而对于极端非对称变异α=0,曲线的最高点在Pg=0.695,且在Pg=0.695附近存在一个平坦区域,信息量变化很小。

当对称性系数α=1,α=0.5,最大信息量对应的Pg皆为0.61,最大信息对应的共有峰率Pg区间皆对应于0.55~0.66。

无论在对称变异还是非对称变异,在最大信息量对应的共有峰率Pg左右变化5%的范围内,信息量的变化皆小于2.49%,小于3%。这说明,由于各种因素导致的生物变异的变化相对于最大信息量点之Pg±5%的范围内,最大信息量变化小于2.49%,该变化范围可以认为处于中药品种特征的临界变化区域。见表2。

2个样品的共有峰率越高,相似性越大,品质越相似。因此,根据表1,考虑到各类因素对中药及实验的随机波动性影响,可以确定Pg=61%及Pg=70%作为判别生物体系的品种常数及优化判别中药品种的绝对理论标准,其变化区间为Pg≥(61±3)%及Pg≥(70±3)%,结合最大有效样本数法对样本集进行合理优化分类[37],同时可以避免为了追求基于经验知识的完全分类而形成的过度分类,如神经网络法中易出现的过度分类。

2.2 实验方法

2.2.1 实验条件 中药样品粉碎并过80目筛,60 ℃烘干2 h,<4 ℃保存。KBr压片法测试红外指纹图谱。每个样品平行测量指纹图谱6次,每个样品的红外指纹图谱峰波数是6次测量中出现次数的平均值。红外指纹图谱以约25 cm-1平滑处理,最佳灵敏度80。

2.2.2 重复性实验和稳定性实验 样品S20平行测量6次,任意4次测量指纹图谱中每个吸收峰波数的平均值构成组合数值指纹图谱。他们之间的最低共有峰率为93%,具有优良的重复性。原药粉末在<4 ℃下保存,具有良好的稳定性。

2.3 指纹图谱测定与实验数据分析

2.3.1 指纹图谱测定 根据实验条件,测试4类42个中药复方原药粉末的红外指纹图谱。见图2~5。由图2~5可见,4种复方中药原药粉末的红外指纹图谱具有很高的相似性及复杂性,极难凭观察直观鉴别4类中药原药粉末的红外指纹图谱。必须用数理分析方法对其指纹图谱数据进行分析,以得到严谨精确的品质鉴别结果。

图2 桂附地黄丸和金匮肾气丸原药粉末红外指纹图谱叠加图

注:在1 600 cm-1处由下至上分别为桂附地黄丸S1,S3,S8,S10,金匮肾气丸S11,S14,S18

图3 明目地黄丸和知柏地黄丸原药粉末红外指纹图谱叠加图

注:在1 600 cm-1处由下至上明目地黄丸S24,S26,S32,知柏地黄丸S34,S38,S42

图4 桂附地黄丸,金匮肾气丸,明目地黄丸,知柏地黄丸原药粉末红外指纹图谱叠加图

注:在1 600 cm-1处由下至上分别为桂附地黄丸S1,S3,S8,S10,金匮肾气丸S11,S14,S18,明目地黄丸S24,S26,S32,知柏地黄丸S34,S38,S42

图5 桂附地黄丸,金匮肾气丸,明目地黄丸,知柏地黄丸原药粉末红外指纹图谱叠加图

注:2 900 cm-1处由下至上桂附地黄丸S1,S3,S8,S10,金匮肾气丸S11,S14,S18明目地黄丸S19,S24,S26,S32,知柏地黄丸S34,S37,S38,S42

2.3.2 实验数据分析 采用Shapiro-Wilk检验方法,确定每个样品的组合指纹图谱峰及42个样品的共有峰及变异峰。以任一样品为标准,计算其他样品与该样品的共有峰率,并按共有峰率由高到低的方法排序,构成样本及其对应的共有峰率的符号-数值二元序列,即双指标序列。根据得到的2个中药品种理论判别标准Pg=61.0%,Pg=69.5%,结合群体特征序列最大有效样本数法[38]:

Y:群体特征序列最大有效样本数;Nci:第i个样本的核心特征序列中的样本数;Nri:第i个样本的关联序列中的样本数;M:群体样本总数。Y反映了群体分类中有效分类程度,Y越大说明品质聚分类越清晰,关联序列中的样本数越少,核心特征序列中的样本数越多,越接近理想聚分类。

分别在Pg≥(61±3)%,Pg≥(70±3)%优化Pg,得到4个品种的整体优化特征序列,即样品清晰分类且具有最大有效样本数,以实现4种中药复方6种两两配对关系的精确鉴别。

当Pg≥61%,Pg≥72%时4种中药经过优化的特征序列。见表3。

采用鉴别标准Pg≥61%,由每个样品的特征序列看,下列5个药品配对可以得到精确鉴别:桂附地黄丸-金匮肾气丸;桂附地黄丸-明目地黄丸;金匮肾气丸-明目地黄丸;金匮肾气丸-知柏地黄丸;明目地黄丸-知柏地黄丸。

而桂附地黄丸-知柏地黄丸二者的特征序列交叠严重,无法清晰区分二者。因而无法得到准确鉴别。

表3 4种中药经过优化的特征序列

注:a.核心特征序列;b,关联序列,该序列部分中的样品不属于核心特征序列样品对应的类。每个样品的特征序列由核心特征序列+关联序列构成。c,特征序列中的斜黑体部分,表示当鉴别标准Pg≥72%时4种中药的特征序列,而每个样本的整个序列表示Pg≥61%时4种中药的特征序列

当Pg≥72%时,S35,S37的特征序列中,关联序列等于或长于核心特征序列,因而无法正确识别,其余40个样品得到正确的品种判别,正确识别率为40/42=95.2%,错误识别率为2/42=4.8%。不仅上述5个药品对得到精确鉴别,在此情况下,桂附地黄丸-知柏地黄丸也得到精确鉴别。对于桂附地黄丸-知柏地黄丸配对,依据非对称变异品种常数Pg=70(69.5)%,结合群体特征序列最大有效样本数法[37],在不同Pg条件下,优化分类样品,所得结果见表4。

表4 4种复方非对称变异常数Pg=(70±x*)%的优化结果

x*,x=-1,0,1,2,5

由表4结果知,当Pg≥69%~75%时,桂附地黄丸-知柏地黄丸药品对皆可得到精确鉴别。但Pg≥72%时,有效样本数最大,分类最合理,而Pg≥75%时,虽然样本的正确识别了100%,但有效样本数最小,说明过度分类,并不合理。通过对实验测量的指纹图谱数据进行详细分析,可以发现评判这4类中药的品种标准可以确定为Pg≥61%,Pg≥72%。见表5。

表5 4种复方配对遵从的品种常数Pg(%)

在上述相似尺度下,6对中药配对皆可得到准确判别分类,样品正确识别率95.2%,具有最大有效样本数。在类的层次上,类的正确识别率为100%。

3 讨论

中药品种的科学鉴别是中药现代研究的核心课题之一。只有在科学上绝对保证品种鉴别的可靠性,才能保证疗效的可靠性,为中医药正名,并为中医药的现代深化科学研究奠定不可动摇的基础。目前的中药品种鉴别都基于经验知识,即使是众多的模式识别理论方法,也是基于经验知识或学习样本获得经验参量,这些方法皆无法得到不可怀疑的结论。本研究根据生物体系共有遗传变异信息理论方程确定了2个中药品种常数Pg=61%,Pg=70%,在科学上提出了2个判别中药品种的绝对理论定量标准。基于它们建立的2个品种判别理论标准Pg≥(61±3)%及Pg≥(70±3)%,对4种组成相似的中药复方的6种配对进行了精确鉴别。结合文献[37-39]可以证明,基于生物遗传与变异信息理论方程在2种变异状态取得最大信息量所对应的共有峰率[37],确实可以反映生物体系的本质相似特征。该理论方法无需任何经验知识、主观设定参数,只需依据实验测量值,结合最大有效样本数法就可实现对某些中药这类生物复杂体系的精确鉴别及模式识别。最大有效样本数法可以防止其他模式识别方法容易产生的过度拟合分类现象,而保证给出最优合理结果。这也证明,在生物体系中同样存在如同物理学、化学中的精确定理定律,有待人们去发现。

依据生物遗传与变异信息理论推导的2个中药品种绝对定量标准而不是依据经验标准对中药精确鉴别,这应是生物体系中药鉴别理论方法的一个重要突破。该理论方法亦具有巨大的简易性,且也应适用于任意生物体系的精确分类鉴别。另一方面,作者多年的系统实验研究及理论研究发现,基于生物体系的红外、液相指纹图谱信息及分子种类信息对生物体系进行鉴别、分类、聚类及模式识别研究,结果较基于成分的含量信息更可靠。因为这些信息主要反映的是生物体系的物质结构信息,结构决定功能,结构决定品种特性。理论上,这2个品种常数适用于基于红外指纹图谱、液相指纹图谱、分子种类信息的生物体系品种的绝对定量鉴别。

目前的中医药研究,主要聚焦于其中的化学成分、功效研究,对中医药数理基础理论研究工作缺乏应有的重视。要使以几千年经验为基础的中医药演化至以数理理论为基础的现代科学,发现其中的精确科学原理,用于更好地指导中医药现代研究,还有漫漫之路有待探索。但这是能够发扬光大祖国中医药学的必由之路。

致谢:本文部分数据取自我的研究生韩智峰、张新玲的毕业论文。

猜你喜欢

样本数信息量指纹
勘 误 声 明
像侦探一样提取指纹
为什么每个人的指纹都不一样
基于GIS和信息量法的四川峨眉山市地质灾害易发性定量评价
基于信息理论的交通信息量度量
Fisher线性判别式阈值优化方法研究
如何增加地方电视台时政新闻的信息量
基于自适应稀疏变换的指纹图像压缩
可疑的指纹
基于联合熵和交互信息量的视频篡改检测