APP下载

线性回归分析法在正交试验中的应用

2013-09-14范步高

中成药 2013年1期
关键词:苦参子集回归方程

范步高

(上海长征富民金山制药有限公司,上海201506)

正交试验数据处理的常用方法一般有极差分析 (直观分析)和方差分析。极差分析简便、直观,但不能区分指标的差异究竟是因子的水平变化所引起还是由试验的误差所引起,故极差分析的准确性较低,所以,为提高正交试验结果分析的准确性应首选方差分析。但正交试验的方差分析一般须预留空白列 (误差列和交互作用列),代价是试验总数增加或减少独立因子数,否则,正交试验方差分析的准确性也将大大降低,此时较为理想的选择则应是“线性回归分析法”[1-4]。

1 实例分析

《中成药》2011年 (第33卷)第7期第1206页载文“正交设计法优选苦参炮制工艺的研究”[5](以下简称原文),原文目的是优选苦参的切制工艺,选用L9(34)正交表进行优选,现将原文的表2(因素和水平考察)、表3(苦参炮制工艺正交试验结果)和表4(苦参炮制工艺方差分析)合并为本文的表1,原文直观分析 (极差分析)与方差分析得出的最佳条件与直接观察法相同,均为A1B3C3,即第3号试验,Y3=Ymax=1.831,因素重要性排序为A>C>B。3批验证结果:苦参碱和氧化苦参碱指标分别为 1.83%、1.80%、1.82%,均值为 1.82%,RSD为0.64%。

1.1 方差分析的正确计算 原文为3因子3水平,选择L9(34)正交表,前提条件应是因子间无两两交互作用或两两交互作用可以忽略不计,另外3因子排毕还应剩余“空列”1列,可以作为误差项进行方差分析 (原文将“空列”遗漏,故计算有误),因B和C因子的均方差均小于“空列”,为防止误判因子的显著性,提高方差分析的准确性,故合并三列为误差项 (SS空+SSB+SSC=SSe)。结果见表2。

表1 原文苦参炮制工艺正交试验结果分析

表2 苦参炮制工艺正交试验方差分析

由表2可知,因素A、B、C水平的变化对指标的影响均不显著 (与原文结论差异较大),即差异较多是由试验误差过大所引起。所以,对不显著因子的水平优选一般不是选择相对较高指标值所对应的水平,而是综合考虑该水平在实际生产中的生产周期、能耗、质量可控性等情况而选定。所以,若综合考虑苦参炮制工艺的最佳条件应首选A1B1C1(浸泡20 min,软润16 h,60℃干燥),即该轮L9(34)正交试验中第1号试验,Y1=1.732,低于第3号试验指标值Y3=1.831,但此结果仅仅是在因子间无两两交互作用或两两交互作用可以忽略的前提下。根据L9(34)正交表任意两列间的交互作用列为另外两列,现存在MS空>MSC>MSB,故原文前提条件不成立,即 A、B、C因子的两两交互作用不可忽略。

表2结果可由表1原始数据用Excel统计函数计算得到[6],也可仿照原文由简单公式计算:T=ΣYi=26.512,CT=T2/n=26.447;总平方和SST=T2-CT;A、B、C及空列(第4列)平方和SSjCT。对规格化正交表存在等式:SST=Σ SSj,可以用于检验计算的正确与否。

1.2 线性回归分析及预测 对三水平的A、B、C因子间的交互作用,解决的办法可以重新选择较大的L18(37)或L27(313)正交表再进行一次有交互作用的正交试验进行优选,也可以在原L9(34)正交试验的基础上,利用多元线性回归分析法进行工艺优选和结果预测。

1.2.1 多元线性回归分析模型构建 根据正交试验的方差分析结果,假设A、B、C存在较强的两两交互作用AB、AC和 BC,回归子集大小为六元 (A、B、C、AB、AC、BC),线性回归模型为Y*=b0+b1A+b2B+b3C+b4AB+b5AC+b6BC,经用矩阵法求得各因子的偏决定系数 (偏相关系数的平方)进行显著性检验和筛选,“最优”子集为五元 (A、B、C、AB、AC)、“次优”子集为四元 (B、C、AB、AC)(表3,表4)。

表3 线性回归“最优”子集Excel筛选模型

(续表3)

表4 线性回归“最优”子集筛选结果

1.2.2 线性回归分析结果及置信区间 由表3可得五元“最优”线性回归方程为 Y*=1.209 6+0.018 6A+0.095 2B-0.010 0C-0.003 0AB+0.000 3AC,回归标准误差Sy=0.014 5,回归方程显著性P值<0.01,各回归因子显著性Pj值<0.05,因子重要性排序AB>B>C>AC>A。对原文优选水平A1B3C3进行预测,均值落在其预测区间内(表3),证明回归方程的预报可信。参考方差分析结果,经多次单因素试验回归得优选水平为A1B3C1(浸泡20 min,软润20 h,60℃干燥),此水平组合未包含在L9(34)正交试验中,故需进行至少3批的验证试验加以确定,其验证试验结果预测值约为2.026%,95%置信区间在1.997%~2.054%,高于第3号正交试验 (A1B3C3)最高值Y3=1.831%(见表3)。

1.2.3 表3中Excel函数或公式设置

(1)试验因子及交互项水平数据与指标结果:A、B、C及Y数据可直接输入,交互作用的因子数据利用乘法公式输入,E3=B3×C3(意即E3单元格输入“=B3×C3”,下同),F3=B3×D3,G3=C3×D3,分别确认后选中E3∶G3,向↓拖曳复制至G11。

(2)相关系数矩阵1:B14=CORREL(S|BS|3∶S|BS|11,BS|3∶BS|11),确认后选中并向↓拖曳复制至B20,并从B15起依次将S|BS|3∶S|BS|11中的列号B分别修改为C、D、E、F、G、H,分别确认后选中B14∶B20,向→拖曳复制至H列。

(3)相关系数逆矩阵1:选中B22∶H28(区域大小须与B14∶H20矩阵相同),输入:=MINVERSE(B14:H20),三键确认 (一般特定公式或数组公式输入均需shift+ctrl+enter三键确认,当判别有疑时也可用三键确认解决,下同)。

(4)回归因子显著性检验1:偏决定系数B30=B28^2/B22/S|H28(若求偏相关系数,B30=-B28/SQRT(B22/S|H28)),偏回归因子F值B31=B30/(1-B30) × (9-S|H31-1),偏回归因子 P值 B32=FDIST(B31,1,9-S|H31-1),偏回归因子重要性排序 B33=RANK(B30,S|B30:S|G30),分别确认后选中B30∶B33,向→拖曳复制至G列。Mpi统计量 H33=SUM(B32:G32)/H31× (9+H31+1)。

(5)相关系数矩阵2:根据回归因子显著性检验1的结果,去掉相关系数矩阵1中最不显著因子BC(第六行及第六列数据),利用等号将剩余标志和数据“移植”,如C35=B13,C41=B20。为方便回归因子显著性检验公式无需修改地重复使用,需将原相关系数矩阵1中第七行数据上移至第六行、原第1~5列数据整体右移。

(6)相关系数逆矩阵2:选中C43∶H48,输入=MINVERSE(C36:H41),三键确认。

(7)回归因子显著性检验2:复制表3(4),清除B50∶B53,修改子集m大小,H53复制H33后粘贴。

(8)五元“最优”子集回归统计量:选中5行 (m+1)列即 C56∶H60,输入:=LINEST(S|HS|3∶S|HS|11,S|BS|3∶S|FS|11,TRUE,TRUE),三键确认。回归方程P值:C61=FDIST(C59,9-1-D59,D59)

(9)试验优水平筛选及预测:利用多次单因素试验进行优水平筛选,并假设残差服从正态分布,U0.05=1.96,则95%置信度预测值误差=1.96×Sy,所以,预测值F64=SUM(S|CS|56∶S|GS|56×A64∶E64)+S|HS|56,三键确认;95%下限值G64=S|F64-1.96×S|DS|58,95%上限值H64=S|F64+1.96×S|DS|58,分别确认后选中F64∶H64,并向↓拖曳复制至行72。

对于确定的“最优”子集,偏回归系数等回归统计值也可以直接利用Excel回归分析工具自动求出,可以作为对以上显著性检验计算正确与否的检验 (自动给出的偏回归系数t检验与回归因子的偏决定系数的F检验等值),方法是:分别点击Excel工具→数据分析→回归分析→确定,填写回归对话框,Y值区域输入S|BS|1∶S|BS|10,X值区域输入S|CS|1∶S|GS|10,勾选“标志”,点选“输出区域”,点击B73,点击确定,即可得到更为详细的回归分析结果 (略)。

2 讨论

2.1 工艺优化水平的确定 对q个水平m*个独立回归因子的线性回归方程进行优化工艺水平的确定,既可采用qm*次单因素试验法,也可采用更为准确的qm*次全面试验法或“规划求解法”[3],也可以采用“极值法”{4}或根据方程的复杂程度灵活组合应用,如五元“最优”线性回归方程Y*=1.209 6+0.018 6A+0.095 2B-0.010 0C-0.003 0 AB+0.000 3AC,若求其极值较为不易,但在试验水平考察范围内有A↘Y*↗ (Y*对A的一阶偏导小于零)、C↘Y*↗ (Y*对C的一阶偏导小于零)和B↗Y*↗ (Y*对B的一阶偏导大于零)的单调性趋势[9],所以,Y*最大值所对应的优化水平可选定为A1B3C1,这也与一般中药的稳定性规律 (低温干燥有利于减少氧化、分解等反应对中药有效成分群所造成的损失)和苦参碱及氧化苦参碱的理化性质 (极性大,易水溶,易水解)相吻合。

多次单因素试验法是先固定 (m*-1)个独立因子的水平并与另一因子的各个水平进行q次全搭配预测,根据预测结果得出该因子的较优水平并固定,然后更换下一个独立因子重复上述全搭配预测,直至进行qm*次 (包括m*-1次重复)得出所有m*独立因子的较优水平搭配即为回归分析法的优选水平组合,但当回归方程在水平考察范围内存在拐点[9]时,不同水平的固定将会影响优选水平的准确性。

2.2 “最优”线性回归方程的筛选准则 “最优”线性回归方程的筛选准则通常有复决定系数R2、复相关系数R、回归F值等愈大愈好,子集m、残差平方和SSe、平均残差平方和 MESS(均方 MSe)、平均预测均分误差 MPESS、AIC准则、BIC准则等愈小愈好[7-8]。本文的筛选方法或步骤:①选择“最优”子集m,使m子集内的各个因子的显著性Pj值均小于0.05或0.10,②根据m“少而精”之原则,设定统计量Mpi=(n+m+1)×ΣPj/m,选择Mpi最小子集;③选择线性回归方程的显著性P值小于0.05的“最优”子集 (各因子显著性Pj值均小于0.05的“最优”子集,其对应的线性回归方程的显著性P值一般也小于0.05,反之,则可能性降低,需要进一步对各因子进行显著性检验加以确定)。

对于三独立因子 (m*=3)试验,其二次多项式回归因子 (一次项、二次项、交互项)共有 9项,若一次项A、B、C和交互项AB、AC、BC子集中未能在表3模型中筛选出“最优”子集,可以将二次项A2、B2、C2回归因子替换表3相关系数矩阵1中最小偏决定系数对应的回归因子或其他因子 (可以重复使用复制、粘贴、撤销键,表中公式无需修改)进行筛选。

回归因子m要求“少而精”,实则是要求“最优”线性回归方程内的自变量因子均为显著因子,而方程外的所有因子均为不显著因子,同时也可以认为是要求线性回归方程的残差自由度 (离回归自由度)尽可能的大 (dfe=n-m-1),目的是避免拟合的方程回归不错 (残差较小),预报不好 (验证试验结果误差较大),其解决的办法是增加观察值 (试验次数)以达到n≥2m或至少保证残差自由度(n-m-1)≥2。

2.3 正交试验数据处理方法的选择

正交试验的目的,①是考察各因子的水平差异对指标值影响的相对大小,②是筛选最优化试验条件。

极差分析计算最为简单,可达①之目的,但极差分析未及消除试验误差对指标值的影响,故其极差较大的主要因子未必是显著因子[10]。所以,欲达②和①之目的,经典的方差分析则较为准确,应为首选。

在进行正交试验的Ln(qm)正交表中,独立因子各占1列,交互因子各占 (q-1)d列 (一般仅考虑两两交互作用,其交互作用级数d=2-1),误差项也至少须占1列(空列),根据n(试验总次数或正交表行数)、q(因子水平数)和m(因子列数或正交表列数)三者存在n=qk或n=sq2(k=2,3,4,…,s=1,2,3,…)或n=m(q-1)+1的关系式[11]可知,m和q增加,n将呈番数或指数增长,结果是造成试验成本大大增加。所以,正交试验的方差分析也仅在因子间没有交互作用或交互作用可以忽略,或者独立因子数和水平数均较少时较为实用。

线性回归分析与方差分析都是研究数据的统计方法,线性回归法常用于均匀设计,方差分析法则常用于正交设计,但当正交设计的独立因子 (自变量,非随机变量)为连续性变量且与指标变量 (因变量,随机变量)存在显著线性关系时也可以采用线性回归分析法[12],其优点之一是正交表的m列可以排满独立因子而达包括交互因子优选水平在内的②和①之目的,二是根据正交试验信息量可以较为方便的构建线性回归模型,用于工艺过程预测和控制,并能指导超越正交试验原有水平的考察范围捕捉到更优化的工艺条件,如上述优选水平A1B3C1,均为“边界”水平组合,在进行验证试验时,可以根据实践经验同时考虑选择小于A1(如A0:浸泡10min)或C1(如C0:55℃真空干燥)或大于B3(如B4:软润24 h)的水平组合进行对照。经预测,A0B4C0苦参炮制工艺更优,回归预测值为2.570%,95%置信区间在2.542% ~2.599%,高于原优选水平A1B3C1的预测值2.026%(表3),这也是线性回归分析优于正交试验方差分析的一个结果体现。

[1]李云雁,胡传荣.试验设计与数据处理[M].北京:化学工业出版社,2005.

[2]胡誉满,谢晓鸣.利用回归分析对正交试验试验结果进行修正[J].工科数学,2000,16(4):32-34.

[3]俞钟行.质量工程师教材例2.3-1新解[J].质量春秋,2011(11):48-351.

[4]郭俊旺,刘晓峰,魏彩云.正交设计L9(34)的渐进优化线性回归方法[J].计算机与应用化学,2010,27(11):1503-1508.

[5]邓捷圆,胡 馨,张英华,等.正交设计法优选苦参炮制工艺的研究[J].中成药,2011,33(7):1206-1208.

[6]范步高.正交试验方差分析的Excel通用计算与应用[J].中国医药工业杂志,2011,42(10):793-795.

[7]李东风,郑忠国.最优线性回归的计算方法[J].数理统计与管理,2008,27(1):87-95.

[8]丘冠英.“最优”回归方程的选择准则和具体方法[J].宜春学院学报:自然科学,2003,25(6):26-27.

[9]王顺凤,夏大峰,朱凤琴,等.高等数学(上)[M].北京:清华大学出版社,2009.

[10]郝拉娣,张 娴,刘 琳.科技论文中正交试验结果分析方法的使用[J].编辑学报,2007,19(5):340-341.

[11]全国质量专业技术人员职业资格考试办公室.质量专业理论与实务(中级)[M].北京:中国人事出版社,2006.

[12]乔克林,吕 佳.方差分析与回归分析之比较[J].延安大学学报:自然科学版,2009,28(2):34-36.

猜你喜欢

苦参子集回归方程
Efficacy of Kushen decoction (苦参汤) on high-fat-diet-induced hyperlipidemia in rats
以苦参为主治疗心律失常的疗效观察
拓扑空间中紧致子集的性质研究
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
Carmichael猜想的一个标注
关于奇数阶二元子集的分离序列
走进回归分析,让回归方程不再是你高考的绊脚石
大剂苦参治不寐