如何正确运用方差分析<br/>——多个均值之间的多重比较

如何正确运用方差分析
——多个均值之间的多重比较

2022-03-02胡纯严胡良平

四川精神卫生 2022年1期

胡纯严，胡良平，2*

（1.军事科学院研究生院，北京 100850；2.世界中医药学会联合会临床科研统计学专业委员会，北京 100029

基于均值比较的方差分析的结果是对定量资料中每个试验因素各水平下均值之间是否存在差异的一个概括性结论，若某因素各水平下均值之间的差异无统计学意义，就不需要对该因素各水平下均值做进一步比较了；反之，则需要进行多重比较。本文针对多重比较问题进行探讨，阐释各种多重比较方法之间的异同点以及使用时的指导思想和参考建议。

1 多重比较

1.1 概述

当比较两个以上的平均值时，方差分析（或称F检验）会反映这些平均值之间的差异是否有统计学意义，但它不会反映哪些平均值与其他平均值不同。多重比较的目的是比较三种及以上“处理”（例如不同药物、不同受试者）的平均效应，以确定哪些处理更好、哪些更差，以及比较处理程度，同时控制做出错误决定的概率。SAS/STAT的GLM过程中的MEANS和LSMEANS语句提供多种多重比较的方法[1]。

多重比较过程可以通过两种方式进行分类：根据它们所做的比较和它们所提供的推理强度。根据所做的比较，GLM过程提供了两种类型[1-2]：①所有平均值对之间的比较；②对照与其他所有方法之间的比较。推理的强度表示当一个检验有统计学意义时，可推断出的关于平均值结构的内容；它与多重比较过程控制的错误率类型有关。GLM过程中可用的多重比较过程按从弱到强的顺序提供以下推理类型之一：①单次比较，均值之间的差异，未针对多次比较进行调整；②不均匀性，表示均值彼此不同；③不等，哪些均值之间是不同的；④区间，展示均值差异的联合置信区间。

在PROC GLM过程中，用两张表给出了可用于所有成对比较、所有处理组与对照组比较的多重比较过程，以及MEANS和LSMEANS语句中关于各种多重比较方法的选项[1]。因篇幅所限，此处从略。

1.2 成对比较

1.3 所有处理组与一个对照组比较

平均值比较的一种特殊情况是，需要检验的唯一比较是一组新处理和一个单一对照之间的比较[3]。在这种情况下，可以通过使用仅限于检验与单个控制平均值比较的方法来获得更好的功效。Dunnett针对这种情况提出了一种检验，如果下式成立，该检验表明所考察的平均值与对照组平均值之间的差异有统计学意义：

1.4 将每个处理组均值与全部组平均值进行比较

平均值分析（ANOM）是一种比较组平均值并以图形方式显示比较结果的方法[1]。如果某组的均值与总体平均值差异有统计学意义，则判断均值不同，并根据多次比较调整显著性水平。总平均值作为LSMEANS的加权平均值计算，权重与方差成反比。如果在LSMEANS语句中使用PDIFF=ANOM选项，则该方法将显示用于检验每个LSMEANS和平均LSMEANS之间差异的P值（默认情况下，针对多次比较进行了调整）。SAS/QC软件中的ANOM过程显示表格和图形，用于分析各种响应类型的平均值。对于单因素设计，PDIFF=ANOM比较的置信区间等同于PROC ANOVA的结果。不同之处在于，PROC GLM直接显示差异的置信区间，而PROC ANOVA的图形输出将其显示为总体平均值周围的决策界限。

1.5 近似和基于模拟的方法

Tukey、Dunnett和Nelson的检验都基于相同的一般分位数计算[1]：

在式（10）中，ti（i=1，2，…，n）服从自由度为v、相关系数矩阵为R的联合多元t分布。一般来说，评估qt（1－α，v，R）需要对（n+1）重积分进行重复的数值计算，这通常是很难解决的。但在Tukey检验中，当R具有一定的对称性时，问题会简化为可行的2重积分，在Dunnett和Nelson检验中，则会简化为因子分析结构。在以下两种情况下，R矩阵具有精确计算Tukey检验所需的对称性：①ti是具有相同方差的k个不相关均值形成的k（k－1）/2对均值之间的学生化差量；②ti是方差平衡设计（例如平衡不完全区组设计）中k个LSMEANS形成的k（k－1）/2对均值之间的学生化差量。

1.6 多阶段检验

可以使用到目前为止讨论的所有方法来获得同时的置信区间。通过牺牲同步估计功能，使用多阶段检验（MST）获得更大功效的同步检验[4-5]。MST有上升和下降两种类型。SAS/STAT软件中提供了使用更广泛的下降方法[1]。逐步下降MST首先在一个水平γk上检验所有平均值的均匀性。如果检验结果为拒绝，则k－1个平均值的每个子集都在一个水平γk－1进行检验；否则，程序将停止。一般来说，如果一组p个均值的同质性假设在该水平γp上被拒绝，则在该水平γk－1上检验p－1个均值的每个子集；否则，p个均值集被认为差异无统计学意义，且其子集均不进行检验。已提出的多种MST在子集检验所依据的水平γp和统计量上有所不同。显然，下降MST的EERC不大于γk，CER不大于γ2，但MEER是γp（p=2，…，k）的一个复杂函数。

对于不相等的单元格大小，PROC GLM使用单元格大小的调和平均值作为公共样本大小。然而，由于产生的运行特性可能不理想，建议仅在平衡情况下使用MST。当样本大小相等时，使用极差统计量可以按升序或降序排列均值，并仅检验连续子集。但如果指定F统计量，则无法使用此快捷方式。因此，仅实施基于极差的MST。通常情况下，报告MST结果的方法是按这样的顺序书写平均值，并绘制平行于齐次子集平均值列表的线。这种表示形式也便于在单元格大小相同的情况下进行成对比较。

最著名的MST是Duncan（Duncan选项）和Stu‐dent-Newman-Keuls（SNK选项）方法。 Duncan的方法见式（11），SNK方法见式（12）。

统计学家还提出了一些其他“多阶段检验”方法，因篇幅所限，此处从略。

1.7 贝叶斯方法

2 实例与SAS实现

2.1 问题与数据结构

【例1】为了研究某种降血脂新药的临床疗效，按统一纳入标准选择120例高血脂患者，采用完全随机设计方法将患者等分为四组（A组：安慰剂组；B组：2.4 g组；C组：4.8 g组；D组：7.2 g组），每组30例，进行双盲法试验。6周后检测患者低密度脂蛋白含量（单位：mmol/L）作为定量试验结果，具体数据见后面的SAS程序（此处从略）[4]。问四个药物组患者的低密度脂蛋白含量总体均值之间的差异是否有统计学意义？

2.2 分析与解答

【分析与解答】本例属于单因素四水平设计一元定量资料，可采用相应设计定量资料的方差分析；若四组均值之间的差异有统计学意义，还需要对四个均值进行多重比较。设所需要的SAS程序如下：

【SAS程序说明】第1个过程步的作用是进行四组间两两比较；第2个过程步的作用是以“A组”为对照组，其他组都与A组比较。

【SAS输出结果及解释】

以上结果表明：四个均值之间的差异有统计学意义。

基于SNK法的分析结果见图1。

图1 基于SNK法的分析结果

由图1可看出，仅B组与C组均值之间差异无统计学意义，其他任何两组均值之间的差异均有统计学意义。WALLER法的分析结果与图1的结果相同，此处从略。

【说明】以上比较的显著性水平α=0.05。B、C、D组与A组均值比较的结果，差异均有统计学意义。

【专业结论】降血脂新药的三个剂量均能降低高血脂患者低密度脂蛋白含量；7.2 g剂量效果最好，2.4 g剂量与4.8 g剂量之间的差异不明显。

3 讨论与小结

3.1 讨论

多重比较是方差分析之后不可缺少的内容。然而，由于多重比较的方法非常多，特别是各方法控制的误差类型不同，导致结果的推论强度不同[1]。使用者在选择这些多重比较方法时，可参考SAS软件所给出的建议：如果对几个孤立的比较感兴趣，并且不关心多重推断的影响，可以重复使用t检验[7-8]或Fisher无保护LSD法；如果对所有成对比较或与对照组的所有比较感兴趣，则应分别使用Tukey检验和Dunnett检验，以便做出可能最强的推断；如果对推理要求较弱，特别是如果不需要均值差异的置信区间，则应使用REGWQ法。如果同意贝叶斯方法以及Waller和Duncan的假设，应该使用Waller-Duncan检验。

当各水平组样本含量不相等时，多次比较也会导致违反直觉的结果。例如，考虑A、B、C、D四个因素，以A>B>C>D为样本均值，A和D各有两个观测值，B和C各有10 000个观测值，B和C的差异可能有统计学意义，而A和D之间的差异则可能没有统计学意义。