如何正确运用χ2检验<br/>——三种双向无序二维列联表资料的χ2检验

如何正确运用χ2检验
——三种双向无序二维列联表资料的χ2检验

2021-05-14胡纯严胡良平

四川精神卫生 2021年2期

胡纯严，胡良平，2*

（1.军事科学院研究生院，北京 100850；2.世界中医药学会联合会临床科研统计学专业委员会，北京 100029*通信作者：胡良平，E-mail：lphu927@163.com）

在整理临床资料时，若结果变量为定性变量，为了使资料看起来简洁、直观、明了，人们常采取一种特定的表达形式，即“列联表”。若原因变量只有1个，就可以将其整理成“二维列联表资料”；若原因变量有2个，就可以将其整理成“三维列联表资料”；依此类推，若原因变量有k-1个时，就可以将其整理成“k维列联表资料”。一般来说，当k＞3时，人们很少采用列联表形式呈现资料，而借用表达结果变量为定量变量时的形式，其常被称为“数据库”格式，即每行代表一个个体的全部信息，而每列代表一个变量（包括一般变量、原因变量和结果变量）及其全部取值。本文着重介绍除四格表资料之外的其他三种双向无序二维列联表资料的形式、适于进行χ2检验的前提条件、基于SAS和R软件实现统计分析的方法。

1 三种双向无序二维列联表资料的实例

1.1 二维列联表资料

所谓“二维列联表资料”，就是将两个变量（通常都是定性的）分别放置在表格的“横向”与“纵向”（称为两个“维度”）上，设它们分别有“R”个与“C”个水平，它们的全部水平组合数就有“R×C”个，于是，就很自然地将表格（可将其视为一个“二维平面”）划分成“R×C”个“网格”，根据每个个体同时在两个变量上的取值情况，就可以将其归类到某一个“网格”之中，数出各“网格”内的个体数（称其为“频数”），此时的资料就被称为“二维列联表资料”。由此可知，“四格表资料”就是“二维列联表资料”的特例。

1.2 双向无序二维列联表资料的表达模式

设危险因素A有R个水平，结果变量B有C个不同取值，则双向无序二维列联表资料（常简称为R×C表资料）的表达模式见表1。

表1 双向无序R×C表资料的表达模式

在表 1中，当R=2、C＞2，就简称为“2×C表资料”；当R＞2、C=2，就简称为“R×2表资料”；所以，它们都是“R×C表资料”的特例。

1.3 实例

1.3.1 双向无序R×2表资料的实例

【例1】文献［1］中有一个双向无序R×2表资料，见表2。

表2 影响青少年焦虑症状的一个可疑因素的调查结果

1.3.2 双向无序2×C表资料的实例

【例2】文献［2］中有一个双向无序2×C表资料，见表3。

表3 患者与家属对疾病的主要知晓途径调查结果

1.3.3 双向无序R×C表资料的实例

【例3】文献［3］中有一个双向无序R×C表资料（说明：不考虑“时间”的有序性），见表4。

表4 基层精防医护人员K6评定结果

1.4 统计分析方法的选择

对于上述呈现的三种双向无序二维列联表资料而言，一般来说，其分析目的是相同的，即检验“两属性变量之间是否独立”。与此分析目的对应的统计分析方法为“χ2检验”（注意：选用此方法时，资料需满足特定的前提条件，见下文）和“Fisher’s精确检验”。

2 双向无序R×C表资料的独立性检验

2.1 检验方法概述

2.1.1 检验假设

H0：两属性变量之间互相独立；

H1：两属性变量之间存在关联性。

设置显著性水平为：α=0.05。

2.1.2 检验统计量

Pearson’sχ2检验［4］的检验统计量见下式：

在上式中，Oij、Tij分别代表第（i，j）网格上的观察频数与理论频数；基于概率论中条件概率的计算原理，理论频数Tij可按下式计算：

在式（1）中，为服从自由度为df=（R-1）（C-1）的χ2分布。

若基于式（1）进行计算，首先需要计算各网格上的“理论频数”，显然，利用手工计算是极不方便的。事实上，将式（2）代入式（1）后经过变形，可以推导出不依赖“理论频数”的计算公式，见式（3）：

2.1.3 前提条件

R×C表资料χ2检验的前提条件是理论频数不宜太小，如果太小则有可能产生偏性。关于理论频数小的“界限”说法不一，例如，Cochran将理论频数太小的界定为：有1/5的格子中理论频数小于5，或至少有一个格子中理论频数小于1；Roscoe和Byars认为：若当设定α=0.05时，平均理论频数［即N/（R×C）］小于6，属于理论频数太小；若当设定α=0.01时，平均理论频数小于10，属于理论频数太小［5］。

如果理论频数太小，可采取以下方法进行处理：①增大样本含量，以达到增大理论频数的目的，此属首选方法；②删除理论频数太小的格子所对应的行或列，但此方法会不可避免地损失信息及样本的随机性；③合并相邻的行或列，此法仅当行变量或列变量是有确定顺序的情形才可以。

【说明】当可选用χ2检验时，也可选用Fisher’s精确检验；一般来说，当列联表中理论频数小于5的格子数超过了总格子数的1/5时，应尽可能选用Fisher’s精确检验（因篇幅所限，此法的计算原理和公式从略）。

2.2 基于SAS软件实现计算

2.2.1 分析例1资料

【例4】沿用例1的资料，试检验两属性变量之间是否存在独立性。

【分析与解答】回答两属性变量之间是否存在独立性的统计分析方法可选用χ2检验，设所需要的SAS程序如下［6］：

【说明】若希望采用Fisher’s精确检验，需在前述的FREQ过程步中的“TABLES语句”之后增加一句，即“exact fisher；”。

【SAS输出结果及解释】

【专业结论】第一次了解此次疫情的途径不同，发生焦虑的比例是不同的，具体地说，发生焦虑比例从高到低依次为“杂志”＞“社交平台”＞“亲朋好友或老师”＞“社交软件”＞“网站”＞“电视”。值得一提的是：“杂志”所对应的样本含量为2，样本过小，抽样误差很大，应将该行数据删除重新计算。

2.2.2 分析例2资料

【例5】沿用例2的资料，试检验两属性变量之间是否存在独立性。

【分析与解答】回答两属性变量之间是否存在独立性的统计分析方法可选用χ2检验，设所需要的SAS程序如下：

【说明】因篇幅所限，用SAS软件分析例3数据从略，读者可借助前面的SAS程序自己去完成，但需要修改原始数据的“行数”与“列数”（位于SAS程序中两个“DO语句”）。

2.3 基于R软件实现计算

【例6】沿用例3的资料，试检验两属性变量之间是否存在独立性。

【分析与解答】回答两属性变量之间是否存在独立性的统计分析方法可选用χ2检验，设所需要的R程序如下［7-8］：

遗憾的是：R软件给出了“警告信息”，表明此资料不符合进行χ2检验的前提条件（具体地说，资料中小于5的理论频数的个数超过了总格子数的1/5），故χ2近似算法给出的结果可能不准确。

将上面R程序中的最后一行换成下面的语句，就可对此资料进行Fisher’s精确检验：

以上输出内容表明：经过2000次重复模拟计算，得到P=0.0004998，说明该列联表资料中两个属性变量之间不独立，结论同上，此处不再赘述。

3 讨论与小结

3.1 讨论

本文所介绍的三种双向无序列联表资料的检验假设是相同的，具体内容见“第2.1.1节”；当检验结果为拒绝“H0”、接受“H1”时，其统计结论也是相同的，即“表中两属性变量之间不独立”，更确切地表述为：“各行或各列上的频数分布规律是不同的”。在实践中，人们可能会提出更具体的要求，例如，究竟哪些行或列上的频数分布规律是不同的、哪些行或列上的频数分布规律是相同的？对这个问题的回答涉及两方面的内容，其一，列联表资料的多重比较问题［9］；其二，χ2值的非精确分割与精确分割问题［10-11］。因篇幅所限，此处从略。

若用SAS软件对本文中例3资料进行“Fisher’s精确检验”，计算的时间可能需要数个小时；但采用R软件进行计算（见本文例6），大约只需要2秒钟。之所以会产生如此大差距的根本原因是两种统计软件所采用的计算方法不同，前者是基于超几何分布原理推算出来的计算方法；而后者采用的是蒙特卡罗模拟计算方法。