中医证候分类研究常用方法与应用概述❋

2014-01-26张莹莹申春悌王永炎

中国中医基础医学杂志 2014年1期

李兵，王忠，张莹莹，申春悌，张雷，王永炎△

(1.中国中医科学院中医药信息研究所，北京 100700；2.中国中医科学院中医临床基础医学研究所，北京 100700；3.南京中医药大学常州附属医院，江苏常州 213003；4.国家食品药品监督管理局，北京 100045)

证候分类是中医证候研究中的重要方面，在中医临床诊断和治疗中具有指导性作用。证候分类也是中医临床个体化诊疗的体现，是中医临床疗效评价的基础。中医证候分类是在明确疾病诊断的基础上,收集所有中医证候表型信息,明确中医证候表型信息之间的关联,利用这些关联信息对疾病进行证候分类[1]。但中医证候是一个非线性、多维多阶的复杂巨系统[2]，用传统的线性方法进行证候分类研究很难得到一致性、规范性的结果，因此在证候分类研究中逐步引入数理统计学、信息科学、系统科学及现代医学等多种研究方法来处理具有多重共线性、非线性、模糊性和非正态分布的中医证候数据变量，从而进行疾病的证候分类。本文对目前证候分类常用研究方法的特点及其应用情况进行简要概述。

1 多元统计分析方法

1.1 聚类分析

聚类分析(Clustering Analysis)又称集群分析,是将随机现象归类的一种数理统计方法。聚类是指在不能明确如何分类的前提之下,试图借助数理统计的方法，用已收集到的资料找出研究对象的适当归类。按照分类的目的，可分为指标聚类和样品聚类。指标聚类又称R型聚类，可以将具有共线性关系的证候变量经聚类分析后归到一类,达到对证候降维的目的,消除共线性对进一步回归分析结果的影响。样品聚类又称为Q型聚类，按照样品间的相似程度将整体分成多个类,找同类人群间的共同规律。聚类的主要指标有相关系数和距离[3]。

聚类分析是中医证候分类研究中应用较多的方法。王阶等[4]收集25l例经冠状动脉造影证实的稳定型心绞痛患者的四诊信息，运用聚类分析方法进行证候分类和证候要素组合规律研究，将25个常见症状聚成4类，分别为心气亏虚、脾气虚弱、气阴两虚、痰瘀互阻证。曹洪欣等[5]对201例病毒性心肌炎临床病例进行聚类分析，得出病毒性心肌炎常见证型有邪毒侵心、大气下陷、痰阻心络、心脾两虚、气阴两虚、心血瘀阻、阴虚火旺及阴阳两虚证的结论。邹演梅等[6]收集符合纳入标准的冠心病心绞痛患者证候信息，并对其进行聚类分析。研究认为，冠心病心绞痛的证候聚类分为气虚血瘀证、痰浊内阻证、阴虚痰瘀证、气滞痰热证、寒凝血瘀证、气阴两虚证几类比较合理。邢雁伟等[7]对1069例冠心病心绞痛的69个症状进行聚类分析，将69个症状共聚成6类,经专家辨证为心肾阴阳俱虚、气虚血瘀、肝气郁结、脾气虚弱、痰瘀互阻和气虚证。张月等[8]记录350例肺癌患者的临床资料，并进行变量指标聚类分析，发现肺癌患者证候可分为痰浊阻肺、气虚、肝郁化火和瘀血阻络证4类。其他应用聚类分析方法进行证候分类的研究有很多，在此不一一赘述。

聚类分析方法的特点就是不要求预先分类，减少了预先分类的主观性对结果的不良影响。聚类分析的局限性包括结果具有不确定性，无法根据数据内部特点自主地确定分为几类；存在聚类的单分配问题，变量一旦被聚到某一类时就不能再被聚到其他类,而中医认为1个症状可以由许多病因引起,见于不同的证候；聚类结果的好坏没有评价的客观标准[9]。

1.2 主成分分析

主成分分析(principal component analysis)是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法[10]。主成分分析是通过对证候变量的相关性分析，导出彼此不相关的主成分，亦即主要证型，并使其尽可能多地保留证候的原始信息。

王万卷等[11]采用流行病学调查方法收集100例反流性食管炎患者的资料，运用主成分分析法得出反流性食管炎的主要症状、次要症状、舌和脉象等情况，将反流性食管炎证候归类为类肝胃不和证、类肝郁脾虚证、类脾虚气滞证3个证型。李先涛等[12]观察了106例急性缺血性中风气虚血瘀证患者,对其证候指标即舌、脉、症状进行了可靠性分析、主成分分析和聚类分析，对31个症状和体征进行主成分分析，得到22个变量以便进一步进行聚类分析。李宗信等[13]调查了237例慢性疲劳综合症患者的症状、体征等资料并进行主成分分析，分别提取气虚证和血虚证的主成分，结果表明提取的主成分能够基本准确地反映患者的实际证候。

主成分分析因其具有综合主要信息量而使信息损失最少的优点在应用于证候的相关症状中具有较大价值，由于其能够消除变量间的共线性，因此能够对证候起到降维作用，在实际应用过程中亦可以作为其他方法的中间手段，如在主成分分析后进一步进行聚类分析[14]。

1.3 因子分析

因子分析(factor analysis)是1种从分析多个原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量,并用这些潜在变量来解释原始指标之间的相关性或协方差关系的多元统计分析方法[10],与主成分分析法类似，也是寻求少数的几个变量(或因子)来综合反映全部变量(因子)的大部分信息,因此也可以用于消除证候的多元共线性，对证候进行降维。

王阶等[15]还运用因子分析方法对1069例冠心病心绞痛患者进行证候分类研究，共提取出6个公因子，经中医辨证后分别是气滞血瘀、气阴两虚、气虚血瘀、气虚痰浊、心肾阳虚、心脾两虚证，其中气虚血瘀证最多。申春悌等[16]采用因子分析法对1280例高血压病人进行中医证候分类研究，得出高血压病主要的中医证候可分为5类，主要的病位类证候要素为肝、脾、肾和心，病性类证候要素为内热、阳亢、阴虚、气虚和风、痰、湿。李毅等[17]对1036例消化性溃疡患者的临床资料进行因子分析，得出消化性溃疡基本中医证候为脾胃虚寒、肝胃气滞、瘀阻胃络、胃热炽盛、胃阴亏虚证5类。

因子分析和主成分分析之间具有相通之处，但二者分析的重点不同，主成分分析重点在综合原始变量的信息,而公因子分析则重在解释原始变量之间的关系。作为一种非线性的多元分析方法，因子分析建立在数据的正态假设基础上，因此应用因子分析进行证候研究时应注意样本量不能太小，而且各变量之间要有相关性。同时，为保证结果的真实性和稳定性，可以以多中心、大样本的前瞻性证候调查为基础，必要时可以做重复性检验[14]。

1.4 判别分析和Logistic回归分析

判别分析(Discriminant Analysis)是根据判别对象若干个指标的观测结果判定其应属于哪一类统计学方法，其特点是根据已掌握的每个类别的若干样本数据，总结出客观事物分类的规律性，建立判别公式和判别准则。Logistic回归分析(Logistic Regression)属于概率型非线性回归,它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法[10]。两者都可以在证候研究中判别症状、舌、脉等变量属于哪种证候或证型，达到筛选和确定证候相关症状的目的。Logistic回归实际上属于判别分析，其判别效果一般不如判别分析，多用于因素分析[18]。

郭娇等[19]调查并收集符合纳入标准的高血压病患者的四诊信息，用逐步Logistic回归分析和判别分析方法对临床上常见的高血压病中医证型及各证型下的四诊信息进行分析，得出高血压病的中医证型主要为痰瘀阻络、气虚痰瘀、气阴两虚、肝阳上亢、肝肾阴虚型,这5类证型占所有病例的69.0%。陈泽奇等[20]运用因子分析、多类逐步判别分析法得出1973例抑郁症患者中肝郁气滞、肝郁脾虚、肝郁痰阻、心脾两虚和肝肾阴虚证共1731例，并建立抑郁症常见5类中医证候的主症辨证标准。杜彩凤等[21]运用二分类Logistic回归分析方法对780例绝经后期更年期综合征门诊患者进行常见证候要素和症状之间的相关性研究，结果表明其病位类证候要素为肾、肝、脾、心，病性类证候要素为气滞、热/火、血瘀、湿、阴虚、气虚、阳虚、虚。

判别分析多建立在“历史经验”，也就是对证候的先验判别之上，因此其判别结果亦夹杂着主观和经验的成分，在应用中最好要大样本,要预留足够的验证样品以考察判别函数的判别能力，同时可在判别应用中不断积累新的资料,不断进行修正并逐步完善[10]。Logistic回归分析方法充分考虑每个变量和诊断树每一枝杈对证的贡献度,符合专家临床逻辑思维过程,而且接近临床实际，但模型本身有一定的不合理性，不适用于线性资料，同样需要大样本支持[18]。

2 数据挖掘方法

2.1 支持向量机

支持向量机(Support vector machine,SVM)是基于统计学习理论、针对小样本学习问题的一个理论框架[22]。SVM建立在统计学习理论的VC维理论和结构风险最小原理基础上，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中，以期获得最好的推广能力，在解决小样本、非线性及高维模式识别中表现出许多特有的优势。

王阶等[23]运用支持向量机方法对115例冠心病典型医案进行了证候要素诊断及相关研究，提取到名医诊治冠心病血瘀、痰浊、气虚、阳虚、阴虚、内热、血虚、气滞8个主要证候要素，并确定了其定量诊断，阐释了证候要素应证组合规律。许朝霞等[24]采集2218例心血管疾病的病例信息，运用支持向量机和人工神经网络方法对心血管疾病的中医临床信息和证候类别之间的关系进行分析,结果认为支持向量机和人工神经网络能为心血管疾病的临床中医证候识别提供一定的客观依据。杨小波等[25]用带有先验知识的支持向量机(P-SVM)的数据挖掘算法对证候数据训练样本进行分类,计算其分类置信度，实验表明P-SVM算法能把先验知识与训练样本中的信息量很好地结合起来,是对中医证候信息进行正确分类的有效算法。

支持向量机的优势在于其计算复杂性与数据的维数不成正比,只与样本的数量有关。SVM对数据库中模式分类的准确率一般要高于神经网络，但对于维数非常大的数据需要很大的计算量,也许使用充足的基函数数据是可分的,但可能出现过分拟合[26]。

2.2 贝叶斯网络

贝叶斯网络(Bayes Network)是一种概率网络，它是基于概率推理的图形化网络，表示事件之间复杂的因果或概率关系,是对不确定知识表达和推理领域有效的理论模型之一。高思华等[27]以2501例2型糖尿病的临床数据为基础，运用贝叶斯网络的方法，分析2型糖尿病82个变量的网络关系，得出2型糖尿病合并症、中医证候和血糖指标间的关系，并得出主要症状对并发症的预测性。吴荣等[28]收集115例名老中医诊疗冠心病心绞痛的信息，运用贝叶斯网络提取证候要素和相关症状，以条件概率的形式表示症状的贡献度，将名老中医辨证经验转化成定量表示的知识，得出气虚痰浊血瘀、阳虚血瘀、气阴两虚血瘀、阳虚血瘀痰阻、血瘀痰阻和气虚血瘀是冠心病的常见证候。唐启盛等[29]观察611例抑郁症患者的横断面证候，通过贝叶斯网络方法分析抑郁症中医证候的分型，并拟定出6个证型，分别为肾虚肝郁、肝郁脾虚、心肾不交、心脾两虚、肝胆湿热和心胆气虚证，认为基于贝叶斯网络研究的中医证候分型具有一定的客观性和科学性，同样贝叶斯网络也存在一定局限，如频率低，但诊断意义不小的症状、证候要素、证名可能不被纳入计算，对症状等变量的描述只有是与否2种状态,不能反映轻、中、重的程度，症状对证候的否定作用无法表达[30]。

2.3 无尺度网络

无尺度网络(Scale-Free Network)是基于关联规则的1种数理分析模型与方法,是构成复杂系统各元素间关系的一种表达形式。对于组成复杂系统的多个元素,其内在可以因某一种潜在关系而相互连接并形成结点。大部分结点间只有少数几个连接,而某些结点却拥有与其他结点的大量连接。这些具有大量连接的结点称为“集散结点”，具有大量连接的集散结点所组成的功能团,可以反映其整体、共性的部分或全部特征。根据这一原理，我们可以将无尺度网络用于证候分类及病证方药间关系的研究。倪青等[31]运用无尺度网络等数据挖掘方法探讨265例2型糖尿病合并代谢综合征人群的中医证候特征及分类，得出气虚、阴虚是2型糖尿病合并代谢综合征的基本证候及早、中、晚期证候特征和兼夹证情况。石洁等[32]对333例高血压病例运用无尺度网络等数据挖掘方法探讨高血压病中医证候特征及分类，得出高血压病以气虚、血瘀证最多见，且二者经常同时存在。

3 其他方法

3.1 信息熵法

信息熵(Information Entropy)是信息论中对不确定性的1种度量。熵方法是一种无监督的数据处理途径,其优点在于对变量的分布类型没有任何特殊要求,克服了聚类分析的单分配问题,以及可以用于非线性数据的分析等[33]。在证候研究领域,可以揭示众多症状间以及症状与证候间的复杂关系,从中发现证候的主要症状和次要症状并定量确定其诊断价值。王阶等[34]用复杂系统熵聚堆的方法从1069例冠心病心绞痛患者的症状中提取常见的症状组合形式有9种,推测气虚、血瘀和痰浊是冠心病心绞痛的核心病机。王天芳等[35]运用信息熵关联度系数法对临床采集的601例慢性肾功能衰竭患者的108个症状数据进行分析，经对获得的症状组合进行诠释,发现存在心气虚、脾气虚、脾胃气虚、肾阳虚、气阴两虚、肝气郁结等常见中医证候类型,认为通过运用信息熵关联度系数分析方法可为提取该病的常见证候及证候要素的研究提供依据。

3.2 隐结构模型

隐结构法(Latent Structure Models)的基本思想是运用隐结构模型对大样本的临床流行病学调查获取的、未经过医生事先辨证的症状数据,按照统计学原则进行分析并获得统计学隐结构模型，其数据分析工具是隐树模型，讲述的是可以通过望闻问切而直接观察到的症状等显变量和无法直接观察的证候等隐变量之间的关系，隐变量与隐变量之间以及隐变量与显变量之间的关系构成了1个隐结构[36]。许朝霞等[37]采集3021例心血管疾病的临床病例并建立问诊数据库，基于隐结构分析建立隐结构模型,分析心血管疾病的临床中医问诊证候分类特征，结果心血管疾病中医问诊证候以心气虚、心阳虚、气阴两虚、痰湿、血瘀、气滞等证为主，认为隐结构分析方法能为中医证候的分类提供定性、定量依据。杜彩凤、徐雯洁等[38，39]分别通过多中心、大样本的临床流行病学调查，按照隐结构法的基本原则进行分析，构建隐结构模型，提取更年期综合征及慢性阻塞性肺疾病的常见证候要素，认为隐结构法的模型构建与中医理论有相似之处,且比有监督的数据分析有更好的客观性。

3.3 问卷调查法

在早期的证候研究中,中医证候研究很多是通过专家问卷调查的方法,直接根据专家经验进行评估,从而得到某一相关因素对相应证候的贡献度,确定相关因素不同的分值，通过专家辨证确定疾病的相关证候分型，经结果反馈后进行论证修改。经过专家调查形成的证候分类，能够较好地符合临床实际，但结果具有经验型和主观性，证候的分型不易形成统一。专家调查法以及临床流行病学调查是获取临床资料的重要手段，也是其他证候研究方法的数据来源和获取方法之一。

以上可以看出，中医证候分类研究所使用的方法较多，面对具有非线性、模糊性、多维性的复杂中医证候数据，引入数据挖掘、数理统计学、数学和系统科学等多种现代方法，无疑会促进中医证候的相关研究，各种方法又有其自身的“适应症”，更适合处理某一类型数据。同时，各种方法自身又具有各自的优点和局限，如数据挖掘具有可以处理模糊性和非线性数据的特点，但有些算法仍在探索之中，其结果有时不易得到临床的普遍认可与采纳。针对具有模糊性、隐匿性、多维多阶的复杂的中医证候数据，应根据研究目的综合考虑各种方法的优缺点和各自的技术优势，取长补短、联合使用，发挥其在中医证候研究中的作用。

[1] 吕爱平,姜淼,丁晓蓉.基于疾病中医证候分类的中医临床疗效评价研究思路[J].中医杂志,2009,50(11):968-969.

[2] 王永炎.完善中医辨证方法体系的建议[J].中医杂志,2004,45(10):729-731.

[3] 查青林,林色奇,吕爱平,等.多元统计分析在中医证候研究中的应用探析[J].江西中医学院学报,2004,16(6):79-80.

[4] 王阶,何庆勇.基于聚类分析和对应分析的稳定型心绞痛证候要素组合规律的研究[J].中西医结合学报,2008,6(7):690-694.

[5] 曹洪欣,刘寨华,张华敏,等.基于聚类分析的病毒性心肌炎证候分类及证候特征研究[J].中医杂志,2007,48(7):629-632.

[6] 邹演梅,张天奉.基于特征加权的冠心病心绞痛证候聚类研究[J].辽宁中医学院学报,2011(4):149-151.

[7] 邢雁伟,王阶,衷敬柏,等.采用聚类分析和对应相关方法研究1069例冠心病心绞痛证候应证组合规律[J].中华中医药杂志,2007,22(11):747-750.

[8] 张月,张培彤,赵冰,等.基于聚类分析的肺癌中医证候分类及诊断的研究[J].北京中医药大学学报,2009,32(2):132-135.

[9] 张连文,周雪忠,陈瞍,等．论证候研究中变量聚类结果的诠释[J].中国中医药信息杂志，2007,14(7)：102-103．

[10] 孙振球,徐勇勇.医学统计学[M].北京:人民卫生出版社,2002:26.

[11] 王万卷,丁霞,文智英,等.反流性食管炎的中医证候分类研究[J]. 中华中医药杂志，2011，26(7)：1515-1518.

[12] 李先涛,赖世隆,梁伟雄，等.建立急性缺血性中风气虚血瘀证诊断标准的方法学探讨[J].广州中医药大学学报,2000,17(3):218-221.

[13] 李宗信,黄小波,陈文强，等.慢性疲劳综合征中医证候主成分的相关分析[J].中国中医药信息杂志,2007,14(1):26-27.

[14] 王雪华,夏春明,颜建军，等.中医证候分类中常用多元统计分析方法及应用评析[J].世界科学技术·中医药现代化,2008,10(3):15-20.

[15] 王阶,邢雁伟,陈建新，等.1069例冠心病心绞痛证候因子分析方法的分类研究[J].北京中医药大学学报,2008,31(5):344-346.

[16] 申春悌,陆岩,陈炳为，等.高血压病中医证候要素提取和命名的方法学研究[J].南京中医药大学学报,2010,26(5):335-338.

[17] 李毅,张小萍.消化性溃疡中医证候的因子分析[J].时珍国医国药,2010,21(12):3379-3380.

[18] 孙尚拱.医学多变量统计与统计软件[M].北京：北京医科大学出版社，2000.

[19] 郭娇.高血压病中医证候流行病学特征及证候统计模型研究[D].广州：广州中医药大学,2009.

[20] 陈泽奇,胡随瑜,张海男,等.抑郁症常见中医证候标准的研究[J].中医杂志,2005,46(01):47-49.

[21] 杜彩凤,王天芳,辛意，等.绝经后期更年期综合征常见证候要素的Logistic回归分析[J].北京中医药大学学报,2009,32(4):238-243.

[22] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32.

[23] 王阶,吴荣,周雪忠，等.基于支持向量机的名老中医治疗冠心病证候要素研究[J].北京中医药大学学报,2008,31(8):540-543,560.

[24] 许朝霞,王忆勤,颜建军，等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011,34(8):539-543.

[25] 杨小波,梁兆晖,罗云坚，等.支持向量机算法在中医证候信息分类中的应用[J].世界科学技术-中医药现代化,2007,9(1):28-31.

[26] 龚燕冰,倪青,王永炎.中医证候研究的现代方法学述评(一)中医证候数据挖掘技术[J].北京中医药大学学报,2006,29(12):797-801.

[27] 龚燕冰,倪青,高思华，等.2型糖尿病不同并发症中医证候与血糖相关性的贝叶斯网络分析[J].北京中医药大学学报,2009,32(12):815-818.

[28] 吴荣,聂晓燕,王阶，等.基于贝叶斯网络的名老中医治疗冠心病辨证规律研究[J].中国中医药信息杂志,2010,17(5):98-99.

[29] 唐启盛,曲淼,包祖晓，等.抑郁症中医证候的贝叶斯网络研究[J].中医杂志,2008,49(11):1013-1015.

[30] 朱文锋,晏峻峰,黄碧群.贝叶斯网络在中医证素辨证体系中的应用[J].中西医结合学报,2006,4(6):567-571.

[31] 倪青,陈世波,周雪忠，等.基于无尺度网络分析的2型糖尿病代谢综合征方-药-证关系[J].中国中医药信息杂志,2006,13(11):19-22.

[32] 石洁,胡元会,周雪忠，等.高血压病中医方-药-证关系的无尺度网络分析[C]．第一届全国中西医结合心血管病中青年医师论坛论文集，2008:287-290.

[33] 李志更,王天芳,任婕,等.中医科研中几种常用数据挖掘方法浅析[J].中医药学报,2008,36(2):29-32.

[34] 王阶,邢雁伟,陈建新,等.复杂系统熵聚堆方法对1069例冠心病心绞痛证候要素提取和应证组合规律研究[J].中国中医基础医学杂志,2008,138(03):211-213.

[35] 王天芳,李志更,吴秀艳，等.基于信息熵关联度系数法的慢性肾功能衰竭中医症状组合的探索[J].北京中医药大学学报,2010,33(7):493-495,499.

[36] 张连文,袁世宏.隐结构模型与中医辨证研究(I)-基本思想以及隐结构分析工具[J].北京中医药大学学报,2006,29(6):365-369.

[37] 许朝霞,刘腾飞,王忆勤，等.基于隐结构模型分析的心血管疾病中医问诊证候分类研究[J].中国中医药信息杂志,2012,19(3):9-13.

[38] 杜彩凤,王天芳,辛意，等.基于隐结构法的更年期综合征常见证候要素的研究[J].北京中医药大学学报,2010,33(12):856-860.

[39] 徐雯洁,王天芳,王智瑜，等.基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究[J].北京中医药大学学报,2011,34(2):82-86.

猜你喜欢

脉血康胶囊联合雌孕激素治疗血瘀型原因不明的月经过少

气虚发热病机探析

气虚痰湿型晚期肺癌治验

中西医结合治疗气虚血瘀型冠心病慢性心衰46例

中风防治灵Ⅰ号治疗气虚血瘀型脑梗死66例

中国中医基础医学杂志

2014年1期