感官评价小组及成员排序能力评估的一般导则

2014-01-21史波林汪厚银支瑞聪苏玉芳张璐璐

食品科学 2014年17期

史波林，赵镭,*，奂畅，汪厚银，支瑞聪，苏玉芳，解楠，李志，张璐璐

史波林1，赵镭1,*，奂畅2，汪厚银1，支瑞聪1，苏玉芳3，解楠1，李志1，张璐璐1

（1.中国标准化研究院食品与农业标准化研究所，北京 100191；2.上海大学计算机工程与科学学院，上海 200444；3.内蒙古伊利实业集团股份有限公司技术中心，内蒙古呼和浩特 010110)

针对感官评价小组及成员排序能力的评估，提出重复性、再现性与一致性的评估指标。分析了排序实验样品种类、样品间差异程度及样品个数对感官分析仪器性能评估的重要性。确定了以样品间的排列秩次作为能力评估统计的基础数据形式。排序能力评估中，对于无理论顺序样品，通过剔除重复性与再现性异常评价员结果后，采用Friedman检验结合最小显著性差（least significant difference，LSD）确定实验样品的最优估计顺序。文章重点分析用于双变量的Spearman秩相关及用于多变量的Kendall和谐系数，在评价小组及评价员的重复性、再现性与一致性等性能评估中的具体技术应用方法与理论分析。为感官评价小组及成员排序能力评估提出了良好操作示范，也为不同感官实验室评价小组间比对提供了理论基础。既有利于评价小组及成员的长期监测，也有利于感官分析实验室的良好管理能力。

感官分析；排序法；评价小组及评价员；能力评估

感官分析是一门测量技术，其评价活动可分成有无差别、差别程度与差别方向这3个层次，分别对应差别检验、标度与类别、描述性分析这3 类客观性感官分析测量方法[1]。测量中按其精度从低到高可分为定类、定序、定距和定比测量这4 个层次，分别对应感官分析中的名义标度、顺序标度、等距标度、等比标度[2-3]。

排序法属于标度和类别检验方法，为检验时给评价员同时提供3 个或以上样品，要求评价员将样品按某种感官特性的强弱或对样品整体印象的好坏进行排列的分类方法[4]。可用于确定不同原料、加工、处理、包装和贮藏等条件对产品一个或多个感官指标强度水平的影响，或进行精细感官分析（如描述性分析）前的预筛，也可用于筛选、培训评价员。排序法体现为感官分析中的顺序标度，是典型的定序测量。排序法是以名义标度为代表的差别检验与以等距或等比标度为代表的描述性分析的桥梁。也就是，若评价员或评价小组对样品间差异感觉不出其强度顺序，则他们只适合进行差别检验活动；而对于排序能力好的评价小组及成员就有可能通过进一步培训而成为描述性分析小组。因此，排序能力的好坏对感官评价小组的能力提高与发展起到举足轻重的作用，其感官评价小组及成员排序能力的评估技术方法意义非凡。而国内外有关此方面研究的文献报道只出现于2003年，为McEwan等[5]专门研究了感官排序检测的实验室比对，是目前唯一系统介绍评价小组排序性能比对的研究；该研究重点形成了这类能力比对的技术流程与每个环节的判别标准，但只是排序表现评估中的能力比对方面。

对于优秀的评价员和评价小组来讲，排序同一系列样品的多次结果间理应具有很好的重复性、再现性和一致性，有时甚至随着能力的提高，其排序结果逐渐接近实际理论顺序。由此，感官评价小组及成员排序能力评估重点是分析排序检验结果的重复性、再现性与一致性问题[6]。重复性为评价小组或评价员对同一系列样品在不同时间中多次排序结果之间的一致程度。再现性为同一评价小组内部不同评价员之间或不同评价小组之间对同一系列样品排序结果之间的一致程度。一致性为同一系列样品，评价小组或评价员每次排序结果与理论顺序或最优估计顺序之间的一致程度。对于评价小组及其成员的感官排序能力评估，需要借助系列参比样品、通过排序实验设计，采用合适的统计分析方法才能获得针对重复性、再现性和一致性的评估，这些同样也构成了感官评价小组及成员排序能力评估技术的理论体系。

1 排序能力评估技术中样品因素的影响分析

感官评价是“被试样品”与“评价小组（评价员）”博弈的体现，它既可以通过合格的评价小组来分析样品感官品质，也可以通过已知的样品性能来考察评价小组及其成员的能力[7]。被试样品间的差异性难度把握对于评价员及评价小组的表现评估至关重要。若样品难度过低，所有评价小组及成员的每次评价结果一致并正确，但未真正达到性能考察的作用；若样品难度过大，几乎所有评价小组及成员的每次评价结果一致却不正确，也同样失去性能评估的意义。

排序能力面对的样品是系列样品，对于样品的选择需要考虑3 个问题：1）选择什么种类的样品用于排序能力的表现评估；2）系列样品中两两之间的多少差异程度比较合适；3）采用多少个系列样品用于评估测试效率较高。

对于第1个样品选择问题，也就是对于样品种类来讲，在通用实验室可以采用基本味、嗅、视等样品；在具体产品的生产公司可采用本公司的实际产品或相应的模拟体系物质。

对于第2个样品难度问题，每次评估的结果都一样（要么每次都排对，要么每次都排的很乱），也就没有评估的意义，则对于各基本感觉都有个门槛值。至少是优选评价员所用排序样品的浓度GB/T 16291.1—2012《感官分析选拔、培训与管理评价员一般导则第1部分：优选评价员》[8]，并结合排序法Spearman系数临界值确定的数学依据，来设计样品浓度难度。结合评价小组成员的实际敏感度，建议相邻样品间的差异在差别阈值的1～1.5 倍之间选择。

对于第3个样品个数问题，需要分析对4、5、6、7 个样品分别排序的难度，以及Spearman系数临界值确定背后的数学依据，这个难度的把握类似于理化检测中误差限的确定，误差限范围越小难度就越大，反之难度降低。一般建议评估用样品数为5或6 个。

2 评估技术统计原理及感官数据表现形式

排序检验的结果是每个评价员对样品的排列秩序，其中每个样品都有各自的序位，即秩；样品间差异只代表强度的前后顺序，而不能代表差异大小。这类定序数据内部不可以加减乘除处理，而序列之间数据只可以加减处理，但不可以进行乘除运算，由此可以计算同一样品多次排序的秩和[9]。

排序能力评估就是考察定序数据间的一致性，也就是排序结果之间的离散性或相关性，即秩相关或等级相关（rank correlation）。它是用双变量或多变量等级/排序数据作相关分析，即是一种先将x、y或多变量分别按由小到大的次序编上排序，或者变量本身就是排序资料，然后分析两变量或多变量排序间是否相关的一种非参数相关分析法[10]。此法适用于以下特征的数据：1）不服从正态分布，因而不宜作一般直线相关分析；2）总体分布性未知；3）用等级表示的原始数据。

秩相关程度的大小及性质用秩相关系数表示，取值为-1～+1。常用的秩相关分析方法有Spearman秩相关和Kendall秩相关。Spearman秩相关用于两个变量的情形，Kendall和谐系数（Kendall一致性系数）用于多个变量的情形。

3 排序检验样品最优估计顺序确定

在评价小组及评价员排序能力评估时，需要在已知样品排序前提下，通过样品来考察感官分析“仪器”的好坏。一般自制的模拟样品，都有已知顺序。但在真实样品测试中，往往很难直接知道样品某属性或整体感官品质的排列，如系列酸奶样品的酸度、系列烟叶样品的油分等。它们的最优估计排序需要通过某评价小组或多个评价小组来确定。当进行感官分析实验室间比对时，需要多个评价小组来确定；而对于特定实验室评价小组及其成员的维护，就只需该小组来确定最优估计顺序。

3.1 通过单个评价小组确定最优估计排序

3.1.1 评价员异常排序结果分析与剔除

确定系列样品的最优估计顺序一般需要评价小组的多次重复，对于每位评价员个体也同样经历了多次重复排序实验。在此基础上剔除评价员个体自身重复性比较差的排序结果，接着剔除评价小组单次排序中小组内部再现性较差的评价员排序结果，然后就可以根据剩下的多次重复排序结果计算最优估计排序。

3.1.1.1 重复性异常评价员排序剔除

肯德尔（Kendall）和谐系数是分析两个以上顺序变量之间的相关性（一致性或等效性）问题，即可用于评价员的重复性判别[11]。按照公式（1）计算Kendall和谐系数。

式中：rw为Kendall和谐系数；K表示重复次数；n表示被试样品个数；Ri表示K个评价次数在第i个样品上所排秩次之和。

对于评价员个体，若多次排序结果间的重复性良好，也就是每次排序结果稳定、等效，无某次排序异常现象。若多次排序结果间的重复性不好，也就是每次排序结果无稳定、较离散，必然有一些排序结果比较偏离整体，也就有异常排序结果的现象出现。通过舍一法（舍去任意一次排序结果j），计算对应剩余排序之间的重复性r’wj，并与所有重复排序后的rw进行比较。若舍去的排序结果与整体多次排序比较等效，其剩余排序间的r’wj≤rw；若舍去的排序结果与整体多次排序间重复性不好，其剩余排序间的r’wj≥rw。由此，将所有r’wj按照降序排列，然后逐一从r’wj大到小所对应舍去的排序结果进行分析，结合Kendall和谐系数的显著性检验，考察某次重复排序结果与整体多次排序的离散性。

3.1.1.2 再现性异常评价员排序剔除

对于评价小组的某次排序实验，若小组成员中所有评价员排序结果间的再现性良好，也就是评价小组排序结果内部对系列样品特征排列认识统一、观点一致，无某评价员排序异常现象。若评价小组内部不同评价员排序结果再现性不好，也就是评价小组结果不稳定、内部成员较离散，必然有一些评价员排序结果比较偏离小组整体，也就有异常排序结果的现象出现。

Friedman检验能最大限度的显示评价小组对样品间差异的识别能力[12]。按照公式（2）计算Friedman检验系数Ftest。

式中：Ri为第i个样品上所排秩次之和；p为评价员个数；n表示被试样品个数。

通过舍一法（舍去任意一个评价员排序结果k），计算对应剩余评价员组成的评价小组Friedman检验结果F’test，并与整体Ftest进行比较。若舍去的评价员结果与小组整体排序比较等效，其剩余小组的F’test≤Ftest；若舍去的评价员结果与小组整体等效性不好，其剩余排序间的F’test≥Ftest。由此，将所有F’test按照降序排列，然后逐一从F’test大到小所对应舍去的评价员进行分析，结合Ftest的显著性检验，考察再现性不佳的评价员。

3.1.2 确定评价小组对样品的排序

将自身重复性不好的评价员排序结果与小组内再现性不好的评价员排序结果一起剔除后，计算各样品的秩和，并根据升序排列，其各样品秩和大小的前后顺序说明了评价小组对被试样品的评价排序。通过Friedman检验（如无理论顺序）判断是否有显著差异样品，若有显著差异，则可通过在选定的风险α下，计算最小显著性差（least significant difference，LSD），通过两两样品的秩和之差，并与LSD值比较，来确定哪些样品与其他样品存在显著性差异（α=0.05或α=0.01）[13]。按照公式（3）计算LSD。

式中：z为比较风险；p为评价员个数；n表示被试样品个数。当双尾正概率α=0.05时，z值为1.96；α=0.01时，z值为2.58。

若秩和之差等于或者大于LSD值，则这两个样品之间存在显著性差异，即排序检验时，已区分出这两个样品之间的差异。反之，若秩和之差小于LSD值，则这两个样品之间不存在显著性差异，即排序检验时，未区分出这两个样品之间的差异。即结合LSD值能反映评价小组对哪些样品间排序无显著差异，也就是可以归成一类，即可排成同一秩次，由此确定评价小组多次重复排序后的系列样品最优估计顺序。

3.2 通过多个评价小组确定最优估计排序

当进行不同感官实验室的评价小组能力比对时，首选需要确定系列样品的最优估计顺序，在此不以某个实验室评价小组的排序结果为参考，而是需要所有评价小组共同认可的排列顺序。首先根据3.1节内容确定各评价小组对特定系列产品的排序结果，并代表该小组的一次排序结果，n 个评价小组就有n 个排序结果，然后类似

3.1.1 节中评价员再现性分析方法考察不同评价小组间的再现性，并剔除再现性差的评价小组结果，把剩余的评价小组结果根据3.1.2节的方式确定由多个评价小组获得的系列样品最优估计顺序。

4 评价员个体排序能力表现评估技术方法

4.1 评价员个体重复性评估

4.1.1 评价员重复性能评估方法

对于评价员首先要考察其重复性，也就是测量的精密性或稳定性，不然其结果就不可信。重复性为同一评价员对同一组被试样品在不同时间多次排序重复结果间的等效性，可通过分析Kendall（肯德尔）和谐系数（rw）的显著性而获得。按照公式（4）计算rw卡方检验值。

式中：χ2为卡方检验值；K表示重复次数；n表示被试样品个数；df为自由度。

通过风险水平α与自由度确定卡方检验临界值，若大于临界值，则表示多次排序结果具有等效性。

4.1.2 评价员重复性动态监控方法

若多次排序结果间的重复性良好，也就是每次排序结果稳定、等效，无某次排序异常现象。若多次排序结果间的重复性不好，也就是每次排序结果无稳定、较离散，必然有一些排序结果比较偏离整体，也就有异常排序结果的现象出现。假设每周固定一天做1 轮含5 次重复的排序评估实验，连续12 周（3 个月），共计12 轮60 次排序结果。就可以得出周重复、月重复、季重复这3 个系列rw值。而rw的显著性检验统计量只能从整体上评估评价员的重复性能，体现某个时间段后的唯一性能值；但不能直观看到评价员每次排序效果，及多次排序之间的动态监测情况。

根据前面的假设，同时可以计算评价员每次排序结果与最优估计顺序（或已知的理论顺序）的Spearman秩相关系数rs值，则可动态的、直观的观察评价员每次排序结果与最优估计顺序（或已知的理论顺序）的接近程度，也在一定程度上说明了评价员的重复性。按照公式（5）计算rs[14]。

式中：di为样品i某次重复秩次与理论秩次的差；n表示被试样品个数。

在评价员多次排序中，rs相等的排列顺序不一定完全重复。比如在系列样品（正确顺序为A、B、C、D、E）的某两次排序中，第一次将最前面2 个样品顺序颠倒了（B、A、C、D、E），而第二次将最后2 个样品颠倒了（A、B、C、E、D）。因此，在动态监测评价员排序重复性时，需要同时参考rw与rs值。并且对于感官评价结果来讲，是以评价小组结果为依据，而非具体某个评价员的排序结果。这是因为评价员个体本身存在内在差异性，也是在一定程度允许rs一致但不完全重复的现象存在。通过实验发现多次排序的rs一致而Spearman检验显著但排列顺序不同的重复性rw检验也显著。

4.2 评价员个体一致性评估

这里的一致性体现为评价员每次排序结果与最优估计顺序（或已知的理论顺序）的吻合度。则可以通过计算每次排序结果与最优估计顺序（或已知的理论顺序）的Spearman秩相关系数rs值来体现。

4.3 评价员个体再现性评估

评价员个体的再现性主要体现在同一评价小组内不同评价员排序结果之间的相关性、统一性，其实也由此体现评价小组的内部稳定性，具体参考3.1.1节中的再现性异常评价员分析方法。而从另一个角度分析，其实评价员的再现性体现了评价员自身与评价小组结果之间的吻合性，其实在一定程度上是与评价小组结果一致性的体现。

5 评价小组排序能力表现评估技术方法

5.1 评价小组排序结果表征方式

计算整体评价小组对各样品的秩和，并根据升序排列，其各样品秩和的前后顺序说明了评价小组对被试样品的评价排序。通过Friedman检验（如无理论顺序）或Page检验（若有理论顺序）判断是否有显著差异样品，则可通过在选定的风险α下，计算LSD来确定哪些产品与其他产品存在无显著性差异（α=0.05或α=0.01），也就是可以归成一类，即可排成同一秩次，由此确定评价小组所获得的系列样品排序结果。按照公式（6）计算Page检验系数L[15]。

式中：R1是已知样品顺序中排序为第一的样品的秩和，依次类推，Rn就是排序为最后的样品的秩和；n表示被试样品个数。

5.2 评价小组重复性评估

同4.1节中的评价员排序重复性方法，其中评价小组某次排序结果等同于评价员某次评价排序，并通过Kendall（肯德尔）和谐系数（rw）的显著性检验确定重复性。也同样通过rw与Spearman秩相关系数rs相结合的方式动态监测评价小组每次排序结果的重复效果。

5.3 评价小组一致性评估

同4.2节评价员一致性分析方法，只是将评价小组某次排序结果等同于评价员某次评价排序来处理。

5.4 评价小组再现性评估

对于具体某一评价小组再现性的好坏来评估该评价小组性能的作用不是很大。评价小组再现性主要应用于感官分析实验室间不同评价小组的能力比对中，特别是比对所用系列样品没有理论顺序时，通过小组间的再现性剔除异常评价小组结果后获得最优估计顺序。

6 结语

在感官评价中，被测样品与测量仪器“评价小组及成员”是一把双刃剑，也是任何测量的博弈对立面。既需要通过已知样品考察评价小组及其成员的性能，也可以通过性能合格“仪器”来检测被试样品。而被测样品难度过高或过低都不能很好监控“仪器”性能的细微变化，寻找适合感官评价小组表现评估的系列样品至关重要。同时类似于理化检测仪器性能评估，也需要对感官分析仪器评估指标提出具体的量值化阈值（标准值）及相应的允许误差。对于特定感官分析实验室，可以通过长期监控确定一项适合自己实验室的阈值与允差。对于实验室比对来讲，也需要一定实验周期与一定数量感官分析实验室评价小组的表现评估数据积累，获得能代表现阶段国内评价小组整体水平的表现评估阈值与允差。

[1] 赵镭, 刘文. 感官分析技术应用指南[M]. 北京: 中国轻工业出版社, 2011.

[2] 张水华, 徐树来, 王永华. 食品感官分析与实验[M]. 北京: 化学工业出版社, 2006.

[3] 游正林. 社会统计学[M]. 北京: 社会科学文献出版社, 2010.

[4] 中国标准化研究院, 北京工商大学, 中国人民解放军总后勤部军需装备研究所, 等. GB/T 12315—2008 感官分析方法学排序法[S]. 北京: 中国标准出版社, 2008.

[5] MCEWAN J A, HEINIO R L, HUNTER E A, et al. Profi ciency testing for sensory ranking panels: measuring panel performance[J]. Food Quality and Preference, 2003, 14: 247-256.

[6] BI J, KUESTEN C. Intraclass Correlation Coefficient (ICC): a framework for monitoring and assessing performance of trained sensory panels and panelists[J]. Journal of Sensory Studies, 2012, 27: 352-364.

[7] 赵镭, 刘文, 牛丽影, 等. 食品感官科学技术: 发展的机遇和挑战[J].中国食品学报, 2009, 9(6): 138-143.

[8] 中国农业科学院质量标准与检测技术研究所, 农业部蔬菜水果质量监督检验测试中心(广州). GB/T 16291.1—2012 感官分析选拔、培训与管理评价员一般导则第1部分: 优选评价员[S]. 北京: 中国标准出版社, 2012.

[9] STONE H, SIDEL J L. 感官评定实践[M]. 北京: 化学工业出版社, 2007.

[10] 邵志芳. 心理统计学[M]. 北京: 中国轻工业出版社, 2012.

[11] 甘怡群, 张轶文, 邹玲. 心理与行为科学统计[M]. 北京: 北京大学出版社, 2009.

[12] International Organization for Standardization. ISO/DIS 8587—2006 Sensory Analysis-Methodology-Ranking[S]. United States: Information Handling Services, 2006.

[13] 生庆海, 张爱霞, 马蕊. 乳与乳制品感官品评[M]. 北京: 中国轻工业出版社, 2009.

[14] LAWLESS H T, HEYMANN H. 食品感官评价原理与技术[M]. 北京: 中国轻工业出版社, 2001.

[15] 王静龙. 非参数统计分析[M]. 北京: 高等教育出版社, 2012.

General Guidance for Performance Evaluation of Sensory Ranking Panels and Panelists

SHI Bo-lin1, ZHAO Lei1,*, HUAN Chang2, WANG Hou-yin1, ZHI Rui-cong1, SU Yu-fang3, XIE Nan1, LI Zhi1, ZHANG Lu-lu1
(1. Food and Agriculture Standardization Institute, China National Institute of Standardization, Beijing 100191, China; 2. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China; 3. Technology Center, Inner Mongolia YiLi Industrial Group Co. Ltd., Hohhot 010110, China)

Repeatability, reproducibility and consistency are considered as the indexes for the ranking capability of panels and panelists for sensory evaluation. The type, difference and number of samples are very important in ranking performance measurement. Rank is identified as the basic data style to evaluate the ranking capability. If the order of samples is unknown, the optimal evaluation order should be firstly confirmed by the methods combining Friedman test and least significant difference (LSD) after unsuitable panelists who have less repeatability and reproducibility are rejected. This paper was focused on the application approach of the two-variable Spearman rank correlation and Kendall coefficient of concordance for multiple variables in evaluating the repeatability, reproducibility, consistency of panels and panelists. Meanwhile, a good manufacturing practice to evaluate the ranking capability of panels and panelists has been established, which will provide a theoretical foundation for proficiency testing of sensory ranking panels from different laboratories. It is not only helpful for monitoring the performance of panels and panelists, but also for improving management capacity of sensory evaluation laboratories.

sensory analysis; ranking; panels and panelists; performance evaluation

TS207.3

1002-6630（2014）17-0346-05

10.7506/spkx1002-6630-201417064

2014-04-03

中国标准化研究院院长基金项目（562013Y-3079）；质检公益性行业科研专项（201410006）

史波林（1981—），男，副研究员，博士，研究方向为食品感官评价与智能感官分析。E-mail：shibl@cnis.gov.cn

*通信作者：赵镭（1968—），女，副研究员，博士，研究方向为食品感官分析标准化。E-mail：zhaolei@cnis.gov.cn