感官分析是用于唤起、测量、分析和解释产品通过视觉、嗅觉、触觉、味觉和听觉所引起反应的一种科学方法[1]。常用的分析方法包括差别检验、排序检验和定量描述性分析等[2]。感官分析排序法[3]是指一系列被检样品按照其某种特性或整体印象的顺序进行排列的感官分析方法。MEWAN J A等[4]专门研究了感官排序的实验室比对,是目前较为系统的介绍评价小组排序性能比对的研究。通过Pearson相关系数法确定校准评价小组所建立的期望样品排序及每个样品的秩次平均值,Friedman检验各评价小组的样品区分能力,Conover多重比较法检验各评价小组区分样品对个数,Kendall系数评估评价小组内部评价员之间的一致性,以及评价小组排序能力的整体性能。CARABANTE K M等[5]综合讨论了感官分析排序法的测试方法、统计分析方法的发展历史以及感官排序法的实例。研究结果表明,感官分析排序法可以广泛应用于产品预筛[6-7]、同类产品比较[8-9]、消费者偏好调查[10-12]、评价员的能力评估[13]等。排序结果可以通过Friedman检验实现样品间的差异显著性分析,然后再对差异性显著的样品进行多重比较和分组,以确定各个样品间的差异显著性[14]。Friedman检验是利用秩次和秩和实现对多个总体分布是否存在显著差异的非参数检验方法[15],Friedman检验后常用的多重比较方法有两种:一种是依据我国国家标准规定的通过临界值r(I,α)进行多重比较[14,16];另一种是国际标准和国外资料普遍采用的通过最小显著差数(least significant difference,LSD)法进行多重比较[17]。
在白酒品评时,由于品酒员的品评能力、身体状态、口感嗜好等不同,会造成排序结果一致性比较差,翟旭龙[18]通过顺序法可以剔除个别出入较大的结果,但运算过程过于繁琐,且只能找到最优或最差的结果。梁艳英[19]采用随机区组设计多样本多重比较的方法,运用SPSS软件对葡萄酒感官分析结果进行Friedman分析,虽然减少了运算过程,但缺乏对排序数据的梳理及筛选。史波林等[20]重点分析了Spearman秩相关及Kendall和谐系数在评价小组及评价员的重复性、再现性与一致性等性能评估中的具体技术理论和应用方法分析,并提出了感官评价小组及成员排序能力评估的一般导则,为本研究的顺利开展奠定了良好的理论技术基础。
本研究针对白酒感官品评人员不同批次酱香型勾调酒样感官分析排序结果差异较大问题,综合采用Friedman和Kendall统计学检验方法,开展感官排序结果一致性和重复性评价,通过F统计量及多重比较统计学分析,以期实现勾调酒样最优估计顺序科学表达,指导实际应用于白酒生产。
2021-2022年勾调的不同批次共5个酱香型白酒勾调酒样:某酱香型白酒生产企业。
感官评价小组由10名品酒员组成(4名女性,6名男性,平均年龄28岁),来自于贵州省茅台镇国台酒业感官评价实验室,其中均具有国家二级品酒师及以上的资质,其中7名为贵州省白酒评委。
1.3.1 感官排序方法
10名品酒师对勾调白酒样品按照感官质量差排序,以均衡随机的顺序将样品呈送给评价员,并重复5次。感官评价员按从差到好对样品的整体质量进行综合评价并排序,从颜色、香气、口感、风格四个方面对样品进行综合评价排序,综合指标如表1所示。排序结果即秩,同步计算秩和。以数字1~5表示样品的排列顺序结果秩,其中1、2、3、4、5分别代表感官品评结果差、一般、好、较好、优。
表1 白酒酒样感官质量综合指标Table 1 Composite indicator of sensory quality of Baijiu samples
1.3.2 Friedman检验
Friedman检验是利用秩实现对多个总体分布是否存在显著差异的非参数检验方法,常用于食品感官评定中排序检验分析[21]。其原理假设是:多个配对样本来自的多个总体分布无显著差异。通过计算Friedman F统计量和对应的概率P值,如果概率P值<给定的显著性水平0.05,则拒绝原假设,认为各组样本的秩存在显著差异,多个配对样本来自的多个总体的分布有显著差异;反之,则不能拒绝原假设,可以认为各组样本的秩不存在显著性差异[16]。Friedman F统计量计算公式如下:
式中:Ri为第i个样品上所排秩次之和;p为评价员个数;n表示被试样品个数。
1.3.3 Kendall检验
肯德尔(Kendall)和谐系数(W)是分析两个以上顺序变量之间的相关性(一致性或等效性)问题,即可用于品酒员的重复性判别[22]。和谐系数(W)的计算公式如下:
式中:W表示和谐系数;k表示重复次数;n表示被试样品个数;Ri表示k个评价次数在第i个样品上所排秩次之和。
W值介于0~1之间,对于每位品酒员的5次重复结果,如果排序结果一致性良好,那么肯德尔系数会接近于1,如果排序结果的重复性差,肯德尔系数会接近0。Kendall和谐系数并没有显著性水平的表用于临界值查询,可将W值转换为卡方(χ2),用于和临界值比较,W的转化公式如下[23]:
式中:k为评价次数,n为样品数量。
1.3.4 多重比较
通过Friedman检验有显著性差异后,在选定的显著性水平α下,计算LSD,通过两两样品的秩和之差与LSD值比较,来确定哪些样品之间具有显著性差异。LSD的计算公式如下:
式中:z为比较风险;p为评价员人数;n表示被试样品数。当双尾正概率α=0.05时,z值为1.96;α=0.01时,z值为2.58。
1.3.5 数据分析工具
通过SPSS 26.0在P<0.05的显著性水平上进行上述检验方法的分析。
10名品酒员对5批次样品按感官质量差排序,每天排序一次,连续5 d,共得到50组排序结果,结果见表2。通过SPSS26.0软件对表2的50组结果进行Friedman检验,统计分析结果显示,10名品酒员5批次样品排序结果F统计量=7.584,P=0.108>0.05。由表2可知,10名品酒员5批次样品排序结果一致性较差,考虑主要是部分评酒员品评结果一致性和重复性差的原因,有必要进一步基于统计学方法评估删除部分一致性和重复性数据,再继续进行Friedman检验,分析5批样品间的感官质量差异。
表2 5批勾调酒样的排序结果
Table 2 Ranking results of 5 batches of blended liquor samples
续表
注:1#、2#、3#、4#、5#分别代表5种不同批次的勾调酒样,Z、Y、X…为品酒员姓氏首字母,代表不同品酒员。
Friedman检验通过按照公式(1)计算F统计量可以最大限度的显示品酒员对不同批次酒样间的差异识别能力[15],若F统计量>临界值(或对应的概率值P<给定显著性水平α),则在α显著性水平下,认为排序的一致性好,酒样之间有明显差异;若F统计量<临界值(或对应的概率值P>给定显著性水平α),那么在α显著性水平下,认为排序的一致性不好,酒样间差异不显著。
基于以上原理,采用舍一法[18]舍去任意一个品酒员的排序结果,计算剩余49个排序结果的F统计量。若剩余小组的F≤F总,则舍去的品酒员结果与整体排序结果认为等效;若剩余小组的F≥F总,则舍去的品酒员结果与整体等效性不好。由此,将所有F统计量按照降序排列,然后按此排序逐一舍去F统计量对应的排序结果,直到剩余排序结果的F统计量对应的概率值P<α(本研究显著性水平α=0.05),那么剩余排序结果的一致性良好。利用舍一法,舍去任意一个排序结果,计算剩余49个排序结果的F统计量的结果见图1,本研究通过舍一法结合F统计量分析发现,若舍去第6组、第17组及第32组感官质量品评排序结果后,剩余排序结果F统计量的P值为0.013<0.05<P总值=0.108,结果表明,剩余排序结果具有显著性差异,感官品评人员一致性评价良好。
图1 舍一法计算F统计量结果
Fig.1 Calculation results of F statistical magnitude by rounding method
通过SPSS 26.0软件进行肯德尔检验时,结果自动提供了转换后的χ2值,只需查验卡方分布的显著性表,找到临界值进行比较。经查表得知[3],自由度(n-1)为4的χ2临界值为9.49,其中n为样品个数。若χ2≥临界值9.49,那么5次排序的结果比较等效,则该品酒员的5次排序结果可以保留。若χ2<临界值9.49,那么该品酒员5次排序结果重复性不好,找出影响重复性的排序结果并将其予以剔除。
根据以上原理,可采用舍一法[18]将重复性不好的排序结果剔除。舍去任意一次排序结果,计算对应剩余排序之间的χ2,并与所有重复排序后的χ2进行比较。若其剩余排序间的χ2≤χ2总,则舍去的排序结果与整体多次排序比较等效,若剩余排序间的χ2≥χ2总,则舍去的排序结果与整体多次排序间重复性不好。由此,将所有χ2按照降序排列,然后逐一从大到小所对应舍去的排序结果进行分析,直至剩余排序结果的χ2值不低于临界值9.49,那么剩余排序结果通过了重复性检验,其他排序结果应予以剔除。如果按照χ2从大到小的顺序,舍去对应的排序结果,剩余排序结果的χ2均低于临界值9.49,说明该品酒员5次排序结果之间的重复性均不好,应剔除该品酒员的5次排序结果。由表3可知,品酒员Z、X、S三人的5次重复品评结果的χ2分别为12.160、15.360和10.560,均高于9.49,因此三人的品评结果全部保留。品酒员W、D、H、M四人的5次重复排序结果的χ2均低于9.49,而四人剔除第二排序结果后,χ2均高于9.49,因此将第17、22、32、47这四组数据剔除。由表4可知,品酒员Y、C、F三人的品评结果按χ2由大到小剔除后,剩余结果仍低于9.49,因此将三人的排序结果全部剔除,即第6~10组、第26~30组、第41~45组。
表3 舍一法计算W值及χ2结果
Table 3 Calculation results of W value and χ2 by rounding method
表4 剔除多个品评结果后的W值及χ2
Table 4 W value and χ2 after eliminating multiple evaluation results
综上所述,根据χ2值与临界值大小比较,剔除个人重复性差的排序结果,最终剔除第6~10组、17组、22组、26~30组、32组、41~45组、47组,共19组结果。
通过F统计和肯德尔(Kendall)和谐系数(W)统计学方法剔除19组重复性和一致性排序异常结果后,对剩余的31组排序结果进行Friedman检验后,再进行两两比较,结果见表5、表6。
表5 剔除一致性差和重复性差感官评价结果后的Friedman检验结果
Table 5 Friedman test results after eliminating sensory evaluation results with poor consistency and repeatability
表6 剔除一致性差和重复性差感官评价结果后的成对比较结果
Table 6 Pairwise comparison results after eliminating sensory evaluation results with poor consistency and repeatability
注:a.已针对多项检验通过Bonferroni 校正法调整显著性值,双侧检验,α=0.05。
由表5得知,Friedman检验F=24.439,P=0.000,结果表明,在α=0.05显著性水平下,5批勾调酒样感官质量差异明显。
由表6可知,采用SPSS 26.0软件在Friedman检验后,使用Bonfferoni法进行多重比较,该方法是在LSD法基础上做了调整,通过降低单次检验水准α来控制总的一类错误[24-25],但Bonferroni方法有一个缺点,当比较次数太多时,结果过于保守,为了灵敏的反应勾调酒样间的差异,因此,本研究选择Bonferroni法校验前的LSD法的显著性水平来分析5批酒样的差异。结果发现,在α=0.05显著水平下,酒样3#与5#,酒样3#与1#,酒样3#与4#,酒样3#与2#,酒样5#与2#,酒样1#与2#,酒样4#与2#差异显著;酒样5#与1#,酒样5#与酒样4#,酒样1#与4#差异不显著,用字母标注法表示酒样差异性显著结果,酒样字母相同表明感官质量无显著性差异,结果见表7。
表7 酒样显著分析结果
Table 7 Significant analysis results of liquor samples
注:字母相同表示无显著性差异(P>0.05);字母不同表示差异显著(P<0.05)。
综上所述,5批不同批次勾调酒样感官质量可分为3组,A组为酒样2#,B组包括酒样4#、酒样1#、酒样5#,C组为酒样3#,在α=0.05显著水平下,三组之间感官质量差异显著,A组优于B组,B组优于C组,组间差异不显著。
基于以上科研成果转化,通过R语言搭建了勾调酒样感官质量数据在线分析平台(https://sensoryrank.shinyapps.io/SensoryEvaluator/),该平台可以实现一键式导入感官品评人员对多批次样品的多次重复评价结果,自动验证、评估数据;根据评估结果,采用Friedman和Kendall统计学检验自动剔除一致性和重复性差的数据;自动输出勾调酒样感官最优估计排序结果,生成结果报告;同步输出品评人员的品评能力可视化图,筛选优质稳定品评人员。
本研究通过Friedman和Kendall检验综合对不同批次酱香型勾调酒样感官质量排序结果进行统计分析,剔除一致性和重复性差的排序结果,开展感官排序结果一致性和重复性评价,通过F统计量及多重比较统计学分析,实现5批次不同感官质量酒样最优估计顺序统计学科学表达,与以往统计学方法相比,本研究优化了剔除不良数据的方法,同时能够快速准确得到统计学结论。基于以上研究成果转化,研发的感官质量数据在线分析平台可以广泛推广实际应用于白酒企业不同批次勾调酒样感官质量科学评价与优质品酒员的筛选,具有非常实用意义。
[1]STONE H,SIDEL J L.感官评定实践[M].北京:化学工业出版社,2007:10.
[2]史波林,赵镭,汪厚银,等.感官分析评价小组及成员表现评估技术动态分析[J].食品科学,2014,35(8):29-35.
[3]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 12315—2008感官分析方法学排序法[S].北京:中国标准化出版社,2008.
[4]MEWAN J A,HEINIO R L,HUNTER E A,et al.Proficiency testing for sensory ranking panels:measuring panel performance[J].Food Qual Pref,2003,14(3):247-256.
[5]CARABANTE K M,PRINYAWIWATKUL W.Data analyses of a multiple-samples sensory ranking test and its duplicated test: A review[J].J Sens Stud,2018,33(4):e12345.
[6]王琼波.排序法在米酒感官评价中的应用[J].饮料工业,2020,23(4):20-22.
[7]安琪.基于QDA法和CATA法的黄大茶的香气感官特性分析[D].合肥:安徽农业大学,2022.
[8]吕艳春.加权评分法和Friedman检验法对4种香肠制品的感官评价[J].食品安全质量检测学报,2019,10(15):4953-4959.
[9]吴晨岑,范文来,徐岩.不同二次蒸馏方式对浓香型白酒品质影响的研究[J].食品与发酵工业,2015,41(3):14-19.
[10]吴国虹,肖开前,徐吉祥,等.排序法和成对比较法在水果红茶饮料感官评价中的应用[J].茶叶,2021,47(2):103-107.
[11]殷园园,吴梦洁,林文强.排序法在乳液喜好性感官分析中的应用[J].北京日化,2016(3):8-11.
[12]张静.消费者的气味概念感知及多感官交互分析[D].成都:四川师范大学,2019.
[13]邓世磊.排序法在感官评价小组评价能力考核中的应用[J].中国检验检测,2022,30(2):81-84.
[14]徐树来,王永华.食品感官分析与实验[M].北京:化学工业出版社,2010:113-117.
[15]BEASLEY T M,ZUMBO B D.Comparison of aligned Friedman rank and parametric methods for testing interactions in split-plot designs[J].Comput Stat Dataan,2003,42(4):569-593.
[16]马蕊,张爱霞,生庆海.Friedman检验和Kramer检验在感官排序测试中的比较[J].中国乳品工业,2007(9):14-16.
[17]International Organization for Standardization.ISO/DIS 8587—2006 Sensory Analysis-Methodology-Ranking[S].United States:Information Handling Services,2006.
[18]翟旭龙.顺序法感官检验结果的统计分析[J].酿酒科技,2000(3):72-75.
[19]梁艳英.用SPSS软件对葡萄酒感官品尝数据进行Friedman分析[C]//国际葡萄与葡萄酒学术研讨会.中国食品工业协会,中国酿酒工业协会;西北农林科技大学,2013:232-238.
[20]史波林,赵镭,奂畅,等.感官评价小组及成员排序能力评估的一般导则[J].食品科学,2014,35(17):346-350.
[21]丛懿洁,王磊.Friedman检验和定量描述分析法(QDA)在风味酸奶感官评定中的应用[J].保鲜与加工,2021,21(4):121-127.
[22]甘怡群,张轶文,邹玲.心理与行为科学统计[M].北京:北京大学出版社,2005:42-47.
[23]奂畅.感官评价小组及成员表现评估方法研究及系统开发[D].上海:上海大学,2015.
[24]伍小英,鲁婧婧,张晋昕,等.两两比较的Bonferroni法[J].循证医学,2006(6):361-363.
[25]薛茜,刘万里,尔西丁,等.常用多重比较方法[J].中国医院统计,2008(1):29-31.
Statistical optimal estimation of sensory ranking results of blended sauce-flavor Baijiu samples