白酒主要由水、乙醇和微量成分组成,其中水和乙醇占98%左右,微量成分约占2%[1-3]。微量成分主要包括酯类、醇类、酸类、醛类物质等[4-5]。这些微量成分是构成白酒典型特征的物质基础,其成分含量配比决定了白酒的香型、口感和质量。白酒的指纹图谱是通过色谱或光谱等手段得到能够表示样品特性的图谱[6-8]。气相色谱-质谱(gas chromatography-mass spectrometer,GC-MS)联用技术图谱可以视为以白酒的微量成分为元素组成的n维向量,对图谱数据进行相应的处理可以将白酒的成分以数字呈现[9-11]。胡雪等[12]将化学计量学与GC-MS相结合对不同品牌的白酒进行分类;钱宇等[13]建立了一种利用指纹图谱结合化学计量学对不同品牌白酒鉴别和分类的技术;刘芳等[14]使用GC-MS分析7种不同品牌白酒的差异;张明霞等[15]采用顶空固相微萃取(headspace solidphase microextraction,HS-SPME)和气相色谱-质谱联用对白酒样品中的挥发性化合物进行定性分析。现有的图谱分析方法对白酒的风味特性进行研究,着重于衡量不同香型的差异,对不同品牌、产地、年代等白酒样品图谱数据与价格的研究不足[16-19]。探究白酒价格与微量成分之间的关系,实现精准预测,对白酒的定价具有重要的意义[20-21]。
基于GC-MS的白酒图谱数据主要采用主成分分析(principal component analysis,PCA)法进行降维处理,实现图谱数据的主要特征提取[22]。PCA通过几个正交主成分来表示白酒图谱数据的完整信息,在数据信息最大限度保留的基础上,达到数据降维的目的[23]。而核主成分分析(kernel principal component analysis,KPCA)法是一种建立在主成分分析基础上的非线性处理算法[24]。KPCA将图谱数据通过核函数映射到高维空间中,使其在高维空间线性可分后再对其进行PCA降维[25-26]。图谱数据降维后并不能完全反应出不同特性白酒之间的非线性关系,而反向传播(back propagation,BP)神经网络具有非线性映射能力,将KPCA与BP相结合,将有效实现不同特性白酒图谱的区分。陶雪容等[27]用BP神经网络对浓香型白酒实验数据进行训练,建立白酒的评判模型。
本研究以不同价格白酒样品作为研究对象,采用GC-MS技术得到白酒样品图谱数据,通过显著性分析筛选出对白酒样品有显著性影响的微量成分,分别引入主成分分析(PCA)和核主成分分析(KPCA)法对筛选后的图谱数据进行降维处理,通过BP神经网络算法建立白酒价格与微量成分之间的数学关系,以期通过KPCA-BP方法预测白酒价格,为白酒的定价提供新方法。
1.1.1 材料
数据库图谱(提供足够的白酒图谱数据进行训练):产学研合作项目以及基金项目中企业提供。白酒样品:6个品牌,共64个酒样。白酒样品基本信息见表1。将白酒样品划分为低、中、高3个档次,价格分类情况见表2。
表1 白酒样品基本信息
Table 1 Basic information of Baijiu samples
品牌 酒精度/%vol 生产年份 产地 价格区间/元 样品数/个品牌A品牌B品牌C品牌D品牌E品牌F 52 52 52 52 52 52 2019 2019 2019 2019 2019 2019四川宜宾江苏宿迁四川古蔺安徽淮北重庆万州四川泸州159~436 185~769 139~979 135~618 108~598 92~959 8 10 861 8 14
表2 白酒样品价格分类
Table 2 Price classification of Baijiu samples
白酒档次 价格区间/元 样品数/个低端中端高端92~200 200~500 500~1 000 32 16 16
1.1.2 试剂
乙酸戊酯、2-乙基丁酸(纯度均≥99%):上海麦克林生化科技有限公司;2-甲基-2-丁醇(纯度≥99%):山东旭晨化工科技有限公司;C7~C40正构烷烃混标(纯度均≥99%):上海源叶生物科技有限公司。其他试剂均为国产分析纯。
5977A GC/MSD气相色谱-质谱联用仪、DB-5ms超高惰性柱(30 m×0.25 mm×0.25 μm):美国安捷伦公司。
1.3.1 白酒样品挥发性风味成分的GC-MS分析
样品前处理:量取5 mL白酒样品,加入混合内标溶液(乙酸戊酯15.10 g/L;2-甲基-2-丁醇15.19 g/L;2-乙基丁酸15.09 g/L)100 μL,混合均匀后采用GC-MS进行分析。
GC条件:DB-5ms超高惰性柱(30 m×0.25 mm×0.25 μm),升温程序为初始温度40 ℃保持1.5 min,然后以15 ℃/min升温到325 ℃并保持2.5 min,全部运行时间23 min。进样体积1 μL;分流比10∶1;进样口温度250 ℃;载气为高纯氦气(He)(99.9%);载气流量为2.3 mL/min。
MS条件:接口温度230℃;电子电离(electronionization,EI)源;电子能量70 eV;扫描质量范围25~550 m/z;四级杆温度150 ℃。
定性定量分析:采用保留指数定性[28],内标法定量。
1.3.2 显著性分析
通过对数据的分析找到对样本影响显著性的因素(P<0.05)、具有显著性影响因素的最佳水平。
1.3.3 主成分分析
PCA的核心思想是对高维数据进行线性变换,将白酒数据投影到协方差最大的方向,分解得到相互正交的几个主成分,使它们尽可能多地保留原始信息。算法步骤如下:
设有m条n维数据
(1)将原始数据组成m行n列矩阵X
(2)数据标准化处理
(3)计算特征值及单位特征向量
相关系数矩阵R特征值λi对应单位特征向量ei,将特征值按由大到小的顺序排列。
(4)计算主成分的方差贡献率和累计方差贡献率
第k个主成分为:
累积方差贡献率为:
1.3.4 核主成分分析
KPCA基本思想是对高维数据进行非线性变换,通过在变换空间进行主成分分析来实现原空间的非线性主成分分析,更好地提取非线性数据特性。算法步骤如下:
设有m条n维数据
(1)将原始数据组成行列矩阵并映射到高维空间中
式中:C¯为中心化数据的协方差矩阵。
(3)高维空间数据中心化,计算中心化核矩阵K~
(5)将特征值从上到下按行排列成矩阵,取前k列组成矩阵a
(6)Y=αX
核函数为:
1.3.5 BP神经网络
BP神经网络是根据前向误差传播进行训练的多层前馈网络,其突出表现是在其非线性投影性能方面,模型组成分为输入层、隐含层和输出层[29]。基本步骤是:输入层输入数据,进入隐含层前对数据进行标准归一化处理且辅以权重的惩罚作用,到达隐含层再进行权值、阈值等运算,之后送入输出层。输出层得到的预测结果用于判断它和期望值之间差异,若差异较大则需要进行逆向传输,进一步调整每一层的参数值大小,直到最后预测结果与期望值保持一致。反方向从输出层将输出的误差进行反向传输、经过中间层、送入输入层,每一层都做一次校正。阈值视为权值中的一项,为权值的调整提供参考[30]。其算法原理如下:
(1)输入数据正向传播
在隐含层中,第j个神经元的输出:
获取低、中、高三种档次的白酒样品GC-MS图谱数据,随机抽取其中某一个样品的检测结果进行分析,结果见表3。
表3 某白酒样品挥发性风味成分GC-MS分析结果
Table 3 Results of volatile flavor components in a Baijiu sample analyzed by GC-MS
序号 化合物 保留时间/min 含量/(mg·L-1)1 2 3 4 5 6 7 8 9 1 0 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27乙酸乙酯丙酸乙酯乙酸丙酯丁酸乙酯戊酸乙酯正己酸乙酯乳酸乙酯己酸异戊脂2-丁醇丙醇异丁醇正丁醇异戊醇正戊醇正己醇2,3-丁二醇苯乙醇乙酸丙酸异丁酸丁酸异戊酸正戊酸己酸庚酸辛酸3-糠醛2.78 3.61 3.83 4.77 6.68 8.93 11.24 13.27 4.58 4.84 6.03 7.11 8.44 9.34 11.37 14.68 20.14 13.35 14.80 15.25 16.17 16.79 17.78 19.25 20.67 21.84 13.50 849.43 18.08 0.00 224.80 105.46 1 554.54 616.16 4.50 51.17 157.82 84.68 274.12 209.52 37.34 99.53 3.82 1.16 524.99 4.04 5.48 88.17 8.17 25.25 656.73 10.07 6.21 41.69
由表3可知,从某一个白酒样品中检测到27种挥发性风味成分,其中,酯类8种,如乙酸乙酯、丙酸乙酯、乙酸丙酯以及丁酸乙酯等,醇类9种,如2-丁醇、丙醇、异丁醇和正丁醇等,酸类9种,如乙酸、丙酸、异丁酸等,醛类1种,为3-糠醛,选择这些成分使用SPSS26.0进行显著性分析,评价各挥发性风味成分对不同档次白酒样品的显著性。不同档次白酒样品平均挥发性风味成分含量及显著性分析结果见表4。
表4 不同档次白酒样品挥发性风味成分平均含量检测结果及显著性分析结果
Table 4 Determination results of volatile flavor component average contents and significance analysis results of different grades of Baijiu samples
注:当P>0.05时,其微量成分在95%置信区间上对不同档次白酒样品无显著差异。
化合物 P 值低端白酒含量/(mg·L-1)中端白酒 高端白酒乙酸乙酯丙酸乙酯乙酸丙酯丁酸乙酯戊酸乙酯正己酸乙酯乳酸乙酯己酸异戊酯2-丁醇丙醇异丁醇正丁醇异戊醇正戊醇正己醇2,3-丁二醇苯乙醇乙酸丙酸异丁酸丁酸异戊酸正戊酸己酸庚酸辛酸3-糠醛750.64 49.36 5.60 137.42 25.31 1 110.10 647.39 0.34 18.83 206.55 46.75 52.96 121.92 13.65 24.05 10.21 2.09 512.14 9.88 6.16 68.75 5.98 8.75 510.90 2.77 3.31 60.74 712.45 34.87 4.79 141.81 40.29 1 072.17 629.15 1.21 27.72 193.97 49.59 128.42 128.14 19.63 43.73 7.58 1.25 505.54 7.27 4.97 70.62 5.94 11.36 516.16 3.88 4.45 42.72 738.00 24.39 4.18 179.33 42.11 1 214.66 606.06 1.09 25.54 138.23 40.97 124.72 111.54 15.96 39.18 6.72 1.09 495.24 4.35 5.35 83.75 5.10 12.31 542.60 3.92 4.25 27.18 0.03 0.00 0.00 0.06 0.00 0.73 0.00 0.00 0.00 0.11 0.01 0.06 0.11 0.00 0.03 0.00 0.00 0.02 0.00 0.00 0.01 0.00 0.00 0.28 0.00 0.00 0.01
由表4可知,不同档次白酒的微量成分含量存在一定差异。27种微量成分中,除丁酸乙酯、正己酸乙酯、丙醇、正丁醇、异戊醇和己酸外,其他21种微量成分对不同档次白酒样品有显著差异(P<0.05)。丁酸乙酯、正己酸乙酯、丙醇、正丁醇、异戊醇以及己酸对白酒档次无显著影响(P>0.05),这6种微量成分不作后续分析。对筛选后的21种微量成分分别使用PCA和KPCA进行特征提取,保留累计方差贡献率>85%的前几个主成分,结果见表5。
表5 64个白酒样品特征值、方差贡献率和累计方差贡献率
Table 5 Characteristic value, contribution rate and cumulative variance contribution rate of 64 Baijiu samples
主成分 特征值 方差贡献率/% 累计方差贡献率/%PCA KPCA PC1 PC2 PC3 KPC1 KPC2 KPC3 14.154 7.367 2.070 0.521 0.273 0.077 52.423 27.286 7.668 54.553 27.601 7.864 52.423 79.709 87.377 54.553 82.154 90.018
由表5可知,使用PCA和KPCA提取出3个主成分,PCA前3个主成分累计方差贡献率为87.377%,KPCA前3个核主成分累计方差贡献率为90.081%,均能体现白酒样品的大部分信息。以PC1、PC2、PC3和KPC1、KPC2、KPC3分别为坐标轴建立样品三维散点图,结果见图1。
图1 64个白酒样品的主成分分析(a)及核主成分分析(b)三维散点图
Fig.1 Three-dimensional scatter diagram of principal component analysis (a) and kernel principal component analysis (b) of 64 Baijiu samples
由图1可知,两种方法所得到的散点图都能反映出不同档次白酒的聚集程度,且聚集程度明显,表明得到的散点图能体现白酒样品的大部分信息。由图1(a)可知,低端白酒与中、高端白酒的区分度较高,中端白酒分布较集中,但与高端白酒存在交叉,两者的区分度较低。由图1(b)可知,三种档次白酒在三维空间上有很好的区分度,中端白酒与高端白酒存在少部分交叉,说明中、高端白酒微量成分含量比较接近。PCA与KPCA均能在不同程度上实现数据降维,但PCA对非线性的白酒图谱数据降维效果并不理想,KPCA提取的白酒数据能更大程度上代表样品信息。
从数据库中挑选不同档次白酒样品的150组数据作为训练集,再另外随机选取18组(每个档次白酒样品各6组)不同档次的白酒图谱数据作为测试集。对测试集数据先进行显著性分析再使用PCA和KPCA处理,将提取出的主成分作为输入,白酒价格作为输出,建立KPCA-BP神经网络预测模型,实现对测试集数据的预测。在预测模型中,主成分与核主成分的前3个指标被提取为关键组成成分,输入到输入层,经过中间层计算得到输出,即白酒均价,得到的结果见图2~图4。
图2 低端白酒PCA+BP神经网络(a)和KPCA+BP神经网络(b)预测结果
Fig.2 Prediction results of PCA+BP neural network (a) and KPCA+BP neural network (b) of low-end Baijiu
图3 中端白酒PCA+BP神经网络(a)和KPCA+BP神经网络(b)预测结果
Fig.3 Prediction results of PCA+BP neural network (a) and KPCA+BP neural network (b) of mid-grade Baijiu
图4 高端白酒的PCA+BP神经网络(a)和KPCA+BP神经网络(b)预测结果
Fig.4 Prediction results of PCA+BP neural network (a) and KPCA+BP neural network (b) high-grade Baijiu
由图2~图4可知,将PCA降维后的图谱数据送入到预测网络中,所得结果价格预测曲线与真实值存在较大误差,经KPCA后的价格预测曲线与真实值有很好的拟合度。在低端白酒预测中,PCA-BP神经网络和KPCA-BP神经网络的预测误差相近,原因是低端白酒样本量多且价格集中在150元,当真实值与其相差20%时存在拟合误差,使预测准确率降低。在中、高端白酒预测中,KPCA-BP神经网络预测误差为5%,而PCA-BP神经网络预测误差为15%,表明PCA处理白酒图谱数据后仍会存在部分异常数据,导致部分预测结果存在较大偏差。
通过GC-MS获得的低、中、高三种档次的64组数据使用本研究建立的预测模型进行模型验证,模型验证结果见表6。
表6 模型验证结果
Table 6 Validation results of model
白酒档次 PCA-BP神经网络准确率/% KPCA-BP神经网络准确率/%低端中端高端87.363 88.684 84.634 89.561 95.223 94.101
由表6可知,白酒价格预测值与真实值进行对比验证,PCA-BP神经网络的平均准确率为86.893%,KPCA-BP神经网络的平均准确率为92.962%,显然KPCA-BP神经网络模型对白酒价格预测有更高的精度。
本研究采用GC-MS技术对6个品牌的64个白酒样品的微量成分进行分析,得到白酒样品的特征图谱,通过PCA和KPCA将原始白酒图谱数据由高维降到低维,进而建立PCA-BP神经网络和KPCA-BP神经网络模型,实现白酒价格预测。结果表明,在挥发性风味成分分析时,白酒样品的挥发性风味成分基本相同,但含量上存在一定差异;PCA前3个主成分累计方差贡献率为87.377%,KPCA前3个核主成分累计方差贡献率为90.081%;PCA-BP预测准确率为86.893%,KPCA-BP准确率达92.962%;可见采用GC-MS结合KPCA-BP的方法可用于白酒的价格预测。
[1]林慧,范奇高,程平言,等.白酒中风险成分的检测及控制方法研究进展[J].中国酿造,2022,41(8):12-17.
[2]郭学武,范恩帝,马冰涛,等.中国白酒中微量成分研究进展[J].食品科学,2020,41(11):267-276.
[3]田文静,武亚帅,王俊山,等.白酒风味密码揭秘程度的研究进展[J].食品科技,2022,47(9):74-82.
[4]侯雅馨,王俊山,武亚帅,等.浓香型白酒微量成分的研究进展[J].食品研究与开发,2022,43(20):194-205.
[5]胡晓龙,田瑞杰,樊建辉,等.浓香型白酒挥发性化合物香气贡献及其地域特征研究进展[J].轻工学报,2022,37(2):1-14.
[6]张劲松,周迪,陈明举,等.基于稀疏主成分分析白酒GC-MS图谱分类识别技术[J].中国酿造,2022,41(4):216-221.
[7]董文江,程可,胡荣锁,等.色谱指纹图谱技术在咖啡质量控制应用中的研究进展[J].现代食品科技,2018,34(3):262-269,225.
[8]李俊.白酒中主要风味成分气相色谱-质谱法测定仪测定[J].酿酒科技,2014(8):113-116.
[9]王喆.特色小曲清香型白酒关键挥发性化合物及其相关微生物分析研究[D].武汉:华中农业大学,2021.
[10]陈照静.黔酒主要香型白酒酿造酒糟风味资源化研究应用[D].贵阳:贵州大学,2022.
[11]孙细珍,熊亚青,杜佳炜.指纹图谱结合化学模式分析小曲清香型白酒质量控制的研究[J].酿酒,2022,49(1):111-117.
[12]胡雪,李锦松,唐永清,等.基于GC-MS结合化学计量学的浓香型白酒分类方法[J].食品与发酵工业,2021,47(8):212-217.
[13]钱宇,胡雪,孙跃,等.基于指纹图谱和化学计量学的浓香型白酒分类研究[J].中国酿造,2021,40(6):152-156.
[14]刘芳,杨康卓,张建敏,等.基于电子鼻和气质联用技术的浓香型白酒分类[J].食品与发酵工业,2020,46(2):73-78.
[15]张明霞,赵旭娜,杨天佑,等.顶空固相微萃取分析白酒香气物质的条件优化[J].食品科学,2011,32(12):49-53.
[16]李世平.酱香型白酒异嗅味风味轮的构建及感官特性研究[J].酿酒科技,2022(8):84-89.
[17]熊小月,李利利,马宇,等.酱香白酒酿造轮次醇甜典型体基酒风味解析[J].食品与发酵工业,2022,48(13):261-267.
[18]JAITZ L,SIEGL K,EDER R,et al.LC-MS/MS analysis of phenols for classification of red wine according to geographic origin, grape variety and vintage[J].Food Chem,2010,122(1):366-372.
[19]吴成林,胡家艺,张惟广.白酒风味物质研究进展及关键技术分析[J].食品研究与开发,2022,43(3):207-215.
[20]李霞,于亚敏,杨继红.网购赤霞珠干红葡萄酒品质特征与价格的关联分析[J].中国酿造,2018,37(4):143-149.
[21]胡竹韵,王星晨,陶永胜,等.中国进口红葡萄酒香气特征与价格之间的关联分析[J].食品科学,2015,36(11):33-37.
[22]ALTINEL B,GANIZ M C.A new hybrid semi-supervised algorithm for text classification with class based semantics[J].Knowl Based Syst,2016,108:50-64.
[23]陈明举,周迪,王鸿,熊兴中.基于GC-MS的浓香型白酒等级评判模型研究[J].中国酿造,2021,40(10):102-107.
[24]翟双,庹先国,张贵宇,等.基于FT-NIR光谱技术结合KPCA-MD-SVM对白酒基酒的快速判别[J].现代食品科技,2022,38(4):248-253.
[25]LING Y,YUE Q,CHAI C,et al.Nuclear accident source term estimation using kernel principal component analysis,particle swarm optimization,and backpropagation neural networks[J].Ann Nucl Energy,2020,136:136-144.
[26] VINAY A, SHEKHAR V S, MURTHY K N B, et al.Face recognition using gabor wavelet features with PCA and KPCA-a comparative study[J].Procedia Computer Sci,2015,57:650-659.
[27]陶雪容,陈顺玲,孙勇.基于BP神经网络的白酒评判模型的MATLAB实现[J].中国酿造,2010,29(1):94-96.
[28]孟连君.基于挥发性成分指纹图谱的白酒储存时间及品质鉴别研究[D].无锡:江南大学,2021.
[29]刘佳祺,刘德红,林甜甜.基于BP神经网络模型的股票价格研究[J].中国商论,2018(8):29-30.
[30]左朝晖,李绍康,杨津津,等.基于GA-BP神经网络的页岩气开发区域水资源承载力研究[J].环境工程技术学报,2021,11(1):194-201.
Price prediction technique of Baijiu based on KPCA-BP neural network and GC-MS spectrum