不同工艺的酱酒的分类识别技术主要可实现成品酒品质检测、基酒等级划分等操作,在白酒生产过程中扮演着重要的角色。传统的酱酒分类方法主要依靠感官评价[1-3],存在稳定性差、效率低等缺陷,无法满足实时、快捷、准确提供分类识别信息的需求。
如今机器学习方法广泛应用于许多领域(图像处理、自然语言处理、金融等)进行模式分类和预测。CAGGIANO A等[4]使用基于双流深度卷积神经网络的模型通过自动图像处理进行在线故障识别,以识别由于金属粉末选择性激光熔化中的工艺不合格而导致的材料缺陷。KARASU S等[5]使用k-邻近方法来识别车牌上的字符。MCNALLY S等[6]使用贝叶斯优化循环神经网络、长短期记忆网络等深度学习方法来预测比特币的价格。DAS S P等[7]使用基于教学的优化和支持向量机(support vector machine,SVM)组成的混合模型进行商品期货指数预测。刘鑫等[8]基于遗传算法(genetic algorithm,GA)优化支持向量机(SVM)参数通过电子舌对白酒分类识别。白酒的鉴定是采用一系列分析技术建立的,如中红外光谱[9-12]、时间分辨荧光[13],质子核磁共振波谱[14]、超高效液相色谱四极杆轨道阱高分辨率质谱[15]、气相色谱-质谱法(gas chromatography mass spectrometry,GC-MS)[16]等。其中,GC-MS能够很好地分离化合物并进行定性和定量分析,因此它不仅提供了成分信息,而且提供了内容丰富的数据集,很好地代表了白酒的感官特征,已检测到2 020多种香气挥发性化合物[17]。
支持向量机(SVM)是一种常用于分类和回归分析的机器学习算法。SVM在高维空间中表现良好,适用于处理具有复杂特征的数据。SVM对于小样本数据具有较好的鲁棒性,可以避免过拟合,并且通过核函数可以灵活地处理非线性问题,将数据映射到更高维度的空间进行分类,在训练数据有限的情况下仍能表现出较好的泛化能力。在常规的运用场景中,基于小样本数据集的SVM分类预测模型在信息熵要求过高、核函数参数与惩罚参数欠优化等方面存在局限[18]。对于SVM多类别分类,有一对一(One-vs-One,OvO)分类器和一对其他(One-vs-Rest,OvR)分类器两种常见策略:分类器之间相互独立,易于扩展到多类别问题。需要训练n(n-1)/2个分类器,计算成本较高。每个分类器只需训练一个,计算成本相对较低。类别不平衡时可能出现问题,对于大规模数据集可能效果不如OvO。
网格搜索(grid search,GS)优化是一种调优模型参数的方法,它通过在预定义的参数范围内搜索最优参数组合,以提高模型性能。这种方法的优点包括:网格搜索尝试了预定义参数空间内的所有可能组合,确保找到全局最优解,无需手动调整参数,简化了模型调优的过程,且提供了一种相对可靠的方法,可以避免局部最优解的问题。因此,本文提出基于GS优化SVM参数的算法,结合对不同工艺酱香型白酒客观结构特征定量分析,实现对不同工艺酱香型白酒的快速分类识别。
经盘勾后在出厂调味前的基础酒:贵州省仁怀市茅台镇不同酒厂2018-2022年生产;成品酒:合作企业和市售。坤沙、碎沙、翻沙和串沙工艺生产的基础酒及成品酒样品数分别为13、18,18、18,18、2,11、10。
乙醛、丙醛、异丁醛、乙缩醛、异戊醛、丙酮、3-羟基-2-丁酮、糠醛、甲醇、正丙醇、仲丁醇、异丁醇、正丁醇、活性戊醇、异戊醇、甲酸乙酯、乙酸乙酯、丁酸乙酯、异戊酸乙酯、乙酸异戊酯、戊酸乙酯、己酸乙酯等标准品(均为色谱纯):美国Sigma-Aldrich公司。
CP1502电子分析天平:上海奥豪斯仪器有限公司;Clarns 600气相色谱仪(配有氢火焰离子检测器(flame ionization detector,FID),CP-Wax 57CB毛细管色谱柱)(50 m×0.25 mm×0.2 μm):美国PerkinElmer股份有限公司;Aquaplore 3S超纯水系统:美国艾科浦公司;ICS-3000离子色谱仪:美国Dionex公司;DDS-11A电导率仪:上海雷磁仪器有限公司。
1.3.1 SVM基本原理
支持向量机的基本思想是构建一个超平面来划化二分类的数据[19],给定一个训练集{(xi,yi)},其中xi是输入特征向量,yi是对应的类别标签,且yi∈{-1,1}。
线性分类器:超平面ωx+b=0将特征空间划分为两个部分,分别对应不同类别。ω是超平面的法向量(权重向量),b是偏置项,决策函数为
SVM的决策函数可以表示为:
式中sign(z)是符号函数,如果z>0则返回1,否则返回-1。
间隔:对于给定的超平面ωx+b=0和样本点(xi,yi),它们之间的几何间隔(geometric margin)可以表示为:
式中yi代表了样本的类别标签,ωxi+b代表了样本点到超平面的有符号距离。
最大间隔:SVM的目标是最大化间隔,即最大化所有样本点的几何间隔:
这等价于:
但为了避免复杂的优化问题,通常会引入一个松弛变ξi,并引入一个惩罚参数C来平衡最大化间隔与错误分类的权衡:
主要的目标是最小化上述损失函数。
拉格朗日对偶问题:通过构建拉格朗日函数,可以将原问题转化为对偶问题,从而简化求解。拉格朗日对偶问题的目标是最大化:
式中αi是拉格朗日乘子,满足一些约束条件。
支持向量:在最终的超平面上,支持向量就是那些满足αi>0的训练样本点。
核技巧:将数据映射到更高维的特征空间可以解决非线性分类问题,核技巧允许在不显示地计算高维特征空间的情况下,计算内积。常用的核函数包括线性核、多项式核和径向基函数(radial basis function,RBF)核。
决策函数的表示:
在使用核函数时,决策函数可以表示为:
式中K(x,xi)是核函数。
1.3.2 SVM多分类选择
支持向量机(support vector machine,SVM)是一种强大的监督学习算法,既可以用于二分类问题,也可以用于多分类问题。在处理多分类问题时,常用的SVM为以下两种方法:
OVR方法[20]:在一对其他方法中,每个类别都与其他所有类别进行比较,构建一个分类器。如果有k个类别,那么需要训练k个分类器。在测试时,选择具有最高置信度或决策函数值的分类器的类别作为最终预测结果,对于一个未知样本,将其输入到每个分类器中,并使用多数投票方法来预测其类别标签。这里面的挑战在于,如果有很多类别,就需要设计很多分类器,而且正负样本的数量可能会出现不平衡。
OVO方法:在一对一方法中,如果有k个类别,那么需要训练k(k-1)/2个分类器[21]。对于每对类别,构建一个分类器,这个分类器可以将这两个类别分开,总共需要k(k-1)/2个分类器。在测试时,通过投票或取平均值等方法来确定最终的类别,虽然这种方法可以保证正负样本的平衡,但是对于大量的类别,会产生大量的二元分类器,计算代价高昂。
1.3.3 基于网格搜索的MSVM实现
网格搜索[22]是一种常用于超参数优化的方法,可以用于优化SVM等机器学习模型的性能。其基本原理是在预定义的参数范围内,尝试不同的参数组合,然后通过交叉验证等技术来评估每个组合的性能,最终选择性能最佳的参数组合。基于网格搜索优化SVM(grid search-SVM,GS-SVM)参数步骤如下对于一个SVM分类器,通常有两个重要的超参数需要调整:惩罚系数C和核函数参数(比如核函数尺度σ)。GS-MSVM参数优化流程的步骤如下所示:
一般模型的性能通常取决于一系列参数的取值,这些参数可以是学习率、正则化项、核函数的参数等。这些参数的取值范围构成了参数空间。而网格搜索是一种穷举搜索的方法,它在参数空间内定义一个网格,通过在网格上的各个点尝试不同的参数组合,找到最优的组合。而为了更好地评估模型的性能,将数据集划分为训练集和测试集,为了减少评估结果的不稳定性,交叉验证将数据划分为多个子集,轮流使用其中一个子集作为测试集,其余子集作为训练集,多次评估模型性能取平均值。
1.3.4 测定方法
(1)总酸及总酯含量测定
根据GB 12456—2021《食品安全国家标准食品中总酸的测定》[19]中的方法,测定酒样总酸含量;测定根据GB/T 10345—2022《白酒分析方法》中的方法,测定酒样总酯含量。
(2)挥发性风味物质含量测定
气相色谱-离子火花检测器测定挥发性物质:CP-Wax 57 CB毛细管柱(50 m×0.25 mm×0.2 μm);载气为高纯氮气(N2),流速1 mL/min,分流比10∶1;氢气流速为45 mL/min;空气流速为450 mL/min;检测器温度270 ℃;进样器温度240 ℃。柱温:起始温度35 ℃,保持6 min;以4 ℃/min程序升温至60 ℃,以6 ℃/min程序升温至110 ℃,保持3 min;以6 ℃/min程序升温至205 ℃,保持13 min。进样量1 μL。
定性定量方法:将目标化合物用无水乙醇稀释,以标准品保留时间为依据进行定性,采用内标法定量。
(3)离子色谱测定有机酸类物质
样品前处理:将酒样稀释50倍后过0.45 μm过滤膜直接进样,色谱柱为IonPac AS11-HC型分离柱(250 mm×4 mm),IonPac AG11-HC型保护柱(50 mm×4 mm),柱温30 ℃,流动相:EG自动产生淋洗液梯度淋洗,0 min:1.1 mmol;16 min:1.1 mmol;29 min:16.1 mmol;35 min:20.0 mmol;39 min:35.0 mmol;41 min:35.0 mmol;47 min:50.0 mmol;47.1 min:1.1 mmol;59 min:1.1 mmol。流速1.0 mL/min,抑制器再生模式:外加水电抑制,电导检测器检测进样量25 μL。
定性定量方法:在相同条件下将测定得到的标准溶液和样品溶液中的未知物色谱图保留时间比较进行定性;以峰面积定量。
1.3.5 数据分析与处理
数据来源于对不同工艺酱香型白酒客观结构特征定量分析分类预测数据,数据共有53个特征,4个类别(分别为坤沙、碎沙、翻沙和串沙)。分别用数字1、2、3、4代表坤沙、碎沙、翻沙、串沙对选取的样品数据进行类别标识,由于数据来源于不同工艺的酱香型白酒,其特征维度的数值范围差异较大。为了消除这种差异对模型训练和预测的影响,需要对数据进行归一化处理。归一化是将数据按比例缩放,使之落入一个特定的小区间,范围设置为[0,1]。这样做的目的是改善不同特征之间的可比性,使得模型不会因某些特征的数值范围较大而赋予其过高的权重。
为了评估模型的性能,采用K折交叉验证的方法。这种方法将数据集分为K个大小相等的子集(在本例中,K=5),每个子集轮流作为测试集,其余K-1个子集合并作为训练集。这样做可以更全面地评估模型的泛化能力,因为模型需要在不同的训练集和测试集上进行训练和测试。训练集:1~15(坤沙);32~49(碎沙);68~77(翻沙);88~98(串沙),测试集:16~31(坤沙);50~67(碎沙);78~87(翻沙);99~108(串沙)在训练集上,模型通过学习特征与类别之间的关系来构建分类规则。通过模型预测训练集的准确率达到了100%,在模型训练完成后,将测试集的数据输入到模型中进行预测。通过网格搜索优化支持向量机参数模型测试集的识别率为94.44%。
在基于SVM 算法的分类预测模型中,不同的SVM多分类方法呈现的分类预测效果也各不相同,为验证OVO分类器方法的有效性,选择OVR方法作为对照效果对比如图1所示。
图1 一对其他及一对一多分类方法比较
Fig.1 Comparison of classification methods of one-vs-rest and one-vs-one
为了衡量分类器的性能,四个衡量标准即真正例(true positive,TP)、真反例(ture negative,TN)、假正例(false positive,FP)和假反例(false negative,FN)。分别计算它们的混淆矩阵,并在这些混淆矩阵的基础上综合考察分类准确率、分类精度和召回率。
由图1可知,相较于OVR方法,OVO方法分类准确率明显更高,能达到94%左右,而这说明OVO方法更适合于不同工艺酱酒的分类,同时为了验证GS-MSVM的有效性,将其与BP神经网络、随机森林、决策树和梯度提升等不同的算法[24-26]做对比具体如表1所示。
表1 与其他算法的对比结果
Table 1 Comparison results with other algorithms
识别方法 准确率/% 精确率/% 召回度/%随机森林决策树梯度提升BP神经网络GS-MSVM 88.89 77.78 87.04 48.14 94.44 87.62 71.48 92.37 50 100 100 91.42 100 53.71 100
由表1可以看出,对于分类不同工艺酱酒来说,BP神经网络显得不够精确,而经过GS算法对多分类支持向量机参数优化之后,其分类效果相较于其他类算法更优越,在准确率、精确率和召回率3种评价度量方式下,都略高于其他几种分类算法,这说明模型在进行多分类时的精确性较高。
基于SVM算法,针对不同工艺酱香型白酒的分类预测进行了深入研究。通过建立SVM分类器,利用网格搜索方法对模型的超参数进行优化,最终得到了一个的分类模型。实验证明,采用一对一(One-vs-One)多分类方法相对于一对其他(One-vs-Rest)方法,具有更高的分类准确率,达到了约94.44%的分类精度。此外,通过与其他常用分类算法如随机森林、决策树、梯度提升等进行对比,基于网格搜索的多分类支持向量机模型(GS-MSVM)在分类准确率、精度和召回率等评价指标上均表现出色,优于其他算法,特别是相对于BP神经网络,在分类精度上有了显著的提升。
使用了包括总酸、总酯等53个特征来描述不同工艺酱香型白酒的客观结构特征,并通过对数据进行归一化处理和交叉验证等方法,提高了模型的稳定性和泛化能力。还有一些可能影响分类准确性的因素需要考虑:特征选择是影响模型性能的关键因素之一,选取了一组客观结构特征定量分析来描述酱香型白酒,但是否存在更具代表性的特征组合,以及如何选择最优的特征组合,是一个值得进一步研究的问题。其次样本的数量和质量也会对模型的性能产生影响。收集了108种来自不同工艺酱香型白酒的样品,但是否有必要增加样本的数量,以及如何保证样本的代表性和稳定性,也是需要进一步考虑的问题。通过建立基于网格搜索的多分类支持向量机模型,实现对不同工艺酱香型白酒的分类预测,能够较好的满足当前的需求。
[1]唐贤华.白酒感官品评训练[J].酿酒科技,2019(6):65-68.
[2]CHEN Y L,TU F Y,ZHANG S Y,et al.Application of sensory evaluation in Baijiu production and quality control[J].Liquor Making, 2018,45:59-61.
[3]ZHENG Y,SUN B G,ZHAO M,et al.Characterization of the key odorants in Chinese zhima aroma-type Baijiu by gas chromatography-olfactometry,quantitative measurements, aroma recombination, and omission studies[J].J Agr Food Chem,2016,64:5367-5374.
[4]CAGGIANO A, ZHANG J, ALFIERI V, et al.Machine learning-based image processing for on-line defect recognition in additive manufacturing[J].CIRP Annals,2019,451,4:1-68.
[5]KARASU S,ALTAN A,SARAÇ Z,et al.Histogram based vehicle license plate recognition with KNN method[C]//Proceedings of the 2017 5th International Conference on Advanced Technology&Sciences(ICAT 17),2017.
[6]MCNALLY S,ROCHE J,CATON S.Predicting the price of bitcoin using machine learning[C]//Proceedings of the 2017 26th Euromicro International Conference on Parallel,Distributed and Network-Based Processing(PDP),Cambridge,2018,339-343.
[7]DAS S P, PADHY S.A novel hybrid model using teaching-learningbased optimization and a support vector machine for commodity futures index forecasting[J].Int J Mach Learn Cybern,2018,9(1):97-111.
[8]刘鑫,韩强,周永帅,等.基于GA优化SVM参数的白酒分类识别方法应用研究[J].包装与食品机械,2022,40(2):64-68.
[9]HU S,WANG L,ELFALLEH W.Age Discrimination of Chinese Baijiu based on midinfrared spectroscopy and chemometrics[J].J Food Quality,2021,2021:1-14.
[10]DONG D,ZHENG W,WANG W,et al.A new volatiles-based differentiation method of Chinese spirits using longpath gas-phase infrared spectroscopy[J].Food Chem,2014,155:45-49.
[11]CHEN H, TAN C, WU T, et al.Discrimination between authentic and adulterated liquors by near-infrared spectroscopy and ensemble classification[J].Mol Biomolecul Spectr,2014,130:245-249.
[12]LI Z, WANG P P, HUANG C C, et al.Application of Vis/NIR spectroscopy for Chinese liquor discrimination[J].Food Anal Meth,2013,7:1337-1344.
[13]ZHANG Y,GU J,MA C,et al.Flavor classification and year prediction of Chinese Baijiu by time-resolved fluorescence[J].Appl Opt,2021,60(19):5480-5487.
[14]LI Y,FAN S,LI A,et al.Vintage analysis of Chinese Baijiu by GC and 1H NMR combined with multivariable analysis[J].Food Chem,2021,360:129937.
[15]JIA W,DU A,FAN Z,et al.Molecular mechanism of the role of mare nectaris in the feng-flavor Baijiu aging[J].LWT-Food Sci Technol,2021,135:110254.
[16]ZHANG X,MENG L,LU Z,et al.Identification of age-markers based on profiling of Baijiu volatiles over a two-year maturation period:Case study of Lu-flavor Baijiu[J].LWT-Food Sci Technol,2021,141:110913.
[17]HONG J, ZHAO D, SUN B, Research progress on the profile of trace components in Baijiu[J].Food Rev Int,2021,39(3):1666-1693.
[18]AYMEN M,MOHOMMED B,ADANCE C.GA algorithm optimizing SVM multi-class kernel parameters applied in Arabic speech recognition[J].Ind J Sci Technol,2017,10(27):1-9.
[19]中华人民共和国国家卫生健康委员会,国家市场监督管理总局.GB 12456—2021 食品安全国家标准食品中总酸的测定[S].北京:中国标准出版社,2021.
[20]TREVOR H,TIBSHIRANI R,FRIEDMAN J.The elements of statistical learning[M].New York:Springer,2017.
[21]LIU Y,ZHENG Y F.One-against-all multi-class SVM classification using reliability measures[C]//Proceedings.2005 IEEE International Joint Conference on Neural Networks.Montreal,2005:849-854.
[22]ARDJANI F, SADOUNI K, BENYETTOU M.Optimization of SVM Multiclass by Particle Swarm(PSO-SVM)[J].IJMECS,2010,2(2):32-38.
[23]MAO Y X,WANG T Q,DUAN M L,et al.Multi-objective optimization of semi-submersible platforms based on a support vector machine with grid search optimized mixed kernels surrogate model[J].Ocean Eng,2022,260:112077.
[24]BHATTACHARYYA A,TRIPATHY R K,GARG L,et al.A novel multivariate-multiscale approach for computing EEG spectral and temporal complexity for human emotion recognition[J].IEEE Sensors Journal,2020,21(3):3579-3591.
[25]QING C,QIAO R,XU X,et al.Interpretable emotion recognition using EEG signals[J].IEEE Access,2019,7:94160-94170.
[26]ZHENG W L,SANTANA R,LU B L.Comparison of classification methods for EEG-based emotion recognition[C]//Proceedings of the 2015 World Congress on Medical Physics and Biomedical Engineering.Cham:Springer,2015:1184-1187.
Application of grid search-optimized support vector machine multi-classification parameters in identifying sauce-flavor Baijiu with different processes