基于气相色谱与支持向量机的浓香型白酒基酒等级判断模型研究

白酒酿造过程中，基酒质量等级的准确判断与划分决定了基酒品质与成品酒的调酒效果，是白酒质量控制的关键环节。实际生产中，基酒质量等级的鉴别主要依靠感官尝评，这种方法和品酒人的品酒经验、身体条件、自身喜好、品酒时的状态等有关，有很强的主观性，利用现代科技手段建立科学有效的基酒质量评价方法和标准是当前研究的热点问题[1]。基酒质量评判的依据是酒中风味物质成分的种类和含量，很多学者对白酒风味物质成分检测[2-3]进行了深入研究，常用的检测方法有分子光谱法[4]、气相色谱法[5]、气相色谱-质谱（gas chromatography-mass spectrometry，GC-MS）法[6]、液相色谱法[7]、液相色谱-质谱法[8]、电子鼻[9]、电子舌[10]等。

气相色谱技术是一种简单有效的微量成分分析定量方法，该方法对样品处理条件要求不高，检测信号稳定、响应灵敏、检测线性范围宽，可在分离微量成分的同时分析物质含量，被广泛应用于白酒挥发性成分的分析检测。胡瑾等[11]用气相色谱技术建立了白酒中醇类、酯类、醛类、酮类、酚类共57种风味物质的检测方法。滕明德[12]采用气相色谱保留指数法，发现了6个特征保留指数色谱峰，可作为酱香型白酒判定依据。目前，关于基酒质量识别方法的研究主要是将白酒检测技术与化学计量学结合判定基酒质量等级，陈明举等[13]提取了GC-MS图谱的7个稀疏主成分，采用回归分析建立了浓香型基酒质量评价模型，模型准确率为94%，可以实现白酒质量等级的有效评判；孙宗保等[14]采用高效液相色谱-高分辨质谱分析浓香型基酒，进行主成分分析（principal component analysis，PCA）降维后，结合支持向量机（support vector machine，SVM）、线性判别分析和反向传播人工神经网络（back propagation artificial neural network，BP-ANN）分别建立基酒质量等级判别模型，其中BP-ANN识别率最高可达100%；周轩[15]对浓香型基酒中的挥发性风味物质进行了深入研究，结合化学计量学建立了浓香型基酒等级快速判别模型。应用质谱类分析设备，使用和维护成本较高，在企业中无法实现应用这类设备构建基酒质量等级判断模型。而气相色谱技术能够检测白酒中主要挥发性成分，具有检测精度高，操作简便等特点，在企业中广泛使用并积累了大量历史数据。

支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器，可以通过核方法进行非线性分类。本研究以浓香型白酒基酒为研究对象，从白酒企业实际应用出发，将气相色谱技术与支持向量机相结合，采用气相色谱技术分析基酒中的挥发性风味物质成分，建立基酒质量等级判断的支持向量机模型，以期为企业客观评价浓香型基酒提供一种可行性方案。

1 材料与方法

1.1 材料与试剂

浓香型基酒样品：2022年济南趵突泉酿酒有限责任公司生产的基酒，采集的基酒样品乙醇体积分数为50%～78%；无水乙醇（色谱纯）：福晨化学试剂有限公司；叔戊醇、乙酸正戊酯、2-乙基丁酸（均为色谱纯）：天津市津科精细化工研究所。

1.2 仪器与设备

Agilent7890B气相色谱仪：美国Agilent科技有限公司；UPR-11-10T优普超纯水系统：四川优普超纯科技有限公司；SPE-600纯水氢气发生器、HV-5静音无油空压机：济南浩伟实验仪器有限公司。

1.3 方法

1.3.1 基酒样品收集与等级划分

趵突泉酒厂发酵完成的酒醅上甑蒸馏流酒过程中，每隔1 min接取一个基酒样品。基酒样品由国家级品酒师6人、山东省级品酒师10人及其他专业品酒人员4人根据GB/T 10345—2022《白酒分析方法》中的感官评定要求，按照外观5分、香气25分、口感60分、风格10分的评分标准（满分100分），从窖香、粮香、糟香、口感醇厚度、饱满度、协调度、尾净否、回味长短、异味共9个方面进行评分，根据表1质量等级划分标准判断基酒质量等级。

1.3.2 气相色谱条件

Varian Capillary Column CP-Wax 57 CB色谱柱（50 m×0.25 mm×0.2 μm），载气为高纯氮气（N2），进样量1 μL；进样口温度250 ℃，压力16 psi，隔垫吹扫流量3 mL/min，分流比40∶1；色谱柱流量1 mL/min，柱箱温度为梯度升温，升温程序见表2；检测器为火焰离子化检测器（flame ionization detector，FID），温度为250 ℃，空气流量400 mL/min，氢气燃气流量30 mL/min，尾吹气流量5 mL/min。

1.3.3 样品中挥发性风味物质成分测定

用100μL移液器准确吸取100μL三种内标（以体积分数50%乙醇溶液配制，叔戊醇含量161.7 mg/L，乙酸正戊酯含量182.6 mg/L、2-乙基丁酸含量184.1 mg/L）于样品瓶中，再用1 000 μL移液器准确吸取1 mL样品于样品瓶中，拧紧样品瓶瓶塞，混匀后放入样品盘中，由自动进样器进样检测。

1.3.4 测试集比例和色谱数据优化

（1）单因素试验

以构建模型的测试集比例、分析起始时间、分析结束时间、数据点间隔为自变量，以质量等级判断模型的准确率为评价指标，分别考察测试集比例（70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%）、分析起始时间（4min、5min、6min、7min、8min）、分析结束时间（17min、18 min、19 min、20 min、21 min、22 min）和数据点设置间隔（0.5 min、0.6 min、0.7 min、0.8 min、0.9 min、1.0 min、1.1 min、1.2 min、1.3 min、1.4 min）对模型准确率的影响。

（2）响应面试验

在单因素试验基础上，设置数据点间隔为1 min，以测试集比例（A）、分析起始时间（B）、分析结束时间（C）为自变量，以模型准确率（Y）为响应值，使用Design-Expert 12.0.3软件设计响应面试验，试验因素与水平见表3。

1.3.5 样品与色谱数据处理

将基酒样本中挥发性成分的保留时间与色谱峰面积数据导入MATLAB R2010 a软件，在LIBSVM软件包[16]内写入程序，用Design Expert 12.0.3软件设计响应面试验优化色谱数据，再依次在程序内优化SVM类型与核函数类型，最后对核函数参数v、c、g进行优化，建立基酒质量等级判断的支持向量机模型。

1.3.6 分级多步预测试验

分级多步预测试验共分为3步，建立3个基酒分级模型，分别是将特级、一级、二级基酒数据合并为优级基酒与三级基酒数据建立分级模型1，将特级与一级基酒数据合并为优级与二级基酒数据建立分级模型2，将一级与二级基酒数据合并为优级与特级基酒数据建立分级模型3。构建模型1、模型2和模型3的数据按照1.3.4和1.3.5的方法优化处理后选取最佳参数建立分级模型。

2 结果与分析

2.1 基酒样品分级结果

根据品评打分结果和基酒分级入库标准，所取220个基酒样品中有65个特级、68个一级、52个二级、35个三级，将基酒色谱数据按照品评结果和基酒分级标准分成四个等级，每个等级随机抽取35个样本数据构建基酒质量等级判断的SVM模型。

2.2 基酒中挥发性香气成分分析

加入内标物质以调整并保证样品配制过程偏差在5%以内，整个样品检测周期，采取同一样品重复进样的方式，绘制稳定性色谱分析图，结果表明，同一成分化合物的保留时间前后相差不超过0.5 s，色谱峰面积偏差不超过4%，仪器检测结果的重现性好，检测系统稳定。

对浓香型基酒挥发性风味物质成分进行检测，不同等级基酒样品检测出的挥发性成分数量为71～85个，基酒品质越好，风味物质种类越丰富，基酒中风味物质种类数量由高到低依次为特级、一级、二级、三级。为展现酒中挥发性风味物质种类的丰富性，选择特级基酒为代表样本，其挥发性香气成分气相色谱图见图1。由图1可知，代表样品共分析出81种成分。

2.3 单因素试验优化测试集比例和色谱数据

测试集比例大小关系着模型学习信息量的多少、色谱数据包含的挥发性成分信息是否有效，影响着模型的分级效率，优化测试集比例和色谱数据是提高模型分级准确性的重要措施。前期研究中，色谱分析数据主要是通过PCA做降维处理，来实现酒中特征风味物质成分的提取[17-19]。本实验未利用PCA进行数据降维，而是通过优化色谱数据分析起始时间、分析结束时间、数据点间隔实现保留关键成分，减少干扰因素的目的。

2.3.1 测试集比例对模型准确率的影响

在软件数据优化程序中将色谱数据分析起始时间设为4 min，分析结束时间设为25 min，数据点间隔设为1 min，对测试集的比例进行优化，结果见图2。

由图2可知，随着测试集比例由70%升高到82%，模型准确率先曲线上升，后逐渐下降，当测试集比例为75%时，模型准确率最高为83.78%。这是由于增大测试集比例后，模型可以学习到更多不同等级基酒的特征信息，从而更好的区分不同等级基酒；当测试集比例过大时，会出现过度学习与模拟的问题，反而使模型预测准确率降低。综合考虑，最佳测试集比例为75%。

2.3.2 分析起始时间对模型准确率的影响

测试集比例设为75%，色谱数据分析的结束时间设为25 min，数据点间隔设为1 min，对分析起始时间进行优化，结果见图3。

由图3可知，随分析起始时间增加，模型准确率先保持平缓后明显降低。这是由于延后分析起始时间，会使色谱保留时间在分析起始时间之前的成分被舍弃，如果被舍弃的成分不重要或为分级模型的干扰信息，则对模型运行准确率不产生影响或提高模型分级准确率，如果被舍弃的成分是区分不同等级基酒的重要成分，则会使模型分级能力下降，表现为模型预测准确率降低。当分析起始时间由5 min延后至6 min时，模型预测准确率由83.4%下降至77.8%，说明舍弃5～6 min的成分会降低预测模型的准确率，即保留时间在5～6 min的成分对模型等级判断准确率贡献明显。因此，最佳分析起始时间为5 min。

2.3.3 分析结束时间对模型准确率的影响

测试集比例设为75%，色谱数据分析起始时间设为5 min，数据点间隔设为1 min，对分析结束时间进行优化，结果见图4。

由图4可知，随着分析结束时间提前，模型分级准确率先提高后降低。这是由于分析结束时间提前会舍弃更多影响模型分级准确性的干扰信息，使模型分级准确率提高；当分析结束时间提前太多时，会使区分不同等级基酒的关键成分色谱信息丢失，从而导致模型识别不同等级基酒的能力下降，表现为模型分级准确率降低。因而，分析结束时间由19 min提前至18 min时，模型准确率迅速降低，说明色谱峰保留时间在18～19 min的成分是影响分级模型准确性的关键风味物质。综合考虑，最佳分析结束时间为19 min。

2.3.4 数据点设置间隔对模型准确率的影响

测试集比例设为75%，色谱数据分析的起始时间设为5 min，分析结束时间设为19 min，对数据点间隔时间进行优化，结果见图5。

由图5可知，随数据点设置间隔时间增加，模型准确性先降低后增加再波动，因为采集数据点的时间间隔太密集会将部分特征峰分割，降低模型运行准确度；太稀疏会使采集时间间隔内更多的特征峰合并，可能造成关键色谱成分分析的准确性降低。当数据点设置间隔时间为1 min时，模型预测准确性最佳。

2.4 响应面法优化测试集比例和色谱数据

2.4.1 Box-Behnken响应面试验结果

单因素试验分析结果显示，4个因素对基酒质量判断模型的准确率均有显著的影响效果。数据点间隔的单因素试验点设置密集，且间隔1 min时的准确率明显高于其他数据点间隔，因而固定数据点间隔为1 min，对其他3个因素进行响应面优化试验。以测试集比例（A）、分析起始时间（B）和分析结束时间（C）为自变量，以分级模型预测准确率（Y）为响应值，优化构建模型的测试集比例和色谱数据，Box-Behnken 试验设计及结果见表4。

2.4.2 响应面模型方差分析

对响应面试验的数据进行多元回归分析拟合，得到回归方程：Y=83.78+0.73A-1.08B+2.17C-0.73AB+1.20AC-0.35BC-4.31A2-2.73B2-4.87C2，回归方程方差分析结果见表5。

由表5可知，模型F值为61.17，P值＜0.001，说明模型极显著（P＜0.01）。由P值可知，一次项B、C，二次项A2、B2、C 2对结果影响极显著（P＜0.01），一次项A，交互项AC对结果影响显著（P＜0.05）。本研究中，同一参数条件下，基酒判断模型的准确率相同，因而纯误差项为0。P值越小，F值越大，该因子作用效果越强，由表5可知，FC＞FB＞FA且PA＞PB＞PC，表明影响基酒等级判断模型准确率顺序为分析结束时间＞分析起始时间＞测试集比例。决定系数R2较高0.983，表明该模型可靠性好，R2Adj值为0.972，R2Pre值为0.801，二者之差＜0.20，表明模型预测值较可靠。变异系数（coefficientof variation，CV）值[20]可评估模型的再现性，若CV值＞10，则平均值的变化程度太高，模型可靠性低[21]，该研究中CV值为0.93，表明本模型准确可靠。

2.4.3 响应面结果分析与验证

各因子与响应值的关系形成的多元线性回归方程构成了响应面图，响应面图的坡度可体现该因子的作用程度，坡度越陡，则对基酒判断模型准确性的影响越大，各因素交互作用对准确率的影响结果见图6。

由图6可知，测试集比例、分析起始时间、分析结束时间三者间存在明显的交互作用，其中测试集比例与分析结束时间两个变量形成的曲面图最陡峭，二者对模型的影响最明显。随着测试集比例增加、分析起始时间减少和分析结束时间增加，模型分级准确率均为先升后降的趋势，与单因素试验结果一致。解回归方程得出测试集比例为75.3%，分析起始时间为4.51 min，分析结束时间为19.43 min，得到理论值为83.81%，实际值为82.17%。

为提高模型运行效率，结合实际可行性，测试集比例设为75%，分析起始时间设为5 min，分析结束时间设为19 min时，模型预测准确率为83.78%，与响应面试验预测值83.81%接近，说明用响应面试验分析优化色谱数据的方案有效可行。在此条件下，代表样品色谱峰数量由81个减为41个，模型运行时间由12.5 min缩短至6.7 min，模型运行效率得到大幅提升。研究结果表明，色谱优化程序可减少非关键成分对模型影响，提高模型优化准确性，降低模型运算量，缩短模型运行时间，实现色谱数据的有效处理。

2.5 SVM类型、核函数类型优化

支持向量机是一种计算边界的决策方法，可用来划分一组数据的不同类[22]，是模式识别任务中应用最多的方法之一，尤其是在分类和回归问题中[23]。SVM有5类、核函数有4类，优化结果见表6。由表6可知，c-多类别支持向量分类SVM预测效果较理想，对多类别SVM的核函数进行优化，径向基（radial basis function，RBF）核函数预测准确率较高，因此，本研究适用于c-多类别RBF型支持向量机模型。

2.6 SVM核函数参数优化

当进行SVM运算时，有三个关键问题需要解决：最优输入特征子集、合适的核函数、最佳核函数参数[24]。参数v、c、g是RBF核函数的三个关键要素，参数v能影响SVM的泛化能力，可解决数据集不均衡的不良影响[26]，惩罚系数c决定了函数对误差的宽容度，g值大小影响支持向量个数。参数v的取值影响c和g的最佳取值结果，经参数优化程序选择，当v为5时，SVM识别效率最好，再以log2c和log2g为自变量，以准确率为响应值，采用搜索网格法与十字交叉验证寻找最优的c和g，结果见图7。由图7可知，当c值为181，g值为0.35时，模型分级准确率可达到94.0%。

2.7 分级多步试验

为分析四个级别基酒质量等级划分准确性的具体情况，本研究设计了分级多步预测方法，将四个等级基酒从三级酒开始逐级合并为两个等级，按照1.3.6共设计了3种分级多步预测方案，建立了3个分级模型。先按照文中单因素试验与响应面试验的方法对色谱数据进行优化，再依次对核函数类型、参数v、c、g进行优化，优化结果见表7。

由表7可知，三级基酒分级准确率为100%，一级基酒与二级基酒的分级准确率为97.3%，特级基酒与一级基酒的分级准确率为95.1%。结果表明，通过分级多步预测试验，能够准确预测三级基酒，二级基酒的识别力较好，特级与一级基酒辨别力稍弱，如果需要进一步提高模型预测能力，需补充或调整特级和一级基酒的数据，该试验为提高四个级别基酒模型分级准确率提供了数据分析。

2.8 基酒等级判断模型主成分分析

红外无损检测技术[25]应用于在线摘酒设备是当前智能酿造的热点问题，确定影响基酒关键风味物质的种类是关键。本研究共找出10种主要风味物质成分，其主成分贡献率结果见表8。由表8可知，这10种成分贡献了基酒质量等级划分97.2%的信息，其中己酸乙酯、乙醇、乳酸乙酯和乙酸乙酯4种成分累计方差贡献了分级模型79.1%的信息，是浓香型基酒等级划分的关键成分，这与XU Y Q等[26]对酯类化合物在白酒中贡献的研究结果基本一致。这4种成分是影响量质摘酒效率的重要风味物质，可为摘酒过程中利用红外技术在线检测何种关键风味物质提供参考。

3 结论

本研究以浓香型基酒为研究对象，利用气相色谱法，以特定间隔时间内色谱峰面积为数据点进行提取和计算，无需对各个峰进行定性和定量计算，减少了数据处理的难度。采用色谱数据优化程序提高模型判断准确率的同时，基酒代表样品风味物质色谱峰数量由81个减为41个，模型运行速度大幅提升，为有效处理色谱数据提供了新的思路。采用气相色谱技术结合支持向量机建立的基酒质量等级判断模型准确率为94%，可实现基酒等级质量的客观判断。进行分级多步试验后，三级酒分级准确率为100%，二级与特级、一级酒模型等级判断准确率为97.2%，特级与一级、二级酒模型分级准确率为95.1%，得出特级与一级酒之间有部分样本识别不好，找到了提高模型分级准确率的影响因素。研究中找出了4种影响质量等级判断的关键风味物质成分，对于红外快检技术的实际应用有重要意义。

[1]陈飞，张良，霍丹群，等.浓香型白酒基酒的现状和发展趋势[J].中国酿造，2017，36（10）：5-8.

[2]吴成林，胡家艺，张惟广.白酒风味物质研究进展及关键技术分析[J].食品研究与开发，2022，43（3）：207-215.

[3]张晓婕，邱树毅，王晓丹，等.白酒挥发性风味物质气相分析方法及研究进展[J].食品与发酵工业，2021，47（14）：313-320.

[4]辛新.基于分子光谱技术的浓香型白酒基酒品质检测研究[D].镇江：江苏大学，2017.

[5]MA N,YI F P,ZHU J C.Characterization of aroma active compounds and perceptual interaction between esters and sulfur compounds in Xi Baijiu[J].Eur Food Res Technol,2020,246:2517-2535.

[6]SUN J Y,DONG R,ZHANG Z F G,et al.Joint direct injection and GC-MS chemometric approach for chemical profle and sulfur compounds of sesame favor Chinese Baijiu(Chinese liquor)[J].Eur Food Res Technol,2018,244:145-160.

[7]李永霞.液相色谱分析法在白酒检测中的运用分析[J].食品安全导刊，2022（23）：184-186.

[8]WANG G N,LI X,SONG X B,et al.Optimization and validation of a method for analysis of non volatile organic acids in Baijiu by derivatization and its application in three flavor types of Baijiu[J].Food Analytical Methods,2022,15:1606-1618.

[9]YU H Y,DAI X,YAO G Y,et al.Application of gas chromatography-based electronic nose for classification of Chinese rice wine by wine age[J].Food Anal Meth,2014,7:1489-1497.

[10]彭厚博，李丽，吴键航，等.基于电子舌技术的浓香型白酒基酒年份分类方法[J].中国酿造，2022，41（3）：158-162.

[11]胡瑾，马一飞，罗佳雪，等.气相色谱法同时测定白酒中57种风味物质[J].中国酿造，2022，41（5）：206-211.

[12]滕明德.气相色谱法鉴定酱香白酒[J].现代食品，2022，28（18）：181-184.

[13]陈明举，周迪，王鸿，等.基于GC-MS的浓香型白酒等级评判模型研究[J].中国酿造，2021，40（10）：102-107.

[14]孙宗保，周轩，吴建峰，等.基于超高效液相色谱-高分辨质谱的白酒基酒等级判别[J].中国酿造，2019，38（4）：42-46.

[15]周轩.浓香型白酒基酒挥发性成分分析及等级识别研究[D].镇江：江苏大学，2019.

[16]李爱英.基于RF-Kmeans-LIBSVM的乌鲁木齐市颗粒物浓度预测研究[J].环境保护科学，2022，48（4）：118-124.

[17]ALTINEL B,GANIZ M C.A new hybrid semi-supervised algorithm fortext classification with class based semantics[J].Knowl-Based Syst,2016,108:50-64.

[18]张劲松，周迪，陈明举，等.基于稀疏主成分分析白酒GC-MS图谱分类识别技术[J].中国酿造，2022，41（4）：216-221.

[19]祝海江，唐昊，孙静娴，等.基于时频谱特征的白酒品质分类方法研究[J].光谱学与光谱分析，2021，41（9）：2962-2968.

[20]郑舒怡，左佳昕，戴鑫，等.响应面法优化酶法制备薏苡仁寡糖工艺研究[J].化学试剂，2023，45（2）：90-97.

[21]GONZALO H,ROBERTO L,ALEJANDRA U.Detection of abnormal processes of wine fermentation by support vector machines[J].Cluster Comput,2016,19:1219-1225.

[22]ABE S.Support Vector Machines for Pattern Classification[M].2nd edn.London:Springer,2010.

[23]杨建磊，朱拓，徐岩，等.基于最小二乘支持向量机算法的三维荧光光谱技术在中国白酒分类中的应用[J].光谱学与光谱分析，2010，30（1）：243-246.

[24]张小路.v-支持向量机中参数选取的两种模型[D].大连：大连理工大学，2008.

[25]周瑞，陈晓明，张莉丽，等.化学计量学结合中红外光谱的浓香型白酒分类研究[J].食品与发酵工业，2022，28（10）：1-9.

[26]XU Y Q,ZHAO J R,LIU X,et al.Flavor mystery of Chinese traditional fermented Baijiu: The great contribution of ester compounds[J].Food Chem,2022,369:130920.