白酒在中国具有独特的地位,是中国具有代表性的饮品之一。其中以浓、酱、清、米为基础,逐步衍生出其他香型,构成了现有的12种香型[1]。基酒是粮食经过发酵、蒸馏后所得未经勾兑的原始酒液,受到不同的季节、班组、窖池、糟醅的影响,基酒质量各不相同,产品批次间的质量也有不同程度的差异[2]。基酒质量对成品酒起决定性的作用,因此基酒分级工作就尤为重要[3],对基酒进行分级可以让各等级基酒物尽其用,保证不同等级成品酒实现最高产量,最大程度保证白酒生产企业的经济效益。 然而,目前各大酒厂的基酒主要分级方法主要还是依靠人工感官品评来实现。白酒作为服务于消费者的产品,以“人”的感官来评判好坏这毋庸置疑,但人工感官品评主观性强、易疲劳、难以量化、易受环境影响、成本高等缺点[4]都是当前需要解决的关键问题。
随着检测仪器的技术迭代,以及计算机行业的发展,以仪器检测数据为基础样本,配合机器学习的分析与人工感官品评结果来构建映射的辨识模型,成为了白酒分级的一个重要的发展方向。孙宗保等[5]采用超高效液相色谱-高分辨质谱联用(ultra-high performance liquid chromatography-Q-Exacive-mass spectrometry,UPLC-Q-Exacive-MS)技术对不同等级浓香型白酒基酒进行分析,经过主成分分析(principal component analysis,PCA)降维处理,结合线性判别分析(linear discriminant analysis,LDA)[6]、支持向量机(support vector machine,SVM)[7]和反向传播神经网络(Backpropagation artificial neural network,BP-ANN)等多种化学计量学方法建立白酒基酒等级判别模型,最终选择以BPANN为核心,成功构建判别模型。 庞婷婷等[8]结合遗传算法[9-10](genetic algorithm,GA)和引导聚集算法(Bootstrap aggregating,Bagging)优化支持向量机分类器的方法,以解决单一SVM分类器在分类精度和泛化能力的不足,最终构建GA-Bagging-SVM模型。 张维等[11]将气质联用(gas chromatography-massspectrometry,GC-MS)数据和近红外光(near infrared,NIR)数据的有效特征信息进行数据融合,可以改善单一检测技术对不同等级原酒特征信息表征不全面的缺点,在单一数据源的基础上提高原酒等级鉴别的准确率和稳定性。刘斐[12]对掺假的白酒样品进行了平行因子分析,找出了潜在的标志物质:庚酸、糠醛、油酸乙酯,构建了多种机器学习模型,其中支持向量机(SVM)模型效果最佳,模型性能在93.00%以上。李烘[13]构建了基于生产特征的白酒质量分类与产量回归预测模型,并通过机器学习与深度学习的融合,进一步降低了白酒产量回归预测的误差。
以上研究者都在基酒分级以及类似的领域取得了成果,包括Matlab模式识别、支持向量机与线性判别分析在内的机器学习工具都具有优秀的分辨能力,但以上研究者依赖多种高端检测设备,很多公司无法将其研究结果直接应用于生产,使得理论难以实践。为满足更简单的实际应用,本研究采用气相色谱法分析基酒中挥发性风味物质,利用气相色谱检测数据,基于气味活度值(odor activity value,OAV)筛选关键挥发性风味物质(OAV>1),使用Simca1 4.0软件进行正交偏最小二乘判别分析(orthogonal partial least squares-discriminant analysis,OPLS-DA),基于变量重要性投影(variable importance in the projection,VIP)值>1,确定不同等级的浓香型白酒之间的关键差异挥发性风味化合物,并使用Matlab模式进行模型构建,最终得到可以利用气相色谱法检测数据,来辅助人工感官品评的基酒的等级判别模型,降低主观因素对分级工作造成的干扰程度,使得基酒的分级工作更加准确、快速。
浓香型白酒基酒(100份构建模型测试样品及50份模型验证样品,分为5个等级,分别为A、B、C、D、E):四川绵竹剑南春酒厂有限公司;2-乙基丁酸(>99%):上海阿拉丁生化科技股份有限公司;乙酸正戊酯(>99%):梯希爱(上海)化成工业发展有限公司。
Agilent-6890N气相色谱(GC)仪(配备Agilent 7683自动进样器)、Agilent DB-WAX UI色谱柱(30 m×0.25 mm×0.25 μm):安捷伦科技(中国)有限公司;Milli-Q IQ 7000超纯水系统:西格玛奥德里奇(无锡)生化科技有限公司。
1.3.1 感官品评
由车间工人进行第一次分级,再经公司省级白酒尝评人员组成的专业尝评团队,按照国标GB/T 10345—2022《白酒分析方法》、企业标准的相关要求,对基酒进行等级评估,最终确定的基酒等级为A、B、C、D、E,每个等级基酒样品20份。
1.3.2 挥发性风味物质测定
白酒基酒样品中挥发性风味物质测定采用气相色谱法。
白酒基酒样品分别加入内标2-乙基丁酸(461.00 mg/L)与乙酸正戊酯(438.25 mg/L)各5 μL,混匀后,直接进样检测。
气相色谱条件:Agilent DB-WAX UI色谱柱(30 m×0.250 mm×0.25 μm);进样量2 μL;进样口温度260 ℃;分流进样,分流比25∶1;流量19.1 mL/min;载气为高纯氮气(N2),载气流量22.3 mL/min,恒定流量模式;平均流速21 cm/s;程序升温为初始柱温40 ℃,保持4 min,以5 ℃/min升温至100 ℃,以10 ℃/min升温至220 ℃,保持8.6 min。检测器为氢火焰离子化检测器(flame ionization detector,FID),检测器温度为260 ℃。
定性定量方法:通过查询美国国家标准技术研究所(National Institute of Standards and Technology,NIST)数据库进行比对,根据匹配度>800对化合物进行初步定性,再计算各化合物保留指数(retention index,RI),结合文献报道的保留指数进行比较,与标准品在相同色谱条件下的保留时间进行对比,最终定性该物质。 采用内标法进行定量分析。
1.3.3 白酒基酒分级辨识模型构建及验证
采用MATLAB 的Patternnet 建立两层前馈网络(输入-隐层-输出),隐层8 节点,激活函数tansig/softmax。训练调用缩放共轭梯度反向传播(trainscg),该算法基于共轭方向,省却每次迭代的线搜索,内存占用低;当达到最大epoch、时间上限、目标误差、最小梯度或验证误差连续上升max_fail 次时终止。 数据按7∶1.5∶1.5 随机拆分为训练、验证与测试集,网络在训练阶段自动完成早停,最终输出混淆矩阵。
分类一致性用Kappa系数评价:k=(p0-pe)/(1-pe),其中p0为总体准确率,pe为随机一致率,k越接近1表示一致性越高。
1.3.4 数据处理与分析
基于GC检测数据,过滤掉未检出数据项与含量过低的微量化合物,并对样品的数据进行处理,采用Simca 14.0软件对数据进行OPLS-DA分析,计算变量重要性投影(VIP)值,以VIP>1为条件筛选关键差异化合物,并结合MatlabR2024b软件进行分析,通过模式识别工具箱,构建浓香型基酒的分级辨识模型,随机数据划分,量化共轭梯度为训练算法,交叉熵误差为性能判别。
为研究不同等级基酒的香气特征,找出影响基酒风味的差异性化合物,本研究利用气相色谱(GC)法通过两种内标定量,对5个等级的基酒样品挥发性风味物质进行分析。 结果表明,A级基酒样品共检出83种挥发性风味物质,其中酯类29种、醇类16种、醛类7种、酮类7种、酸类10种、杂环类8种、(半)缩醛类4种、烃类2种;B级基酒样品共检出83种挥发性风味物质,其中酯类29种、醇类16种、醛类7种、酮类7种、酸类10种、杂环类8种、(半)缩醛类4种、烃类2种;C级基酒样品共检出83种挥发性风味物质,其中酯类29种、醇类16种、醛类7种、酮类7种、酸类10种、杂环类8种、(半)缩醛类4种、烃类2种;D级基酒样品共检出83种挥发性风味物质,其中酯类29种、醇类16种、醛类7种、酮类7种、酸类10种、杂环类8种、(半)缩醛类4种、烃类2种;E级基酒样品共检出83种挥发性风味物质,其中酯类29种、醇类16种、醛类7种、酮类7种、酸类10种、杂环类8种、(半)缩醛类4种、烃类2种。
结果表明,不同样品的挥发性风味物质含量上存在着明显的差异。由于不同等级基酒微量风味物质的含量差异与风格口味差异存在规律[14],因此本研究旨在探究数据与风味的联系,并构建模型辅助基酒分级工作。
首先将所有的未检出物质删除,然后通过重新积分,调整校正表等,将错误的检测数据进行修正,得到60种挥发性风味物质。 由于部分物质的含量接近于定量限(limit of quantitation,LOQ),检测时会出现数据误差过大的情况,可能会导致最终模型准确性过低。因此,为减轻GC检测的误差对模型构建的影响,以60种微量风味物质的含量为基准,参考JAIN A K等[15]提出的为了获得良好的分类精度,特征维数至少应为每个类别所需的预测变量数的10%~20%的标准,本研究的100个样品所选取的最终预测变量数(即单个样品的风味物质种类)应保持在10~20个,因此根据气味活度值(odor activity value,OAV),筛选出29种关键挥发性风味物质(OAV>1)进行下一步筛选分析。
2.2.1 构建OPLS-DA模型
正交偏最小二乘分析法(OPLS-DA)是一种基于偏最小二乘回归(partial least-squares regression,PLSR)的多元统计分析方法,专门用于分类和判别分析,尤其适用于高维、多重共线性数据,其被广泛应用于差异性物质筛选的研究中,因此本研究以100个样品中筛选出的29种关键挥发性风味物质(OAV>1)的GC检测数据为自变量,以样品等级为因变量,导入Simca 14.0软件,进行正交偏最小二乘分析(OPLS-DA)及模型200次置换检验,结果见图1。
图1 5个等级(a)及3个等级(b)白酒基酒酒样正交偏最小二乘-判别分析及200次置换检验结果(c)
Fig. 1 Orthogonal partial least squares-discriminant analysis of 5 grades (a) and 3 grades(b) Baijiu base liquor samples and 200 permutation test results (c)
由图1a可知,自变量拟合指数R2X为0.827,因变量拟合指数R2Y为0.627,模型预测指数Q2为0.553,R2和Q2超过0.5即表示模型拟合结果可接受[16-17]。结果表明,模型具有较强的方差解释能力,区分组别能力模型预测指数Q2>0.5,说明模型是有效的,通过交叉验证评估模型具有预测能力。D级酒基本处于第四象限中,E类酒均分布在第三象限处,D、E两个等级相较于其他等级基酒有良好的分离状态,A级酒分布在纵轴正半轴两侧,也能实现完全分离。 由于D、E两个等级的高分辨率使得图1中整体图形的比例出现偏差,使得B、C等级的聚集明显。 因此,单独对A、B、C等级白酒基酒洒样进行OPLS-DA,结果见图1b。 由图1b可知,A级酒主要分布在第一、四象限,C级酒主要分布在第三象限,B级酒分布在第二象限,存在部分混合的情况,但总体上分组效果明显。
模型置换检验是通过随机重排样本的标签,构建多个虚拟模型,评估原始模型的统计显著性,以及是否过拟合[18-19]。由图1c可知,Q2回归线与纵轴的交点(即截距=-0.241)小于零,R2截距为0.114,且图中左侧的点均低于右侧的点,说明模型不存在过拟合,模型验证有效。
2.2.2 关键差异风味化合物筛选
变量重要性投影(VIP)是OPLS-DA模型变量的变量权重值,可用于衡量各种物质积累差异对各组样本分类判别的影响强度和解释能力[19]。为构建辨识模型,以VIP值作为依据,将微量风味物质对最终呈香呈味的贡献度进行量化[20],筛选出关键差异风味物质。 关键差异风味物质筛选标准一般为VIP>1,变量的分类贡献度与VIP值呈正相关,VIP值越大,说明该风味成分对白酒的风味差异贡献越大[20-23]。岳小淋等[24]基于香气活度值(OAV>1)和变量重要性投影值(VIP>1),借助PCA和OPLS-DA建模,可以对不同等级浓香型白酒基酒进行有效区分,说明筛选组分的操作具有合理性。本研究基于变量重要性投影(VIP)值,筛选关键差异风味物质(OAV>1,VIP>1),结果见图2。
图2 不同等级白酒基酒酒样挥发性风味物质变量重要性投影值
Fig. 2 Variable importance in the projection values of volatile flavor components in Baijiu base liquor with different grades
由图2可知,甲醇、糠醛、乳酸乙酯、辛酸乙酯、乙醛、正丙醇、正丁醇、1,1-二乙氧基-3-甲基丁烷、己酸、乙缩醛、己酸乙酯、庚酸乙酯、乙酸乙酯、2-丁醇、丁酸乙酯15种物质为关键差异风味物质(OAV>1,VIP>1),基于关键差异风味物质的GC数据,进行白酒辨识模型的构建。
2.3.1 神经网络结构
本研究基于筛选的15种关键差异风味物质,对100个样品进行分级辨识模型的构建,采用神经网络模式识别,将样品数据划分为70%的训练集、15%的验证集、15%的测试集,划分方式为随机划分,采用量化共轭梯度,交叉熵误差,层数为8,最终得到一个训练交叉熵0.025 3、误差0.028 6,验证交叉熵0.029 8、误差0.066 7,测试交叉熵0.042 1、误差0.066 7的白酒基酒分级辨识模型。 本研究的神经网络辨识模型架构见图3所示,通过15个预测变量(input)的输入,在8层隐藏层(即节点数)进行训练,激活函数为:隐藏层tansig(双曲正切S型)或logsig(对数S型)、输出层softmax,输出5种等级分类。
图3 神经网络分级辨识模型架构
Fig. 3 Architecture of neural network grading discrimination model
2.3.2 模型混淆矩阵
混淆矩阵的原理是通过列表的方式,表达给定的每个样品判断正确的概率,以及误判类型,并以混淆矩阵评估模型性能[25-26]。模型训练、验证、测试以及综合混淆矩阵见图4。 由图4可知,从混淆矩阵中可以看出,每一个数据集的正确率均>90%,说明辨识模型的分类性能良好,同时也与正交偏最小二乘法(OPLS-DA)的结果一致,B、C两个等级在训练集与验证集中出现少量判别错误的情况,其他等级的分类非常准确。同时A类酒也有小概率会出现误判成B类酒的情况,总的来说,该模型满足分级的需求,可以作为白酒基酒的分级依据。
图4 模型训练、验证、测试以及综合混淆矩阵
Fig. 4 Model training, validation, testing and comprehensive confusion matrix
2.3.3 模型接受者操作特性曲线
根据构建的模型得到了训练、验证、测试、综合四个接受者操作特性(receiver operating characteristic,ROC)曲线,ROC曲线是反向传播(back propagation,BP)神经网络在二元判别任务中以受试者工作特征(receiver operating characteristic)方式对后验概率输出进行阈值遍历(threshold sweeping)所得到的真阳性率-假阳性率(true positive ratefalse positive rate,TPR-FPR)轨迹。该曲线通过单调非减映射将连续型判别函数转化为二值决策,其曲线下面积(area under curve,AUC)等价于Mann-Whitney U统计量,衡量网络潜在判别阈值下的期望排序性能。徐佩珍等[26]通过比较ROC曲线,对比评估两种模型的性能,说明ROC曲线可以作为模型性能的评估依据。模型训练、验证、测试以及综合接受者操作特性曲线见图5。 由图5可知,从ROC曲线中可以看出,曲线下面积(AUC)都接近于1,每个数据集的真阳性率(TPR)均很高,以及假阳性率(FPR)均很低,进一步佐证了辨识模型的优秀性能曲线越接近左上角,模型性能越好,综合ROC曲线与混淆矩阵可知,模型从多个维度均呈现一个良好的效果,确保了模型最终呈现结果的真实性,可靠性。
图5 模型训练、验证、测试以及综合接受者操作特性曲线
Fig. 5 Receiver operating characteristic curves of training, validation, testing and comprehensive of the model
2.3.4 模型性能曲线
通过构建模型得到的性能曲线见图6。 由图6可知,当模型训练到25轮的时候,验证集的交叉熵最小(0.029 793),此轮则是辨识模型性能最好的时候,且训练、验证、测试三条性能曲线均具有非常明显的下降趋势,同时三条曲线集中,说明模型的性能良好,已经具备完整的识别能力。此外,训练集与验证集的交叉熵在第25轮以前一直保持接近,且逐渐下降并趋于平稳,说明第25轮的训练模型未过拟合,且是构建的模型中性能最优的,因此模型的泛化能力强。 通过本研究的研究路径,白酒生产企业可以通过引入适量数据,构建分级辨识模型,再将盲样待检测数据导入模型,即可对基酒进行分级。 说明本研究的方法已经能够达到目的,即以气相色谱数据为基础,构建浓香型基酒分级辨识模型,辅助感官品评人员进行基酒的分级工作,同时能够应用于实际生产中。
图6 模型性能曲线
Fig. 6 Performance curves of model
浓香型基酒分级辨识模型构建完成后,随机采样50个(每个等级各10个),进行相同的GC检测,将检测数据进行处理,然后将其导入至分级辨识模型中进行附加验证。 最终交叉熵为0.024 2、误差为0.060 0,混淆矩阵与ROC曲线见图7。
图7 附加测试集混淆矩阵(a)及接受者操作特性曲线(b)
Fig. 7 Confusion matrix (a) and receiver operating characteristic curve (b) of supplementary test set
由图7a可知,模型主要误差容易出现在B级、C级基酒的区分上,经过对酒样生产与人工分级的调查研究分析其原因是相对于A、D、E来说,B、C的酒在品质上本身就更加接近,因此其数据的相似程度高,在模型的计算分析过程中偶有误判,属于正常现象。由图7b可知,ROC曲线的曲线下面积(AUC)偏小但也能满足需求,总的来说模型辨识能力良好,可见经验证,模型依旧能保持准确的结果。由于本研究采用人工感官品评作为分级结果来构建模型,因此预测等级样本数应为(A:10;B:10;C:10;D:10;E:10),由图7a可知,模型真实等级样本数为(A:10;B:12;C:9;D:10;E:9)。
Kappa系数的取值范围在-1到1之间。当Kappa值接近1时,表示分类者之间的一致性非常高;接近0时,表示一致性仅略高于随机猜测水平;为负数时,则表示一致性低于随机猜测水平。 经计算,Kappa系数(k)=0.938 776,表明本方法能够更简单方便的完成模型辅助基酒分级工作。
本研究成功构建了一种以气相色谱(GC)法为检测手段与神经网络工具为处理核心的浓香型白酒基酒分级辨识模型。通过对不同等级(A、B、C、D、E级)的100个基酒样品挥发性风味成分进行GC分析,基于气味活度值(OAV)筛选出29种关键挥发性风味物质(OAV>1),在此基础上构建正交偏最小二乘判别分析(OPLS-DA)模型,通过变量重要性投影值筛选出15种对等级区分具有核心贡献的关键差异风味物质(OAV>1,VIP>1),并基于筛选出的15种关键差异风味物质数据构建神经网络分类模型。模型训练集、验证集和测试集的分类准确率均超过90%,具有很高的灵敏度和特异性。使用随机独立抽取的50个样本(每等级10个)进行外部验证,结果表明,模型性能优秀。 本研究建立的白酒基酒分级辨识模型,实现了利用常规分析数据对浓香型基酒进行准确、高效的等级辨识,具有良好的应用前景。
[1] 郑福平,马雅杰,侯敏,等. 世界6大蒸馏酒香气成分研究概况与前景展望[J] .食品科学技术学报,2017,35(2):1-12.
[2] 陈鲁灿,王光第,王娜,等. 浅析大循环工艺在浓香型白酒生产中的应用研究[J] .酿酒,2024,51(5):115-117.
[3] 王俊,陈仁远,赵文武,等. 仁怀大曲酱香轮次基酒质量状况研究[J] .中国酿造,2016,35(11):103-107.
[4] 王建伟,叶升. 电子鼻在食品行业的应用进展[J] . 中国调味品,2022,47(10):198-200,205.
[5] 孙宗保,周轩,吴建峰,等.基于超高效液相色谱-高分辨质谱的白酒基酒等级判别[J] .中国酿造,2019,38(4):42-46.
[6] ALIYA, LIU S, ZHANG D, et al. Research on the evaluation of Baijiu flavor quality based on intelligent sensory technology combined with machine learning[J] .Chemosensors,2024,12(7):125.
[7] CHEN H, TAN C, WU T, et al. Discrimination between authentic and adulterated liquors by near-infrared spectroscopy and ensemble classification[J] .Spectrochim Acta A,2014,130:245-249.
[8] 庞婷婷,张贵宇,刘科材,等. 基于遗传和引导聚集算法优化支持向量机的白酒基酒品质评估方法[J] .食品科学,2025,46(6):275-284.
[9] MNASSRI A,BENNASR M,CHERIF A,et al.GA algorithm optimizing SVM multi-class kernel parameters applied in arabic speech recognition[J] .Ind J Sci Technol,2017,10(27):1-9.
[10] 刘鑫,韩强,周永帅,等. 基于GA优化SVM参数的白酒分类识别方法应用研究[J] .包装与食品机械,2022,40(2):64-68.
[11] 张维,张贵宇,庹先国,等.基于NIR和GC-MS融合技术的浓香型白酒原酒等级鉴别[J] .食品科学,2024,45(21):288-296.
[12] 刘斐.基于机器学习算法的酱香型白酒真实性多源数据表征研究[D] .湘潭:湘潭大学,2024.
[13] 李烘.白酒产量预测与生产工艺参数优化算法研究[D] .成都:电子科技大学,2020.
[14] 韩云翠.浓香型基酒香气模型构建与自动化摘酒研究[D] .济南:齐鲁工业大学,2023.
[15] JAIN A K,DUIN R P W,MAO J.Statistical pattern recognition:a review[J] .Ieee T Pattern Anal,2000,22(1):34-37.
[16] 杜玲玲,孟晓伟,胡伊涵,等. 不同陈化年份陈皮(樟头红)挥发成分差异的电子鼻与HS-GC-MS对比分析[J] . 食品科学,2025,46(11):253-262.
[17] YUN J, CUI C, ZHANG S, et al. Use of headspace GC/MS combined with chemometric analysis to identify the geographic origins of black tea[J] .Food Chem,2021,360:130033.
[18] GU Y,ZANG P,LI J,et al.Plasma metabolomics in a deep vein thrombosis rat model based on ultra-high performance liquid chromatographyelectrostatic field orbitrap high resolution mass spectrometry[J] .Chin J Chromatogr,2022,40(8):736-745.
[19] 曾庆军.不同类型酱香型白酒挥发性物质差异研究[D] .贵阳:贵州大学,2023.
[20] 朱晓春,吴兰,尚煜豪,等. 酱香型白酒轮次基酒感官特征及挥发性成分差异规律分析[J] .中国酿造,2025,44(6):32-39.
[21] 熊浩宇,索化夷,易志强,等. 基于风味组学和机器学习模型的中匈特色蒸馏酒挥发性风味物质差异研究[J] . 中国酿造,2025,44(8):135-144.
[22] 陈乙源,洪嘉欣,黄河,等.基于GC×GC-MS分析不同等级浓香型白酒的关键风味化合物[J] .中国酿造,2025,44(3):29-35.
[23] 邹飞云,陈孟强,刘凡,等.贵州不同海拔地区酱香白酒风味特征差异分析[J] .中国酿造,2025,44(6):92-99.
[24] 岳小淋,向双全,钱宇,等.不同等级浓香型白酒基酒挥发性风味物质差异分析[J] .中国酿造,2025,44(6):258-265.
[25] 阮开霞,李冰,冉宇,等.多种机器学习与反向传播神经网络模型在中医补益类方剂分类中的对比研究[J] .中医药导报,2025,31(7):232-237.
[26] 徐佩珍,喻四琴,洪爱英.Logistic回归和BP神经网络对糖尿病病人周围神经病变风险预测性能比较[J] . 全科护理,2025,23(14):2742-2746.
Construction of grading discrimination model for base liquor of Jiannanchun Baijiu based on gas chromatography and neural network