浓香型白酒作为中国特有的传统固态蒸馏酒,因其独特的风味特点而在中国白酒市场占领着主导地位[1]。在浓香型白酒的生产过程中,发酵后的酒醅经蒸馏得到的酒称为基酒,其乙醇体积分数较高,约占总体积的60%左右,其次是酯类、酸类、醛酮类等呈香物质,约占1%~2%,其余成分则是水[2]。在蒸馏过程中根据酒体香气、口感以及酒花等变化进行基酒等级划分的工作称为摘酒,是浓香型白酒生产的核心工艺之一[3]。当前白酒摘酒工艺中对于基酒等级的划分主要采用感官品评结合理化指标的方式进行,因此导致划分结果具有一定的主观性[4]。 利用现代的检测手段与大数据分析技术建立基酒等级检测模型,是提高基酒等级划分客观性的一种科学方法。
近红外光谱(near infrared reflectance spectroscopy,NIRS)技术通过分子振动对近红外光的特征吸收,实现对样品化学成分信息的分析与获取,检测过程具有无损、快速等优点[5]。 随着工业4.0的到来和人工智能、计算机科学技术的飞速发展,近红外光谱技术在白酒行业的研究取得了一定的成功[6]。研究表明,近红外光谱技术可实现白酒中醇类[7-8]、酸类、酯类[9]、醛类[10]等呈香物质的快速检测。并且翟双等[11-12]研究论证了近红外光谱技术用于基酒等级检测的可行性,基于近红外光谱数据所构建的检测模型可实现基酒等级的快速检测,但这类模型缺乏可解释性,这种“黑盒”特性使得难以明确各变量对模型输出的具体贡献,从而限制了实际应用中对模型结果的解读与优化。为解决这类问题,借助机器学习模型和解释方法逐渐得到关注[13]。其中Shapley加法解释(Shapley Additive exPlanations,SHAP)算法为模型提供了一种直观且严谨的解释框架[14]。SHAP不仅能定量评估每个特征变量对于模型输出的贡献,还可以为模型决策提供更具透明性和可信度的解释[15]。
本研究共采集了687个浓香型白酒基酒的近红外光谱数据。原始光谱数据经Savitzky-Golay(SG)卷积平滑算法、一阶导数(first derivative,FD)预处理后,再分别采用竞争自适应重加权采样法(competitive adaptive reweighted sampling,CARS)和连续投影算法(successive projections algorithm,SPA)进行特征光谱选择,最后对特征光谱集分别基于极限梯度提升(eXtreme Gradient Boosting,XGBoost)和轻量梯度提升机(Light Gradient Boosting Machine,Light-GBM)分别构建基酒等级预测模型,并基于SHAP算法对模型进行解释,以增加模型的透明度,进而深化光谱特征对于基酒等级划分的理解。旨在实现基酒等级的快速在线检测,并提高预测模型的可解释性,为浓香型白酒的摘酒工艺的质量控制提供技术支撑。
1.1.1 基酒样品采集
表1 基酒样品等级及评定依据
Table 1 Grades and evaluation basis of base liquor samples
基酒等级 评定依据头酒一段酒二段酒尾酒最先馏出的原浆酒,前期可能掺杂有上一次残留的尾酒,质量较差中间段馏出的原浆酒,各微量物质以及乙醇含量均较高,香味重、度数高,质量最好仍含有一定量的乙醇,但微量物质含量较少,香气寡淡,质量较次各类物质的含量都比较低,香气寡淡,有微溶于水的脂类物质析出,质量差
本实验基酒样品源自中国四川某著名酒企的浓香型白酒生产车间,分别在2023年上半年的3、4、5月份以及下半年的9、10、11月份完成采集,共采集687个酒样。 基酒等级的初步确定由具有10年以上摘酒经验的师傅根据实时馏酒情况(如酒花、酒精度和现场品评等)完成,随后交由该酒厂的5名感官评定师进行综合投票评定。 最终将基酒等级划分为头酒、一段酒、二段酒、尾酒四个等级,其中各等级基酒样本数依次为139个、282个、166个、100个。
1.1.2 基酒近红外光谱数据采集
近红外光谱采集时环境温度为(20±2)℃,空气相对湿度(relative humidity,RH)<80%。 光谱采集的检测模式为透射模式,扫描波数范围为12 500~4 000 cm-1,分辨率为8 cm-1,扫描次数32次,共2 204个扫描值,平均间隔为3.855 cm-1,取两次扫描结果的均值作为初始光谱。 受仪器本身原因,初始光谱图的两端受噪声影响较大且有效信息较少,因此截取4 300~9 000 cm-1范围内的1 215个光谱点作为原始光谱。
Matrix-F型傅里叶变换近红外光谱仪:德国Bruker公司。
1.3.1 样本集划分
为保证训练集和测试集数据的多样性,本研究对基酒近红外光谱数据采用了基于X-Y 距离的样本集划分(sample set partitioning based on X-Y distance,SPXY)方式划分数据集。 SPXY本质上是尽可能的使训练集样本的自变量X和因变量Y的空间分布更加广泛和均匀[16]。为保证X空间与Y空间的权重一致性,SPXY在计算距离时将它们各部分距离分别处以各自距离的最大值以实现归一化,所以在实际计算时,样本p、q之间的联合距离dxy计算公式如下:
式中:dx(p,q)为样本p和q在自变量空间上的欧式距离;dy(p,q)为样本p和q在因变量空间上的欧式距离;N为样本数,个。
本研究通过MATLAB2021b基于SPXY划分方法将687个原始光谱以4∶1的比例划分为训练集和测试集,其中训练集包含550个基酒样本,测试集包含137个基酒样本。
1.3.2 光谱数据预处理
为提高基酒近红外光谱数据的数据质量并减少噪声的影响,通过软件The Unscrambler X 10.4分别采用Savitzky-Golay(SG)卷积平滑算法、一阶导数(First Derivative,FD)对原始光谱数据进行预处理。 随后基于MATLAB2021b对训练集采用支持向量机(support vector machine,SVM)交叉验证预处理效果,并基于网格搜索寻优正则化系数C和核参数g。 其中SG卷积平滑算法是利用滑动窗口进行卷积运算,通过在滑动窗口内拟合多项式的拟合值代替原数据点实现信号平滑,在降低噪声的同时保留了数据的趋势信息[17]。光谱的一阶导数通过计算光谱的变化率可削弱基线漂移的影响,并增强吸收特征的对比度[18]。
1.3.3 特征光谱选择
由于基酒原始光谱数据存在高维度、强相关性和包含的冗余信息多等问题,因此会增加模型复杂度和降低模型预测性能[19]。所以基酒光谱数据经预处理后还需要对光谱数据进行特征选择,即从全波段数据中选择重要波长作为特征波长。于是基于MATLAB 2021b采用了两种特征选择方法进行特征选择,并依据SVM模型的预测性能对比分析二者的差异。
竞争自适应重加权采样法(CARS)是一种蒙特卡洛采样结合偏最小二乘回归(partial least squares regression,PLSR)系数进行特征选择的特征选择方法。该方法通过自适应重加权采样选择偏最小二乘回归模型中绝对值最大的回归系数波长变量,去除权重值小的波长点,并迭代N次后选择交叉验证均方根误差(root mean square error of cross validation,RMSECV)最小的PLSR模型所保留的特征子集作为特征波长[20]。CARS参数设置时,对训练集数据经蒙特卡洛模拟500次结合5折交叉验证确定偏最小二乘模型的最优潜变量数为9后,再将迭代次数设置为50。
连续投影算法(SPA)是一种常用于降低特征冗余的方法,该方法随机选出一个波长作为起点,然后对剩余变量进行投影并尽可能确保新变量与已选择变量正交,重复投影过程,直到达到预设的变量数或特定准则后停止。该方法通过逐步投影将变量投影到正交子空间中,以筛选得到一组代表性强、相关性低的特征光谱集[21]。
1.3.4 模型选择
本研究分别基于极限梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)算法构建基酒等级预测模型,并对二者的预测性能对比分析。
XGBoost是由CHEN T等[22]在梯度提升决策树(gradient boosting decision tree,GBDT)基础上的集成学习算法。XGBoost通过扩展目标函数的二阶泰勒多项式实现保留更多目标函数的信息,并添加正则化项来控制过拟合,XGBoost的目标函数表述如下[23]:
式中:Obj是目标函数;X、Y为输入和输出变量;L(Fm(X),Y)为损失函数;Ω(f)为经所有迭代后最终预测模型的正则化函数;Ω(ft)则表示经t轮迭代后的正则化函数;I(yi,)表示第i个观测值的实际值与预测值之差;C表示常数项。
正则项函数是叶子节点数的函数,其计算公式如下:
式中:γ 定义了叶子的复杂度;T表示决策树的叶子数;λ为正则化超参数;ω 解释了叶子节点的输出结果。
KE G等[24]于2017年提出的LightGBM也是基于GBDT框架,该方法通过基于直方图的决策树学习以及梯度单边采样、互斥特征并行等技术以提高运算效率和可扩展性。与XGBoost相比,LightGBM在训练效率等方面拥有更大的潜力,该模型通过二阶逼近来最小化目标函数,可快速准确的优化目标[25]。迭代目标函数计算公式如下:
式中:L(t)是t次迭代的目标函数;n是输入实例数;l为损失函数;σ 和σ2 表示损失函数的一阶和二阶梯度;ft(x)表示相应增量。
本研究中基于Python3.9,通过使用XGBoost和LightGBM库依次构建基酒等级预测模型。为防止预测模型过拟合和自动确定最佳梯度提升树的数量,XGBoost和LightGBM的训练过程中引入早停法进行优化。 初步设置树深为3、4、5、6,并设定耐心步数为50,利用训练集5折交叉验证,对验证集预测准确率的实时监控,若模型50次迭代中性能未提升,则训练停止,并记录模型参数。
1.3.5 模型可解释性方法
SHAP是一种用于解释机器学习模型输出的方法,其源于博弈论,用于计算在合作博弈的参与者之间分配总收益。 每个特征对预测模型输出值的贡献度可通过对应的Shapley值来反映[26],Shapley值计算公式如下:
式中:φi是加性特征归因的统一度量,即Shapley值;M是所有特征的集合;Si是所有可能变量的排序组合;fx(S)是特征子集S所组成的联盟能够实现的最佳预测值;!表示M的阶乘。
本研究中,使用了Python SHAP包计算基酒预测模型中各特征光谱点对于模型输出的SHAP值,以增强模型的可解释性。
采用SG和一阶导数及不同处理方法组合,分别对基酒近红外光谱数据进行预处理,然后分别建立基酒等级SVM预测模型,其5折交叉验证结果见表2。 由表2可知,原始光谱数据经SG预处理后模型准确率得到提升,将滑动窗口大小设置为9时,模型5折交叉验证准确率分别为83.94%,为最优预处理方法。
表2 近红外光谱Savitzky-Golay卷积平滑算法处理结果
Table 2 Results of near-infrared spectroscopy processing by Savitzky-Golay convolution smoothing algorithm
注:SG(m-n)表示m点n次卷积平滑。
方法 准确率/% 方法 准确率/%原始数据SG(3-2)SG(5-2)SG(7-2)SG(9-2)SG(11-2)SG(13-2)81.02 81.02 81.02 81.75 83.94 83.94 83.21 FD SG(3-2)+FD SG(5-2)+FD SG(7-2)+FD SG(9-2)+FD SG(11-2)+FD SG(13-2)+FD 70.45 75.18 81.02 78.10 80.29 79.56 80.29
经SG(9-2)预处理后的原始光谱图见图1。由图1可知,光谱经一阶导数处理和SG结合一阶导数预处理后,模型的预测性能反而普遍下降。该结果表明SG处理能够有效降低噪声的影响,并保留光谱的整体形态和特征。而一阶导数和SG结合一阶导数的预处理方法可能在放大特征的同时也放大了噪声的影响,并且削弱光谱的全局信息,因此导致模型的预测性能下降。综上,将经SG(9-2)预处理后的数据用于建模。
图1 不同等级基酒近红外光谱Savitzky-Golay卷积平滑算法(9-2)处理结果
Fig.1 Results of near-infrared spectroscopy of base liquor with different grades processing by Savitzky-Golay convolution smoothing algorithm (9-2)
由于基酒的原始光谱中包含1 215个光谱点,因此在构建基酒等级预测模型前需要对原始光谱进行特征选择,从而提高模型的预测性能和减少模型复杂度。 基于CARS和SPA进行特征光谱选择结果见图2。
图2 基于竞争自适应重加权采样法(a)和连续投影算法(b)特征波数选择结果
Fig.2 Feature wave number selection results based on competitive adaptive reweighted sampling (a) and successive projections algorithm (b)
由图2a可知,预处理后的光谱数据基于CARS迭代500次后共筛选了27个特征光谱点。特征子集的SVM模型的训练集准确率为97.82%,预测集准确率95.62%。由图2b可知,预处理后的光谱数据基于SPA特征选择后共筛选了18个特征光谱点,特征子集的SVM模型的训练集准确率为92%,预测集准确率86.13%。
结果表明,光谱经CARS和SPA特征选择后模型的预测性能均得到提高,尤其经CARS特征选择后的SVM模型训练集和预测集准确率分别提高了2.37%和11.68%。说明经CARS特征选择后数据维度大幅下降,使得模型预测准确率得到提升,并且训练集和预测集准确率差距显著缩小(从11.51%缩小至2.2%),表明特征选择减少了模型的过拟合。 CARS是基于偏最小二乘回归的回归系数权重来模拟“生存竞争”机制筛选变量,其通过多次蒙特卡洛采样迭代剔除冗余变量,最后得到对基酒等级变化最敏感的特征子集。SPA是通过最小化变量间多重共线性进行投影,强调的是光谱变量间的非冗余性。虽然两种特征选择方法均能够有效降低光谱数据的维度,但是基于CARS的模型预测效果更优,说明CARS在本数据中具有更强的基酒等级判别能力。
近红外光谱数据经SG预处理和CARS特征选择后,分别基于XGBoost和LightGBM建立基酒等级预测模型。结果表明,XGBoost预测模型的训练集和预测集的准确率分别为98.54%和96.35%,LightGBM预测模型的训练集和预测集的准确率分别为99.64%和98.54%。相较于SVM预测模型,XGBoost和LightGBM模型的预测性能均有一定的提升,说明基于GBDT的集成学习算法能够更好的拟合特征光谱与基酒等级的非线性关系。GBDT是通过多个弱学习器组合为一个强学习器来进行建模预测,并且通过采用迭代早停机制能够减小模型的过拟合风险,因此,XGBoost和LightGBM模型能更准确的预测基酒等级。LightGBM模型的预测性能相较于XGBoost更优,这可能是因为LightGBM在每次迭代中只选择分裂增益最大的叶子节点继续分裂(leaf-wise生长策略),而XGBoost在每一层中都将分裂所有节点(level-wise生长策略)。 因此LightGBM更适用于特征光谱集这类变量数较少但信息密度大的场景。
为了进一步验证光谱预测模型的合理性,增加模型的透明度并明确特征的重要性,本研究采用了基于SHAP的特征解释方法。将训练好的LightGBM模型和特征光谱数据集作为输入,计算每个样本在各特征光谱点的Shapley值。然后通过计算每个特征Shapley值的绝对均值视为该特征的SHAP贡献值,以此来评估特征对模型预测结果的整体贡献,各等级基酒SHAP贡献值最高的前5个光谱特征结果见图3。由图3可知,在27个特征光谱中,波数为4 798 cm-1的光谱点对于四个等级的基酒SHAP贡献值均为最高,表明该光谱点对于四个等级的基酒识别均有着最高贡献,该点对应O-H伸缩振动和O-H弯曲振动的组合频。波数为6245cm-1、5 936 cm-1的光谱点对于头酒的和一段酒的SHAP贡献值均较高,其中波数6 245 cm-1为靠近双键(C=C或C=O)的C-H伸缩振动一级倍频吸收峰,波数5 936 cm-1为与羰基相邻的甲基基团吸收频。波数为7 080 cm-1的光谱点对于二段酒和尾酒的SHAP贡献值较高,属于羟基的一级倍频[27]。
图3 各等级基酒SHAP贡献值最高的前5个光谱特征
Fig.3 Top 5 spectral features with the highest SHAP contribution values of each grade of base liquor
近红外光谱特征的SHAP解释结果表明,在基酒的摘酒工艺中,羟基化合物和羰基化合物在划分基酒等级中起着关键作用。 白酒中的羟基化合物主要包含有醇类、酚类以及水。 其中醇类物质使酒体醇和绵甜,是浓香型白酒中酯类化合物的前体物质;酚类物质则有使酒体香气柔顺醇厚的作用。白酒中的羰基化合物主要包括酯类、酸类以及酮醛类化合物。 其中酯类化合物在浓香型白酒中含量较多,是香气构成的骨架成分;羧酸具有呈味助香、减少杂味苦味的功能;醛类、酮类化合物则具有使酒体更加柔和协调的作用[28]。综上所述,基于SHAP的光谱特征解释一定程度上验证了基酒近红外光谱预测模型的合理性,并部分揭示了特征光谱对于预测结果的重要性。
基酒近红外光谱经SG预处理后再采用CARS特征选择能够大幅降低数据维度,将原本的1 215维的光谱数据降低至27维,并且基于特征光谱的SVM预测模型的训练集准确率为97.82%,预测集准确率为95.62%。 为了进一步提高基酒等级预测模型的预测性能,本研究引入了两种基于GBDT的集成学习算法:XGBoost和LightGBM。结果表明,基于LightGBM的模型能够达到更高的预测性能,为最优模型。训练集和预测集准确率分别为99.64%和98.54%,能够实现基于基酒的近红外光谱实现基酒等级的快速、无损检测。关于LightGBM模型的SHAP解释发现,波数为4798cm-1、6 245 cm-1、5 936 cm-1、7 080 cm-1的特征光谱点对于基酒等级的SHAP贡献值较高,对于模型的预测结果影响较大。基于此,可以推导出羟基和羰基化合物对于基酒等级划分起着重要作用。因此,醇类、酚类、酯类、羧酸类、酮类、醛类和水等含羟基、羰基物质的含量对于浓香型白酒的基酒等级预测结果影响较大。同时,最优模型的SHAP解释也进一步验证了光谱预测模型的合理性,使所构建的基酒检测模型的可解释性和可靠性更强。
[1]董蔚.浓香型白酒“窖香”特征风味物质解析及其生成途径的研究[D].广州:华南理工大学,2020.
[2]李征,王媚,黄河,等.近红外光谱结合气相色谱对浓香型白酒基酒定性鉴别分析[J].中国酿造,2023,42(3):222-228.
[3]张竞一,柴丽娟,高涛,等.不同季节浓香型白酒基酒风味物质差异分析[J].食品科学,2023,44(12):164-171.
[4]周轩.浓香型白酒基酒挥发性成分分析及等级识别研究[D].镇江:江苏大学,2019.
[5]WANG Y L, XING L Z, HE H J, et al.NIR sensors combined with chemometric algorithms in intelligent quality evaluation of sweet potato roots from'Farm'to'Table':Progresses,challenges,trends,and prospects[J].Food Chem X,2024,22:101449.
[6]ZENG X Q,CAO R,XI Y,et al.Food flavor analysis 4.0:A cross-domain application of machine learning[J].Trends Food Sci Technol,2023,138:116-125.
[7]胡耀强,郭敏,叶秀深,等.近红外光谱法间接测定白酒酒精度[J].光谱学与光谱分析,2022,42(2):410-414.
[8]刘建学,杨国迪,韩四海,等.白酒基酒中典型醇的近红外预测模型构建[J].食品科学,2018,39(2):281-286.
[9]黄清霞,付国勇,陈黎萍.成品白酒中酸酯总量的近红外检测[J].食品工业科技,2022,43(5):310-314.
[10]张卫卫,刘建学,韩四海,等.白酒基酒中醛类物质的傅里叶变换近红外光谱检测[J].食品科学,2016,37(6):111-115.
[11]翟双,张贵宇,庹先国,等.近红外光谱结合二维卷积在白酒基酒判别中的应用[J].食品科技,2022,47(9):250-256.
[12]ZHANG G Y,TUO X G,PENG Y J,et al.A rapid nondestructive detection method for liquor quality analysis using NIR spectroscopy and pattern recognition[J].Appl Sci,2024,14(11):4392.
[13]KHATTAK A,ZHANG J P,CHAN P W,et al.SPE-SHAP: Self-paced ensemble with Shapley additive explanation for the analysis of aviation turbulence triggered by wind shear events[J].Expert Syst Appl,2024,254:124399.
[14]LUNDBERG S M, LEE S I.A unified approach to interpreting model predictions[C]//Advances in Neural Information Processing Systems,30.Red Hook,NY:Curran Associates,Inc.,2017:4765-4774.
[15]QI X J,WANG S J,FANG C S,et al.Machine learning and SHAP value interpretation for predicting comorbidity of cardiovascular disease and cancer with dietary antioxidants[J].Redox Biol,2025,79:103470.
[16]SINGH H,PANI A K,MOHANTA H K.Quality monitoring in petroleum refinery with regression neural network:Improving prediction accuracy with appropriate design of training set[J].Measurement,2019,134:698-709.
[17]WU X H,WANG Y X,WU B,et al.Classification of Fritillaria using a portable near-infrared spectrometer and fuzzy generalized singular value decomposition[J].Ind Crops Prod,2024,218:119032.
[18]JIANG T,ZUO W D,DING J J,et al.Machine learning driven benchtop Vis/NIR spectroscopy for online detection of hybrid citrus quality[J].Food Res Int,2025,201:115617.
[19]DANIEL M, GUERRA R, BRÁZIO A, et al.Feature discovery in NIR spectroscopy based Rocha pear classification[J].Expert Syst Appl,2021,177:114949.
[20]HARUNA S A,IYANE N M A,ADADE S Y S,et al.Rapid and simultaneous quantification of phenolic compounds in peanut (Arachis hypogaea L.)seeds using NIR spectroscopy coupled with multivariate calibration[J].J Food Compos Anal,2023,123:105516.
[21]SUN Z Z,YANG J,HU D,et al.Using knowledge-guided temperature correction for online non-destructive detection of soluble solids content in pear via Vis/NIR spectroscopy[J].Postharvest Biol Technol, 2024,218:113178.
[22]CHEN T,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco,CA:ACM,2016:785-794.
[23]MA X J,SHA J L,WANG D H,et al.Study on a prediction of P2P network loan default based on the machine learning LightGBM and XGboost algorithms according to different high dimensional data cleaning[J].Electron Commer Res Appl,2018,31:24-39.
[24]KE G,WANG D,CHEN W,et al.LightGBM:A highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems (NeurIPS 2017).Long Beach,CA:Curran Associates,Inc.,2017:3146-3154.
[25]鞠月闯.基于时空LightGBM模型的中国碳排放预测[D].南京:南京邮电大学,2023.
[26]SONG Y S, MOON J W, PARK K.Explainable AI for permeate flux prediction in forward osmosis: SHAP interpretability and theoretical validation for enhanced predictive reliability[J].Desalination,2025,601:118551.
[27]WORKMAN Jr.J, WEYER L.Practical Guide to Interpretive Near-Infrared Spectroscopy(1st ed.)[M].Boca Raton:CRC Press,2007:1-62.
[28]韩云翠.浓香型基酒香气模型构建与自动化摘酒研究[D].济南:齐鲁工业大学,2023.
Near infrared rapid detection of base liquor grades and model interpretation based on SHAP