中国白酒是世界六大蒸馏酒之一,其以粮谷为主要原料,在酒曲中多种微生物的作用下,经发酵和蒸馏酿造而成,具有丰富的香型和复杂的酿造工艺[1-2]。酱香型白酒以其独特复杂的酿造工艺、丰富的口感层次以及深厚的文化背景在白酒市场中占据着重要位置。大曲酒(坤沙酒、捆籽酒),是以高粱为原料,以大曲为糖化发酵剂,经过固态发酵、蒸馏、陈酿和勾调而成,具有酒体醇厚、回味悠长、空杯留香持久等特点[3-5]。碎沙酒,是将大曲工艺最后一轮次取酒后的酒糟添加完全粉碎后的高粱进行发酵、蒸馏而得,生产周期较大曲工艺缩短,成本降低[6-7]。调香酒,是利用大曲酱香型白酒生产后丢弃的酒糟,加入食用酒精进行窜蒸后添加香精香料勾兑而成,属于低质白酒,是有关执法部门的严厉打击对象[7-8]。 在利益的驱动下,不法商家使用调香白酒以次充好,严重影响了酱香型白酒产业健康发展和消费者权益。
目前,酱香型白酒的工艺识别主要依靠感官评价,存在主观性强、稳定性差和效率低等问题。相较于感官评价,仪器检测和化学计量学的结合更能提升识别的精度和客观性。 紫外光谱是基于分子中电子能级跃迁,对紫外光产生特征吸收的一种分析技术,具有高效快速、成本低廉、灵敏度高等优势[9]。研究表明,纯粮固态发酵酒在碱性加热条件下酒体变黄,不同类型的白酒呈现出不同的紫外光谱曲线[10-11]。佘露露等[8]利用紫外光谱技术结合偏最小二乘判别分析(partial least square-discriminant analysis,PLS-DA),建立了不同工艺酱香型白酒的鉴别模型。支持向量机(support vector machine,SVM)、随机森林(random forest,RF)、K-近邻(K-nearest neighbors,KNN)等机器学习算法在处理大数据及模型建立方面展现出优越性能[12-16],能够有效应对数据的高维性、非线性和经验依赖性问题[17]。因此,将紫外光谱技术结合机器学习算法识别酱香型白酒工艺具有重要意义。
为了实现不同工艺酱香型白酒的快速判别,本研究采集经过碱性条件加热处理后的大曲、碎沙和调香3种工艺酱香型白酒的紫外吸收光谱,基于全波长(220~600 nm)和双波长(277、327 nm)吸光度值,结合支持向量机(SVM)、随机森林(RF)和K-近邻(KNN)机器学习算法构建酱香型白酒工艺分类模型,并以精确率、召回率和F1分数评价模型性能,并对分类模型性能进行验证,以获得综合性能最优、泛化能力最优的分类模型,为不同工艺白酒准确判别提供技术支撑。
1.1.1 原料
185个坤沙、碎沙、调香工艺酒样(其中135个酒样用于构建分类模型,另外50个样品用于分类模型验证):来自酱香白酒核心产区(仁怀)白酒企业;77个1~7轮次大曲工艺白酒样品:来自11家酒企。
1.1.2 试剂
无水乙醇:天津市科密欧化学试剂有限公司;氢氧化钠:上海麦克林生化科技有限公司。 本研究所用试剂均为分析纯。
UV2700i紫外分光光度计:日本岛津公司;Milli-QAA10超纯水机:昆明倍捷科技有限公司。
1.3.1 样品处理及紫外光谱采集
乙醇碱液:由体积分数53%乙醇与1 mol/L NaOH溶液按12∶1.8的体积比配制,于70 ℃恒温水浴中加热4 h。
准确移取3.0 mL酒样于20 mL具塞试管中,加入0.45 mL 1 mol/LNaOH溶液,在70 ℃恒温水浴中加热4 h,加热完毕后冷却至室温,用乙醇碱液将反应液稀释10倍制备样品。 以乙醇碱液作对照,采集酒样在波长220~600 nm的紫外光谱数据。
1.3.2 紫外光谱相似度
为了评估碱性条件加热处理后酱香型白酒样品的紫外光谱曲线相似性特征,采用多种相似度度量方法对不同工艺酒样间的光谱差异进行量化[18]。获得酒样的紫外光谱平均拟合曲线,计算Pearson相关系数、欧氏距离和余弦相似度。 Pearson相关系数揭示形态相似性,欧氏距离反映强度差异,余弦相似度捕捉趋势方向共性[18]。
Pearson相关系数:衡量光谱曲线间的线性相关性,反映波形形态相似性。 其中Xi 和Yi是2个工艺酒样在波长i处的光谱强度,X¯和Y¯为均值,该系数取值区间[-1,1],越接近1,表明两条曲线的波动趋势越一致。
欧氏距离:量化光谱曲线在特征空间中的几何距离,表征点对点绝对差异。其值域为[0,+∞],数值越大说明光谱吸光值强度差异越大。
余弦相似度:通过向量夹角评估光谱变化趋势一致性。其值域为[0,1],正值表示变化方向趋同,值越接近1说明方向一致性越高,即形态越相似。
1.3.3 分类模型构建
本研究采用支持向量机(SVM)、随机森林(RF)和K-近邻(KNN)算法分别构建了全波长和双波长分类模型。SVM是一种基于统计学理论的监督分类算法,按照80∶20的比例划分训练集和测试集,使用径向基函数(radial basis function,RBF)核函数处理光谱数据的非线性特征,利用网格搜索优化超参数[19]。 随机森林(RF)是一种基于集成学习的监督分类算法,该算法通过多个决策树独立预测样本类别,最终通过多数投票机制集成所有树的输出结果以提高模型的准确性和泛化能力[20]。本研究中随机森林模型包含200棵决策树,模型训练使用袋外(Out-of-Bag,OOB)误差作为内部验证机制。K-近邻(KNN)是一种经典的非线性分类方法,其通过计算测试样本数据之间的欧式距离并将距离值进行排序,选择最接近距离值的k个训练样本并记录类别,返回频率最高的类别即为测试样本的预测类别[13,19]。本研究K-近邻算法模型设置最近邻数k=5,通过10折交叉验证评估模型性能。上述模型均通过混淆矩阵计算精确率、召回率和F1分数评估模型性能,精确率表示模型预测为正类的样品中真正为正类的比例,召回率表示实际正类样本中被模型正确预测的比例,F1分数用于综合衡量模型的性能;验证样品的准确率用于衡量模型预测正确的样本占总样本的比例,其计算公式如下:
式中:TP表示模型正确预测为正类的样本;TN表示模型正确预测为负类的样品;FP表示模型错误为正类的负类样本;FN表示模型错误预测为负类的正类样本。
1.3.4 数据分析
采用MATLAB2024进行数据分析及模型构建,采用Origin 2019b、Adobe Illustrator CC 2018绘图。
2.1.1 紫外吸收光谱特征
酱香型白酒中除98%的乙醇和水外,主要有酯类、醇类、酸类、醛类、酮类、吡嗪类等挥发性风味物质,不同工艺酱香型白酒的风味物质含量存在差异,坤沙工艺酱香型白酒的风味物质总量最高,其次是碎沙,窜沙工艺最少[21-22]。不同工艺酱香型白酒的紫外吸收光谱曲线见图1。 由图1可知,在碱性加热条件下,不同工艺酱香型白酒中的物质与碱发生反应,在全波长(220~600 nm)范围内,吸光度值变化趋势一致,但吸光度值均存在差异,其中,大曲工艺酱香型白酒吸光度值最高,其次是碎沙工艺,而调香工艺酱香型白酒吸光度值最低。碱性条件加热处理后的酱香型白酒样品在波长277 nm、327 nm处均有吸收峰。 大曲工艺、碎沙工艺及调香工艺酱香型白酒在波长277 nm处的吸光度值分别为1.64、0.59、0.16,在波长327 nm处的吸光度值分别为2.54、0.61、0.13,经过t检验发现,这2个波长条件下的吸光值均存在显著差异(P<0.05),反映了不同生产工艺白酒风味物质含量存在差异。汤道文等[23]研究表明,固态发酵酒在碱性加热条件下变黄可能是酒体中的高级脂肪酸脂或某一种物质与Fe3+络合的结果。张志刚等[11]的研究表明,引起固态发酵白酒在碱性加热条件下变色的主要成分是具有羰基或共轭π键的双乙酰、糠醛、2,3-戊二酮等物质。
图1 碱性条件加热处理后不同工艺酱香型白酒的紫外吸收光谱曲线
Fig.1 Ultraviolet absorption spectrum curves of sauce-flavor Baijiu with different processes after alkaline heating treatment
2.1.2 紫外吸收光谱相似度
通过计算紫外光谱平均拟合曲线的Pearson相关系数、欧氏距离和余弦相似度来判断不同工艺酱香型白酒之间的光谱差异,相似度计算结果见表1。
表1 不同工艺酱香型白酒紫外吸收光谱平均拟合曲线相似度比较
Table 1 Similarity comparison of the average fitting curves of ultraviolet absorption spectra of different process sauce-flavor Baijiu
Pearson相关系数 欧氏距离 余弦相似度大曲酒vs碎沙酒大曲酒vs调香酒碎沙酒vs调香酒0.947 6 0.814 6 0.935 1 17.48 23.22 5.89 0.976 4 0.902 2 0.961 0
由表1可知,大曲酒与碎沙酒、碎沙酒与调香酒之间的Pearson相关系数和余弦相似度均接近1,表明两者之间相似度较高;欧氏距离是一个衡量整体差异的指标,大曲酒及调香酒紫外光谱平均拟合曲线的欧式距离为23.22,表明大曲工艺与调香工艺的紫外光谱存在明显差异。 这为紫外光谱结合机器学习算法构建分类模型奠定基础。
传统大曲酱香型白酒按照“12987”生产工艺进行生产,即一年生产周期,2次投粮,9次蒸煮,8次发酵,7次取酒。7个轮次的白酒具有不同的风味特征,经勾调、品评后得到成品大曲酱香白酒[24-25]。 为了检验轮次酒是否影响分类模型判定结果,对碱性条件加热处理后不同轮次白酒的紫外光谱进行分析,结果见图2。由图2可知,碱性条件加热处理后不同轮次酱香型白酒在波长277 nm、327 nm处均具有吸收峰,但在全波长范围内吸光度值变化趋势有所差异。从全波长范围内紫外光谱平均拟合曲线来看,不同轮次酒样吸光度值大小排序为:6轮次>5轮次>4轮次=7轮次>3轮次>2轮次>1轮次。从277 nm和327 nm两处波长的吸收峰看,1、2轮次酒样以波长277 nm处为主要吸收峰,而3~7轮次酒样以波长327 nm处为主要吸收峰。这些特征则由不同轮次大曲酱香型白酒中所含物质种类及含量所决定[26-28]。
图2 不同轮次大曲酱香型白酒紫外吸收光谱特征曲线
Fig.2 Characteristic curves of ultraviolet absorption spectra of sauce-flavor Baijiu with different rounds of Daqu-fermentation processs
1~2轮次的酱香型白酒在碱性条件下加热处理后的颜色为无色透明,与调香白酒颜色一致,但其紫外吸收光谱存在差异,尤其是在波长277 nm处的吸收峰。 白酒中的吡嗪类化合物则是造成这种不显色但具有高灵敏度和吸光度现象相关的物质之一[11]。余小斌等[29]研究表明,1~2轮次酱香型白酒中检出8种吡嗪类化合物,且四甲基吡嗪含量最高,这可能是造成1、2轮次白酒中以波长277 nm处的吸收峰为主要吸收峰的重要物质。
根据不同工艺酱香型白酒的紫外吸收光谱的差异性,本研究基于不同工艺酱香型白酒样品在全波长(220~600 nm)范围内的吸光度值数据构建了SVM、RF和KNN的分类判别模型,并以精确率、召回率和F1分数为指标评价分类模型性能。不同工艺酱香型白酒分类模型性能指标见表2。由表2可知,基于全波长、双波长范围构建的SVM模型对3种工艺酒样检测的精确率、召回率和F1分数均达100%;RF、KNN模型对大曲工艺识别的精确率、召回率和F1分数为100%,对碎沙、调香工艺酒样识别的精确率、召回率和F1分数均>96%。 尽管全波长分类模型具备较优的模型性能,但其包含大量可能与分类任务无关的波长变量,如此复杂的模型会因参数过多而“记忆”训练数据而不是“学习”其分布时,存在过拟合风险[30],即性能表现良好的分类模型在测试集上表现的效果不佳。不同工艺酱香型白酒在波长277 nm、327 nm处具有稳定特征吸收峰,且不同工艺之间存在明显差异,因此,本研究进一步构建了双波长分类模型能够极大地简化了模型的复杂度。 模型性能结果表明,波长277 nm和327 nm吸光度值包含识别实现酱香型白酒工艺的全部关键信息。为进一步判断分类模型的分类预测效果,采用验证样品对分类模型进行验证比较。
表2 不同工艺酱香型白酒分类模型性能指标
Table 2 Performance indicators of classification models for sauce-flavor Baijiu with different processes
工艺 全波长(220~600 nm)精确率/% 召回率/%F1分数/%双波长(277 nm、327 nm)精确率/% 召回率/% F1分数/%大曲碎沙调香SVM分类模型100 100 100 RF分类模型100 98 98 KNN分类模型100 98 96 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100大曲碎沙调香100 98 98 100 98 98 100 98 98 100 98 98 100 98 98大曲碎沙调香100 98 98 100 97 97 100 96 98 100 98 98 100 98 98
采用已建立的分类模型对大曲工艺、碎沙工艺及调香工艺酱香型白酒及1~7轮次酱香型白酒进行预测,根据预测准确率判断模型的实际分类效果。全波长的SVM、RF、KNN模型对50个验证样品的识别准确率分别为86%、88%、86%,双波长的SVM、RF、KNN模型的识别准确率分别为98%、94%、96%。结果表明,双波长SVM分类模型预测效果最优。双波长SVM分类模型对3种工艺酒样的预测结果见表3。由表3可知,大曲和调香工艺酒样的识别准确率为100%,碎沙工艺酒样识别准确率为90%,其中,有1个碎沙工艺白酒被模型识别为大曲工艺白酒。 此外,建立的双波长SVM分类模型将大部分1轮次白酒判定为调香工艺白酒,除5轮次酒样会被全部识别为大曲工艺白酒外,其余轮次酒样均会被不同程度地识别为大曲和碎沙工艺酒样。在实际应用中,如执法部门窜酒整治项目,仅需鉴别白酒样品是否为调香工艺,无需精准区分具体工艺类别。 在生产上,1轮次白酒通常仅作为调味酒使用,这一特性降低了抽检过程中的误判风险。 除此之外,不同轮次酱香型白酒具有明显的风格特征。因此,结合感官评价等方法排除1轮次白酒样本,该模型仍具备一定实际应用价值。
表3 双波长支持向量机分类模型预测结果
Table 3 Prediction results of the dual-wavelength support vector machine classification model
样品 验证样品数双波长SVM分类模型大曲 碎沙 调香大曲碎沙调香1轮次2轮次3轮次4轮次5轮次6轮次7轮次20 10 20 11 11 11 11 11 11 11 20 1000791 09021 002 178 142043 09000000
本研究利用紫外吸收光谱结合机器学习算法构建的分类模型,能够实现不同工艺酱香型白酒的快速判别。碱性条件加热处理后不同工艺酱香型白酒的紫外光谱曲线在277 nm、327 nm波长处存在吸收峰,全波长(220~600 nm)范围内的吸光度值均存在明显差异。基于紫外光谱数据,建立全波长(220~600 nm)和双波长(277、327 nm)的支持向量机(SVM)、随机森林(RF)和K-近邻(KNN)分类判别模型,模型性能评价结果表明,基于全波长、双波长范围构建的SVM模型对3种工艺酒样检测的精确率、召回率和F1分数均达100%;RF、KNN模型对大曲工艺识别的精确率、召回率和F1分数为100%,对碎沙、调香工艺酒样识别的精确率、召回率和F1分数均>96%。双波长SVM分类模型具有最优的识别效果,大曲和调香工艺酒样识别准确率为100%,碎沙工艺酒样识别准确率为90%,本研究可为不同工艺酱香型白酒的判别提供技术支撑。
[1]FAN C M,SHI X,PAN C M,et al.GC-IMS and GC/Q-TOFMS analysis of Maotai-flavor Baijiu at different aging times[J].LWT-Food Sci Technol,2024,192:115744.
[2]HONG J X,TIAN W J,ZHAO D R.Research progress of trace components in sesame-aroma type of Baijiu[J].Food Res Int,2020,137:109695.
[3]ZHU C T,CHENG Y X,ZUO Q C,et al.Exploring the impacts of traditional crafts on microbial community succession in Jiang-flavored Daqu[J].Food Res Int,2022,158:111568.
[4]NIU J,YANG S Q,SHEN Y,et al.What are the main factors that affect the flavor of sauce-aroma Baijiu[J].Foods,2022,11(21):3534.
[5]WANG L,HU G Y,LEI L B,et al.Identification and aroma impact of volatile terpenes in Moutai liquor[J].Int J Food Prop,2016,19(6):1335-1352.
[6]唐丽云,朱孟江.酱香型白酒生产工艺及关键工艺原理简述[J].中国食品工业,2022(9):101-104.
[7]谭军辉,左垚.简述酱香型白酒新型生产工艺[J].酿酒,2020,47(4):32-35.
[8]佘露露,王蕾,蒋洪久,等.基于紫外光谱技术快速鉴别不同工艺酱香型白酒[J].中国酿造,2023,42(9):211-216.
[9]KHAN M I,MUKHTAR A,ALWADAI N,et al.RETRACTED:Improving the structural,optical and photovoltaic properties of Sb-and Bi-Co-Doped MAPbBr3 perovskite solar cell[J].Coatings,2022,12(3):386.
[10]王东新,胡永钢,王金英,等.白酒中固态发酵酒的鉴别及含量的测定[J].酿酒科技,2005(2):79-81.
[11]张志刚,向双全.纯粮固态白酒中含共轭π键极性化合物在碱性加热条件下变色的研究(一)[J].酿酒科技,2012(8):77-81.
[12]CHEN B Y,WANG L,WANG L M,et al.A novel data fusion strategy of GC-MS and 1H NMR spectra for the identification of different vintages of Maotai-flavor Baijiu[J].J Agr Food Chem,2024,72(26):14865-14873.
[13]FANG H,WU H L,WANG T,et al.Excitation-emission matrix fluorescence spectroscopy coupled with multi-way chemometric techniques for characterization and classification of Chinese lager beers[J].Food Chem,2021,342:128235.
[14]HU S Q,WANG L.Age discrimination of chinese Baijiu based on Midinfrared spectroscopy and chemometrics[J].J Food Qual, 2021, 2021(1):5527826.
[15]KIM D Y,CHO B K,LEE S H,et al.Application of fourier transformmid infrared reflectance spectroscopy for monitoring Korean traditional rice wine'Makgeolli'fermentation[J].Sensor Actuat B: Chem, 2016,230:753-760.
[16]YU J,WANG H,ZHAN J C,et al.Review of recent UV-Vis and infrared spectroscopy researches on wine detection and discrimination[J].Appl Spectrosc Rev,2017,53(1):65-86.
[17]AN J,WILSON D I,DEED R C,et al.The importance of outlier rejection and significant explanatory variable selection for pinot noir wine soft sensor development[J].Curr Res Food Sci,2023,6:100514.
[18]CHOWDHURY P,SINHA B B.Evaluating the effectiveness of collaborative filtering similarity measures:A comprehensive review[J].Procedia Computer Sci,2024,235:2641-2650.
[19]SINDAYIGAYA L,DEY A.Machine learning algorithms: a review[J].Inf Syst J,2022,11(8):1127-1133.
[20]LIU Y L, WANG Y R, ZHANG J.New machine learning algorithm:Random forest[M].Springer-Verlag Berlin Heidelberg,2012:246-252.
[21]许忠平,郭红莉,张娇娇,等.不同工艺酱香型白酒风味物质特征分析[J].食品工业科技,2025,46(5):209-217.
[22]郭世鑫,张小娜,姚孟琦,等.不同工艺酱香型白酒成分分析[J].食品与发酵工业,2022,48(1):241-246.
[23]汤道文,朱永侠,谢玉球.固态发酵的白酒在碱性条件下变色原因的探讨[J].酿酒科技,2006(7):67-68.
[24]唐维川,孔祥凯,王婷,等.基于主成分分析法评价酱香型白酒的不同轮次基酒[J].现代食品科技,2021,37(7):269-277,268.
[25]陈吉,李海军.大曲酱香白酒醇甜酒典型体与成品酒风格相关性研究[J].现代食品,2024,30(7):160-164.
[26]孙优兰,骆红波,王金龙,等.酱香型白酒不同轮次基酒风味特征分析[J].食品与发酵工业,2024,50(17):343-355.
[27]骆茂香,陈仁远,徐兴江,等.酱香型白酒轮次基酒中非挥发性风味物质的差异研究[J].食品与发酵工业,2023,49(19):282-288.
[28]范宽秀,蒋想,韦贺丽,等.不同产区酱香轮次基酒挥发性风味物质差异分析[J].中国酿造,2024,43(12):137-142.
[29]余小斌,黄张君,刘小刚,等.酱香型不同轮次及等级基酒的感官和风味成分特征分析[J].中国酿造,2024,43(8):61-73.
[30]张健,保文星.生成式对抗网络的高光谱遥感图像分类方法研究[J].遥感学报,2022,26(2):416-430.
UV-Vis spectral analysis and discrimination of sauce-flavor Baijiu from different process