基于傅里叶变换近红外光谱量质摘酒模型的初步探索及应用研究

白酒在中国是一种具有独特历史背景和风土人情的产物，其酿造工艺代代相传。摘酒是酿造工艺中重要的一个环节[1-2]，基酒的准确分级是摘酒过程中最为重要的操作。基酒品质的好坏直接影响白酒的贮存和优质酒产量，俗话说，“产香靠发酵，提香靠蒸馏，摘到好酒靠摘酒工”[3]。可见，量质摘酒工序对基酒质量的重要性，是优质酒、高产量的关键环节。目前摘酒工艺主要以“看花摘酒”和感官品评为主，依据“酒花”形态、大小、消散时间以及感官尝评等将酒体摘取成不同段次[4]，然而，此方法会因为工人的熟练度不同而导致基酒品级良莠不齐，从而影响白酒的分级贮存和优质酒的产量[5-6]。因此，在白酒量质摘酒方面，亟需一种科学化的快速检测手段。

近红外光谱技术因具有无需样品预处理、灵敏度高、重现性好、检测速度等优势备受青睐[7]。与传统的感官评定或选择标志性成分的分析方法相比，近红外光谱技术能够全面反映复杂物质中多种化合物的内在作用，通过与化学计量学方法、机器学习算法相结合，如支持向量机（support vector machines，SVM）、反向传播神经网络算法（back propagation neural network，BP）、偏最小二乘法-判别分析（partial least squares-discriminant analysis，PLS-DA）、主成分分析（principal components analysis，PCA）等，可以对不同酒样的等级、产地、香型和真伪等进行有效区分[8-12]。如CHEN H等[13]采用近红外光谱和支持向量机建立假酒分类模型，其准确性、敏感性和特异性分别为94.9%、93.1%和97.9%，模型效果较好。张良等[14]利用傅里叶变换近红外光谱仪（Fourier transform near infrared spectroscopy，FT-NIR）采集白酒样本中微量成分的指纹图谱，采用主成分分析和支持向量机结合的方法对白酒的质量等级进行分类，其中，特级基酒区分率达到100%，优级基酒区分率达到100%，由于一级和二级的相似性高，区分率存在偏差，区分率分别为94.1%和88.9%。姜安等[15]将白酒的感官品评结果与红外光谱（infrared spectroscopy，IR）检测相对应，采用支持向量机方法建立了白酒香型、等级和年份分类模型，其预测准确率分别为98%、92%和100%。ZHONG J等[16]应用NIR结合带有集成移动窗口（moving window，MW）波段筛选的偏最小二乘法-判别分析（PLS-DA）建立了真假酒分类模型，其识别率达到99.3%。YANG G Q等[17]应用近红外光谱（nearinfrared spectroscopy，NIR）技术采集三种不同品牌白酒的透射和反射光谱数据，经主成分分析降低变量维度，构建了判别不同品牌白酒的BP网络模型，其中透射光谱数据构建的BP模型预测准确率达100%。

本研究采用气相色谱-质谱联用（GC-MS）技术解析不同等级（头酒、中段酒、尾酒）中的挥发性风味物质，以主成分分析（PCA）方法提取与原酒等级划分有关主成分，然后结合近红外光谱构建主成分回归预测模型，最后使用随机森林（random forest，RF）算法与回归预测模型结合构建量质摘酒模型。以期建立科学、快速、高效的量质摘酒技术，为摘酒工艺提供科学指导。

1 材料与方法

1.1 材料与试剂

322个白酒原酒样品：舍得酒业股份有限公司；有机系针头过滤器（NY，0.22 μm）：上海安赛瑞实业有限公司；样品瓶：美国Agilent公司。

2-乙基丁酸、无水乙醇（均为色谱纯）：上海阿拉丁生化科技有限公司；甲醇（纯度99.9%）：上海阿达玛试剂有限公司。

1.2 仪器与设备

Model Matrix-F傅立叶变换近红外光谱仪（FT-NIR）：德国布鲁克公司；7890B-G7000D气相色谱质谱联用仪、DB-WAX色谱柱（30 m×320 μm×0.25 μm）：美国安捷伦公司。

1.3 方法

试验所摘取的原酒样品划分为头酒、中段酒、尾酒3个等级。原酒样品取样方法见图1。从酒甑流酒起开始取样，头酒摘取时间为1～2 min，断头前取2个酒样，断头后取2个酒样，最中间段取1个样，断尾前取3个样，最后断尾后取2个样，共779个酒样。取样划分规则：“1”代表头酒，“2”代表中段酒，“3”代表尾酒。

摘酒过程由具有10年以上经验的酿酒师完成。摘酒完成后，由6位白酒省评委按照GB/T 10345—2022《白酒分析方法》中感官评定的要求，逐个对酒头、中段酒、尾酒进行尝评确定样品等级。最终符合等级评定标准的酒样为322个，其酒样信息见表1。

（1）近红外光谱法

采用OPUS7.8软件控制光谱仪并记录光谱数据。傅里叶近红外光谱仪在（20±2）℃温度和空气相对湿度＜80%的环境下预热约50 min。在室温下对样品进行扫描，光谱扫描范围为4 000～12 500 cm-1，相位分辨率为32 cm-1，频率为10 KHz，分辨率为4 cm-1，经64次累积扫描后取各光谱点的平均值作为最终光谱。

（2）气相色谱-质谱法

采用气相色谱-质谱法检测原酒中的挥发性风味成分。

GC条件：采用自动进样，色谱柱为Agilent DB-WAX（30 m×320 μm×0.25 μm），氢焰离子化检测器（flame ioization detector，FID），进样量为1 μL，无分流，总流速为34.5 mL/min，进样温度为250 ℃；载气为高纯氦气（He）（纯度＞99.999%），流速2.25 mL/min；初始温度在60 ℃保持5 min，然后以10 ℃/min的速度升温至250 ℃，然后保持2 min。

MS条件：界面温度280 ℃；电子电离（electronic ionization，EI）源，电子能量70 eV；离子源温度230 ℃，四极杆温度150 ℃；全扫描方式：扫描范围30～540 m/z。

定性分析：采用检索工作站自带的美国国家标准技术研究所（national institute of standards and technology，NIST17）标准谱库检索，选择匹配度≥80%的物质作为有效物质。

定量分析：参考国标GB/T 10345—2022《白酒分析方法》进行定量分析。采用内标法对样品中各化合物含量进行计算。其中，质量浓度为1.201 g/L的叔戊醇作为醇类化合物内标，质量浓度为1.342 g/L的乙酸正戊酯作为酯类化合物内标，质量浓度为1.321 g/L的2-乙基丁酸作为酸类物质内标，其计算公式如下[18]：

1.3.3 光谱数据预处理及模型建立（1）光谱预处理

为了消除光谱数据采集过程中引入的随机误差和噪声的影响，提高光谱数据信噪比，在建模前需要对原始光谱进行预处理，以提高模型的稳定性[19]。本研究采用基线校正（baseline correction，BC）、卷积平滑（savitzky-golay，SG）、多元散射校正（multiplicative scatter correction，MSC）、标准正态变换（standard normal variate transformation，SNV）对原始光谱进行预处理。为验证预处理效果，将处理后的光谱数据与测定的物质含量值进行对应，通过支持向量回归（support vector regression，SVR）算法建立回归模型，采用10折交叉验证法对模型进行验证评价，最后通过均方根误差（root mean square error，RMSE）以及决定系数（R2）综合选择预处理方式。

（2）特征波段筛选

为剔除光谱数据中的无效信息，提高数学模型分析的准确度和有效性[20]，采用竞争性自适应重加权采样法（competitive adaptive reweighted sampling，CARS）和无信息变量消除法（uninformative variables elimination，UVE）对预处理后的光谱进行特征波段的筛选与测定的物质含量进行对应，通过SVR算法建立回归模型，最后通过校正均方根误差（RMSE）以及决定系数（R2）综合选择特征波段筛选方法。

（3）主成分回归预测模型的构建

通过预处理以及特征波长选择后，将剩余的光谱数据作为输入层，主成分数据作为输出层，采用SVR和BP神经网络算法，分别构建物质光谱与待测成分含量的回归模型，实现近红外光谱信息对待测成分含量的快速定量，最后通过均方根误差（RMSE）以及决定系数（R2）选择算法。

（4）量质摘酒模型的建立

随机森林（RF）能够在不降维的情况下处理高维特征的输入，并且评估各个特征的重要性，即使对于缺省值问题也能够获得很好的效果[21]。本实验通过回归预测模型实现关键挥发性风味物质的快速检测，结合感官分析将原酒分为头酒、中段酒、尾酒。采用分层抽样的方法，将原始酒样按7∶3的比例分成训练集和测试集，最后采用随机森林（RF）算法，将回归预测的关键挥发性风味物质含量作为输入层，感官分析数据作为输出，构建量质摘酒分类模型。

1.3.4 数据处理与统计分析

采用Origin 2024和Excel 2016进行数据处理；采用Unscrambler X 10.3进行光谱数据预处理；采用Matlab R2022b进行特征波段的提取和模型的建立。

2 结果与分析

2.1 不同等级原酒中挥发性风味物质测定

头酒（a）、中段酒（b）、尾酒（c）样品总离子流色谱图见图2。由图2可知，3个等级酒样一共鉴定出89种挥发性风味物质，实际每瓶酒样大致判别出40种左右的挥发性风味物质，将3个等级共有挥发性风味物质保留，将含量非常低、且不是每个等级或相同等级不同取样位置都有的物质删除，剩余35种挥发性风味物质，其检测结果见表2。

2.2 主成分分析

主成分分析是把原来多个变量转换为几种主要成分，这些主要成分可以反映大多数原始变量信息[22-24]。主成分方差分析帕累托图见图3。由图3可知，前5个主成分的方差贡献率分别为45.80%、19.80%、10.86%、5.23%、5.85%，累计方差贡献率＞85.00%，说明能够解释影响原酒等级的大部分物质物质信息。

载荷系数可以反映原始指标与主成分之间的相关性，载荷系数绝对值越接近1，则相关性越强，贡献率越大[25]。主成分载荷矩阵见表3。由表3可知，根据前5个主成分载荷系数绝对值＞0.5，筛选出17个能够代表白酒区分等级的主成分，分别为1,1-二乙氧基-3-甲基丁烷、戊酸乙酯、正己酸乙酯、2-甲基丁醇、乙酸己酯、乳酸乙酯、壬酸乙酯、乳酸丁酯、2-羟基-4-甲基-戊酸乙酯、乳酸异戊酯、癸酸乙酯、丁酸、（2,2-二乙氧基乙基）-苯、十二酸乙酯、十七酸乙酯、十八酸乙酯、亚麻酸乙酯。

2.3 光谱数据预处理及回归预测模型的构建

2.3.1 NIR光谱获取

根据近红外光谱原理可知，近红外光谱来源于分子振动时具有非谐振性而使分子振动吸收能量从基态向高能级跃迁时产生的，主要反映被测样本分子中化学键振动的倍频和合频信息[26]。而这些信息主要由被测样品分子中含氢基团（X-H）的倍频与合频的重叠所决定，所以在近红外光谱分析中以含氢基团（X-H）为主，如O-H、N-H、C-H等，其他基团如C=O键等由于倍频数大则对近红外光吸收强度较小，信号强度较弱[27]。

头酒、中段酒、尾酒样品近红外光谱图见图4。由图4可知，头酒、中段酒、尾酒光谱的吸收波段均在12 500～9 025 cm-1区间内，光谱吸收平缓，吸收度接近0，表明几乎无相关化学键，此处光谱无有用数据，光谱在4 440～4 000 cm-1区间内光谱杂乱，表明此波段受噪声影响严重，不适合作为有用数据进行分析。因此在后期分析过程中，将这两部分波段进行删除，剩余1 190个数据，该波段为9 025～4 440 cm-1，这与李征等[28]所选波段一致，且有学者表明该波段能反映C-H振动的一倍频、二倍频和三倍频，O-H振动的合频、一级倍频和二级倍频，C=O键的二级倍频和三级倍频[29-31]。

2.3.2 光谱预处理及波长筛选（1）光谱预处理

为了消除光谱数据采集过程中引入的随机误差和噪声的影响，提高光谱数据信噪比，采用5种方式对光谱数据进行预处理。由表4可知，MSC决定系数（R2）最大（0.749 0），均方根误差（RMSE）较小（0.051 5）。研究表明，R2越接近1，RMSE越接近0，模型效果越好[32]。因此，选择MSC用于后续的光谱数据处理。

（2）特征波段筛选

CARS和UVE是光谱特征波段选择算法，选取MSC预处理后的光谱数据，分别采用CARS算法以及UVE算法提取特征波长，然后结合筛选出的17种主成分建立回归预测模型。特征波数、决定系数（R2）及均方根误差（RMSE）结果见表5。由表5可知，CARS算法筛选出的平均波数（59.91 cm-1）明显少于UVE选择的波数（375.24 cm-1），研究表明，筛选出波数越少，所建模型预测速度更快[33]。 CARS平均决定系数（R2）（0.749 5）略高于UVE（0.743 4），表明CARS会预测出更优的回归值，CARS的平均均方根误差（0.047 8）略低于UVE（0.045 0），因此，选择CARS用于后续的波段筛选。

2.3.3 回归预测模型的构建

本研究使用傅里叶变换近红外光谱法预测原酒中的目标化合物含量，采用SVR与BP神经网络算法建立近红外光谱和目标化合物回归预测模型，其决定系数及均方根误差结果见表6。由表6可知，与BP神经网络算法构建回归预测模型相比，SVR算法构建回归预测模型的决定系数（R2）的平均值更高（0.895 1），平均绝对偏差更小（0.030 0），说明采用SVR算法的回归精度优于BP神经网络算法。因此，SVR算法的回归稳定性优于BP神经网络算法，选择SVR算法作为回归预测模型算法。

2.4 量质摘酒模型的构建

随机森林（RF）法分类过程中测试集的分类结果见图5。由图5可知，除22号样品外，其他样品的预测值与真实值基本完全重合。

随机森林的混淆矩阵见表7。由表7可知，85个头酒和87个尾酒均被正确预测，150个中段酒样，仅有1个被预测为尾酒，其中段酒作为酒企最重要的原酒样，也未混入其他等级的酒样，表明中段酒浪费较少，对企业盈利十分重要。除此之外，量质摘酒模型的准确率、精确率、召回率分别为99.10%、99.62%、99.78%，可反映真实值与预测值的分类效果，表明模型效果较好，能够为企业量质摘酒提供科学的技术支撑。

3 结论

本研究利用气相色谱-质谱联用（GC-MS）技术检测不同等级原酒（酒头、中段酒、尾酒）中的挥发性风味物质，采用主成分分析（PCA）法提取主成分，通过傅里叶变换近红外光谱（FT-NIR）获取光谱，建立回归预测模型，并采用随机森林（RF）算法构建量质摘酒模型。结果表明，采用主成分分析方法提取了戊酸乙酯、正己酸乙酯、乙酸己酯等17个影响原酒等级的主成分；采用多元散射校正（MSC）、竞争性自适应重加权采样法（CARS）及支持向量回归（SVR）方法构建回归预测模型较优，其决定系数R2与均方根误差（RMSE）均值分别为0.895 1、0.03。结果表明，RF构建的量质摘酒模型效果较好，其准确率、精确率、召回率分别为99.10%、99.62%、99.78%。本研究可以为企业基酒分级及感官摘酒工艺提供一定参考。

[1]龙远兵，唐玉云，胡成利.“中国诗酒之乡”射洪酿酒工艺技术的演进及白酒量质摘酒技术起源-基于舍得酒业泰安作坊遗址考古出土文物的实证[J].酿酒，2020，47（3）：19-22.

[2]程平言，路虎，陆伦维，等.浓香白酒摘酒工艺探讨[J].酿酒科技，2020（4）：17-21.

[3]徐军.浓香型枝江白酒香味成分的分析研究[D].武汉：华中农业大学，2019.

[4]周海燕，张宿义，敖宗华，等.白酒摘酒工艺的研究进展[J].酿酒科技，2015（3）：105-107.

[5]翟双，庹先国，张贵宇，等.基于FT-NIR光谱技术结合KPCA-MD-SVM对白酒基酒的快速判别[J].现代食品科技，2022，38（4）：248-253.

[6]JIA W, FAN Z B, DU A, et al.Recent advances in Baijiu analysis by chromatography based technology-A review[J].Food Chem, 2020, 324(15):126899.

[7]王启，马辉峰，蔡建波，等.近红外光谱技术在北方浓香型白酒酿造糟醅理化指标快速检测中的应用[J].中国酿造，2023，42（12）：161-164.

[8]杨国迪.基于近红外光谱的白酒基酒分析模型的建立[D].洛阳：河南科技大学，2016.

[9]沈飞.绍兴黄酒的陈酿特性与指纹图谱检测方法及装置研究[D].杭州：浙江大学，2012.

[10]SUCIU R C, ZARBO L, GUYON F, et al.Application of fluorescence spectroscopy using classical right angle technique in white wines classification[J].Sci Rep,2019,9(1):18250.

[11]OTHMAN R.Chemometrics analysis combined with GC-MS and NMR spectroscopy analysis of fatty acids as a means of discriminating butterfat adulteration[J].J Pharm Nutr Sci,2019,9(2):87-94.

[12]张贵宇.基于NIR指纹图谱的白酒量质摘酒关键技术研究[D].绵阳：西南科技大学，2024.

[13]CHEN H, TAN C, WU T, et al.Discrimination between authentic and adulterated liquors by near-infrared 367 spectroscopy and ensemble classification[J].Spectrochim Acta A,2014,130(15):245-249.

[14]张良，谭文渊，孙跃，等.基于近红外分析的基酒质量等级的研究[J].广州化工，2020，48（5）：125-127.

[15]姜安，彭江涛，彭思龙，等.基于SVM的白酒红外光谱分析方法研究[J].计算机与应用化学，2010，27（2）：233-236

[16]ZHONG J,CHEN J M,YAO L J.Discriminant analysis of liquor brands based on moving-window waveband screening using near-infrared spectroscopy[J].Am J Anal Chem,2018,9:124-133.

[17]YANG G Q,ZHANG S J,ZHANG H H.Study on discrimination of brands of Chinese distilled spirit using near infrared transmission and reflectance spectra[C].Beijing:Workshop on Autonomic Communication,2010.

[18]廖丽，毛晓云，王秋蓉，等.不同酿酒酵母对脆红李果酒品质的影响[J].食品与发酵工业，2020，46（20）：127-134.

[19]袁伟东，姜洪喆，鞠皓，等.木本油料产品掺假和品质评估的近红外光谱及成像检测研究进展[J].食品与发酵工业，2023，49（2）：307-315.

[20]买书魁，吴镇君，陈红光，等.基于近红外光谱技术的白酒原酒中关键成分的定量分析[J].食品与发酵工业，2018，44（11）：280-285.

[21]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报，2013，50（4）：1190-1197.

[22]赵秀红.基于主成分分析的特征提取的研究[D].西安：西安电子科技大学，2016.

[23]黄建勇，叶芝红，吴生文，等.基于主成分分析法探究特香型白酒不同轮次粮糟基酒[J].酿酒科技，2022，12（6）：52-57.

[24]张娇娇，郭松波，余硕文，等.基于多元色谱和主成分分析解析酱香型白酒大回酒风味品质研究[J].中国酿造，2021，40（11）：161-168.

[25]杜晋叶，史畅，马立娟，等.主成分分析研究白酒基酒香气成分[J].中国酿造，2020，39（7）：62-68.

[26]李鸿博.基于近红外光谱的红松子品质检测模型研究[D].哈尔滨：东北林业大学，2021.

[27]严衍禄.近红外光谱分析基础与应用[M].北京：中国轻工业出版社，2005：206-237.

[28]李征，王媚，黄河，等.近红外光谱结合气相色谱对浓香型白酒基酒定性鉴别分析[J].中国酿造，2023，42（3）：222-228.

[29]李春霖.基于化学计量学和近红外光谱技术的龙井茶感官及化学品质评价研究[D].杭州：浙江大学，2019.

[30]高畅，张宇飞，辛颖，等.近红外光谱技术结合波段筛选用于白酒基酒总酯定量分析[J].中国酿造，2021，40（4）：155-158.

[31]ANJOS O, CALDEIRA I, FERNANDES T A, et al.PLS-R calibration models for wine spirit volatile phenols prediction by near-infrared spectroscopy[J].IEEE Sens J,2021,22(1):286.

[32]周军，杨洋，姚瑶，等.中红外光谱技术在浓香型白酒原酒关键指标分析中的应用[J].光谱学与光谱分析，2022，42（3）：764-768.

[33]朱雪梅，庹先国，张贵宇，等.基酒FT-NIR光谱预处理与特征波筛选方法的比较[J].现代食品科技，2023，39（1）：196-204.