食醋作为居民普遍使用的调味品,GB 2719—2018《食品安全国家标准食醋》中明确规定,冰乙酸(低压羟基化法)不可用于食醋。但现实中一些商家为了追求利益存在非法使用冰乙酸(低压羟基化法)勾兑冒充食醋的现象。 现行有效的鉴别酿造醋酸与合成醋酸的标准方法有两种:GB/T 22099—2008《酿造醋酸与合成醋酸的鉴定方法》中使用低本底液体闪烁分析仪定量测定14C在酿造食醋与合成食醋中的含量,采用二者的比值进行鉴别;BJS202302《冰乙酸假冒食醋的鉴别方法气相色谱-稳定同位素比值质谱法》中使用气相色谱-稳定同位素比值质谱仪测定乙酸中甲基和羧基的氢稳定同位素比值,以此为基础鉴别食醋中是否含有低压羰基化法冰乙酸。两种方法使用的仪器仅在少数高级别实验室配置,使用的一些试剂具有一定的放射性,对检验人员技术能力要求较高。 对于食醋这类相对低价产品,两种方法成本较高,在基层检测单位难以推广。
紫外可见光一般指波长范围为200~800nm的电磁波[1]。紫外可见光谱法是利用被测体系内含物分子的价电子在紫外可见光波段的吸收特性来对被测体系内含物进行定性、定量的分析方法。模式识别是对模式的区分和认识,其根据对象特征归到若干类别中的适当一类[2],其过程是数据通过一系列算法让机器来实现模式识别。化学模式识别从化学量测数据(包括由化学多元校正与多元分辨解析获得的数据)出发,进一步揭露数据内在的深层次联系,为实际应用提供更多的决策信息[3]。化学模式识别对分析仪器采集的光谱数据可以进行深度挖掘与量化评价,其在食品领域的定性、定量应用十分广泛。RÍOS-REINA R等[4]以紫外可见光谱为基础,采用主成分分析(principal component analysis,PCA)对原始光谱数据筛选,使用软独立建模分类法(soft independent modeling of class analogy,SIMCA)与偏最小二乘判别分析(partial least squares-discriminant analysis,PLS-DA)构建了层次分类模型,该模型成功鉴别了不同产地、种类、酿造时间的葡萄酒醋。郝勇等[5]采用自组织映射(self-organization mapping,SOM)和支持向量机(support vector machine,SVM)两种模式识别方法结合近红外光谱对食醋酿造年份及其品牌进行了识别。LIU F等[6]将近红外光谱与SVM模型结合对果醋进行分类,准确率达100%。
综上,单光谱或多光谱数据与模式识别方法融合后在食品鉴别领域中的应用研究显著提升了检测的适用性,拓展了可检测食品基质的范围。随着支持向量机等先进模式识别算法的不断优化,光谱结合模式识别技术已成为食品安全和质量控制的重要工具。然而,现有研究在食醋掺假鉴别方面存在不足,特别是针对低压羰基化法合成冰乙酸的检测方法研究较少。为此,本研究将紫外可见吸收光谱与模式识别相结合,旨在构建一种快速、经济且准确度高的检测模型,实现酿造食醋与掺假合成冰乙酸食醋的有效鉴别,拟将该方法应用于实际食醋质量监督工作中。
食醋产品(共计25个):通过大型超市及线上正规渠道购买,产地包括山西、江苏、陕西;冰乙酸产品:通过线上正规渠道购买,生产方法均为低压羰基化法,产地包括河南、广州、四川,共计3个。
UV-2600紫外可见分光光度计:日本SHIMADZU公司;10 mm石英比色皿:美国PerkinElmer公司;超纯水系统:德国Milli-Q公司。
1.3.1 样品制作
原浓度食醋的紫外可见光吸收响应值超过仪器载荷,而食醋中的主要成分是水、乙酸、风味物质、功能性物质等[7],大多数属于极性组分,所以对食醋的前处理用水进行稀释。按照食醋与水体积比分别为1∶1、1∶6、1∶20、1∶50、1∶100对食醋进行稀释后进行紫外可见光扫描,最终选用稀释比为1∶50的食醋样品备用。
食醋中的总酸含量大部分在4%~6%之间,最高<9%[8]。故以水为稀释剂制作9%的冰乙酸。将食醋与9%的冰乙酸分别按照体积比1∶1、1∶2、1∶5、1∶8、1∶9进行混合作为掺假食醋样品。掺假食醋样品用水稀释50倍,备用。
1.3.2 紫外可见光谱数据采集
UV-2600紫外可见分光光度计开机后预热15min,设置波长扫描范围为185~900 nm;扫描速度为中速(200 nm/min);狭缝宽1 nm;采样间隔为0.1 nm;积分时间为0.1 s。设置好仪器参数后首先进行基线校正,然后依次放置样品进行扫描。
1.3.3 光谱数据预处理
选择合适的光谱预处理方法可以有效抑制背景噪音及减小外界因素的影响,提高谱图与样品本身化学成分之间的相关性,从而提高预测模型的适用性[9]。光谱的预处理方法有很多,针对紫外可见吸收光谱,本研究选用萨维茨基-戈雷(Savitzay-Golay,SG)平滑、一阶导数两种方法。
SG平滑是将光谱数据上连续的2n+1个点作为窗口,用多项式对窗口内的光谱数据点进行拟合,基于最小二乘原理确定多项式系数,最后将窗口沿着波段移动平滑所有光谱数据。该方法可以减少随机误差,提高信噪比[10]。方法中窗口大小和多项式次数根据经验设定,窗口越大,降噪能力越好,但太大会导致过度平滑,次数越高对原始数据的适应性越强,但过高会拟合噪声,所以本研究选择n取3,多项式次数取3。 一阶导数是对平滑后的光谱数据一阶微分处理,该方法即可以消除平缓谱线的基线干扰又可以提升数据的辨析度[11]。
1.3.4 特征光谱波段提取
采用竞争性自适应重加权采样法(competitive adapa tive reweighted sampling,CARS)对光谱数据进行特征波段提取,该方法基于蒙特卡洛采样法与偏最小二乘(partial least squares,PLS)原理,对光谱数据中的每个波段的响应值进行分析、计算权重值、筛选[12],该方法普遍用于光谱数据特征提取[13-14]。实现CARS的具体过程如下:
(1)初始随机采样
采用蒙特卡洛理念即随机抽取80%的样本个数作为建模集,剩余20%的样本个数作为验证集。
(2)迭代优化
每一轮迭代优化包含以下子步骤:
首先,建立PLS模型。本研究光谱数据与食醋真伪关系的PLS模型可由下式表达:
式中:Ym×1是每个样品对应的食醋真伪矩阵;Xm×p是本实验所测吸收光谱数据矩阵;m为样本个数;p为初始采集的波段个数;B是回归系数矩阵;|bi|表示第i个吸收光谱波段对类别变量Ym×1的贡献值,其值越大表示该吸收光谱波段在鉴别时发挥的作用越大;E是残差矩阵。 使用步骤(1)中建模集数据训练上述PLS模型计算出回归系数矩阵。
为了公平比较变量重要性,需要标准化处理回归系数,标准化处理的回归系数称为权重值Wi,具体表达式如下:
其次,计算波长个数保留概率。第i次随机采样时筛选波段比率ri按下式计算:
式中:a与k均为常数。 第1次执行随机采样时,所有的吸收光谱波段都用于建立PLS回归模型,所以r1=100%。第n次执行蒙特卡罗采样时,只有2个吸收光谱波段用于建模,
再次,竞争性筛选。第i次随机采样时筛选出的吸收光谱波段个数为num。 num计算公式如下:
式中:p为初始采集的波段个数;ri是波长个数保留概率。吸收光谱波段根据权重值Wi大小进行排序,保留前num个波段,num个后的波段权重值设为0强制淘汰。
最后,模型评估。计算第i次采样后保留波段的交叉验证均方根误差(root mean square error of cross validation,RMSECV)。
(3)选择最优子集
重复执行步骤(2),迭代100次,保留RMSECV值最小的吸收光谱波段数集合,该集合中筛选出的特征波段用于进一步建立鉴别模型[15]。
1.3.5 支持向量机模型建立
根据建模前有无类别已知的建模样本,将模式识别分为监督模式识别和非监督模式识别[16]。支持向量机(SVM)用已知类型的样本集进行建模,属于监督模式识别,其核心思想是在n维数据中找到一个n-1维超平面对数据进行分类。该方法具有小样本学习和推广泛化能力强的优点[17]。
构建支持向量机模型的本质是求解超平面方程式。距离超平面最近的不同类别样本点定义为支持向量,支持向量到超平面的垂直距离之和称为间隔。支持向量机模型的构建分为以下几个关键步骤:
(1)建模数据准备。
本研究使用SG平滑、一阶导数、CARS对光谱数据处理。
(2)选择核函数。
一般情况下获得的n维样本数据无法直接分类,SVM采用提高样本数据维度的思路进行分类,但升维分类需要明确的维度转换函数以及更多的计算要求。在实际建模中为了求解的效率和方便性计算引入核函数技巧。核函数能够通过原维度下的向量点积结果计算新维度的向量点积结果,进而提供高纬度向量相似度的结果,通过选取合适的核函数就可以不用知晓具体的维度转换函数,直接获得样本的高维度差异度,并以此来进行分类判断[18]。常用核函数有线性核函数、多项式核函数、径向基核函数和Sigmoid核函数[19],其计算公式如下:
式中:v为缩放参数,c为常数,q为多项式阶数,σ为高斯分布标准差。
(3)求解超平面参数。
SVM通过最大化不同类别支持向量之间的间隔来实现寻找最优超平面的目的,通过拉格朗日乘子法建立对偶问题,结合核函数的支持向量点积结果可以求解超平面的参数值[20]。
(4)评价SVM模型
评价SVM模型性能的指标有分类正确率及混淆矩阵。分类正确率包括建模集的分类正确率和验证集的分类正确率,其计算公式如下:
混淆矩阵包括建模集的混淆矩阵和和验证集的混淆矩阵,对于鉴别SVM模型混淆矩阵是二维矩阵,横坐标数值表示样品真实类别,纵坐标数值表示样品预测类别,每个正方格中的数值表示对应横纵坐标的样本数量。混淆矩阵有助于了解模型在不同类别样品上的正确率,从而有针对性的对样本进行预处理、模型参数调整[21]。
从3种9%低压羰基化冰乙酸样本中共采集到3条紫外可见吸收光谱,结果发现,3条紫外可见吸收光谱图几乎重叠,这是因为目前采用低压羰基化法制作冰乙酸的原料单一、技术成熟,且冰乙酸产品纯度极高,杂质含量较少[22],即使是不同产地厂家的产品对紫外可见光的吸收特征也基本一致,所以本研究选用1种冰乙酸产品配制9%冰乙酸制作掺假食醋。 同时,将3条9%低压羰基化法冰乙酸样品的紫外可见吸收光谱也归为掺假食醋数据。
从25个食醋样品中共采集到25条紫外可见吸收光谱,结果见图1。 由图1可知,食醋的紫外可见光吸收响应波段主要在波长200~440 nm,25条紫外可见吸收光谱整体具有趋势一致性,但在某些特定波段的吸收强度有差异,这可能是因为食醋中普遍含有氨基酸、醇类、糖类、醛类等物质,但由于食醋生产过程中原料种类、配比、发酵周期以及生产规模等工艺参数的差异,导致其代谢产物存在一定程度的组分差异。有的食醋中可能含有黄酮类物质、甜菜碱、5-羟甲基糠醛、琥珀酸等特殊功能性成分[23]。 乙酸的紫外吸收峰在波长210 nm附近,黄酮类物质的紫外吸收峰在波长270~340 nm,甜菜碱的紫外吸收峰在波长200~220 nm,5-羟甲基糠醛的紫外吸收峰在波长280~290 nm,琥珀酸的紫外吸收峰在波长200~220 nm,氨基酸的紫外吸收峰在波长200~230 nm,醛类、糖类的紫外吸收峰在波长200 nm以下[24-26]。进一步应用K-means的聚类方法对25个食醋样品的紫外可见吸收光谱数据进行分类[27],结果可将食醋样品归为5类,结果见图2。 每一类选出一个代表样,采用9%低压羰基化法冰乙酸与代表样制作不同梯度的掺假食醋,共计25个样本,掺假食醋样本的紫外可见吸收光谱图亦见图1。
图1 食醋与掺假食醋的紫外可见吸收光谱图
Fig.1 UV-Vis absorption spectra of vinegar and adulterated vinegar
图2 25个食醋样品的K-means分类图
Fig.2 K-means clustering of 25 vinegar samples
通过对比观察食醋与掺假食醋的紫外可见吸收光谱图可以发现,食醋与掺假食醋的紫外可见吸收光谱图在响应波段和强度方面有明显区别,这为后续使用模式识别量化吸收光谱特征差异,以此鉴别食醋与掺假食醋提供了基础。
食醋与掺假食醋的紫外可见吸收光谱图存在与样品成分无关的噪声、基线漂移、重叠峰等问题,因此,对光谱图进行SG平滑、一阶求导,结果见图3。由图3可知,预处理后的紫外可见吸收光谱消除了高频噪音、细微波动,减少了吸收峰的平移和漂移,放大了真假样品光谱差异度。
图3 萨维茨基-戈雷平滑、一阶求导后食醋与掺假食醋的紫外可见吸收光谱图
Fig.3 UV-Vis absorption spectra of vinegar and adulterated vinegar after Savitsky-Goyle smoothing and first-order derivatives
从食醋与掺假食醋样本的紫外可见吸收光谱中共得到7 151个波段信息,数据维度较大,对光谱数据进行特征波段的提取,既能消除数据的冗余筛选出权重最大的光谱波段又能在建模时提高模型运行效率。 本研究使用CARS方法提取特征光谱波段,CARS参数设置:随机采样100次;交叉验证10折。CARS方法运行过程见图4。
图4 食醋与掺假食醋样本特征光谱波段提取竞争性自适应重加权采样法运行过程
Fig.4 Competitive adaptive reweighted sampling operation process of extracting characteristic spectral bands from vinegar and adulterated vinegar samples
由图4可知,由于用指数函数确定保留光谱波段个数,随机采样的前期数据维度减少速度非常快。随机采样第58次时RMSECV最低,为0.125 2。 变量的回归系数变化轨迹代表每一个波段随着蒙特卡洛采样次数增加其重要程度的变化情况,CARS最终保留的是重要程度在一段时间内较稳定且较大的波段。在样本的紫外可见吸收光谱数据集上筛选出来的波段见图5。由图5可知,共筛选出64个波段,大大降低了自变量数据的维度,为后续建模提供了支持。
图5 食醋与掺假食醋样本特征光谱波段提取结果
Fig.5 Extraction results of characteristic spectral bands of vinegar and adulterated vinegar samples
本实验建模集和验证集样本个数比例为8∶2,在SVM模型中使用不同核函数建模,鉴别正确率结果见表1,混淆矩阵结果见图6。
表1 使用不同核函数构建支持向量机模型鉴别正确率结果对比
Table 1 Comparison of discrimination accuracy rate results of support vector machine models constructed using different kernel functions
模型 核函数 建模集正确率/%验证集正确率/%平均正确率/%SVM线性核函数多项式核函数径向基核函数Sigmoid核函数100 100 88.10 81.00 100 100 100 100 100 100 94.05 90.50
图6 使用不同核函数构建支持向量机模型鉴别混淆矩阵结果
Fig.6 Results of discriminating the confusion matrix of support vector machine models constructed using different kernel functions
a:线性核函数,b:多项式核函数,c:径向基核函数,d:Sigmoid核函数;1:食醋,2:掺假食醋。
由表1可知,在SVM模型中使用线性核函数、多项式核函数鉴别食醋是否掺假低压羰基化法冰乙酸正确率均可达到100%,而径向基核函数及Sigmoid核函数对掺假食醋鉴别的能力均稍弱,但平均正确率均>90%。该结果可能是由于本研究数据具有高纬度、小样本量的特点,适用于线性核,而径向基核函数及Sigmoid核函数的计算及训练过程复杂,需要根据大量的实际应用经验调参[28]。
由图6可知,线性核函数、多项式核函数、径向基核函数在食醋与掺假低压羰基化冰乙酸食醋两类物质上的鉴别能力一致;Sigmoid核函数在食醋上的鉴别能力弱于在掺假低压羰基化冰乙酸食醋上。
本研究采用紫外可见吸收光谱结合SVM模型建立了一种经济、高效、准确的食醋掺假低压羰基化法冰乙酸的鉴别方法,使用线性核函数、多项式核函数构建的SVM模型对食醋及掺假低压羰基化法冰乙酸食醋的鉴别正确率均为100%,采用径向基核函数、Sigmoid核函数构建的SVM模型对食醋及掺假低压羰基化法冰乙酸食醋的鉴别平均正确率可达到90%,该方法仅需简单的样品前处理,数据采集,机器计算即可经济、快速、准确、便捷、无损、无污染的鉴别食醋中是否掺假低压羰基化法冰乙酸,为食醋安全质量监督提供了一个创新的可行的方向。
[1]武汉大学.分析化学下册[M].第六版.北京:高等教育出版社,2016:212-233.
[2]张学工,汪小我.模式识别:模式识别与机器学习[M].北京:清华大学出版社,2021:1-3.
[3]胡勇.化学多维校正和高维模式识别及在复杂体系中的应用研究[D].长沙:湖南大学,2018.
[4]RÍOS-REINA R,AZCARATE S M,CAMIÑA J,et al.Application of hierarchical classification models and reliability estimation by bootstrapping, for authentication and discrimination of wine vinegars by UV-vis spectroscopy[J].Chemonetr Intell Lab,2019,191:42-53.
[5]郝勇,赵翔,温钦华,等.基于SOM和SVM的食醋品质近红外定性分析[J].食品与机械,2016,32(5):48-52.
[6]LIU F,HE Y,WANG L.Determination of effective wavelengths for discrimination of fruit vinegars using near infrared spectroscopy and multivariate analysis[J].Anal Chim Acta,2008,615(1):10-17.
[7]RUAN W,LIU J,LI P,et al.Dynamics of microbial communities,flavor,and physicochemical properties during Ziziphus jujube vinegar fermentation: Correlation between microorganisms and metabolites[J].Foods,2022,11(21):3334.
[8]王宏霞.不同陈酿年份四大名醋风味和功能性成分的比较[D].晋中:山西农业大学,2021.
[9]居雷,于洁,吴炎淼,等.高光谱预处理方法与多模型在分类判别中的对比研究[J].光谱学与光谱分析,2025,45(1):125-132.
[10]卢素敏,郝悦,石梓彤,等.峰值提取结合变分模态分解的复杂样品光谱去噪方法研究[J].分析化学,2024,52(9):1277-1286.
[11]王亚轩,谭峰,辛元明,等.大米拉曼光谱不同预处理方法的相近产地鉴别研究[J].光谱学与光谱分析,2021,41(2):565-571.
[12]LI H,LIANG Y,XU Q,et al.Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J].Anal Chim Acta,2009,648(1):77-84.
[13]路皓翔,张静,李灵巧,等.最小角回归结合竞争性自适应重加权采样的近红外光谱波长选择[J].光谱学与光谱分析,2021,41(6):1782-1788.
[14]母雯竹,张贵宇,张维,等.基于CARS-SPA特征提取的黄水淀粉近红外光谱定量模型优化[J].食品科学,2024,45(19):8-14.
[15]霍迎秋,凌晨东,孙江昊,等.基于高光谱的猕猴桃叶片叶绿素含量智能检测研究[J].中国农机化学报,2024,45(12):154-161.
[16]BALLABIO D, CONSONNI V, TODESCHINI R.The Kohonen and CP-ANN toolbox:A collection of MATLAB modules for self organizing maps and counterpropagation artificial neural networks[J].Chemometr Intell Lab,2009,98(2):115-122.
[17]VALENTINI G, DIETTERICH T.Bias-variance analysis of support vector machines for the development of SVM-based ensemble methods[J].J Mach Learn Res,2004,5:725-775.
[18]庞婷婷,张贵宇,刘科材,等.基于遗传和引导聚集算法优化支持向量机的白酒基酒品质评估方法[J].食品科学,2025,46(6):275-284.
[19]李鑫星,朱晨光,白雪冰,等.基于可见光谱和支持向量机的黄瓜叶部病害识别方法研究[J].光谱学与光谱分析,2019,39(7):2250-2256.
[20]邓乃扬,田英杰.支持向量机:理论、算法与拓展[M].北京:科学出版社,2009:92-96.
[21]许毓婷,孙浩然,高勋,等.基于LIBS技术结合PCA-SVM机器学习对猪肉部位的识别研究[J].光谱学与光谱分析,2021,41(11):3572-3576.
[22]黄煜,葛立新.工业冰乙酸国内外试验方法的研究及验证[J].化工技术与开发,2020,49(5):46-49.
[23]王小花.基于NMR技术的国内外食醋质量与安全研究[D].武汉:中国科学院大学(中国科学院武汉物理与数学研究所),2016.
[24]胡宏凯,彭金年,黄纯,等.紫外-可见分光光度法测定赣南风车子中总黄酮的含量[J].化工设计通讯,2024,50(3):26-27,30.
[25]WHITAKER J, GRANUM P.An absolute method for protein determination based on difference in absorbance at 235 and 280 nm[J].Anal Biochem,1980,109(1):156-159.
[26]CAPUANO E,FOGLIANO V.Acrylamide and 5-hydroxymethylfurfural(HMF):A review on metabolism,toxicity,occurrence in food and mitigation strategies[J].LWT-Food Sci Technol,2011,44(4):793-810.
[27]高航,续丹丹,王文平,等.基于多元统计学分析红曲米醋醋酸发酵阶段挥发性风味特征组分[J].食品科学,2022,43(12):219-227.
[28]陈方圆,周鑫,陈奕云,等.不同核函数支持向量机和可见-近红外光谱的多种植被叶片生化组分估算[J].光谱学与光谱分析,2019,39(2):428-434.
Research on vinegar adulteration with glacial acetic acid based on UV-Vis spectroscopy and pattern recognition