基于高光谱成像技术的大米溯源研究

罗浩东,刘翠玲*,孙晓荣,吴静珠

(北京工商大学 人工智能学院 食品安全大数据技术北京市重点实验室,北京 100048)

摘 要:利用高光谱成像技术提取大米的光谱信息进行大米产地溯源研究。采用X-Y距离样本集算法(SPXY)进行训练集和测试集的划分,将1 000颗大米样本中800个为训练集,剩下200个为测试集。并采用主成分分析(PCA)法提取相关性较强的主成分光谱信息,进行数据降维。基于主成分分析法提取前4个主成分,并在贡献率最高的第4主成分基础上,结合支持向量机算法(SVM)建立大米产地溯源预测模型。研究得出训练集准确率可达96%,测试集平均准确率为79%。通过训练集和测试集的实验结果表明,高光谱成像技术可以对大米产地进行溯源,为大米产地快速、无损检测提供了一定思路和参考。

关键词:高光谱成像技术;主成分分析法;支持向量机;大米溯源

中国是世界大米生产和消费的大国之一,大米是中国主要的粮食产物之一。中国大米产地繁多,不同产地的大米口感、营养价值及品质均具有明显差异[1-2]。随着人们生活水平的不断提高,人们对大米的产地以及品质越来越重视。由于大米因外观及品质方面难以用肉眼检测,一些不法商贩将劣质大米混入其中,以次充好,牟取暴利,使得大米掺假问题日益严重[3]。传统的检测方法(如感官识别、近红外光谱等)均有一定劣势和不足。如感官识别受到主观因素影响,检测结果的准确性和稳定性并不高。近红外光谱法需要对大米进行研磨粉碎[4-5],使得进行检测的大米样本不能进行后续的使用[6]

高光谱成像技术结合了近红外光谱和数字成像技术,具有高速、无损、精度高的特点,使样本避免被破坏,被广泛应用于食品检测领域[7-9]。PEREZ-RODRIGUEZ M等[10]利用基于支持向量机(support vector machine,SVM)的预测模型,建立了一种简单、快速、高效的火花放电激光诱导击穿光谱方法。对四个水稻品种(古里、IRGA424、普伊特和塔伊姆)的72个样品进行分析,得到了按植物品种鉴别水稻样品的最佳模型。该模型在试验样本中的正确预测率达到了96.4%。JI M等[11]基于高光谱成像技术建立的最小二乘支持向量机模型对猪肉中的不饱和脂肪酸包括单不饱和脂肪酸和多不饱和脂肪酸进行了检测,并绘制了单不饱和脂肪酸和多不饱和脂肪酸含量的彩色图,取得了良好的实验结果。吴宝婷等[12]利用高光谱技术对灵武枣发酵过程中pH值和总酸含量进行了定量分析,结合竞争性自适应加权算法(competitive adaptive reweighting sampling,CARS)和遗传算法(genetic algorithm,GA)进行特征波段的筛选,进而建立偏最小二乘定量分析模型。结果表明,高光谱技术可以对灵武枣发酵过程中pH值和总酸含量进行定量预测。可见,高光谱成像技术已经广泛应用于食品检测的各个领域,而大米产地溯源领域的报道并不是很多。

王璐[13]采用随机方法对大米样品进行训练集和测试集的划分,根据训练集中样本大米的平均光谱建立了最小二乘支持向量机(least squares support veotor maohine,LS-SVM)分类模型。选取正交信号校正法(orthogonal signal correction,OSC)作为光谱预处理方法,并利用连续投影算法(successive projections algorithm,SPA)提取特征波段建立大米产地分类模型,分类结果为95.36%。王靖会等[14]采集了吉林省梅河口市水稻主产区及松原、大安、辉南等其他水稻产区共990个大米样本的高光谱图像作为研究对象,利用多元散射校正(multiple scattering correction,MSC)处理方法对光谱进行了预处理。采用了多层感知机(multilayer perceptron,MLP)、极限学习机(extreme learning ma chine,ELM)与在线序列极限学习机(online sequence extreme learning machine,OS-ELM)算法,分别基于全波段高光谱数据建立产地溯源模型。实验结果表明,OS-ELM模型分类效果最好,可以准确的进行大米产地的溯源。市场上大米产地来源极多,造成东北大米掺假问题严重。东北大米来源于多个产地,品种不一,不同产地的东北大米也存在着形态、成分组成等差异。再加上高光谱数据信息量丰富,但一些相关性不强的光谱信息会影响预测模型的准确性,容易造成信息冗余,这就为应用高光谱技术建立大米产地溯源造成了干扰和困难[15-16]

本研分以大米产地的溯源为出发点,使用高光谱成像技术,以来源于5种东北和5种非东北的大米作为样本集,对大米的产地进行溯源研究。通过主成分分析法(principal component analysis,PCA)进行主成分提取,实现高光谱数据降维,避免信息冗余[17-18]。采用SVM建立大米产地溯源模型,旨在对市场中流通的大米产地进行快速、准确的判别。

1 材料与方法

1.1 材料与试剂

黑龙江长粒香、吉林稻花香、圆粒香以及辽宁小町米(2种):北京古船米业有限公司;江苏长粒香、小町米、河北小町米、安徽小町米以及浙江圆粒香:浙江农业科学院。

1.2 仪器与设备

SISUCHEMA-SWIR高光谱成像系统:芬兰SPECIM公司。

1.3 方法

1.3.1 大米高光谱技术路线及操作要点

预热→调距→调参→扫描

预热:开启高光谱成像系统预热30 min以上。

调距:调整载物台的距离,确保激光可以穿过大米样品。调整镜头与大米样品的距离,确保所有大米样品进入高光谱成像系统扫描范围。

调参:经过调整参数,确保大米样品像素最清晰。将采集过程中的曝光时间设为3.8 μs,帧率为50 Hz。

将100颗同一产地的大米样本放于板上以便高光谱仪器进行扫描。

1.3.2 感兴趣区域的提取

感兴趣区域提取就是将大米样本的高光谱图像中的目标区域进行提取,因每个像素点的光谱信息不同,目标区域的大小、位置都会对实验数据造成影响。使用ENVI4.8按照大米样本的轮廓,手动提取感兴趣区域,并将感兴趣区域内所有像素点的平均光谱作为大米样本的光谱信息,最后得到10种大米的高光谱数据。

1.3.3 大米检测图像的校正

由于高光谱采集样本数据时光源强度不均匀以及摄像头中暗电流存在,会对图像采集产生较大的噪声,导致光谱信息不准确[19]。为了对图像进行修正,消除噪声的影响,必须对原始的高光谱采集数据进行黑白板校正[20]。高光谱图像的黑白板校正利用(1-1)在ENVI4.8中处理完成。

式中:Rc为相对反射率图像;R0为原始反射率图像;RW为白色参考图像;RB为黑色参考图像。

1.3.4 数据集划分

在Matlbe2016环境下进行样本集的划分,采用X-Y距离样本集算法,将大米样本分为测试集和训练集,测试集和训练集比例为4∶1,其中800个大米作为测试集,剩下的200个大米作为训练集。

2 结果与分析

2.1 主成分分析法和变量相关性分析

计算变量间相关性,画出各波段对应的相关系数曲线图,结果如图1所示。由图1可知,波段之间的吸光度值基本在0.8以上,对全波段进行主成分降维。

1 相关系数曲线图
Fig.1 Curve graph of correlation coefficient

2.2 全波段主成分分析

PCA是一种非监督模式识别算法,可以降低高光谱数据的维数,提高模型工作效率,同时增强大米相关信息并降低干扰信号。全波段成分的方差贡献率如表1所示。由表1可知,当4个主成分时,主成分累计方差贡献率达到99.9%,因此选取第4 个主成分作为特征。

1 主成分分析贡献率统计结果
Table 1 Statistics results of contribution rate of principal component analysis

2.3 预测模型的建立与结果

SVM是一种以结构风险最小化的学习型算法。其优势是实现数据的降维,克服了传统机器学习的维数灾难问题[21]。在小样本数据集中的分类具有显著优势。SVM的中心思想是构造支持向量机Xi和输入层Xn之间的内积核。KXXn)为核函数,能产生重要作用的是惩罚参数c。

本次建模使用了线性函数(linear)和高斯函数(radial),核函数是线性函数时,当C=0.011时,准确率为78%。核函数是高斯函数(radial)时,准确率最大值为57%,比线性函数小,因此选择线性函数最优参数进行建模。

在R-4.0.2上进行实验建模分析。将来自东北大米的黑龙江长粒香、吉林稻花香、圆粒香以及辽宁小町米归为一类(ALL)。非东北大米有:江苏长粒香(SU01)、江苏小町米(FX17APC)、河北小町米(HBTS)、安徽小町米(HUI)以及浙江圆粒香(ZJ01)。训练集实验结果如表2所示。由表2可知,使用训练集中的800个大米样品高光谱数据进行模型的建立,除江苏长粒香外,其他种类大米的训练集预测准确率达到了98%以上。

2 大米产地溯源训练集结果
Table 2 Result of the training set of rice origin traceability

将200个测试集的大米样本数据用于大米产地溯源模型的产地预测,预测结果如图2所示。东北大米、江苏小町米(FX17APC)、河北小町米(HBTS)、安徽小町米(HUI)、江苏长粒香(SU01)和浙江圆粒香(ZJ01)依次由数字1开始从小到大标记。由图2可以看出,大米产地溯源模型较好,可以对大米的产地进行预测。

2 测试集的结果
Fig.2 Result of test set

3 大米产地溯源测试结果
Table 3 Result of rice origin traceability test

由表3可知,江苏小町米(FX17APC)的判断准确率最高,达到了93.3%。河北小町米(HBTS)、安徽小町米(HUI)以及浙江圆粒香(ZJ01)判断准确率在80%左右,而江苏长粒香(SU01)的预测准确率偏低,江苏长粒香的高光谱信息和东北地区大米样品高光谱信息较为接近,使得模型预测结果产生偏差。整体大米溯源预测模型准确率为79%,结果表明高光谱成像技术可以用于大米产地的溯源。

3 结论

采用主成分分析法前几个主成分就已经包含了样品大部分信息,因此比较前几个主成分的贡献率,其中第4主成分累计方差贡献率为99.9%,故采用第4主成分建立大米产地溯源模型。

SVM的中心思想是构造支持向量机内积核。能够对核函数产生重要作用的是惩罚参数c。c表示的是对误差的宽容度,c值越高,说明对误差容忍度越小,过高容易出现过拟合现象。c值过低,容易出现欠拟合的情况。因此c值过大过小都会影响最终模型预测结果。当采用线性函数时,c=0.011时,准确率为78%时,最终模型预测结果较好。

采用主成分分析法(PCA)对高光谱数据的主成分进行了提取,并结合支持向量机(SVM)建立了大米产地溯源预测模型。以提取的第4主成分建立的模型质量有所优化。不仅降低了建模的复杂程度,解决了光谱信息冗余问题,并且提高了模型预测效率,预测准确性以及稳定性。通过预测结果可以发现,高光谱信息较为相近的大米溯源会有一定误差,有待进一步数据处理进行大米产地溯源判断。实验结果表明,高光谱成像技术可以实现对大米产地溯源的快速、准确预测,在大米产地溯源具有广阔的应用前景。

参考文献:

[1]曹崴.基于高光谱成像技术的大米产地鉴别研究[D].长春:吉林农业大学,2019.

[2]CHANAKAN P,BENJAVAN R.Rice quality improvement.A review[J].Agron Sustain Dev,2020,40(4):630-639.

[3]WENG H Y,TIAN Y,WU N,et al.Development of a Low-cost narrow band multispectral imaging system coupled with chemometric analysis for rapid detection of rice false smut in rice seed[J].Sensors,2020,20(4):1-14.

[4]高地.基于近红外光谱技术对松原大米的品种判别及产地确证探究[D].长春:吉林农业大学,2019.

[5]钱丽丽,宋雪健,张东杰,等.基于近红外光谱技术的黑龙江地理标志大米产地溯源研究[J].中国粮油学报,2017,32(10):185-190,196.

[6]夏立娅,申世刚,刘峥颢,等.基于近红外光谱和模式识别技术鉴别大米产地的研究[J].光谱学与光谱分析,2013,33(1):102-105.

[7]杨郡洲.应用高光谱成像技术对梅河大米产地确证的研究[D].长春:吉林农业大学,2019.

[8]王朝辉,杨郡洲,王艳辉,等.基于高光谱成像技术的梅河大米产地确证因子研究[J].中国粮油学报,2019,34(11):113-119.

[9]欧阳爱国,吴建,刘燕德.高光谱成像在农产品无损检测中的应用[J].广东农业科学,2015,42(23):164-171.

[10]PEREZ-RODRIGUEZ M,DRICHWOLF P M,SILVA T V,et al.Fast spark discharge-laser-induced breakdown spectroscopy method for rice botanic origin determination[J].Food Chem,2020,331:127051.

[11]JI M,SUN D W.Prediction of monounsaturated and polyunsaturated fatty acids of various processed pork meats using improved hyperspectral imaging technique[J].Food Chem,2020,321:126695.

[12]吴宝婷,贾柳君,张海红,等.枣醋发酵液中pH 值与总酸含量的高光谱图像技术定量分析[J].中国酿造,2017,36(11):96-100.

[13]王璐.基于高光谱成像技术的大米快速无损检测研究[D].广州:华南理工大学,2016.

[14]王靖会,曹崴,冷全阳,等.基于高光谱与在线序列极限学习机确证大米产地方法[J].中国农业科技导报,2020,22(9):96-103.

[15]孟庆龙,尚静,杨雪,等.基于BP 网络的苹果硬度高光谱无损检测[J].包装工程,2020,41(15):14-18.

[16]黎静,伍臣鹏,刘木华,等.高光谱成像的猕猴桃形状特征检测[J].光谱学与光谱分析,2020,40(8):2564-2570.

[17]何鸿举,朱亚东,王魏,等.基于近红外高光谱成像快速无损检测注胶肉研究[J].食品工业科技,2020,41(10):219-223.

[18]张珏,田海清,王轲,等.基于高光谱成像技术的羊肉新鲜度预测[J].中国农业大学学报,2020,25(5):94-103.

[19]孙宗保,王天真,李君奎,等.高光谱成像的牛肉丸掺假检测[J].光谱学与光谱分析,2020,40(7):2208-2214.

[20]刘翠玲,林珑,于重重,等.基于深度学习的花生高光谱图像分类方法研究[J].计算机仿真,2020,37(3):189-192,283.

[21]赵鹏,唐艳慧,李振宇.支持向量机复合核函数的高光谱显微成像木材树种分类[J].光谱学与光谱分析,2019,39(12):3776-3782.

Research on rice traceability based on hyperspectral imaging technology

LUO Haodong,LIU Cuiling*,SUN Xiaorong,WU Jingzhu
(Beijing Key Laboratory of Big Data Technology for Food Safety,School of Artificial Intelligence,Beijing Technology and Business University,Beijing 100048,China)

Abstract:The spectral information of rice was extracted by hyperspectral imaging technology to study rice origin traceability.The training set and the test set were divided by the sample set partitioning based on joint X-Y distance(SPXY)algorithm,and the 800 of the 1 000 rice samples were divided into the training set,and the remaining 200 were as the test set.The more relevant principal components spectrum information was extracted by principal component analysis(PCA)method to reduce the data dimension.Based on the first four principal components extracted by PCA method,and on the basis of the fourth principal component with the highest contribution rate,combined with the support vector machine(SVM)algorithm,the rice origin traceability prediction model was established.The results showed that the accuracy of the training set reached 96%,and the average accuracy of the test set was 79%.The experimental results of the training set and the test set showed that hyperspectral imaging technology could trace the origin of rice,providing a certain idea and reference for rapid and non-destructive detection of rice origin.

Key words:hyperspectral imaging technology;principal component analysis method;support vector machine;rice traceability

中图分类号:TS212.4

文章编号:0254-5071(2021)04-0183-04

doi:10.11882/j.issn.0254-5071.2021.04.035

引文格式:罗浩东,刘翠玲,孙晓荣,等.基于高光谱成像技术的大米溯源研究[J].中国酿造,2021,40(4):183-186.

收稿日期:2020-10-28

修回日期:2020-12-26

基金项目:北京市自然科学基金(4182017)

作者简介:罗浩东(1996-),男,硕士研究生,研究方向为高光谱成像技术。

*通讯作者:刘翠玲(1963-),女,教授,博士,研究方向为智能测量技术与数据处理。