一种基于拉曼光谱分析的鱼粉掺假快速检测方法





1.本发明属于饲料检测技术领域,具体涉及一种基于拉曼光谱分析的鱼粉掺假快速检测方法。


背景技术:

2.鱼粉是高蛋白质饲料的重要原料,由于其有效能值高,维生素及矿物质含量丰富,且含有促生长的未知因子,因此被大量用于水产养殖、家畜饲养、毛皮动物饲养。随着养殖产业的扩大,市场对于优质鱼粉的需求与日俱增,鱼粉供应品质却良莠不齐,出现大量掺假鱼粉以次充好。
3.传统的鱼粉掺假鉴别方法主要包括感官识别、物理识别和化学识别方法(葛敏,田蕴,王益军,张竞男.掺假鱼粉的识别方法[j].当代畜牧,2016(36):24-25)。感官识别方法通过看、闻、触等简单的手段判别掺假鱼粉,主要依靠检查者的经验和主观判断,难以获得可信的结果。物理识别方法主要包括水洗法、显微镜识别法;化学识别方法主要包括盐酸法、碱煮法等。但这些检测方法耗时较多,对于样品本身具有破坏性。随着鱼粉掺假技术的不断发展,尤其是将低附加值鱼粉混入高附加值鱼粉中,用户仅凭传统的感官识别与物理识别更无法有效判别鱼粉掺假。因此,急需一种有效准确的掺假鱼粉快速检测方法。
[0004]
拉曼光谱是一种具有分子指纹信息的振动光谱,对于每种物质都会有其独特的光谱信息。作为一种无创、快速、方便的物质检测工具,拉曼光谱广泛用于物质掺假检测中。例如,使用拉曼光谱进行橄榄油掺假的鉴别(yuanpeng li,tao fang,siqi zhu,et al.“detection of olive oil adulteration with waste cooking oil via raman spectroscopy combined with ipls and sipls.”spectrochimica acta part a:molecular and biomolecular spectroscopy 189(2018):37-43),检测大西洋鲑鱼中混入的虹鳟鱼(zeling chen,ting wu,cheng xiang,et al.“rapid identification of rainbow trout adulteration in atlantic salmon by raman spectroscopy combined with machine learning..”molecules 24(2019):2851),判断奶粉是否掺假(michel k.nieuwoudt,se holroyd,cushla mcgoverin,et al.“raman spectroscopy as an effective screening method for detecting adulteration of milk with small nitrogen-rich molecules and sucrose”journal of dairy science 99(2016):2520-2536)等。这些检测方案基于拉曼光谱提供的指纹信息,并使用数学统计或机器学习算法进行分析。近年,结合机器学习的拉曼光谱分析方法更是在物质检测体现了巨大潜力(fei gao,xu lingzhi,yue-jing zhang,et al.“analytical raman spectroscopic study for discriminant analysis of different animal-derived feedstuff:understanding the high correlation between raman spectroscopy and lipid characteristics..”food chemistry 240(2018):989-996),对鱼粉掺假的鉴别具有启发意义。但需要注意的是,无论是作为目标物质的纯鱼粉还是待测的掺假物质(例如羽毛粉或低附加值鱼粉),其本质都是混合物。因此,现有的考虑纯物质相互掺杂,并使用拉曼光谱分析的鉴别算法无法直接应用
于检测鱼粉掺假。面向混合物掺假的鉴别任务,如何有效提取鱼粉和掺假物的特征是一大挑战。特别是,鱼粉样本自身也存在不均匀性,例如同种鱼粉样本之间的蛋白形状与分布不尽相同,这更增加了鱼粉鉴别任务的难度。
[0005]
鱼粉掺假检测作为一项混合物掺假鉴别任务,要求分类器具备可以识别多种掺假浓度样品的能力,而拥有强大特征提取能力的深度学习技术正是很好的选择。近年来,深度学习以其强大的特征提取能力和良好的泛化性能被广泛应用于多个领域,例如神经网络可以对混合物的拉曼光谱进行成分分析(xiaqiong fan,wen ming,huitao zeng,et al.“deep learning-based component identification for the raman spectra of mixtures”analyst 144(2019):1789-1798)。一般地,在数据量充足的情况下,深度学习的性能优于传统的机器学习。但在实际应用中,鱼粉的使用者和验收单位容易获得具有代表性的纯鱼粉与掺假物质(如纯羽毛粉)的少量拉曼光谱。在少样本的情况下,常见的机器学习方法(如支持向量机、随机森林等)可以识别待测样本是不是纯鱼粉,或者是不是纯的掺假物质(如纯羽毛粉),但无法有效辨别出掺假样品,因为其拉曼光谱同时包含有鱼粉和掺假物质的特征。特别是,容易将掺假物质浓度低的样品误判为纯鱼粉。面对这样的困境,似乎只有获得各种浓度的掺假样品的光谱数据才能充分学习掺假鱼粉的特征。然而鱼粉掺假鉴别的实际应用,没有条件花费巨大的人力物力和时间来获取这样大量的多种浓度训练样品。因此,采集和标注大量的鱼粉掺假拉曼光谱的高成本,限制了深度学习在鱼粉掺假领域的应用。


技术实现要素:

[0006]
本发明提供了一种基于拉曼光谱分析的鱼粉掺假快速检测方法,基于少量的纯鱼粉样本与纯掺假物质样本的原始拉曼光谱,对原始拉曼光谱进行预处理后分别进行数据增强,模拟出大量的纯鱼粉和不同掺假浓度样品的拉曼光谱,将这些模拟样本数据输入神经网络进行训练,即使用神经网络学习和识别掺假鱼粉与纯鱼粉的特征,从而使训练模型能精确快速地判断实际样品是否掺假。
[0007]
本发明采用如下技术方案:
[0008]
一种基于拉曼光谱分析的鱼粉掺假快速检测方法,包括:
[0009]
s1,通过数据增强方法获得训练数据集:
[0010]
s11,随机挑选纯鱼粉样品和掺假物质样品的拉曼光谱进行预处理,再按照一定比例进行线性加和,并按需进行归一化操作,生成兼具鱼粉和掺假物质拉曼光谱数据特征的用于训练的正样本;随机挑选纯鱼粉样品的两个拉曼光谱进行预处理,再按照一定比例进行线性加和,生成具鱼粉拉曼光谱数据特征的用于训练的负样本;
[0011]
s12,重复s11获得所需数量的训练正样本和负样本;
[0012]
s2,网络模型训练:将数据增强阶段获得的训练样本按照预设比例拆分为训练集、测试集和验证集,共同输入神经网络中进行训练,获得训练好的网络模型;
[0013]
s3,掺假鉴别:采集待测鱼粉样品的拉曼光谱,并把这些光谱作为待测样本分别输入训练好的网络模型中,以检测出样本是否含有掺假物质。
[0014]
优选的,所述s1,具体包括:
[0015]
生成负样本的步骤:从预处理后的纯鱼粉拉曼光谱集合x中随机取出两个纯鱼粉
样本xi和xj,按照一定比例进行线性加和;重复上述步骤k次获得k个用于训练的负样本;其中,i∈1,2,

,m;j∈1,2,

,m,i≠j;m表示已标注的纯鱼粉样本的数目;
[0016]
生成正样本的步骤:从预处理后的纯鱼粉拉曼光谱集合x和预处理后的纯掺假物质拉曼光谱集合y中各分别取出一个鱼粉样本xi和一个纯掺假物质样本yv,按照一定比例进行线性加和;重复上述步骤k次获得k个用于训练的正样本;其中,v∈1,2,

,n;n表示已标注的纯掺假物质样本的数目;
[0017]
归一化步骤:对生成的用于训练的正样本和负训练样本分别进行归一化操作。
[0018]
优选的,所述生成负样本的步骤,具体包括:
[0019]
从预处理后的纯鱼粉拉曼光谱集合x中随机取出两个纯鱼粉样本xi和xj,按照算式z=(1-a)xi+axj获得模拟光谱;重复上述步骤k次获得k个用于训练的负样本;其中,0《p≤a≤q《1,p和q分别是算法设定的比例下界和上界,a表示两个样本之间的混合比例,可在设定的范围[p,q]内随机选择。
[0020]
优选的,所述生成正样本的步骤,具体包括:
[0021]
从预处理后的纯鱼粉拉曼光谱集合x和预处理后的纯掺假物质拉曼光谱集合y中各分别取出一个鱼粉样本xi和一个纯掺假物质样本yv,按照算式z=(1-a)xi+ayv获得模拟光谱;重复上述步骤k次获得k个用于训练的正样本;其中,0《p≤a≤q《1,p和q分别是算法设定的比例下界和上界,a表示两个样本之间的混合比例,可在设定的范围[p,q]内随机选择。
[0022]
优选的,归一化操作的方式如下:
[0023][0024]
其中,zu为归一化后的训练样本;z(th)表示z在位移th的拉曼信号强度,z
min
和z
max
分别表示z的最小拉曼信号强度和最大拉曼信号强度。
[0025]
优选的,所述s2,具体包括:
[0026]
使用一维神经网络对拉曼光谱样本进行训练;首先对输入的样本使用卷积层提取光谱特征,然后使用池化层提高网络特征学习的效率,经过若干个卷积和池化的操作后,使用全连接层建立特征与样本之间的联系,最后使用softmax函数对预测的输出进行归一化,得到样本属于掺假类别和未掺假类别的概率。
[0027]
优选的,softmax函数表示如下:
[0028][0029]
其中,n表示输出节点的个数,包括掺假与未掺假两个类别,即n=2;r对应第r个节点,r=1,...,n;是经过转置后的第r个节点对应的权重向量,c为输入向量,最终输出的probability(r)对应第r个节点的概率。
[0030]
优选的,s2中,网络模型的损失函数采用交叉熵损失函数,以判断出输入样本是不是含有掺假物质,交叉熵损失函数表示如下:
[0031][0032]
其中,n表示输出节点的个数,包括掺假与未掺假两个类别,即n=2;gi表示样本的
标签,正样本为1,负样本为0;pi表示第i个样本被预测为正样本的概率。
[0033]
本发明的有益效果如下:
[0034]
(1)本发明基于同种鱼粉拉曼特征相近、鱼粉与掺假物拉曼特征不同的特点,设计使用线性加和的数据增强方法,生成大量的纯鱼粉拉曼光谱和掺假样品拉曼光谱来丰富训练集,规避了实际情景下各种浓度掺假样品光谱数据获取成本高的问题,为深度学习模型的应用奠定了基础;
[0035]
(2)本发明考虑到鱼粉样本和掺假物质(如羽毛粉)均为混合物,样本中的蛋白分布或形状等存在不均匀性,本发明生成的拉曼光谱应在保留原始样本主要特征的同时也具有一定差异性,以符合混合物特征分布不均匀的特点;采用深度学习模型提高分类器的准确性和鲁棒性;
[0036]
(3)本发明亦适用于低附加值鱼粉混入高附加值鱼粉的鉴别场景,此时需将低附加值鱼粉视作掺假物质。
[0037]
以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种基于拉曼光谱分析的鱼粉掺假快速检测方法不局限于实施例。
附图说明
[0038]
图1为本发明实施例的方法流程图;
[0039]
图2为本发明实施例的实验中的cnn网络结构图。
具体实施方式
[0040]
以下通过具体实施方式对本发明作进一步的描述。应当说明的是,此处所述具体实施例仅用于方便说明和解释本发明的具体实施方式,并不用于限定本发明。
[0041]
为了使本发明的目的、技术方案更加清晰明了,以下结合附图以及案例,对本发明进行进一步说明。应当理解,此处所描述的案例仅用于解释本发明,并不用于限定本发明。
[0042]
本发明适用于鱼粉掺假检测的应用场景。本实施例中,可使用已有少量标注好的纯鱼粉拉曼光谱和纯掺假物质拉曼光谱,针对这两种光谱数据进行数据增强可以生成大量的纯鱼粉模拟光谱(负样本)和多种浓度掺假样品的模拟光谱(正样本)。然后将这些生成的训练样本输入神经网络中进行训练,得到二分类模型。该模型通过对待鉴别样本的拉曼光谱进行分类,判断出其是否混入掺假物质。参见图1所示,本实施例主要包括以下三个步骤:
[0043]
(1)通过数据增强算法获得训练数据集:随机挑选两个原始光谱数据进行预处理,再按照一定比例进行线性加和,并按需进行归一化操作,最后生成兼具两者特征的模拟光谱。大量地重复此步骤可以获得足够的训练使用的正样本和负样本。
[0044]
设可用于数据增强的纯鱼粉拉曼光谱集合为x={xi|i=1,2,

,m},掺假物质拉曼光谱集合为y={yv|v=1,2,

,n},其中m和n分别表示已标注的纯鱼粉样本和掺假物质样本的数目,这些光谱均已经过统一的预处理操作,具体地说可以采用去除荧光背景和噪音的算法,例如基于高斯峰的基线扣除算法(孙锡龙.等离激元增强拉曼光谱预处理和识别算法的研究[d].厦门大学,2014)。对每一个拉曼光谱样本可以表示成xi(t)或yv(t)的形式,其中t=[t1,t2,

,ts]是拉曼位移序列,s表示每个光谱序列的长度,xi(th)表示第i个拉曼光谱在th拉曼位移这一位置时的拉曼信号强度,h=1,2,...,s。生成负样本的步骤:从x中
随机取出两个鱼粉样本xi和xj(xi、xj均属于x),按照算式z=(1-a)xi+axj获得模拟光谱,其中0《p≤a≤q《1。p和q分别是算法设定的比例下界和上界,a表示两个样本之间的混合比例,可在设定的范围[p,q]内随机选择。重复上述步骤k次可获得k个负的训练样本。初始样本xi和xj,以及混合比例a都是随机的,因此这些负样本之间存在差异性,但又都具有同一种鱼粉的拉曼特征。
[0045]
生成正样本的步骤:从x和y中各分别取出一个鱼粉样本xi和一个掺假物质样本yv,按照算式z=(1-a)xi+ayv获得模拟光谱,同样地0《p≤a≤q《1。随机选择比例a并重复上述步骤k次,可获得k个正的训练样本,同时包含了鱼粉和掺假物质的拉曼特征。同理,这些正样本之间存在差异性,但可以提取出不同掺假浓度下掺假样本的拉曼特征。
[0046]
这些数据增强算法生成的正负训练样本可以直接输入神经网络中进行训练。但如果纯鱼粉和掺假物质的拉曼信号强度不在相似数量级上,为提高二分类模型的准确性,还需通过公式对生成样本z进行归一化操作。其中,zu为归一化后的训练样本,z(th)表示z在位移th的拉曼信号强度,
min
和z
max
分别表示z的最小拉曼信号强度和最大拉曼信号强度。归一化操作可以使得正负样本的拉曼强度具有可比性,避免弱信号特征被淹没。
[0047]
(2)训练神经网络模型:数据增强阶段获得2k个正负样训练样本,将其拆分为训练集、测试集、验证集,共同输入神经网络中,最终获得训练好的网络模型。
[0048]
由于每个拉曼光谱都可以视为一维矢量,因此可以使用一维神经网络对其进行训练。首先对输入的样本使用卷积层提取其光谱特征,然后使用池化层提高网络特征学习的效率,经过若干个卷积和池化的操作后,使用全连接层建立特征与样本之间的联系,最后使用softmax函数对预测的输出进行归一化,得到样本属于掺假类别和未掺假类别的概率。softmax函数如下:
[0049][0050]
此处的n表示输出节点的个数(即类别的数目),本发明只考虑有掺假与未掺假两个类别,因此n=2。r对应第r个节点,r=1,...,n,是经过转置后的第r个节点对应的权重向量,c为输入向量,最终输出的probability(r)对应第r个节点的概率。
[0051]
神经网络的训练目标是完成一个二分类任务:即对输入样本是不是掺假样品进行判断,因此其损失函数可采用交叉熵损失函数:
[0052][0053]
其中,gi表示样本的标签,正样本为1,负样本为0;pi表示第i个样本被预测为正样本的概率。
[0054]
神经网络模型通过对输入的大量正负样本的特征进行学习直到损失收敛,最终得到可以判断鱼粉样品是否掺入该掺假物质的分类器。
[0055]
(3)掺假鉴别:在实际的鱼粉掺假鉴别场景中,检测人员对于待检测的一批样品分别采集拉曼光谱,并把这些光谱作为待测样本输入第(2)步训练所得的二分类模型中。模型将逐一判断该样本是否含有掺假物质。
[0056]
如下将通过实验对本发明的检测方法进行验证。本实验所使用的拉曼光谱数据(如表1)是由sciaps拉曼光谱仪器采集的秘鲁鱼粉样本(标注为纯羽毛粉的拉曼光谱)和水解羽毛粉样本(标注为掺假物质的拉曼光谱),以及将两者以不同浓度混合的掺假样本(待测试拉曼光谱)。该仪器的光谱范围200~2500cm-1
,这些样本的拉曼位移长度均为2302。
[0057]
为了验证本发明专利能在少量已标注光谱数据情况下开展鱼粉掺假鉴别,本实验仅使用12个纯鱼粉样本与15个纯羽毛粉样本进行数据增强生成训练集,这也满足了实际应用要求降低光谱数据获取成本的需求。数据增强算法的参数k=10000,p=10%,q=80%,也就是说生成的训练库包含10000个负样本与10000个正样本,混合比例a的下界和上界分别设为10%和80%。
[0058]
表1实验使用的拉曼光谱数据
[0059][0060]
在神经网络模型中,本实验使用了四层的一维cnn网络结构,具体结构和参数参见图2所示。本实验中,输入的样本为一维向量,向量长度为2301。该输入经过第一个卷积层(卷积核1*5)后长度缩减为1151,通道数变为32;随后经过第一个最大池化层(核大小为1*2),长度再次缩减为576;之后再次经过第二个卷积层和最大池化层(参数与上述一致),特征长度变为144,通道数变为64;对经过卷积和池化后的特征图进行展平,得到9216个隐藏单元;输入两个全连接层后,最终输出两种结果:掺假类别或未掺假类别。在上述网络中,核函数的权值均采用截断正态分布进行初始化,偏置项初始化为0.1,且偏置范围为0.01到1.00。设置训练轮数epoch=20,批大小batchsize为100,学习率设置为10-4
,使用adam优化器进行梯度下降。由数据增强阶段获得供训练使用的负样本与正样本均分别按照6:1:1的比例划分为训练集、测试集、验证集,输入模型中进行训练与初步测试。
[0061]
最后,余下13个纯鱼粉样本与156个掺假样本作为待测样本(共169个),被逐一输入训练好的网络模型以检验本发明的性能。本次实验以检测出掺假物质的准确率作为鱼粉掺假鉴别方法的衡量标准,准确率计算公式为
[0062]
表2两种方案的检测准确率(单位:%)
[0063][0064]
为了量化分类器对于多种掺假浓度样品的鉴别能力,表2给出了不同掺假浓度待测样品的被检出的准确率,并比较了使用未归一化和归一化两种方案的实验结果。可以看出,数据增强阶段采用归一化操作使得分类器的性能得到了一定的提升,尤其是在低浓度样品的检测精度上提升比较明显。当羽毛粉的掺假浓度在10%-30%的时候,模型的准确率在60%以上;当掺假率达到40%的时候,模型的识别准确率达到了95%以上;鱼粉掺假鉴别的总体准确率为81.07%,对纯鱼粉样本的识别率能达到84.61%。
[0065]
本实验也尝试直接用同样的27个已标注的鱼粉和羽毛粉拉曼光谱去训练svm分类器,使其学习鱼粉和羽毛粉的光谱特征。但训练过的svm分类器面对169个测试样本,仅正确检测出60个样本,总体准确率只有32.54%。由此可见,传统机器学习分类器在鱼粉掺假检测上可行性很差;而本发明对中等以上掺假浓度的样品几乎可以全部检出,对低浓度掺假样品的判别也具有可接受的准确度,较好地解决了传统掺假鉴别方法精度不高、局限性大的问题。同时,本项发明的方法容易推广,对于任意的一种目标物质和一种掺假物质的混合,都可以依照本方法使用神经网络对快速生成的有掺假与无掺假样本进行特征学习,进而能鉴别出掺假样本。例如,将高附加值鱼粉视作目标物质,低附加值鱼粉视作掺假物质,使用本发明的基于拉曼光谱分析的鱼粉掺假快速检测方法,也可以检查混入低附加值鱼粉的样品。
[0066]
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进与变换,而所有这些改进与变化都应属于本发明所附权利要求的保护范围。




上一篇:花錢買贊養號控評情緒打分熱門影視劇口碑還可靠嗎
下一篇:拉曼光谱及应用深度解析