談愛(ài)玲,王曉斯,楚振原,趙勇
1(燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北省特種光纖與光纖傳感重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島,066004)2(燕山大學(xué) 電氣工程學(xué)院,河北省測(cè)試計(jì)量技術(shù)及儀器重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島,066004)
近紅外(near infrared,NIR)光譜分析技術(shù)具有無(wú)需前處理、簡(jiǎn)便快捷、適用樣品范圍廣、多組分同時(shí)檢測(cè)等優(yōu)點(diǎn),在食品、農(nóng)業(yè)、醫(yī)藥、石油等領(lǐng)域得到了廣泛應(yīng)用[3-5]?;瘜W(xué)計(jì)量學(xué)方法是近紅外光譜分析技術(shù)中的重要工具,可以在樣品待測(cè)屬性值與近紅外光譜數(shù)據(jù)之間建立定性和定量模型[6-7]。深度學(xué)習(xí)是用于建立、模擬人腦進(jìn)行分析學(xué)習(xí),并模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)的一種深層網(wǎng)絡(luò),近年來(lái),該技術(shù)在圖像處理、語(yǔ)音識(shí)別、文本數(shù)據(jù)等多個(gè)應(yīng)用領(lǐng)域取得顯著成果[8-10]。其中,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)是應(yīng)用最廣泛的深度學(xué)習(xí)模型,能夠從復(fù)雜數(shù)據(jù)中自主提取有效特征結(jié)構(gòu)進(jìn)行學(xué)習(xí),與傳統(tǒng)的淺層學(xué)習(xí)模型相比,具有更強(qiáng)大的模型表達(dá)能力[11-12]。
在光譜分析領(lǐng)域,CNN可以直接建立原始數(shù)據(jù)的定性或者定量模型[13-14]。袁培森等[15]利用對(duì)菊花的原始圖像數(shù)據(jù),通過(guò)逐層進(jìn)行特征學(xué)習(xí),進(jìn)而利用多層網(wǎng)絡(luò)獲取菊花的特征信息,實(shí)現(xiàn)了對(duì)菊花花型和品種的智能識(shí)別和高效管理。魯夢(mèng)瑤等[16]提出了一種改進(jìn)的CNN建模方法,以我國(guó)東北、黃淮、西南三大烤煙產(chǎn)區(qū)的600個(gè)中部煙葉樣本的近紅外光譜為實(shí)驗(yàn)對(duì)象,建立煙葉產(chǎn)區(qū)分類NIR-CNN模型。YANG等[17]利用CNN提取可見(jiàn)光-近紅外波段的光譜特征來(lái)估計(jì)玉米幼苗的冷損傷,與化學(xué)法給出的等級(jí)具有較高的相關(guān)性,證明了基于CNN建模的光譜分析可為玉米幼苗的冷害檢測(cè)提供參考。田永超等[18]基于多元散射校正+Norris一階導(dǎo)數(shù)光譜建立了偏最小二乘-反向傳播神經(jīng)網(wǎng)絡(luò)模型,對(duì)中國(guó)中、東部地區(qū)5種不同類型土壤有機(jī)質(zhì)含量進(jìn)行估測(cè)。CHEN等[19]提出了一種新的基于CNN的近紅外光譜端到端的定量建模方法,該方法直接將采集到的全部原始光譜信息作為輸入,無(wú)需波長(zhǎng)選擇,定量分析模型操作簡(jiǎn)便,具有較好的實(shí)際應(yīng)用價(jià)值。
近紅外原始光譜包含復(fù)雜樣本多種成分的全部特征信息,但存在譜帶重疊及含有干擾等問(wèn)題,導(dǎo)數(shù)光譜可以去除背景和基質(zhì)的干擾,提高重疊譜帶及平坦譜帶的分辨率[20]。對(duì)含有多種成分的復(fù)雜樣本近紅外光譜,考慮結(jié)合原始光譜包含全部特征信息和導(dǎo)數(shù)光譜去除干擾的優(yōu)點(diǎn),本文提出將串行融合光譜與深度學(xué)習(xí)相結(jié)合的方法,研究該方法在玉米近紅外光譜定量建模分析中的可行性和有效性,將玉米樣本的近紅外原始光譜、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)光譜歸一化后首尾串行相連,組成新的融合光譜,并結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network,1D-CNN)學(xué)習(xí)算法,建立玉米樣本中水分、油脂、蛋白質(zhì)和淀粉4種成分的定量預(yù)測(cè)模型。
實(shí)驗(yàn)數(shù)據(jù)采用EVRI網(wǎng)站公開(kāi)的玉米近紅外光譜數(shù)據(jù)集(http://eigenvector.com/data/Corn)[21],該數(shù)據(jù)集是利用m5、mp5、mp6共3種近紅外光譜儀分別測(cè)量80個(gè)不同的玉米樣本,共采集獲得240條近紅外吸收光譜。光譜儀波長(zhǎng)范圍均為1 100~2 498 nm,間隔為2 nm,因此每條光譜有700個(gè)波長(zhǎng)點(diǎn)處的吸光度值。3種光譜儀所測(cè)玉米的原始光譜、一階導(dǎo)數(shù)光譜和二階導(dǎo)數(shù)光譜圖分別如圖1-a、b和c所示。
a-原始光譜; b-一階導(dǎo)數(shù)光譜; c-二階導(dǎo)數(shù)光譜圖1 玉米的3種光譜Fig.1 Spectra of maize samples
數(shù)據(jù)集同時(shí)給出了所有玉米樣品中水分、油脂、蛋白質(zhì)和淀粉4種成分的含量百分比真值。將80個(gè)玉米樣本隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中60個(gè)作為訓(xùn)練集建立定量模型, 20個(gè)作為測(cè)試集驗(yàn)證模型。訓(xùn)練集和測(cè)試集玉米樣本中4種成分的均值和標(biāo)準(zhǔn)差如表1所示,由表1可以看出,訓(xùn)練集與測(cè)試集4種成分的均值和標(biāo)準(zhǔn)差都比較接近,樣品劃分滿足隨機(jī)性和代表性,符合近紅外光譜技術(shù)建模的要求。
表1 用于訓(xùn)練和預(yù)測(cè)的樣本4種成分的均值和標(biāo)準(zhǔn)差Table 1 Mean and standard deviation parameters of the four components used for training and prediction sample
CNN是深度學(xué)習(xí)中重要的網(wǎng)絡(luò)結(jié)構(gòu),也是第一個(gè)真正意義上成功訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,它的權(quán)值共享理論與真實(shí)的生物神經(jīng)結(jié)構(gòu)更加接近,同時(shí)減少了網(wǎng)絡(luò)參數(shù)的個(gè)數(shù)。網(wǎng)絡(luò)的基本結(jié)構(gòu)包括輸入層、隱含層和輸出層,每一層網(wǎng)絡(luò)有多個(gè)神經(jīng)元,上一層的神經(jīng)元通過(guò)激活函數(shù)映射到下一層神經(jīng)元,每個(gè)神經(jīng)元之間有對(duì)應(yīng)的權(quán)值,輸出即為預(yù)測(cè)的結(jié)果,其中重點(diǎn)包括卷積層和激活函數(shù),卷積層的卷積原理如公式(1)所示[22]:
(1)
激活函數(shù)就是對(duì)卷積層的輸出進(jìn)行非線性操作,來(lái)提取更多特征信息。本文選用LeakyReLU函數(shù)作為激活函數(shù),該函數(shù)的數(shù)學(xué)表達(dá)式如公式(2)所示:
獨(dú)立學(xué)院推進(jìn)人才培養(yǎng)模式改革的過(guò)程決不是一蹴而就的,應(yīng)該是一個(gè)循序漸進(jìn)的過(guò)程,是一個(gè)逐步推進(jìn)的過(guò)程,是一個(gè)“漸進(jìn)性增量”的改革過(guò)程。它一定具有以下的特點(diǎn):其一,獨(dú)立學(xué)院探索人才培養(yǎng)模式改革要先試點(diǎn)再推廣,也就是國(guó)家先在某類高?;蚰硞€(gè)地區(qū)進(jìn)行試點(diǎn),試點(diǎn)成功后,再把典型經(jīng)驗(yàn)推廣至全國(guó),這一原則遵循了國(guó)家的政策指導(dǎo)。其二,獨(dú)立學(xué)院人才培養(yǎng)模式的漸進(jìn)性改革。這并不是對(duì)先前人才培養(yǎng)模式的全盤(pán)否定,而是一種增量、增值的改革,是在吸取現(xiàn)有高校人才培養(yǎng)典型經(jīng)驗(yàn)的基礎(chǔ)上融入新要素,依據(jù)新需求,定位新特色,探索符合獨(dú)立學(xué)院辦學(xué)特色的應(yīng)用型技術(shù)技能型人才培養(yǎng)模式。
f(x)=max(0,x)
(2)
玉米樣本的近紅外光譜、一階導(dǎo)數(shù)光譜和二階導(dǎo)數(shù)光譜均為1×700的一維數(shù)據(jù),三者串行得到1×2 100的一維數(shù)據(jù)。本文提出1D-CNN-NIR定量模型,其結(jié)構(gòu)示意圖如圖2所示。該模型基于經(jīng)典CNN模型LeNet-5,構(gòu)建包含2個(gè)卷積層和2個(gè)池化層,2個(gè)卷積層的卷積核尺寸分別為20和10,池化層采用最大池化法,激活函數(shù)使用LeakyReLU,全連接層數(shù)為1,輸出層采用線性激活函數(shù)的單神經(jīng)元結(jié)構(gòu),神經(jīng)元數(shù)量為1,采用Adam優(yōu)化算法,訓(xùn)練數(shù)據(jù)分成20個(gè)批次(batch),批處理樣本數(shù)目為50(batch size)。本文對(duì)240條玉米樣本的原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜和3種光譜的串行融合光譜分別進(jìn)行1D-CNN建模。
圖2 1D-CNN光譜定量預(yù)測(cè)模型Fig.2 Quantitative spectral prediction model of one-dimensional convolution neural network
算法運(yùn)行環(huán)境:Intel?CoreTMi5-8250 CPU;8GB計(jì)算機(jī)內(nèi)存。所用軟件包括Matlab和Pycharm,為實(shí)現(xiàn)數(shù)據(jù)優(yōu)化和對(duì)比不同機(jī)器學(xué)習(xí)算法,系統(tǒng)環(huán)境中配置Numpy、Pandas、Sckit-learn等Python運(yùn)算庫(kù)。
CNN的訓(xùn)練過(guò)程分為2個(gè)階段。第1階段是數(shù)據(jù)由低層次向高層次傳播的階段,即前向傳播階段。另一個(gè)階段是,當(dāng)前向傳播得出的結(jié)果與預(yù)期不相符時(shí),將誤差從高層次向低層次進(jìn)行傳播訓(xùn)練的階段,即反向傳播階段。本文設(shè)計(jì)的1D-CNN-NIR定量模型訓(xùn)練流程如圖3所示。
圖3 CNN算法流程圖Fig.3 The flowchart of CNN algorithm
采用均方誤差(mean square error, MSE)作為損失函數(shù),首先通過(guò)前向傳播過(guò)程,輸入的光譜訓(xùn)練數(shù)據(jù)經(jīng)過(guò)1D-CNN的卷積層和池化層后,得到樣本成分的預(yù)測(cè)含量值,通過(guò)該預(yù)測(cè)含量值和成分的含量真值計(jì)算損失函數(shù),若所得損失函數(shù)值過(guò)大,將進(jìn)行反向傳播過(guò)程,反向傳播將誤差一層層返回,計(jì)算出每一層的誤差,求出誤差梯度,然后進(jìn)行權(quán)值更新,不斷循環(huán)該過(guò)程,直到損失函數(shù)值達(dá)到最小,訓(xùn)練結(jié)束,保存權(quán)值。針對(duì)串行融合光譜數(shù)據(jù),以玉米樣本中水分成分的模型訓(xùn)練為例,其損失函數(shù)值收斂曲線如圖4所示。
圖4 CNN模型訓(xùn)練中損失函數(shù)收斂曲線Fig.4 The convergence curve of loss value of CNN model
定量模型性能評(píng)價(jià)采用決定系數(shù)(R2)和均方根誤差(root mean square error,RMSE)作為評(píng)估指標(biāo),從模型的回歸擬合度和預(yù)測(cè)精確度來(lái)評(píng)價(jià)模型性能。
表2 不同卷積核數(shù)目配置時(shí)水分值模型指標(biāo)Table 2 Model results of moisture with different convolution kernel configurations
對(duì)玉米成分中油脂、蛋白質(zhì)、淀粉這3種成分的定量模型,進(jìn)行同樣的卷積核尋優(yōu)過(guò)程,在輸入數(shù)據(jù)分別為原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜和串行融合光譜時(shí),最優(yōu)卷積核數(shù)目配置下,模型性能指標(biāo)結(jié)果如表3所示。由表3結(jié)果可知,對(duì)于玉米的4種成分,基于串行融合光譜的1D-CNN模型性能指標(biāo)均優(yōu)于另外3種。
表3 水分、油脂、蛋白質(zhì)和淀粉在最優(yōu)卷積核數(shù)目下模型性能指標(biāo)Table 3 Modeling and predicting effects of water, oil, protein and starch in maize on four different data sets
a-模型的值;b-模型的RMSEP值圖5 基于4類光譜數(shù)據(jù)的玉米成分模型結(jié)果對(duì)比Fig.5 Comparison of corn component models based on different types of spectral data
為了進(jìn)一步驗(yàn)證串行融合光譜的有效性,本文利用原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜和串行融合光譜作為輸入數(shù)據(jù),分別基于偏最小二乘回歸(partial least squares regression, PLSR)和非線性回歸算法支持向量機(jī)回歸(support vector regression, SVR),對(duì)玉米中水分、油脂、蛋白質(zhì)、淀粉4種成分建立了定量模型,模型結(jié)果如表4所示。
表4 水分、油脂、蛋白質(zhì)、淀粉在PLSR和SVR下模型性能指標(biāo)Table 4 Model performance indexes of water, oil, protein and starch with PLSR and SVR algorithms
為驗(yàn)證1D-CNN模型的NIR定量預(yù)測(cè)模型,本文基于融合光譜數(shù)據(jù),將PLSR、SVR和1D-CNN 3種算法所建玉米樣本4種成分的定量回歸模型進(jìn)行對(duì)比。測(cè)試集樣本的評(píng)價(jià)指標(biāo)結(jié)果如表5所示。由表5可知,對(duì)于玉米樣本的4種成分,串行融合光譜結(jié)合CNN所建定量模型的預(yù)測(cè)性能均優(yōu)于PLSR和SVR所建定量模型的預(yù)測(cè)性能。
表5 水分、油脂、蛋白質(zhì)、淀粉在PLSR、SVR和CNN 下模型性能指標(biāo)Table 5 Model performance indexes of water, oil, protein and starch under PLSR, SVR and CNN
對(duì)1D-CNN定量模型的輸出結(jié)果和目標(biāo)輸出做線性回歸分析,4種成分的回歸結(jié)果如圖6所示。由圖6可知,基于CNN所建的定量預(yù)測(cè)模型,對(duì)于預(yù)測(cè)集玉米樣本中的水分、油脂、蛋白質(zhì)和淀粉4種成分的預(yù)測(cè)值基本分布在擬合曲線附近,預(yù)測(cè)值與其對(duì)應(yīng)的含量真值非常接近,預(yù)測(cè)精度高。該方法不僅能夠提高定量模型的預(yù)測(cè)精度,而且對(duì)于提高算法的魯棒性和泛化能力也具有重要意義。
a-水分?jǐn)M合曲線;b-油脂擬合曲線;c-蛋白質(zhì)擬合曲線;d-淀粉擬合曲線圖6 玉米4種成分的真實(shí)值與預(yù)測(cè)值擬合曲線(CNN)Fig.6 Fitting curve between true value and predicted value of four components in maize (CNN)
本文提出了一種基于導(dǎo)數(shù)光譜融合結(jié)合1D-CNN的近紅外光譜定量建模方法,實(shí)現(xiàn)對(duì)玉米數(shù)據(jù)集的近紅外光譜回歸預(yù)測(cè)。對(duì)國(guó)際公開(kāi)的玉米近紅外光譜數(shù)據(jù)集的原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜和融合光譜的實(shí)驗(yàn)結(jié)果表明,融合光譜方法分別結(jié)合傳統(tǒng)回歸算法PLSR和SVR,以及深度學(xué)習(xí)方法CNN結(jié)合所建立的預(yù)測(cè)模型,模型性能指標(biāo)均優(yōu)于原始光譜或?qū)?shù)光譜。同時(shí),與傳統(tǒng)算法所建模型相比,本文提出的基于融合光譜的1D-CNN模型性能指標(biāo)也更優(yōu),預(yù)測(cè)精度高,回歸擬合效果好。研究結(jié)果表明,光譜融合與深度學(xué)習(xí)相結(jié)合更有利于提取和挖掘光譜數(shù)據(jù)深層信息,建立精度更高的定量預(yù)測(cè)模型,光譜融合結(jié)合1D-CNN的方法在近紅外光譜分析技術(shù)領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值。