焦青亮,劉 明*,于 坤,劉子龍,3,孔令琴,惠 梅,董立泉,趙躍進(jìn)
1.北京理工大學(xué)光電學(xué)院,精密光電測試儀器與技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081 2.河南師范大學(xué)物理學(xué)院,河南省紅外光譜測量與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河南 新鄉(xiāng) 453007 3.中國計(jì)量科學(xué)研究院光學(xué)與激光計(jì)量科學(xué)研究所,北京 100013
光譜的定量分析是光譜應(yīng)用的重要方面。實(shí)際應(yīng)用中,由于溫度、濕度和儀器自身等問題,未經(jīng)預(yù)處理的光譜會導(dǎo)致定量分析出現(xiàn)誤差、組分預(yù)測錯誤等問題,因此光譜預(yù)處理是光譜分析中重要的組成部分。
光譜預(yù)處理包括光譜去噪、基線校正和譜峰定位等。其中,光譜去噪算法包括高斯濾波,SG平滑,短時(shí)傅里葉變換,小波變換等算法。這些去噪算法可以移除光譜噪聲,但是會損失光譜的精度,因?yàn)樗鼈儗?shí)質(zhì)上是通過降低原始測量的光譜分辨率來消除噪聲[1]。其中,高斯濾波和SG平滑[2]等算法原理簡單,但是較小的窗口對噪聲的移除效果有限,較大的窗口會嚴(yán)重的損失光譜數(shù)據(jù),因此使用這些方法去噪時(shí)需要謹(jǐn)慎的選擇參數(shù);基于傅里葉變換和小波分析[3-4]等多尺度分析的方法是根據(jù)噪聲的性質(zhì),將光譜數(shù)據(jù)分為高頻分量和低頻分量,通過截?cái)喔哳l分量的方法,減小噪聲對光譜的影響。這些方法的效果大多取決于幾個參數(shù)的選擇,例如小波基選擇和閾值權(quán)值選擇方法,因此去噪結(jié)果會包含主觀性。
光譜基線校正包括小波變換[5],多項(xiàng)式擬合,自適應(yīng)迭代重權(quán)懲罰最小二乘[6],非對稱最小二乘[7]等方法。這些方法大多可以有效的估計(jì)光譜基線,但是會扣除光譜的真實(shí)強(qiáng)度。其中多項(xiàng)式擬合、非對稱最小二乘等方法對光譜的信噪比有一定要求,在重疊峰處可能無法取得光滑的基線。而基于小波變換的方法,通過對小波低頻分量進(jìn)行處理,估計(jì)光譜基線。這些算法可以滿足大多數(shù)基線估計(jì),但是由于小波基函數(shù)的問題,會出現(xiàn)基線畸變的現(xiàn)象。
光譜峰定位方法包括對稱零面積法[8],多階導(dǎo)數(shù)法和正弦余弦算法[9]等,這些方法雖然可以定位光譜峰,但對光譜質(zhì)量有一定要求,并且在重疊峰的估計(jì)與定位上存在偏差。
上述方法大多只能完成單項(xiàng)預(yù)處理任務(wù),在串行運(yùn)行時(shí)會出現(xiàn)誤差的積累。但是隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明可以有效的抑制噪聲、校正基線[10-12]和估計(jì)譜峰,這使多項(xiàng)預(yù)處理任務(wù)同時(shí)處理成為可能。因此,本工作提出了一種卷積神經(jīng)網(wǎng)絡(luò)(CNN),該網(wǎng)絡(luò)可以同時(shí)實(shí)現(xiàn)光譜去噪、基線校正和譜峰定位等任務(wù),可以有效的提高重建光譜的質(zhì)量。
在光譜的形成過程中,發(fā)光粒子不同的運(yùn)動速度、能級結(jié)構(gòu)和它們間的相互撞擊會使光譜形成不同的線型,即Gauss線型、Lorenz線型和Voigt線型。假設(shè)λ0是光譜的中心波長,αL是Gauss線型或Lorenz線型的半峰全寬,α是高斯線型的峰值,a是一個取值范圍在(0,1)之間的參數(shù),所以上述三種線型的可以表示為
(1)
(2)
V(λ)=aG(λ)+(1-a)Q(λ)
(3)
在具體應(yīng)用中,大部分實(shí)驗(yàn)得到的光譜峰均可以由三種光譜線型表示,因此在模擬實(shí)驗(yàn)和提出網(wǎng)絡(luò)的訓(xùn)練中使用由上式合成的模擬光譜加入訓(xùn)練集和測試集,不僅可以有效的提高數(shù)據(jù)集中樣本的多樣性,而且會提高光譜預(yù)處理的效果。
卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得成功。為了光譜預(yù)處理,本工作選擇了一維卷積網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)中有多種操作算子。選擇了卷積層(Conv),激活函數(shù),批歸一化層(batch normalization,BN),最大池化層(max pooling,MP),上采樣層(up sample,US),多尺度融合層(multiscale fusion,MF)等算子。在CNN中,最重要的兩個算子為Conv和MP。其中,Conv可以提取光譜特征,是CNN的基礎(chǔ);MP可以減少特征冗余,加快網(wǎng)絡(luò)收斂。本文采用線性整流單元函數(shù)(rectified linear unit function,ReLU)作為激活函數(shù)。
光譜噪聲屬于高通信號具有隨機(jī)性,光譜基線屬于低通信號,光譜特征峰屬于高通信號且具有二階稀疏性。根據(jù)這些特點(diǎn),本工作提出的卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 The structure of proposed CNN
該網(wǎng)絡(luò)由基線校正和去噪模塊和光譜峰檢測模塊組成,基線校正和去噪模塊目的是移除光譜中的噪聲和基線,并為光譜峰值檢測提供高質(zhì)量光譜;光譜峰檢測模塊的是為了估計(jì)光譜峰位置,并依據(jù)光譜峰的位置反作用于去噪和基線校正模塊。
圖1紅框是去噪和基線校正模塊,該模塊是一個前饋網(wǎng)絡(luò),由Conv,ReLu和BN構(gòu)成。在實(shí)際測試中層數(shù)較深的網(wǎng)絡(luò)可以獲得較好的效果,但是會出現(xiàn)過擬合的現(xiàn)象并且運(yùn)行時(shí)間較長。為了防止過擬合現(xiàn)象,加入Dropout策略;為了減少運(yùn)行時(shí)間,通過多次實(shí)驗(yàn)確定了如圖1所示的6層結(jié)構(gòu)。如前所述,大部分光譜峰都是由三種線型函數(shù)組成,理論上可以根據(jù)光譜峰的位置、峰高和半峰寬等信息,通過擬合的方法得到無噪聲無基線的光譜。因此在設(shè)計(jì)網(wǎng)絡(luò)的時(shí)候,加入光譜峰的位置信息可以指導(dǎo)網(wǎng)絡(luò)在光譜峰處盡可能多的保存光譜數(shù)據(jù)、防止過平滑和基線的過扣除,這樣不僅會縮短訓(xùn)練時(shí)間,而且會防止網(wǎng)絡(luò)產(chǎn)生過去噪、損失光譜精度等問題。相比于光譜峰的位置,光譜的峰高和半峰寬受噪聲影響較大,為了防止錯誤估計(jì)帶來的問題,在設(shè)計(jì)網(wǎng)絡(luò)時(shí)僅加入光譜峰的位置信息。
圖1黑框是光譜峰檢測模塊,該模塊是多特征融合網(wǎng)絡(luò)。因?yàn)楣庾V峰與噪聲同屬于高通信號,因此采用兩種不同的尺度檢測光譜峰。通過多次實(shí)驗(yàn)得到大尺寸網(wǎng)絡(luò)和小尺寸網(wǎng)絡(luò)的層數(shù)。大尺寸的網(wǎng)絡(luò)運(yùn)行速度較快,但是對弱峰和重疊峰存在一定誤判和漏判,因此又使用最大池化來估計(jì)光譜峰位置;小尺度的網(wǎng)絡(luò)精度較高,但運(yùn)行時(shí)間較慢,因此使用卷積層,激活函數(shù)和批歸一化來估計(jì)光譜峰位置。經(jīng)過多尺度特征融合和卷積層后,可以獲得光譜峰的位置。其中,在大尺度網(wǎng)絡(luò)中加入上采樣層,可以使各層得到的特征與原始光譜的尺寸一致,這樣不僅可以減小對樣本的預(yù)處理,而且可以減少訓(xùn)練時(shí)間。
網(wǎng)絡(luò)訓(xùn)練時(shí),將不同溫度、濕度以及光譜儀預(yù)熱時(shí)間得到的未處理的光譜作為受到噪聲污染的光譜,在計(jì)量檢定規(guī)程JJG1034指定的溫度和濕度下,使用中國計(jì)量院標(biāo)準(zhǔn)裝置獲取的光譜作為理想光譜,并加入模擬光譜,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
選擇了離散小波硬閾值(DWT)和SG濾波來對比本網(wǎng)絡(luò)的去噪效果,選擇了文獻(xiàn)[6]和文獻(xiàn)[8]作為對比方法驗(yàn)證本網(wǎng)絡(luò)的基線校正效果,選擇了三階導(dǎo)數(shù)法(TD)和文獻(xiàn)[10]來說明光譜峰定位的效果。
為了簡潔地表出去噪和基線校正方法,用DWT+[6]表示使用DWT去噪并使用文獻(xiàn)[6]提出的方法移除基線;SG+[6]表示使用SG去噪和文獻(xiàn)[6]的方法移除基線;DWT+[8]表示使用DWT去噪和文獻(xiàn)[8]的方法移除基線;SG+[8]表示使用SG濾波去噪和文獻(xiàn)[8]的方法移除基線。均方根誤差(RMSE)和擬合優(yōu)度(GFC)作為評價(jià)指標(biāo),RMSE越小,表示重建光譜質(zhì)量越高,GFC越接近1,光譜重建質(zhì)量越高。
因?yàn)閷?shí)際中不存在理想光譜,因此根據(jù)式(1)、式(2)和式(3)獲取的模擬光譜,并隨機(jī)添加噪聲和基線,可以精確的評估網(wǎng)絡(luò)的性能。首先對網(wǎng)絡(luò)的去噪能力進(jìn)行分析。因?yàn)榄h(huán)境和儀器給光譜帶來的噪聲可以認(rèn)為是相互獨(dú)立的,根據(jù)中心極限定理,光譜噪聲服從高斯分布,因此加入信噪比為50,40,30,20和10 dB的高斯白噪聲,結(jié)果如圖2。
圖2 光譜去噪結(jié)果(a):RMSE;(b):GFCFig.2 The result of spectral denoising(a):RMSE;(b):GFC
圖2(a)是去噪后的RMSE,(b)是GFC??梢钥吹诫S著添加噪聲信噪比的增加,去噪后的光譜與理想光譜越吻合,本文提出的網(wǎng)絡(luò)在光譜去噪任務(wù)中可以取得較好的結(jié)果。
因?yàn)楦咚购瘮?shù)具有上升和下降兩個過程,可以描述大多數(shù)基線,因此在模擬光譜中加入峰值分別為0.1,0.2,0.3,0.4,0.5和0.6的高斯基線?;€校正結(jié)果如圖3所示。
圖3 基線校正的結(jié)果(a):RMSE;(b):GFCFig.3 The result of baseline correction(a):RMSE;(b):GFC
如圖3所示,圖3(a)是去噪后的RMSE,(b)是GFC??梢钥吹诫S著基線峰值的增加,重建光譜與理想光譜越吻合,相比于文獻(xiàn)[6]和文獻(xiàn)[8],本文提出的網(wǎng)絡(luò)在基線校正中可以取得較好的結(jié)果。
最后驗(yàn)證同時(shí)移除噪聲和基線效果,在添加峰值為0.2的光譜基線后,分別添加信噪比為0,10,20,30和40 dB的高斯白噪聲,使用DWT+[6],DTCWT+[8],SG+[6]和SG+[8]四種組合移除噪聲和基線。結(jié)果如表1所示。
根據(jù)表1,DWT去噪算法效果較差,而提出的算法效果最優(yōu),尤其添加信噪比為0 dB的高斯白噪聲和高斯基線時(shí),本網(wǎng)絡(luò)的RMSE比其他方法小了0.407,說明光譜峰定位在噪聲抑制和基線校正的過程中有一定作用。為了更直觀的表示噪聲抑制和基線校正的能力,圖4是添加0 dB的高斯噪聲和基線后的結(jié)果。
圖4 去噪和基線校正的效果(a):噪聲和Ours對比;(b):DWT+[6],DWT+[8]和Ours;(c):SG+[6],SG+[8]和OursFig.4 Effect of denoising and baseline correction(a):Noise and Ours;(b):DWT+[6],DWT+[8] and Ours;(c):SG+[6],SG+[8] and Ouss
表1 去噪和基線校正結(jié)果(RMSEGFC)Table.1 The result of denoising and baseline correction(RMSEGFC)
在光譜峰定位方面,因?yàn)門D和文獻(xiàn)[10]沒有去噪和基線校正的過程,在強(qiáng)噪聲和基線下,TD和文獻(xiàn)[10]存在較大的誤差,因此在無噪聲的模擬光譜上進(jìn)行光譜峰定位,結(jié)果如表2。
表2 光譜峰檢測結(jié)果Table 2 The result of spectrum peak detection
根據(jù)表2,在理想無噪聲無基線的情況下,TD在較弱的重疊峰識別中存在問題,文獻(xiàn)[10]定位能力稍差,本文提出的網(wǎng)絡(luò)效果最好。
綜上,本文提出的網(wǎng)絡(luò)不僅可以同時(shí)對光譜進(jìn)行去噪、基線校正和光譜峰定位,而且相比于傳統(tǒng)算法,該網(wǎng)絡(luò)在去噪、基線校正和光譜定位等方面效果更好。
使用偏最小二乘法對光譜進(jìn)行定量分析,以標(biāo)準(zhǔn)儀器測量的玉米的近紅外光譜和每條光譜對應(yīng)的水分、油等成分的濃度為樣本,共有80條光譜。實(shí)驗(yàn)中,對每條光譜添加信噪比為70 dB噪聲和基線,使用估計(jì)濃度與測量濃度的均方根誤差作為依據(jù),結(jié)果如表3。
表3 定量分析的均方根誤差Table 3 RMSE of quantitative analysis
根據(jù)表3,通過對水分、油等物質(zhì)濃度估計(jì)可以看出,提出的網(wǎng)絡(luò)在光譜的定量分析中,可以取得最好的結(jié)果。證明了提出網(wǎng)絡(luò)具有較強(qiáng)的使用價(jià)值。
提出一種可以同時(shí)完成光譜去噪、基線校正和譜峰定位的卷積神經(jīng)網(wǎng)絡(luò),不僅提高了預(yù)處理任務(wù)的精度,而且解決了光譜預(yù)處理中這些預(yù)處理算法的先后順序的問題,避免了各種算法串行運(yùn)行導(dǎo)致誤差累積的問題。仿真實(shí)驗(yàn)證明,相比于傳統(tǒng)的預(yù)處理算法,本文提出的網(wǎng)絡(luò)不僅可以得到高質(zhì)量的光譜,而且在光譜的定量分析中可以獲得更準(zhǔn)確的結(jié)果。