• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的太赫茲時域光譜識別研究

    2021-01-06 03:02:50胡其楓
    光譜學(xué)與光譜分析 2021年1期
    關(guān)鍵詞:赫茲時域光譜

    胡其楓,蔡 健

    博微太赫茲信息科技有限公司,安徽 合肥 230088

    引 言

    太赫茲波介于遠紅外和微波之間,頻率在0.1~10 THz。在太赫茲光學(xué)技術(shù)中,太赫茲時域光譜(terahertz time-domain spectroscopy,THz-TDS)技術(shù)是目前使用最廣泛的技術(shù)之一。THz-TDS技術(shù)是一種相干探測技術(shù),不同的物質(zhì)分子被一定頻寬的太赫茲波透射過后,會吸收不同頻率的太赫茲光波能量,從而產(chǎn)生特征吸收峰,對應(yīng)的光譜又被稱為“太赫茲指紋光譜”。通過對物質(zhì)“指紋譜”的識別可以實現(xiàn)對毒品和爆炸物等生化危險品進行非接觸式無損檢測,因此THz-TDS技術(shù)受到了警方、海關(guān)、安保反恐等部門的高度重視[1]。

    總結(jié)近年來國內(nèi)外關(guān)于太赫茲時域光譜識別方法的研究,主要集中在一些光譜分析法和機器學(xué)習(xí)方法相結(jié)合的技術(shù)[2-4]。馬帥等提出一種采用兩層受限玻爾茲曼機(restricted Boltzmann machine,RBM)構(gòu)建深層信念網(wǎng)絡(luò)模型自動提取太赫茲光譜特征,使用k最近鄰(k-nearest neighbor,k-NN)分類器對不同物質(zhì)進行識別。Yin等[5]提出一種利用遺傳算法和偏最小二乘判別分析相結(jié)合的方法來鑒別食用油。Mumtaz等[6]通過主成分分析(principal component analysis,PCA)區(qū)分了對太赫茲輻射是透明的聚合物。

    這些方法往往需要經(jīng)驗豐富的工程師手工設(shè)計特征提取器,對于變化的自然數(shù)據(jù)具有局限性。深度學(xué)習(xí)方法目前已經(jīng)成功運用在圖像分類、語音識別等領(lǐng)域,不需要人工設(shè)計特征提取器,通過一些非線性的結(jié)構(gòu)把原始數(shù)據(jù)轉(zhuǎn)變成更加抽象的表達,自動提取特征,特別適合自然數(shù)據(jù),并且算法性能會隨著數(shù)據(jù)的豐富而提升。太赫茲時域光譜的識別,本質(zhì)上是一個非線性分類問題,深度學(xué)習(xí)方法由激活函數(shù)引入非線性,更加適合非線性分類問題。作為深度學(xué)習(xí)的代表方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在太赫茲時域光譜識別上應(yīng)用的相關(guān)文獻資料很少,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的應(yīng)用暫無相關(guān)文獻報道。

    本文設(shè)計了兩種深度學(xué)習(xí)識別光譜的網(wǎng)絡(luò): 基于RNN的一維譜線分類網(wǎng)絡(luò)和基于CNN的二維譜圖分類網(wǎng)絡(luò)。由于毒品、爆炸物樣本難以獲得,以12種物質(zhì)(包含11種有機物和空氣)為研究對象,通過Matlab和Python編碼實現(xiàn)對物質(zhì)類別的判定。相較于傳統(tǒng)方法,深度學(xué)習(xí)識別方法能夠更好地克服噪聲等干擾、耗時不受數(shù)據(jù)量的影響,準確率更高、速度更快,為太赫茲時域光譜的毒品、爆炸物識別提供參考。

    1 實驗部分

    用于探測物質(zhì)的THz-TDS系統(tǒng)構(gòu)成如下: 由飛秒激光器產(chǎn)生激光脈沖通過分束鏡,分為泵浦光路和探測光路; 泵浦光入射光電導(dǎo)天線激發(fā)出THz脈沖,經(jīng)過一組拋物面鏡,對準射向測量樣品; 探測光與透射樣品的THz波共同射入探測天線,通過控制時間延遲系統(tǒng)來改變THz脈沖和探測光脈沖之間的時間延遲,獲得完整的時域光譜。經(jīng)過傅里葉變換得到頻域譜,從中進一步能夠獲取吸收譜、折射率、透射率等光學(xué)參數(shù)。

    已有研究[7]發(fā)現(xiàn)常見毒品在1.0~2.5 THz具有不同的特征吸收峰,單質(zhì)炸藥在0.6~2.3 THz具有不同的特征吸收峰。由于毒品、爆炸物的樣本難以獲得,本文以五種酸類物質(zhì)(抗壞血酸、L-谷氨酸、L-組氨酸、L-蘇氨酸、L-酪氨酸)為例,獲取其太赫茲吸收譜如圖1所示。可以看到在0.5~2.5 THz頻段內(nèi),五種物質(zhì)吸收峰的位置各不相同。因此,根據(jù)太赫茲時域光譜來對不同物質(zhì)進行識別是可行的。由于2.0 THz頻段之后包含較多的無效信號,識別時需要對光譜進行截取。

    圖1 五種不同物質(zhì)吸收譜Fig.1 Absorption spectra of five acids

    太赫茲時域光譜會受到各種噪聲干擾[8]: 光源漂移帶來的本底噪聲; 平臺、器械振動帶入的機械噪聲; 空間電磁輻射帶來的電子噪聲; 光路準直、光學(xué)元件帶來的衍射噪聲等等。另外,樣品濃度、空氣濕度也對太赫茲時域光譜的“指紋”造成干擾,本文對這兩種因素的影響進行分析。

    選用在太赫茲波段無吸收特征、基本透明的聚乙烯粉末作為稀釋混合劑,將維生素B2與聚乙烯粉末按照1∶1,1∶3,1∶5,1∶7的質(zhì)量比(即濃度)進行混合,用壓片機將粉末壓成片劑。在空氣濕度4%下測試不同質(zhì)量比的維生素B2的太赫茲吸收譜,結(jié)果如圖2(a)所示; 將維生素B2在空氣濕度15%和70%下分別測試其吸收譜,結(jié)果如圖2(b)所示。

    圖2 (a)不同濃度的維生素B2吸收譜; (b)不同濕度下的維生素B2吸收譜

    從圖2中可以看出,在0.5~2.5 THz頻段,吸收峰的位置不隨物質(zhì)濃度的變化而變化,濃度越大、信噪比越好; 空氣濕度不會消除物質(zhì)原本的吸收峰[9],但會引入額外的吸收峰,濕度越大、毛刺(噪聲)越多,識別的難度越大。

    因此,有必要對光譜數(shù)據(jù)進行平滑除噪。S-G(Savitzky-Golay)濾波器[10]是一種廣義移動平均濾波器,在時域內(nèi)基于局域多項式最小二乘法擬合的線性濾波器,被廣泛地運用于光譜數(shù)據(jù)平滑除噪。使用S-G濾波器對維生素B2的吸收譜進行處理,如圖3所示,黑色曲線是原始數(shù)據(jù)、紅色曲線是處理后數(shù)據(jù)。可以看出,S-G濾波后的數(shù)據(jù)能夠保留信號的峰值等重要特征,提高了光譜的平滑性同時降低了噪聲干擾。

    圖3 S-G濾波結(jié)果Fig.3 Result of S-G filtering

    2 光譜識別

    2.1 算法結(jié)構(gòu)

    CNN和RNN都是在傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(deep neural network)基礎(chǔ)上發(fā)展起來的,是深度學(xué)習(xí)中最具代表性的兩類方法。深度神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層、輸出層構(gòu)成。輸入層一般是原始數(shù)據(jù)或圖像,也可以有一些預(yù)處理操作。

    CNN中常見的隱藏層有: (1)卷積層: 前一層的特征圖與卷積核進行運算,經(jīng)過激活函數(shù)構(gòu)成該層特征圖,過濾有用的特征而抑制無用的特征; (2)池化層: 對特征圖通過下采樣來降低網(wǎng)絡(luò)的空間分辨率,在保留主要特征的同時減少參數(shù)計算量; (3)全連接層: 卷積和池化層的輸出經(jīng)過全連接運算,將特征加權(quán)映射到樣本標記空間。CNN模擬的是動物大腦的視覺皮層機制,隱藏層的內(nèi)部神經(jīng)元之間是無連接的。CNN在圖像分類等視覺任務(wù)上取得了較好的性能[11],可以將光譜數(shù)據(jù)轉(zhuǎn)化為圖像來進行處理。

    而RNN中的隱藏層,內(nèi)部神經(jīng)元之間是有連接的,輸入來自上一層的輸出和上一時刻本層的輸出,通過記憶信息保留序列依賴性。因此,RNN非常適合研究序列和時間數(shù)據(jù),太赫茲時域光譜數(shù)據(jù)就是有時序關(guān)系的數(shù)據(jù)。

    一個完整的深度學(xué)習(xí)算法流程有如下幾個步驟: (1)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計: 這是算法的核心部分。根據(jù)問題的輸入和輸出,同時參考經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)(如LeNet、VGG等),來設(shè)計網(wǎng)絡(luò)的輸入層、隱藏層、輸出層。(2)數(shù)據(jù)準備: 數(shù)據(jù)集是由形如(數(shù)據(jù),標簽值)的向量對構(gòu)成,數(shù)據(jù)可能是圖像、信號、特征等等,標簽值是輸入數(shù)據(jù)的類別。按照互斥同分布的原則和一定的比例,將數(shù)據(jù)分為訓(xùn)練集和測試集。(3)網(wǎng)絡(luò)訓(xùn)練和測試: 訓(xùn)練集用于訓(xùn)練模型,數(shù)據(jù)通過網(wǎng)絡(luò)進行前向傳播,損失函數(shù)計算前向傳播結(jié)果與標簽之間的誤差; 反向傳播確定梯度向量,進而調(diào)整每一個隱藏層的權(quán)值; 重復(fù)前向傳播和反向傳播,直到損失不再顯著下降,將這時網(wǎng)絡(luò)的權(quán)值保存下來,稱為模型。最后,用測試集來整體評估模型的性能。

    (1)基于RNN的一維譜線分類網(wǎng)絡(luò)

    網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,第一層是數(shù)據(jù)輸入層,輸入數(shù)據(jù)是一維數(shù)據(jù)。第二層是一個長短時記憶(long-short term memory,LSTM)單元,LSTM[13]是傳統(tǒng)RNN的變體,解決了傳統(tǒng)RNN訓(xùn)練時間比較長會出現(xiàn)梯度彌散的問題。第三層是全連接層,起到連接所有的特征、將輸出值送給分類器的作用,因為我們要解決的是分類問題。第四層是softmax層,輸出類別和置信度。

    圖4 RNN分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 RNN classification network structure

    為了識別多種物質(zhì)光譜,本文采集了12種物質(zhì)在非真空環(huán)境下的太赫茲光譜,每種物質(zhì)的樣本數(shù)量需要保持相當,否則算法會朝著樣本數(shù)量多的物質(zhì)種類過擬合(overfitting),過擬合是神經(jīng)網(wǎng)絡(luò)常見問題,即模型對訓(xùn)練數(shù)據(jù)擬合非常好,對測試數(shù)據(jù)擬合比較差。同時,增加不同濃度的樣本以提高識別算法的魯棒性。

    數(shù)據(jù)格式為一維的太赫茲光譜頻域信號,數(shù)據(jù)取前256維,包含主要特征信息。

    (2)基于CNN的二維譜圖分類網(wǎng)絡(luò)

    網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示: 第一層是數(shù)據(jù)輸入層,輸入數(shù)據(jù)是二維圖像。接下來是若干個卷積層、池化層、全連接層、BN(batch normalization)層。使用多個卷積層是為了得到更深層次的特征圖。BN層把所有訓(xùn)練樣本的統(tǒng)計分布標準化,降低了不同樣本的差異性,使得網(wǎng)絡(luò)的訓(xùn)練速度加快、效果提升。隨機失活(dropout)在訓(xùn)練過程中,隨機將部分隱藏層節(jié)點的權(quán)值歸零,能夠克服過擬合。最后一層是softmax層,輸出類別和置信度。

    圖5 CNN分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 CNN classification network structure

    數(shù)據(jù)格式為二維圖像,是由太赫茲光譜頻域信號前256維轉(zhuǎn)化而來,每一張圖像大小固定為256×160。如圖6所示,每張圖像代表一條光譜信號。

    圖6 12種物質(zhì)的光譜圖像Fig.6 Spectral images of 12 materials

    2.2 方法

    第一步是數(shù)據(jù)采集和處理: 首先進行數(shù)據(jù)采集,實驗設(shè)備采用德國Menlo Systems公司的Tera K15型太赫茲時域光譜儀,動態(tài)范圍為60 dB,泵浦激光的重復(fù)頻率為100 MHz,波長為1 560 nm。數(shù)據(jù)采集時,設(shè)定脈沖的時域范圍為80 ps,每8組原始數(shù)據(jù)進行一次平均,此時頻率分辨率為6.25 GHz。在非真空環(huán)境下采集22 491組3種濃度(1∶0,1∶1,1∶2)的如圖6所示12種物質(zhì)的光譜。數(shù)據(jù)處理首先去除異常數(shù)據(jù),對原始數(shù)據(jù)進行S-G濾波、濾波窗口設(shè)為9; 然后將光譜數(shù)據(jù)截斷,取前256維的數(shù)據(jù)作為RNN網(wǎng)絡(luò)輸入,變換成256×160的圖像作為CNN網(wǎng)絡(luò)輸入; 最后采用“留出法”將數(shù)據(jù)集劃分為訓(xùn)練集和測試集: 將數(shù)據(jù)集中所有類別的數(shù)據(jù)均按照4∶1的比例劃分為兩個互斥的集合,較多的數(shù)據(jù)集合作為訓(xùn)練集、較少的數(shù)據(jù)集合作為測試集。

    第二步是模型訓(xùn)練: 將訓(xùn)練集數(shù)據(jù)通過前向傳播和反向傳播,觀察損失變化,保存模型。通過改變數(shù)據(jù)集和網(wǎng)絡(luò)超參數(shù)等方式,訓(xùn)練多個模型,從中擇優(yōu)。

    (1)基于RNN的一維譜線分類程序使用MATLAB語言編碼,調(diào)用Deep Learning工具箱。學(xué)習(xí)率設(shè)為0.001。如圖7所示,訓(xùn)練到2 000次iteration左右,損失已經(jīng)不再顯著下降,將此時的權(quán)值保存作為模型。訓(xùn)練耗時約20 min。

    圖7 RNN網(wǎng)絡(luò)訓(xùn)練過程Fig.7 The training process of RNN network

    (2)基于CNN的二維譜圖分類程序使用Python語言編碼,基于TensorFlow框架。學(xué)習(xí)率設(shè)為0.000 01,batch不宜設(shè)置過大,否則泛化性不好,本文設(shè)為8。如圖8所示,訓(xùn)練到50個epoch左右,損失已經(jīng)不再顯著下降,將此時的權(quán)值保存作為模型。訓(xùn)練耗時約80 min。

    圖8 CNN網(wǎng)絡(luò)訓(xùn)練過程Fig.8 The training process of CNN network

    第三步是模型測試: 載入上一步中保存的模型,將測試集數(shù)據(jù)通過前向傳播得到測試結(jié)果。

    3 結(jié)果與討論

    使用經(jīng)過S-G濾波后的3種濃度(1∶0,1∶1,1∶2)的測試數(shù)據(jù)對上述兩種算法以及k-NN算法進行比較分析。k-NN算法的基本原理是計算測試數(shù)據(jù)與已知類別的訓(xùn)練數(shù)據(jù)之間的距離,找到與測試數(shù)據(jù)距離最近的k個鄰居,根據(jù)鄰居所屬的類別來判斷測試數(shù)據(jù)的類別。測試結(jié)果如表1所示。由表可知,k-NN算法的缺陷在于: 測試數(shù)據(jù)每一次都需要和訓(xùn)練數(shù)據(jù)逐一進行比較,算法測試耗時與訓(xùn)練集大小有關(guān),訓(xùn)練集越大、測試耗時越長; 算法對所有數(shù)據(jù)逐點進行距離計算,對噪聲敏感、泛化性差。而基于RNN和CNN的算法,訓(xùn)練集只影響訓(xùn)練耗時,測試耗時僅和網(wǎng)絡(luò)復(fù)雜度即層數(shù)有關(guān); 算法可以克服一定程度的噪聲干擾。

    為了分析數(shù)據(jù)預(yù)處理對于深度學(xué)習(xí)方法的影響,分別使用不經(jīng)預(yù)處理的數(shù)據(jù)集和S-G濾波后的數(shù)據(jù)集,在同樣的超參數(shù)設(shè)置下,使用本文方法進行對比實驗,測試結(jié)果如表2所示。由表可知,數(shù)據(jù)預(yù)處理對于深度學(xué)習(xí)類方法是有必要的,可以消除噪聲對模型的干擾,提升模型泛化性。

    表1 三種算法的性能比較Table 1 Performance comparison of three algorithms

    表2 數(shù)據(jù)預(yù)處理對于RNN和CNN性能的影響Table 2 The effect of data preprocessing onperformance of RNN and CNN

    圖9 (a)樣品濃度的比較實驗; (b)數(shù)據(jù)維度的比較實驗

    為了對比RNN和CNN方法的效果,在同樣的超參數(shù)設(shè)置下,分別使用不同濃度和不同維度的數(shù)據(jù)進行對比實驗。樣品濃度越大,光譜信噪比越好; 前256維光譜頻域信號包含主要特征信息,維度越大,包含的冗余信息越多。測試結(jié)果如圖9所示,對于不同濃度和不同維度的數(shù)據(jù),CNN方法的準確率普遍比RNN更高,且更加穩(wěn)定。因此,在光譜的識別上,CNN方法要優(yōu)于RNN方法,其泛化能力更好、能更好地克服低信噪比和噪聲。

    4 結(jié) 論

    對非真空環(huán)境下12種物質(zhì)的光譜進行分析,提出基于RNN的一維譜線分類網(wǎng)絡(luò)和基于CNN的二維譜圖分類網(wǎng)絡(luò)。測試結(jié)果表明,兩種算法均能夠?qū)崿F(xiàn)光譜識別,在測試集上分別能達到97.5%和99.6%的準確率,算法耗時均小于10 ms,與傳統(tǒng)k-NN方法相比準確率更高、速度更快。由于自然環(huán)境下的空氣濕度和其他噪聲干擾,我們對光譜數(shù)據(jù)進行S-G濾波處理,發(fā)現(xiàn)處理后的光譜數(shù)據(jù)特征更加明顯,算法的準確率得到提高。進一步對RNN和CNN方法進行對比分析,發(fā)現(xiàn)CNN方法能夠更好地克服樣品濃度和數(shù)據(jù)維度的影響,比RNN方法的魯棒性更強。

    本文探索了兩種深度學(xué)習(xí)算法在光譜識別上的應(yīng)用,克服了空氣濕度和樣品濃度對信噪比的干擾,解決了k-NN算法速度慢的問題,為太赫茲技術(shù)在無損安全檢查領(lǐng)域的應(yīng)用提供了算法基礎(chǔ)。

    猜你喜歡
    赫茲時域光譜
    基于三維Saab變換的高光譜圖像壓縮方法
    基于時域信號的三電平逆變器復(fù)合故障診斷
    基于雙頻聯(lián)合處理的太赫茲InISAR成像方法
    太赫茲低頻段隨機粗糙金屬板散射特性研究
    太赫茲信息超材料與超表面
    基于極大似然準則與滾動時域估計的自適應(yīng)UKF算法
    基于時域逆濾波的寬帶脈沖聲生成技術(shù)
    星載近紅外高光譜CO2遙感進展
    基于時域波形特征的輸電線雷擊識別
    電測與儀表(2015年2期)2015-04-09 11:28:50
    苦味酸與牛血清蛋白相互作用的光譜研究
    新竹市| 扎鲁特旗| 怀仁县| 呈贡县| 澎湖县| 灵川县| 土默特左旗| 双柏县| 文山县| 余干县| 安化县| 理塘县| 昌吉市| 卢湾区| 林州市| 元氏县| 渑池县| 鄱阳县| 庆安县| 通许县| 内乡县| 秭归县| 怀化市| 贵港市| 灵台县| 梓潼县| 常宁市| 谢通门县| 九龙坡区| 潜山县| 通州区| 馆陶县| 长寿区| 玉门市| 长岛县| 晋城| 大方县| 彭泽县| 景宁| 扎赉特旗| 大理市|