左佳倩,王煜凱,王紅球,耿琳
(1 北京鑒知技術(shù)有限公司,北京 100000;2 廣東省毒品實(shí)驗(yàn)技術(shù)中心, 廣東 510230)
激光拉曼光譜作為分子振動(dòng)光譜,通過檢測(cè)待測(cè)物對(duì)于激發(fā)光的拉曼散射效應(yīng)所產(chǎn)生的拉曼光譜來檢測(cè)和識(shí)別物質(zhì),它可以反映分子的指紋特征,可用于對(duì)物質(zhì)的檢測(cè)。拉曼光譜檢測(cè)方法已經(jīng)廣泛應(yīng)用于液體安檢、珠寶檢測(cè)、爆炸物檢測(cè)、毒品檢測(cè)、藥品檢測(cè)、農(nóng)藥殘留檢測(cè)等領(lǐng)域。拉曼光譜數(shù)據(jù)特征提取,拉曼光譜數(shù)據(jù)庫與拉曼光譜分類方法是拉曼光譜定性分析的關(guān)鍵,直接影響物質(zhì)檢測(cè)的準(zhǔn)確性。
傳統(tǒng)拉曼光譜的定性分析步驟一般主要包括拉曼光譜預(yù)處理,拉曼光譜特征提取和運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行分類。其中,拉曼光譜預(yù)處理一般包括去除熒光背景、平滑濾波和基線校正等,光譜特征提取一般包括波峰信息提取、因子分析等方法,最后選用機(jī)器學(xué)習(xí)方法進(jìn)行分類。隨著拉曼光譜測(cè)量技術(shù)的不斷發(fā)展,拉曼光譜數(shù)據(jù)庫和分析方法更趨近高效性和冗余性。
目前,以深度學(xué)習(xí)為代表的人工智能學(xué)習(xí)方法,具有強(qiáng)大的學(xué)習(xí)與判定能力。隨著電子設(shè)備算力提升,通過權(quán)值共享,局部連接的重要特征,深度學(xué)習(xí)模型學(xué)習(xí)和分類能力在語音分析,圖像識(shí)別和自然語言處理等眾多領(lǐng)域展現(xiàn)出明顯優(yōu)勢(shì)。伴隨著,2012年AlexNet[1]在ImageNet圖像分類大賽中贏得第一名,近年來,深度學(xué)習(xí)模型更為復(fù)雜,層次更深。例如,OpenAI最新提出的GPT-3[2]約具有1750億個(gè)參數(shù)。
近年來,深度學(xué)習(xí)在光譜領(lǐng)域也得到了研究與應(yīng)用。沈嘉豪[3]等,通過比較不同卷積神經(jīng)網(wǎng)絡(luò)中超參數(shù)和損失函數(shù)的影響,優(yōu)化網(wǎng)絡(luò)模型,使得拉曼光譜中的噪聲、尖峰、基線和宇宙射線的處理都能夠通過一個(gè)網(wǎng)絡(luò)模型一次完成,簡化了拉曼光譜數(shù)據(jù)的處理步驟。 溫馨等[4]設(shè)計(jì)了一種基于深度學(xué)習(xí)的水果糖度回歸模型,比經(jīng)過預(yù)處理和特征波段篩選后的傳統(tǒng)偏最小二乘回歸模型、主成分回歸模型的預(yù)測(cè)能力更佳優(yōu)異。
隨著經(jīng)濟(jì)全球化發(fā)展,毒品問題呈惡化態(tài)勢(shì),傳統(tǒng)毒品、冰毒等合成毒品和新精神活性物質(zhì)形成三代毒品疊加供應(yīng)態(tài)勢(shì)。新型毒品增多,種類不斷翻新。由于毒品不易獲取,種類翻新速度快等特性,通過拉曼數(shù)據(jù)庫進(jìn)行物質(zhì)種類一一匹配,存在一定滯后性。針對(duì)以上問題,提出一種選用卷積神經(jīng)網(wǎng)絡(luò)方法,用于對(duì)新出現(xiàn)的或數(shù)據(jù)庫里沒有的拉曼光譜精神類藥品進(jìn)行分類研究。通過將200余種精神類藥品拉曼光譜,按照屬性分為Amphetamine,cathinone,Synthetic cannabinoids和others等九類。利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行每一類物質(zhì)的光譜特征挖掘,實(shí)現(xiàn)在拉曼數(shù)據(jù)庫不完備狀態(tài)下,對(duì)未知物質(zhì)的拉曼光譜識(shí)別。
選用United ID Raman Lab[5]實(shí)驗(yàn)室數(shù)據(jù),選用毒品拉曼數(shù)據(jù)進(jìn)行分析。其中將毒品數(shù)據(jù)主要分為安非他明,卡西酮等類別,拉曼光譜數(shù)據(jù)如圖1所示。
圖1 拉曼光譜數(shù)據(jù)Fig. 1 Raman Spectral
選用拉曼光譜數(shù)據(jù)的有效區(qū)間[200,1600]cm-1拉曼光譜數(shù)據(jù),選用SG濾波進(jìn)行平滑濾波處理,三次樣條方法進(jìn)行差值,并通過歸一化方法進(jìn)行數(shù)據(jù)壓縮。
參照經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型LeNet-5,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行譜圖特征提取,選用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行譜圖特征提取與譜圖分類。
假定預(yù)處理后的拉曼光譜數(shù)據(jù)可表示為S={(x0, y0), (x1, y1), …, (xn yn)},其中xi表示拉曼光譜數(shù)據(jù)即光譜數(shù)據(jù)向量,y為物質(zhì)類別標(biāo)簽即物質(zhì)種類。按照?qǐng)D2所示模型進(jìn)行訓(xùn)練。
圖2 拉曼光譜分類模型結(jié)構(gòu)Fig. 2 Raman Spectral classification model
其中,在拉曼光譜分類模型中,主要經(jīng)過卷積層和池化層的運(yùn)算有效提取原始數(shù)據(jù)的密集特征,并將特征輸入全連接層進(jìn)行拉曼光譜分類。
輸入層(Input):拉曼光譜數(shù)據(jù)。
卷積層(Conv):一組可訓(xùn)練參數(shù)的濾波器組成,也被稱作卷積核。在卷積神經(jīng)網(wǎng)絡(luò)前向傳播過程中,通過卷積運(yùn)算,如式(1)所示,按照一定方向滑動(dòng),可以獲取拉曼光譜的局部特征。
(1)
式中,*表示卷積運(yùn)算,x表示拉曼光譜數(shù)據(jù),k表示卷積核函數(shù),b表示偏置。
池化層(Pool):池化層一般是位于卷積層之后,對(duì)卷積層運(yùn)算生成的特征圖進(jìn)行降采樣。常用池化層一般包括:最大池化、平均池化等方法。本文采用最大池化的方法進(jìn)行特征降采樣,減少每一個(gè)特征圖的維度,減少模型數(shù)據(jù)量,提升運(yùn)算速度,增強(qiáng)模型魯棒性。其表達(dá)式如公式(2)所示。
y=max{a-i,a-i+1,…,ai-1,ai}
(1)
式中,a表示卷積生成的特征圖,池化層和大小k=2*i+1。
在實(shí)驗(yàn)過程中,主要選用毒品拉曼光譜數(shù)據(jù)進(jìn)行拉曼光譜特征提取及模型訓(xùn)練。其中,將精神藥品分為安非他明、卡西酮、大麻素等類別,物質(zhì)種類列表如表1所示。在模型訓(xùn)練過程中,每一類物質(zhì)中隨機(jī)選用60%的數(shù)據(jù)作為訓(xùn)練樣本,20%作為驗(yàn)證樣本,20%作為測(cè)試樣本。
表1 數(shù)據(jù)說明Table.1 Data description
為驗(yàn)證卷積模型提取特征與模型分類準(zhǔn)確性,本文選用K近鄰,PCA+KNN、支持向量機(jī)(rbf)和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行拉曼光譜分類方法準(zhǔn)確性分析。其中,拉曼數(shù)據(jù)按照2.1描述進(jìn)行光譜預(yù)處理。
以上多種分類方法在光譜數(shù)據(jù)上分別測(cè)試,繪制混淆矩陣,實(shí)驗(yàn)結(jié)果如圖3所示。在選用KNN,PCA-KNN,支持向量機(jī)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的過程中,識(shí)別準(zhǔn)確率依次為79.6%,74.1%和77.8%,而通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取與光譜分類的識(shí)別準(zhǔn)確率為85.2%。識(shí)別準(zhǔn)確率約提高5%。由此可見,在使用卷積神經(jīng)網(wǎng)絡(luò),能夠更加有效提取拉曼光譜特征,提高拉曼光譜識(shí)別準(zhǔn)確率。
圖3 不同方法的實(shí)驗(yàn)準(zhǔn)確率Fig. 3 The classification accuracy of different algorithms
本文提出一種對(duì)數(shù)據(jù)庫中沒有的毒品的識(shí)別方法,拉曼光譜通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,實(shí)現(xiàn)數(shù)據(jù)庫缺少拉曼光譜數(shù)據(jù)的定性識(shí)別。通過搭建卷積神經(jīng)網(wǎng)絡(luò)模型,優(yōu)化結(jié)構(gòu)和訓(xùn)練參數(shù),實(shí)現(xiàn)CNN模型訓(xùn)練。與傳統(tǒng)拉曼光譜識(shí)別方法相比,卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)無拉曼光譜數(shù)據(jù)庫的數(shù)據(jù)能夠更加準(zhǔn)確的進(jìn)行特征提取與物質(zhì)分類,識(shí)別準(zhǔn)確率約有5%的提升。由于本文主要是對(duì)同類別物質(zhì)進(jìn)行討論,并未在實(shí)驗(yàn)過程中通過單條光譜數(shù)據(jù)增強(qiáng)方法進(jìn)行數(shù)據(jù)擴(kuò)充,在后期研究過程中期望通過數(shù)據(jù)增強(qiáng)和與傳統(tǒng)機(jī)器學(xué)習(xí)方法相結(jié)合的方法繼續(xù)進(jìn)行研究,提高拉曼光譜識(shí)別準(zhǔn)確率。