張建強(qiáng),李 帆,楊啟富,胡竣勛,倪春明*,張馨予*
(1.云南警官學(xué)院 刑事偵查學(xué)院,云南 昆明 650021;2.昆明理工大學(xué) 理學(xué)院,云南 昆明 650500)
當(dāng)前,國際毒潮持續(xù)泛濫,全球制造、走私、販運(yùn)、濫用毒品問題突出,毒品來源、種類、吸毒人數(shù)不斷擴(kuò)大,嚴(yán)重威脅人類健康、發(fā)展、和平與安全。隨著經(jīng)濟(jì)全球化和社會信息化的快速發(fā)展,全球毒品正處在加速的擴(kuò)散期,已蔓延至以青少年群體為主的社會各個階層,給社會穩(wěn)定、經(jīng)濟(jì)發(fā)展、人民健康造成了嚴(yán)重危害[1]。
云南與緬甸、老撾、越南接壤,國境線長達(dá)4 060 公里,是毒品販運(yùn)的重要通道。2020 年我國繳獲的90%海洛因、80%冰毒均來自于與云南接壤的境外國家,云南已成為毒品受害的重災(zāi)區(qū)。涉毒案件中的毒品大多為非法生產(chǎn),由于制毒原料來源不同,生產(chǎn)設(shè)備、生產(chǎn)者技術(shù)水平和生產(chǎn)工藝流程存在差異,不同制毒工廠生產(chǎn)的同一類毒品所含的有效成分含量、雜質(zhì)種類及含量、殘留溶劑種類及含量等均有所不同,這為利用現(xiàn)代分析技術(shù)推斷毒品的來源提供了物質(zhì)基礎(chǔ)[2]。毒品溯源技術(shù)主要是利用各種先進(jìn)的分析技術(shù)和手段對繳獲的毒品樣品進(jìn)行全面的理化檢驗(yàn)及成分分析,通過建立樣品信息數(shù)據(jù)庫,再利用科學(xué)的統(tǒng)計(jì)方法和大數(shù)據(jù)分析方法,推測毒品的同一案件認(rèn)定、可能產(chǎn)地、相關(guān)加工工藝和運(yùn)輸過程等毒品來源信息。毒品溯源技術(shù)的應(yīng)用為禁毒執(zhí)法部門提供了法律服務(wù)和戰(zhàn)略、戰(zhàn)術(shù)情報(bào)服務(wù)的雙重作用。因此,為了更有效和更有力地開展禁毒工作,積極進(jìn)行涉毒案件偵破中的科學(xué)研究工作,在毒源判別認(rèn)定中引入近現(xiàn)代分析科學(xué)的原理和方法,可為涉毒案件的偵破提供有效幫助,并具有重要的現(xiàn)實(shí)推廣意義和實(shí)用價(jià)值[3]。
常用的毒源判定方法有化學(xué)法[4]、色譜法[5]和光譜法[6]等,其中化學(xué)法簡單快速,但不易檢測出微量或化學(xué)結(jié)構(gòu)相近的毒品,且結(jié)果受雜質(zhì)干擾較大;色譜法需對樣品進(jìn)行預(yù)處理,程序較為復(fù)雜,且需專業(yè)人員位于實(shí)驗(yàn)室操作,無法做到現(xiàn)場快速檢測;相比于傳統(tǒng)檢測技術(shù),手持式近紅外光譜技術(shù)(NIR)具有測量速度快、測試成本低、操作簡單、對樣本無污染等優(yōu)點(diǎn),在農(nóng)業(yè)、藥品質(zhì)量控制、石油化工、煙草等領(lǐng)域得到了廣泛應(yīng)用[7-9],但目前在毒品現(xiàn)場快速檢測領(lǐng)域則應(yīng)用較少。近紅外光譜主要是由于分子振動的非諧振性使分子振動從基態(tài)向高能級躍遷時產(chǎn)生,主要記錄含氫基團(tuán)X—H(X==C、N、O)振動的倍頻和合頻吸收,不同基團(tuán)(如甲基、亞甲基、苯環(huán)等)或同一基團(tuán)在不同化學(xué)環(huán)境中的近紅外吸收波長與強(qiáng)度均有明顯差異。近紅外光譜具有豐富的結(jié)構(gòu)和組成信息,非常適用于碳?xì)溆袡C(jī)物質(zhì)的組成與性質(zhì)測量。冰毒和海洛因等毒品的主要成分包括C—H、N—H、O—H等分子結(jié)構(gòu),所包含的有機(jī)組分的物理化學(xué)信息在近紅外光譜中均有體現(xiàn),因此近紅外光譜技術(shù)非常適用于毒品的現(xiàn)場快速檢測[10]。
本文基于近紅外光譜分析技術(shù)和粒子群優(yōu)化-極限學(xué)習(xí)機(jī)算法(PSO-ELM),提出了一種利用手持式近紅外光譜分析技術(shù)聯(lián)合PSO-ELM,建立了海洛因和冰毒的近紅外光譜案件溯源建模,并將所建模型應(yīng)用于公安實(shí)戰(zhàn)中海洛因和冰毒來源的快速確定,以解決現(xiàn)有技術(shù)方法的缺陷和不足。
線性判別分析(LDA)的原理是將高維的樣本投影到某個空間,使訓(xùn)練樣本在新空間具有最大的類間距離和最小的類內(nèi)距離,而在測試階段,該模型可將新樣本識別為新空間下最近類中心的一類。在多分類問題中,為了得到新空間的投影向量,一般定義類間散度矩陣SLDAb為[11]:
式中L為類別數(shù),Pi為第i類別的先驗(yàn)概率,mi為第i類別的均值,m為整個樣本集的均值。類內(nèi)散度矩陣SLDAw為:
式中,ni為第i類別的樣本個數(shù),x(i)l為第i類別的第l樣本。線性判別函數(shù)即最佳投影向量e可以表示為:
這相當(dāng)于找到下列廣義特征值問題的最大特征值λ:
在找到最佳投影向量后,將投影的新樣本分配到距離最小的類別。
假設(shè)存在一個線性可分樣本集(xi,yi),i= 1,2,...,n,x∈Rd,即x是d維特征向量,y∈{+1,- 1}是類別標(biāo)號,d維空間線性判斷函數(shù)的分類面方程一般形式為:
式中w為法向量,b為分類閾值。如果要求對所有樣本都正確分類,則兩類樣本需滿足以下條件:
滿足上述條件且使‖w‖2最小的分類面稱為最優(yōu)分類面,H1,H2上的訓(xùn)練樣本點(diǎn)稱作支持向量。解此最優(yōu)化問題后得到的最優(yōu)分類函數(shù)為:
式中,ai是拉格朗日乘子。在非線性情況下,可通過使用非線性變換的方法,將學(xué)習(xí)樣本變換到高維空間中,將其再次轉(zhuǎn)化為線性可分問題,但這會產(chǎn)生“維數(shù)災(zāi)難”問題,即特征空間的維數(shù)驟然增加。觀察式(7),能發(fā)現(xiàn)其在計(jì)算過程中只涉及訓(xùn)練樣本之間的內(nèi)積運(yùn)算。因此,可以通過使用核函數(shù)K(xi,x)代替原來的內(nèi)積運(yùn)算(xi·y),則式(7)變?yōu)椋?/p>
SVM中有多種不同的核函數(shù),目前常用的核函數(shù)主要有[12]:
其中,RBF核函數(shù)的性能優(yōu)異,主要有兩個參數(shù):懲罰因子C和核參數(shù)γ。懲罰因子C主要用于控制訓(xùn)練精度,其數(shù)值越大,表示對錯誤分類的懲罰越大。核參數(shù)γ的主要作用為:其對樣本數(shù)據(jù)在高維特征空間中分布的復(fù)雜程度有著極其重要的影響作用,即γ的值越大,其樣本數(shù)據(jù)在高維特征空間中的分布越復(fù)雜,反之則越簡單。
極限學(xué)習(xí)機(jī)是一種簡單快速的前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,與傳統(tǒng)的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法相比,極限學(xué)習(xí)機(jī)具有以下優(yōu)勢:①計(jì)算速度快,隱含層的神經(jīng)元數(shù)隨機(jī)設(shè)定,訓(xùn)練過程無需迭代調(diào)整;②不會陷入局部最優(yōu),因?yàn)闃O限學(xué)習(xí)機(jī)算法由于其求解輸出權(quán)值最小二乘解的過程是一個凸優(yōu)化問題;③參數(shù)設(shè)定簡單,無過多的復(fù)雜參數(shù)設(shè)定,而傳統(tǒng)的機(jī)器學(xué)習(xí)算法如BP網(wǎng)絡(luò)等,在學(xué)習(xí)過程中需選擇合適的學(xué)習(xí)率、訓(xùn)練步長等,若參數(shù)選擇不當(dāng)則會影響網(wǎng)絡(luò)的泛化性,算法的詳細(xì)流程見文獻(xiàn)[13]。
粒子群優(yōu)化(PSO)算法的基本思想是模擬鳥群隨機(jī)搜尋食物的捕食行為,鳥群通過自身經(jīng)驗(yàn)和種群之間的交流調(diào)整自己的搜尋路徑,從而找到食物最多的地點(diǎn)。其中每只鳥的位置和路徑為自變量組合,每次到達(dá)的地點(diǎn)的食物密度即函數(shù)值。每次搜尋都會根據(jù)自身經(jīng)驗(yàn)(自身歷史搜尋的最優(yōu)地點(diǎn))和種群交流(種群歷史搜尋的最優(yōu)地點(diǎn))調(diào)整自身搜尋方向和速度,此稱為跟蹤極值,從而找到最優(yōu)解[13]。算法的步驟如下:
步驟一:假設(shè)有一個運(yùn)動粒子,對粒子的位置和速度兩個參數(shù)進(jìn)行初始化;
步驟二:設(shè)定每次搜尋的結(jié)果為粒子適應(yīng)度,分別記錄粒子的個體和群體歷史最優(yōu)位置;
步驟三:分別將個體和群體的歷史最優(yōu)位置看作兩個力,并結(jié)合粒子本身的慣性,綜合考慮以上因素如何影響粒子的運(yùn)動狀態(tài),從而更新粒子的位置和速度。
使用近紅外光譜技術(shù)和PSO-ELM 算法實(shí)現(xiàn)對毒品快速溯源的流程主要包括以下5 個步驟:①樣本的近紅外光譜采集;②光譜預(yù)處理和波長選擇;③粒子群優(yōu)化極限學(xué)習(xí)機(jī)算法的參數(shù);④建立PSO-ELM毒品快速溯源模型;⑤實(shí)現(xiàn)毒品樣本案件的快速溯源。
毒品樣本的光譜數(shù)據(jù)均通過微型近紅外光譜儀(MicroNIR 1700 Spectrometer)進(jìn)行采集,光譜儀光源為雙集成真空鎢燈,分光元件為線性漸變?yōu)V光處,檢測器采用128 線元非制冷銦鎵砷(InGaAs)二極管陣列。圖譜采集軟件為MicroNIR 1.5.7,測量波長范圍為900 ~1 650 nm,所有待測樣本在1 d 之內(nèi)完成編號、標(biāo)記,以及近紅外光譜的掃描收集。
實(shí)驗(yàn)樣本由云南某公安局禁毒支隊(duì)提供,海洛因、冰毒樣本共計(jì)648個,所有樣本來自實(shí)戰(zhàn)破獲的8 個不同案件。其中海洛因樣本338 個,分別來自案件一93 個、案件二85 個、案件三75 個和案件四85個;冰毒樣本310個,其中案件五69個、案件六82個、案件七80個和案件八79個。本文的主要工作是實(shí)現(xiàn)不同案件毒品樣本的檢測和區(qū)分,分別確定海洛因和冰毒的不同案件來源。在機(jī)器學(xué)習(xí)建模過程中,一般將數(shù)據(jù)分為兩大部分:一部分是訓(xùn)練數(shù)據(jù),用于構(gòu)建模型;一部分是測試數(shù)據(jù),用于檢驗(yàn)?zāi)P?。但模型的?gòu)建過程中也需要檢驗(yàn)?zāi)P?,輔助模型構(gòu)建,所以將訓(xùn)練數(shù)據(jù)再分為訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)兩部分。驗(yàn)證數(shù)據(jù)用于模型的構(gòu)建,以防止建立模型的過擬合。本文的測試數(shù)據(jù)獨(dú)立于訓(xùn)練集和驗(yàn)證集,不參與訓(xùn)練建模過程;訓(xùn)練集和驗(yàn)證集采取近似2∶1 的隨機(jī)分組方法。按照上述數(shù)據(jù)劃分原則,每個案件的樣本被分為訓(xùn)練、驗(yàn)證和測試三部分,詳細(xì)信息如表1所示。
表1 實(shí)驗(yàn)樣本的詳細(xì)信息Table 1 The detail of experimental samples
使用近紅外光譜技術(shù)和ELM算法實(shí)現(xiàn)對毒品快速溯源的流程主要包括以下步驟:①毒品訓(xùn)練樣本的近紅外光譜采集;②光譜預(yù)處理和波長選擇;③使用ELM算法建立毒品溯源模型;④實(shí)現(xiàn)測試樣本的快速溯源。
本文使用混淆矩陣對模型的分類精度進(jìn)行評價(jià),混淆矩陣也稱誤差矩陣,是表示精度評價(jià)的一種標(biāo)準(zhǔn)格式,用n行n列的矩陣形式表示。評價(jià)指標(biāo)有總體精度、制圖精度、用戶精度等,這些精度指標(biāo)從不同側(cè)面反映了圖像分類的精度。它通過使用一種特定的矩陣呈現(xiàn)算法性能的可視化效果,通常是監(jiān)督學(xué)習(xí)。其每一列代表預(yù)測值,每一行代表實(shí)際類別?;煜仃嚳煞浅H菀椎谋砻鞫鄠€類別是否混淆,示例圖如圖1所示[14]。
圖1 混淆矩陣示例Fig.1 Example of confusion matrix
實(shí)驗(yàn)所用海洛因樣本為表面平整的類似白色石灰塊狀,厚度為0.5 ~10 mm;冰毒為表面平整的類似冰糖塊狀,厚度約10 mm。在光譜采集過程中,將冰毒和海洛因樣本從物證袋中取出,將光譜儀光源豎直放置于毒品樣本上,并在海洛因和冰毒樣本下放置反射率為99%以上的漫反射白板進(jìn)行光譜采集。手持式近紅外儀器的相關(guān)參數(shù)設(shè)置為:光譜采集模式為漫反射模式,波長范圍為900 ~1 650 nm,光譜分辨率為6.25 nm,掃描點(diǎn)數(shù)125,積分時間15 ms,掃描次數(shù)50次。將光譜儀光源豎直放置于海洛因和冰毒樣本上,每個樣本光譜掃描6次,取6次光譜的平均值作為最終光譜。實(shí)驗(yàn)樣本的原始近紅外光譜數(shù)據(jù)如圖2所示。
對毒品的近紅外光譜數(shù)據(jù)進(jìn)行分析和處理時,步驟之一是光譜數(shù)據(jù)的預(yù)處理。該操作通過對其進(jìn)行適當(dāng)?shù)臄?shù)學(xué)處理,能夠最大程度去除冗余信息,更利于從復(fù)雜的光譜中提取有效信息,在一定程度上能夠降低或消除非目標(biāo)因素對光譜信息的影響,從而提高校正模型的穩(wěn)健性。通過使用窗口大小為11 的Savitzky-Golay 二次多項(xiàng)式、一階導(dǎo)數(shù)濾波的方法分別對圖2A 和圖2B 進(jìn)行預(yù)處理操作,結(jié)果如圖3所示。從圖3可以看出,經(jīng)過預(yù)處理后的光譜圖像有效消除了光譜的基線漂移。
圖2 海洛因(A)及冰毒(B)樣本的原始近紅外光譜Fig.2 Original NIR spectra of heroin(A)and methamphetamine(B)samples
圖3 海洛因(A)及冰毒(B)樣本的原始光譜經(jīng)Savitzky-Golay一階導(dǎo)數(shù)(窗口大小為11,二次多項(xiàng)式)濾波后的預(yù)處理結(jié)果Fig.3 Pretreatment result for original NIR spectra of heroin(A)and methamphetamine(B)samples by using multiplicative scatter correction and Savitzky-Golay first derivative with a 11-point window and two polynomial order
從圖3可看出,光譜的吸收波長區(qū)間主要集中在1 050 ~1 550 nm。因此,將主要使用Savitzky-Golay一階導(dǎo)數(shù)預(yù)處理方法及1 050 ~1 550 nm波長區(qū)間對濾棒樣本的近紅外光譜數(shù)據(jù)進(jìn)行毒品案件溯源分類。分別使用LDA、SVM和ELM三種算法對光譜數(shù)據(jù)進(jìn)行案件溯源分類。為了保證三種算法比較的公正性,避免測試過程中的隨機(jī)因素,所有的訓(xùn)練、驗(yàn)證數(shù)據(jù)在每次計(jì)算時均隨機(jī)選擇,且三種算法每次訓(xùn)練、驗(yàn)證和測試時均使用同樣的數(shù)據(jù)。LDA算法的主成分?jǐn)?shù)為8,SVM算法采用RBF徑向基函數(shù),懲罰因子C= 105、核參數(shù)γ= 0.1。使用ELM算法建立回歸預(yù)測模型時,ELM算法的隱含層神經(jīng)元個數(shù)是最為重要的參數(shù),傳統(tǒng)的設(shè)置方法是由計(jì)算機(jī)隨機(jī)設(shè)置,從而導(dǎo)致其算法的穩(wěn)定性無法得到有效保證。為解決上述問題,使用粒子群算法[15]對ELM算法的隱含層神經(jīng)元個數(shù)進(jìn)行優(yōu)化,其優(yōu)化結(jié)果如圖4所示。由圖4可看出,冰毒和海洛因測試集的分類準(zhǔn)確率隨著ELM算法的隱含層神經(jīng)元個數(shù)的增加而逐漸提升并趨向穩(wěn)定,最終確定冰毒樣本集使用ELM算法的最佳隱含層神經(jīng)元的個數(shù)為27,海洛因樣本集使用ELM算法的最佳隱含層神經(jīng)元的個數(shù)為31。
圖4 使用粒子群算法優(yōu)化ELM算法的隱藏神經(jīng)元個數(shù)Fig.4 Number of hidden neurons of ELM algorithm optimized by particle swarm optimization algorithm
將所有樣本隨機(jī)分為訓(xùn)練樣本、驗(yàn)證樣本和測試樣本。使用分類準(zhǔn)確率、敏感度和特異性三個模型評價(jià)指標(biāo)評估每種算法的訓(xùn)練模型、驗(yàn)證結(jié)果和測試結(jié)果的性能。為了能夠全面反映不同分類器的性能并避免過擬合,后續(xù)實(shí)驗(yàn)采用10 階交叉驗(yàn)證方法,即三種算法均運(yùn)行計(jì)算10 次。表2 和表3 通過使用混淆矩陣形式對LDA、SVM 和ELM 三種算法的性能進(jìn)行比較,通過對比表中的后三列數(shù)據(jù)可得出,使用ELM 算法的訓(xùn)練集、驗(yàn)證集和測試集的分類準(zhǔn)確率、敏感度和特異性均最高。以上結(jié)果表明,ELM 算法對于不同案件來源的冰毒和海洛因的近紅外光譜數(shù)據(jù)進(jìn)行溯源分類時具有最佳性能。這是因?yàn)長DA 算法主要通過使用最小歐氏距離實(shí)現(xiàn)對光譜數(shù)據(jù)分類,而當(dāng)光譜數(shù)據(jù)的維數(shù)較高時,算法的有效性將下降;SVM 算法作為一種二分類算法,在處理多分類問題時,具有一定的缺陷,且在訓(xùn)練過程中模型容易出現(xiàn)擬合現(xiàn)象。而ELM 算法可通過使用粒子群優(yōu)化的方法獲得最佳的隱藏節(jié)點(diǎn)數(shù),因此能夠?qū)W習(xí)并獲取更多的近紅外光譜數(shù)據(jù)特征,從而取得最佳的分類性能。
表2 不同建模方法的訓(xùn)練結(jié)果Table 2 The training results using different modeling algorithms
(續(xù)表3)
分別對三種算法的計(jì)算時間(包括訓(xùn)練、驗(yàn)證和測試時間)進(jìn)行分析和比較,使用的計(jì)算機(jī)配置為:Core TM i5-4590 s 處理器,主頻3.00 GHz,內(nèi)存8 GB RAM,操作系統(tǒng)64-bit Windows 7 Professional,程序編譯軟件MATLAB2010b。圖5 給出了LDA、SVM 和ELM 三種算法的計(jì)算時間,由圖可看出,相比于傳統(tǒng)的LDA 和SVM 算法,ELM 算法的計(jì)算效率更高,是對不同案件來源冰毒和海洛因的近紅外光譜數(shù)據(jù)進(jìn)行快速溯源的最佳算法。
圖5 不同算法的計(jì)算時間比較Fig.5 Comparison of the computational time of different algorithms
本文通過使用手持式近紅外光譜儀,結(jié)合PSO-ELM算法建立了冰毒和海洛因兩種毒品的手持近紅外光譜快速溯源模型,實(shí)現(xiàn)了對冰毒和海洛因的現(xiàn)場快速溯源。相比于傳統(tǒng)的LDA和SVM算法,經(jīng)PSO優(yōu)化后的ELM算法能獲得最佳的分類準(zhǔn)確率、特異性和敏感度,對于不同案件來源的冰毒和海洛因近紅外光譜數(shù)據(jù)進(jìn)行溯源分類時具有最佳的性能。與現(xiàn)有的檢測方法相比,本方法具有快速準(zhǔn)確、綠色無損等優(yōu)點(diǎn),可為毒品含量的快速預(yù)測和其它毒品的現(xiàn)場快速溯源奠定技術(shù)基礎(chǔ)。