古錕山,王繼芬*,曾嘯虎
(1.中國人民公安大學 偵查學院,北京 100038;2.酒泉衛(wèi)星發(fā)射中心,甘肅 酒泉 735000)
隨著法庭科學檢驗技術的不斷發(fā)展,所收集的生物檢材從傳統(tǒng)的尿液、唾液以及血液逐步發(fā)展到頭發(fā)、汗液、眼淚、指甲等[1]。與傳統(tǒng)的生物檢材相比,汗液和眼淚所需檢材的量更少,頭發(fā)和指甲則具有保存時間長、容易收集、抗污染能力強、對待測目標物穩(wěn)定等優(yōu)點[2-3]。與頭發(fā)樣本相比,指甲樣本的生長速度更加穩(wěn)定,不受黑色素等因素的影響,因此檢測更具可靠性和穩(wěn)定性[4]。
在法醫(yī)和刑事案件中,指甲作為一種生物物證具有重要作用。與人體的其他組織相比,即使是少量的指甲樣本也能夠包含個體的相關生物信息。此外,指甲樣本的采集是非侵入性的,樣本可以在室溫下儲存,且指甲成分的穩(wěn)定性強,其中所蘊含的生物信息可以幫助識別嫌疑人。目前指甲檢驗在案件偵查中的作用主要有以下幾點:(1)通過對指甲中殘留的組織或血液進行DNA 檢驗,提供犯罪嫌疑人的相關信息,為案件偵查提供方向;(2)對指甲進行毒理化檢驗可以確認嫌疑人是否有吸毒等行為;(3)在服毒自殺的案件中,對指甲進行檢驗有助于確認案件性質;(4)對于拋尸案件來說,指甲檢驗可對無名尸源進行溯源調查[5]。
目前對于指甲的檢驗主要采用以下方法,一是利用氣相色譜-質譜聯(lián)用(GC-MS)等技術對指甲中的違禁物品進行檢驗分析[6-7];另一方面是利用元素分析-穩(wěn)定同位素比質譜技術(EA-IRMS)對指甲中的氫、氧穩(wěn)定同位素比值進行檢驗從而進行地區(qū)的區(qū)分[8-12],但該方法檢測時間長、儀器昂貴,不能滿足公安機關快速無損檢驗的需求;還有一種是利用光譜技術對指甲進行檢驗。傅里葉變換紅外光譜具有分析速度快、操作簡單、能夠提供待測物的豐富結構信息等優(yōu)點,是一種很有前途的非破壞性技術,被廣泛應用于各微量物證的檢驗鑒定[13]。由于每個地區(qū)的環(huán)境氣候不同,同時不同人指甲中的蛋白質、含水量及微量元素含量均有所差異[14-15],使得利用光譜檢驗技術對指甲進行個體識別乃至溯源分析具備一定的可行性,Sharma 等[16]利用衰減全反射-傅里葉變換紅外光譜(ATR-FTIR)采集了100 份指甲樣本的光譜圖(男女性各50 份),利用主成分分析進行數(shù)據(jù)降維后以偏最小二乘判別分析模型對指甲樣本的性別進行識別。實驗結果表明,數(shù)據(jù)降維后模型的識別率得到提升,總體分類識別率為95%,其中男性樣本的識別率為90%,女性樣本的識別率為100%。這一研究充分證明紅外光譜技術結合化學計量學能夠實現(xiàn)對指甲中生物信息的區(qū)分。
實際獲得的紅外光譜數(shù)據(jù)除了純光譜以外還存在大量的噪聲、基線漂移等干擾信號,這些干擾信號會降低原始譜圖的信噪比,影響紅外光譜的精度以及導致模型過擬合現(xiàn)象的發(fā)生[17]。與此同時,隨著樣本量的增大,光譜數(shù)據(jù)的維度也隨之增大,這導致光譜識別模型的運行時間增加,識別率降低。因此,建模前對光譜數(shù)據(jù)進行降噪和數(shù)據(jù)降維處理非常必要。
濾波器是一種信號過濾元件,其本質是一個選頻裝置,通過設置濾波器使特定頻段的信號通過,可極大地濾除其他頻段的成分,實現(xiàn)濾除干擾噪聲的目的[18]。鞠薇等[19]利用改進閾值提升小波和自適應濾波器對大氣紅外光譜進行降噪處理后,譜圖的噪聲明顯降低,均方根誤差(RMSE)降低了30%,模型運行時間縮短了46%,充分證明利用濾波器對紅外譜圖進行除噪的可行性。光譜數(shù)據(jù)降維是對光譜數(shù)據(jù)進行建模分析的預處理步驟,其過程主要是根據(jù)一定的評估準則從原始高維光譜數(shù)據(jù)集合中選擇出解釋性最強的變量從而有效地消除冗余和無關的特征,提高模型的識別效率以及準確率[20]。
目前尚未有報道將現(xiàn)代光譜分析技術、光譜降噪技術以及光譜數(shù)據(jù)降維技術相結合應用于法醫(yī)人類學領域。指甲所蘊含的有機分子中的化學鍵或官能團處于不斷振動的狀態(tài),當用紅外光照射有機分子時,分子中的官能團或化學鍵會發(fā)生振動吸收,不同的官能團或化學鍵吸收的頻率不同,同時不同地區(qū)的人們由于飲食習慣不同,會導致指甲中所含的生物信息有所區(qū)別[12]。本實驗從涉案現(xiàn)場收集了指甲樣本的紅外光譜數(shù)據(jù),利用希爾伯特變換濾波器對原始光譜數(shù)據(jù)進行降噪處理,然后利用主成分分析和偏最小二乘判別分析對樣本的紅外光譜進行數(shù)據(jù)降維,并建立樸素貝葉斯以及隨機森林模型對處理后的數(shù)據(jù)進行地區(qū)區(qū)分。根據(jù)模型的識別效果選擇最佳預處理方法以及最優(yōu)識別模型。
從實際案件中提取的指甲樣本共計204 份,其中東部地區(qū)32 份,西部地區(qū)36 份,南部地區(qū)48 份,北部地區(qū)40份,中部地區(qū)48份。將上述5個地區(qū)的樣本依次編號為D1、D2、D3、D4、D5。
傅里葉變換紅外光譜儀(Nicolet6700,Thermo Fisher Scientific,USA),KBr(Thermo Fisher Scientific,USA)。光譜分辨率為8 cm-1,掃描次數(shù)為64 次,樣品波數(shù)采集范圍(建模波段)4 000 ~650 cm-1。每個樣本采集3次數(shù)據(jù),取平均值作為建模分析數(shù)據(jù)。
由于指甲形狀不同且成分相對比較復雜,在測量采集的過程中存在光譜差異以及因測量時按壓力量不同導致的光譜散射影響。這些干擾會影響光譜識別模型的準確性,因此需要對原始譜圖進行S-G平滑[21](平滑點數(shù)為7,3階平滑多項式)、基線校準[22]、歸一化[23]以及多元散射校正[24]處理,得到初步預處理的光譜數(shù)據(jù)后再利用希爾伯特變換濾波器對光譜進行降噪處理。
希爾伯特變換濾波器的工作原理主要是將實數(shù)信號變換成解析信號,即把一個一維的信號轉換成二維復平面上的信號。復平面上的信號比一維信號更加完整,實信號只是在復平面實軸上的一個投影,復數(shù)的幅角和模分別代表信號的相位和幅度[25]。光譜信號通過希爾伯特變換濾波器后會得到一個復平面信號,該復平面信號在實部的投影為降噪后的光譜信號,其信號值為復平面信號每一點的模值,即A(t)=sqrt{x2(t)+Hilbert[x(t)2]},瞬時相位就是虛部和實部在某一時間點比值的arctan。光譜信號通過希爾伯特變換濾波器后不僅能夠濾除噪聲等的干擾還能豐富譜圖的相關信息,提高模型的識別效果。
樸素貝葉斯(Native Bayes,NB)是一種假設每個輸入變量都是相互獨立的強大預測模型建模算法[26]。其主要過程為給定訓練集(x,y),其中每個樣本x都包括n維特征,即x=(x1,x2,x3,…,xn),類別標記集合含有k種類別,即y=(y1,y2,y3,…,yk)。對于新樣本x,對其類別進行判斷就是看它屬于哪一類的概率最大,即轉化為求解P(y1|x),P(y2|x),…,P(yk|x)中的最大值,也即求出后驗概率最大的輸出argmaykP(yk|x)。由于,則NB分類器可以表示為:
隨機森林是統(tǒng)計學中常用的分類器,能夠從訓練集中學習特征與標簽之間的映射關系,是一種有監(jiān)督學習算法。隨機森林進行分類的主要過程為:(1)在樣本的訓練集中有放回地隨機選樣t次,得到t個樣本;(2)從樣本的所有特征中隨機選擇x個特征,利用隨機選擇的特征對所選樣本進行決策樹的建立;(3)將上述兩個步驟重復N次,得到N棵決策樹,形成該樣本的隨機森林;(4)對于新輸入的數(shù)據(jù),每棵決策樹進行決策后會進行投票,得票數(shù)最高的即為隨機森林判別得到的類型[27]。
在解決多元線性問題時,多元線性回歸會因為自變量之間的相關性導致過擬合現(xiàn)象,而偏最小二乘判別分析(Partial least squares-discrimination analysis,PLS-DA)通過先找到先行獨立的替換自變量,使其間相互獨立且能夠最大限度地反映變量之間的差異,同時剔除不相關的變量,并通過潛在變量進行聚類分析,是一種有監(jiān)督的模式識別分析方法[28]。
5 個地區(qū)指甲的原始譜圖、原始光譜經(jīng)S-G 平滑處理以及原始光譜經(jīng)希爾伯特變換濾波器處理后的譜圖如圖1所示。
角膜屈光手術會造成角膜組織結構和淚液炎癥介質不同程度的破壞和改變,從而引起眼表功能改變,導致患者術后不同程度的干眼癥狀,這已成為術后最常見的并發(fā)癥[1]。全飛秒激光角膜屈光手術,根據(jù)是否制作角膜基質瓣,可分為飛秒激光角膜基質透鏡取出術(Femtosecond lenticule extraction,F(xiàn)LEx)[2]和飛秒激光小切口角膜基質透鏡取出術(SMILE)[3]。本研究通過比較FLEx與SMILE術后患者早期眼表參數(shù)和淚液炎癥介質變化,探討這2種術式對術后眼表情況的影響。
觀察圖1A 可知5 個地區(qū)指甲的紅外譜圖出峰位置大致相同,只是在峰強上有所區(qū)別。其中波數(shù)1 500 cm-1左右存在一個強峰,為C—H 的彎曲振動吸收峰;波數(shù)1 700 cm-1左右存在一個尖強峰,為C===== O的伸縮振動吸收峰;波數(shù)3 000 cm-1處存在一個左高右低的雙峰;波數(shù)3 250 cm-1左右存在一個中峰,為N—H 伸縮振動吸收峰。峰的具體位置以及波段歸屬如表1 所示。圖1B 譜圖的噪聲有所降低,但仍然存在毛刺。對比圖1B 和圖1C 發(fā)現(xiàn),譜圖經(jīng)希爾伯特變換濾波器處理后尖長毛刺的數(shù)量明顯減少,表明噪聲得到了明顯改善,但各樣本的紅外吸收峰仍相互交織,僅憑肉眼區(qū)分會產(chǎn)生很大的人為誤差,因此需要結合化學計量學對譜圖進行分析。
圖1 5個地區(qū)指甲的原始譜圖(A)、原始譜圖經(jīng)S-G平滑處理(B)以及原始譜圖經(jīng)希爾伯特變換濾波器處理的譜圖(C)Fig.1 Original spectra(A)of fingernails in 5 regions,and original spectra pretreated by S-G smoothing(B)and pretreated by Hilbert transform filter(C)
表1 光譜峰及其波段歸屬Table 1 Spectral peaks and their band assignment
主成分分析(Principal component analysis,PCA)通過對協(xié)方差矩陣進行特征分解以實現(xiàn)減少數(shù)據(jù)集維度的同時保留數(shù)據(jù)中最重要的部分。本實驗利用PCA 對原始數(shù)據(jù)(Original,OG)和經(jīng)希爾伯特變換濾波器處理后的數(shù)據(jù)(Hilbert transform filter,HTF)進行數(shù)據(jù)降維。一般來說所提取的變量的特征值大于1,累計方差貢獻率大于85%即可滿足建模要求。表2為PCA的總方差解釋。
表2 PCA的總方差解釋Table 2 Total variance interpretation of PCA
由表2可知,原始光譜和希爾伯特變換濾波器處理后的光譜經(jīng)PCA提取特征后分別有14和10個特征變量的特征值大于1,且累計方差貢獻率分別為98.844%和99.012%,滿足光譜建模要求,因此對所提取特征變量進行建模分析。
基于內核函數(shù)的不同樸素貝葉斯又可以分為3 種常用模型,分別為多項式樸素貝葉斯(Polynomial naive Bayes,PNB)、伯努利樸素貝葉斯(Bernoulli naive Bayes,BNB)和高斯樸素貝葉斯(Gaussian naive Bayes,GNB)。本實驗對3 種樸素貝葉斯模型的分類效果進行比較,通過不斷增加迭代數(shù),得到3 種樸素貝葉斯模型的最小分類誤差圖,實驗結果如圖2所示。
由圖2 可知,3 種樸素貝葉斯模型的最小分類誤差隨著迭代數(shù)的變化呈現(xiàn)不同的波動,且隨著迭代數(shù)的增加波動逐漸緩和。在波動趨于緩和時,3種樸素貝葉斯模型的最小分類誤差值大小排列為:BNB>GNB>PNB,說明PNB 模型更適合于指甲樣本的分類,因此本實驗采用PNB模型對指甲光譜進行建模分析。
圖2 3種樸素貝葉斯模型的最小分類誤差Fig.2 Minimum classification error of three naive Bayesian models
分別將原始數(shù)據(jù)、經(jīng)希爾伯特變換濾波器處理以及兩者又分別經(jīng)PCA處理的數(shù)據(jù)進行PNB建模,對5個地區(qū)共計204份指甲樣本進行分類識別,同時將204份樣本按照訓練集和測試集3∶1 進行劃分,即訓練集153 份樣本,測試集51份樣本。建模效果如圖3所示。
由圖3可知,PNB模型對樣本原始譜圖的識別效果不佳,原因可能是原始譜圖中含有大量噪聲影響了模型的識別率和識別速度。經(jīng)希爾伯特變換濾波器處理后的原始譜圖識別效果優(yōu)于未處理的譜圖,原因是希爾伯特變換濾波器能夠將一維的光譜信號轉變成二維平面上的光譜信號,降低了原始光譜信號噪聲并豐富了譜圖的識別信息,提高了模型的識別效果。由于光譜數(shù)據(jù)降維能夠大大降低數(shù)據(jù)的冗余,提高模型的識別效果,因此上述數(shù)據(jù)集經(jīng)PCA數(shù)據(jù)降維后識別率得到很大提升。根據(jù)訓練集和測試集的識別率可知,PNB模型對原始數(shù)據(jù)經(jīng)希爾伯特變換濾波器處理+PCA數(shù)據(jù)降維的識別效果最好,其中訓練集識別率為87.46%,測試集識別率為84.19%。
圖3 PNB對各數(shù)據(jù)集的識別率Fig.3 Recognition rate of PNB for each dataset
在使用隨機森林(Random forest,RF)進行樣本區(qū)分前需對模型的參數(shù)進行優(yōu)化使其達到最佳運行狀態(tài)。本實驗中RF 所需要優(yōu)化的參數(shù)有兩個,分別為最大樹深度(max_depth)和決策樹的個數(shù)(n_estimators)。利用OBB error rate 對上述兩個參數(shù)進行分析,OBB error rate 越小模型運行效果最好。將max_depth 參數(shù)值設為1 ~5,n_estimators 參數(shù)值設為0 ~260,不同max_depth 下n_estimators 與OBB error rate 的關系如圖4所示。
圖4 不同最大樹深度下的決策樹個數(shù)與OBB error rate的關系Fig.4 Relationship between n_estimators and OBB error rate under different max_depth
分別將指甲樣本的原始數(shù)據(jù)、經(jīng)希爾伯特變換濾波器處理后的數(shù)據(jù)以及以上兩者又分別經(jīng)PCA 處理后的數(shù)據(jù)進行RF 建模分析,對指甲樣本的地區(qū)進行區(qū)分。RF 模型的訓練集和測試集識別率以及誤差棒如圖5所示。
圖5 RF模型的訓練集和測試集識別率(A)以及誤差棒(B)Fig.5 Recognition rate(A)and error bar(B)of training set and test set of RF model
由圖5 可得知RF 模型對原始譜圖的識別效果不好,充分證明譜圖噪聲會影響大部分模型的識別率。原始譜圖經(jīng)希爾伯特變換濾波器處理或PCA 降維后識別率有了顯著提升,而原始譜圖同時經(jīng)希爾伯特變換濾波器處理和PCA數(shù)據(jù)降維后的識別效果最佳,訓練集識別率高達94.88%,測試集識別率為93.47%。誤差棒表示訓練集和測試集之間的偏差情況,誤差棒越小說明數(shù)據(jù)之間的波動越小。由圖5可知HTF-PCA 的誤差棒最小,表明這兩種預處理方法結合后的訓練集和測試集之間的偏差很小,進一步證明該預處理組合的穩(wěn)定性優(yōu)于其他方法。
最佳因子數(shù)的確定是PLS-DA 建模分析的關鍵問題,影響模型的實際運行效果。本實驗通過不同因子數(shù)下所建立模型的R2和RMSE 值的大小來確定模型的最佳因子數(shù)。原始光譜和原始光譜經(jīng)希爾伯特變換濾波器處理后的PLS-DA模型的R2和RMSE值隨因子數(shù)的變化圖如圖6所示。
圖6 PLS-DA模型的R2(A)和RMSE(B)值隨因子數(shù)的變化圖Fig.6 Variation of R2(A)and RMSE(B)of PLS-DA model with factor number
由圖可知,隨著PLS-DA 模型因子數(shù)的增加,兩數(shù)據(jù)集的R2均逐漸增加后穩(wěn)定,RMSE 均逐漸減小后穩(wěn)定,當因子數(shù)分別為5 和4 時,OG 和HTF 數(shù)據(jù)集的R2和RMSE 值趨于穩(wěn)定。由于因子數(shù)過大可能會導致模型的過擬合現(xiàn)象,因此本實驗選擇OG和HTF數(shù)據(jù)集的最佳因子數(shù)分別為5和4。
分別將指甲樣本的原始數(shù)據(jù)和經(jīng)希爾伯特變換濾波器處理后的數(shù)據(jù)在最佳因子數(shù)下進行PLS-DA建模分析,對指甲樣本的地區(qū)進行區(qū)分,識別效果如圖7所示。
由圖7 可以看出PLS-DA 模型對于原始數(shù)據(jù)的識別效果不理想。對于原始數(shù)據(jù),PNB、RF 和PLS-DA 3 個模型均存在同樣的問題,充分證明光譜的噪聲以及數(shù)據(jù)的維度會影響模型的運行效果。通過希爾伯特變換濾波器處理后,PLS-DA 模型的識別準確率有了顯著的提升,其中訓練集的識別率為86.24%,測試集的識別率為84.09%。
圖7 PLS-DA對各數(shù)據(jù)集的識別率Fig.7 Recognition rate of PLS-DA for each dataset
分別用靈敏度、特異性和精度3 個指標評價3 個模型的性能,一般來說這3 個指標越高,模型性能越好。3 個模型的評價指標如表3 ~表5所示。
表3 PNB模型的評價指標Table 3 Evaluation index of PNB model
表5 PLS-DA模型的評價指標Table 5 Evaluation index of PLS-DA model
對比表格中3 個模型的評價指標后發(fā)現(xiàn),三者均在經(jīng)HTF-PCA 處理后達到最優(yōu)識別效果。對于模型的性能和穩(wěn)定性,3 個模型的排序為:RF>PLS-DA>PNB,其中RF 模型的平均靈敏度比PLS-DA 模型高8.16%,比PNB模型高10.63%;平均特異性比PLS-DA 模型高8.03%,比PNB 模型高11.56%;平均精度比PLS-DA 模型高7.68%,比PNB模型高11.85%。分析原因可能是PNB模型需要樣本數(shù)據(jù)集之間相互獨立,而指甲樣本之間可能存在一定的關聯(lián)性,會使PLS-DA 模型產(chǎn)生過擬合現(xiàn)象,影響模型的準確率。RF 模型采樣的隨機性則保證了RF 模型不會出現(xiàn)數(shù)據(jù)過擬合現(xiàn)象,從而使得其識別效果在3個模型中最佳。
表4 RF模型的評價指標Table 4 Evaluation index of RF model
本實驗采集了5 個地區(qū)人指甲的紅外光譜數(shù)據(jù),由于原始譜圖的噪聲及數(shù)據(jù)維度較大,因此采用希爾伯特變換濾波器進行降噪處理,同時采用PCA 進行數(shù)據(jù)降維,利用PNB、RF 及PLS-DA 模型對預處理后的數(shù)據(jù)進行識別,并根據(jù)模型的識別率和相關指標選擇最佳預處理方法及最優(yōu)識別模型。結果表明,預處理方法及模型的篩選降低了譜圖的噪聲和數(shù)據(jù)的冗余,同時提高了模型的識別效果,希爾伯特變換濾波器結合PCA 是最佳預處理方法,RF 模型比PNB 模型以及PLS-DA 模型更適合于指甲樣本的地區(qū)區(qū)分。本方法實現(xiàn)了指甲樣本地區(qū)的無損區(qū)分,符合法庭科學對指甲樣本的鑒定要求,為法庭科學對指甲樣本地區(qū)的區(qū)分提供了參考。