顏文杰,陳俊明,宋亞軍,孔 昊,賈振軍*
(1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 102600;2.中國(guó)人民公安大學(xué) 治安與交通管理學(xué)院,北京 102600)
在交通肇事案件中,執(zhí)法人員經(jīng)常會(huì)在肇事現(xiàn)場(chǎng)、受害人衣物上發(fā)現(xiàn)并提取到車(chē)漆碎片。通過(guò)對(duì)車(chē)漆進(jìn)行分析與鑒定,進(jìn)一步確定其品牌、生產(chǎn)廠家等信息,進(jìn)而追溯肇事車(chē)輛,從而為確認(rèn)或排除嫌疑人和嫌疑車(chē)輛提供一定的線索,為案件的訴訟和判決提供一定的證據(jù)。因此,車(chē)漆的檢驗(yàn)鑒定對(duì)偵破交通肇事案件具有十分重要的意義。
不同品牌和生產(chǎn)廠家的車(chē)漆有不同的配方和工藝,即在成分和其含量上均存在一定差異。即不同品牌的車(chē)漆樣本間存在一定差異,對(duì)這一差異的挖掘?qū)⒂兄趫?zhí)法人員推斷并確定現(xiàn)成提取的碎片檢材的品牌和生產(chǎn)廠家。目前,車(chē)漆檢驗(yàn)主要有光學(xué)顯微鏡法[1]、掃描電鏡法[2]和光譜成像技術(shù)[3]等。光學(xué)顯微鏡法只能對(duì)車(chē)漆碎片的形態(tài)學(xué)特征進(jìn)行初步解讀,這易受主觀因素影響,且耗時(shí)耗力;掃描電鏡法在確定車(chē)漆中元素含量上有一定優(yōu)勢(shì),但對(duì)其品牌和生產(chǎn)廠家信息的解讀不夠全面。高發(fā)的交通肇事案件和提取到的大量車(chē)漆碎片物證給執(zhí)法人員的工作帶來(lái)了極大的挑戰(zhàn)。如何降低鑒定所需的時(shí)間精力等成本,提高鑒定效率,實(shí)現(xiàn)對(duì)車(chē)漆碎片的快速無(wú)損鑒定,是當(dāng)下執(zhí)法人員關(guān)注的重點(diǎn)之一。
鑒于此,實(shí)驗(yàn)中借助紅外光譜分析技術(shù),通過(guò)對(duì)特征波數(shù)的選擇,建立基于決策樹(shù)分析(decision tree,DT)、k近鄰分析(k-nearest neighbor,KNN)、Fisher判別分析(Fisher discriminant analysis,FDA)的車(chē)漆樣本光譜分類鑒別模型,從而實(shí)現(xiàn)對(duì)車(chē)身油漆品牌較為準(zhǔn)確區(qū)分與歸類,為法庭科學(xué)中車(chē)漆無(wú)損、準(zhǔn)確地檢驗(yàn)鑒定提供一定的參考和借鑒。
從市場(chǎng)上收集了常見(jiàn)的誠(chéng)得利等4種品牌共計(jì)60個(gè)不同品牌和生產(chǎn)廠家的車(chē)漆樣本。采集車(chē)身前部、兩側(cè)、后部共計(jì)4處位置的車(chē)漆碎片,為避免采集過(guò)程中人為因素帶來(lái)的誤差,每處隨機(jī)采集3份樣本。首先,將采集的樣本用酒精棉擦拭樣品,從而除去樣本表面殘留的灰塵等污物;而后將樣本放入盛有去離子水的燒杯中,并超聲清洗2次,每次10min;最后用酒精棉將樣本擦拭干凈,進(jìn)樣檢測(cè)。
采用Nicolet 5700型傅里葉變換紅外光譜儀(Thermo Fisher Scientific公司),配有衰減全反射附件(Thermo Fisher Scientific公司)[4-5]。光譜數(shù)據(jù)處理軟件OMNIC 8.2,光譜采集范圍為4000cm-1~400cm-1,每個(gè)樣本均采集3次,取其平均值作為實(shí)驗(yàn)數(shù)據(jù)[4-5]。
實(shí)驗(yàn)中獲取的數(shù)據(jù)維度較高,重復(fù)信息較多,會(huì)增加后期建模計(jì)算的時(shí)間和復(fù)雜度,也會(huì)降低模型的精度,這對(duì)快速準(zhǔn)確地區(qū)分各樣本有一定影響。因此,篩選并提取特征波數(shù),剔除重復(fù)信息十分有必要[6]。ZHOU等人[7]提出了一種基于小波耦合k近鄰的特征提取方法建立分類模型用于發(fā)霉茶的分類研究。實(shí)驗(yàn)中基于不同的小波函數(shù),采用5層小波分解預(yù)處理光譜數(shù)據(jù),同時(shí)借助線性判別分析構(gòu)建分類模型,有效提取了特征波長(zhǎng)并實(shí)現(xiàn)了對(duì)不同霉變程度的干茶有效分類。ZHENG等人[8]采用主成分分析進(jìn)行特征提取,縮小光譜數(shù)據(jù)的維數(shù),同時(shí)借助支持向量機(jī),線性判別分析和k最近鄰分析建立了分類模型,實(shí)現(xiàn)了對(duì)高腎素高血壓93.5 %地準(zhǔn)確篩查,實(shí)驗(yàn)結(jié)果較為理想。
實(shí)驗(yàn)中采用相關(guān)性分析來(lái)剔除重復(fù)信息,篩選特征波數(shù),通過(guò)計(jì)算樣本數(shù)據(jù)間的Pearson相關(guān)系數(shù)和R值來(lái)判斷樣本數(shù)據(jù)間的相關(guān)程度[9-10],以0.95和0.01分別作為Pearson相關(guān)系數(shù)和R值的閾值。經(jīng)過(guò)反復(fù)比較與分析,實(shí)驗(yàn)中發(fā)現(xiàn),R值無(wú)法較好確定樣本數(shù)據(jù)中信息重復(fù)的數(shù)據(jù),而Pearson相關(guān)系數(shù)則較好地區(qū)分出了重復(fù)數(shù)據(jù)。因此選擇Pearson相關(guān)系數(shù)為參考基準(zhǔn),開(kāi)展對(duì)特征波數(shù)地篩查和提取工作。表1中列舉了其中誠(chéng)得利品牌一個(gè)樣本經(jīng)過(guò)篩選后的56組特征波數(shù)及其光譜數(shù)據(jù)。
Table 1 56 characteristic wavenumbers and its spectral data of a sample from Chengdeli were selected by correlation analysis
以經(jīng)過(guò)關(guān)性分析篩選后的56組特征波數(shù)光譜數(shù)據(jù)為基礎(chǔ),建立基于DT、KNN和FDA的分類模型,開(kāi)展對(duì)不同品牌和生產(chǎn)廠家樣本的分類工作。
DT分析是一種較為有效的分類算法,其分類結(jié)構(gòu)相對(duì)簡(jiǎn)單、明確和直觀,不對(duì)輸入數(shù)據(jù)的分布做任何假設(shè),并且對(duì)于輸入要素和類標(biāo)簽之間的非線性和嘈雜關(guān)系,具有靈活性和魯棒性[11]。
以品牌為單位,采用DT構(gòu)建分類模型,得到了各樣本的分類結(jié)果(見(jiàn)表2)。
Table 2 Classification results of 4 brand samples by DT
由表2可知,DT分類模型對(duì)不同品牌的樣本分類情況均不一樣,其中“Munchsett”品牌的樣本實(shí)現(xiàn)了100.00%的準(zhǔn)確區(qū)分;“Sanhe”品牌的樣本區(qū)分準(zhǔn)確率為94.30%;“Chengdeli”和“Sangmei”品牌的樣本分類正確率均為0.00%。DT分類模型總體分類正確率為77.80%。
KNN分析是一種基于距離度量的有效分類方法,主要原理是從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄,根據(jù)其主要分類決定新數(shù)據(jù)類別,分類過(guò)程中只與近鄰幾個(gè)樣本相關(guān),不使用額外數(shù)據(jù),不需要事先確定類別數(shù)量便能達(dá)到理想分類效果[12-13]。
以品牌為單位,采用KNN構(gòu)建分類模型,得到了各樣本的分類結(jié)果(見(jiàn)表3)。
Table 3 Classification results of 4 brand samples by KNN
由表3可知,KNN分類模型對(duì)不同品牌的樣本分類情況均不一樣,其中“Chengdeli”和“Munchsett”品牌的樣本分類正確率均為0.00%;“Sanhe”品牌的樣本區(qū)分準(zhǔn)確率為96.80%,“Sangmei”品牌的樣本分類正確率均為25.00%。KNN分類模型總體分類正確率為72.31%。
FDA分析主要思想是將多維數(shù)據(jù)投影到某個(gè)方向上,將類與類之間盡可能分開(kāi),類內(nèi)盡可能聚合,然后選擇合適的判別規(guī)則對(duì)未知樣品進(jìn)行分類判別[14]。
以品牌為單位,構(gòu)建Fisher判別分析模型,得到了各樣本的判別函數(shù)摘要(見(jiàn)表4)。
Table 4 The abstract of FDA functions about 4 brand samples
“variance contribution rate”即方差貢獻(xiàn)率,指在此判別函數(shù)上各樣本的可區(qū)分度?!癱orrelation”即相關(guān)性,指不同分組與各個(gè)函數(shù)之間的相關(guān)性,相關(guān)性越強(qiáng),則組別在此維度上的差異越大[15]?!癢ilks’ lambda”是組內(nèi)平方和與總平方和之比,其值越小,說(shuō)明某個(gè)量對(duì)于模型的影響越顯著[15]?!皊ignificance”即顯著性,若 0.01 其中f1方差貢獻(xiàn)率最高(63.7%),在f1上各樣本的可區(qū)分度較高,其次為f2(30.0%)和f3(6.3%)。f1和f2的相關(guān)性均高于0.65,表明不同分組與f1和f2的相關(guān)性較強(qiáng)。函數(shù)檢驗(yàn)中,f1和f2的Wilks’ lambda分別為0.154和0.842,表明函數(shù)1和函數(shù)2對(duì)模型影響的顯著性較高。f1,f2以及f3的significance均小于0.01,表明差異極顯著,能很好解釋各樣本的分類情況。綜上所述,同時(shí)選擇f1,f2以及f3作為判別函數(shù),構(gòu)建判別分類模型,得到了4個(gè)品牌樣本的判別分類圖(見(jiàn)圖1)。 Fig.1 Distribution of 4 brand samples under FDA model 由圖1可知,不同品牌的樣本分布情況各有不同。其中“Sanhe”品牌的樣本數(shù)據(jù)聚斂程度較高,分布較為集中;“Chengdeli”、“Munchsett”和“Sangmei”3個(gè)品牌的樣本分布相對(duì)分散。Fisher判別分類模型對(duì)“Chengdeli”品牌的樣本實(shí)現(xiàn)了100.00%的準(zhǔn)確區(qū)分,“Munchsett”品牌的樣本區(qū)分準(zhǔn)確率為75.00%,“Sanhe”品牌的樣本區(qū)分準(zhǔn)確率為88.14%,“Sangmei”品牌的樣本區(qū)分準(zhǔn)確率為70.00%。各樣本的總體區(qū)分準(zhǔn)確率為85.00%,分類結(jié)果相對(duì)較為理想。相對(duì)于DT和KNN分類模型,F(xiàn)isher判別分類模型準(zhǔn)確率更高,對(duì)各樣本的區(qū)分能力更強(qiáng)。其對(duì)樣本光譜數(shù)據(jù)的分類效果優(yōu)于DT和KNN分類模型。 本文中采用紅外吸收光譜與DT-KNN-FDA方法,實(shí)現(xiàn)了對(duì)車(chē)漆樣本較為準(zhǔn)確地分類與識(shí)別。通過(guò)相關(guān)性分析篩選出58組的特征數(shù)據(jù),以此為基礎(chǔ)構(gòu)建分類模型。DT分類模型、KNN分類模型和FDA分類模型對(duì)各樣本的總體區(qū)分準(zhǔn)確率分別為77.80%,72.31%和85.00%。綜上所述,紅外吸收光譜結(jié)合相關(guān)性分析及FDA模型可較好地實(shí)現(xiàn)對(duì)車(chē)漆不同品牌間較為準(zhǔn)確地區(qū)分,且分類結(jié)果較為理想。本實(shí)驗(yàn)中在一定程度上消除了傳統(tǒng)鑒別方法中因主觀判斷造成誤差、人工鑒別效率較低以及對(duì)檢材損耗較大的缺點(diǎn),為車(chē)漆的分類鑒別提供了一種新的參考思路,同時(shí),本方法也為其它鑒別手段提供了一定的借鑒。值得注意的是,車(chē)漆是多組分樣本,對(duì)多組分分析是一個(gè)挑戰(zhàn),因?yàn)椴煌姆肿涌赡軐?dǎo)致相似的光譜形狀,使它很難從一個(gè)復(fù)雜的系統(tǒng)中分離出某些分子信息。因此,如何改進(jìn)紅外光譜技術(shù)以滿足日益增長(zhǎng)的物證分析需求,是今后研究的熱點(diǎn)之一。3 結(jié) 論