戎念慈,黃梅珍
上海交通大學(xué)電子信息與電氣工程學(xué)院儀器科學(xué)與工程系,上海 200240
暴力犯罪現(xiàn)場(chǎng)的血跡是刑事偵查中的重要物證。血液從離開(kāi)身體的那一刻開(kāi)始老化,可以通過(guò)研究血液老化的規(guī)律來(lái)估算血液年齡,估計(jì)發(fā)生創(chuàng)傷事件的時(shí)間。對(duì)于犯罪現(xiàn)場(chǎng)辦案人員來(lái)說(shuō),精確的血跡年齡預(yù)測(cè)可以用來(lái)推測(cè)出犯罪發(fā)生的時(shí)間,有助于確定犯罪嫌疑人[1]。文獻(xiàn)中記載的血跡年齡估計(jì)方法可以追溯至80多年前。近年來(lái)出現(xiàn)了更多利用光譜技術(shù),例如熒光壽命[2],近紅外(NIR)光譜[3],高光譜成像[4],拉曼光譜[5]等來(lái)預(yù)測(cè)血跡年齡的報(bào)道,但這些技術(shù)大多數(shù)測(cè)試條件比較苛刻,設(shè)備復(fù)雜而昂貴,且大多不能現(xiàn)場(chǎng)分析,需要在犯罪現(xiàn)場(chǎng)收集樣本后送去實(shí)驗(yàn)室分析。監(jiān)測(cè)血跡年齡的最簡(jiǎn)單方法是觀(guān)察血跡顏色隨時(shí)間的變化。當(dāng)血液離開(kāi)人體時(shí),氧合血紅蛋白(HbO2)會(huì)快速氧化成高鐵血紅蛋白(MetHb),而高鐵血紅蛋白又會(huì)緩慢變成血紅蛋白(HC), 該反應(yīng)會(huì)引起血液顏色變化,從而使得可見(jiàn)光譜估計(jì)血跡年齡成為可能[7]??梢?jiàn)近紅外反射光譜技術(shù)相比其他血跡年齡估計(jì)技術(shù),具有無(wú)損檢測(cè),裝置簡(jiǎn)單,價(jià)格低廉等優(yōu)勢(shì),受到了越來(lái)越多的關(guān)注。
1960年,Patterson使用色度計(jì)對(duì)血跡的反射率進(jìn)行測(cè)量并將CIE色度指數(shù)的變化與血跡的年齡聯(lián)系起來(lái), 取得了一些成果。Bremmer等[8]使用漫反射光譜法跟蹤了0到60天之間血跡的老化過(guò)程,提出了基于HbO2轉(zhuǎn)化為MetHb然后轉(zhuǎn)化為HC的血液老化的動(dòng)力學(xué)模型。董永芳等[9]使用了基于遺傳區(qū)間偏最小二乘法對(duì)血跡年齡進(jìn)行估計(jì)。Li等[10-11]使用了線(xiàn)性判別分析與可見(jiàn)近紅外反射光譜相互結(jié)合的方法預(yù)測(cè)血跡年齡。上述研究基本都基于價(jià)格比較昂貴的高光譜成像系統(tǒng)或高光譜相機(jī)進(jìn)行,Thanakiatkrai等[12]則使用智能手機(jī)對(duì)血跡斑點(diǎn)進(jìn)行拍照,通過(guò)圖像分析預(yù)測(cè)血跡年齡。
目前可見(jiàn)光譜法估計(jì)血跡年齡的精度普遍不夠理想,還有待提高。Li等[10]使用顯微分光光度計(jì)TIDAS MSP 400進(jìn)行光譜采集,利用線(xiàn)性判別分析(linear discriminant analysis,LDA)模型對(duì)血跡年齡進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果在2~20 d內(nèi)的平均誤差為0.923 d,正確分類(lèi)率(correct classification rate, CCR)為47.7%,當(dāng)容許誤差為1 d時(shí),CCR到達(dá)80.7%,容許誤差為2 d時(shí),CCR可以達(dá)到92.3%。Thanakiatkrai等[12]使用智能手機(jī)對(duì)血跡斑點(diǎn)進(jìn)行拍照,通過(guò)RGB三個(gè)波段進(jìn)行血跡年齡預(yù)測(cè),平均誤差為0.61 d。2013年,Li等[11]利用雙高光譜系統(tǒng)采集光譜,使用改進(jìn)的LDA預(yù)測(cè)血跡年齡,在前7 d,平均誤差為0.27 d,在30 d內(nèi)時(shí)平均誤差為1.17 d,容許誤差為1 d時(shí),CCR達(dá)到89.3%,其測(cè)試數(shù)據(jù)集在2~20 d的平均誤差為0.85 d,CCR為61.6%。董永芳等[9]使用的基于遺傳區(qū)間偏最小二乘法預(yù)測(cè)血跡年齡,0~2 d的平均誤差為0.063 d,2~20 d的平均誤差為1.185 d。Edelman等[4]使用最小二乘進(jìn)行血跡年齡估計(jì),平均誤差在0~2和2~20 d分別為1.65和3.5 d。
Bremermer等[8]的工作未考慮血跡特異性對(duì)模型的影響,而Li[10]等使用LDA模型預(yù)測(cè)血跡年齡時(shí),發(fā)現(xiàn)當(dāng)使用一個(gè)新的血跡樣本驗(yàn)證模型,CCR就從91.5%下降至37.3%,表明,血跡的特異性對(duì)血跡時(shí)間模型可能有著很大的影響。本文使用的機(jī)器學(xué)習(xí)模型,如k最近鄰算法(k-Nearest Neighbor,k-NN)、支持向量機(jī)算法(support vector machine,SVM)和隨機(jī)森林算法(random forest,RF)有著很強(qiáng)的抗干擾能力,能夠更好地估計(jì)來(lái)源不同的血跡的年齡,在應(yīng)對(duì)血液特異性對(duì)血跡年齡估計(jì)上有著很強(qiáng)的適應(yīng)性。
構(gòu)建了以8個(gè)LED為照明光源、以黑白CCD相機(jī)為成像單元的可見(jiàn)-近紅外多光譜成像系統(tǒng),研究了利用可見(jiàn)-近紅外反射多光譜精確估計(jì)人體血液年齡的可行性,使用了融合k-NN, SVM和RF的融合模型方法進(jìn)行血跡年齡估計(jì),建立了血跡預(yù)測(cè)模型并驗(yàn)證了血液特異性對(duì)模型的影響。相比于其他方法,平均誤差更小,穩(wěn)定性更好,所建模型的準(zhǔn)確率得到了提升。
實(shí)驗(yàn)用的11個(gè)血液樣本采集自健康志愿捐獻(xiàn)者,采集時(shí)間為上午10:00—10:20。分別取20 μL滴在白色純棉布上,制得11個(gè)血跡樣本。儲(chǔ)存于常溫的黑暗環(huán)境下。11個(gè)血跡樣本隨機(jī)分成兩部分,其中7個(gè)血跡作為訓(xùn)練集樣本,4個(gè)血跡作為測(cè)試集樣本。
驗(yàn)證不同個(gè)體的血跡特異性對(duì)模型影響的實(shí)驗(yàn)采集了8名健康志愿捐獻(xiàn)者的20個(gè)血跡樣本.采集時(shí)間為15:20—15:30。分別取20 μL滴在白色純棉布上,制得20個(gè)血跡樣本,并儲(chǔ)存于常溫的黑暗環(huán)境下。20個(gè)血跡樣本隨機(jī)分成兩部分,其中10個(gè)血跡作為訓(xùn)練集樣本加入模型建立,10個(gè)血跡作為測(cè)試集樣本。
自主研制的以L(fǎng)ED為光源的可見(jiàn)-近紅外多光譜系統(tǒng)框圖如圖1所示,系統(tǒng)由兩部分組成,包括照明模塊和圖像采集模塊。照明模塊由LED、驅(qū)動(dòng)電源及其控制軟件和光纖組成,通過(guò)照明控制軟件控制不同波長(zhǎng)的LED發(fā)光,通過(guò)光纖傳導(dǎo),從而實(shí)現(xiàn)令不同波長(zhǎng)的光照明被測(cè)物的功能。LED的額定電壓為3 V,電流為1.5 A,其中心波長(zhǎng)及帶寬如表1所示,發(fā)射光譜如圖2所示。
圖1 可見(jiàn)-近紅外多光譜系統(tǒng)
表1 LED的中心波長(zhǎng)及帶寬
圖2 LED發(fā)射光譜
圖像采集模塊由黑白CCD相機(jī)及相機(jī)控制軟件組成,通過(guò)軟件設(shè)置曝光時(shí)間、采樣頻率、焦距等參數(shù),控制CCD相機(jī)實(shí)現(xiàn)采集圖像和存儲(chǔ)功能。其中CCD相機(jī)為福州鑫圖光電有限公司的TCC-1.4LICE-N相機(jī)。多光譜系統(tǒng)通過(guò)圖像采集模塊采集被測(cè)物在不同波長(zhǎng)的LED照射下的圖像,實(shí)現(xiàn)多光譜的采集。
采用漫反射方式測(cè)量樣本多光譜。使用白布參考區(qū)域比對(duì)多次測(cè)量時(shí)LED亮度。所有采集過(guò)程均在暗室中進(jìn)行。采集時(shí)間為1, 2, 3, 4, 5, 7, 9, 11, 13, 17, 21, 25, 30, 35, 46, 49, 60, 73.5, 77, 82, 100, 107, 117, 126, 131, 142.5, 147, 153, 165, 170.5, 174, 197.5, 220, 251.5, 271, 296.5, 346.5, 366.5, 418.5和439.5 h, 共獲取320幅圖像。
模型評(píng)價(jià)標(biāo)準(zhǔn): 使用CCR與平均誤差指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。CCR越接近1,平均誤差越小,模型的預(yù)測(cè)能力越好。
2.1.1 反射率計(jì)算
首先,采集相機(jī)的暗噪聲Idark,并通過(guò)記錄未染有血跡的空白布的參考圖像光強(qiáng)(I0)進(jìn)行多光譜反射率的計(jì)算。被測(cè)樣品圖光強(qiáng)(Is)是在同等光照條件下通過(guò)相機(jī)采集,依次采集血跡在8個(gè)不同LED照明下的各時(shí)段反射率。多光譜反射率(R)通過(guò)式(1)計(jì)算得出[6]
(1)
2.1.2 標(biāo)準(zhǔn)正態(tài)變換校正
圖3(a)為血跡年齡在1.00 h時(shí)的11個(gè)血跡斑點(diǎn)的反射率折線(xiàn)圖。由圖可知,由于存在基線(xiàn)平移和散射影響,同樣年齡的血跡反射率有著較大差異[13]。因此,需要對(duì)光譜進(jìn)行預(yù)處理,本文采用標(biāo)準(zhǔn)正態(tài)變換校正(standard normal variate transformation, SNV)對(duì)光譜進(jìn)行預(yù)處理,對(duì)每組反射率進(jìn)行標(biāo)準(zhǔn)化預(yù)處理[13]。預(yù)處理結(jié)果如圖3(b)所示。SNV校正后,反射率差異顯著降低,有效消除了基線(xiàn)平移和散射作用帶來(lái)的光譜差異。
圖3 年齡相同的11個(gè)血跡的光譜
2.2.1 模型結(jié)果與分析
k-NN是在給定的訓(xùn)練數(shù)據(jù)集上,尋找與測(cè)試集的歐幾里德距離最小的k(k=4)個(gè)實(shí)例,并以其中的多數(shù)決定測(cè)試樣本的分類(lèi)[14]。SVM是由Vapnik首先提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的分類(lèi)器, 魯棒性較好,計(jì)算效率較高,并且具有過(guò)擬合控制策略以及良好的抗干擾和噪聲能力[15]。RF是采用構(gòu)造多顆“決策樹(shù)”的方式進(jìn)行分類(lèi)[16],圖4(a)—(c)分別為使用k-NN,SVM和RF得到的血跡估計(jì)年齡。
由于血液年齡估計(jì)的準(zhǔn)確性在0~2和2~20 d兩個(gè)時(shí)間段之間存在明顯的差異,因此將數(shù)據(jù)集的評(píng)價(jià)分成兩個(gè)時(shí)間段。表2為各模型的預(yù)測(cè)結(jié)果,三種模型的預(yù)測(cè)誤差都較小,有較準(zhǔn)確的預(yù)測(cè)能力。但三種模型對(duì)短時(shí)間與長(zhǎng)時(shí)間有著不同的表現(xiàn),SVM在短時(shí)間內(nèi)有著更好的預(yù)測(cè)能力,而RF則對(duì)長(zhǎng)時(shí)間有更為出色的預(yù)測(cè)能力。
為了找出一種兼具SVM的短期預(yù)測(cè)優(yōu)勢(shì)和RF長(zhǎng)期預(yù)測(cè)優(yōu)勢(shì)的模型,采用模型融合方法; 模型融合是一種對(duì)模型的集成策略。不同的模型,從不同的角度觀(guān)測(cè)數(shù)據(jù)集,k-NN更加關(guān)注樣本點(diǎn)之間的距離關(guān)系; RF更加關(guān)注分裂節(jié)點(diǎn)時(shí)候的不純度變化; SVM則注重于尋找不同類(lèi)別之間的分界面。模型融合結(jié)合了不同模型的觀(guān)測(cè)角度,得到一個(gè)更加全面的結(jié)果。
模型融合步驟如下: 把訓(xùn)練集分為不交叉的三份train1, train2, train3。分別以train1, train2, train3作為測(cè)試集,剩下的兩份作為訓(xùn)練集建模,將預(yù)測(cè)結(jié)果作為新模型的訓(xùn)練集。將多模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果取平均,作為測(cè)試集的新表達(dá)。分別使用k-NN,SVM,RF作為模型融合的基模型,將RF作為模型融合的第二層模型進(jìn)行建模預(yù)測(cè)。圖4(d)為融合模型得到的血跡估計(jì)年齡。在0~2 d內(nèi)的平均誤差為0.053 d,CCR達(dá)到80%,在2~20 d的平均誤差為0.442 d,CCR達(dá)到69%。在0~2 d內(nèi)若容許誤差為2 h時(shí),CCR可達(dá)到88%,在2~20 d內(nèi)若容許誤差為1 d時(shí),CCR可達(dá)到92%。同時(shí)擁有短時(shí)間與長(zhǎng)時(shí)間的較好的預(yù)測(cè)能力。根據(jù)Li等[12, 13]論文中的血跡預(yù)測(cè)結(jié)果,在1~20 d內(nèi),CCR為65%,平均誤差0.85 d,相比之下,本模型具有更好的預(yù)測(cè)能力和穩(wěn)健性。
表2列出了部分不同文獻(xiàn)研究采用高光譜相機(jī)和建模方法得到的預(yù)測(cè)結(jié)果與本工作的結(jié)果對(duì)比表明,采用多光譜系統(tǒng)結(jié)合模型融合方法,得到了較滿(mǎn)意的血跡年齡預(yù)測(cè)結(jié)果。
圖4 采用不同模型預(yù)測(cè)白布上血跡年齡的結(jié)果
表2 本模型與其他模型血跡年齡預(yù)測(cè)結(jié)果對(duì)照
2.2.3 血液特異性對(duì)模型影響
為檢驗(yàn)血液特異性對(duì)模型影響,采集了來(lái)自8名不同志愿捐獻(xiàn)者的20個(gè)血跡樣本。將其中10個(gè)來(lái)自4名捐獻(xiàn)者的血跡樣本加入原模型增強(qiáng)對(duì)不同來(lái)源血液的穩(wěn)定性,剩下10個(gè)來(lái)自其余4名捐獻(xiàn)者的測(cè)試集樣本,對(duì)短期血跡估計(jì)模型進(jìn)行驗(yàn)證。驗(yàn)證結(jié)果為0~2 d內(nèi),k-NN的CCR為70.2%,平均誤差為0.069 4 d,SVM的CCR為72.8%, 平均誤差為0.063 9 d,RF的CCR為67.9%, 平均誤差為0.069 8 d, 使用模型融合方法,得到的CCR為75.6%,平均誤差為0.063 1 d; 2~20 d之間預(yù)測(cè)樣本的CCR為65.6%,平均誤差為0.467 d。對(duì)比表2中的結(jié)果,模型應(yīng)對(duì)血液特異性影響的能力較強(qiáng)。董永芳等[9]建立的基于遺傳區(qū)間和最小二乘模型應(yīng)對(duì)血液特異性有較好的表現(xiàn),在0~2 d內(nèi)的平均誤差為0.062 5 d,2~20 d內(nèi)的平均誤差為0.467 d。相比前人建立的血跡年齡估計(jì)模型,使用基模型為k-NN,SVM和RF的融合模型有著更好的表現(xiàn)。
相比于昂貴的高光譜系統(tǒng),本工作建立的LED光源和單色CCD相機(jī)組成的多光譜系統(tǒng)價(jià)格低廉,結(jié)構(gòu)簡(jiǎn)單,同樣可以達(dá)到快速無(wú)損估計(jì)血跡年齡的目的。原始光譜圖像經(jīng)過(guò)SNV預(yù)處理,使用了將k-NN, SVM和RF作為基模型的模型融合方法,得到了更加準(zhǔn)確的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)中將11個(gè)人體血液樣本中的7個(gè)樣本作為訓(xùn)練集建立模型,對(duì)其余4個(gè)血跡樣本進(jìn)行預(yù)測(cè),在0~2 d內(nèi)的平均誤差為0.053 d,CCR達(dá)到80%,在2~20 d的平均誤差為0.442 d,CCR達(dá)到65%。還驗(yàn)證了血液特異性對(duì)本模型的影響,在加入來(lái)自不同捐獻(xiàn)者的血跡樣本時(shí),CCR無(wú)顯著降低,表明使用的多種算法融合模型對(duì)血液特異性有著較好的抗干擾能力。與參考文獻(xiàn)的研究結(jié)果相比,所建預(yù)測(cè)模型的平均誤差顯著減小,預(yù)測(cè)能力顯著提升。因此,可見(jiàn)-近紅外多光譜和多種算法融合的模型可以成為一種快速無(wú)損且高精度的血跡年齡預(yù)測(cè)手段,將會(huì)在法醫(yī)學(xué)領(lǐng)域中有重要應(yīng)用價(jià)值。