楊 敏, 牟 麗, 付一鳴
(1.中南財(cái)經(jīng)政法大學(xué)刑事司法學(xué)院, 湖北武漢 430073; 2.司法鑒定技術(shù)應(yīng)用與社會(huì)治理學(xué)科創(chuàng)新基地, 湖北武漢 430073)
工具痕跡常出現(xiàn)在不同類型的犯罪現(xiàn)場(chǎng)上,具有明顯穩(wěn)定、不容易被破壞和容易提取等特點(diǎn),在提供偵查方向和線索以及法庭科學(xué)證據(jù)方面有著不可忽視的作用。一直以來(lái),工具痕跡的檢驗(yàn)鑒定主要依賴于檢驗(yàn)人員的經(jīng)驗(yàn),無(wú)法對(duì)痕跡檢驗(yàn)鑒定過(guò)程作定量描述,檢驗(yàn)過(guò)程和結(jié)果缺乏穩(wěn)定性和可靠性[1]。工具痕跡定量化檢驗(yàn)是一個(gè)國(guó)際化問(wèn)題,其檢驗(yàn)結(jié)果的可靠性和穩(wěn)定性是相關(guān)從業(yè)人員追求的目標(biāo)[2]。國(guó)內(nèi)外一些學(xué)者針對(duì)工具痕跡定量化、自動(dòng)化檢驗(yàn)技術(shù)做了較多有益研究。在這些研究中,其核心任務(wù)是痕跡特征的定量化表示[3],然后使用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)對(duì)定量化的痕跡特征進(jìn)行學(xué)習(xí)和識(shí)別[4]。
近年來(lái),基于深度卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在大規(guī)模圖像分類、自然語(yǔ)言處理等領(lǐng)域的應(yīng)用獲得顯著成果,引發(fā)了全球?qū)谏疃葘W(xué)習(xí)的人工智能技術(shù)的研究熱潮。深度卷積神經(jīng)網(wǎng)絡(luò)是從神經(jīng)網(wǎng)絡(luò)技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的,它具有比神經(jīng)網(wǎng)絡(luò)更多數(shù)量和更深程度的層,能夠直接從數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù),不需要預(yù)先對(duì)數(shù)據(jù)進(jìn)行特征規(guī)劃。深度學(xué)習(xí)已超出神經(jīng)網(wǎng)絡(luò)的大腦的學(xué)習(xí)機(jī)制,而更多的是從信息論、概率論、線性代數(shù)和數(shù)值優(yōu)化等領(lǐng)域獲得靈感。
深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)進(jìn)行學(xué)習(xí)識(shí)別時(shí),不必要做圖像特征工程,直接把圖像輸入到網(wǎng)絡(luò),由網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)進(jìn)行學(xué)習(xí)并提取圖像特征,可以達(dá)到優(yōu)秀的學(xué)習(xí)效果。從工具痕跡圖像提取有效的特征表示是一件比較困難的工作,然而使用深度學(xué)習(xí)技術(shù)處理工具痕跡圖像,可讓深度學(xué)習(xí)的網(wǎng)絡(luò)模型自動(dòng)提取痕跡圖像的特征并進(jìn)行學(xué)習(xí),不需要在學(xué)習(xí)之前預(yù)先設(shè)計(jì)特征提取算法提取痕跡圖像特征,從而能夠提升工作效率和降低工作難度。
本文利用遷移學(xué)習(xí)的思想,對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型進(jìn)行微調(diào)后對(duì)斷線鉗、鋼絲鉗和螺絲刀三類工具制作的2 800個(gè)樣本進(jìn)行學(xué)習(xí)和識(shí)別,獲得較好的實(shí)驗(yàn)效果。
一般來(lái)講,深度學(xué)習(xí)的網(wǎng)絡(luò)模型的層越“深”,即網(wǎng)絡(luò)的層數(shù)越多,所需要的訓(xùn)練數(shù)據(jù)量就越大。小數(shù)據(jù)訓(xùn)練集不足以把深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練得完全收斂,只有大數(shù)據(jù)訓(xùn)練集才能夠訓(xùn)練好深度學(xué)習(xí)網(wǎng)絡(luò),使之具有較好的收斂性和泛化能力,如2012年獲得ILSVRC比賽冠軍的深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet使用了ImageNet項(xiàng)目提供的1 500萬(wàn)張共22 000類的標(biāo)注過(guò)的大圖像數(shù)據(jù)集進(jìn)行訓(xùn)練[5]。目前國(guó)內(nèi)外,在工具痕跡檢驗(yàn)鑒定研究和應(yīng)用中,無(wú)法收集到如此大量的痕跡圖像樣本,已經(jīng)標(biāo)注的工具痕跡樣本更是有限,即使通過(guò)數(shù)據(jù)增強(qiáng)方法如重復(fù)的K折驗(yàn)證也根本不足以驅(qū)動(dòng)深度卷積網(wǎng)絡(luò)的訓(xùn)練。一個(gè)經(jīng)典的深度卷積網(wǎng)絡(luò)被一個(gè)小數(shù)據(jù)訓(xùn)練集來(lái)訓(xùn)練,會(huì)產(chǎn)生嚴(yán)重的過(guò)擬合問(wèn)題,因此,直接使用一個(gè)較小的工具痕跡數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)是一件沒(méi)有實(shí)際意義的工作。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,對(duì)于不同的識(shí)別任務(wù),深度卷積神經(jīng)網(wǎng)絡(luò)模型的底層學(xué)習(xí)都是相同的,因?yàn)樵诘讓訉W(xué)習(xí)的都是泛化能力很強(qiáng)的低級(jí)語(yǔ)義特征如邊緣和顏色信息。深度卷積神經(jīng)網(wǎng)絡(luò)不管是學(xué)習(xí)動(dòng)物圖像還是醫(yī)療影像,底層處理的特征都是一樣的。也就是說(shuō),使用動(dòng)物圖像數(shù)據(jù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)可以用來(lái)處理醫(yī)療影像,這種能力稱為遷移學(xué)習(xí)[6]。因此,可以使用通過(guò)ImageNet數(shù)據(jù)集訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)工具痕跡圖像進(jìn)行分類。
本文選擇深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型,對(duì)該模型進(jìn)行微調(diào)后再對(duì)工具痕跡圖像數(shù)據(jù)集進(jìn)行識(shí)別分類實(shí)驗(yàn)。VGG16是在AlexNet模型的基礎(chǔ)上發(fā)展而來(lái),在2014年的ILSVRC比賽中其學(xué)習(xí)能力和識(shí)別分類成績(jī)表現(xiàn)優(yōu)異。該模型由5個(gè)卷積塊和3個(gè)全連接層構(gòu)成,其中每個(gè)卷積塊包含2~3個(gè)卷積層和一個(gè)最大池化層,而全連接層與AlexNet一致。VGG16模型所有的卷積核均為3×3的窗口尺寸,參數(shù)總量比AlexNet小很多,如此,通過(guò)減小卷積核尺寸大小和增加卷積層數(shù)量能夠提取圖像中更為抽象、精細(xì)的特征。
VGG16深度卷積網(wǎng)絡(luò)是由巨大的訓(xùn)練數(shù)據(jù)樣本訓(xùn)練完成,具有相當(dāng)高的泛化能力,可以識(shí)別1 000個(gè)動(dòng)物類別。為了能夠讓VGG16模型應(yīng)用到工具痕跡,需要對(duì)該模型進(jìn)行修改以適應(yīng)當(dāng)前的目標(biāo)任務(wù)。VGG16模型識(shí)別1 000個(gè)類別時(shí),其全連接層特別大,而使之應(yīng)用到工具痕跡識(shí)別中,如需要識(shí)別10類工具,則需要對(duì)VGG16模型中的全連接層進(jìn)行替換和修改,修改后的VGG16模型如圖1所示。
圖1 修改后的VGG16模型示意圖
把VGG16模型應(yīng)用到工具痕跡識(shí)別時(shí),需要使用工具痕跡圖像數(shù)據(jù)集訓(xùn)練修改后的VGG16模型。模型只修改了全連接層,因此訓(xùn)練修改后的模型只須訓(xùn)練全連接層,而卷積層不需要重新訓(xùn)練。因此,在訓(xùn)練修改后的模型時(shí),務(wù)必對(duì)預(yù)訓(xùn)練好的卷積層進(jìn)行凍結(jié),以防破壞了VGG16之前學(xué)到的全部參數(shù)。本文處理工具痕跡圖像的算法分兩步:第一步使用預(yù)訓(xùn)練的VGG16卷積層提取具有很強(qiáng)泛化能力的工具痕跡特征;第二步訓(xùn)練新的全連接層,然后對(duì)同一類別不同個(gè)體的工具痕跡進(jìn)行識(shí)別分類,以及對(duì)不同類別不同個(gè)體的工具痕跡進(jìn)行識(shí)別分類。
選擇10個(gè)沒(méi)使用過(guò)的刀口寬為6 mm的同型螺絲刀、刃口長(zhǎng)25 mm的同型鋼絲鉗和8個(gè)刃口長(zhǎng)30 mm的同型斷線鉗作為實(shí)驗(yàn)工具(如圖2)。鉛是一種延展性好、硬度低的金屬材料,對(duì)工具痕跡特征具有較好的反映性,在實(shí)驗(yàn)中常用來(lái)作為制作工具痕跡的承痕客體。本文選用鉛片和直徑為5 mm的鉛絲作為制作痕跡的實(shí)驗(yàn)客體材料。
圖2 3種實(shí)驗(yàn)工具
在自制的螺絲刀線條痕跡制作裝置(如圖3)上完成螺絲刀線條痕跡樣本制作。螺絲刀固定在裝置的夾具上,可以通過(guò)裝置調(diào)節(jié)螺絲刀口與鉛片之間的距離和接觸角度,所有螺絲刀制作痕跡樣本時(shí)的接觸前角設(shè)定為45度。每個(gè)螺絲刀制作100個(gè)痕跡樣本,10個(gè)螺絲刀共制作1 000個(gè)樣本。在自制的剪切痕跡制作定位裝置(如圖4)上完成鋼絲鉗剪切痕跡樣本制作,鋼絲鉗的剪切刃口位置由裝置進(jìn)行精確定位。每個(gè)鋼絲鉗制作100個(gè)痕跡樣本,十個(gè)鋼絲鉗共制作1 000個(gè)樣本。斷線鉗具有2級(jí)杠桿結(jié)構(gòu),在制作痕跡樣本時(shí),其刃口在2級(jí)杠桿帶動(dòng)下產(chǎn)生位移,會(huì)造成剪切刃定位誤差,實(shí)驗(yàn)中刃口剪切位置定位精度誤差在1.5 mm以內(nèi)。每個(gè)斷線鉗制作100個(gè)痕跡樣本,8個(gè)斷線鉗共制作800個(gè)樣本。所有制作的剪切痕跡樣本中,選擇同個(gè)刃側(cè)面對(duì)應(yīng)的剪切坡面作為實(shí)驗(yàn)痕跡樣本。
圖3 自制的痕跡制作裝置
圖4 自制的剪切痕跡制作定位裝置
所有實(shí)驗(yàn)痕跡樣本由一位經(jīng)驗(yàn)豐富的痕跡檢驗(yàn)人員使用視頻顯微鏡進(jìn)行2D圖像數(shù)據(jù)采集。圖像采集的放大倍率為15倍,分辨率為1 024×768像素,光源的強(qiáng)度和照射角度無(wú)特別要求,只需保證采集的圖像清晰即可。
使用 Photoshop CS5對(duì)采集的圖像進(jìn)行裁切。對(duì)于螺絲刀線條痕跡,靠近痕跡起始部位沿著痕跡整個(gè)寬度方向裁切圖像,把裁切的圖像保存大小為250×720(像素);對(duì)于剪切痕跡,只保留痕跡半圓形坡面區(qū)域,把裁切的圖像保存大小為250×720 (像素)。裁切的圖像均按照工具類型和類別進(jìn)行標(biāo)記,保存到實(shí)驗(yàn)數(shù)據(jù)集。
上文所述的螺絲刀、鋼絲鉗和斷線鉗制作的痕跡所構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)集大小的70%作為訓(xùn)練數(shù)據(jù)集,30%作為交叉驗(yàn)證數(shù)據(jù)集。使用微調(diào)后的VGG16模型在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí),再使用訓(xùn)練后的模型對(duì)交叉驗(yàn)證數(shù)據(jù)集進(jìn)行痕跡識(shí)別。在訓(xùn)練中,設(shè)置批量梯度下降參數(shù)batch_size=20,對(duì)于單個(gè)類別工具的數(shù)據(jù)集完整訓(xùn)練一個(gè)輪次(epoch)需要35次迭代,共完成50個(gè)輪次的計(jì)算。螺絲刀線條痕跡、鋼絲鉗剪切痕跡和斷線鉗剪切痕跡數(shù)據(jù)集的訓(xùn)練和驗(yàn)證測(cè)試的準(zhǔn)確率曲線分別如圖5~圖7所示,三類工具痕跡綜合數(shù)據(jù)集的訓(xùn)練和驗(yàn)證測(cè)試準(zhǔn)確率曲線如圖8所示。4個(gè)實(shí)驗(yàn)(4個(gè)數(shù)據(jù)集)的驗(yàn)證測(cè)試最大識(shí)別準(zhǔn)確率如表1所示。
圖5 螺絲刀線條痕跡數(shù)據(jù)集的識(shí)別率
圖6 鋼絲鉗剪切痕跡數(shù)據(jù)集的識(shí)別率
圖7 斷線鉗剪切痕跡數(shù)據(jù)集的識(shí)別率
圖8 3種工具痕跡綜合數(shù)據(jù)集的識(shí)別率
表1 4個(gè)數(shù)據(jù)集上的最大識(shí)別率
從圖5~圖8的訓(xùn)練和測(cè)試曲線可看出,訓(xùn)練集的曲線在收斂域中的識(shí)別準(zhǔn)確率比較高,說(shuō)明微調(diào)后的VGG16模型在數(shù)據(jù)集上欠擬合風(fēng)險(xiǎn)小,驗(yàn)證集的曲線整體處于訓(xùn)練曲線之上,驗(yàn)證集的識(shí)別準(zhǔn)確率高于訓(xùn)練集,說(shuō)明模型的泛化性好,過(guò)擬合風(fēng)險(xiǎn)小。
從實(shí)驗(yàn)結(jié)果可知,本文方法對(duì)螺絲刀線條痕跡的最大識(shí)別準(zhǔn)確率為98.6%,對(duì)鋼絲鉗剪切痕跡的最大識(shí)別準(zhǔn)確率為99.6%,對(duì)斷線鉗剪切痕跡的最大識(shí)別準(zhǔn)確率為88.3%。螺絲刀線條痕跡和鋼絲鉗剪切痕跡的識(shí)別準(zhǔn)確率均達(dá)到98%以上,而斷線鉗剪切痕跡的識(shí)別準(zhǔn)確率不足90%,說(shuō)明工具痕跡制作時(shí)的定位誤差對(duì)痕跡特征變化有一定影響。螺絲刀和鋼絲鉗在制作痕跡樣本時(shí)都由裝置固定和精確定位,所有制作的樣本均由工具的同一部位制作形成,制作的樣本痕跡具有較高的一致性。斷線鉗制作痕跡時(shí)沒(méi)有使用定位裝置,其二級(jí)杠桿結(jié)構(gòu)在痕跡制作時(shí)給工具定位帶來(lái)一定誤差,制作的樣本痕跡具有較差的一致性。本方法對(duì)螺絲刀線條痕跡、鋼絲鉗剪切痕跡和斷線鉗剪切痕跡綜合數(shù)據(jù)集的最大識(shí)別準(zhǔn)確率為95.5%,該實(shí)驗(yàn)效果相比較單獨(dú)的螺絲刀痕跡和鋼絲鉗痕跡分類實(shí)驗(yàn)的效果略差,但遠(yuǎn)遠(yuǎn)好于斷線鉗痕跡的實(shí)驗(yàn)效果,這說(shuō)明3種痕跡的類間差別較大具有可分性。
本文使用了與文獻(xiàn)[4]相同的實(shí)驗(yàn)數(shù)據(jù)集,但本文方法的實(shí)驗(yàn)結(jié)果總體好于文獻(xiàn)[4]的實(shí)驗(yàn)結(jié)果,可見(jiàn)深度卷積神經(jīng)網(wǎng)絡(luò)模型的識(shí)別能力更強(qiáng)且不需要做特征工程。
本文運(yùn)用了遷移學(xué)習(xí)的思想,對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型進(jìn)行微調(diào)后,用于工具痕跡的比對(duì)檢驗(yàn)。完成了2 000個(gè)精確定位條件下制作的螺絲刀線條痕跡和鋼絲鉗剪切痕跡以及800個(gè)非精確定位條件下制作的斷線鉗剪切痕跡數(shù)據(jù)集的4組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本方法對(duì)工具精確定位條件下形成的線條痕跡(螺絲刀線條痕跡)和類線條痕跡(鋼絲鉗剪切痕跡),均有較好的識(shí)別能力,對(duì)具有一定定位誤差的痕跡(斷線鉗剪切痕跡)也有不錯(cuò)的識(shí)別效果。使用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行識(shí)別分類的最顯著的優(yōu)點(diǎn)即不必對(duì)痕跡數(shù)據(jù)做特征工程,對(duì)痕跡圖像數(shù)據(jù)采集時(shí)的光照條件要求也不高。本方法對(duì)工具痕跡定量化檢驗(yàn)鑒定具有一定借鑒意義,要想將其應(yīng)用到實(shí)際工作中,還需要使用更大的工具痕跡數(shù)據(jù)集對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,降低模型的過(guò)擬合風(fēng)險(xiǎn)和增強(qiáng)其泛化能力。