李福坤,周治道,魏源松,孫彤,尹偉石
(長春理工大學(xué) 理學(xué)院,長春 130022)
目前在我國只有加蓋了印章的正式文書才具有法律效應(yīng),依據(jù)正常的順序,應(yīng)該在寫好了相關(guān)的文字后進(jìn)行審核,經(jīng)過審核的合格的文件就可以用印章,也就是應(yīng)該先墨后朱。但是在一些造假的文件里面都是事先蓋好章,等需要時(shí)候再簽上字。這就帶來了在進(jìn)行案件處理時(shí)文件真?zhèn)涡缘膯栴}。在近幾年中,由于經(jīng)濟(jì)的飛速發(fā)展,人們法律意識(shí)的增強(qiáng),以及對知識(shí)產(chǎn)權(quán)重視程度的加深,各種刑事、民事及知識(shí)產(chǎn)權(quán)糾紛案等案件的出現(xiàn)和增加,使得在進(jìn)行法律訴訟的過程中,會(huì)出現(xiàn)很多紙質(zhì)等證明材料,對于這些紙質(zhì)的證明材料,對其真?zhèn)尉鸵M(jìn)行科學(xué)準(zhǔn)確的判斷,以保障最終評判的正確公正性。
通過查找文獻(xiàn)和調(diào)研可知,目前在我國朱墨時(shí)序的檢測方法主要有顯微鏡檢測、熒光檢測和光譜檢測;顯微鏡檢測是將朱墨樣本放在顯微鏡下放大觀察,依據(jù)朱墨重疊出的字跡脈絡(luò)和印文的脈絡(luò)變化,加之一些印文和字跡融合現(xiàn)象判斷朱墨的時(shí)序[1]。熒光檢測是借助熒光的方法,先將樣本做熒光處理,然后得到熒光圖像,再利用朱墨重疊處的熒光特征進(jìn)行分析,如果朱紅的熒光在上,則為先墨,如果墨的熒光特征在上,則為先朱[2]。2017 年,陶玉等人[3]用熒光法判斷激光打印文件朱墨時(shí)序;柳彬[4]利用激光共聚焦掃描顯微鏡對朱墨時(shí)序進(jìn)行了實(shí)驗(yàn)研究。但這兩種方都有很大的局限性,顯微檢測對人的經(jīng)驗(yàn)依賴度高,而且現(xiàn)在主要使用光敏印油和原子印油,使得朱墨重疊處的印文和墨跡的物理特征在大多數(shù)情況下并不明顯,這種檢測方法基本失效[5];對于熒光檢測而言,并不是每種色料都具有明顯的熒光特征,所以,這種檢測的局限性很大[6]。而光譜法的監(jiān)測過程較為繁瑣,對于印油的濃淡程度,則是影響檢測結(jié)果準(zhǔn)確性的重要因素,印油印文越淡,結(jié)果越容易出現(xiàn)誤差,準(zhǔn)確率也越低,因此這種方法也同樣有很大的局限性。
在國外的相關(guān)研究中,對于朱墨時(shí)序檢測也有著顯微檢測、光化學(xué)顯微檢測和光譜法檢測等方法。印度德里大學(xué)化學(xué)系的Ali Raza,Basudeb Saha[7]采用了拉曼光譜法,以研究拉曼散射作為法醫(yī)分析及印版油墨的可疑文件的工具的可行性。Lombardi Jr,Leona M,Vo Dinh T,Antoci P 等人[8]開發(fā)拉曼光譜法和數(shù)據(jù)庫評價(jià)微量證據(jù)和對質(zhì)疑文件的審理。Joong Lee等人[9]使用原子力顯微鏡法來調(diào)查墨粉和沖壓墨水的時(shí)間順序。Kim,J等人[10]聚焦離子束(FIB)和掃描電子顯微鏡/能量分散X射(SEM/EDX)的組合可用于確定線交叉的順序。這些方法同樣都有著各自的局限性。
本文通過運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對朱墨時(shí)序進(jìn)行快速準(zhǔn)確的識(shí)別,解決了時(shí)序檢測難、效率低、檢測結(jié)果不準(zhǔn)確的問題??梢詫Σ煌瑫r(shí)序的簽字蓋章圖像進(jìn)行快速實(shí)時(shí)處理,提高了朱墨時(shí)序圖像識(shí)別的準(zhǔn)確性和穩(wěn)定性。
基于不同時(shí)序的朱墨樣本在朱墨重疊處圖像色素點(diǎn)的區(qū)別,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)做有監(jiān)督訓(xùn)練,再運(yùn)用訓(xùn)練好的模型對朱墨時(shí)序快速鑒定,達(dá)到提高鑒定效率、準(zhǔn)確率和減輕人勞動(dòng)強(qiáng)度的目的,從而保證了文件檢測和司法公正時(shí)鑒定的正確公正性。
該方法可以在拍照取得待測樣本照片后輸入到測試系統(tǒng)中,經(jīng)過所編寫的截圖軟件截出有效區(qū)域后,即可以自動(dòng)識(shí)別出待測樣本的朱墨時(shí)序,方便快捷,準(zhǔn)確度高。
根據(jù)朱墨時(shí)序檢測,分為先簽字后蓋章和先蓋章后簽字,分別制作樣本圖樣。然后將制作好的樣本進(jìn)行拍照取樣,獲得不同時(shí)序的朱墨圖像并將其分開存放,并對圖樣進(jìn)行裁剪壓縮。對不同時(shí)序的圖片命名,貼上對應(yīng)的標(biāo)簽值。接著對CNN進(jìn)行訓(xùn)練,達(dá)到規(guī)定的閾值即停止訓(xùn)練。檢測時(shí)的待檢測樣本處理方法和樣本相同,將其放入訓(xùn)練完成后的CNN系統(tǒng)中檢測得到對應(yīng)的標(biāo)簽值。具體流程如圖1所示。
圖1 方案流程圖
該方案的主要部分是算法及代碼程序,即圖像處理,再者就是獲取樣本圖樣的裝置以及在圖像采集時(shí)各種因素對圖片RGB值的影響。同時(shí)對于深度學(xué)習(xí)來說,樣本的數(shù)量需求較高,需要制作一個(gè)較為大型的樣本集。
通過建立CNN模型并對算法模型進(jìn)行設(shè)計(jì)和修正,最后調(diào)用訓(xùn)練好的模型運(yùn)行和預(yù)測。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種包含了卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),能夠?qū)斎氲男畔⑦M(jìn)行平移不變分類,被廣泛應(yīng)用于圖片,語音的識(shí)別分類模型。一般的CNN模型主要包含五個(gè)部分:輸入層、卷積層、池化層、全連接層、輸出層。
(1)輸出層:輸入的二維信息,輸入的信息必須先進(jìn)過預(yù)處理,達(dá)到統(tǒng)一標(biāo)準(zhǔn)。
(2)卷積層:卷積層是卷積神經(jīng)網(wǎng)絡(luò)模型中最重要的部分,對二維信息做卷積運(yùn)算,可以提取二維的特征,隨著卷積層的增加,特征將越來越接近真實(shí)語義。
(3)池化層:池化層是卷積層之間的一種下采樣層,目的是為了減小模型的參數(shù),從而減少需要的內(nèi)存和算力。一般使用平均池化和最大池化兩種池化方式。
(4)全連接層:主要連接分類器和特征圖,通過將二維特征圖映射成一維的特征向量來向分類器輸送數(shù)據(jù)。
(5)輸出層:一般使用softmax分類器,輸出最后的分類結(jié)果。
在CNN的算法模型設(shè)計(jì)過程中,首先需要對數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)實(shí)際算力和模型精度進(jìn)行模型設(shè)計(jì)。
2.2.1 數(shù)據(jù)預(yù)處理
由于輸入層要求輸入的數(shù)據(jù)的大小,通道數(shù)統(tǒng)一,并且為了提高模型的魯棒性,需要加入數(shù)據(jù)預(yù)處理。將輸入圖像一致縮放到[800,800,3],并對輸入數(shù)據(jù)進(jìn)行歸一化處理,將RGB數(shù)據(jù)縮放到[0,1]范圍內(nèi)。再進(jìn)行標(biāo)準(zhǔn)化處理,輸入的數(shù)據(jù)除以自身的標(biāo)準(zhǔn)差。
處理后的圖片如圖2所示。將帶有誤差擾動(dòng)的圖像轉(zhuǎn)換成矩陣后加高斯噪聲,處理后的圖片如圖3所示。
圖2 規(guī)范化處理后圖片
圖3 高斯噪聲效果加入對比
2.2.2 模型設(shè)計(jì)
綜合考慮實(shí)際運(yùn)算速度、內(nèi)存限制與模型精度,模型如下:輸入層[800,800,3],傳入第一個(gè)卷積層,卷積幅步為1,16個(gè)大小為[3,3]的卷積核,輸出為[798,798,16]的特征圖,第三層為池化層,使用max-pooling降采樣,輸出為[266,266,16]的特征圖,上一層的輸出經(jīng)過參數(shù)為0.25的dropout層傳入第二個(gè)卷積層,卷積幅步為1,16個(gè)大小為[3,3]的卷積核,輸出為[264,264,3]的特征圖,第五層為第二個(gè)池化層,使用maxpooling降采樣,輸出為[88,88,16]的特征圖,上一層經(jīng)過參數(shù)為0.25的dropout層再壓縮為123 904維的向量,傳入第一個(gè)全連接層,輸出256維的向量,最后經(jīng)過輸出層,使用softmax分類器,最終輸出為2維的向量。過程如圖4所示。
圖4 算法處理模型
數(shù)據(jù)集總共分為先蓋章藍(lán)色筆,先蓋章黑色筆,后蓋章藍(lán)色筆,后蓋章黑色筆,共四類,每類215張圖片。以下給出算法具體流程:
(1)將數(shù)據(jù)集分成兩部分,80%為訓(xùn)練集,20%為測試集。
(2)對輸入圖像進(jìn)行隨機(jī)上下翻轉(zhuǎn),左右翻轉(zhuǎn),特征圖標(biāo)準(zhǔn)化處理,增強(qiáng)圖像。
(3)使用增強(qiáng)圖像訓(xùn)練CNN。
(4)使用交叉熵?fù)p失函數(shù),并且使用隨機(jī)梯度下降(sgd)優(yōu)化。
(5)使用反向傳播算法更新模型權(quán)重。
(6)使用測試集進(jìn)行模型的測試,如果性能達(dá)標(biāo),保存模型,如果性能不達(dá)標(biāo),進(jìn)行下一代訓(xùn)練。
(7)使用保存的模型對輸入圖像進(jìn)行識(shí)別,得到識(shí)別結(jié)果。
由圖5可知,模型的訓(xùn)練步驟如下:
圖5 算法具體步驟流程圖
訓(xùn)練代數(shù)過低模型欠擬合,訓(xùn)練代數(shù)過高模型過擬合,選擇適中的訓(xùn)練代數(shù)非常重要,發(fā)現(xiàn)以下設(shè)置為最佳:優(yōu)化器使用隨機(jī)梯度下降(sgd)學(xué)習(xí)率(lr)為 0.01,動(dòng)量項(xiàng)(momentum)為0,損失函數(shù)為交叉熵?fù)p(categorical_crossentropy)batch_size為16,訓(xùn)練20代(epoch)。
對樣本圖片分別進(jìn)行了以下訓(xùn)練方式:
(1)使用藍(lán)色筆訓(xùn)練集訓(xùn)練,測試藍(lán)色筆。
(2)使用黑色筆訓(xùn)練集訓(xùn)練,測試黑色筆。
(3)使用藍(lán)色筆訓(xùn)練集訓(xùn)練的模型測試黑色筆。
(4)使用黑色筆訓(xùn)練集訓(xùn)練的模型測試藍(lán)色筆。
在樣本圖樣的獲取過程中分析出多重因素的影響,并分析出RGB值的影響因素,確定了樣本圖樣的獲取方法。
CNN是基于不同時(shí)序的朱墨樣本在朱墨重疊處圖像色素點(diǎn)的區(qū)別,做有監(jiān)督訓(xùn)練,最終達(dá)到識(shí)別圖像朱墨順序的目的。但在最初的實(shí)驗(yàn)中,發(fā)現(xiàn)光源和拍照角度的不統(tǒng)一對實(shí)驗(yàn)結(jié)果影響較大。其次是樣本制作完成后靜置與烘干的區(qū)別,經(jīng)過烘干后的數(shù)據(jù)樣本的效果最好。烘干和靜置主要是為了模仿文件簽署時(shí)間久的特點(diǎn)。
3.2.1 樣本制作
在考慮到RGB值的影響因素的情況下,找到解決影響因素的方法,減少各類因素對RGB值的影響。對于樣本的制作,采用同一紙張和不同顏色不同材料的藍(lán)黑色筆,制作先蓋章和先簽字的兩種樣本。因?yàn)榭紤]到目前的文件簽字用的是藍(lán)黑色兩種筆,實(shí)驗(yàn)所用的筆只用了藍(lán)色與黑色兩種,分別使用了不同的材料。制作后對其進(jìn)行烘干。
3.2.2 暗箱制作
(1)暗箱箱體為正方形結(jié)構(gòu),其材料為木制,密閉遮光。
(2)在木箱的頂部即樣品放置區(qū)的正上方有一攝像頭,保證其對文件進(jìn)行垂直俯拍,通過USB與電腦相連后,使用S-EYE控制相機(jī)進(jìn)行拍照。
(3)攝像頭前加一550 nm濾光片,降低亮度,防止由于光源離攝像頭距離太近而造成的過曝。
(4)在箱體兩側(cè)加兩個(gè)12 W LED光源,目的是保證在拍照的過程中光源統(tǒng)一,同樣是為了減少對RGB值的影響。
(5)箱體前開一小門,在拍照時(shí)把小門關(guān)上,以防止外界光源和其他因素的干擾,再通過S-EYE軟件即可拍照獲得照片。其結(jié)構(gòu)如圖6所示。
3.2.3 樣本圖樣獲取
將制作好的樣本烘干后放入暗箱中,通過照相機(jī)連接電腦,用S-EYE軟件對所放入的樣本進(jìn)行拍照。這樣所獲得的照片都是在同一光源下的樣本,最大程度上減少光源對RGB值的影響??紤]到目前簽字采用的是藍(lán)色和黑色筆,需要制作不同時(shí)序,藍(lán)色和黑色筆的樣本。還需要制作同一顏色不同材料的筆的樣本。因?yàn)楣P的材料,中性、碳素等對RGB值的影響也是不同的。再利用編寫的截圖軟件對樣本圖片進(jìn)行精準(zhǔn)截圖。并對圖片進(jìn)行壓縮處理,每張圖片壓縮至800×800大小,成品如圖7所示。截圖軟件的主界面如圖8所示。
圖8 軟件界面展示
為了驗(yàn)證模型的魯棒性和泛化能力,使用加高斯噪聲的方式模擬實(shí)際應(yīng)用場景,分別對未加入高斯噪聲和加入高斯噪聲的實(shí)驗(yàn)結(jié)果進(jìn)行了處理分析。
對比表2和表4,使用黑色筆制作的數(shù)據(jù)表現(xiàn)明顯優(yōu)于藍(lán)色筆,觀察制作的數(shù)據(jù)集后發(fā)現(xiàn)在使用藍(lán)色筆制作的數(shù)據(jù)中存在部分圖像亮度與其它不同的情況,在制作藍(lán)色筆的數(shù)據(jù)時(shí)可能由于人為因素出現(xiàn)了暗箱未完全封閉的情況,導(dǎo)致環(huán)境光影響了數(shù)據(jù)集的制作。這同時(shí)導(dǎo)致了表2的損失明顯低于其它其余表。表2出現(xiàn)了預(yù)測結(jié)果100%的情況,是驗(yàn)證集樣本數(shù)量不夠大造成的,未測試模型精度,還需進(jìn)一步提升驗(yàn)證集容量。
通過表2及表4可以看出,使用對某一支筆制作的數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型預(yù)測此支筆制作的其他數(shù)據(jù)時(shí),準(zhǔn)確率可以達(dá)到93%以上,在可以控制筆的型號(hào)的情況下,本方案可以為朱墨先后順序的判斷提供可靠的結(jié)果。針對表1及表3,當(dāng)使用某一只筆制作的數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型預(yù)測其它筆制作的數(shù)據(jù)時(shí),準(zhǔn)確率在86%以上,且針對圖像隨機(jī)反轉(zhuǎn)的數(shù)據(jù)集,模型的預(yù)測結(jié)果會(huì)出現(xiàn)較大不同,說明當(dāng)筆的型號(hào)足夠多,且樣本量足夠大時(shí),此方案可以得到一個(gè)針對不同筆種的高泛用性、高準(zhǔn)確率朱墨時(shí)序分類模型。
表1 黑色筆跡預(yù)測藍(lán)色筆跡
表2 黑色筆跡預(yù)測黑色筆跡
表3 藍(lán)色筆跡預(yù)測黑色筆跡
表4 藍(lán)色筆跡預(yù)測藍(lán)色筆跡
在對圖片加入高斯噪聲處理后,用原來的模型對加高斯噪聲的圖片進(jìn)行測試,從而得到新的實(shí)驗(yàn)數(shù)據(jù)。
對比表5和表7,同樣可以發(fā)現(xiàn)黑色筆的數(shù)據(jù)表現(xiàn)也明顯優(yōu)于藍(lán)色筆。在加入高斯噪聲后,兩組實(shí)驗(yàn)的準(zhǔn)確率都相對于未加高斯噪聲的準(zhǔn)確率下降了百分之十幾左右,但準(zhǔn)確率仍有82%以上。這說明即使在有外界環(huán)境干擾的情況下,預(yù)測的結(jié)果依舊有很高的準(zhǔn)確性。對于表5和表8,當(dāng)使用某一只筆制作的數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型預(yù)測其它筆制作的數(shù)據(jù)時(shí),準(zhǔn)確率在80%以上,可以發(fā)現(xiàn)即便是污染過的樣本,模型也具有較準(zhǔn)確的識(shí)別能力,通過上述實(shí)驗(yàn),不難看出神經(jīng)網(wǎng)絡(luò)模型在識(shí)別朱墨時(shí)序上擁有較好的應(yīng)用前景。
表5 黑色筆跡預(yù)測黑色筆跡
表6 黑色筆跡預(yù)測藍(lán)色筆跡
表7 藍(lán)色筆跡預(yù)測藍(lán)色筆跡
表8 藍(lán)色筆跡預(yù)測黑色筆跡
提出了一種全新的基于卷積神經(jīng)網(wǎng)絡(luò)的朱墨時(shí)序檢測的方法,為朱墨時(shí)序檢驗(yàn)提供一種新思路、新方法。解決了現(xiàn)有的朱墨時(shí)序檢驗(yàn)的準(zhǔn)確性低、人工經(jīng)驗(yàn)依賴性高、操作過程繁瑣等問題。實(shí)驗(yàn)和結(jié)果分析表明本方法具有很強(qiáng)的可行性,因此在司法公正文件檢驗(yàn)等領(lǐng)域有很大的發(fā)揮空間,從而保障在法律訴訟案件或司法公證最終評判的正確公正性。在應(yīng)用層面,可以在使用大數(shù)據(jù)集訓(xùn)練好的模型的基礎(chǔ)上,再制作新出現(xiàn)的目標(biāo)筆種的少量數(shù)據(jù)集進(jìn)行遷移訓(xùn)練,使此方案的準(zhǔn)確率在使用過程中保持穩(wěn)定。