紀(jì)舒懷
(中國(guó)刑事警察學(xué)院,遼寧 沈陽(yáng) 110035)
隨著時(shí)代發(fā)展、科技進(jìn)步,電子簽名廣泛應(yīng)用在各個(gè)行業(yè),由此衍生的電子簽名筆跡檢驗(yàn)案件也越來(lái)越多。目前國(guó)內(nèi)在電子簽名筆跡檢驗(yàn)方面,大多數(shù)鑒定專家是采用傳統(tǒng)簽名筆跡檢驗(yàn)方法進(jìn)行鑒定,對(duì)檢材與樣本筆跡特征比對(duì)進(jìn)而根據(jù)鑒定專家主觀經(jīng)驗(yàn)進(jìn)行同一認(rèn)定。但隨著法治的不斷完善,法庭審判對(duì)于各類證據(jù)的科學(xué)性要求不斷提高,近年來(lái),法庭科學(xué)鑒定專家開(kāi)始推動(dòng)基于專家經(jīng)驗(yàn)的檢驗(yàn)鑒定向更加客觀的量化檢驗(yàn)方式轉(zhuǎn)變。電子簽名筆跡相對(duì)于傳統(tǒng)簽名筆跡,除了具備傳統(tǒng)簽名的靜態(tài)特征,同時(shí)能夠準(zhǔn)確提取書寫壓力、書寫速度等動(dòng)態(tài)特征,且筆跡可以以數(shù)據(jù)的形式進(jìn)行儲(chǔ)存,這對(duì)于電子簽名筆跡量化檢驗(yàn)提供了更好的條件,也引發(fā)了廣大文檢工作者對(duì)電子簽名筆跡進(jìn)行計(jì)算機(jī)自動(dòng)比對(duì)的試探。
國(guó)外的學(xué)者對(duì)于電子簽名計(jì)算機(jī)自動(dòng)比對(duì)研究較多,在相關(guān)的研究中Chandra S[1]等學(xué)者在2020 年利用隨機(jī)森林、貝葉斯等計(jì)算機(jī)機(jī)器學(xué)習(xí)算法對(duì)電子簽名設(shè)備提取到的筆跡數(shù)據(jù)進(jìn)行運(yùn)算進(jìn)而對(duì)電子簽名筆跡進(jìn)行分類識(shí)別,正確率可達(dá)90%,對(duì)檢驗(yàn)電子簽名筆跡真實(shí)性起到輔助檢驗(yàn)作用。但國(guó)外的相關(guān)研究對(duì)象多以英文、德文為主,這些外文的結(jié)構(gòu)比中文要簡(jiǎn)單,更容易實(shí)現(xiàn)自動(dòng)比對(duì),且對(duì)中文電子簽名筆跡自動(dòng)比對(duì)的研究很少,目前也沒(méi)有成熟的方案。因此本實(shí)驗(yàn)將以中文簽名作為研究對(duì)象,針對(duì)本實(shí)驗(yàn)特點(diǎn),本文將采用利于處理小樣本且善于解決非線性二分類問(wèn)題的SVM 算法進(jìn)行機(jī)器學(xué)習(xí),為電子簽名筆跡自動(dòng)比對(duì)提供一種新方法。
電子簽名筆跡指的是書寫者使用手指或者電磁(容)筆在電磁(容)觸摸屏上書寫形成的運(yùn)動(dòng)軌跡。[2]當(dāng)筆尖或手指開(kāi)始移動(dòng)時(shí),輸入設(shè)備能獲取書寫過(guò)程中的書寫數(shù)據(jù)信息,電磁屏設(shè)備如數(shù)位板和數(shù)位屏能獲取書寫時(shí)長(zhǎng)、二維坐標(biāo)、書寫壓力、書寫速度和書寫加速度等矢量信息。電子簽名筆跡與傳統(tǒng)簽名筆跡在本質(zhì)上是相同的,都是通過(guò)筆跡反映書寫者的書寫習(xí)慣與書寫技能,只是兩者的書寫介質(zhì)不同,傳統(tǒng)簽名筆跡書寫介質(zhì)是紙張,而電子簽名筆跡書寫介質(zhì)是觸摸屏或數(shù)位板。由于電子簽名筆跡不僅可以通過(guò)坐標(biāo)記錄筆跡的外型概貌,還可以通過(guò)數(shù)位板記錄動(dòng)態(tài)特征數(shù)據(jù),如書寫速度、書寫壓力等特征,因此,電子簽名筆跡具有一定的檢驗(yàn)優(yōu)勢(shì)。我們?cè)谘芯侩娮雍灻P跡時(shí),應(yīng)從傳統(tǒng)筆跡特征出發(fā),結(jié)合電子簽名筆跡特有的特征優(yōu)勢(shì),重點(diǎn)對(duì)動(dòng)態(tài)特征進(jìn)行分析,從整體上把握電子簽名筆跡的特點(diǎn)與規(guī)律。
本文主要針對(duì)電子簽名筆跡動(dòng)態(tài)特征進(jìn)行分析研究,電子簽名筆跡動(dòng)態(tài)特征如書寫壓力、書寫速度等可以看作是隨時(shí)間變化的物理量,因此可以將其看作是一種信號(hào),進(jìn)而可以采用信號(hào)分析法對(duì)電子簽名筆跡動(dòng)態(tài)特征進(jìn)行分析,使電子簽名筆跡量化結(jié)果更加準(zhǔn)確與科學(xué)。
支持向量機(jī)(Support Vector Machine,SVM)最早在1964 年由Vapnik 和Cortes[3]提出,是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督學(xué)習(xí)與相關(guān)的學(xué)習(xí)算法。它是采用監(jiān)督學(xué)習(xí)的方式對(duì)數(shù)據(jù)進(jìn)行二分類的一種判別模型,即通過(guò)決策函數(shù)判別各個(gè)樣本之間的差別。SVM 一般作為線性分類器,但是在引入核函數(shù)之后,也可以進(jìn)行非線性分類。常見(jiàn)的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid 核函數(shù)以及RBF(徑向基函數(shù))核函數(shù)等[4]。其中RBF核函數(shù)不僅可以處理非線性問(wèn)題,而且無(wú)論小樣本還是大樣本,高維還是低維等情況,RBF 函數(shù)均適用,需要確定的參數(shù)也較少。因此,本文選擇RBF當(dāng)作SVM 的分類核函數(shù)。
SVM 數(shù)據(jù)處理原理如下:
式中?—決策面的權(quán)重系數(shù),g(x)—非線性映射函數(shù),b—閾值
為了最小化結(jié)構(gòu)風(fēng)險(xiǎn),最優(yōu)分類超平面應(yīng)滿足以下條件
引入非負(fù)松弛變量ξ_i,這樣分類誤差就在一個(gè)規(guī)定的范圍內(nèi)。因此,優(yōu)化問(wèn)題就被轉(zhuǎn)變?yōu)?/p>
式中c—懲罰因子,控制模型的復(fù)雜程度和泛化能力
引入拉格朗日算法,優(yōu)化問(wèn)題被轉(zhuǎn)換為對(duì)偶形式
本文,引入RBF 核函數(shù)
式中g(shù)—核函數(shù)參數(shù),控制輸入空間的范圍
上述優(yōu)化問(wèn)題轉(zhuǎn)變?yōu)?/p>
數(shù)據(jù)采集設(shè)備:和冠(Wacom)數(shù)位板;和冠(Wacom)感壓筆(型號(hào)pro pen2)。
數(shù)據(jù)分析軟件:Movalyzer 電子簽名筆跡動(dòng)態(tài)特征分析軟件,用于記錄在數(shù)位板書寫產(chǎn)生的數(shù)據(jù)信息;MATLAB(R2017b 64-bit win64),用于構(gòu)建SVM 模型,對(duì)特征進(jìn)行分類識(shí)別。
選取一名書寫者以坐姿正常速度在手寫數(shù)位板上書寫其姓名“李永”50 份,再選取5 名與“李永”書寫水平相近的書寫者,在熟練使用數(shù)位書寫板后大量練習(xí)臨摹檢材筆跡,每人以坐姿進(jìn)行臨摹書寫50 份樣本。將書寫的電子簽名筆跡樣本錄入Movalyzer 軟件中,導(dǎo)出每份筆跡的壓力與速度數(shù)據(jù),標(biāo)好序號(hào),以便后續(xù)分析。
對(duì)本人與他人書寫樣本的壓力數(shù)據(jù)和速度數(shù)據(jù)分別進(jìn)行特征提取,將每組數(shù)據(jù)看作待檢測(cè)信號(hào)進(jìn)行計(jì)算,壓力和速度分別被提取的特征包括5 個(gè):檢測(cè)信號(hào)小波包3 層分解系數(shù)的低頻能量值;檢測(cè)信號(hào)的最大值;檢測(cè)信號(hào)的平均值;檢測(cè)信號(hào)的峰值因子;檢測(cè)信號(hào)的標(biāo)準(zhǔn)差。共計(jì)10 個(gè)特征。
SVM 分類問(wèn)題取決于兩個(gè)重要參數(shù)c 和g,這將影響SVM 的分類性能。為了提高模型的預(yù)測(cè)性能,在模型建立過(guò)程中引入了網(wǎng)絡(luò)格式搜索法(GS)對(duì)兩個(gè)重要參數(shù)進(jìn)行優(yōu)化,[5]同時(shí)避免了模型的過(guò)度學(xué)習(xí)和欠學(xué)習(xí)的現(xiàn)象發(fā)生。[6]為進(jìn)行參數(shù)尋優(yōu),采用5 倍交叉驗(yàn)證法得到訓(xùn)練集最高驗(yàn)證準(zhǔn)確率為適應(yīng)度函數(shù)。當(dāng)達(dá)到最高驗(yàn)證準(zhǔn)確率時(shí),所得到的c 和g 為最佳參數(shù)。GS 中,以0.5 為間隔進(jìn)行全局搜索,c 和g 的范圍均是(2-10,210)。對(duì)本人與他人書寫樣本的壓力數(shù)據(jù)和速度數(shù)據(jù)分別進(jìn)行特征提取,壓力和速度分別被提取的特征包括5 個(gè):小波包變換3 層系數(shù)分解的低頻能量值;檢測(cè)信號(hào)的最大值;檢測(cè)信號(hào)的平均值;檢測(cè)信號(hào)的峰值因子;檢測(cè)信號(hào)的方差。因此,壓力數(shù)據(jù)和速度數(shù)據(jù)共提取10 個(gè)特征值。壓力與速度數(shù)據(jù)每類選取42 組數(shù)據(jù)進(jìn)行訓(xùn)練,8 組進(jìn)行測(cè)試,共84 個(gè)訓(xùn)練集,16 個(gè)測(cè)試集。本文分別建立兩個(gè)SVM 模型,一個(gè)為SVM 符合度的回歸預(yù)測(cè)模型,以訓(xùn)練集中本人書寫樣本數(shù)據(jù)為參考,將測(cè)試集中的樣本數(shù)據(jù)進(jìn)行符合度的回歸預(yù)測(cè);另一個(gè)為SVM 分類模型,用于區(qū)分測(cè)試集中本人書寫與他人摹仿書寫樣本數(shù)據(jù)。具體運(yùn)行過(guò)程如下:
1.SVM 符合度回歸預(yù)測(cè)模型運(yùn)行過(guò)程。(1)輸入樣本壓力與速度數(shù)據(jù),規(guī)定訓(xùn)練集輸入、訓(xùn)練集輸出、預(yù)測(cè)集輸入和預(yù)測(cè)集輸出。(2)進(jìn)行數(shù)據(jù)預(yù)處理,加快網(wǎng)絡(luò)收斂速度,使用MATLAB 中“mapminmax”函數(shù)進(jìn)行矢量歸一化、特征值歸一化處理以加快網(wǎng)絡(luò)收斂速度。(3)參數(shù)尋優(yōu),網(wǎng)格數(shù)搜索開(kāi)始。(4)選擇回歸預(yù)測(cè)分析最佳的SVM 參數(shù)c 和g,利用回歸預(yù)測(cè)分析最優(yōu)參數(shù)建立的回歸預(yù)測(cè)模型進(jìn)行SVM 網(wǎng)絡(luò)訓(xùn)練。(5)相對(duì)誤差計(jì)算,得出符合度回歸預(yù)測(cè)結(jié)果。
2.SVM 分類模型運(yùn)行過(guò)程。(1)輸入樣本壓力與速度數(shù)據(jù),規(guī)定訓(xùn)練集輸入、訓(xùn)練集輸出、預(yù)測(cè)集輸入和預(yù)測(cè)集輸出。(2)進(jìn)行數(shù)據(jù)預(yù)處理,加快網(wǎng)絡(luò)收斂速度,使用MATLAB 中mapminmax 函數(shù)進(jìn)行數(shù)據(jù)歸一化處理以加快網(wǎng)絡(luò)收斂速度。(3)參數(shù)尋優(yōu),網(wǎng)格數(shù)搜索開(kāi)始。(4)選擇最佳的SVM 參數(shù)c 和g,利用最優(yōu)參數(shù)建立的分類模型進(jìn)行SVM 網(wǎng)絡(luò)訓(xùn)練。(5)預(yù)測(cè)數(shù)據(jù)輸入,得出分類結(jié)果。
通過(guò)SVM 模型對(duì)84 組壓力與速度數(shù)據(jù)進(jìn)行訓(xùn)練,得到最優(yōu)參數(shù)c=0.75786;g=0.43538;MSE(均方誤差)=0.35454,其中MSE(均方誤差)是預(yù)測(cè)值和真實(shí)值之差的平方的均值,用來(lái)評(píng)價(jià)數(shù)據(jù)的變化程度,MSE 越小說(shuō)明該模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好的精度。再對(duì)16 組測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,得出測(cè)試集中本人書寫樣本與他人摹仿樣本相比訓(xùn)練集本人書寫樣本符合度結(jié)果。
統(tǒng)計(jì)得到的五位摹仿書寫人與李永本人書寫的8 組測(cè)試集結(jié)果中,書寫人1-5 的8 組測(cè)試集樣本符合度平均值結(jié)果在44.43%-57.42%,均低于60%;“李永”本人書寫樣本在5 次測(cè)試當(dāng)中8 組測(cè)試集樣本符合度平均值結(jié)果在73.37%-89.59%,均高于70%。五名書寫人測(cè)試集樣本平均符合度與李永本人書寫測(cè)試集樣本符合度如下圖。
測(cè)試集平均符合度
通過(guò)SVM 分類模型對(duì)五位摹仿書寫人與李永本人書寫的訓(xùn)練集動(dòng)態(tài)特征數(shù)據(jù)進(jìn)行運(yùn)算,得到最優(yōu)參數(shù)c=588.1316;g=0. 027225;CV Accuracy(最高驗(yàn)證準(zhǔn)確度)=90.4762%。最后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行運(yùn)算,得出分類識(shí)別結(jié)果(見(jiàn)下表),統(tǒng)計(jì)得到5 名書寫者與李永本人筆跡數(shù)據(jù)SVM 分類正確度(見(jiàn)下表)。由統(tǒng)計(jì)表明顯可見(jiàn),運(yùn)用SVM 分類器對(duì)測(cè)試集數(shù)據(jù)分類識(shí)別測(cè)試正確度在75%以上,最高正確度為93.75%,平均正確度為85%。
SVM 分類正確度統(tǒng)計(jì)表
利用Movalyzer 動(dòng)態(tài)分析軟件導(dǎo)出的電子簽名筆跡動(dòng)態(tài)特征數(shù)據(jù)信息結(jié)合機(jī)器學(xué)習(xí)中的SVM 算法模型,可以有效地分類識(shí)別出本人書寫的電子簽名筆跡與他人摹仿書寫的電子簽名筆跡且正確度可高達(dá)93.75%。并可以通過(guò)SVM 回歸預(yù)測(cè)模型計(jì)算出各書寫樣本與本人書寫樣本符合度數(shù)值,本人書寫樣本符合度可達(dá)到80%左右,他人摹仿書寫樣本符合度在50%左右,且該模型MSE 僅0.35,模型效果較好。該方法很好地彌補(bǔ)了鑒定人在檢驗(yàn)電子簽名筆跡案件時(shí)僅從二維圖像信息選取特征的局限性,引入了三維動(dòng)態(tài)特征的定量分析,可以更精確、更高效地解決一些復(fù)雜疑難的電子簽名筆跡案件。但本文仍存在一些需要改進(jìn)的地方,如收集樣本數(shù)量較少、書寫條件較為單一、分類器模型以及核函數(shù)的選擇可以進(jìn)一步優(yōu)化。相信在完善之后,會(huì)繼續(xù)提高電子簽名筆跡自動(dòng)識(shí)別的準(zhǔn)確度,從而建立一套更加客觀、系統(tǒng)的電子簽名筆跡檢驗(yàn)量化方法。
河北公安警察職業(yè)學(xué)院學(xué)報(bào)2022年2期