摘 要:針對與書寫內(nèi)容無關(guān)的筆跡樣本,提出一種改進的筆跡鑒定算法。使用小波變換與反小波變換將筆跡圖像進行頻率域的轉(zhuǎn)換與重建后,提取出筆跡特征;使用由支持向量機(SVM)改進而來的模糊支持向量機(FSVM)進行筆跡分類識別,并使用改進的隸屬度計算方法確定模糊支持向量機的隸屬度。實驗結(jié)果表明,該算法能夠明顯提高筆跡鑒定的正確率。
關(guān)鍵詞:筆跡鑒定;小波變換;模糊支持向量機;隸屬度函數(shù)
筆跡鑒定根據(jù)對樣本文本內(nèi)容要求的不同,分為文本相關(guān)和文本無關(guān)兩類。文本相關(guān)的方法通過比較相同文本內(nèi)容的筆跡,以去掉文本內(nèi)容的影響,突出筆跡風(fēng)格差異。文本無關(guān)的方法擺脫了對內(nèi)容的依賴性,從大量字符里集中提取特征,算法難度較大,但比文本相關(guān)方式有更為廣泛的應(yīng)用。本文主要針對離線的文本無關(guān)筆跡鑒定進行研究。
筆跡鑒定屬于典型的小樣本問題,支持向量機方法在小樣本、非線性等問題中擁有許多特有的優(yōu)勢。但支持向量機本身容易受到噪音或是離群值的影響,當(dāng)訓(xùn)練資料中有噪音或是離群值時,將顯著地影響分類正確率。Lin and Wang在2002年提出了模糊支持向量機算法,F(xiàn)SVM應(yīng)用了模糊隸屬度函數(shù)對應(yīng)到SVM的每筆輸入樣本中,減少噪聲和離群值對對筆跡鑒定分類結(jié)果的影響。本文提出在計算機筆跡鑒定中使用模糊支持向量機進行特征分類,以減少筆跡的不穩(wěn)定對識別結(jié)果的影響,從而提高計算機筆跡鑒定的識別率。
一、筆跡特征提取
1.小波變換和反小波變換
這些小波沿著不同的方向在函數(shù)上的變動,可表示圖像灰階度的變化:ψH是測量水平方向上的變化,ψV是測量垂直方向上的變化,ψD是測量對角線方向上的變化。
2.特征提取
經(jīng)由反小波變換后,需要對圖片進行特征提取,將紋理特征信息量化出來形成特征空間,作為分類判斷的基礎(chǔ)。Haralick等提出的灰度共生矩陣是紋理分析中比較有代表性的方法之一,此方法對于N×N大小的圖像根據(jù)灰度共生矩陣C(i,j)進行計算,其中(i,j)為每個像素點的灰度值。
二、模糊支持向量機分類
1.支持向量機
支持向量機算法由Cortes和Vapnik于1995年首先提出,它采用結(jié)構(gòu)風(fēng)險最小化原則代替經(jīng)驗風(fēng)險最小化原則,能夠較好地解決筆跡鑒定中的小樣本學(xué)習(xí)問題。SVM所尋求的最優(yōu)分類面,不但能使兩類樣本無錯誤地分開,而且能使兩類的分類間隔最大。
2.模糊支持向量機算法
在解決小樣本分類問題方面,支持向量機是一種有效的工具,但是,在應(yīng)用中依然存在著一些缺陷。在筆跡鑒定中,由于手寫字跡相對的不穩(wěn)定,不同訓(xùn)練點對于分類面的影響程度,時常是不同的,經(jīng)常出現(xiàn)某些訓(xùn)練樣本比其他訓(xùn)練樣本對分類貢獻更大的情況。這就需要較為重要的訓(xùn)練點能被正確的分類,而噪聲和離群點則被忽略掉。
在兩類問題中,當(dāng)一個訓(xùn)練樣本不是100%的屬于其中的一類時,它可能有90%的可能性屬于某一類,而只有10%的可能性屬于另一類。模糊支持向量機通過設(shè)定隸屬度來給每個訓(xùn)練樣本對分類的重要程度做出適當(dāng)?shù)姆峙?,從而解決SVM中最優(yōu)分類面歪斜的問題。
樣本為此問題的支持向量。有兩類支持向量時,其中一類的ai值會落在0 成本因子C扮演著非常關(guān)鍵且重要的角色。它是最大化分割邊界同最小化分類錯誤率的取舍參數(shù)。而FSVM和SVM最主要的不同在于FSVM將成本(Cost)乘上模糊隸屬度函數(shù)si,讓模糊隸屬度函數(shù)加入每個樣本中,使得決策面可產(chǎn)生不同程度的貢獻。當(dāng)參數(shù)C增加時,其發(fā)生錯誤的概率相對也會增加,而加入隸屬度函數(shù)后,可將其容錯率變大,以減少噪音及離群值對正確率的影響。 3.模糊支持向量機隸屬度的確定 Lin等學(xué)者提出的基于類中心的隸屬度函數(shù)設(shè)計方法,規(guī)定樣本對分類所起的作用隨著樣本遠離類別的幾何中心而逐漸減小,從而弱化噪聲或孤立點的影響。我們在筆跡鑒定算法的研究中發(fā)現(xiàn),支持向量與類別中心的距離通常較遠。根據(jù)樣本分布情況,我們使用一種改進的隸屬度函數(shù)計算方法。 改進的隸屬度設(shè)定將樣本對分類所起的作用隨著樣本遠離類別的幾何中心而逐漸增大,即將樣本到類別幾何中心的距離與該類中離類別幾何中心最遠的樣本到類別幾何中心的距離的比值定義為隸屬度,但當(dāng)樣本與類別幾何中心的距離大于閾值時,就給樣本賦一個很小的隸屬度,閾值是根據(jù)兩類樣本幾何中心之間的距離和樣本的稠密情況決定的。這樣通過調(diào)整閾值,就可以使支持向量的隸屬度較大,而噪聲或孤立點的隸屬度很小。 三、實驗結(jié)果和分析 實驗使用HIT-MW手寫字庫在matlab上進行仿真實驗。使用的訓(xùn)練樣本為116份,測試樣本為55份。實驗流程為: 1.使用小波變換與反小波變換重建圖像,小波變換階層數(shù)為三層,對筆跡圖像進行頻率域的轉(zhuǎn)換同重建; 2.通過空間域共生矩陣特征值提取同頻率域反小波重建圖像的系數(shù),組合成為特征空間:在灰度共生矩陣的轉(zhuǎn)換上,采用方向角度0°,兩點間的像素距離d=1,灰階度G為256。 研究了使用小波變換作為特征選擇算法的文本無關(guān)計算機筆跡鑒定方法,使用改進隸屬度的模糊支持向量機做筆跡特征分類,解決了筆跡鑒定中噪聲和孤立點容易分類精度影響的問題。實驗證明,小波變換、反小波變換和灰度共生矩陣能夠有效提高筆跡鑒定的正確率。FSVM在分類識別的效果優(yōu)于傳統(tǒng)支持向量機。下一步將研究提取更多類型的筆跡圖像紋理特征,以進一步提高筆跡鑒定的正確率。 參考文獻: [1]楊維斌,房斌,尚趙偉,等.基于復(fù)小波的脫線手寫體筆跡鑒別[J].計算機應(yīng)用,2009(6):1696-1698. [2]楊志民,劉廣利.不確定性支持向量機.北京:科學(xué)出版社,2012. [3]哈明虎,彭桂兵,趙秋煥,等.一種新的模糊支持向量機.計算機工程與應(yīng)用,2009(25):151-153. 編輯 代敏麗