尹東霞
(山東科技大學(xué)網(wǎng)絡(luò)與信息中心,山東 青島 266590)
基于主成分分析法及貝葉斯分類器的手寫數(shù)字識別
尹東霞
(山東科技大學(xué)網(wǎng)絡(luò)與信息中心,山東 青島 266590)
針對目前手寫數(shù)字難識別并且識別正確率低這一現(xiàn)象,提出了一套基于主成分分析法及貝葉斯分類器的手寫數(shù)字識別方法。該方案首先利用主成分分析法減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數(shù)字的識別。在 MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上該方法能夠達(dá)到96.35%的識別率。該仿真結(jié)果說明文章提出的手寫數(shù)字識別策略能夠?qū)崿F(xiàn)對手寫數(shù)字的高效的識別。
手寫數(shù)字識別;主成分分析法;貝葉斯分類器
對于手寫數(shù)字的識別是人們?nèi)粘I钚枰瓿傻娜蝿?wù)之一。在人們?nèi)粘5纳钪校總€(gè)人每天都需要與數(shù)字打交道。在以往,對手寫數(shù)字的識別多采用人工的方式。但是在現(xiàn)代化及信息化高度發(fā)達(dá)的時(shí)代,如何實(shí)現(xiàn)用計(jì)算機(jī)或者現(xiàn)代計(jì)算機(jī)器實(shí)現(xiàn)對于手寫數(shù)字的高效快速的識別是一個(gè)亟需解決的問題。隨著社會的發(fā)展以及經(jīng)濟(jì)的發(fā)展,每天需要處理的數(shù)據(jù)的數(shù)目在急劇增加,在需要處理的數(shù)據(jù)中,手寫數(shù)字由于其難識別性等特點(diǎn),成為阻礙大規(guī)模機(jī)器處理數(shù)據(jù)的難點(diǎn),所以實(shí)現(xiàn)手寫數(shù)字的高效快速識別是一項(xiàng)重要的任務(wù)。但是由于不同的人具有不用的字體,同時(shí)很可能存在書寫不規(guī)范的現(xiàn)象,手寫數(shù)字的識別是一個(gè)極其復(fù)雜的過程。針對目前手寫數(shù)字難識別并且分辨正確率低這一現(xiàn)象,提出了一套基于主成分分析法(PCA)及貝葉斯分類器的手寫數(shù)字識別方法。該方案首先利用主成分分析法減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數(shù)字的識別。
文章的章節(jié)安排如下:第一部分為引言,為第一節(jié);在第二部分中,介紹本文采用的主成分分析法以及貝葉斯分類器,為第二節(jié)和第三節(jié);在最后一部分,在MNIST數(shù)據(jù)集上對本文提出手寫數(shù)字識別方法進(jìn)行驗(yàn)證,為第四節(jié)。
PCA(或稱主分量分析)作為一種多元統(tǒng)計(jì)技術(shù),是一種建立在統(tǒng)計(jì)特征基礎(chǔ)上的多維正交線性變換,常用來對信號進(jìn)行特征提取和對數(shù)據(jù)進(jìn)行降維,是由Pearson于1901年首先提出其概念,隨后由Hotelling、J.E.Jackson等學(xué)者對其進(jìn)行了發(fā)展[1],后來研究者們用概率論的形式再次描述了主成分分析算法,使得 PCA法得到更進(jìn)一步的理論上的發(fā)展?,F(xiàn)今國內(nèi)外已有很多學(xué)者對其進(jìn)行了研究,它廣泛應(yīng)用于化學(xué)、模式識別、圖像處理等各個(gè)領(lǐng)域[2],不同應(yīng)用領(lǐng)域其被賦予不同名稱,如KL變換(Karhunen-Loeve Transform)、霍特林變換(Hotelling Transform)、子空間法 (Subspace Approach)和特征結(jié)構(gòu)法(Eigen-structure Approach)等[3,4]。
PCA作為一種最常用的數(shù)據(jù)降維算法,同時(shí)也可看作是一種掌握事物主要矛盾的多元統(tǒng)計(jì)分析方法,是最為常用的特征提取方法,一直受到人們的關(guān)注和研究。它通過對原始數(shù)據(jù)進(jìn)行加工處理,使得問題處理的難度和復(fù)雜度大大簡化,可以提高數(shù)據(jù)的信噪比,以改善原始數(shù)據(jù)的抗千擾能力。主成分分析法(Principal Component Analysis,PCA)的原理是利用一個(gè)特殊的特征向量矩陣U,將一個(gè)具有高維數(shù)的向量投影到一個(gè)低維的向量空間中,在這個(gè)過程中應(yīng)該保證盡可能少的損失了重要信息,僅損失一些次要信息。該過程的逆過程為通過低維表征的向量和特征向量矩陣,可以重構(gòu)或者大體重構(gòu)出出所對應(yīng)的原始高維向量。
本文針對手寫數(shù)字的特點(diǎn),設(shè)計(jì)通過空間投影的方式減少輸入數(shù)據(jù)的維數(shù),通過計(jì)算圖像矩陣的協(xié)方差矩陣,選擇出變化比較大同時(shí)區(qū)分度比較明顯的像素點(diǎn),并且形成投影矩陣,通過投影矩陣把原數(shù)據(jù)投影到投影空間中,該過程應(yīng)該保證手寫數(shù)字圖像損失信息越少越好,即保證原數(shù)據(jù)與投影數(shù)據(jù)之間的空間距離越小越好。
貝葉斯分類器是建立在貝葉斯理論基礎(chǔ)上的分類器,主要應(yīng)用某個(gè)對象或者數(shù)據(jù)的先驗(yàn)概率,而后利用貝葉斯理論計(jì)算出后驗(yàn)概率,然后選擇能夠最大化后驗(yàn)概率的作為對象或者數(shù)據(jù)的屬性。
上述的過程可以簡化為下面的情況:假設(shè)某個(gè)對象具有m個(gè)屬性,F(xiàn)1,F2,…,Fm?,F(xiàn)在具有n個(gè)類,C1,C2,…,Cn。現(xiàn)在需要確定一個(gè)新的對象屬于哪一類,貝葉斯分類器工作過程就是選擇出概率最大的那個(gè)分類,即最大化公式(1)[5-7]
其中,P(F1,F2,…,Fm)對于同一個(gè)體或者對象而言,都是一樣的。整個(gè)過程就簡化為求解P(F1,F2,…,Fm|C)P(C)。
和其他數(shù)據(jù)挖掘或者模式識別中采用的分類器相同,應(yīng)用貝葉斯分類器對對象或者數(shù)據(jù)進(jìn)行分類的過程可以分成兩步:第一步,對模型的訓(xùn)練,即從樣本數(shù)據(jù)中進(jìn)行學(xué)習(xí);第二步是用訓(xùn)練出的模型對數(shù)據(jù)或者對象進(jìn)行分類。在模型的訓(xùn)練過程以及后續(xù)的識別過程中,模型計(jì)算的復(fù)雜度會影響計(jì)算的效率以及結(jié)果。對于貝葉斯分類器而言,往往需要進(jìn)行簡化[8],本文采用主成分分析法來減少貝葉斯分類器的輸入屬性數(shù)目,從而減少訓(xùn)練分類器所消耗的時(shí)間。
本文采用MNIST手寫數(shù)字?jǐn)?shù)據(jù)集作為本文提出的手寫數(shù)字識別策略的仿真數(shù)據(jù)集,該數(shù)據(jù)集具有60000個(gè)訓(xùn)練數(shù)據(jù),并且具有10000個(gè)測試數(shù)據(jù)。在MNIST數(shù)據(jù)集中的數(shù)據(jù)均是經(jīng)過大小統(tǒng)一化以及圖形集中的固定大小的圖像。并且采用MATLAB作為系統(tǒng)仿真軟件進(jìn)行仿真。
圖1 MNIST數(shù)據(jù)集中的數(shù)據(jù)樣式
在本次試驗(yàn)中,采用MNIST數(shù)據(jù)集中的10000個(gè)數(shù)據(jù)作為整體數(shù)據(jù)集的代表。MNIST數(shù)據(jù)集中的部分手寫數(shù)字如圖所示。并且用其中的8000個(gè)數(shù)據(jù)作為訓(xùn)練樣本明確主成分分析的下降維數(shù)和訓(xùn)練貝葉斯分類器,剩下的 2000樣本作為測試樣本對于訓(xùn)練出的貝葉斯分類器進(jìn)行驗(yàn)證。
MNIST數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)為一個(gè)28*28像素點(diǎn)的圖像,一共784維數(shù)據(jù)。這對于后續(xù)的貝葉斯分類器意味著其具有784維的輸入數(shù)據(jù),這樣不僅會增加貝葉斯分類器的訓(xùn)練成本,而且會增加后續(xù)計(jì)算的時(shí)間。所以對于784維的輸入數(shù)據(jù),首先應(yīng)該對其進(jìn)行降維處理。本文采用主成分分析法對輸入的訓(xùn)練以及測試樣本數(shù)據(jù)降維。對于主成分分析法而言,應(yīng)該需要明確需要選擇哪幾個(gè)維度進(jìn)行投影,維度應(yīng)該滿足盡可能少的同時(shí)滿足一定準(zhǔn)確性。
在確定 PCA降低維數(shù)的過程中,采用相應(yīng)的平方差的方式對數(shù)據(jù)進(jìn)行衡量。數(shù)據(jù)的降維可以理解為原數(shù)據(jù)向數(shù)據(jù)空間內(nèi)的某個(gè)平面進(jìn)行投影,由于降維的存在,降維后的數(shù)據(jù)相比原數(shù)據(jù)會損失一部分信息,需要盡可能的減小原數(shù)據(jù)與降維后的數(shù)據(jù)之間的空間距離。
通過選取不同的數(shù)量的主成分,能夠發(fā)現(xiàn)如圖2所示的規(guī)律曲線。其中坐標(biāo)的橫軸為選取的主成分的數(shù)目,經(jīng)過投影矩陣的變換,原數(shù)據(jù)與投影數(shù)據(jù)之間存在誤差,全體數(shù)據(jù)的誤差由縱軸表示。通過圖像可以發(fā)現(xiàn),當(dāng)主成分?jǐn)?shù)目位于30到50之間時(shí),總體誤差大概為1000左右,平均誤差為0.125。并且通過計(jì)算原數(shù)據(jù)的協(xié)方差矩陣的特征值,并選取最大特征值的0.05作為選取主成分的閾值,小于閾值的筆者認(rèn)為具有不重要的信息,通過選擇的特征值能夠得到相應(yīng)的投影矩陣。通過主成分?jǐn)?shù)目與數(shù)據(jù)誤差之間的妥協(xié),主成分?jǐn)?shù)目應(yīng)該選擇為37。
圖2 主成分?jǐn)?shù)目與數(shù)據(jù)平均差之間關(guān)系
MATLAB的仿真結(jié)果表明,對于2000個(gè)數(shù)據(jù)的測試集進(jìn)行驗(yàn)證,識別錯(cuò)誤的數(shù)目為73,正確率達(dá)到96.35%?;煜仃嚾鐖D3所示。
圖3 混淆矩陣
通過實(shí)驗(yàn)結(jié)果能夠發(fā)現(xiàn),被錯(cuò)誤識別的數(shù)字分布的比較平均,并且為實(shí)際的書寫中容易被肉眼錯(cuò)誤識別的數(shù)字。
綜上所示,書寫數(shù)字識別的全過程如圖4所示。
圖4 書寫數(shù)字識別全過程
本文提出了一套基于主成分分析法及貝葉斯分類器的手寫數(shù)字識別方法。該方法首先利用主成分分析法以及原數(shù)據(jù)協(xié)方差矩陣的特征值減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數(shù)字的識別。在MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上該方法能夠達(dá)到96.35%的識別率。
[1] 張媛,張燕平.一種 PCA算法及其應(yīng)用[J].微機(jī)發(fā)展,2005, 15(2):67-69.
[2] K. Pearson, P. Mag. On lines and planes of closest fit to systems of points in space[J].1901,(2):559-572.
[3] D.E.Johnson.Applied multivariate methods for data analysis[M]. Beijing:Higher Education Press,2005:93-111.
[4] 佘映,王斌,張立明.一種面向數(shù)據(jù)學(xué)習(xí)的快速PCA算法[J].模式識別與人工智能,2009,22(4):568-573.
[5] 費(fèi)愛蓉.基于貝葉斯方法的Web服務(wù)分類的研究[D].安徽:合肥工業(yè)大學(xué),2004.
[6] 徐磊.基于貝葉斯網(wǎng)絡(luò)的突發(fā)事件應(yīng)急決策信息分析方法研究[D].黑龍江:哈爾濱工業(yè)大學(xué),2013.
[7] 邸俊鵬.分位數(shù)回歸的貝葉斯估計(jì)與應(yīng)用研究[D].天津:南開大學(xué),2013.
[8] 任曉明,李章呂.貝葉斯決策理論的發(fā)展概況和研究動態(tài)[J].科學(xué)技術(shù)哲學(xué)研究,2013,(2):1-7.
The identification of Hand-written digits based on Principal Component Analysis and Bayesian classifier
To deal with the low discrimination and low accuracy of the hand-written digits,this paper proposed a hand-written digits identification method which is based on the Principal Component Analysis (PCA) and the Bayesian classifier.This scheme employs the PCA to reduces the dimension of the input data,then the dimension-reduced data is regarded as the input for the Bayesian classifier,the result of the classifier is the identified digits.This method achieves the accuracy of 96.35% on the MNIST hand-written digits data set.The case study shows that the hand-written digit identification scheme this paper proposed can identify the hand-written digits effectively.
Hand-written digits identification; Principal Component Analysis(PCA);Bayesian classifier
TM732
A
1008-1151(2015)09-0039-03
2015-08-15
尹東霞(1964-),女,山東青島人,山東科技大學(xué)網(wǎng)絡(luò)與信息中心高級工程師,從事校園網(wǎng)絡(luò)管理與服務(wù)工作。