莫京蘭 朱廣生 呂躍進(jìn)
1(廣西科技大學(xué)鹿山學(xué)院 廣西 柳州 545616)2(廣西科技大學(xué) 廣西 柳州 545616)3(廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院 廣西 南寧 530004)
?
I-VLDNS:一種改進(jìn)的線性判別子空間模式識(shí)別算法
莫京蘭1,3朱廣生2呂躍進(jìn)3
1(廣西科技大學(xué)鹿山學(xué)院廣西 柳州 545616)2(廣西科技大學(xué)廣西 柳州 545616)3(廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院廣西 南寧 530004)
摘要針對(duì)現(xiàn)有模式判別分析方法中普遍存在的子空間優(yōu)化與“小樣本”問(wèn)題,首先剖析總體、類內(nèi)以及類間三種散布矩陣的零空間的物理含義,深入闡釋有效零空間與有效線性判別零空間核心原理;其次,研究始空間中總體、類間散布矩陣與有效零空間、有效值域空間上的總體、類間散布矩陣關(guān)于特征值與特征向量之間的關(guān)聯(lián)關(guān)系,并且獲取類內(nèi)散布矩陣零空間、值域空間上關(guān)于Fisher線性判別率的關(guān)鍵結(jié)論;最后,基于有效線性判別零空間理論,設(shè)計(jì)出一種改進(jìn)的線性判別子空間模式識(shí)別算法,即I-VLDNS。通過(guò)相關(guān)數(shù)據(jù)集模擬實(shí)驗(yàn)表明,I-VLDNS算法在模式識(shí)別分析性能、精確度以及魯棒性上均得到進(jìn)一步優(yōu)化與提高。
關(guān)鍵詞模式識(shí)別線性判別分析有效零空間值域空間I-VLDNS
0引言
隨著科技信息化進(jìn)程的不斷推進(jìn),模式識(shí)別作為熱點(diǎn)研究方向,得到了越來(lái)越多地關(guān)注,并在人工智能、數(shù)據(jù)挖掘等領(lǐng)域得到深入應(yīng)用。模式分析是模式識(shí)別的核心技術(shù)之一,作為模式分析的一個(gè)關(guān)鍵研究點(diǎn),子空間分析技術(shù)依靠不同映射方式對(duì)應(yīng)的不同優(yōu)點(diǎn),已普遍應(yīng)用于模式識(shí)別、計(jì)算機(jī)視覺(jué)分析、生物特征與數(shù)據(jù)識(shí)別,并在數(shù)據(jù)挖掘領(lǐng)域具有無(wú)限廣闊地應(yīng)用前景。因此,如何有效選取與處理大規(guī)模海量數(shù)據(jù)信息中的有效判別數(shù)據(jù)信息,深入研究子空間分析技術(shù)具有非常重要的意義。
近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)子空間分析技術(shù)進(jìn)行了深入研究,文獻(xiàn)[1]揭示了模式分析中普遍存在的“小樣本”問(wèn)題,其常常存在于THz-TDS模式識(shí)別問(wèn)題中。為了有效處理“小樣本”問(wèn)題,改進(jìn)并提高模式分析中的優(yōu)化性能,專家學(xué)者們重點(diǎn)研究線性判別分析技術(shù)。文獻(xiàn)[2,3]通過(guò)摒棄總體散布矩陣的零空間,從值域空間中選取有效的特征向量,設(shè)計(jì)出相對(duì)應(yīng)的線性判別分析方法。然而,該方法選取范圍較狹窄,僅選取了總體類內(nèi)散布矩陣的零分量。文獻(xiàn)[4,5]通過(guò)一系列方法,從零空間與值域空間中得到了最優(yōu)判別向量,但是,對(duì)應(yīng)于零特征值與較小特征值的特征向量敏感度較高,易受到訓(xùn)練樣本數(shù)量影響,從而發(fā)生變化。文獻(xiàn)[6]在文獻(xiàn)[4,5]的基礎(chǔ)上,設(shè)計(jì)出一種廣義零空間不相關(guān)Fisher判別分析方法。此方法盡管在線性判別分析上有所改進(jìn)與優(yōu)化,但是仍受到零空間維度大小影響,具有一定局限性。文獻(xiàn)[7]提出一種主分量零空間分析方法,該方法通過(guò)獲取整體數(shù)據(jù)信息的主分量子空間。依次得到每個(gè)子類近似零空間,但是,該方法易造成一定風(fēng)險(xiǎn),如丟失相關(guān)主分量判別數(shù)據(jù)信息等。文獻(xiàn)[8]提出一種可并行處理Fisher最大與最小的判別準(zhǔn)則的最佳對(duì)稱零空間準(zhǔn)則,對(duì)“小樣本”問(wèn)題得到了進(jìn)一步優(yōu)化,然而其方法對(duì)計(jì)算處理能力要求較高,對(duì)模式識(shí)別分析性能造成一定影響。除了上述研究之外,文獻(xiàn)[9-12]同樣從總體散布矩陣、類內(nèi)散布矩陣以及類間散布矩陣的零空間著手,對(duì)模式判別分析方法進(jìn)行深入改進(jìn)與研究,然而均存在一定應(yīng)用局限性。
針對(duì)現(xiàn)有模式判別分析方法中普遍存在的子空間優(yōu)化與“小樣本”問(wèn)題,本文首先剖析總體、類內(nèi)以及類間三種散布矩陣的零空間的物理含義,深入闡釋有效零空間與有效線性判別零空間核心原理,證明相關(guān)理論命題;其次,研究不同子空間中類間散布矩陣相互之間的關(guān)聯(lián)關(guān)系;最后,基于有效線性判別零空間理論,設(shè)計(jì)出一種改進(jìn)的線性判別子空間模式識(shí)別算法,即I-VLDNS。通過(guò)相關(guān)數(shù)據(jù)集模擬實(shí)驗(yàn)表明,I-VLDNS算法均比同類型的幾種算法更加優(yōu)秀,在模式識(shí)別分析性能、精確度以及魯棒性上得到了進(jìn)一步優(yōu)化與提高。
1零空間物理含義
(1)
(2)
(3)
其中μi表示ωi類的的均值向量,μ0表示整個(gè)數(shù)據(jù)信息的均值向量,可知:
(4)
定理1類間散布矩陣SB滿足如下等式:
(5)
證明:首先依據(jù)式(2),有:
其次導(dǎo)入式(1)中,可知:
從而獲取總體類間散布矩陣SB與各自子類的類間散布矩陣SBi相互之間的關(guān)聯(lián)關(guān)系,如式(5)。定理1揭示了SB與SBi相互之間的關(guān)聯(lián)關(guān)系。
假定φ1,φ2,…,φd,…,φn表示ST的特征向量,且保證前半部分φ1,φ2,…,φd對(duì)應(yīng)于非零特征值,后半部分φd+1,φd+2,…,φn對(duì)應(yīng)于零特征值,其中d=Rank(ST)。可知,前半部分φ1,φ2,…,φd形成ST的值域空間,使用Φn×d表示,后半部分φd+1,φd+2,…,φn形成對(duì)應(yīng)的零空間。
圖1 總體、類內(nèi)散布矩陣的零空間物理含義分析結(jié)構(gòu)圖
2有效判別零空間性質(zhì)分析
2.1有效子空間
假定總體訓(xùn)練測(cè)試樣本N滿足n>N-1,對(duì)于SW、SB、ST的秩滿足以下結(jié)論,可知:rank(ST)≤N-1;rank(SW)≤N-C;rank(SB)≤C-1。其中SW、SB、ST均屬于奇異矩陣[13]。實(shí)際運(yùn)用過(guò)程中滿足N>C,則各個(gè)散布矩陣的秩關(guān)系如下:rank(ST)>rank(SW)>rank(SB)。此時(shí)參照推論1可知各個(gè)散布矩陣零空間滿足如下關(guān)系:
Null(SB)∩Null(SW)=Null(ST)
(6)
因?yàn)镹ull(ST)上的類間與類內(nèi)相隔長(zhǎng)度等于零,滿足分類無(wú)效性質(zhì),定義為無(wú)效零空間。與之對(duì)應(yīng),正交補(bǔ)空間Range(ST)=L(Φ)定義為有效子空間,其中正交基由Φn×d=[φ1,φ2,…,φd]表示。
2.2有效零空間
Null(SW)=L(Φa1,…,Φai)⊕Null(ST)
(7)
2.3有效判別零空間
證明:
(8)
(9)
(10)
(11)
證明:V1、V2與V3上的類內(nèi)相隔長(zhǎng)度依次屬于{0},/{0}與,并且類間相隔長(zhǎng)度依次是γj1,τj2與。因γj1≥0,τj2≥0,且。那么引理2得證。
V1、V2與V3依次是d×i,d×(d-i)與d×d的散布矩陣。因?yàn)閐>d-i>i,V1、V2與V3在其子空間上的計(jì)算性能逐漸降低。零空間L(V1)具有計(jì)算性能以及無(wú)窮大Fisher判別率等優(yōu)點(diǎn),定義為有效判別零空間。
3I-VLDNS算法
通過(guò)對(duì)有效判別零空間的深入研究,提出一種改進(jìn)的線性判別子空間模式識(shí)別算法,即I-VLDNS,該算法的詳細(xì)步驟如下:
步驟1計(jì)算ST在零特征值上與之對(duì)應(yīng)的特征向量φ1,φ2,…,φd。
步驟6將測(cè)試樣本向量x投影于特征空間上,獲取對(duì)應(yīng)的投影向量z=(ΦP)Tx,參照最近鄰分類準(zhǔn)則判別其投影向量z的歸屬類型。
若x投影于ST的值域空間上,可獲取一個(gè)低維度的測(cè)試樣本向量,即y=ΦTx。因?yàn)槿魏我粋€(gè)測(cè)試樣本都覆蓋于ST的零空間中心點(diǎn),那么在模式分類作用上,此零空間具有無(wú)效性。雖然此零空間對(duì)模式分類精確性零干擾,然而選擇值域空間L(Φ)得到了降維,并優(yōu)化了計(jì)算性能。
4模擬實(shí)驗(yàn)與結(jié)果分析
分別從Oracle數(shù)據(jù)庫(kù)、THz-TDS數(shù)據(jù)集兩個(gè)環(huán)境下對(duì)I-VLDNS算法進(jìn)行模式實(shí)驗(yàn),如下:
4.1Oracle數(shù)據(jù)庫(kù)
在時(shí)間選擇、拍照條件、人臉表情細(xì)節(jié)等方面處于各不相同的情況下,選擇50個(gè)不同人物,對(duì)每個(gè)人物提取15人臉精確圖像(精確度:136×96像素、灰度:0~255),并存入Oracle數(shù)據(jù)庫(kù)中。模擬實(shí)驗(yàn)中,保證圖像的原始性。隨機(jī)提取所有人物的k張圖像信息作為模擬實(shí)驗(yàn)的訓(xùn)練樣本,剩余50-k張作為測(cè)試樣本。模擬實(shí)驗(yàn)過(guò)程中,利用最近鄰分類方法,依次對(duì)k值進(jìn)行選取(k=3,4,5,6),最終數(shù)據(jù)是10次模擬實(shí)驗(yàn)數(shù)據(jù)的平均值。
若訓(xùn)練樣本大小超過(guò)整體實(shí)驗(yàn)樣本大小的一半,那么V=[V2,V1],不然V=[V1,V2]。雖然類內(nèi)散布矩陣的零空間具有多樣化的Fisher判別數(shù)據(jù),但是其子空間易受外界影響,從而發(fā)生變化。在訓(xùn)練樣本大小逐漸提升的情況下,此類內(nèi)散布矩陣的零空間逐漸退化。因此,在優(yōu)化性能方面,L(V2)比L(V1)更佳。如圖2所示。
圖2 Oracle數(shù)據(jù)庫(kù)上的模式識(shí)別誤差對(duì)比
從圖2中可知,在平均、最大模式識(shí)別率方面,I-VLDNS算法比同類型的其他幾種算法更好。當(dāng)不斷添加訓(xùn)練樣本數(shù)量大小時(shí),文獻(xiàn)[6]算法、文獻(xiàn)[7]算法以及I-VLDNS算法的模式識(shí)別誤差下降,且誤差的標(biāo)準(zhǔn)偏差均有降低,其中I-VLDNS算法的標(biāo)準(zhǔn)偏差是最小的。實(shí)驗(yàn)表明,與文獻(xiàn)[6]算法、文獻(xiàn)[7]算法相比,I-VLDNS的算法魯棒性最優(yōu)。與此同時(shí),對(duì)比文獻(xiàn)[6]算法,若子空間維度越低,I-VLDNS算法的模式識(shí)別率也越高,當(dāng)訓(xùn)練樣本數(shù)量大小是3時(shí)處于最優(yōu)狀態(tài)。
4.2THz-TDS數(shù)據(jù)集
本次實(shí)驗(yàn)依次選取水杯、牛奶、花生、衣服、毛巾、咖啡、茶葉、桌子、塑料、手機(jī)、皮鞋、樹(shù)木等12種各不相同的樣本物體,采用THz-TDS系統(tǒng)獲取與樣本物體相對(duì)應(yīng)的THz-TDS信號(hào)。THz-TDS系統(tǒng)可發(fā)射0.1 THz至4.0 THz的THz波,將其系統(tǒng)設(shè)置于透射模式,采樣步長(zhǎng)選擇44.4飛秒,時(shí)間參數(shù)設(shè)置為40毫秒。如表1所示,實(shí)驗(yàn)采用0.2 THz至2.22 THz波長(zhǎng)區(qū)域之間的透射譜,其長(zhǎng)度是144。訓(xùn)練樣本數(shù)量大小依次選取實(shí)驗(yàn)樣本數(shù)量大小的1/5,1/4,1/3與1/2。最終數(shù)據(jù)是10次模擬實(shí)驗(yàn)數(shù)據(jù)的平均值,如圖3所示。
表1 THz-TDS數(shù)據(jù)集中各類樣本的透射譜數(shù)據(jù)表
圖3 THz-TDS數(shù)據(jù)集上模式識(shí)別誤差對(duì)比
首先,數(shù)據(jù)集I上的THz-TDS信號(hào)處于次優(yōu)化狀態(tài),并且伴有一定的噪聲干擾;其次,數(shù)據(jù)集II上的THz-TDS信號(hào)的各類樣本的透射譜質(zhì)量得到明顯提升,并且具有相對(duì)不錯(cuò)的分辨率。
從圖3中可知,在THz-TDS數(shù)據(jù)集I中,文獻(xiàn)[6]算法、文獻(xiàn)[8]算法與I-VLDNS算法上的測(cè)試結(jié)果近似一致。然而當(dāng)子空
間維度處于更低狀態(tài)時(shí),I-VLDNS算法依然達(dá)到相同的模式識(shí)別性能。在THz-TDS數(shù)據(jù)集II中,特別是當(dāng)訓(xùn)練樣本數(shù)量大小占實(shí)驗(yàn)樣本數(shù)量大小的1/2時(shí),I-VLDNS算法能夠達(dá)到100%的模式識(shí)別率。
因?yàn)檎w數(shù)據(jù)信息覆蓋于總體散布矩陣的零空間中心點(diǎn),所以,在總體散布矩陣的值域空間中,存在有訓(xùn)練樣本數(shù)據(jù)中的判別信息。從而更深入分析了在較低維度大小的子空間內(nèi),可依據(jù)類內(nèi)散布矩陣獲取原始空間中的判別信息。I-VLDNS算法正是基于這一點(diǎn),在模式識(shí)別分析性能、精確度以及魯棒性上具有良好效果。
5結(jié)語(yǔ)
本文針對(duì)現(xiàn)有模式判別分析方法中普遍存在的子空間優(yōu)化與“小樣本”問(wèn)題,首先闡述并分析證明了總體、類間以及類內(nèi)散布矩陣的零空間物理含義;其次,研究了原始空間中總體、類間散布矩陣與有效零空間、有效值域空間上的總體、類間散布矩陣關(guān)于特征值與特征向量之間的關(guān)聯(lián)關(guān)系;最后,基于有效線性判別零空間理論,設(shè)計(jì)出一種改進(jìn)的線性判別子空間模式識(shí)別算法,即I-VLDNS。在小樣本情況下,該算法可提取更加多樣化的判別信息,與同類型的其他算法相比,I-VLDNS算法在模式識(shí)別率、精確度以及魯棒性上具有更大優(yōu)勢(shì)。
參考文獻(xiàn)
[1] 邊肇棋,張學(xué)工.模式識(shí)別[M].2版.北京:清華大學(xué)出版社,2000.
[2] Nikolaos Gkalelis,Vasileios Mezaris,Ioannis Kompatsiaris.Mixture Subclass Discriminant Analysis[J].IEEE Signal Processing letters,2011,18(5):319-322.
[3] Xiaoning Song,Jingyu Yang,Xiaojun Wu,et al.An optimal symmetrical null space criterion of Fisher discriminant for feature extraction and recognition[J].Soft Computing-A Fusion of Foundations,Methodologies and Applica- tions,2011,15(2):281-293.
[4] Vaswani N,Chellappa R.Principal components null space analysis for image and video classification[J].IEEE Trans on Image Processing,2006,15(7):1816-1830.
[5] 楊健.線性投影分析的理論與算法及其在特征抽取中的應(yīng)用研究[D].南京,南京理工大學(xué),2002.
[6] 謝維信,蒲莉娟,裴繼紅.基于值域空間中類零子空間分析的模式判別[J].信號(hào)處理,2012,28(10):1315-1360.
[7] Jiang X D.Linear subspace learning-based dimensionality reduction[J].IEEE Signal Processing Magazine,2011,28(2):16-26.
[8] Safayani M,Manzuri Shalmani M T.Heteroscedastic Multilinear Discriminant Analysis for Face Recognition[C]//2010 International Conference on Pattern Recognition,2010:4287-4290.
[9] Connie T,Jin A,Ong M.An automated palmprint recognition system[J].Image and Vision Computing,2005,23(5):501-515.
[10] Michael Schmuker,Gisbert Schneider.Processing and classification of chemical data inspired by insect olfaction[J].Proceedings of the National Academy of Sciences,2007,104(51):20285-20289.
[11] 楊健,楊靜宇,葉暉.Fisher線性鑒別分析的理論研究及其應(yīng)用[J].自動(dòng)化學(xué)報(bào),2003,29(4):482-493.
[12] John Wright,Allen Y Yang,Arvind Ganesh,et al.Robust Face Recognition via Sparse Representation[J].IEEE Trans On Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[13] 蒲莉娟.模式判別中的子空間分析方法研究[D].西安,西安電子科技大學(xué),2013.
收稿日期:2015-01-28。國(guó)家自然科學(xué)基金項(xiàng)目(70861001);廣西高等學(xué)校立項(xiàng)科研項(xiàng)目(2013LX095)。莫京蘭,講師,主研領(lǐng)域:粗糙集,數(shù)據(jù)挖掘,運(yùn)籌學(xué)與控制論。朱廣生,碩士。呂躍進(jìn),教授。
中圖分類號(hào)TP391.4
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.07.040
I-VLDNS: AN IMPROVED LINEAR DISCRIMINATIVE SUBSPACE PATTERN RECOGNITION ALGORITHM
Mo Jinglan1,3Zhu Guangsheng2Lü Yuejin3
1(LushanCollegeofGuangxiUniversityofScienceandTechnology,Liuzhou545616,Guangxi,China)2(GuangxiUniversityofScienceandTechnology,Liuzhou545616,Guangxi,China)3(SchoolofMathematicsandInformationSciences,GuangxiUniversity,Nanning530004,Guangxi,China)
AbstractIn light of the problems of subspace optimisation and “small sample size” commonly existed in current pattern discriminative analysis methods, in this paper we first analyse the physical meaning of null-space of total scatter matrix, between-class scatter matrix and within-class scatter matrix, and thoroughly explain the core principles of valid null-space and valid linear discriminative null-space. Secondly, we study the association relationship of eigenvalues and eigenvectors with regard to the total scatter matrixes and between-class scatter matrixes of both the original space and the valid null-space and valid range-space, and obtain the key conclusions about Fisher linear discriminative probability of within scatter matrix null-space and within scatter matrix range-space. Finally, based on effective linear discriminative null-space theory, we design an improved linear discriminative subspace pattern recognition algorithm (I-VLDNS). It is demonstrated through correlated dataset simulation experiments that the I-VLDNS gains further optimisation and improvement in analysis performance of pattern recognition, accuracy and robustness.
KeywordsPattern recognitionLinear discriminative analysisValid null-spaceRange-spaceI-VLDNS