楊彩鳳,劉 濤,劉國(guó)慶,程 飛
(安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖 241000)
圖像識(shí)別是人工智能[1]重要研究領(lǐng)域之一,同時(shí),圖像識(shí)別也在機(jī)器視覺[2]和模式識(shí)別[3]中成為一個(gè)熱點(diǎn)研究領(lǐng)域。面對(duì)大數(shù)據(jù)時(shí),圖像識(shí)別會(huì)面臨“維數(shù)災(zāi)難”[4]的問題。然而,在識(shí)別過程中又需要快速精準(zhǔn)地進(jìn)行識(shí)別,找到兩個(gè)或者兩個(gè)以上的低維矩陣,使其乘積等于或者約等于原始矩陣,達(dá)到對(duì)原始矩陣降維的目的,是解決問題的一個(gè)主流方法,這就是矩陣分解技術(shù)。已有的心理和生理邏輯證明,在人腦中,對(duì)事物的認(rèn)識(shí)是基于部分表示的[5],而且在圖像數(shù)據(jù)中,像素點(diǎn)的值是大于等于零的。對(duì)此,提出了NMF算法來學(xué)習(xí)圖像的局部特征,NMF的目標(biāo)是找到兩個(gè)非負(fù)矩陣,它們的乘積能有效地逼近原始矩陣。NMF的這些特征既符合人腦對(duì)事物的認(rèn)識(shí),又滿足圖像數(shù)據(jù)的表示要求,是學(xué)習(xí)物體部分表示的最佳方法。原始的NMF算法雖然能有效地對(duì)圖片進(jìn)行壓縮降維,但仍有不足之處,比如存在冗余數(shù)據(jù)、忽略某些重要特征、過度降維等等。針對(duì)NMF在圖像識(shí)別中存在的問題,提出了改進(jìn)的NMF算法,結(jié)合圖譜理論,保留數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)關(guān)系,設(shè)置閾值,優(yōu)化基矩陣,過濾冗余信息,提高圖像識(shí)別的效果。在PIE-Pose05,YaleB和COIL20數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,本文提出的改進(jìn)算法取得理想效果。
首次提出NMF 算法的是Lee和Seung等人[5],指出該算法可用于圖像識(shí)別,并在同年發(fā)表的文章[6]中給出迭代公式的推導(dǎo)過程,基于兩種目標(biāo)函數(shù),并且證明了收斂性。
有N張圖像,將每張圖像進(jìn)行向量化表示,這里用字母M表示,那么圖像數(shù)據(jù)庫(kù)可以被表示為:一個(gè)M×N的矩陣X=[x1,x2,…,xN]∈RM×N,其中,X的每一列表示一個(gè)樣本向量。進(jìn)而,問題可以轉(zhuǎn)化為:在實(shí)際中,需要找到兩個(gè)非負(fù)數(shù)據(jù)矩陣U=[uik]∈RM×K和V=[vjk]∈RN×K,兩者的乘積能很好地逼近原始矩陣X,即滿足如下公式:
X≈U×VT
(1)
在一般的現(xiàn)實(shí)應(yīng)用中K?M,K?N,所以,NMF對(duì)原始矩陣X進(jìn)行了壓縮。可以認(rèn)為U包含一組基,該基對(duì)X中數(shù)據(jù)的線性逼近進(jìn)行了優(yōu)化,這里把U稱基準(zhǔn)圖像矩陣,簡(jiǎn)稱基矩陣,V稱為編碼矩陣,本文將對(duì)基矩陣U做相應(yīng)處理,提高算法的效率。
通過使用非負(fù)的約束,NMF可以學(xué)習(xí)基于部分的表示,然而,它沒有發(fā)現(xiàn)數(shù)據(jù)空間固有的幾何判別結(jié)構(gòu)[7],而這對(duì)實(shí)際應(yīng)用是至關(guān)重要的,將圖譜理論[8-9]與NMF相結(jié)合,有效揭示隱藏的語義,又尊重?cái)?shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)。并且,為了更好地提取圖像特征,對(duì)基矩陣進(jìn)行處理,使得處理過后的向量包含更多實(shí)際所需要的信息。
給定一組數(shù)據(jù),可以構(gòu)造一個(gè)有N個(gè)頂點(diǎn)的鄰近圖,每個(gè)頂點(diǎn)代表一個(gè)相應(yīng)的數(shù)據(jù)點(diǎn),其中,圖中的每個(gè)數(shù)據(jù)點(diǎn)xj,找到它的p個(gè)最近鄰居,并在xj和它的鄰居之間設(shè)置一條邊,權(quán)矩陣W存儲(chǔ)每條邊的權(quán)值,本文為了簡(jiǎn)潔,選擇0-1加權(quán)法,當(dāng)且僅當(dāng)點(diǎn)j和點(diǎn)l由一條邊連接時(shí),Wjl=1,Wjl用于表示點(diǎn)xj和點(diǎn)xl的接近度。利用權(quán)矩陣W,可以用下面的公式來度量低維表示的光滑性:
Tr(VTDV)-Tr(VTWV)=Tr(VTLV)
(2)
其中,D是由矩陣W的列或者行構(gòu)成的一個(gè)對(duì)角矩陣,Tr則是計(jì)算矩陣的跡,Djj=∑lWjl,L=D-W,稱為圖拉普拉斯[10]。
將圖譜理論技術(shù)與原始的NMF相結(jié)合,利用流形假設(shè),開發(fā)圖正則化非負(fù)矩陣分解(GNMF);在GNMF得到的基矩陣上添加閾值,過濾冗余信息,進(jìn)而得到新的GNMF。
GNMF的歐式距離目標(biāo)最小化函數(shù)如下:
O=‖X-UVT‖+λTr(VTLV)
(3)
其中,λ≥0,是正則化參數(shù),控制新表示的平滑度。在GNMF的目標(biāo)函數(shù)O在U和V中不是同時(shí)凸的,所以找到全局最小值是不現(xiàn)實(shí)的,但可以找到局部最小值。以下給出O的步驟,并且推導(dǎo)出最后的迭代公式。
O=‖X-UVT‖+λTr(VTLV)=
Tr((X-UVT)(X-UVT)T)+λTr(VTLV)=
Tr(XXT)-2Tr(XVUT)+Tr(UVTVUT)+
λTr(VTLV)
(4)
利用拉格朗日乘子ψik和φjk分別約束uik≥0和vjk≥0,并且Ψ=[ψik],Φ=[φjk],拉格朗日Γ是:
Γ=Tr(XXT)-2Tr(XVUT)+Tr(UVTVUT)+
λTr(VTLV)+Tr(ΨUT)+Tr(ΦVT)
(5)
Γ對(duì)U和V求偏導(dǎo)得:
(6)
(7)
運(yùn)用KKT條件ψikuik=0和φjkvjk=0,得到uik和vjk的方程:
-(XV)ikuik+(UVTV)ikuik=0
(8)
-(XTU)jkvjk+(VUTU)jkvjk+λ(LV)jkvjk=0
(9)
解得方程的跟新規(guī)則為:
(10)
(11)
對(duì)基矩陣U進(jìn)行優(yōu)化,過濾數(shù)據(jù)之間存在的冗余信息。選擇一個(gè)閾值S,對(duì)矩陣U進(jìn)行閾值判斷處理,具體過程為,對(duì)于基矩陣U的每一列,將其與閾值S進(jìn)行比較,小于閾值S的置為s,s一般為一個(gè)很小的數(shù),并且s大于0,得到新的基矩陣Unew,X在新的基矩陣Unew投影得到新的Vnew,從而得到優(yōu)化的迭代跟新規(guī)則,對(duì)于公式(10)和(11)有:
(12)
(13)
經(jīng)過優(yōu)化的GNMF算法,降低冗余數(shù)據(jù)的干擾,使分解后的結(jié)果中含有更多在圖像識(shí)別過程中所需的有用信息,能夠有效提高算法的效率。
為了驗(yàn)證本文提出的將NMF結(jié)合圖譜理論和對(duì)基矩陣優(yōu)化的有效性,利用MATLAB平臺(tái)進(jìn)行實(shí)驗(yàn)驗(yàn)證,同時(shí)選用公開的兩種人臉圖像數(shù)據(jù)庫(kù)和一種物體圖像數(shù)據(jù)庫(kù):PIE-Pose05,YaleB和COIL20圖像數(shù)據(jù)庫(kù)。表1展示了三種圖像數(shù)據(jù)庫(kù)的詳細(xì)信息。
表1 三種圖像數(shù)據(jù)庫(kù)詳情
用不同算法的對(duì)比實(shí)驗(yàn),驗(yàn)證本文提出算法在圖像識(shí)別中的有效性,這里選用了Kmeans,PCA,NMF,GNMF,同時(shí)為了表明本文提出的對(duì)基矩陣優(yōu)化的有效性,給出兩種優(yōu)化處理的實(shí)驗(yàn):第一種,針對(duì)NMF,在原始NMF之上運(yùn)用本文提出的優(yōu)化方法,簡(jiǎn)稱New-NMF。第二種,針對(duì)GNMF,在GNMF之上運(yùn)用本文提出的優(yōu)化方法,簡(jiǎn)稱New-GNMF。
不同參數(shù)設(shè)置為:GNMF中,p設(shè)置為5,正則化參數(shù)λ設(shè)置為100;New-NMF中,在PIE-Pose05,YaleB兩種人臉圖像數(shù)據(jù)庫(kù)上,基矩陣閾值S設(shè)置為0.7,s設(shè)置為0.00001;在COIL20物體圖像數(shù)據(jù)庫(kù)上,基矩陣閾值S設(shè)置為0.03,s設(shè)置為0.00001;New-GNMF中,p設(shè)置為5,正則化參數(shù)λ設(shè)置為100,PIE、YaleB上基矩陣閾值S設(shè)置為0.7,s設(shè)置為0.00001;COIL20上基矩陣閾值S設(shè)置為0.03,s設(shè)置為0.00001。
為了直觀地表示出本文提出的算法在實(shí)際應(yīng)用中的有效性,使用兩種常用的標(biāo)準(zhǔn)度量方法:正確率(AC)和歸一化互信息(NMI)。表2~7展示了實(shí)驗(yàn)結(jié)果,為了隨機(jī)化實(shí)驗(yàn),對(duì)每個(gè)給定的集群號(hào)K分別測(cè)試運(yùn)行10次,表中報(bào)告了不同方法的每個(gè)集群號(hào)的性能結(jié)果(取平均值,并且保留兩位小數(shù))。
表2 PIE-Pose05上的AC結(jié)果(%)
表3 PIE-Pose05上的NMI結(jié)果(%)
表4 YaleB上的AC結(jié)果(%)
表5 YaleB上的NMI結(jié)果(%)
表6 COIL20上的AC結(jié)果(%)
表7 COIL20上的NMI結(jié)果(%)
從以上實(shí)驗(yàn)結(jié)果可以看出,本文提出的改進(jìn)算法對(duì)于圖像識(shí)別是有效的,可以總結(jié)為以下幾點(diǎn):
1)經(jīng)過對(duì)基矩陣進(jìn)行閾值限制優(yōu)化處理后,濾除圖像識(shí)別中數(shù)據(jù)之間的冗余信息,降低冗余信息的干擾,達(dá)到了有效特征提取目的,在不同的圖像數(shù)據(jù)庫(kù)中,本文算法比Kmeans,PCA,NMF,原始GNMF的效果好,AC和NMI兩個(gè)指標(biāo)都有所提高;
2)在NMF的基礎(chǔ)上引入圖譜理論有效地描述了圖像的幾何判別結(jié)構(gòu),提高識(shí)別效果,在三個(gè)數(shù)據(jù)庫(kù)中,不管是AC還是NMI,GNMF比NMF效果好,New-GNMF比New-NMF效果好;
3)在矩陣分解技術(shù)的基礎(chǔ)上,通過本文提出的對(duì)分解后的基矩陣設(shè)置閾值限制,進(jìn)行優(yōu)化處理,不管是對(duì)NMF還是GNMF,都能提高算法的有效性,并且在PIE-Pose05,YaleB人臉圖像數(shù)據(jù)庫(kù)上,NMF效果更加明顯,在COIL20物體圖像數(shù)據(jù)庫(kù)上,GNMF效果更加明顯??梢姡瑢?duì)在NMF和GNMF的基礎(chǔ)上對(duì)基矩陣進(jìn)行優(yōu)化處理能達(dá)到理想的效果;
4)由于不同數(shù)據(jù)庫(kù)中的圖片的拍攝條件、圖片數(shù)量等有所不同,在三個(gè)數(shù)據(jù)庫(kù)上的效果有所不同,表現(xiàn)為,YaleB和COIL20數(shù)據(jù)庫(kù)上的提高結(jié)果比PIE-Pose05數(shù)據(jù)庫(kù)上的提高結(jié)果更加出色;
5)對(duì)于每個(gè)給定的集群號(hào)K(1,3,5,10,20,23),實(shí)驗(yàn)結(jié)果也存在差異,但差異不是很大,算法整體表現(xiàn)穩(wěn)定。
本文提出的優(yōu)化算法關(guān)鍵是對(duì)基矩陣添加閾值S,在圖像識(shí)別過程中過濾冗余信息,S具有控制優(yōu)化程度的功能。本小節(jié)以曲線圖的形式展示出在三個(gè)數(shù)據(jù)庫(kù)上AC和NMI隨閾值的變化而變化的結(jié)果,這里在集群號(hào)23上分別對(duì)NMF和GNMF兩個(gè)方法進(jìn)行實(shí)驗(yàn),并將s設(shè)置為0.00001。橫坐標(biāo)表示閾值S的取值范圍,縱坐標(biāo)表示三個(gè)數(shù)據(jù)庫(kù)上AC和NMI隨S的變化而變化的結(jié)果,如下各圖所示:
圖1 AC和NMI在PIE-Pose05上隨參數(shù)S變化而變化
圖2 AC和NMI在YaleB上隨參數(shù)S變化而變化
圖3 AC和NMI在COIL20上隨參數(shù)S變化而變化
從圖1,2和圖3可以得到以下結(jié)論:
1)對(duì)于NMF,在數(shù)據(jù)庫(kù)PIE-Pose05上,當(dāng)S在0.7和1.1之間,AC和NMI都有比較好的效果;
2)對(duì)于NMF,在數(shù)據(jù)庫(kù)YaleB上,當(dāng)S在0.5到1.1之間,AC和NMI都有比較好的效果;
3)對(duì)于NMF,在數(shù)據(jù)庫(kù)COIL20上,當(dāng)S在0.01到0.06之間,AC和NMI都有比較好的效果;
4)對(duì)于GNMF,在數(shù)據(jù)庫(kù)PIE-Pose05和YaleB上,當(dāng)S在0.3到0.9之間,AC和NMI都有比較好的效果;
5)對(duì)于GNMF,在數(shù)據(jù)庫(kù)COIL20上,當(dāng)S在0.01到0.04之間,AC和NMI都有比較好的效果。
提出了一種新的圖正則化非負(fù)矩陣分解算法,將圖譜理論與傳統(tǒng)的NMF相結(jié)合,利用流形假設(shè),構(gòu)建鄰近圖,搭建模型,保留數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu);對(duì)分解后的基矩陣設(shè)置閾值S,進(jìn)行優(yōu)化處理,過濾了數(shù)據(jù)中的冗余信息,并且將這種方法運(yùn)用到圖像識(shí)別中。實(shí)驗(yàn)結(jié)果表明,不管是NMF還是GNMF,本文提出的改進(jìn)方法,在圖像數(shù)據(jù)庫(kù)中都具有更強(qiáng)的識(shí)別能力。
但此方法也存在不足,第一,閾值處理對(duì)不同數(shù)據(jù)達(dá)不到針對(duì)性優(yōu)化,在PIE-Pose05數(shù)據(jù)庫(kù)上的表現(xiàn)不是很出色;第二,因?yàn)樵黾恿碎撝堤幚?,使得整個(gè)識(shí)別過程所需時(shí)間增加。在未來的工作中,將對(duì)這兩點(diǎn)不足進(jìn)行改進(jìn):對(duì)于閾值S如何針對(duì)性自動(dòng)取值以及如何降低識(shí)別速度做進(jìn)一步地研究。