劉 凱,張立民,范曉磊
(1.海軍航空工程學(xué)院 基礎(chǔ)實驗部,264001 山東 煙臺; 2. 海軍航空工程學(xué)院 信息融合研究所, 264001 山東 煙臺;3. 第二炮兵工程大學(xué) 士官職業(yè)技術(shù)教育學(xué)院,262500 山東 青州)
?
改進卷積玻爾茲曼機的圖像特征深度提取
劉凱1,張立民2,范曉磊3
(1.海軍航空工程學(xué)院 基礎(chǔ)實驗部,264001 山東 煙臺; 2. 海軍航空工程學(xué)院 信息融合研究所, 264001 山東 煙臺;3. 第二炮兵工程大學(xué) 士官職業(yè)技術(shù)教育學(xué)院,262500 山東 青州)
摘要:針對卷積深度和信念網(wǎng)絡(luò)存在計算復(fù)雜度高和訓(xùn)練緩慢的問題,提出卷積深度玻爾茲曼機用于圖像特征提取. 針對卷積受限玻爾茲曼機進行改進,提出最大化圖像中間區(qū)域概率的訓(xùn)練目標函數(shù),并引入性能較好的交叉熵稀疏懲罰因子和dropout訓(xùn)練方法. 設(shè)計卷積深度玻爾茲曼機結(jié)構(gòu),提出均值聚合機制,將聚合層內(nèi)點的值定義為block中各點激活概率均值,對層間關(guān)聯(lián)進行簡化,將聚合層內(nèi)各面直接疊加以供高層CRBM提取特征. 通過在MNIST手寫數(shù)字識別集上的實驗結(jié)果證明,采用新模型提取的圖像特征分類準確率提高0.5%、訓(xùn)練時間減少50%,且達到了目前MNIST數(shù)據(jù)集的最佳水平.
關(guān)鍵詞:深度學(xué)習(xí);圖像特征提??;卷積受限玻爾茲曼機;卷積深度玻爾茲曼機
基于能量模型的受限玻爾茲曼機RBM(restricted boltzmann machine)[1]以其簡單的人工神經(jīng)網(wǎng)絡(luò)形式和快速的學(xué)習(xí)算法,已經(jīng)廣泛應(yīng)用于數(shù)據(jù)降維、語音識別和圖像處理等多個機器學(xué)習(xí)領(lǐng)域,進而催生出機器學(xué)習(xí)一個新的方向——深度學(xué)習(xí)[2]. 目前以受限玻爾茲曼機為基礎(chǔ)的圖像處理方法通常采用兩種方式構(gòu)建模型:一是直接將圖像中每一個像素對應(yīng)于一個可見單元[3];二是采用向量化的多種特征作為可見單元[4]. 這兩種方式的弊端在于:模型只能處理較小的圖像,難以處理大尺度圖像;選取的是顯式特征,受個人經(jīng)驗影響較大,靈活性差. 因此文獻[5]提出了卷積受限玻爾茲曼機CRBM(convolutional RBM),構(gòu)建了卷積深度信念網(wǎng)絡(luò)CDBN(convolutional deep belief net)用于提取不同層次的圖像表達,在手寫字識別和人臉識別中取得了最好結(jié)果,但仍然存在計算復(fù)雜度高、訓(xùn)練緩慢等問題.
參考目前性能較好的其他神經(jīng)模型[6-8],本文提出一種基于改進CRBM的圖像特征深度提取方法. 首先對CRBM進行改進,設(shè)計了圖像的補零操作以及CRBM新訓(xùn)練目標,引入稀疏性能較好的交叉熵稀疏懲罰因子抑制CRBM的特征同質(zhì)化問題;然后提出了均值聚合機制和簡化層間關(guān)系的深度學(xué)習(xí)模型——卷積深度玻爾茲曼機CDBM(convolutional deep boltzmann machine).
1卷積受限玻爾茲曼機
1.1CRBM模型
CRBM是類似于RBM的兩層結(jié)構(gòu). 設(shè)CRBM可見單元層為NV×NV的二值矩陣V,且包含K個NW×NW的卷積核,則隱單元層由K個大小為NH×NH的特征映射面組成,標記其中第k個特征映射面Hk的卷積核為Wk,偏置為bk. 該特征映射面中第i行第j列的隱單元條件激活概率為
式中:σ為sigmoid函數(shù),(Wk*V)ij表示卷積核Wk與可見層V中以第i行第j列單元為左上角的大小為NW×NW矩形塊卷積.
(1)
參照文獻[5],CRBM的卷積操作如圖1所示,其中可見單元層中無陰影部分為圖像的中間區(qū)域Vm(大小為(Nv-2(NW-1))×(Nv-2(NW-1))).
圖1 CRBM卷積操作
從圖1可以看出,根據(jù)式(1)僅僅能夠得到Vm區(qū)域單元的后驗激活概率. 對于可見單元層的非中間區(qū)域Vb,由于其可見單元參與卷積的次數(shù)與Vm不同,因此需要單獨對待,且文獻[5]忽視了這一問題. 1.2卷積受限玻爾茲曼機改進
針對CRBM模型可見單元重構(gòu)問題,提出CRBM的3個改進措施.
1.2.1交叉熵稀疏懲罰因子
在RBM對網(wǎng)絡(luò)連接權(quán)值進行學(xué)習(xí)的過程中,存在的主要問題是特征學(xué)習(xí)的同質(zhì)化. 由于所有隱單元都是在相互獨立的基礎(chǔ)上對訓(xùn)練數(shù)據(jù)進行學(xué)習(xí),當訓(xùn)練數(shù)據(jù)中存在某種共有特征時,隱單元均會受到影響,表現(xiàn)在RBM學(xué)習(xí)到的連接權(quán)值(即數(shù)據(jù)特征模式)之間的列(對應(yīng)于每個隱單元)相似度過高,而解決這一問題的方法就是調(diào)節(jié)隱單元的稀疏性.
1.2.2改進訓(xùn)練目標
鑒于CRBM可見單元重構(gòu)的分析,提出通過補零操作將邊緣區(qū)域Vb納入到中間區(qū)域得到Vm′,從而滿足式(1)計算. 因此改進后的模型訓(xùn)練目標FTarget由文獻[5]的最大化圖像似然概率變?yōu)樽畲蠡a零后圖像中間區(qū)域似然概率,即
式中:Vm′表示新圖像中間區(qū)域重構(gòu)數(shù)值,尺寸為原始圖像大小,避免了文獻[5]中圖像非中間區(qū)域Vb不能通過式(1)直接計算得到的缺陷;Vb′代表新圖像的非中間部分,由0組成;Vm′|Vb′表示Vb′保持不變;-PE代表最小化交叉熵稀疏懲罰因子,即使CRBM在學(xué)習(xí)過程中的特征映射面平均激活概率與p之間的Kullback-Leiber距離最小.
1.2.3dropout訓(xùn)練方法
引入dropout的目的在于防止訓(xùn)練過擬合,其方式為在模型訓(xùn)練時以概率q隨機設(shè)置網(wǎng)絡(luò)中若干隱單元權(quán)值為0.
2卷積深度玻爾茲曼機
由于單層CRBM提取圖像特征能力有限,并為更好形成圖像高層特征表達,構(gòu)建了基于CRBM的深度學(xué)習(xí)模型——卷積深度玻爾茲曼機(CDBM).CDBM較CDBN的優(yōu)勢在于計算復(fù)雜度較小且具有精準的聚合機制以及簡潔的層間關(guān)聯(lián).
2.1均值聚合機制
為使提取出的特征對輸入樣本具有較高的畸變?nèi)萑棠芰?,并增強算法對圖像的縮放大小的健壯性,借鑒CNN[11],對CDBM中增加隱單元聚合機制.
文獻[5]提出概率聚合(probabilisticpool)機制,目的在于適應(yīng)RBM的雙向連接結(jié)構(gòu),但問題是隱單元的聚合計算復(fù)雜度較高. 文獻[12]提出極大值聚合(MaxPool)機制,將block中隱單元的后驗激活概率最大值作為聚合層對應(yīng)點數(shù)值,其優(yōu)勢在于有效降低聚合機制的算法復(fù)雜度,但缺陷為易忽略圖像中的細微特征,而這些特征對于圖像識別往往是有效的.
鑒于以上兩種聚合機制的優(yōu)缺點,提出新的聚合機制——均值聚合:將聚合層單元的值定義為對應(yīng)block中所有隱單元后驗激活概率的均值,即
(2)
從式(2)可以看出,均值聚合的計算復(fù)雜度遠低于概率聚合. 為直觀顯示不同聚合機制差異,以Lena圖像為例,生成的聚合圖像如圖2所示,其中block大小為4×4.
(a)概率聚合 (b)極大值聚合 (c)均值聚合
從圖2可以看出,極大值聚合下的圖像細節(jié)最模糊;而概率聚合和均值聚合圖像較為貼近原始圖像. 采用基于SIFT特征的圖像匹配,3幅聚合圖像與原始圖像之間的特征點匹配關(guān)系如表1所示.
表1 不同聚合圖像與原始圖像間SIFT特征點匹配個數(shù)
從表1數(shù)據(jù)可以看出,極大值聚合圖像與原始圖像匹配的特征點數(shù)最少,概率聚合與均值聚合數(shù)目接近,且概率聚合圖像與均值聚合圖像更為接近. 結(jié)合圖2可證明,采用概率聚合和均值聚合機制生成的聚合層圖像能夠保留原始圖像較多特征,同時鑒于均值聚合較小的計算復(fù)雜度,使用均值聚合機制更具備優(yōu)勢.
2.2CDBM結(jié)構(gòu)
參照CDBN結(jié)構(gòu),對CDBM模型層間關(guān)聯(lián)進行設(shè)計. 以6層CDBM為例,其模型結(jié)構(gòu)如圖3所示. 模型輸入層即L1層為原始圖像本身;L2層為低層特征提取層,與L1構(gòu)成低層CRBM;L3層為聚合層,由L2層特征映射面通過均值聚合機制并相互疊加生成;L3層與L4層構(gòu)成高層CRBM,完成圖像底層特征向高層特征的組合;L5層為L4的聚合合并層,并作為圖像特征用于后續(xù)處理. 與CDBN不同之處在于: CDBN中L3層由多個聚合面組成,其二級CRBM卷積核為三維;CDBM中L3由L2生成的各個聚合面疊加生成,二級CRBM的卷積核為二維.
圖3 CDBM結(jié)構(gòu)圖
2.3CDBM訓(xùn)練
由于CDBM中L2-L3與L4-L5間為單向連接,因此CDBM的訓(xùn)練按照逐層貪婪無監(jiān)督訓(xùn)練[13]. 即首先對每一級CRBM進行無監(jiān)督學(xué)習(xí),待CRBM達到數(shù)據(jù)收斂條件或超過訓(xùn)練迭代次數(shù)后,固定本層CRBM參數(shù),隨后繼續(xù)下級CRBM訓(xùn)練.
3實驗
MNIST數(shù)據(jù)集為0到9的10個大小為28×28手寫數(shù)字圖像集合,其中訓(xùn)練集個數(shù)為60 000,測試集個數(shù)為10 000[14]. 為加速訓(xùn)練和學(xué)習(xí),將訓(xùn)練集的每100幅作為一個batch,用于參數(shù)更新. 實驗平臺采用安裝Matlab(2013a)的主頻為2.4 GHz的臺式機. 3.1CRBM訓(xùn)練目標實驗
本實驗采用重構(gòu)誤差作為評價RBM模型訓(xùn)練效果標準,其值是以訓(xùn)練數(shù)據(jù)作為初始狀態(tài),計算經(jīng)過若干次Gibbs Sample后與原數(shù)據(jù)的一階范數(shù)差值. 為驗證改進后新訓(xùn)練目標的學(xué)習(xí),設(shè)置了如下2種訓(xùn)練過程(模型卷積核個數(shù)為24,大小為7×7,隱單元稀疏度系數(shù)p=0.05,學(xué)習(xí)速率η=0.01,循環(huán)迭代次數(shù)為20).
1)原始訓(xùn)練過程:以最大化圖像重構(gòu)概率為訓(xùn)練目標,選用誤差平方和稀疏懲罰因子.
2)新訓(xùn)練過程:以最大化補零圖像重構(gòu)概率為訓(xùn)練目標,選用誤差平方和稀疏懲罰因子.
2種訓(xùn)練方法過程中的重構(gòu)誤差如圖4所示.
圖4 兩種訓(xùn)練方法的重構(gòu)誤差對比
從圖4可以看出,新訓(xùn)練過程的模型重構(gòu)誤差較低,表明經(jīng)訓(xùn)練后的CRBM對數(shù)據(jù)具有更好的似然度. 其原因在于新訓(xùn)練過程完成了對原始圖像邊緣區(qū)域的重構(gòu),從而降低了模型訓(xùn)練過程中的重構(gòu)誤差.
3.2稀疏懲罰因子實驗
為驗證不同稀疏懲罰因子對CRBM訓(xùn)練的影響,結(jié)合實驗1結(jié)果,選取新的訓(xùn)練目標函數(shù)和相同的模型設(shè)置進行CRBM訓(xùn)練. 圖5為在3種不同稀疏懲罰因子下的CRBM卷積核可視化圖.
從圖5可以看出: 在沒有稀疏懲罰因子的情況下,CRBM出現(xiàn)了嚴重的特征同質(zhì)化現(xiàn)象,絕大多數(shù)卷積核相似并且沒有對應(yīng)的特征表現(xiàn);采用稀疏懲罰因子后,卷積核之間差異變大且都有較為明顯的數(shù)字筆畫部分,證明了稀疏懲罰因子能夠有效地避免特征同質(zhì)化問題;從圖5(b)和圖5(c)對比發(fā)現(xiàn),圖5(b)中仍然存在著個別卷積核相似的現(xiàn)象,圖5(c)的卷積核之間差異變大,說明相較于誤差平方和稀疏懲罰因子,在交叉熵稀疏懲罰因子下CRBM學(xué)習(xí)的特征更局部化,克服CRBM特征同質(zhì)化的效果較好,證明特征同質(zhì)化得到進一步弱化.
完成CRBM訓(xùn)練后,選用特征映射面作為手寫字特征,采用LIBSVM[15]提供的徑向基支持向量機(RBF-SVM)和線性支持向量機(LSVM)作為最終分類器,其中參數(shù)設(shè)置除了核函數(shù)選擇不同外,其余均為默認設(shè)置,其實驗結(jié)果如表2所示.
(a)無稀疏懲罰因子
(b)誤差平方和稀疏懲罰因子
(c)交叉熵稀疏懲罰因子
稀疏懲罰機制特征向量維數(shù)分類準確率RBFLSVM無1220.120.20誤差平方和12297.6095.60交叉熵12298.3095.65
從表2數(shù)據(jù)可以看出,采用交叉熵稀疏懲罰因子的CRBM分類準確率最高,而沒有采用稀疏懲罰機制的CRBM訓(xùn)練無效,且選用RBF-SVM為分類器的準確率要高于LSVM,其原因在于CRBM中的可見單元通常參與多次卷積運算,這會增強模型訓(xùn)練時原始數(shù)據(jù)共有特征的影響,因此選用稀疏懲罰較好的交叉熵因子能夠改善特征同質(zhì)化帶來的模型特征分辨力差問題.
4結(jié)論
CDBM實現(xiàn)了從圖像底層特征到高層特征的提取,其過程符合實際的生物神經(jīng)網(wǎng)絡(luò),并且實驗結(jié)果證明了該模型能夠取得良好效果. CDBM通過訓(xùn)練數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),避免了以往顯式的特征抽取,而是對訓(xùn)練數(shù)據(jù)進行隱式學(xué)習(xí),減少了個人經(jīng)驗對圖像特征提取的影響. 相比于CRBM構(gòu)建的深度網(wǎng)絡(luò)CDBN,經(jīng)優(yōu)化后的CDBM訓(xùn)練時間更短,并可以有效完成圖像特征的提取. 今后工作應(yīng)繼續(xù)改進CRBM學(xué)習(xí)算法過程,減少模型訓(xùn)練時間,詳細分析模型參數(shù)對于訓(xùn)練學(xué)習(xí)的影響,并將新模型應(yīng)用到更多領(lǐng)域.
參考文獻
[1] 劉建偉, 劉媛, 羅雄麟. 玻爾茲曼機研究進展[J]. 計算機研究與發(fā)展, 2014, 51(1): 1-16.
[2] 林妙真. 基于深度學(xué)習(xí)的人臉識別研究[D]. 大連: 大連理工大學(xué), 2013.
[3] LAROCHELLE H, ERHAN D, COURVILLE A, et al. An empirical evaluation of deep architectures on problems with many factors of variation[C]// Proceedings of the 24th international conference on Machine learning. New York: ACM, 2007: 473-480.
[4] SRIVASTAVA N, SALAKHUTDINOV R. Multimodal learning with deep boltzmann machines[C]// Advances in neural information processing systems 2012. New York: ACM, 2012: 2222-2230.
[5] LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]// Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 609-616.
[6] GOODFELLOW I, WARDE-FARLEY D, MIRZA M, et al. Maxout Networks[C]// Proceedings of the 30th International Conference on Machine Learning. Piscataway. NJ: IEEE, 2013: 1319-1327.
[7] CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification[C]// Proceedings International Joint Conference on Artificial Intelligence 2011. New York: ACM, 2011: 22(1) . 1237-1239.
[8] CIRESAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition 2012. Piscataway, NJ: IEEE, 2012: 3642-3649.
[9] LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2[C]// Advances in Neural Information Processing Systems 2008 . New York: ACM, 2008: 873-880.
[10]HINTON G. A practical guide to training restricted boltzmann machines[M]. Berlin: Springer Berlin Heidelberg, 2012: 599-619.
[11]LAWRENCE S, GILES C L, TSOI A C, et al. Face recognition: A convolutional neural-network approach [J]. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.
[12]NOROUZI M. Convolutional restricted boltzmann machines for feature learning [D]. Vancouver: School of Computing Science-Simon Fraser University, 2009.
[13]LE Q V. Building high-level features using large scale unsupervised learning[C]// Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8595-8598.
[14]LIU C L, NAKASHIMA K, SAKO H.Handwritten digit recognition: benchmarking of state-of-the-art techniques[J]. Pattern Recognition, 2003, 36(10): 2271-2285.
[15]CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27-31.
(編輯王小唯苗秀芝)
New image deep feature extraction based on improved CRBM
LIU Kai1, ZHANG Limin2, FAN Xiaolei3
(1. Department of Basic Experiment, Naval Aeronautical and Astronautical University, 264001 Yantai, Shandong, China;2. Research Institute of Information Fusion, Naval Aeronautical and Astronautical University, 264001 Yantai, Shandong, China;3.Noncommission Officers Vocational and Technical Education College, The Second Artillery Engineering University,262500 Qingzhou, Shandong, China)
Abstract:To resolve the problems of high computational complexity and slow training in Convolutional Deep Belief Net, Convolutional Deep Boltzmann Machine(CDBM) is proposed to extract image features. To improve the Convelution Restricted Boltzmann Machine(CRBM), a new training objective function to maximize the probability of intermediate image area is proposed, along with introducing the cross-entropy penalty factor and dropout training. After that, CDBM is designed based on modified CRBM. The mean-pool mechanism is presented to lessen computational complexity and improve the robustness of features for image scaling. The relationship between layers is simplified to extract high-level abstract features. The MNIST handwritten digits database is used to test this new model and the results prove that features extracted by CDBM are more accurate than CDBN. The classification accuracy rate increase at least 0.5%, and training time decrease more than 50%.
Keywords:deep learning; image features extraction; CRBM; CDBM
中圖分類號:TP391.4
文獻標志碼:A
文章編號:0367-6234(2016)05-0155-05
通信作者:張立民, wendao_2008@163.com.
作者簡介:劉凱(1986—),男,博士研究生;張立民(1976—),男,教授,博士生導(dǎo)師.
基金項目:國家自然科學(xué)基金項目(61032001).
收稿日期:2005-04-01.
doi:10.11918/j.issn.0367-6234.2016.05.025