李萌 秦品樂 李傳朋
摘要:
針對深度信念網(wǎng)絡(DBN)算法在采用反向傳播修正網(wǎng)絡的連接權(quán)值和偏置的過程中,容易產(chǎn)生梯度小、學習率低、誤差收斂速度慢等問題,提出一種結(jié)合多新息(multiinnovation)理論對標準DBN算法進行改進的算法,即多新息DBN(MIDBN)。MIDBN算法是對標準DBN算法中反向傳播的過程重新建模,使得算法在原先只利用單個新息的情況下,擴展為能夠充分利用之前多個周期的新息,從而大幅提高誤差收斂速度。通過實驗對MIDBN算法和其他分類算法進行了數(shù)據(jù)集分類的比較,實驗結(jié)果表明,MIDBN算法相較其他分類算法,其誤差收斂速度較快,而且最終對MNIST數(shù)據(jù)集和Caltech101數(shù)據(jù)集的識別中誤差結(jié)果相對更小。
關(guān)鍵詞:
深度信念網(wǎng)絡算法;誤差收斂速度;多新息理論;反向傳播
中圖分類號:
TP389.1
文獻標志碼:A
Abstract:
Aiming at the problem of small gradient, low learning rate, slow convergence of error during the process of using Deep Belief Network (DBN) algorithm to correct connection weight and bias of network by the method of back propagation, a new algorithm called MultiInnovation DBN (MIDBN) was proposed based on combination of standard DBN algorithm with multiinnovation theory. The back propagation process in standard DBN algorithm was remodeled to make full use of multiple innovations in previous cycles, while the original algorithm can only use single innovation. Thus, the convergence rate of error was significantly increased. MIDBN algorithm and other representative classifiers were compared through experiments of datasets classification. Experimental results show that MIDBN algorithm has a faster convergence rate than other sorting algorithms; especially when identifying MNIST and Caltech101 dataset, MIDBN algorithm has the fewest inaccuracies among all the algorithms.
英文關(guān)鍵詞Key words:
Deep Belief Network (DBN) algorithm; error convergence rate; multiinnovation theory; backpropagation
0引言
深度學習[1]近幾年來在人工智能領域(語音識別、自然語言處理、計算機視覺、圖像與視覺分析、多媒體等)取得重要突破。深度學習中的模型有多種,有一種無監(jiān)督的學習算法——深度信念網(wǎng)絡(Deep Belief Network, DBN)學習算法[2-3],這種方法可以創(chuàng)建一些網(wǎng)絡層來檢測特征而不使用帶標簽的數(shù)據(jù),這些網(wǎng)絡層可以用來重構(gòu)或者對特征檢測器的活動進行建模。通過預訓練過程,深度網(wǎng)絡的權(quán)值可以被初始化為有意義的值,然后一個輸出層被添加到該網(wǎng)絡的頂部,并且使用標準的反向傳播算法進行微調(diào),這個工作對手寫數(shù)字的識別效果顯著。
Hinton等[2]將DBN應用于對MNIST數(shù)據(jù)集的數(shù)字識別任務上。他提出了網(wǎng)絡結(jié)構(gòu)為784500500200010的DBN模型,其中第一層的784個特征是由MNIST數(shù)據(jù)集中圖像的像素28×28而得來的,最后一層是含有標簽的10個單元,中間三層是函數(shù)隨機二進制神經(jīng)元的隱藏層單元。Hinton在文章中提到該算法能達到1.25%的分類錯誤率。文獻[4]在Hinton等[2]提出的標準DBN基礎上改進了受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的采樣方法,將原始的對比散度(Contrastive Divergence, CD)算法改為持續(xù)自由能量對比散度(Free Energy in Persistent Contrastive Divergence, FEPCD)算法,最終MNIST數(shù)據(jù)集的識別結(jié)果達到1.11%的分類錯誤率。文獻[5]中Liu提出了一種新的基于標準DBN的分類器判別式深度信念網(wǎng)絡(Discriminative Deep Belief Network, DDBN),整合了DBN的抽象能力和反向傳播策略的鑒別能力,其除了對MNIST數(shù)據(jù)集進行識別之外,還對Caltch 101數(shù)據(jù)集進行分類識別。
Hinton等[6]提出DBN是作為非線性模型進行特征的提取和降維,DBN是一個在最后一層重構(gòu)產(chǎn)生的特征可見數(shù)據(jù)的能力模型。當一個一般的神經(jīng)網(wǎng)絡被用于多層時,神經(jīng)網(wǎng)絡極容易被困在局部極小和其性能也減小,因此,確定神經(jīng)網(wǎng)絡權(quán)值的初始值至關(guān)重要。
Hinton等[6]提出的DBN是非線性模型,用來進行特征的提取和降維,是一種在最后一層重構(gòu)產(chǎn)生的特征可見數(shù)據(jù)的能力模型。一般的神經(jīng)網(wǎng)絡被用于多層時,極容易被困在局部極小和其性能也較低,因此,確定神經(jīng)網(wǎng)絡的權(quán)值的初始
值至關(guān)重要,而DBN很好地解決了權(quán)值初始化的問題。
本文引進丁鋒等[7]和Ding[8]提出的多新息辨識理論,提出了一種基于多新息理論的深度信念網(wǎng)絡學習算法,改進算法在原有的基礎上提高了權(quán)值誤差的收斂速度,提高了識別MNIST數(shù)據(jù)集的精確度。
DBN模型進行特征的提取需要三個過程,分別是預訓練過程、微調(diào)過程和測試過程,以下將詳細介紹三個過程。
1.1預訓練過程
預訓練是如圖1中自底向上識別權(quán)值與偏置的過程,此過程將輸入數(shù)據(jù)經(jīng)過網(wǎng)絡的每一層提取特征后獲得激勵響應,將其添加至輸出層,具體過程如下:
1)先單獨無監(jiān)督地訓練每一層RBM網(wǎng)絡,在確保特征向量映射到不同特征空間的同時,盡可能多地保留特征信息。
2)在DBN的最后一層設置一個logistic分類器,用于接受RBM的輸出特征向量,將其作為logistic回歸網(wǎng)絡的輸入特征向量,進行有監(jiān)督的訓練。而且每一個RBM網(wǎng)絡層能夠確保自身層內(nèi)的權(quán)值對該層特征向量映射達到最優(yōu),而不是對整個DBN的特征向量映射達到最優(yōu),所以反向傳播會將錯誤信息自上向下傳播至每一層RBM,從而需要微調(diào)整個DBN。RBM網(wǎng)絡訓練模型過程的目的是對logistic回歸網(wǎng)絡的權(quán)值參數(shù)的初始化,使DBN克服logistic回歸網(wǎng)絡因隨機初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓練時間過長的缺點。
1.2微調(diào)過程
微調(diào)是如圖1自頂向下更新權(quán)值和偏置的過程,此過程可以大幅度提升一個自編碼神經(jīng)網(wǎng)絡的性能表現(xiàn),將網(wǎng)絡的所有層視為一個模型,在每次迭代中,網(wǎng)絡中的所有權(quán)值和偏置都會被優(yōu)化。具體過程如下:
2.2結(jié)合多新息的DBN算法——MIDBN
DBN經(jīng)過無監(jiān)督和逐層的訓練[14-15],使得在利用反向傳播算法對網(wǎng)絡進行全局優(yōu)化之前,網(wǎng)絡參數(shù)能有一個好的初始值,一個較好的局部極小點就在訓練完成時達到。在學習系統(tǒng)中,有可能數(shù)以百萬計的樣本和權(quán)值,在最上層加上帶有標簽的樣本,用來訓練機器。如圖1所示,為了正確地調(diào)整權(quán)值向量,用反向傳播算法計算每個權(quán)值的梯度向量,表示如果權(quán)值增加了一個很小的值,那么誤差會增加或減少的量。反向傳播算法通過多層網(wǎng)絡的每一層可以被重復地用于傳播梯度;從該網(wǎng)絡的最頂層的輸出一直到最底層,每層的輸入導數(shù)求解完成之后,就可以求解每一層權(quán)值的梯度矢量,權(quán)值向量在梯度矢量的相反方向上進行調(diào)整。隨機梯度算法的計算量小,收斂速度慢,為了提高隨機梯度辨識方法的收斂速度,引入新息長度。圖1中,在自頂向下過程中修正每層網(wǎng)絡權(quán)值和偏置,所有層更新完成時即是一個周期,在此過程中每次的權(quán)值和偏置更新都是基于上一個周期的對應值,在DBN原有更新權(quán)值和偏置的基礎上,對每層網(wǎng)絡對應的前幾個周期的值進行充分利用,將單新息擴展為新息向量,從而提高誤差的收斂速率。
在對時變系統(tǒng)進行辨識時,如果網(wǎng)絡的權(quán)值按照某種規(guī)律動態(tài)變化,那么網(wǎng)絡的輸入輸出映射關(guān)系也必然會隨著時間而變化,從而有可能對時變系統(tǒng)進行辨識。由于權(quán)值隨時間變化的規(guī)律很難獲得,故將網(wǎng)絡微調(diào)的整個周期作為新息長度p,周期數(shù)作為時間t,定義正整數(shù)序列{t0,t1,t2,…,ts},滿足0 本文實驗所涉及的評判標準主要有以下幾個方面: 1)錯誤率。錯誤率指標主要用于衡量不同分類模型對于數(shù)據(jù)集分類的錯誤程度,該指標是用來衡量分類錯誤程度的一個重要指標,直接關(guān)系著算法的可靠性。在Matlab中使用公式計算錯誤率: err=mean(zeros((epoch-numbatches):(epoch-1)))×100% 其中:epoch表示周期數(shù),numbatches表示批次數(shù)。 表1給出了不同算法對MNIST數(shù)據(jù)集分類的錯誤率[4],其中標準DBN算法、含有FEPCD的DBN改建算法和本文中的MIDBN算法均使用60000個樣本訓練,10000個樣本測試,50個周期訓練,150個周期測試,用相同的網(wǎng)絡結(jié)構(gòu),并且其相關(guān)參數(shù)學習率等也相同的條件下進行的實驗。顯然,加入多新息的DBN算法運算量加大,運行速度下降,但改進算法以時間耗費為代價獲得了數(shù)據(jù)集分類錯誤率的降低。表1 中的時間是指每個周期所用時間,其中下劃線的數(shù)據(jù)是本文改進算法對MNIST數(shù)據(jù)分類后的錯誤率,可以看出,MIDBN算法有更小的錯誤率。 2)誤差。對實驗中誤差數(shù)據(jù)進行仿真,實驗過程中的訓練周期為50,進行微調(diào)的周期為150。圖3是MIDBN算法和其他分類器對MNIST數(shù)據(jù)集分類的誤差曲線對比分析。如圖3中最下邊曲線表示在150個周期中本文的改進算法MIDBN對MNIST數(shù)據(jù)集進行分類時其誤差的曲線,上邊的曲線從上到下依次是SVM、KNN、DBN和FEPCD算法在同樣條件下對MNIST數(shù)據(jù)集進行分類時其誤差的曲線。可以看出MIDBN中MNIST數(shù)據(jù)集的誤差曲線收斂得更快。 3.3Caltech 101數(shù)據(jù)集 以上實驗中驗證了MIDBN算法對MNIST數(shù)據(jù)集的分類時,其誤差有明顯地降低,本節(jié)則將Caltech 101數(shù)據(jù)集在MIDBN算法和其他分類器算法上進行分類識別。Caltech 101數(shù)據(jù)集包含有101類的圖像,在本文的實驗中,選用其中的5個類。在本次Caltech 101數(shù)據(jù)集實驗中MIDBN結(jié)構(gòu)為4005005009005,輸入層是將圖片轉(zhuǎn)換為20×20像素即400個單元,輸出層是5個單元,三個隱藏層分別是500、500、900個單元。如圖4所示是Caltech 101數(shù)據(jù)集的不同類別。
表2即是本次實驗的誤差分類錯誤率結(jié)果,由于本次實驗的數(shù)據(jù)集樣本數(shù)目少,類別小,因此實驗結(jié)果與MNIST數(shù)據(jù)集相比較不是特別理想。我們將Caltech 101數(shù)據(jù)集在不同分類器下的結(jié)果進行比較。
4結(jié)語
基于對DBN算法中的不足,本文提出了結(jié)合多新息隨機梯度辨識的深度信念網(wǎng)絡學習算法,在深度信念網(wǎng)絡的基礎上加上多新息理論算法。改進算法MIDBN結(jié)合歷史周期的數(shù)據(jù)信息,充分利用隱含在過去數(shù)據(jù)中的有用信息,使得每層網(wǎng)絡的連接權(quán)值和偏置能夠更快地達到預測值。仿真結(jié)果表明,誤差的收斂速率提高,并且MIDBN算法在對MNIST手寫數(shù)據(jù)集和Caltech 101數(shù)據(jù)集的識別中,最終分類錯誤率有所降低。
參考文獻:
[1]
LECUN Y, BENGIO Y, HINTON G E, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[2]
HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.
[3]
LAROCHELLE H, ERHAN D, COURVILLE A, et al. An empirical evaluation of deep architectures on problems with many factors of variation [C]// ICML 07: Proceedings of the 2007 24th International Conference on Machine Learning. New York: ACM, 2007: 473-480.
[4]
KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2014, 29(5):1411-4046.
http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf-8&sc_us=758889154434608003
KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [EB/OL]. [20151122]. http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf8&sc_us=758889154434608003.
[5]
LIU Y, ZHOU S, CHEN Q. Discriminative deep belief networks for visual data classification [J]. Pattern Recognition, 2011, 44(10/11): 2287-2296.
[6]
HINTON G E, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science, 2016, 313(5786): 504-507.
[7]
丁鋒,蕭德云,丁韜.多新息隨機梯度辨識方法[J].控制理論與應用,2003,20(6):870-874.(DING F, XIAO D Y, DING T. Multiinnovation stochastic gradient identification methods [J]. Control Theory and Applications, 2003, 20(6): 870-874.)
[8]
DING F. Several multiinnovation identification methods [J]. Digital Signal Processing, 2010, 20(4): 1027-1039.
[9]
HINTON G E. A practical guide to training restricted Boltzmann machines [C]// Neural Networks: Tricks of the Trade, LNCS 7700. Berlin: Springer, 2012: 599-619.
[10]
SWERSKY K, CHEN B, MARLIN B, et al. A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets [C]// Proceedings of the 2010 Information Theory and Applications Workshop. Piscataway, NJ: IEEE, 2010:1-10.
[11]
丁潔,謝莉,丁鋒. 非均勻采樣系統(tǒng)多新息隨機梯度辨識性能分析[J].控制與決策,2011,26(9):1338-1342.(DING J, XIE L, DING F. Performance analysis of multiinnovation stochastic gradient identification for nonuniformly sampled systems [J]. Control and Decision, 2011, 26(9): 1338-1342.)
[12]
丁鋒.系統(tǒng)辨識(6):多新息辨識理論與方法[J].南京信息工程大學學報,2012,4(1):1-28.(DING F. System identification. Part F: multiinnovation identification theory and methods [J]. Journal of Nanjing University of Information Science and Technology, 2012, 4(1):1-28.)
[13]
丁鋒,楊家本.衰減激勵條件下確定性系統(tǒng)多新息辨識的收斂性分析[J].清華大學學報(自然科學版),1998,38(9):111-115.(DING F, YANG J B. Convergence of multiinnovation identification under attenuating excitation conditions for deterministic systems [J]. Journal of Tsinghua University (Science and Technology), 1998,38(9):111-115.)
[14]
LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [J]. Advances in Neural Information Processing Systems, 2007, 20: 873-880.
LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [EB/OL]. [20151126]. http://web.eecs.umich.edu/~honglak/nips07sparseDBN.pdf.
[15]
KRIZHEVSKY A, Learning multiple layers of features from tiny images [D]. Toronto: University of Toronto, 2009:17.
[16]
LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [2011]. http://yann.lecun.com/exdb/mnist/index.html.
LECUN Y, CORTES C. The MNIST database of handwritten digits [EB/OL]. [20111220]. https://www.lri.fr/~marc/Master2/MNIST_doc.pdf.
LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [20111220]. http://yann.lecun.com/exdb/mnist/index.html.
[17]
LI F F, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [C]// CVPRW 04: Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004,12: 178.
[18]
KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [J]. Computer Vision and Pattern Recognition, 2014, 12:1408-3264.
KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [EB/OL]. [20151106]. https://www.researchgate.net/publication/264790642_A_brief_survey_on_deep_belief_networks_and_introducing_a_new_object_oriented_MATLAB_toolbox_DeeBNet_V20.