岳 頎,馬彩文
(1.中國(guó)科學(xué)院 西安光學(xué)精密機(jī)械研究所, 西安 710119; 2.中國(guó)科學(xué)院大學(xué), 北京 100039; 3.西安郵電大學(xué), 西安 710121)
指數(shù)彈性動(dòng)量卷積神經(jīng)網(wǎng)絡(luò)及其在行人檢測(cè)中的應(yīng)用
岳 頎1,2,3,馬彩文1
(1.中國(guó)科學(xué)院 西安光學(xué)精密機(jī)械研究所, 西安 710119; 2.中國(guó)科學(xué)院大學(xué), 北京 100039; 3.西安郵電大學(xué), 西安 710121)
針對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)存在規(guī)則化參數(shù)多、未利用淺層先驗(yàn)知識(shí)、參數(shù)隨機(jī)初始化后易導(dǎo)致權(quán)值更新梯度彌散及訓(xùn)練早熟等問題,采用PCA非監(jiān)督學(xué)習(xí)方式獲取導(dǎo)向性初始化參數(shù)數(shù)值方法,并基于對(duì)網(wǎng)絡(luò)誤差的傳播分析,提出指數(shù)自適應(yīng)彈性動(dòng)量參數(shù)學(xué)習(xí)方法. 以復(fù)雜場(chǎng)景下行人目標(biāo)為例進(jìn)行目標(biāo)檢測(cè)試驗(yàn),實(shí)驗(yàn)表明: 與人工特征檢測(cè)識(shí)別方案及傳統(tǒng)深度卷積模型相比,該模型可有效提升目標(biāo)檢測(cè)精度,檢測(cè)速度提升20%以上;與其他動(dòng)量同源更新機(jī)制相比,該算法收斂速度更快,收斂曲線更平滑,泛化能力強(qiáng),可在不同深度模型均可取得較好檢測(cè)效果,準(zhǔn)確率分別平均提高1.6%,1.8%和6.19%.
深度神經(jīng)網(wǎng)絡(luò);彈性動(dòng)量;目標(biāo)檢測(cè);模型優(yōu)化
隨著科技的不斷進(jìn)步,目標(biāo)智能檢測(cè)算法作為視頻監(jiān)控、交通管理、醫(yī)藥檢驗(yàn)以及工農(nóng)業(yè)產(chǎn)品監(jiān)管等高層應(yīng)用系統(tǒng)的技術(shù)基礎(chǔ),應(yīng)用范圍日益廣泛,其相關(guān)算法研究受到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注. 目前,圖像檢測(cè)算法通?;谌斯ぴO(shè)計(jì)特征進(jìn)行模式識(shí)別. 該類特征提取方法場(chǎng)景適應(yīng)能力弱,且需以深厚的理論知識(shí)和特征設(shè)計(jì)經(jīng)驗(yàn)為基礎(chǔ)進(jìn)行設(shè)計(jì),實(shí)現(xiàn)起來費(fèi)時(shí)費(fèi)力[1]. 深度學(xué)習(xí)算法具有自主學(xué)習(xí)抽象特征和概念的能力,可以根據(jù)數(shù)據(jù)信息提取底層特征和多層次、抽象化的高級(jí)特征[2-3],因而成為當(dāng)前模式識(shí)別領(lǐng)域研究熱點(diǎn). 深度卷積神經(jīng)網(wǎng)絡(luò)提取特征具有旋轉(zhuǎn)、縮放和平移不變性,較深度信念網(wǎng)絡(luò)架構(gòu)和深度自編碼器等深度模型來說,更適宜進(jìn)行圖像檢測(cè)和識(shí)別.
近年來,國(guó)內(nèi)外學(xué)者開展了大量基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別算法研究,并已取得很多研究成果. 歐陽萬里等[4]提出UDN算法,該算法基于深度模型框架,聯(lián)合處理目標(biāo)特征提取、形變遮擋和分類問題;Ross 等[5]提出基于興趣區(qū)域的CNN特征提取算法,該算法通過視覺顯著性提取興趣區(qū)域,提升CNN提取特征的辨識(shí)能力;羅萍等[6]提出分類特征提取算法,該算法在傳統(tǒng)的CNN結(jié)構(gòu)中引入可切換的RBM層,并將目標(biāo)分為整體和部件兩類進(jìn)行分布特征提?。粡垖幍萚7]提出部件-CNN深度模型,該模型將部件算法和CNN特征提取算法進(jìn)行融合,并采用分塊圖片訓(xùn)練方法提升CNN特征提取泛化能力;張陽等[8]提出融合深度模型,該模型將受限波茲曼機(jī)和BP神經(jīng)網(wǎng)絡(luò)結(jié)合起來組建深度學(xué)習(xí)網(wǎng)絡(luò);曾敏等[9]提出變結(jié)構(gòu)深度模型,該模型將遮擋層和變形層引入深度架構(gòu),降低遮擋行人誤檢率. 上述研究成果多以深度模型結(jié)構(gòu)為關(guān)注要點(diǎn),忽視了輸入數(shù)據(jù)對(duì)網(wǎng)絡(luò)結(jié)果的影響及網(wǎng)絡(luò)訓(xùn)練算法對(duì)模型特征提取時(shí)間及提取特征辨識(shí)力的影響,且忽略了深度模型梯度彌散及早熟問題的研究.
就以上問題,本文構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)框架,并在深入分析深度卷積神經(jīng)網(wǎng)絡(luò)誤差傳播過程的基礎(chǔ)上,提出指數(shù)自適應(yīng)彈性動(dòng)量參數(shù)學(xué)習(xí)方法. 仿真實(shí)驗(yàn)結(jié)果表明:與人工特征檢測(cè)方法相比,本文方法可有效提升目標(biāo)檢測(cè)精度;與其他動(dòng)量同源更新機(jī)制相比,本文方法收斂速度快、振蕩小,且能顯著改善檢測(cè)準(zhǔn)確率.
深度卷積神經(jīng)網(wǎng)絡(luò)由單層卷積神經(jīng)網(wǎng)絡(luò)堆疊產(chǎn)生. 卷積核尺寸選取、閾值參數(shù)設(shè)置、網(wǎng)絡(luò)深度設(shè)計(jì)和輸出層特征維數(shù)選取是深度卷積神經(jīng)網(wǎng)絡(luò)特征提取算法的4個(gè)重要問題. 卷積核表述“視覺感受野”大小,卷積核過大,則提取特征超出卷積核可表達(dá)的特征范圍;卷積核過小,則無法提取有效局部特征. 閾值參數(shù)用于控制網(wǎng)絡(luò)模型對(duì)特征子模式的反應(yīng)程度. 網(wǎng)絡(luò)深度表述模型對(duì)復(fù)雜問題的非線性表達(dá)能力. 網(wǎng)絡(luò)層數(shù)越多,特征表達(dá)能力越強(qiáng),但網(wǎng)絡(luò)層數(shù)過多易導(dǎo)致過擬合及實(shí)時(shí)性差等問題. 輸出層特征維數(shù)決定了網(wǎng)絡(luò)收斂的速度,當(dāng)樣本集有限時(shí),輸出層維度過低則無法保證特征的有效性,輸出層維度過高會(huì)產(chǎn)生特征冗余.
除此之外,由于深度網(wǎng)絡(luò)架構(gòu)是根據(jù)輸入圖像自主進(jìn)行特征提取的,因此深度模型的輸入數(shù)據(jù)對(duì)最終特征提取的影響也是至關(guān)重要的[10]. 傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)模型直接將原始圖像作為輸入數(shù)據(jù). 這樣的方式雖然可使深度模型獲得全面的數(shù)據(jù)信息,但是會(huì)大幅降低網(wǎng)絡(luò)收斂速度,并在一定程度上影響深度模型特征提取能力. 因此,對(duì)輸入圖像進(jìn)行預(yù)處理,用以提高特定模式分類問題收斂速度及分類精度是有必要的.
基于以上分析,本文針對(duì)行人檢測(cè)識(shí)別問題,設(shè)計(jì)深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體模型架構(gòu)如圖1所示.
圖1 深度卷積神經(jīng)網(wǎng)絡(luò)模型
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)深度模型共分為七層. 輸入圖像在進(jìn)行歸一化、光照增強(qiáng)預(yù)處理后,計(jì)算其顏色特征及顯著Centrist特征. 以原始數(shù)據(jù)、顏色特征及顯著Centrist特征三幅圖像作為輸入圖像. 網(wǎng)絡(luò)中,第一層C1、第三層C3和第五層C5為卷積層,實(shí)現(xiàn)從低級(jí)到高級(jí)的特征提?。坏诙覵2、第四層S4和第六層S6是下采樣層,用于特征降維;第七層F7為輸出層,通過全連接方式提取最終抽象特征. 該模型利用線性SVM對(duì)特征進(jìn)行模式分類. 為了提取具有更佳區(qū)分性能的特征,卷積層濾波器大小分別設(shè)為9×9、5×5和3×3,下采樣層均采用形變最大下采樣方法進(jìn)行采樣,激發(fā)函數(shù)采用LRel函數(shù),輸出層為全連接層.
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)通常采用隨機(jī)初始化、非監(jiān)督訓(xùn)練初始化等方法初始化模型參數(shù). 隨機(jī)初始化方法易導(dǎo)致模型收斂時(shí)間增加、權(quán)值更新梯度消失、非最小值收斂等問題. 非監(jiān)督訓(xùn)練初始化方法多采用非監(jiān)督深度網(wǎng)絡(luò)預(yù)訓(xùn)練方式獲取,該方法復(fù)雜度高、訓(xùn)練時(shí)間長(zhǎng). 為克服以上問題,本文提出采用主成分分析法(PCA)初始化深度模型參數(shù)方法. PCA算法與受限自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式具有高度的相似性[11-12],因此可通過對(duì)原始數(shù)據(jù)進(jìn)行主成分分析獲得的特征向量來近似代替受限自編碼器訓(xùn)練結(jié)果,用其作為深度卷積神經(jīng)網(wǎng)絡(luò)的初始化參數(shù). 并且,為了避免主成分分析算法降低深度模型泛化能力,初始化時(shí)的輸入數(shù)據(jù)集均為經(jīng)過圖像特征檢索擴(kuò)充法和數(shù)據(jù)增強(qiáng)算法處理后的樣本集.
本文方法屬于非監(jiān)督算法,可簡(jiǎn)單快速地獲取較好的初始化參數(shù),具體算法流程如下.
Step 2 獲取濾波器取片樣本集矩陣.
1)在Ii中按k1×k2無重疊分塊,獲得(m-k1+1)(n-k2+1)個(gè)取片圖像.
2)柵格化取片圖像為向量形式{xi},xi∈Rk1k2×1.
3)獲得取片樣本集矩陣,并去平均后,得
Step 3 求解矩陣X的主成分特征向量.
3.1 網(wǎng)絡(luò)誤差傳遞
誤差傳遞通過前向傳播和反向梯度下降兩步生成和調(diào)整權(quán)值. 梯度下降法更新權(quán)值方法如式(1)所示,偏置更新方法如式(2)所示[13]:
(1)
(2)
由式(1)、(2)可知,要想實(shí)現(xiàn)權(quán)值和偏置尋優(yōu),首先必須獲得誤差對(duì)權(quán)值的梯度及誤差對(duì)偏置的梯度.
1)卷積層誤差傳播. 對(duì)卷積層來說,其輸出如式(3)所示為
(3)
根據(jù)敏感度函數(shù)求導(dǎo)公式可知,卷積層敏感度可由式(4)表示為
).
(4)
由式(4)可推導(dǎo)獲得卷積層誤差對(duì)偏置的梯度如式(5)所示為
(5)
式中(u,v)為靈敏度矩陣的元素位置.
卷積層誤差對(duì)權(quán)值的梯度,如式(6)所示為
(6)
2)采樣層誤差傳播. 采樣層神經(jīng)網(wǎng)絡(luò)的輸出可由式(7)表示為
(7)
根據(jù)梯度下降敏感度公式,可知采樣層敏感度如式(8)所示為
).
(8)
由此可得采樣層偏置更新公式,如式(9)所示為
(9)
將式(9)帶入式(2)即可獲得偏置值更新數(shù)值.
3.2 指數(shù)自適應(yīng)彈性動(dòng)量?jī)?yōu)化
上述權(quán)值更新方法只是單一的層間傳遞梯度誤差,沒有考慮到上一時(shí)刻的梯度變化方向,即以前神經(jīng)網(wǎng)絡(luò)權(quán)值修正的經(jīng)驗(yàn). 因此,在訓(xùn)練過程中常會(huì)出現(xiàn)過調(diào)和振蕩現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)收斂緩慢. 文獻(xiàn)[14]提出采用動(dòng)量方法可以加快收斂,文獻(xiàn)[15]提出自適應(yīng)動(dòng)量梯度下降(traingdx). 但上述方法均未考慮上一時(shí)刻的梯度變化方向、動(dòng)量方向以及當(dāng)前誤差對(duì)權(quán)值梯度方向的一致性. 且動(dòng)量因子沒有促進(jìn)收斂,提升學(xué)習(xí)性能能力.
本文采用誤差對(duì)權(quán)值梯度的指數(shù)函數(shù)調(diào)整動(dòng)量因子步伐,使其在誤差平坦區(qū)時(shí),動(dòng)量因子增大,加快網(wǎng)絡(luò)收斂速度;誤差陡峭區(qū)時(shí),減小動(dòng)量因子,避免網(wǎng)絡(luò)收斂過快,錯(cuò)過極小點(diǎn)出現(xiàn)的不穩(wěn)定. 并且,基于符號(hào)函數(shù)判別方法,促使動(dòng)量因子在前后兩次梯度方向相同時(shí)比例增大,在前后兩次梯度方向相反時(shí)比例減小. 動(dòng)量因子更新公式如式(10)、式(11)所示為
(10)
Ak=-λ1‖Dk‖-λ2.
(11)
由式(10)可以看出,‖Dk‖增大,則a減?。弧珼k‖減小,則a增大. 即誤差曲面陡峭,動(dòng)量因子減??;誤差曲面平坦,動(dòng)量因子增大.
為了提升行人檢測(cè)的實(shí)時(shí)性及準(zhǔn)確度,受R-CNN目標(biāo)檢測(cè)算法思想的啟發(fā),根據(jù)模式識(shí)別分類框架設(shè)計(jì)粗細(xì)二級(jí)行人檢測(cè)框架,如圖2所示. 為提升深度卷積神經(jīng)網(wǎng)絡(luò)提取特征分類能力,采用圖像特征檢索擴(kuò)充法和數(shù)據(jù)增強(qiáng)算法對(duì)樣本集進(jìn)行擴(kuò)充. 為了快速檢測(cè)行人目標(biāo)區(qū)域,采用二值梯度規(guī)范法和選擇搜索法級(jí)聯(lián)選取行人預(yù)選區(qū)域,并根據(jù)行人寬高比和頭部梯度范圍進(jìn)一步縮小特征提取窗口數(shù)量. 對(duì)需提取特征的窗口進(jìn)行大小、亮度均衡預(yù)處理,輸入深度模型提取特征. 最后,通過線性SVM分類器進(jìn)行分類,獲得行人最終檢測(cè)結(jié)果.
圖2 基于CNN的行人檢測(cè)算法架構(gòu)
5.1 樣本集選取
行人檢測(cè)主流數(shù)據(jù)集有Caltech數(shù)據(jù)庫、INRIA 數(shù)據(jù)庫等. Caltech數(shù)據(jù)庫分辨率多樣,具有多種遠(yuǎn)近行人樣本;INRIA數(shù)據(jù)庫背景復(fù)雜,具有光照變換和遮擋等情況. 為使網(wǎng)絡(luò)具有更強(qiáng)的適應(yīng)能力,以Caltech數(shù)據(jù)集、INRIA 數(shù)據(jù)集和現(xiàn)實(shí)場(chǎng)景數(shù)據(jù)集為基礎(chǔ),根據(jù)圖像特征相似度檢索擴(kuò)充法以及數(shù)據(jù)增強(qiáng)法對(duì)訓(xùn)練集進(jìn)行擴(kuò)充,最終選擇正樣本12 316個(gè),負(fù)樣本162 000個(gè)作為樣本集. 將樣本隨機(jī)分為6組,正負(fù)樣本均衡化后,前五組作為訓(xùn)練集,后一組作為測(cè)試集.
5.2 網(wǎng)絡(luò)閾值選取
準(zhǔn)確率、召回率和F值是行人檢測(cè)算法的主流評(píng)價(jià)指標(biāo). 由于準(zhǔn)確率與查全率之間有互逆性與相關(guān)性,因此,查全率低則準(zhǔn)確率高,反之會(huì)低. 為了使兩者達(dá)到平衡,閾值選取至關(guān)重要. 以行人作為研究對(duì)象,使用歐式距離作為度量方法,來觀測(cè)各區(qū)間的曲線變化,通過實(shí)驗(yàn)確定閾值取值范圍. 圖3為取不同閾值時(shí),行人檢測(cè)算法F值、查重率以及準(zhǔn)確率之間的變化趨勢(shì)圖. 由圖3可以看出,在閾值<0.3時(shí),查全率相對(duì)較低,準(zhǔn)確率相對(duì)較好,但與之相對(duì)應(yīng)的F值卻相對(duì)較低,而當(dāng)閾值>0.5時(shí),查重率相對(duì)較高,而準(zhǔn)確率卻有所下降,所以在閾值為[0.3,0.5]之間,得到的F值較優(yōu).
圖3 行人查重率、準(zhǔn)確率與閾值之間的關(guān)系
Fig.3 Relationship between the rate of recall rate, the accuracy rate and the threshold value
5.3 網(wǎng)絡(luò)訓(xùn)練與測(cè)試
為檢測(cè)文中設(shè)計(jì)深度模型的有效性,將本文算法與經(jīng)典行人檢測(cè)算法HOG+SVM、HOF+CCS以及傳統(tǒng)CNN檢測(cè)方法進(jìn)行比較,獲得如圖4和表1所示實(shí)驗(yàn)結(jié)果. 由圖4和表1結(jié)果可知,本文算法相對(duì)人工設(shè)計(jì)特征算法和傳統(tǒng)深度卷積模型算法來說,漏檢率、誤檢率更低,檢測(cè)準(zhǔn)確率更高. 與傳統(tǒng)深度卷積模型相比,算法檢測(cè)速度提升20%以上.
圖4 檢測(cè)算法結(jié)果比較
表1 檢測(cè)速率對(duì)比表
Tab.1 Comparison of detection speed
方法平均時(shí)間/msHOG+CSS+SVM59.32HOG+SVM42.49傳統(tǒng)CNN32.15OURS25.84
5.4 真實(shí)場(chǎng)景行人檢測(cè)
對(duì)手機(jī)拍攝校園內(nèi)圖書館和教學(xué)樓前行人自然真實(shí)場(chǎng)景進(jìn)行檢測(cè),效果如圖5所示. 由圖5可見,本文算法可在行人尺寸適中,光照具有一定差異,存在垂直梯度干擾的情況下取得較好的檢測(cè)效果. 能檢測(cè)出遮擋小于40%的行人,標(biāo)示窗口與行人尺寸基本相符.
圖5 實(shí)際場(chǎng)景行人檢測(cè)結(jié)果
5.5 動(dòng)量算法比較
為評(píng)估本文所提指數(shù)彈性動(dòng)量網(wǎng)絡(luò)訓(xùn)練算法的有效性,將本文算法與標(biāo)準(zhǔn)動(dòng)量(taingdm)、自適應(yīng)動(dòng)量(traingdx)及彈性動(dòng)量機(jī)制(traingdfm)算法比較,以收斂速度、收斂震蕩性能、檢測(cè)準(zhǔn)確率作為評(píng)價(jià)指標(biāo),在上文所述數(shù)據(jù)集上獲得結(jié)果如圖6和表2所示.
圖6 動(dòng)量算法收斂均方誤差曲線對(duì)比
Fig.6 Convergence mean square error curve of momentum algorithm
表2 算法準(zhǔn)確率對(duì)比表
圖6為收斂均分誤差曲線對(duì)比圖,圖中橫坐標(biāo)為訓(xùn)練輪數(shù),縱坐標(biāo)為均方誤差. 由圖6可見,本文算法與標(biāo)準(zhǔn)動(dòng)量( taingdm)、自適應(yīng)動(dòng)量(traingdx)算法及彈性動(dòng)量機(jī)制(traingdfm)相比收斂速度更快,收斂曲線更平滑. 表2為算法準(zhǔn)確率對(duì)比表. 由表2可知,指數(shù)彈性動(dòng)量算法在不同深度模型均可取得較好檢測(cè)效果,準(zhǔn)確率均有不同程度提高. 提高幅度平均值分別為1.6%,1.8%和6.19%.
本文基于深度卷積網(wǎng)絡(luò)構(gòu)建目標(biāo)檢測(cè)識(shí)別框架,在分析深度架構(gòu)誤差傳播基礎(chǔ)上,提出指數(shù)自適應(yīng)彈性動(dòng)量的參數(shù)學(xué)習(xí)方法. 仿真實(shí)驗(yàn)表明,本文方與同人工特征檢測(cè)算法相比,檢測(cè)精度高,漏檢率低,與同源誤差優(yōu)化算法相比,收斂速度更快,收斂曲線更平滑.
[1] 劉操,鄭宏,黎曦,余典. 基于多通道融合HOG特征的全天候運(yùn)動(dòng)車輛檢測(cè)方法[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,40(8):1048-1053.
LIU Cao, ZHENG Hong, LI Xi, et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature[J]. Journal of Wuhan University (Information Science Edition), 2015,40(8):1048-1053.
[2] KULKARNI P, ZEPEDA J, JURIE F, et al. Hybrid multi-layer deep CNN/aggregator feature for image classification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing.Brisbane: IEEE, 2015.
[3] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks the Official Journal of the International Neural Network Society, 2015, 61:85-117.
[4] OUYANG Wanli, WANG Xiao. Joint deep learning for pedestrian detection[C]// IEEE International Conference on Computer Vision.Sydney: IEEE Computer Society, 2013:2056-2063.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:580-587.
[6] LUO P, TIAN Y, WANG X, et al. Switchable deep network for pedestrian detection[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus: IEEE Computer Society, 2014:899-906.
[7] ZHANG N, PALURI M, RANZATO M, et al. PANDA: Pose aligned networks for deep attribute modeling [C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:1637-1644.
[8] 張陽. 結(jié)合紋理特征和深度學(xué)習(xí)的行人檢測(cè)算法[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(2):206-210.
ZHANG Yang. Pedestrian detection method of texture feature and deep learning[J]. Journal of Liaoning Technical University (Natural Science), 2016(2):206-210.
[9] 曾敏, 周益龍. 基于深度學(xué)習(xí)模型的行人檢測(cè)研究與仿真[J]. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,35(6):111-116.
ZEN Min, ZHOU Yilong. Simulation of pedestrian detection based on deep learning model [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science),2015, 35(6):111-116.
[10]DONG C, CHEN C L, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):295-307.
[11]BALDI P, HORNIK K. Neural networks and principal component analysis: learning from examples without local minima [J]. Neural Networks, 1989, 2(1):53-58.
[12]CHAN Tsunghan, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.
[13]BHM Sadeghi. A BP-neural network predictor model for plastic injection molding[J]. Journal of Materials Processing Technology, 2000, 103(3):411-416.
[14] MITCHELL T M,曾華軍,張銀奎.機(jī)器學(xué)習(xí)[M]. 北京: 機(jī)械工業(yè)出版社,2003.
MITCHELL T M, ZENG Huajun, ZHANG Yinkui. Machine learning [M]. Beijing: Machinery Industry Press, 2003.
[15]AGRAWAL S S, YADAVA V. Modeling and prediction of material removal rate and surface roughness in surface-electrical discharge diamond grinding process[J]. Materials and Manufacturing Processes, 2013, 28( 4) : 381-389.
(編輯 王小唯 苗秀芝)
A deep convolution neural network for object detection based
YUE Qi1,2,3, MA Caiwen1
(1. Xi’an Institute of Optics and Precision Mechanics, Chinese Academy of Sciences, Xi’an 710119, China; 2. University of Chinese Academy of Sciences, Beijing 100039, China; 3.Xi’an University of Posts and Telecomunications, Xi’an 710121, China)
Deep convolutional neural network(CNN) has too many parameters to initialize, and the usual random initialization method is easy to disappear of modified gradient and the problem of premature. The unsupervised PCA learning method is used to obtain oriented initialization parameters. And the gradient descendent method with exponential flexible momentum for updating free parameters of the network is proposed on the basis of analyzing the error propagation of the network. Image detection experiments are respectively carried out on pedestrian detection, and the results show that, compared with other artificial feature detection algorithms, this method can effectively improve target detection accuracy and the detection speed of this method is 20% faster than that of classical CNN; compared with homologous updating mechanism of other momentum, our method has faster convergence and smaller oscillation, and can improve the detection accuracy by 1.6%, 1.8% and 6.19% respectively in different depth models.
deep neural network; elastic momentum; target detection; model optimization
10.11918/j.issn.0367-6234.201603145
2016-03-24
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(2010AA7080302)
岳 頎(1981—),女,博士研究生; 馬彩文(1965—),男,教授,博士生導(dǎo)師
岳 頎,yueqi6@163.com
TP391.41
A
0367-6234(2017)05-0159-06