肖志鵬,王小華,,楊 冰,姚金良
(1. 中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018; 2. 杭州電子科技大學(xué) 計算機學(xué)院,浙江 杭州 310018)
基于卷積神經(jīng)網(wǎng)絡(luò)的繪畫圖像分類研究
肖志鵬1,王小華1,2,楊 冰2,姚金良2
(1. 中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018; 2. 杭州電子科技大學(xué) 計算機學(xué)院,浙江 杭州 310018)
繪畫作品的數(shù)字化對有效使用繪畫資源具有重要意義,傳統(tǒng)圖像分類方法并未考慮繪畫作品主觀特性,且大部分特征需要人工提取,存在細節(jié)特征丟失等問題. 在此提出基于卷積神經(jīng)網(wǎng)絡(luò)的繪畫圖像分類方法,分析了卷積核大小、卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)寬度、訓(xùn)練樣本數(shù)量對分類結(jié)果的影響,以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù). 實驗結(jié)果表明,該方法對繪畫圖像分類的有效性,在不同繪畫圖像數(shù)據(jù)集的分類實驗上也得到了較好的分類結(jié)果.
卷積神經(jīng)網(wǎng)絡(luò);繪畫圖像分類;卷積核大?。痪W(wǎng)絡(luò)結(jié)構(gòu)寬度;訓(xùn)練樣本數(shù)量
繪畫是承載人類文明發(fā)展的一種重要載體,對繪畫的研究有助于人們更好地了解人類歷史和文化[1].隨著西方油畫、東方山水畫等繪畫作品數(shù)字化進程加速,以及繪畫電子圖書館的建立,使得科研工作者們擁有海量的數(shù)字化繪畫資源.若要有效利用這些資源,就需要計算機能夠準確地對繪畫資源進行分類,以方便研究者的使用.自然圖像主要對真實場景進行客觀的描述,其內(nèi)容與現(xiàn)實差別很小,而繪畫圖像為人工作品,存在畫家風(fēng)格、藝術(shù)流派等藝術(shù)風(fēng)格特征,其內(nèi)容與現(xiàn)實差別較大.傳統(tǒng)的圖像分類方法并未考慮繪畫作品的這些特性[2],且其存在大量復(fù)雜特征需要根據(jù)個人經(jīng)驗提取,致使細節(jié)特征易丟失,出現(xiàn)模型泛化能力差等問題[3].因此,對繪畫圖像的分類更具有挑戰(zhàn)性.
卷積神經(jīng)網(wǎng)絡(luò)在圖像處理和語音識別上效果較好,使其成為機器學(xué)習(xí)領(lǐng)域的研究熱點.卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一種,通過模仿人腦機制,自動學(xué)習(xí)數(shù)據(jù)特征,避免人工提取復(fù)雜特征,并提高了分類識別效果.其局部感受野和權(quán)值共享特性減少了網(wǎng)絡(luò)模型權(quán)值數(shù)量,從而降低了網(wǎng)絡(luò)模型的復(fù)雜度.且卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對平移、傾斜、比例縮放等變形擁有高度不變性,從而提高了分類識別的魯棒性.現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用在圖像分類[4-7]、目標檢測[8-9]和人臉識別[10]等領(lǐng)域.
本文為解決傳統(tǒng)的圖像分類方法對繪畫圖像進行分類時存在的諸多問題,提高繪畫圖像分類效果,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對繪畫圖像進行分類的方法.通過分析卷積核大小、卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)寬度、訓(xùn)練樣本數(shù)量對分類結(jié)果的影響,以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù).
傳統(tǒng)的圖像分類方法對圖像進行分類,主要分為兩個部分:先提取圖像特征,然后利用機器學(xué)習(xí)分類算法進行分類.LAZEBNIK等[11]提出將圖像分成若干子區(qū)域,分別計算每個子區(qū)域的特征,最后將所有子區(qū)域的特征拼接起來,形成對自然場景的描述,采用SVM(Support Vector Machine)對其分類. JIANG等[12]通過提取紋理特征和邊緣大小直方圖來建立對傳統(tǒng)中國繪畫圖像的描述,采用SVM進行分類. CAO等[13]提出應(yīng)用HOG(Histogram of Oriented Gradient)特征到運動車輛檢測中,采用SVM對檢測到的運動車輛進行分類. 這些方法雖然取得了較好的分類效果,但處理大量樣本時模型泛化能力不足,且需要人工提取復(fù)雜特征,存在細節(jié)特征丟失、計算能力不足等問題.
近年來,隨著圖像語音數(shù)據(jù)不斷增加和計算機計算能力不斷提升,卷積神經(jīng)網(wǎng)絡(luò)得到了飛速發(fā)展,并在目標檢測、人臉識別、圖像分類等領(lǐng)域取得了優(yōu)異的研究成果. 1998年,LECUN等[14]設(shè)計了一個多層人工神經(jīng)網(wǎng)絡(luò)LeNet-5,并提出利用反向傳播算法對其進行訓(xùn)練. 2012年,KRIZHEVSKY等[4]設(shè)計的AlexNet利用大數(shù)據(jù)進行訓(xùn)練并使用GPU進行加速計算,同時提出將Relu和Dropout應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)模型中. 2014年,SZEGEDY等[6]設(shè)計的googleNet,主要研究了卷積神經(jīng)網(wǎng)絡(luò)寬度對圖像分類精度的影響,提出Inception結(jié)構(gòu)以增加網(wǎng)絡(luò)寬度,并使用1×1,3×3,5×5卷積核代替7×7卷積核,最終設(shè)計了22層深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實驗結(jié)果表明其具有優(yōu)異的分類效果.
卷積神經(jīng)網(wǎng)絡(luò)雖在圖像分類識別領(lǐng)域取得了較好成績,但在繪畫圖像分類方面仍處于起步階段[15]. CROWLEY等[16]利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自然圖像中目標識別的方法,來提高繪畫圖像中目標識別效果. SUN等[17]提出了一種基于混合稀疏的卷積神經(jīng)網(wǎng)絡(luò)方法來自動提取中國水墨畫的筆觸特征,并按作者進行分類,取得了不錯的分類效果. 然而基于卷積神經(jīng)網(wǎng)絡(luò),針對繪畫題材進行分類的研究相對較少.
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一種,能夠自動學(xué)習(xí)數(shù)據(jù)特征,具有較好的泛化能力,廣泛應(yīng)用于圖像分類、目標檢測等領(lǐng)域. 作為一種監(jiān)督學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層、全連接層、softmax分類層和激活函數(shù)等組成,其訓(xùn)練部分分兩個階段進行,即通過前向傳播提取特征,經(jīng)由反向傳播更新權(quán)值.
第一階段,前向傳播.
前向傳播的目的是提取數(shù)據(jù)特征,從樣本集中選取一個樣本作為當前層l輸入,再通過激活函數(shù)計算得到當前層輸出,然后傳遞到下一層l+1,一直傳遞到最后一層結(jié)束.當前層輸出計算過程如下:
Yl=f(WlXl+bl).
(1)
其中,第l層表示當前層,Xl和Yl分別表示當前層輸入和當前層輸出,Wl表示當前層權(quán)值,bl表示當前層偏置,f表示當前層的激活函數(shù),本文選取ReLU(Rectified Linear Units)非線性函數(shù)作為激活函數(shù).
在前向傳播卷積層中,上一層特征圖的局部區(qū)域與卷積核相連,經(jīng)過卷積操作提取局部特征. 卷積層中存在多個卷積核,不同卷積核提取不同特征,在進行卷積操作時,同一個卷積核權(quán)值共享,不同卷積核權(quán)值不同[18],卷積層的計算如下:
(2)
在前向傳播池化層中,輸入特征圖個數(shù)經(jīng)過池化操作后保持不變,當池化步長為n時,輸出特征圖大小變?yōu)檩斎胩卣鲌D大小的1/n2. 池化層主要作用是減小特征圖分辨率,降低特征維度,其對平移、傾斜、比例縮放等形式的變形擁有高度不變性,從而提高了網(wǎng)絡(luò)模型分類的魯棒性. 池化層的計算如下:
(3)
第二階段,反向傳播.
反向傳播的目的是不斷更新卷積核權(quán)值,使其朝著有利于分類的方向更新,一般使用誤差平方和損失函數(shù). 對于樣本數(shù)量為N,類別數(shù)量為c的多類問題,誤差平方和損失函數(shù)計算如下:
(4)
研究表明,卷積神經(jīng)網(wǎng)絡(luò)分類性能受很多因素影響,如訓(xùn)練樣本數(shù)量、卷積核大小、網(wǎng)絡(luò)結(jié)構(gòu)深度、網(wǎng)絡(luò)結(jié)構(gòu)寬度和激活函數(shù)等[19]. 本文考慮先設(shè)計一個傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),然后為其設(shè)置合適大小的卷積核,最后增加該網(wǎng)絡(luò)結(jié)構(gòu)寬度,以實現(xiàn)多尺度特征提取及融合,提高網(wǎng)絡(luò)分類性能. 傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)深度為八層,七個卷積層和一個全連接層依次相連,在第三個卷積層與第六個卷積層之間并聯(lián)一個卷積層,得到優(yōu)化后卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu). 優(yōu)化后卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1.
圖1 優(yōu)化后卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 1 Optimized architecture of convolutional neural network
圖1中INPUT表示輸入圖像,大小為227×227,Conv1表示第一個卷積層,Conv_add表示并聯(lián)的卷積層,@之前的數(shù)字表示該層特征圖個數(shù),之后的公式如111×111表示該層得到的特征圖大小,最后一層為全連接層,即OUTPUT輸出層.
第一個卷積層、第三個卷積層、第五個卷積層和并聯(lián)的卷積層后面連接著最大池層,第七個卷積層后面連接著平均池層.第二個和第三個卷積層、第四個和第五個卷積層、第六個和第七個卷積層分別依次相連,之間沒有池化層和尺度歸一化層.在每個卷積層后面連接著ReLU激活函數(shù),在第一個卷積層、第三個卷積層、第五個卷積層、第七個卷積層和并聯(lián)的卷積層后面應(yīng)用尺度歸一化.
本文實驗的繪畫圖像樣本來源于《珍好畫業(yè)圖庫》和《唯美風(fēng)景油畫圖庫》兩個數(shù)據(jù)庫,分為東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集.東方繪畫圖像,按類別將其分為花鳥、人物、山水三類,每類800幅樣本.西方繪畫圖像,按類別將其分為人物、風(fēng)景二類,每類500幅樣本.東方繪畫圖像和西方繪畫圖像樣本如圖2.
圖2 東方繪畫圖像和西方繪畫圖像樣本Figure 2 Samples of oriental painting image and western painting image
本實驗考慮先在圖1中傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,對卷積核大小進行優(yōu)化以優(yōu)化網(wǎng)絡(luò)參數(shù),然后增加網(wǎng)絡(luò)結(jié)構(gòu)寬度以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),最后利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)研究訓(xùn)練樣本數(shù)量對分類結(jié)果的影響. 為驗證本文方法的有效性,實驗首先應(yīng)用本文方法對東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集分別進行測試;然后用SIFT+BOW+SVM,HOG+SVM,LeNet,AlexNet這四種圖像分類方法對兩個數(shù)據(jù)集分別進行驗證,并將實驗結(jié)果與本文方法進行比較,以驗證本文方法的可行性.
卷積核是卷積神經(jīng)網(wǎng)絡(luò)模型中至關(guān)重要的部分,它直接影響特征提取的好壞和網(wǎng)絡(luò)收斂的速度.卷積核大小要與輸入圖像大小相適應(yīng),若卷積核過大,則卷積核無法有效提取局部特征,否則卷積核無法有效提取全局特征.所以,當輸入圖像空間分辨率較大時,應(yīng)選取較大的卷積核,以適應(yīng)輸入圖像,否則會降低網(wǎng)絡(luò)分類性能.為方便實驗比較,本文實驗將輸入圖像大小固定為227×227,第一個卷積層卷積核大小固定為7×7.
為給卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)置合適大小的卷積核,以有效地提取圖像特征,本實驗分別選取東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集作為實驗對象(圖2).從花鳥、人物、山水三類東方繪畫圖像中,各隨機選取600張圖片作為訓(xùn)練樣本,其余200張圖片作為測試樣本;從人物、風(fēng)景兩類西方繪畫圖像中,各隨機選取350張圖片作為訓(xùn)練樣本,其余150張圖片作為測試樣本.
本實驗采用圖1中傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以網(wǎng)絡(luò)A為基準網(wǎng)絡(luò),進行了大量實驗,并選取其中有代表性的部分網(wǎng)絡(luò)做進一步分析.不同分類網(wǎng)絡(luò)中各卷積層的卷積核大小和不同分類網(wǎng)絡(luò)分類準確率分別如表1和表2.
由表1和表2可知,當?shù)谒膫€卷積層的卷積核大小調(diào)整為3×3或第六個卷積層的卷積核大小調(diào)整為3×3時(網(wǎng)絡(luò)F或網(wǎng)絡(luò)J),東方繪畫圖像數(shù)據(jù)集的分類準確率最高.當?shù)诙€卷積層的卷積核大小調(diào)整為3×3或5×5時(網(wǎng)絡(luò)B或網(wǎng)絡(luò)C),西方繪畫圖像數(shù)據(jù)集分類準確率最高.由此可以發(fā)現(xiàn),針對不同的數(shù)據(jù)集,需要設(shè)置不同的網(wǎng)絡(luò)參數(shù),以適應(yīng)不同數(shù)據(jù)集的分類任務(wù).進一步說明,網(wǎng)絡(luò)F或網(wǎng)絡(luò)G更能有效提取東方繪畫圖像特征,網(wǎng)絡(luò)B或網(wǎng)絡(luò)C更能有效提取西方繪畫圖像特征.
表1 不同分類網(wǎng)絡(luò)中各卷積層的卷積核大小
表2 不同分類網(wǎng)絡(luò)分類準確率
4.2 網(wǎng)絡(luò)寬度對分類結(jié)果的影響
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般為串聯(lián)結(jié)構(gòu),本文考慮在傳統(tǒng)串聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,在兩個卷積層之間并聯(lián)一個卷積層,以增加網(wǎng)絡(luò)結(jié)構(gòu)寬度,實現(xiàn)多種特征融合,提高網(wǎng)絡(luò)分類性能.為驗證本方法的可行性,本實驗分別選取東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集進行實驗. 對于東方繪畫圖像數(shù)據(jù)集,從花鳥、人物、山水這三類圖像中,分別隨機選取600張圖片作為訓(xùn)練集,其余200張圖片作為測試集;對于西方繪畫圖像數(shù)據(jù)集,從人物、風(fēng)景這兩類圖像中,分別隨機選取350張圖片作為訓(xùn)練集,其余150張圖片作為測試集.
對于東方繪畫數(shù)據(jù)集,本文考慮在表1中網(wǎng)絡(luò)F的基礎(chǔ)上,在第三個卷積層與第六個卷積層之間并聯(lián)一個新卷積層,卷積核大小設(shè)置為5×5,以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu). 對于西方繪畫數(shù)據(jù)集,本文考慮在表1中網(wǎng)絡(luò)B的基礎(chǔ)上,同樣選擇在第三個卷積層與第六個卷積層之間并聯(lián)一個新卷積層,卷積核大小設(shè)置為1×1. 針對東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化前后網(wǎng)絡(luò)分類準確率對比如表3.
從這個分析可以看出,演講或教室中教師講學(xué)生聽是傳統(tǒng)的方法(理論、傳授、教師主導(dǎo)),效果有限。其他方法比較現(xiàn)代,很多的是讓學(xué)生自己實踐和發(fā)現(xiàn),比較有效,其中的訪問、做調(diào)查/調(diào)研、自學(xué)及小研究等屬于實踐、發(fā)現(xiàn)與學(xué)生主導(dǎo),可以發(fā)揮最全面的效果。
表3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化前后網(wǎng)絡(luò)分類準確率對比
從表3可以看出,增加卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)寬度后,卷積神經(jīng)網(wǎng)絡(luò)模型分類準確率有所提高.從理論上可以解釋該實驗結(jié)果,增加卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)寬度,可以使該網(wǎng)絡(luò)適應(yīng)多種尺寸的特征提取,并實現(xiàn)多種特征的融合,從而增強了卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力.尤其當輸入圖像空間分辨率較大時,輸入圖像特征更加豐富和全面,增加網(wǎng)絡(luò)寬度更有利于有效提取多種尺寸特征.所以,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)寬度的增加,有利于卷積神經(jīng)網(wǎng)絡(luò)模型分類準確率的提高.
4.3 訓(xùn)練樣本數(shù)量對分類結(jié)果影響
卷積神經(jīng)網(wǎng)絡(luò)模型的分類性能受訓(xùn)練樣本數(shù)量影響,當訓(xùn)練樣本不足時,會產(chǎn)生過擬合現(xiàn)象[20].為研究訓(xùn)練樣本數(shù)量對卷積神經(jīng)網(wǎng)絡(luò)模型分類準確率的影響,本實驗分別選取東方繪畫圖像和西方繪畫圖像這兩個數(shù)據(jù)集作為實驗對象.從花鳥、人物、山水這三類東方繪畫圖像中,分別隨機選取100、200、300、400、500、600張圖片作為訓(xùn)練樣本,每類剩余樣本中隨機選取200張圖片作為測試樣本;從人物、風(fēng)景這兩類西方繪畫圖像中,分別隨機選取50、100、150、200、250、300、350張圖片作為訓(xùn)練樣本,每類剩余樣本中隨機選取150張圖片作為測試樣本.
本實驗分別采用針對東方繪畫圖像數(shù)據(jù)集和西方繪畫圖像數(shù)據(jù)集優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),東方繪畫圖像和西方繪畫圖像在不同數(shù)量訓(xùn)練樣本上的分類準確率分別如表4和表5.
表4 東方繪畫圖像在不同數(shù)量訓(xùn)練樣本上的分類準確率
表5 西方繪畫圖像在不同數(shù)量訓(xùn)練樣本上的分類準確率
從表4和表5中可以觀察出,隨著訓(xùn)練樣本數(shù)量的增加,卷積神經(jīng)網(wǎng)絡(luò)模型分類準確率不斷提高.從理論方面可以解釋這個現(xiàn)象產(chǎn)生的原因,因為卷積神經(jīng)網(wǎng)絡(luò)是一個深度網(wǎng)絡(luò)結(jié)構(gòu),擁有較多隱藏層以增強卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力.所以,隨著訓(xùn)練樣本數(shù)量的增加,卷積神經(jīng)網(wǎng)絡(luò)強大的特征學(xué)習(xí)能力更能體現(xiàn)出來,學(xué)習(xí)到的特征能夠有效表達數(shù)據(jù),從而有利于分類準確率的提高.
4.4 傳統(tǒng)方法與深度學(xué)習(xí)方法實驗結(jié)果對比
在與傳統(tǒng)方法進行對比時,SIFT+BOW[11](Scale-invariant Feature Transform+Bag of Words)將圖像分割成越來越小的子區(qū)域,分別計算每個子區(qū)域的局部直方圖特征,再將所有子區(qū)域的特征合并起來,采用SVM進行分類;HOG[13](Histogram Of Gradient)通過計算圖像局部區(qū)域的梯度直方圖以構(gòu)成特征,并使用SVM對特征進行分類. 在與深度學(xué)習(xí)方法進行對比時,LeNet[14]采用多層人工神經(jīng)網(wǎng)絡(luò)方法,且首次使用反向傳播算法更新權(quán)值;AlexNet[4]在LeNet基礎(chǔ)上增加了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)深度,并將Relu激活函數(shù)和Dropout應(yīng)用到網(wǎng)絡(luò)模型中.為有效對比傳統(tǒng)方法與深度學(xué)習(xí)方法對東方繪畫圖像和西方繪畫的分類效果,所有實驗在相同的數(shù)據(jù)集上進行測試.測試數(shù)據(jù)集的選取與研究卷積核大小對分類結(jié)果影響的實驗相同,傳統(tǒng)方法與深度學(xué)習(xí)方法實驗結(jié)果對比如表6.
表6 傳統(tǒng)方法與深度學(xué)習(xí)方法實驗結(jié)果對比
上述對比進一步表明,深度學(xué)習(xí)方法對繪畫圖像進行分類,效果要比傳統(tǒng)方法好,尤其對于分類類別相對較多且難度相對較大的東方繪畫圖像的效果更為明顯.通過比較可以發(fā)現(xiàn),LeNet和AlexNet采用傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而本文方法在串聯(lián)結(jié)構(gòu)基礎(chǔ)上增加了網(wǎng)絡(luò)結(jié)構(gòu)寬度,實現(xiàn)了多種尺寸特征提取,更能有效提取繪畫圖像特征并完成圖像分類,比其他方法對繪畫圖像的分類效果好.
深度學(xué)習(xí)已經(jīng)成為機器學(xué)習(xí)領(lǐng)域的研究熱點,廣泛應(yīng)用在多個領(lǐng)域.本文提出利用卷積神經(jīng)網(wǎng)絡(luò)提取繪畫圖像特征,并實現(xiàn)對繪畫圖像進行分類的方法.針對東方繪畫圖像和西方繪畫圖像兩個數(shù)據(jù)集,在設(shè)計傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,通過大量實驗,研究了卷積核大小對卷積神經(jīng)網(wǎng)絡(luò)分類性能的影響,發(fā)現(xiàn)針對不同的數(shù)據(jù)集,需要設(shè)置不同大小的卷積核,以適應(yīng)不同數(shù)據(jù)集的分類任務(wù).同時,在傳統(tǒng)串聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,在兩個卷積層之間并聯(lián)一個新卷積層,以增加網(wǎng)絡(luò)結(jié)構(gòu)寬度,實現(xiàn)多尺寸特征提取與多種特征融合,從而增強卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力.此外還分析了訓(xùn)練樣本數(shù)量對卷積神經(jīng)網(wǎng)絡(luò)分類性能的影響,發(fā)現(xiàn)訓(xùn)練樣本數(shù)量增加,有利于體現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力,從而提高了網(wǎng)絡(luò)分類性能.最后,通過與其他傳統(tǒng)方法和深度學(xué)習(xí)方法的對比實驗,證明了本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)繪畫圖像分類方法對于繪畫圖像具有更好的分類性能,證明了此方法具有可行性和優(yōu)越性.
傳統(tǒng)圖像分類方法與深度學(xué)習(xí)方法相結(jié)合的圖像分類方法,本文并未將其考慮在內(nèi).今后可在本文的基礎(chǔ)上,將傳統(tǒng)圖像分類方法與深度學(xué)習(xí)方法提取的特征相融合,從而提高算法分類性能.
[1] TAMARKIN E. The chestnuts of edwin austin abbey: history painting and the transference of culture in turn-of-the-century america[J]. Bridge-Literary Magazine,1999,15(1-2):1-9.
[2] 楊冰.基于藝術(shù)風(fēng)格的繪畫圖像分類研究[D].杭州:浙江大學(xué),2013. YANG B. Research on Painting Image Classification Based on Aesthetic Style[D]. Hangzhou: Zhejiang University,2013.
[3] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[C]//Neural Information Processing Systems. Montrea: NIPS,2015:649-657.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):1097-1105.
[5] XIAO T, XU Y, YANG K, et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE CVPR,2014:842-850.
[6] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:1-9.
[7] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:770-778.
[8] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904-1916.
[9] KALINOVSKII I, SPITSYN V. Compact convolutional neural network cascade for face detection[J]. Computer Science,2015,2(2):93-110.
[10] OUYANG W L, ZENG X Y, WANG X G, et al. Deepid-net: deformable deep convolutional neural networks for object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,46(5):2403-2412.
[11] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition. New York: IEEE Computer Society,2006:2169-2178.
[12] JIANG S Q, HUANG Q M, YE Q X, et al. An effective method to detect and categorize digitized traditional chinese paintings[J]. Pattern Recognition Letters,2006,27(7):734-746.
[13] CAO X B, WU C X, YAN P K, et al. Linear SVM classification using boosting HOG features for vehicle detection in low-altitude airborne videos[C]//IEEE International Conference on Image Processing. Brussels: IEEE ICIP,2011:2421-2424.
[14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
[15] ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[M]. Berlin: Springer International Publishing,2014:818-833.
[16] CROWLEY E J, ZISSERMAN A. In search of art[C]//European Conference on Computer Vision. Zurich: ECCV,2014:54-70.
[17] SUN M J, ZHANG D, REN J C, et al. Brushstroke based sparse hybrid convolutional neural networks for author classification of chinese ink-wash paintings[C]//IEEE International Conference on Image Processing. Quebec: IEEE ICIP,2015:626-630.
[18] ANIANO G, DRAINE B T, GORDON K D, et al. Common-resolution convolution kernels for Space and ground-based telescopes[J]. Publications of the Astronomical Society of the Pacific,2011,123(908):1218-1236.
[19] MORRISON D, WANG R L, SILVA L D. Spoken affect classification using neural networks[C]//IEEE International Conference on Granular Computing. Beijing: IEEE GRC, 2005:583-586.
[20] HARVILL E L, PECK L R, BELL S H. On overfitting in analysis of symmetrically predicted endogenous subgroups from randomized experimental samples: part three of a method note in three parts[J]. American Journal of Evaluation,2013,34(4):545-556.
Research on painting image classification based on convolution neural network
XIAO Zhipeng1, WANG Xiaohua1,2, YANG Bing2, YAO Jinliang2
(1. College of Information Engineering, China Jiliang University, Hangzhou 310018, China; 2. School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China)
It is significant to realize the digitalization of painting works for the effective use of painting resources. The traditional image classification methods do not take into account of the subjective characteristics of the painting works, and most of the features need to be extracted manually, thus the problem of easily missing detailed features. In this paper, a painting image classification method based on convolutional neural network (CNN) was proposed. We analyzed the influence to the classification results of the size of convolution kernel, the width of convolution neural network architectures, and the number of training samples to get a reference to optimize the network architectures and parameters. The experimental results show the effectiveness of the proposed method for the classification of painting images with good results on different data sets of painting images.
convolutional neural network; classification of painting images; size of convolution kernel; width of network architectures; number of training samples
2096-2835(2017)02-0226-08
10.3969/j.issn.2096-2835.2017.02.015
2017-01-10 《中國計量大學(xué)學(xué)報》網(wǎng)址:zgjl.cbpt.cnki.net
國家自然科學(xué)基金資助項目(No.61402143),浙江省自然科學(xué)基金資助項目(No. LQ14F020012).
肖志鵬(1992-),男,江蘇省泰州人,碩士研究生,主要研究方向為機器學(xué)習(xí)與計算機視覺. E-mail:261507661@qq.com 通信聯(lián)系人:王小華,男,教授,E-mail: wxh@cjlu.edu.cn
N32
A