程 帥 倪龍嬌 胡 瑩
(淮南師范學(xué)院 美術(shù)與設(shè)計(jì)學(xué)院,安徽 淮南 232038)
藝術(shù)圖像是一種傳達(dá)豐富情感的藝術(shù)形式。在互聯(lián)網(wǎng)得到初步發(fā)展時(shí),人們主要是通過藝術(shù)圈子來了解和欣賞藝術(shù)圖像。隨著互聯(lián)網(wǎng)的深入發(fā)展,藝術(shù)圖像呈現(xiàn)數(shù)字化展示,人們了解藝術(shù)信息的形式變得豐富,促進(jìn)了世界各地的藝術(shù)風(fēng)格交流與藝術(shù)繪畫種類的發(fā)展。但藝術(shù)圖像作品數(shù)量的不斷增加給藝術(shù)圖像分類帶來了困難,因此如何有效且準(zhǔn)確分類藝術(shù)圖像是一個(gè)值得研究的問題。針對(duì)該問題,陳小娥[1]提出一種基于深度學(xué)習(xí)的圖像藝術(shù)屬性分類,有助于圖像分類;李大湘等[2]將全局特征和局部特征進(jìn)行融合,對(duì)國(guó)畫圖像進(jìn)行了有效分類。雖然這些研究在一定程度上實(shí)現(xiàn)藝術(shù)圖像的有效分類,但其傳統(tǒng)的人工特征提取方法對(duì)于海量藝術(shù)圖像數(shù)據(jù)來說,已不能滿足實(shí)際需求,且存在標(biāo)注錯(cuò)誤、耗時(shí)耗力等問題。近年來,深度學(xué)習(xí)由于具有良好的特征提取能力及高效率特點(diǎn),被廣泛應(yīng)用于各個(gè)識(shí)別領(lǐng)域。因此,結(jié)合深度學(xué)習(xí)的特點(diǎn),對(duì)圖像進(jìn)行深層特征提取和精準(zhǔn)分類,以此提高藝術(shù)教育質(zhì)量。
卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像特征提取方面,并取得了較好的成績(jī)。InceptionV4中的卷積核可以有效提取圖像特征,但沒有對(duì)圖像進(jìn)行增強(qiáng)處理,而SE模型和SK模型具有圖像增強(qiáng)功能,因此本研究根據(jù)SK模塊和SE模塊的特點(diǎn),構(gòu)建雙核壓縮激活模塊(DKSE),如圖1所示[3]。
圖1 DKSE模塊
DSKE模塊由split、squeeze、excitation和scale這4個(gè)部分組成[4],通過融合提取的圖像特征并進(jìn)行壓縮和激活處理,然后利用加權(quán)映射操作來融合特征圖的對(duì)應(yīng)元素,從而增強(qiáng)整體和局部特征的提取作用。其數(shù)學(xué)表達(dá)如下:
其中,F(xiàn)gp(·)為全局均值池化操作,F(xiàn)sq(·)為壓縮處理,F(xiàn)ex(·)為激活操作;U表示經(jīng)過融合處理的特征圖,N表示DKSE模塊的分支數(shù),N=2[5]。
根據(jù)上述分析可知,DKSE模型特征通道數(shù)較多,進(jìn)而導(dǎo)致模型訓(xùn)練時(shí)長(zhǎng)較長(zhǎng)。因此為提高模型性能,主要對(duì)DKSE模塊中的Excitation部分進(jìn)行改進(jìn)。DKSE模型具體改進(jìn)操作是將經(jīng)過全局均值池化后的特征圖進(jìn)行全連接操作,從而降低特征圖通道數(shù),降低為原通道數(shù)的1/r,然后再進(jìn)行非線性激活函數(shù)處理,通過對(duì)C個(gè)神經(jīng)點(diǎn)進(jìn)行全連接操作之后恢復(fù)通道數(shù)為全局均值池化后的通道數(shù),最后采用Sigmoid門機(jī)制歸一化處理通道數(shù)[8]。由此得到改進(jìn)的DKSE-FC模塊,如圖2所示。
此外,考慮到DKSE-FC網(wǎng)絡(luò)模型的參數(shù)具有冗雜性,因此為減小模型參數(shù)和訓(xùn)練時(shí)間,結(jié)合深度可分離卷積和DKSE-FC模型構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)對(duì)藝術(shù)圖像數(shù)據(jù)進(jìn)行分類訓(xùn)練。深度可分離卷積分別考慮了圖像空間區(qū)域和通道,可分為逐點(diǎn)卷積操作過程和深度卷積過程,其原理是降低計(jì)算量,并增加網(wǎng)絡(luò)深度,如圖3所示。
圖3 深度可分離卷積
若輸入樣本高度為H、寬度為W,C為通道數(shù)目,h和w、M和N分別表示卷積核和輸出樣本高度、寬度,傳統(tǒng)卷積的卷積核參數(shù)個(gè)數(shù)和計(jì)算量可表示為[9]:
深度學(xué)習(xí)中可分離卷積主要用于增大特征圖通道,深度卷積則對(duì)特征圖進(jìn)行降維操作。卷積核個(gè)數(shù)和計(jì)算量可表示為:
對(duì)比傳統(tǒng)卷積和深度可分離卷積的卷積核參數(shù)個(gè)數(shù),得到比值:
綜上可知,通過以上操作可以有效減少計(jì)算量,提升網(wǎng)絡(luò)學(xué)習(xí)效率。
基于上述改進(jìn)DKSE模塊與深度可分離卷積網(wǎng)絡(luò),本研究構(gòu)建的圖像藝術(shù)圖像分類模型如表1所示。為降低過擬合出現(xiàn)的概率,首先在網(wǎng)絡(luò)的第一層采用空洞卷積提取原始藝術(shù)圖像特征,采用L2正規(guī)化方法進(jìn)行逐點(diǎn)卷積操作,然后采用Dropout方法對(duì)全局均值池化處理前后的圖像進(jìn)行處理。與傳統(tǒng)卷積相比,空洞卷積可以保留更多的原始數(shù)據(jù)信息。其次在網(wǎng)絡(luò)的第二層進(jìn)行深度卷積操作之后,再進(jìn)行ReLU函數(shù)處理和批標(biāo)準(zhǔn)化處理。在改進(jìn)DKSE模塊中加入深度可分離卷積的公式為[10]:
表1 雙核壓縮激活神經(jīng)網(wǎng)絡(luò)模型
其中,Y1表示深度卷積操作,Y2表示逐點(diǎn)卷積操作,Y3表示改進(jìn)DKSE模塊操作。
本實(shí)驗(yàn)采用Keras+TensorFLOW框架。學(xué)習(xí)率=0.001,訓(xùn)練周期設(shè)置為120。訓(xùn)練3個(gè)周期后,其準(zhǔn)確率還未得到提升的情況下,學(xué)習(xí)率下降10%,當(dāng)下降為0.5×10-6時(shí),停止訓(xùn)練。
本研究選取水彩畫、中國(guó)畫、版畫、油畫和水粉畫這5種具有獨(dú)特風(fēng)格的藝術(shù)圖像進(jìn)行分類和研究,通過關(guān)鍵詞搜索從某藝術(shù)網(wǎng)站上下載5類藝術(shù)圖像。其中有些藝術(shù)圖像風(fēng)格不準(zhǔn)確或是圖像不清晰,因此為了確保數(shù)據(jù)具有可靠性,邀請(qǐng)專業(yè)人員對(duì)不符合要求的藝術(shù)圖像進(jìn)行剔除,最后得到油畫3 400張、版畫3 393張、水粉畫3 378張、國(guó)畫3 449張和水彩畫3 390張。
由于訓(xùn)練樣本數(shù)不足,在網(wǎng)絡(luò)訓(xùn)練時(shí)會(huì)產(chǎn)生過擬合問題,因此需要采用圖像數(shù)據(jù)增強(qiáng)方法。數(shù)據(jù)增強(qiáng)的原理是通過特定方法來創(chuàng)建與原始圖像同一個(gè)風(fēng)格的變形圖像,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的。每張藝術(shù)圖像的風(fēng)格信息呈現(xiàn)分布均勻,抽取風(fēng)格信息具有豐富性和分辨率高的藝術(shù)圖像,裁切為299×299像素大小的圖像,從而獲得多張同種風(fēng)格的數(shù)據(jù)圖像,如圖4所示。經(jīng)過數(shù)據(jù)增強(qiáng)處理之后得到油畫5 117張、版畫5 116張、水彩畫5 122張、國(guó)畫5 151張和水粉畫5 128張。
圖4 數(shù)據(jù)增強(qiáng)處理
3.3.1 數(shù)據(jù)增強(qiáng)驗(yàn)證
為了驗(yàn)證圖像數(shù)據(jù)增強(qiáng)是否具有效果,使用表1的DKSE網(wǎng)絡(luò)模型對(duì)增強(qiáng)前后的數(shù)據(jù)進(jìn)行測(cè)試,結(jié)果表2所示,通過對(duì)比分析發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)后的分類準(zhǔn)確率比數(shù)據(jù)增強(qiáng)前的分類準(zhǔn)確率更高,因此通過數(shù)據(jù)增強(qiáng)可以有效地增加樣本訓(xùn)練數(shù)據(jù),從而提高分類準(zhǔn)確率。
表2 數(shù)據(jù)增強(qiáng)前后的分類結(jié)果
3.3.2 DKSE參數(shù)對(duì)模型影響
3.3.2.1 下降率r和卷積核大小
為測(cè)試DKSE模塊對(duì)模型的影響,將對(duì)其下降率和卷積核大小進(jìn)行測(cè)試,測(cè)試結(jié)果如下。
從表3可以直觀看出,下降率為4時(shí),分類準(zhǔn)確率在87以上,而下降率在16時(shí)的準(zhǔn)確率低于85%;下降率不變時(shí),分支卷積核大小為1×1和5×5的分類準(zhǔn)確率更高。
表3 下降率和分支卷積核大小
3.3.2.2 空洞卷積
為測(cè)試空洞卷積核的特征提取效果,實(shí)驗(yàn)將選取DKSE模塊中不同空洞卷積核對(duì)圖像數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下。K3為傳統(tǒng)卷積核,大小為3×3,K5表示膨脹率為2的卷積核大小3×3,感受野為5×5,K7表示膨脹率為3的卷積核大小3×3,感受野為7×7。結(jié)果顯示,空洞卷積的分類準(zhǔn)確率比普通卷積低,這是因?yàn)榭斩淳矸e沒有提取到重要特征信息,從而對(duì)模型的分類結(jié)果造成了一定的影響。
綜上可知,改進(jìn)DKSE模型的分支卷積核(表1網(wǎng)絡(luò)模型ID6號(hào)處)大小為1×1和5×5,r=4時(shí),改進(jìn)DKSE結(jié)合深度可分離卷積網(wǎng)絡(luò)形成深度卷積神經(jīng)網(wǎng)絡(luò)模型性能最高。因此,本研究將該模型用于后續(xù)實(shí)驗(yàn)。
3.3.3 模型驗(yàn)證
為驗(yàn)證本研究提出模型性能,研究對(duì)比了DKSE模型改進(jìn)前后模型訓(xùn)練時(shí)間,結(jié)果如表5所示。從中可發(fā)現(xiàn)二者分類結(jié)果差別不大,但DKSE-FC模型的訓(xùn)練時(shí)間更短,說明模型改進(jìn)有效。
3.3.4 模型對(duì)比
為了驗(yàn)證本研究的網(wǎng)絡(luò)模型分類效果,將樣本數(shù)據(jù)輸入本研究網(wǎng)絡(luò)模型和其他網(wǎng)絡(luò)模型中,通過對(duì)比實(shí)驗(yàn)得到以下結(jié)果:
表6 不同網(wǎng)絡(luò)模型分類結(jié)果
由表3可知,網(wǎng)絡(luò)模型對(duì)藝術(shù)圖像分類準(zhǔn)確率最高;當(dāng)r=16時(shí),網(wǎng)絡(luò)模型均高于our+SE模型和our+SK模型;r=4時(shí),本模型對(duì)圖像分類的準(zhǔn)確率高于更高r=16。
為進(jìn)一步衡量模型性能,采用ROC曲線和AUC值對(duì)不同模型分類結(jié)果進(jìn)行比較,得到如下結(jié)果:
從圖5中可看出,幾種網(wǎng)絡(luò)模型對(duì)版畫分類性能最佳,對(duì)油畫分類性能最低,這是因?yàn)榘娈嫷母鞣矫娌町愝^大,比較容易區(qū)分,而其他幾種藝術(shù)繪畫比較復(fù)雜,且風(fēng)格信息具有相似性,這就導(dǎo)致網(wǎng)絡(luò)模型對(duì)其訓(xùn)練困難。
圖5 網(wǎng)絡(luò)模型的ROC與AUC
為驗(yàn)證本方法的優(yōu)越性,將其與傳統(tǒng)方法進(jìn)行對(duì)比,對(duì)比結(jié)果如。傳統(tǒng)的提取方法不能充分區(qū)分藝術(shù)圖像,而本方法可以有效提取藝術(shù)圖像的特征信息,從而提高分類準(zhǔn)確率。
表7 結(jié)果對(duì)比
3.3.5 模型分類性能
為了使得DKSE-MobileNet網(wǎng)絡(luò)模型分類性能具有直觀性,對(duì)該模型進(jìn)行性能評(píng)估,評(píng)估結(jié)果如下。版畫查全率在所有畫種處于第一,查準(zhǔn)率方面,國(guó)畫高于其他畫種,這是因?yàn)榘娈嫼蛧?guó)畫的繪畫手法比較獨(dú)特,模型容易區(qū)分;而其他畫種的查準(zhǔn)率和查全率均在80%以上,這證明了DKSE-MobileNet網(wǎng)絡(luò)模型分類性能較好。
表8 分類性能
本研究提出的基于深度學(xué)習(xí)的藝術(shù)圖像分類方法,結(jié)合SK模塊和SE模塊而形成了一種雙核壓縮激活模型,并對(duì)其進(jìn)行了改進(jìn);然后根據(jù)改進(jìn)的DKSE模型和深度可分離卷積對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了構(gòu)建,以此實(shí)現(xiàn)了藝術(shù)圖像的特征提取和分類。比較本研究分類模型和其他網(wǎng)絡(luò)模型,本研究模型的分類準(zhǔn)確率更高。此外,根據(jù)基于深度學(xué)習(xí)的藝術(shù)圖像分類方法,設(shè)計(jì)并實(shí)現(xiàn)了藝術(shù)圖像的智能分類系統(tǒng),可以有效對(duì)藝術(shù)圖像風(fēng)格進(jìn)行分類,對(duì)藝術(shù)教育方面具有參考價(jià)值。但是存在一定的不足之處,比如網(wǎng)絡(luò)模型對(duì)藝術(shù)風(fēng)格不具特色的畫種分類性能較差,且模型參數(shù)數(shù)量過多等問題,接下來可以針對(duì)這些問題進(jìn)行更深入的研究。