摘要:在圖像分類工作中,傳統(tǒng)網(wǎng)絡(luò)算法模型受人工特征信息提取工作的影響,泛化能力較差。鑒于此,文章改進(jìn)了以深度卷積神經(jīng)網(wǎng)絡(luò)為核心的圖像分類算法模型。在改進(jìn)的AlexNet結(jié)構(gòu)中,引入最大-均值池化層替代原本的最大均值池化方式,使用Maxout+Dropout激活函數(shù)等進(jìn)一步提高圖像的分類能力。結(jié)果表明,優(yōu)化模型在寵物圖像數(shù)據(jù)庫OxfordIIIT Pet測試集中的準(zhǔn)確率為85.6%、精確度為88.3%、F1值為89.0%。與其他模型相比,優(yōu)化模型的Acc%最大提高5.4%。研究表明:深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中性能優(yōu)越,適用于復(fù)雜數(shù)據(jù)集的高效處理,具有顯著的應(yīng)用潛力。
關(guān)鍵詞:深度卷積神經(jīng)網(wǎng);圖像分類;優(yōu)化模型;AlexNet結(jié)構(gòu);激活函數(shù)
中圖分類號(hào):TP877" 文獻(xiàn)標(biāo)志碼:A
0 引言
當(dāng)前,人類處于一個(gè)信息大爆炸的時(shí)代,各領(lǐng)域已經(jīng)積累了大量的數(shù)據(jù),每天都有數(shù)以億計(jì)的圖像產(chǎn)生于各種國內(nèi)外的社交媒體,例如微信、Instgaram、Facebook等[1]。面對如此龐大的圖像數(shù)量,為了準(zhǔn)確高效地得到有價(jià)值的信息,如何優(yōu)化提升分類算法模型的效率是當(dāng)前研究的熱點(diǎn)。傳統(tǒng)的圖像分類算法模型,如決策樹、支持向量機(jī)(Support Vector Machine,SVM)、K近鄰(KNearest Neighbor,KNN)等,過于依賴人的經(jīng)驗(yàn)操作[2]。在面對復(fù)雜的數(shù)據(jù)集時(shí),人工提取特征的質(zhì)量會(huì)直接影響到模型分類的表現(xiàn),對于非結(jié)構(gòu)化的數(shù)據(jù),人工提取有效特征也是非常困難且低效的。此外,在處理高維數(shù)據(jù)時(shí),傳統(tǒng)網(wǎng)絡(luò)算法模型雖然在訓(xùn)練數(shù)據(jù)上擬合得較好,但是在新數(shù)據(jù)上的泛化能力較差,數(shù)據(jù)集中的噪聲和異常值也會(huì)影響到傳統(tǒng)網(wǎng)絡(luò)算法模型分類的效果[3]。
針對以上問題,本文為提高圖像分類的精度和效率提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法優(yōu)化模型。該模型以深度卷積神經(jīng)網(wǎng)絡(luò)算法為核心進(jìn)行深度學(xué)習(xí),不受人工手動(dòng)進(jìn)行特征提取的經(jīng)驗(yàn)所影響,能夠自動(dòng)從原始數(shù)據(jù)中提取有用的特征,通過數(shù)據(jù)增強(qiáng)和正則化等手段,在面對未見數(shù)據(jù)時(shí)具有較好的泛化能力。本文優(yōu)化的基于深度卷積神經(jīng)網(wǎng)絡(luò)算法模型,相比較傳統(tǒng)網(wǎng)絡(luò)算法模型,在面對大規(guī)模數(shù)據(jù)集和復(fù)雜任務(wù)時(shí),尤其是圖像分類,具有更高的準(zhǔn)確性和更好的性能。
1 深度卷積神經(jīng)網(wǎng)絡(luò)
1.1 深度學(xué)習(xí)
對于視覺領(lǐng)域的各類計(jì)算機(jī)基礎(chǔ)任務(wù),例如圖像分類、目標(biāo)識(shí)別等,傳統(tǒng)算法模型的解決思路通常是通過人工設(shè)計(jì)的特征來識(shí)別圖像的信息進(jìn)而識(shí)別。但是這種特征工程存在明顯的局限性,過于依賴于人的經(jīng)驗(yàn)積累,難以適應(yīng)各種特征并且在不同數(shù)據(jù)集和任務(wù)中的泛化能力較弱,無法有效應(yīng)對數(shù)據(jù)分布的變化和特征的多樣性,因此,計(jì)算機(jī)視覺領(lǐng)域長期處于停滯不前的狀態(tài)。AlexNet在2012年的ImageNet挑戰(zhàn)賽中獲得冠軍,引起深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的突破性進(jìn)展,這標(biāo)志著深度學(xué)習(xí)開始廣泛應(yīng)用于視覺領(lǐng)域[4]。
深度學(xué)習(xí)是一種能夠從海量數(shù)據(jù)中,充分學(xué)習(xí)數(shù)據(jù)信息中的分布規(guī)律和特征的機(jī)器學(xué)習(xí)技術(shù),具備自主學(xué)習(xí)的能力,核心為神經(jīng)網(wǎng)絡(luò)。與傳統(tǒng)方法依賴人工設(shè)計(jì)特征信息不同的是,深度學(xué)習(xí)通過網(wǎng)絡(luò)系統(tǒng)從原始開始數(shù)據(jù)中學(xué)習(xí)到低級(jí)到高級(jí)的抽象特征,能夠自主地理解數(shù)據(jù)中的內(nèi)在規(guī)律。深度學(xué)習(xí)的最大優(yōu)勢在于其強(qiáng)大的特征學(xué)習(xí)能力,能夠在沒有明顯人工干預(yù)的情況下,從大量未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)到有用的信息,進(jìn)而完成任務(wù)。神經(jīng)網(wǎng)絡(luò)目前在圖像分類和分割、語音識(shí)別、數(shù)據(jù)挖掘、自然語言處理等多個(gè)計(jì)算機(jī)領(lǐng)域都已經(jīng)取得了先進(jìn)的成果與突破性的發(fā)展[5]。其中,深度學(xué)習(xí)在視覺領(lǐng)域的應(yīng)用尤為廣泛,已經(jīng)實(shí)現(xiàn)了圖像分類工作的高精度與高效率。深度學(xué)習(xí)的主要思想是通過逐層抽取特征信息,將原始數(shù)據(jù)轉(zhuǎn)化為高級(jí)的特征信息表示,利于可視化或分類[6]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種融合深度學(xué)習(xí)和生物視覺系統(tǒng)工作方式的前饋神經(jīng)網(wǎng)絡(luò),通常由卷積層、激活層、池化層、全連接層和輸出層構(gòu)成。其中,卷積層中含有不同的卷積核,可以提取圖像的不同特征;池化層用于降低特征數(shù)據(jù)尺寸;全鏈接層用于圖像的識(shí)別和分類[7]。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,卷積神經(jīng)網(wǎng)絡(luò)是前向傳播的,首先使用不同參數(shù)和尺寸的卷積核進(jìn)行圖像的特征提??;其次將提取到的不同語義信息的特征圖經(jīng)過激活層,增強(qiáng)模型的非線性擬合能力,通過池化層的下采樣降低特征圖的維度;最后減小網(wǎng)絡(luò)算法模型的計(jì)算負(fù)擔(dān)。多次的重復(fù)操作后,最終得到一維向量。輸入一維向量到卷積層,使用Softmax分類器輸出歸一化的概率值。
圖像被卷積層提取得到的所有特征值都是由當(dāng)前層卷積核與前一層特征圖進(jìn)行復(fù)雜的卷積計(jì)算得到。第p個(gè)訓(xùn)練樣本的特征像素值用公式表示為:
yp=σ∑c∑rxc,r·Wc,r+b(1)
其中,c和r表示第p個(gè)訓(xùn)練樣本特征像素的縱向和橫向位置,W是卷積核的權(quán)重,b是偏置項(xiàng),σ是激活函數(shù)。卷積核的尺寸由kx和ky表示,步長由s表示。
池化層通過對前一層卷積特征圖進(jìn)行下采樣,得到池化后的特征像素值。第p個(gè)訓(xùn)練樣本池化后的特征像素可以表示為:
ypool=∑i,j∈Sxi,j(2)
其中,S是池化窗口的大小,u和v是池化窗口的步長,r和c是池化窗口內(nèi)的橫向和縱向特征像素位置。
全連接層用于整合前網(wǎng)絡(luò)層提取到的特征信息,對前獲取的多維數(shù)據(jù)信息進(jìn)行先行處理。該層神經(jīng)元采用激活函數(shù)來增強(qiáng)非線性能力,相較其他層,存在更多的模型參數(shù)與運(yùn)算過程。
輸出層是卷積神經(jīng)網(wǎng)絡(luò)中的最后一層,負(fù)責(zé)該層的神經(jīng)元數(shù)量與分類數(shù)量相當(dāng),后接Softmax激活函數(shù)用于計(jì)算圖像在各類別上的預(yù)測概率。Softmax函數(shù)將對輸入圖像的得分轉(zhuǎn)化為[0,1]區(qū)間的分類判別概率。Softmax激活函數(shù)的公式為:
ai=ezi∑mk=1ezk(3)
其中,zi為網(wǎng)絡(luò)算法模型對于類別i的得分,ai為輸入信息在類別i上的預(yù)測概率值。
在網(wǎng)絡(luò)算法模型的訓(xùn)練過程中,算法模型首先會(huì)通過比較輸出的概率分布與輸入樣本的真實(shí)標(biāo)簽之間的差異,計(jì)算出當(dāng)前的損失值。反向傳播算法會(huì)將計(jì)算得到的損失值傳遞給神經(jīng)網(wǎng)絡(luò)中的各個(gè)層次的神經(jīng)元,從而自動(dòng)調(diào)整每個(gè)節(jié)點(diǎn)的權(quán)重,準(zhǔn)確化模型輸出值。綜上,訓(xùn)練過程就是正向傳播和反向傳播的交替進(jìn)行。在正向傳播階段,將輸入數(shù)據(jù)逐層傳遞、逐層計(jì)算,生成預(yù)測值。反向傳播就是誤差反向傳播,即將損失信息傳遞到每個(gè)神經(jīng)元,指導(dǎo)權(quán)重更新。隨著訓(xùn)練迭代次數(shù)的增加,算法模型中的參數(shù)權(quán)重不斷調(diào)整,預(yù)測結(jié)果逐漸接近真實(shí)標(biāo)簽所對應(yīng)的獨(dú)熱編碼,從而實(shí)現(xiàn)最小化損失函數(shù)的目標(biāo)。
2 優(yōu)化后的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法設(shè)計(jì)
2.1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
優(yōu)化后的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先,由于網(wǎng)絡(luò)深度越大,距離遠(yuǎn)的層就會(huì)對圖像分類的梯度影響因子能力越弱,會(huì)導(dǎo)致梯度彌散效應(yīng),因此,每一層輸出后都對數(shù)據(jù)進(jìn)行規(guī)范化處理,使其為同一分布,然后再進(jìn)行傳輸。全連接層為實(shí)現(xiàn)任意維度函數(shù)的擬合,采用Maxout+Dropout激活函數(shù)。優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)拋棄了原本的最大值池化方式,選擇在卷積層后面增加最大值-均值的池化層。
2.2 最大-均值池化擴(kuò)展圖像局部感受野
空間池化是計(jì)算機(jī)視覺算法中一種常見的操作。空間池化就是通過對特定區(qū)域內(nèi)的特征進(jìn)行整合來降低數(shù)據(jù)的復(fù)雜性,保留與特定任務(wù)密切相關(guān)的重要信息,去除一些冗余和不必要的細(xì)節(jié),減輕計(jì)算資源的消耗,提高處理效率??臻g池化的優(yōu)勢有:(1)池化操作能夠顯著提高模型對圖像變換的容忍度,使得圖像在旋轉(zhuǎn)、縮放或平移等變換下仍能保持較好的識(shí)別效果。(2)池化操作能夠生成更加緊湊且具有結(jié)構(gòu)性的特征表示,降低圖像的特征維度。(3)池化操作有助于提升網(wǎng)絡(luò)對噪聲和外界干擾的魯棒性,增強(qiáng)模型的穩(wěn)定性,擴(kuò)展網(wǎng)絡(luò)的局部感受野,允許模型捕捉到更多的上下文信息。
優(yōu)化模型使用的最大-均值池化方法綜合了最大池化和平均池化的優(yōu)勢,不僅保留了精確的圖像信息,還擴(kuò)大了局部感受野。與人類視覺的復(fù)雜細(xì)胞功能類似的是,最大池化可以使提取的特征信息產(chǎn)生平移的同時(shí)不改變其特性,而平均池化可以控制特征信息對微小變形具有魯棒性。具體公式如下:
f(v)=∑Tm=1wmvm(4)
其中,m表示圖像滑動(dòng)窗口中第m個(gè)像素點(diǎn)。
2.3 數(shù)據(jù)信息規(guī)范化算法
對數(shù)據(jù)的規(guī)范化處理方法如下:
(1)單次輸入圖像特征信息:B={x1…xm},引入?yún)?shù),采樣因子β,池化層橫向特征像素r,池化層縱向特征像素c。
(2)輸出:{yi=BNr,β(xi)}
(3)批次化處理均值:μB←1m∑m1xi
(4)批次化處理方差:σ2B←1m∑m1(xi-μB)2
(5)規(guī)范化處理圖像特征信息:x^i←xi-μBσ2B+ε
(6)縮放評(píng)移輸出效果:yi←γx^i+β≡BNr,β(xi)
2.4 Maxout+Dropout激活函數(shù)
與傳統(tǒng)激活函數(shù)(如ReLU、Sigmoid等)只能擬合二維函數(shù)的局限性不同,Maxout 激活函數(shù)具有更強(qiáng)的能力,不僅能夠處理高維數(shù)據(jù),還能夠擬合更加復(fù)雜的函數(shù)。Maxout模型利用前向傳播機(jī)制,根據(jù)最大值選擇輸出的激活方式。對于給定的輸入x∈瘙綆n(可以是輸入向量或隱層狀態(tài)),Maxout計(jì)算并輸出本層每個(gè)節(jié)點(diǎn)的值,公式為:
h(x)=maxj∈[1,k]zj(5)
其中,zj=xTWj+bj,Wj∈瘙綆n×m,bj∈瘙綆m表示偏置項(xiàng)。在卷積神經(jīng)網(wǎng)絡(luò)中,Maxout 函數(shù)通過從k個(gè)隱層節(jié)點(diǎn)中選擇最大值作為該節(jié)點(diǎn)的輸出。Maxout 激活函數(shù)由于在每個(gè)片段內(nèi)呈現(xiàn)線性關(guān)系,可以被視為一個(gè)分段線性函數(shù),能有效擬合任意凸函數(shù)。理論上,2個(gè)Maxout單元的組合就足以擬合任意連續(xù)函數(shù)。
為了進(jìn)一步提升模型的性能,Maxout激活函數(shù)往往與Dropout技術(shù)相結(jié)合。Dropout有助于減少模型的過擬合問題,增強(qiáng)其泛化能力。在全連接層中,使用Maxout和Dropout的組合來替代傳統(tǒng)的ReLU激活函數(shù),能夠捕捉到更為精確的圖像特征,提升特征的抽象層次。由于Maxout激活函數(shù)增加了全連接層的參數(shù),為避免計(jì)算負(fù)擔(dān)過大,F(xiàn)C6和FC7層的輸出維度減少到2048并將Dropout程度減少到50%,以提高稀疏性。
3 實(shí)驗(yàn)結(jié)果討論與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
牛津大學(xué)視覺幾何小組創(chuàng)建的The OxfordIIIT Pet Dataset寵物圖像數(shù)據(jù)集由37種寵物組成,總共包含7393張圖片。每張照片在比例、姿勢和光照方面都差異很大且所有照片均具有與品種、頭部ROI和像素級(jí)三圖分割相關(guān)的真實(shí)情況注釋。本次實(shí)驗(yàn)在每類寵物圖像集中隨機(jī)選取30張,按數(shù)量平均分為2組,一組作為驗(yàn)證集,另一組作為測試集,余下的6283張照片作為訓(xùn)練集。圖3為The OxfordIIIT Pet Dataset中的圖像,Abyssinian_8Abyssinian_9如圖3(a)所示,同一種類的寵物并不完全一樣,可能存在毛色、瞳孔等差異。圖3(b)為american_pit_bull_terrier_13、american_bulldog_175與beagle_9,不同種類的寵物也存在相似之處,為人工智能對寵物圖像的識(shí)別帶來了一定的挑戰(zhàn)。
在網(wǎng)絡(luò)算法模型開始訓(xùn)練前,由于庫中圖片清晰度不一,類別差別大,要對數(shù)據(jù)庫中的圖片進(jìn)行預(yù)處理。對所有圖片進(jìn)行歸一化,將像素調(diào)整到[0,1]的范圍,以加快網(wǎng)絡(luò)算法模型的收斂速度,提升訓(xùn)練的穩(wěn)定性。采用數(shù)據(jù)增強(qiáng)技術(shù),包括隨機(jī)旋轉(zhuǎn)圖像以增加姿態(tài)變化、水平或垂直翻轉(zhuǎn)圖像,模擬不同的視角、隨機(jī)縮放圖像并裁剪出固定大小的區(qū)域,保證模型能夠?qū)W習(xí)到不同尺度的信息以及隨機(jī)改變圖像的亮度和對比度,以增強(qiáng)模型對光照變化的魯棒性,實(shí)現(xiàn)模型泛化能力的提高。庫中的圖片大小不一,不能滿足網(wǎng)絡(luò)算法模型統(tǒng)一化輸入的要求,因此,要統(tǒng)一將所有照片裁剪為固定尺寸[224×224]。在裁剪過程中要優(yōu)先保留頭部區(qū)域,以方便模型進(jìn)行特征識(shí)別,同時(shí)在裁剪過程中要保持圖像的比例,避免失真。
3.2 實(shí)驗(yàn)環(huán)境
本次實(shí)驗(yàn)在某大學(xué)視覺認(rèn)知實(shí)驗(yàn)室完成,實(shí)驗(yàn)環(huán)境配置如下:GPU:GeForce RTX 4060 Ti;內(nèi)存:32 GB;操作系統(tǒng):CentOS 7.3.1544;程序語言:Python 3.12.3;深度學(xué)習(xí)框架:TensorFlow 1.12.0 Keras 2.2.4;優(yōu)化器:Adam優(yōu)化器。
3.3 網(wǎng)絡(luò)算法模型性能評(píng)估和比較
本文采用準(zhǔn)確率、精確度和F1值對網(wǎng)絡(luò)算法模型在測試集中的表現(xiàn)進(jìn)行模型評(píng)估,以評(píng)價(jià)其分類性能和泛化能力。為了充分評(píng)估本文設(shè)計(jì)的網(wǎng)絡(luò)算法模型的性能,本文將優(yōu)化改進(jìn)后的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法,與傳統(tǒng)的單尺度卷積神經(jīng)網(wǎng)絡(luò)模型以及多尺度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比實(shí)驗(yàn),所有對比實(shí)驗(yàn)都在測試集上進(jìn)行。
3.3.1 評(píng)估標(biāo)準(zhǔn)與參數(shù)選擇
本文選用Adam作為本文實(shí)驗(yàn)的優(yōu)化器,學(xué)習(xí)率設(shè)定為0.00001,訓(xùn)練迭代進(jìn)行900次。采用準(zhǔn)確率作為定量分析模型性能的評(píng)估標(biāo)準(zhǔn),計(jì)算公式為:
Acc=rightall(6)
其中,right代表模型進(jìn)行圖像分類正確的樣本數(shù),all代表參與分類實(shí)驗(yàn)的總樣本數(shù),Acc值的大小代表網(wǎng)絡(luò)算法模型進(jìn)行圖像分類準(zhǔn)確率的高低,即算法模型性能的好壞。
本次實(shí)驗(yàn)是多分類任務(wù),引入多分類交叉熵作為損失函數(shù),公式如下:
Loss=-∑ni=1yilog(y′i)(7)
其中,n為類別數(shù)量,yi為真實(shí)值,y′i為模型輸出值。當(dāng)模型輸出值接近真實(shí)值,與真實(shí)值之間的差異越小時(shí),Loss值越小,即算法模型的分類效果越好。模型訓(xùn)練過程中,圖4為Loss值隨著訓(xùn)練迭代次數(shù)的增加的變化,隨著訓(xùn)練次數(shù)的增加,Loss值逐漸下降,模型分類效果越來越好。當(dāng)訓(xùn)練迭代次數(shù)達(dá)到900的時(shí)候,Loss值為1.03,此時(shí)曲線已經(jīng)接近平穩(wěn),表明模型已經(jīng)具有較好的分類性能,訓(xùn)練結(jié)束。
3.3.2 結(jié)果分析與比較
不同模型對比實(shí)驗(yàn)結(jié)果如表1所示。本文設(shè)計(jì)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類優(yōu)化算法模型在測試中的表現(xiàn)為準(zhǔn)確率85.6%,精確度88.3%,F(xiàn)1值89.0%。結(jié)果表明,該模型能夠有效地進(jìn)行寵物圖像分類,充分發(fā)揮其優(yōu)勢,具有較高的分類準(zhǔn)確性和吞吐的泛化能力,能夠適應(yīng)圖像復(fù)雜的寵物數(shù)據(jù)集并提供穩(wěn)定性的分類結(jié)果。對比實(shí)驗(yàn)都是在數(shù)據(jù)集、數(shù)據(jù)處理方法和實(shí)驗(yàn)環(huán)境相同的情況下進(jìn)行的。單尺度卷積神經(jīng)網(wǎng)絡(luò)算法模型的準(zhǔn)確率為73.4%,多尺度卷積神經(jīng)網(wǎng)絡(luò)算法模型的準(zhǔn)確率為79.2%,本文提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類優(yōu)化算法模型的準(zhǔn)確率為88.8%,與其他2個(gè)網(wǎng)絡(luò)算法模型相比,本文設(shè)計(jì)的網(wǎng)絡(luò)算法模型對寵物的圖像分類效果明顯優(yōu)于其他算法,準(zhǔn)確率最大提升了5.4%。
4 結(jié)語
傳統(tǒng)的網(wǎng)絡(luò)算法模型在處理圖像分類任務(wù)時(shí)具有一定的局限性,例如過于依賴人工設(shè)計(jì)特征信息、泛化能力較弱,已經(jīng)不能滿足目前信息時(shí)代的大規(guī)模圖像分類任務(wù)需求,因此本文設(shè)計(jì)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法優(yōu)化模型。對于算法模型的優(yōu)化策略有采用最大值-均值的池化層、對每層輸出數(shù)據(jù)進(jìn)行規(guī)范化處理、采用Maxout+Dropout激活函數(shù)。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的算法模型在圖像分類任務(wù)中具有較高的分類準(zhǔn)確性和吞吐的泛化能力。與其他的算法模型對比,本文設(shè)計(jì)的網(wǎng)絡(luò)算法模型對寵物的圖像分類效果明顯優(yōu)于其他算法,準(zhǔn)確率達(dá)到了88.8%。
參考文獻(xiàn)
[1]黃懿蕊,羅俊瑋,陳景強(qiáng).基于對比學(xué)習(xí)和GIF標(biāo)記的多模態(tài)對話回復(fù)檢索[J].計(jì)算機(jī)應(yīng)用,2024(1):32-38.
[2]陳棟,李明,陳淑文.結(jié)合Transformer和多層特征聚合的高光譜圖像分類算法[J].數(shù)據(jù)與計(jì)算發(fā)展前沿,2023(3):138-151.
[3]丁世飛,張成龍,郭麗麗,等.基于Mestimator函數(shù)的加權(quán)深度隨機(jī)配置網(wǎng)絡(luò)[J].計(jì)算機(jī)學(xué)報(bào),2023(11):2476-2487.
[4]鮑亞林,唐戈.基于AlexNet深度學(xué)習(xí)的刺繡圖像分類研究[J].毛紡科技,2023(6):81-87.
[5]鄭興凱,楊鐵軍,黃琳.基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的細(xì)粒度花卉圖像分類方法研究[J].河南農(nóng)業(yè)科學(xué),2024(5):164-171.
[6]杭仁龍,李成相,劉青山.譜間對比學(xué)習(xí)的高光譜圖像無監(jiān)督特征提?。跩].測繪學(xué)報(bào),2023(7):1164-1174.
[7]李鳳,呂裕,張海曦,等.基于卷積通道篩選的大規(guī)模圖像識(shí)別[J].彈箭與制導(dǎo)學(xué)報(bào),2022(2):42-49.
(編輯 王雪芬)
Research on optimization of image classification algorithms based on deep convolutional neural networks
FENG" Liyang
(College of Science, Nanchang Institute of Technology, Nanchang 330000, China)
Abstract: "The traditional network algorithm model for image classification is affected by the artificial feature information extraction, and the generalization ability is poor. In view of this, this paper improves the image classification algorithm model based on deep convolutional neural network. In the improved AlexNet structure, we introduce a maxmean pooling layer to replace the original maxmean pooling mode, and use the Maxout+Dropout activation function to further improve the image classification capability. The results show that the optimized model has 85.6% accuracy, 88.3% accuracy and 89.0% F1 value in OxfordIIIT Pet test set of pet image database. Compared with other models, the maximum increase of Acc% is 5.4%. This study proves the superior performance of deep convolutional neural networks in image classification tasks, which is suitable for efficient processing of complex data sets, and has significant application potential.
Key words: deep convolutional neural network; image classification; optimization model; AlexNet structure; activation function