摘" 要:該項(xiàng)目在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中引入神經(jīng)反饋機(jī)制和工作記憶機(jī)制,提出層內(nèi)深度反饋卷積神經(jīng)網(wǎng)絡(luò)模型(IDFNet)。該網(wǎng)絡(luò)以神經(jīng)反饋機(jī)制構(gòu)建深度反饋計(jì)算模塊(DFS),并在模塊中引入了工作記憶(WM),通過(guò)深度變化控制WM空間內(nèi)容的更新,從而增強(qiáng)了信息獲取能力。最后,利用DFS替代CNN的卷積層構(gòu)建IDFNet網(wǎng)絡(luò)。通過(guò)在Flower102和CIFAR-10、CIFAR-100數(shù)據(jù)集上的實(shí)驗(yàn)表明,相較于同類(lèi)網(wǎng)絡(luò),在更少參數(shù)量和計(jì)算量的情況下,IDFNet仍取得顯著的性能提升,其識(shí)別率分別達(dá)到了96.61%和95.87%、79.99%。
關(guān)鍵詞:反饋機(jī)制;工作記憶;循環(huán)計(jì)算;圖像分類(lèi)
中圖分類(lèi)號(hào)TP391.4" 文獻(xiàn)標(biāo)識(shí)碼:A" " " " 文章編號(hào):2096-4706(2024)10-0001-06
Image Classification Network Model of Simulated Neural Feedback Mechanism
and Working Memory
TONG Shunyan, LIU Haihua
(School of Biomedical Engineering, South-Central Minzu University, Wuhan" 430074, China)
Abstract: This project introduces neural feedback and working memory mechanisms into Convolutional Neural Networks (CNN) and proposes an Intra-Layer Deep Feedback Convolutional Neural Network Model (IDFNet). The network constructs a Deep Feedback Structure (DFS) using neural feedback mechanisms, and introduces a Working Memory (WM) within this module. It controls the update of WM spatial content by depth variations, so as to enhance information retrieval capabilities. Finally, the IDFNet network is built by replacing CNN's convolutional layers with DFS. Experimental results on the Flower102, CIFAR-10, and CIFAR-100 datasets demonstrate that IDFNet achieves significant performance improvements compared to similar networks, with higher recognition rates of 96.61%, 95.87%, and 79.99%, respectively, while requiring fewer parameters and computations.
Keywords: feedback mechanism; working memory; loop computation; image classification
0" 引" 言
神經(jīng)網(wǎng)絡(luò)模型經(jīng)過(guò)幾十年不懈研究,取得了顯著的突破和進(jìn)步。從最初的感知器模型到今天的深度神經(jīng)網(wǎng)絡(luò)模型,且在語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等多應(yīng)用領(lǐng)域持續(xù)演進(jìn)。在神經(jīng)網(wǎng)絡(luò)的發(fā)展中,模型的規(guī)模和復(fù)雜性在不斷增加,出現(xiàn)了AlexNet 11 [1]、VGGNet [2]、Googlenet [3]、ResNet [4]、DenseNet [5]、SENet [6]等模型及其變體。然而,在面對(duì)多樣性和復(fù)雜性的圖像數(shù)據(jù)時(shí),更深和更寬的網(wǎng)絡(luò)模型發(fā)展面臨瓶頸。為此,人工神經(jīng)網(wǎng)絡(luò)模型需要引入生物神經(jīng)網(wǎng)絡(luò)的一些屬性,以提升模型的能力。
在人腦神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元間除存在前饋連接,還有反饋側(cè)連接。神經(jīng)生物學(xué)研究表明,反饋連接的數(shù)量是前饋連接的幾倍[7]。而反饋機(jī)制使神經(jīng)系統(tǒng)能處理時(shí)間序列數(shù)據(jù)?;诖?,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8]被開(kāi)發(fā),并廣泛應(yīng)用于文本、音頻和視頻等數(shù)據(jù)的模式識(shí)別。此外,工作記憶(Working Memory, WM)是神經(jīng)系統(tǒng)的重要功能[9]。WM不僅能實(shí)現(xiàn)信息的存儲(chǔ),還能對(duì)信息進(jìn)行處理、轉(zhuǎn)換和整合。研究發(fā)現(xiàn)WM的空間是有限的[10],其引入神經(jīng)網(wǎng)絡(luò)模型可以有效地控制模型的規(guī)模和復(fù)雜性。
綜合上述分析,本文將神經(jīng)反饋機(jī)制和工作記憶機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相融合,提出了層內(nèi)深度反饋卷積神經(jīng)網(wǎng)絡(luò)模型(Intra-Layer Deep Feedback Convolutional Neural Network Model, IDFNet),以有效完成圖像模式識(shí)別任務(wù)。與傳統(tǒng)的CNN不同,深度反饋結(jié)構(gòu)的每層進(jìn)行循環(huán)計(jì)算,同時(shí)更新工作記憶區(qū)域的信息,并將工作記憶中的信息融合作進(jìn)行復(fù)用,以獲取更有效的特征信息,提高模型的識(shí)別性能。
1" 相關(guān)工作
近年來(lái),應(yīng)用于圖像識(shí)別的前向深度神經(jīng)網(wǎng)絡(luò)模型主要是通過(guò)增加模型的深度或?qū)挾?,以增?qiáng)網(wǎng)絡(luò)擬合能力,提升模型的性能。在這些模型的基礎(chǔ)上,Dropout [11]、殘差連接[7]、最小批量歸一化[12]、密集連接[8]、注意力機(jī)制[6,13]等技術(shù)被采用,進(jìn)一步加強(qiáng)了網(wǎng)絡(luò)模型內(nèi)部信息的融合,從而顯著提升模型的性能。
反饋神經(jīng)網(wǎng)絡(luò)模型也應(yīng)用于模式識(shí)別,但主要應(yīng)用于序列數(shù)據(jù),其典型的模型為循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)。然而,該模型在處理長(zhǎng)時(shí)依賴(lài)性數(shù)據(jù)時(shí)會(huì)導(dǎo)致梯度消失或梯度爆炸問(wèn)題。為此,學(xué)者提出了多種改進(jìn)的RNN模型,如長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[14]和門(mén)控循環(huán)單元(GRU)[15]。這些模型主要是通過(guò)門(mén)控的方式對(duì)信息進(jìn)行判斷和篩選,在避免梯度消失和爆炸問(wèn)題的基礎(chǔ)上,有效捕獲長(zhǎng)序列的關(guān)鍵信息。但是,這些模型只是處理序列數(shù)據(jù),而不能處理圖像數(shù)據(jù)。
處理圖像數(shù)據(jù),運(yùn)用反饋機(jī)制的神經(jīng)中心環(huán)繞相互作用,可以不斷篩選和加工視覺(jué)信息[16]。最典型的是Cao等人提出的Feedback模型[17],該模型由脈沖神經(jīng)元激活變量z ∈ {0,1}與每個(gè)ReLU層組合構(gòu)成反饋層,以自下而上和自上而下的方式主動(dòng)調(diào)節(jié)神經(jīng)元的響應(yīng)。而Wen等人使得相鄰層在前饋過(guò)程中能夠進(jìn)行局部且循環(huán)的交互,提出了PCN模型[18]。另外,Yu等人在遞歸卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了自注意力機(jī)制,提出了自注意力循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(A-RCNN)[19],以完成圖像分類(lèi)任務(wù)。
工作記憶機(jī)制在殘差連接和密集連接的神經(jīng)網(wǎng)絡(luò)中有所體現(xiàn),基于網(wǎng)絡(luò)的深度[20]和寬度[21]的考量,衍生出了不同的殘差(ResNet)和密集網(wǎng)絡(luò)(DenseNet)模型的變體。例如,Sergey等人通過(guò)增加ResNet每層網(wǎng)絡(luò)的寬度,而減少網(wǎng)絡(luò)深度提出WRN [22]網(wǎng)絡(luò);而Han等人根據(jù)深度的增加逐漸調(diào)整寬度,提出金字塔殘差網(wǎng)絡(luò)(PyramidNet)[23];Gao等人提出多尺度的殘差網(wǎng)絡(luò)Res2Net [24]。同樣地,Huang等人提出了多尺度密集網(wǎng)絡(luò)(MSDnet)[25],該網(wǎng)絡(luò)自適應(yīng)地處理多尺度輸入數(shù)據(jù);隨后,CondenseNet [26]和CondenseNetv2 [27]網(wǎng)絡(luò)對(duì)密集結(jié)構(gòu)進(jìn)一步改進(jìn),從而提升其性能。盡管這些改進(jìn)是有益的,但仍未解決殘差和密集網(wǎng)絡(luò)存在的一些固有問(wèn)題[5,28]。
2" 層內(nèi)深度反饋卷積神經(jīng)網(wǎng)絡(luò)
2.1" 深度反饋結(jié)構(gòu)
RNN的循環(huán)結(jié)構(gòu)賦予其記憶和時(shí)間依賴(lài)性的特質(zhì)。然而,RNN也受梯度消失和爆炸問(wèn)題困擾,難以捕捉長(zhǎng)期依賴(lài)性。在處理圖像數(shù)據(jù)時(shí),RNN也遇到困境,因?yàn)閳D像特征在空間上呈局部性。因此,本文的構(gòu)想是將RNN的循環(huán)思想嵌入卷積神經(jīng)網(wǎng)絡(luò)中,運(yùn)用循環(huán)計(jì)算創(chuàng)造感知信息ht,模擬視覺(jué)認(rèn)知對(duì)物體的感知。另外,記憶是神經(jīng)系統(tǒng)寶貴的能力,但不可能無(wú)限制長(zhǎng)久保留。本文引入一個(gè)長(zhǎng)度有限的工作記憶空間用來(lái)存儲(chǔ)感知序(ht-1,ht-2,…,ht-l)列,以FIFO(先進(jìn)先出)方式更新其中信息。通過(guò)重新利用感知信息ht,網(wǎng)絡(luò)能夠捕獲長(zhǎng)距離依賴(lài),從而有效地提取信息。由此,本文提出深度反饋結(jié)構(gòu)(Deep Feedback Structure, DFS)融合了反饋機(jī)制和工作記憶。該結(jié)構(gòu)狀態(tài)和輸出變量定義如下:
其中l(wèi)為反饋深度,L≥l是總的時(shí)間步長(zhǎng),稱(chēng)為模型深度。本文將工作記憶中的感知信息用求和的方式加以復(fù)用,并在下一次循環(huán)計(jì)算時(shí)參與信息的傳遞,用以提取特征中變化緩慢的量,同時(shí)也可以緩解梯度消失和梯度爆炸的問(wèn)題。此外,為了突出每次的感知信息,對(duì)感知信息乘以加權(quán)系數(shù)ai,ai源于神經(jīng)元的響應(yīng)信息ht-i,因此將其定義如下:
ai = σ (ht-i)" " " " " " " " " " " " " " "(3)
其中σ使用Sigmoid激活函數(shù),使得0<ai<1,以凸顯感知信息ht-i中的感興趣區(qū)域。
循環(huán)計(jì)算和工作記憶空間如圖1所示。在循環(huán)計(jì)算時(shí)將WMt與Xt融合后經(jīng)過(guò)卷積得到輸出ht。ht按照FIFO的方式更新WM Space中的內(nèi)容,WM Space中的信息融合產(chǎn)生WMt+1作為下一次循環(huán)計(jì)算的輸入。
2.2" 網(wǎng)絡(luò)結(jié)構(gòu)
在IDFNet網(wǎng)絡(luò)中,網(wǎng)絡(luò)主要由連續(xù)的DFS模塊構(gòu)成。DFS模塊在實(shí)現(xiàn)上由3個(gè)層構(gòu)成:輸入層、循環(huán)計(jì)算層和輸出層。其中,輸入和輸出層分別由1個(gè)卷積模塊(Conv-BN-ReLU)組成,而循環(huán)計(jì)算層則由一個(gè)殘差塊組成,如圖2所示。循環(huán)計(jì)算主要通過(guò)反饋深度l和模型深度L兩個(gè)重要參數(shù)來(lái)控制,將x經(jīng)過(guò)輸入層的輸出記為h-1,對(duì)WM Space初始化為(h-1,h-1,…,h-1),長(zhǎng)度為l。在模型深度L次內(nèi),每次循環(huán)計(jì)算會(huì)產(chǎn)生1個(gè)感知信息ht,用ht更新WM Space產(chǎn)生新的感知序列(ht,ht-1,…,ht-l)。當(dāng)L = 1時(shí),感知序列為(h0,h-1,…,h-1),L = l時(shí),感知序列為(ht-1,ht-2,…,ht-l)。將新的感知序列信息融合作為下一次循環(huán)計(jì)算的輸入,循環(huán)往復(fù),直到完成L次計(jì)算,得到hL,將其經(jīng)過(guò)輸出層,得到深度反饋結(jié)構(gòu)的輸出y。
每2個(gè)DFS模塊之間,使用最大池化對(duì)特征圖進(jìn)行下采樣。在網(wǎng)絡(luò)最后,使用全局平均池化層和Softmax組成分類(lèi)層,用于最終的分類(lèi)。
對(duì)于CIFAR-10和CIFAR-100數(shù)據(jù)集,考慮到圖像輸入只有32×32的大小,本文搭建由3個(gè)DFS模塊組成的網(wǎng)絡(luò)(IDFNet for CIFAR)用于該數(shù)據(jù)集分類(lèi)。在進(jìn)入第1個(gè)DFS模塊之前,經(jīng)過(guò)1個(gè)卷積核為3×3、通道數(shù)為32的卷積層,網(wǎng)絡(luò)使用最大池化進(jìn)行下采樣。這3個(gè)DFS模塊的輸出通道分別是32,64,128;輸出特征圖的大小分別為32,16,8。
對(duì)于輸入圖像大小為224×224的數(shù)據(jù)集,本文使用4個(gè)DFS模塊搭建網(wǎng)絡(luò)。在進(jìn)入第1個(gè)DFS模塊之前,經(jīng)過(guò)1個(gè)卷積核為7×7,步距為1的卷積層,使用最大池化進(jìn)行下采樣,在最后1個(gè)DFS模塊之后,使用全局平均池化層和Softmax進(jìn)行分類(lèi)。本文基于不同的網(wǎng)絡(luò)寬度搭建了3個(gè)網(wǎng)絡(luò)結(jié)構(gòu):IDFNet-l、IDFNet-m和IDFNet-s,每個(gè)結(jié)構(gòu)中最后DFS模塊的輸出通道數(shù)分別為1 024,512和256,詳細(xì)的網(wǎng)絡(luò)細(xì)節(jié)和參數(shù)如表1所示。表中[l,L]表示該DFS模塊中反饋深度和模型深度的取值。
3" 實(shí)驗(yàn)結(jié)果與分析
本文建議的網(wǎng)絡(luò)模型在不同的數(shù)據(jù)集上進(jìn)行驗(yàn)證評(píng)估,并與其他同類(lèi)型的網(wǎng)絡(luò)進(jìn)行比較。驗(yàn)證的實(shí)驗(yàn)條件為:Intel(R)Xeon(R)Gold 5118 CPU @
2.30 GHz,Tesla V100-SXM2 GPU服務(wù)器;軟件為Python 3.8.0,PyTorch 1.10.1框架。
3.1" 數(shù)據(jù)集
CIFAR數(shù)據(jù)集涵蓋了CIFAR-10和CIFAR-100兩個(gè)子集[29],圖像尺寸為32×32像素的彩色圖像。CIFAR-10包含10個(gè)不同類(lèi)別的圖像,而CIFAR-100則擁有100個(gè)類(lèi)別。訓(xùn)練集和測(cè)試集分別含有50 000張和10 000張圖像。從訓(xùn)練集中提取5 000張作為驗(yàn)證集,以測(cè)試集的結(jié)果為最終報(bào)告。類(lèi)似于其他文獻(xiàn)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[4-6,26,30],并運(yùn)用各通道均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)歸一化處理。
Flower102數(shù)據(jù)集包含102類(lèi)花卉圖像[31],每類(lèi)圖像約有40至258張,共計(jì)8 189張。由于花卉之間的相似性,數(shù)據(jù)集在分類(lèi)任務(wù)中存在一定難度。將數(shù)據(jù)集按8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
對(duì)CIFAR數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),采用SGD優(yōu)化器,將初始學(xué)習(xí)率設(shè)定為0.1,總共進(jìn)行300次迭代。同時(shí),在迭代次數(shù)達(dá)到50%和75%時(shí),對(duì)學(xué)習(xí)率進(jìn)行10倍的衰減。而在訓(xùn)練Flower102數(shù)據(jù)集時(shí),采用Adam優(yōu)化器,將初始學(xué)習(xí)率設(shè)置為0.000 1,總共進(jìn)行500次迭代。同樣,在迭代次數(shù)達(dá)到50%和75%時(shí),對(duì)學(xué)習(xí)率進(jìn)行10倍的衰減。此外,還對(duì)權(quán)重進(jìn)行了初始化[31],設(shè)定權(quán)重衰減率為10-4。在全連接層之前,添加Dropout層,設(shè)置丟棄率為0.2,以增強(qiáng)模型的魯棒性。
3.2" 實(shí)驗(yàn)結(jié)果
在神經(jīng)網(wǎng)絡(luò)中,淺層(shallow layers)主要關(guān)注圖像的低級(jí)特征,深層(deep layers)主要聚焦于圖像的抽象和語(yǔ)義特征。為了探究反饋深度l和模型深度L的關(guān)系,以及選取的范圍,實(shí)驗(yàn)時(shí)分別對(duì)淺層和深層的DFS模塊的反饋深度l和模型深度L進(jìn)行調(diào)整,以分類(lèi)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)。為確保驗(yàn)證的準(zhǔn)確性,實(shí)驗(yàn)時(shí)逐層調(diào)整反饋深度和模型深度。由于l和L具有多種組合方式,且每層的模型深度可以不同,導(dǎo)致組合數(shù)增加?;谏窠?jīng)網(wǎng)絡(luò)特性和計(jì)算量的考慮,列出部分不同反饋深度和模型深度組合下的分類(lèi)結(jié)果,如表2和表3所示。模型深度的選擇遵循l≤L,并且深層模型深度Ld≤淺層模型深度Ls。在表2和表3的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置中,利用lL表示每個(gè)DFS的設(shè)置,所有DFS的設(shè)置構(gòu)成了數(shù)字串。如表2中的結(jié)構(gòu)數(shù)字串362412,開(kāi)始的36表示第一個(gè)DFS模塊反饋深度l和模型深度L;而最后的12表示最后DFS模塊的反饋深度反饋深度l和模型深度L。
表2給出了不同反饋深度和模型深度的實(shí)驗(yàn)結(jié)果,其中前6行的實(shí)驗(yàn)結(jié)果主要是探索淺層(第1個(gè)DFS)反饋深度和模型深度的關(guān)系。從實(shí)驗(yàn)結(jié)果中可以看出,模型深度等于反饋深度的2倍時(shí)性能與計(jì)算量達(dá)到平衡,繼續(xù)增加模型深度時(shí),網(wǎng)絡(luò)的計(jì)算量會(huì)增加,而性能則趨于飽和。表2中第4、7和8行探索逐層使用DFS結(jié)構(gòu)對(duì)模型性能的影響,由實(shí)驗(yàn)數(shù)據(jù)可知每層使用DFS結(jié)構(gòu)都對(duì)模型性能有所改善。
同樣地,表3給出了IDFNet-m網(wǎng)絡(luò)結(jié)構(gòu)在Flower-102數(shù)據(jù)集上驗(yàn)證淺層與深層不同反饋深度和模型深度的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn)與表2相同的結(jié)論。因此,隨著網(wǎng)絡(luò)層次的加深,DFS模型深度隨之減少,可使網(wǎng)絡(luò)模型性能最佳。
為了更好地理解上述結(jié)論,圖3給出了DFS在循環(huán)計(jì)算所輸出的特征圖。DFS模塊通過(guò)循環(huán)計(jì)算對(duì)特征進(jìn)行重復(fù),在網(wǎng)絡(luò)淺層采用較深的反饋深度和模型深度,有助于突出圖像的紋理和邊緣等特征,如圖3所示,這對(duì)后續(xù)分類(lèi)任務(wù)很有幫助(第1張為原圖,從左至右依次為模型深度L = 1,L = 2,…,L = 8時(shí)的結(jié)果的特征圖,固定反饋深度l = 4。)。在網(wǎng)絡(luò)的深層,主要包含高級(jí)語(yǔ)義特征,每個(gè)像素?cái)y帶大量信息,較淺的反饋深度和模型深度可以對(duì)特征圖略做調(diào)整,以增強(qiáng)模型性能。
將本文的建議方法與其他方法在模型深度、參數(shù)量、計(jì)算量和分類(lèi)準(zhǔn)確率等方面進(jìn)行了對(duì)比,結(jié)果如表4和表5所示。在表4中,盡管本文建議的模型深度與其他一些模型相比較淺,但在CIFAR-10和CIFAR-100數(shù)據(jù)集上的性能表現(xiàn)卻非常接近甚至超過(guò)了其他更深的模型。這表明建議的模型能夠更有效地利用網(wǎng)絡(luò)深度,從而在參數(shù)數(shù)量和計(jì)算復(fù)雜性方面取得了更好的平衡。在表5中,從IDFNet-s、IDFNet-m到IDFNet-l模型,分類(lèi)錯(cuò)誤率逐步下降,但計(jì)算量和參數(shù)量也在逐步上升,IDFNet-m網(wǎng)絡(luò)在參數(shù)量和計(jì)算量之間取得平衡,性能與最優(yōu)結(jié)果相比略有下降,而IDFNet-l則取得最優(yōu)性能。在這3種模型中選擇最適合的模型,可以滿足不同的使用場(chǎng)景和性能要求。
與其他方法的對(duì)比顯示,本文提出的方法在減少了網(wǎng)絡(luò)層數(shù)、參數(shù)量和計(jì)算復(fù)雜度的情況下仍能取得出色的性能。相對(duì)于其他網(wǎng)絡(luò)結(jié)構(gòu),本文的方法更加簡(jiǎn)單,層數(shù)更少,這使得每層網(wǎng)絡(luò)都能夠更充分地發(fā)揮性能,而不會(huì)受到過(guò)多冗余分支和參數(shù)的干擾。
為了更全面地說(shuō)明建議網(wǎng)絡(luò),本文在CIFAR-100數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),展示在DFS中每個(gè)附加模塊對(duì)網(wǎng)絡(luò)性能的增益,其結(jié)果如表6所示。以只有卷積模塊,且保持反饋深度和模型深度固定,為基礎(chǔ)的DFS結(jié)構(gòu),在此基礎(chǔ)上分別添加殘差塊,密集連接和工作記憶3個(gè)模塊。從表6中得知,依次在DFS結(jié)構(gòu)中添加建議的模塊,對(duì)性能都有逐步的提升,說(shuō)明反饋機(jī)制和工作記憶在神經(jīng)網(wǎng)絡(luò)應(yīng)用中的有效性。
4" 結(jié)" 論
本文探索了將反饋機(jī)制和工作記憶機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)相融合的層內(nèi)深度反饋神經(jīng)網(wǎng)絡(luò)模型,以提升圖像分類(lèi)任務(wù)的性能。通過(guò)在網(wǎng)絡(luò)的淺層和深層應(yīng)用不同的深度反饋策略,揭示了循環(huán)計(jì)算在淺層時(shí)的潛力,以及在深層時(shí)的應(yīng)用。實(shí)驗(yàn)結(jié)果表明,在淺層中,循環(huán)計(jì)算有助于捕捉圖像的低級(jí)特征,從而提升分類(lèi)精度;而在深層中,適當(dāng)?shù)纳疃确答伈呗阅軌蚋玫夭蹲匠橄蠛透呒?jí)的語(yǔ)義特征。此外,實(shí)驗(yàn)結(jié)果驗(yàn)證了反饋深度和模型深度的關(guān)系對(duì)網(wǎng)絡(luò)性能的影響,并以此為基礎(chǔ)提出了一種適用于淺層和深層的模型選擇策略。在后續(xù)工作中,我們希望模型能夠在推理過(guò)程中自動(dòng)選擇合適的模型深度。這種自適應(yīng)方法允許模型在處理簡(jiǎn)單圖像時(shí)使用較淺的深度,在處理復(fù)雜圖像時(shí)使用較深的深度。這種動(dòng)態(tài)深度選擇有助于在保持模型性能的同時(shí)減少計(jì)算負(fù)擔(dān)并加快推理速度。
參考文獻(xiàn):
[1] KRIZHEVSKY A,SUTSKEVER L,HINTON G E. Imagenet classification with deep convolutional neural networks [J].Commun ACM,2017,60(6):84-90.
[2] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].(2014-08-04).https://arxiv.org/abs/1409.1556.
[3] SZEGEDY C,LIU W ,JIA Y ,et al. Going Deeper with Convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:1-9.
[4] HE K ,ZHANG X ,REN S ,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[5] HUANG G ,LIU Z ,LAURENS V D M ,et al. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:2261-2269.
[6] HU J ,SHEN L ,SUN G .Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,42(8):2011-2023.
[7] ANGELUCCI A,BRESSLOFF P C. Contribution of Feedforward, Lateral and Feedback Connections to the Classical" Receptive Field and Extra-Classical Receptive Field Surround of Primate V1 Neurons [J].Progress in brain research,2006,154:93-120.
[8] ZAREMBA W,SUTSKEVER I,VINYALS O. Recurrent neural network regularization [J].arXiv:1409.2329 [cs.NE].(2014-08-08).https://arxiv.org/abs/1409.2329v1.
[9] COWAN N. What are the Differences Between Long-Term Memory, Short-Term Memory, and Working Memory? [J].Progress in Brain Research,2008,169:323-338.
[10] PRATTE M S,PARK Y E,RADEMAKER R L,et al. Accounting for Stimulus-Specific Variation in Precision Reveals a Discrete Capacity Limit in Visual Working Memory [J].Journal of experimental psychology. human perception and performance,2017,43(1):6-17.
[11] SRIVASTAVA N ,HINTON G ,KRIZHEVSKY A ,et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting [J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[12] IOFFE S,SZEGEDY C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift [C]//International conference on machine learning.PMLR,2015:448-456.
[13] LIU T,LUO R,XU L,et al. Spatial channel attention for deep convolutional neural networks [J].Mathematics,2022,10(10):1750.
[14] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J].Neural computation,1997,9(8):1735-1780.
[15] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [J/OL].arXiv:1406.1078 [cs.CL].(2014-06-03).https://arxiv.org/abs/1406.1078.
[16] HOCHSTEIN S,AHISSAR M. View from the Top: Hierarchies and Reverse Hierarchies in the Visual System [J].Neuron,2002,36(5):791-804.
[17] CAO C,LIU X,YANG Y,et al. Look and Think Twice:Capturing Top-Down Visual Attention with Feedback Convolutional Neural Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:2956-2964.
[18] WEN H,HAN K,SHI J,et al. Deep Predictive Coding Network for Object Recognition [C]//International conference on machine learning.PMLR,2018:5266-5275.
[19] YU N,QIU T. An Improved Method and Application of Recurrent Convolutional Neural Network With Self-attention Mechanism [C]//2022 China Automation Congress (CAC).Xiamen. IEEE,2022:6312-6316.
[20] HE K,ZHANG X,REN S,et al. Identity Mappings in Deep Residual Networks [C]//In ECCV2016.Amsterdam,Springer,2016:630-645.
[21] ZHANG C,BENGIO S,SINGER Y. Are all layers Created Equa? [J].The Journal of Machine Learning Research,2022,23(1):2930-2957.
[22] ZAGORUYKO S,KOMODAKIS N. Wide residual networks [J].arXiv:1605.07146 [cs.CV].(2016-05-23).https://arxiv.org/abs/1605.07146v1.
[23] HAN D,KIM J,KIM J. Deep Pyramidal Residual Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:6307-6315.
[24] GAO S H,CHENG M M,ZHAO K,et al. Res2Net: A New Multi-Scale Backbone Architecture [J].IEEE transactions on pattern analysis and machine intelligence,2019,43(2):652-662.
[25] HUANG G,CHEN D,LI T,et al. Multi-Scale Dense Convolutional Networks for Efficient Prediction [J].arXiv:1703.09844 [cs.LG].(2017-05-29).https://arxiv.org/abs/1703.09844v2.
[26] HUANG G,LIU S,VAN DER MAATEN L,et al. Condensenet:An Efficient Densenet Using Learned Group Convolutions [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:2752-2761.
[27] YANG L,JIANG H,CAI R,et al. CondenseNet V2: Sparse Feature Reactivation for Deep Networks [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:3569-3578.
[28] HUANG G,SUN Y,LIU Z,et al. Deep Networks with Stochastic Depth [C]//Computer Vision – ECCV 2016.Springer International Publishing,2016:641-661.
[29] KRIZHEVSKY A,HINTON G. Learning Multiple Layers of Features from Tiny Images [D].Toronto:University of Toronto,2009.
[30] HE K,ZHANG X,REN S,et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:1026-1034.
[31] NILSBACK M E,ZISSERMAN A. Automated Flower Classification over a Large Number of Classes [C]//2008 Sixth Indian conference on computer vision, graphics amp; image processing. Bhubaneswar:IEEE,2008:722-729.
[32] CIBUK M,BUDAK U,GUO Y,et al. Efficient Deep Features Selections and Classification for Flower Species Recognition [J].Measurement,2019,137:7-13.
[33] SADATI F,REZAIE B. An Improved Image Classification Based In Feature Extraction From Convolutional Neural Network: Application To Flower Classification [C]//2021 12th International Conference on Information and Knowledge Technology (IKT).Babol:IEEE,2021:35-40.
作者簡(jiǎn)介:童順延(1998—),男,漢族,四川屏山人,碩士在讀,研究方向:視覺(jué)認(rèn)知計(jì)算與醫(yī)學(xué)圖像處理;通訊作者:劉海華(1966—),男,漢族,湖北孝感人,教授,博士,研究方向:視覺(jué)認(rèn)知計(jì)算與醫(yī)學(xué)圖像處理。