摘要:針對蘋果葉片病害識別準確率低以及現(xiàn)有模型難以適應真實復雜場景等問題,提出一種改進的輕量化網(wǎng)絡——MobileViT_filter_FCN,以提高對蘋果葉片病害的識別準確率,并使得模型可以適應戶外的復雜光照及遮擋環(huán)境。首先收集5類常見蘋果葉片病害(如落葉病、褐斑病等)的圖像樣本,并利用多種數(shù)據(jù)增強技術對樣本數(shù)據(jù)進行預處理(如水平翻轉、垂直翻轉等),以增加樣本數(shù)據(jù)的多樣性并提高模型的泛化能力;接著利用傅里葉變換技術設計一個可學習的濾波器層Filter layer,替換原始MobileViT模型中的多頭注意力結構,以降低圖片中的噪聲影響并提高模型性能;最后,在修改后的MobileViT 模型基礎上,利用深度卷積層和殘差結構設計一種FCN結構,結合該結構增強模型對病害圖像的特征學習能力,進一步提高模型性能。試驗結果表明,改進后的MobileViT_filter模型對蘋果葉片病害的平均識別準確率達到97.73%,較原模型提高0.95百分點;在該基礎上加入FCN結構后,平均識別準確率達到98.03%,較原模型提高1.25百分點,同時參數(shù)量減少2.6 M。
關鍵詞:多頭注意力機制;圖像分類;輕量化網(wǎng)絡;蘋果葉片病害識別;Filter Layer
中圖分類號:TP391.41" 文獻標志碼:A
文章編號:1002-1302(2024)14-0222-07
收稿日期:2023-08-27
基金項目:國家自然科學基金(編號:62077018)。
作者簡介:梁倩倩(2000—),女,湖北隨州人,碩士研究生,主要從事機器學習與人工智能研究。E-mail:1915812040@qq.com。
通信作者:陳 勇,高級工程師,碩士生導師,主要從事WEB信息處理、人工智能應用研究。E-mail:285527563@qq.com。
蘋果是一種常見的水果,是薔薇科蘋果屬植物的果實。中醫(yī)認為蘋果具有生津止渴、潤肺除煩、健脾益胃、養(yǎng)心益氣等功效,并且酸甜適口,營養(yǎng)豐富,是老幼皆宜的水果之一[1]。我國是世界上蘋果種植面積最大,也是總產(chǎn)量最高的國家,蘋果產(chǎn)量約占世界總產(chǎn)量的55%。2015年我國蘋果種植總面積約為233.33萬hm2,蘋果總產(chǎn)量在4 000萬t以上,同比增產(chǎn)8%~10%[2]。蘋果病蟲害種類較多,嚴重危害蘋果種植的各個環(huán)節(jié),影響蘋果的外觀、形態(tài)、口感和種植者的經(jīng)濟收入。長期以來,我國蘋果病蟲害防控以化學防控為主,而大量施用農藥會導致環(huán)境質量下降,土壤貧瘠,嚴重時還會危害人體健康[3]。
傳統(tǒng)的病害診斷主要依靠人眼觀察判斷,需要工作人員具備一定的病害知識儲備和經(jīng)驗,具有主觀性強、準確率低等缺點,容易導致誤診,進而影響病害的及時防治,造成農作物的產(chǎn)量損失[4]。近年來,隨著人工智能和計算機視覺技術的發(fā)展,深度學習在多領域都得到廣泛應用,例如農業(yè)[5]、醫(yī)學[6]、教育[7]等領域。深度學習和農業(yè)結合,使得我國進入智慧農業(yè)[8]時代,農作物病蟲害識別的效率也得到較大提升,人工智能技術逐漸取代傳統(tǒng)方法。然而,由于存儲空間和算力資源限制,神經(jīng)網(wǎng)絡模型在移動設備和嵌入式設備上的存儲與計算仍然面臨巨大的挑戰(zhàn)。目前提出的各種輕量級卷積神經(jīng)網(wǎng)絡模型,主要有SqueezeNet[9]系列、ShuffleNet[9-10]系列、MobileNet[11-12]系列。熊夢園等通過遷移學習方法,將預訓練權重遷移到ResNet50中,并結合CBAM注意力機制,識別準確率達到97.5%,相比ResNet50模型提升4.2百分點[13]。劉擁民等結合Mixup混合增強算法,在預處理階段對圖像特征信息進行增強,并采用遷移學習在番茄葉片病害數(shù)據(jù)集上訓練和優(yōu)化Swin Transformer模型,識別準確率達到98.4%[14]。雷建云等在YOLO v4的基礎上引入PSA模塊取代原網(wǎng)絡中的卷積,并將CA模塊嵌入頸部網(wǎng)絡,在4種常見葡萄葉片病害數(shù)據(jù)集上的識別準確率均值達到84.07%,較原YOLO v4算法提升4百分點[15]。
本研究基于PyTorch框架及MobileViT[16]網(wǎng)絡,對蘋果葉片病害數(shù)據(jù)集進行分類,并對模型進行相應改進,以更好地適應真實環(huán)境。訓練好的模型不僅可以部署在移動設備上,還可以在戶外場景下實時識別蘋果葉片病害,使果農能夠及時采取措施,減少經(jīng)濟損失。
1 試驗材料
1.1 數(shù)據(jù)來源
本試驗采用的蘋果葉片病害數(shù)據(jù)集由西北農林科技大學創(chuàng)建。該數(shù)據(jù)集的采集地點包括西北農林科技大學白水蘋果試驗站、洛川蘋果試驗站、慶城蘋果試驗站。數(shù)據(jù)集主要是在晴天條件下進行采集的圖像,在陰雨天氣下采集的圖像占少部分,以增加數(shù)據(jù)集的多樣性。數(shù)據(jù)集涵蓋了5類常見蘋果葉片病害圖像數(shù)據(jù),包括斑點落葉病、褐斑病、灰斑病、花葉病、銹斑病,樣例如圖1所示。
1.2 數(shù)據(jù)預處理
為了避免因樣本數(shù)據(jù)不足而導致網(wǎng)絡訓練出現(xiàn)過擬合的情況,在開始訓練之前,對蘋果葉片病蟲害圖像進行數(shù)據(jù)增強。通過水平翻轉、垂直翻轉、亮度調整、對比度調整、飽和度調整等數(shù)據(jù)增強方式,對數(shù)據(jù)集進行預處理,得到了包含蘋果葉片病理信息的數(shù)據(jù)集(表1)。數(shù)據(jù)增強不僅擴充了數(shù)據(jù)集,還增加了訓練樣本的多樣性。將該數(shù)據(jù)集按照9 ∶1的比例劃分為訓練集和測試集。
2 試驗方法
2.1 網(wǎng)絡結構
本研究基于輕量化網(wǎng)絡MobileViT進行研究。MobileViT于2021年由蘋果公司提出,其初衷是為了設計出一款適合移動設備的網(wǎng)絡架構,并兼顧輕量及通用的特點,MobileViT的結構如圖2所示,整體由3個部分組成,分別為卷積層、MV2、MobileViT block。其中MV2是MobileNet v2中的逆殘差結構模塊(部分含有向下箭頭表示使用了下采樣操作),而MobileViT block則是對傳統(tǒng)ViT[17](Vision Transformer)模型的改進,提出了將特征圖中的patch進行拆分,再由Transformer[18]進行處理并重新組合的思想。這樣能夠減少在多頭注意力中的計算量,使得模型更加高效及輕量化。圖3展示了蘋果葉片病害的識別流程。為進一步降低模型的復雜性,提高其在實際應用場景下的性能,本研究對MobileViT模型進行了相應改進。
2.2 MV2結構
MV2 (MobileNet v2)由Google公司于2018年提出,是專注于移動端或者嵌入式設備中的輕量級CNN網(wǎng)絡。相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡,在準確率基本不變的前提下,能夠極大減少模型的參數(shù)與運算量。圖4展示了其核心結構, 該模型的關鍵在于使
用深度可分離卷積[19]減少運算量,并使用逆殘差操作提取圖片特征。
深度可分離卷積與普通卷積有很大不同。其流程可分為2個步驟:深度卷積與逐點卷積。在第1步深度卷積運算中,每個卷積核只對應輸入圖片的1個通道,即1個通道僅由1個卷積核進行卷積。接著,為了保證生成的特征圖數(shù)量與輸入層通道數(shù)不同,并有效利用不同通道在相同空間位置上的特征信息,需要進行逐點卷積來將這些特征圖組合生成新的特征圖。逐點卷積的運算與普通卷積很相似,其卷積核大小為1×1×M,M為上一層的通道數(shù),卷積核的數(shù)量與輸出特征圖的數(shù)量一致。圖5展示了常規(guī)卷積與深度可分離卷積的過程,假設輸入矩陣、輸出矩陣的深度分別為M、N,輸入矩陣、卷積核的大小分別為DF、Dk,那么普通卷積的計算量Cstd可表示為:
Cstd=Dk×Dk×M×N×DF×DF。
深度可分離卷積的計算量Csep可表示為:
Csep=Dk×Dk×M×DF×DF+M×N×DF×DF。
兩者相除可得:Cstd/Csep=N+D2k。
如果卷積核大小為3×3,那么理論上普通卷積的計算量大概是深度可分離卷積的8~9倍。因此,使用深度可分離卷積能夠極大減少模型運算量,加快模型的訓練速度。
逆殘差結構是殘差結構[20]的變體,由圖6可見,左側為普通的殘差結構,右側為MobileNet v2中的逆殘差結構。殘差結構中的順序是1×1卷積降維到3×3卷積再到1×1卷積升維,而倒殘差結構中的順序正好相反,是1×1卷積升維到3×3 DW卷積再到1×1卷積降維。逆殘差結構中基本上使用的都是ReLU6激活函數(shù),但最后一個1×1的卷積層使用的是線性激活函數(shù),這樣做不僅能夠降低高維信息在經(jīng)過激活函數(shù)之后的信息損失,還能使得模型在移動端的表現(xiàn)更優(yōu)秀。
2.3 MobileViT block結構
由圖2可以發(fā)現(xiàn),MobileViT block是MobileViT模型的核心組件,通過修改標準的ViT架構,使得模型減少在計算Self-Attention時的運算量,并降低圖像數(shù)據(jù)本身存在的大量數(shù)據(jù)冗余,使得模型更加輕量及高效。由圖7-a可知,標準的ViT模型首先將輸入圖片劃分成多個小塊(Patch),然后通過線性變換,將每個小塊映射成1個一維向量(視為1個Token)。接下來,模型會為每個Token添加位置編碼(可學習的參數(shù)),然后輸入到一系列的Transformer模塊中。在Transformer模塊內,Token之間的關系會通過自注意力機制建模。最后一個全連接層會根據(jù)這些Token的表示,得到最終的預測輸出。
圖7-b為MobileVIT block的大致結構。首先會使用1個卷積核大小為n×n(代碼中是3×3)的卷積層對特征圖進行局部特征建模,然后使用1個1×1卷積層調整通道數(shù)。接下來通過展開操作將特征圖轉為序列結構,輸入到Transformer模塊中進行全局特征建模,Transformer處理后的特征圖通過折疊操作將其轉回原始形狀。之后使用1個1×1卷積層將通道數(shù)調回原始大小,然后通過捷徑分支,將這些特征與輸入特征圖按通道方向拼接。最后使用1個n×n(代碼中是3×3)卷積層對特征進行融合,得到該模塊的最終輸出??梢园l(fā)現(xiàn),它是CNN與Transformer的混合架構,而其與標準VIT結構最大的不同是使用了展開與折疊操作。以通道數(shù)為1的特征圖為例,圖8展示了這一操作的具體步驟:首先將相同顏色的Token(圖中每個小方塊)展平在一個序列中,接著使用普通的自注意力模塊并行計算每個序列的注意力大小,最后折疊回原特征圖。假設每個塊的大小為2×2,在進行自注意力計算的時候,每個token(即每個塊中的小顏色塊)只和自己顏色相同的token進行注意力計算,這樣就達到減少計算量的目的。而原始的自注意力模塊是每個token與所有的token進行注意力計算,如果設特征圖大小為H×W×C,其計算成本為O(HWC),而上述經(jīng)過拆分后的token只需與自身顏色相同的token進行注意力計算,其計算成本為O(HWC/4),即理論上計算成本僅為原始的1/4,極大減少了模型的計算開銷。
2.4 傅里葉變換
研究人員已提出了各種不同的方法和技術以緩解卷積神經(jīng)網(wǎng)絡中的計算復雜性問題。在這些方法中,使用傅里葉變換成為一種加速網(wǎng)絡的新范式[21-22]。傅里葉變換在數(shù)字信號處理領域非常重要,也是本研究方法中的一個關鍵組成部分。本研究只考慮一維的離散傅里葉變換。假設有1個token序列{xn},其中n∈[0,N-1),那么離散傅里葉變換將通過下面的公式把這個序列轉換到頻域:
xk=∑N-1k=0Xne-2πiNnk,0≤k≤N-1。
快速傅里葉變換是用于加速離散傅里葉變換計算的算法,最初由研究員庫利和圖基提出。它通過遞歸的方法重新表示原始序列中每個token的頻域信息,使得計算時間的復雜度降低到O(Nlog2N)。逆離散傅里葉變換同樣可以通過逆向快速傅里葉變換進行加速。由于快速傅里葉變換可以將輸入信號轉換到頻域,更容易捕捉序列的周期性特征,所以它在數(shù)字信號處理領域被廣泛用于濾除噪聲信號。本研究將使用快速傅里葉變換來降低圖片序列中存在的噪聲特征影響,以提取出更有利的圖片特征。
2.5 可學習的濾波器模塊
由于Transformer中多頭自注意力機制在數(shù)據(jù)量較大時計算效率低下,嚴重影響模型性能,已有工作嘗試使用傅里葉變換進行代替,并取得了不錯的效果。受前人的工作啟發(fā)[21-22],本研究移除了MobileVIT block中Transformer部分的多頭自注意力模塊,并以快速傅里葉變換為基礎,設計了一組可學習的濾波器模塊。試驗表明,該模塊不僅能使模型整體參數(shù)量減低,而且能夠提升模型的性能。圖9為改進后的Transformer Encoder模塊及其包含的濾波器模塊的結構示意,假設用E表示token序列經(jīng)過先前網(wǎng)絡得到的輸出,那么經(jīng)過 Embedding Layer之后的輸出可以表示為:
EI=Dropout(E+P)。
式中:P表示token序列對應的位置編碼信息。在經(jīng)過Embedding Layer之后,模型會堆疊多個可學習的濾波器模塊進一步提取序列特征。單個可學習的濾波器模塊一般包含2個部分,分別是濾波器層、前饋神經(jīng)網(wǎng)絡層。
在濾波器層中,模型會對頻域中每個維度的特征執(zhí)行濾波操作,接著使用殘差連接和層歸一化保證網(wǎng)絡的穩(wěn)定性。假設第l層得到的序列表征矩陣為Fl∈Rn×d(當l=0時,F(xiàn)l=EI),首先使用快速傅里葉變換(FFT)將序列特征轉換為頻域:
Xl=FFT(Fl)∈Cn×d。
需要注意的是,得到的Xl是由復數(shù)所表示的矩陣,它表示了Fl的譜。然后可以通過乘以一個可學習的濾波器W∈Cn×d來調制譜線:
X~l=W·Xl。
式中:·表示元素點乘操作。W濾波器之所以是可學習的是因為它可以通過Adam優(yōu)化器自適應表示頻域中的任意濾波器,因此可以學到一組最優(yōu)的濾波參數(shù)。最后,采用逆快速傅里葉變換將調制后的譜線X~l轉換回時域并更新序列表示:
F~l←FFT-1(X~l)∈Rn×d
經(jīng)過快速傅里葉變換以及逆快速傅里葉變換之后,能夠有效減少原始數(shù)據(jù)中的噪聲,提取到更加精確的圖片特征。為避免梯度消失以及網(wǎng)絡訓練不穩(wěn)定問題,模型會執(zhí)行殘差連接和層歸一化操作:
F~l=LayerNorm[Fl+Dropout(F~l)]
在前饋神經(jīng)網(wǎng)絡層中,使用全連接層和ReLU激活函數(shù)進一步使得提取到的特征具有非線性性質,這一步計算可以定義為:
FFN(F~l)=[ReLU(F~lW1+b1)]W2+b2。
式中:W1、b1、W2、b2都是可訓練的參數(shù)。接著,同樣添加殘差連接和層歸一化操作得到第l層可學習濾波器層的輸出。
2.6 MobileViT block_FNC結構
針對MobileViT block結構,除上述對Transformer部分進行改進外,本研究還提出一些其他措施用以提升模型性能并降低模型復雜度。圖10為修改后的MobileViT block示意圖。首先,在融合部分,得到的全局特征在經(jīng)過1×1卷積層之后,不再與輸入特征進行融合,而是與經(jīng)過局部表示部分之后的特征進行融合。此外,還將融合部分的3×3卷積層替換為1×1卷積層,這樣做的目的是簡化融合模塊。其次,在局部表示部分,不再使用普通3×3卷積,而是使用深度3×3卷積。關于深度卷積,在“2.2”節(jié)已經(jīng)詳細介紹,其目的就是為了降低模型的計算量。最后,為了解決網(wǎng)絡訓練時出現(xiàn)的梯度消失或梯度爆炸問題,本研究同樣使用殘差連接方法,輸入特征會與融合部分得到的特征進行相加,得到該模塊最后的輸出特征,以保證網(wǎng)絡的穩(wěn)定性。
3 結果與分析
3.1 試驗環(huán)境
本研究所有試驗均使用同一算力平臺Autodl,CPU型號為Intel Xeon Platinum 8255C @ 2.50 GHz,GPU型號為RTX 3090,顯存為24 G。使用的開發(fā)環(huán)境為Win 11,深度學習框架為PyTorch 1.11.0,Python環(huán)境3.8,Cuda 11.3。
本試驗數(shù)據(jù)集的圖像尺寸為224×224,batchsize設置為32,模型一共迭代訓練100次,模型訓練過程中使用Adam優(yōu)化器。
3.2 評估指標
本試驗使用的評估指標主要是平均準確率、平均精確率、平均召回率、平均F1分數(shù)?;煜仃囀潜硎揪仍u價的一種標準格式,用n行n列的矩陣形式來表示。其中TP代表一個實例是正類并且也被判定為正類,F(xiàn)N代表一個實例本為正類但判定為假類。FP代表一個實例本為假類但被判定為正類,TN表示一個實例是假類并且也被判定成假類。準確率是指所有的預測正確的樣本占總樣本的比重,Accuracy=(TP+TN)(TP+TN+FP+FN);精確率也叫查準率,即正確預測為正的樣本占全部預測為正的樣本的比例,Precision=TPTP+FP;召回率即正確預測為正的樣本占全部實際為正的樣本的比例,Recall=TPTP+FN;F1分數(shù)權衡精確率和召回率,F(xiàn)1=2×Precision×RecallP+R。
損失函數(shù)會計算出預測值、真實值之間的差異值,也就是損失值。損失值越小,模型的魯棒性就越好。本試驗使用的是分類問題中常見的交叉熵損失函數(shù)H(p,q)=-∑ni=1p(xi)ln[q(xi)],其中概率分布p為期望輸出,概率分布q為實際輸出,H(p,q) 為交叉熵。
對于輕量級模型來說,模型參數(shù)量也是評估模型的一個指標,本研究借助thop方法來完成模型參數(shù)量與浮點運算量的計算。為了能夠在移動端上部署應用,本研究針對輕量化卷積神經(jīng)網(wǎng)絡進行改進,遵循盡量減少參數(shù)增加量的原則,以避免存儲和效率問題。
3.3 試驗結果與分析
本研究對多個輕量化網(wǎng)絡模型進行對比試驗,以此驗證MobileViT模型在蘋果葉片病害數(shù)據(jù)集上的性能。為了公平,所有網(wǎng)絡模型都在相同的超參數(shù)下進行試驗。由表2可知,MobileViT模型在 Top-1 準確率上要優(yōu)于其他模型,其他指標相差不大。
為了進一步提高MobileViT模型在真實場景下對蘋果葉片病害識別的準確率,本研究提出了2個創(chuàng)新點,在控制變量的情況下進行了消融試驗,結果如表3所示。與原模型MobileViT相比,MobileViT_FCN各指標數(shù)據(jù)都有所增長,平均準確率達到了97.54%,精確率達到了97.57%;MobileViT_filter各指標數(shù)據(jù)較原模型也有所增長,平均準確率達到了97.73%;2個創(chuàng)新點合在一起之后總體的平均準確率達到了98.03%,平均精確率達到了98.02%,并且參數(shù)量還有明顯下降,從 4.94 M 下降到2.34 M,減少了2.6 M。訓練過程中的準確率、損失值變化、混淆矩陣如圖11所示。
4 結論
為了提高蘋果葉片病害識別模型在真實場景中應對復雜環(huán)境的能力,增強其泛化能力和魯棒性,提高識別準確率,本研究對輕量化網(wǎng)絡MobileViT進行改進,引入Filter Layer層, 并完成對
5類常見蘋果葉片病害的識別研究。試驗結果顯示,改進后的模型MobileViT_filter_FCN在適應真實環(huán)境方面表現(xiàn)更出色,其特征學習能力得到了提升。相較于原始的MobileViT模型,改進后的模型參數(shù)量減少了2.6 M,平均準確率提高1.25百分點,平均精確率提高1.25百分點,平均召回率提高1.27百分點,平均F1分數(shù)提高1.27百分點,驗證了所進行的改進是有效的。
模型還存在一些不足,例如選取的病害種類較少、實時性不高等。后續(xù)真正投入使用時還將不斷完善模型,以達到更好的效果,為智慧農業(yè)發(fā)展貢獻一份力量。
參考文獻:
[1]張立欣,張楠楠,張 曉. 基于機器學習算法對蘋果產(chǎn)地的判別分析[J]. 激光與光電子學進展,2022,59(4):451-457.
[2]齊林艷. 淺析我國蘋果發(fā)展現(xiàn)狀及存在的問題[J]. 現(xiàn)代農村科技,2016(22):31-32.
[3]張文欣. 蘋果病蟲害綠色防控技術研究與應用[J]. 種子科技,2023,41(11):110-112.
[4]杜英杰,宗哲英,王 禎,等. 農作物病害診斷方法現(xiàn)狀和展望[J]. 江蘇農業(yè)科學,2023,51(6):16-23.
[5]封雨欣,梁少華,童 浩. 基于對比學習的多肉植物分類識別方法研究[J]. 河南農業(yè)科學,2023,52(7):154-162.
[6]龔 黎,李 霞,方 晗,等. 基于優(yōu)化卷積網(wǎng)絡Faster R-CNN自動檢測甲狀腺結節(jié)超聲圖像的研究[J]. 中國超聲醫(yī)學雜志,2023,39(2):209-213.
[7]于書娟,盧小雪,趙磊磊. 教育人工智能變革的基本邏輯與發(fā)展進路[J]. 當代教育科學,2023(5):40-49.
[8]皮 衛(wèi). 人工智能技術與智慧農業(yè)發(fā)展的全方位融合[J]. 棉花學報,2023,35(3):251.
[9]Iandola F N,Han S,Moskewicz M W,et al. SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and lt;0.5 MB model size[EB/OL]. [2023-05-07]. https://arxiv.org/abs/1602.07360.
[10]Zhang X Y,Zhou X Y,Lin M X,et al. ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:6848-6856.
[11]Sandler M,Howard A,Zhu M L,et al. MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:4510-4520.
[12]Howard A,Sandler M,Chu G,et al. Searching for MobileNetV3[EB/OL]. [2023-05-07]. https://arxiv.org/abs/1905.02244.
[13]熊夢園,詹 煒,桂連友,等. 基于ResNet模型的玉米葉片病害檢測與識別[J]. 江蘇農業(yè)科學,2023,51(8):164-170.
[14]劉擁民,劉翰林,石婷婷,等. 一種優(yōu)化的Swin Transformer番茄葉片病害識別方法[J]. 中國農業(yè)大學學報,2023,28(4):80-90.
[15]雷建云,葉 莎,夏 夢,等. 基于改進YOLO v4的葡萄葉片病害檢測[J]. 中南民族大學學報(自然科學版),2022,41(6):712-719.
[16]Mehta S,Rastegari M. MobileViT:light-weight,general-purpose,and mobile-friendly vision transformer[EB/OL]. [2023-05-07]. https://arxiv.org/abs/2110.02178.
[17]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16x16 words:transformers for image recognition at scale[EB/OL]. [2023-05-07]. https://arxiv.org/abs/2010.11929.
[18]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[EB/OL]. [2023-05-07]. https://arxiv.org/abs/1706.03762.
[19]Howard A G,Zhu M L,Chen B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL]. [2023-05-07]. https:arxiv.org/1704.04861.
[20]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:770-778.
[21]Chitsaz K,Hajabdollahi M,Karimi N,et al. Acceleration of convolutional neural network using FFT-based split convolutions[EB/OL]. [2023-05-07]. https://arxiv.org/abs/2003.12621.
[22]Lee-Thorp J,Ainslie J,Eckstein I,et al. FNet:mixing tokens with Fourier transforms[EB/OL]. [2023-05-07]. https://arxiv.org/abs/2105.03824.