摘要:針對農(nóng)業(yè)領(lǐng)域缺少有效的零樣本蟲害識別與檢索方法,本研究提出一種基于零樣本學(xué)習(xí)的枸杞蟲害檢索與識別方法。首先,通過對原始數(shù)據(jù)進行深層矩陣分解獲得深層次結(jié)構(gòu)特征,獲取不同模態(tài)數(shù)據(jù)的特征表示,生成各模態(tài)的哈希碼。然后結(jié)合類別屬性信息對生成的哈希碼引入線性約束,實現(xiàn)已知類別到新類別之間的知識遷移。最后,對所提出的模型通過直接學(xué)習(xí)離散哈希碼避免了連續(xù)松弛方法帶來的量化誤差,提高了檢索精度。在2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集及Wiki、Pascal VOC這3個公開數(shù)據(jù)集上的試驗結(jié)果表明,與現(xiàn)有的基于協(xié)同矩陣分解的哈希方法(CMFH)、基于潛在語義的稀疏哈希方法(LSSH)、基于遷移監(jiān)督知識的哈希方法(TSK)、基于屬性的哈希方法(AH)、基于跨模態(tài)屬性的哈希方法(CMAH)、基于正交投影的哈希方法(CHOP)、離散非對稱零樣本哈希方法(DAZSH)相比,本研究所提出的方法具有優(yōu)越性。
關(guān)鍵詞:零樣本學(xué)習(xí);矩陣分解;枸杞病蟲害識別;哈希碼
中圖分類號:TP391文獻標識碼:A文章編號:1000-4440(2024)02-0320-11
Identification of Lycium barbarum pests based on zero-shot learning
SONG Wen-tao,JIANG Ru-yue,SHU Xin
(College of Artificial Intelligence, Nanjing Agricultural University, Nanjing 210095, China)
Abstract:In order to solve the problem of lack of effective zero-sample recognition and retrieval methods in agricultural field, a zero-sample learning-based retrieval and recognition method for Lycium barbarum pests was proposed in this study. Firstly, the deep structure features were obtained by deep matrix decomposition of the original data, and the characteristic representations of different modal data were obtained, and the hashing codes of each modality were generated. Then the linear constraint was introduced to the generated hashing code with the class attribute information to realize the knowledge transfer from the known class to the new class. Finally, the proposed model could avoid the quantization error caused by the continuous relaxation method and improve the retrieval precision by learning discrete hashing codes directly. The experimental results on the three public datasets, 2020 Ningxia Lycium barbarum pest image-text cross-modal retrieval dataset, Wiki, Pascal VOC, showed that the method proposed in this study was superior to the existing collective matrix factorization hashing (CMFH), latent semantic sparse hashing (LSSH), transferring supervised knowledge hashing (TSK), attribute hashing (AH), cross-modal attribute hashing (CMAH), cross-modal hashing with orthogonal projection (CHOP), and discrete asymmetric zero-shoot hashing (DAZSH).
Key words:zero-shot learning;matrix factorization;Lycium barbarum pests detection;hashing code
枸杞具有增強人體免疫力、護肝明目、滋養(yǎng)皮膚等功效。同時,作為耐旱、耐貧瘠、耐鹽堿的灌木作物,其防風(fēng)固沙的能力不容小覷。由于上述特性,枸杞在中國西北地區(qū)廣泛種植[1-2]。然而,枸杞作為抗蟲害能力較差的作物,容易遭受多種蟲害導(dǎo)致產(chǎn)品質(zhì)量和數(shù)量方面的下降。因此,準確且快速地對枸杞蟲害類型進行識別與檢索,及時給出防治措施從而減小因作物蟲害導(dǎo)致的經(jīng)濟損失,在推動枸杞產(chǎn)業(yè)的發(fā)展方面尤為重要。
傳統(tǒng)的農(nóng)作物病蟲害識別與檢索主要依靠肉眼觀察作物發(fā)生病蟲害部位,將觀察結(jié)果與農(nóng)作物病蟲害圖像信息手冊中的病蟲害圖像進行比較從而判別病蟲害類別[3]。這種方法不僅花費大量的時間和人力,由于觀察所得結(jié)果具有主觀性,識別與檢索結(jié)果的精度也不令人滿意[4]。隨著互聯(lián)網(wǎng)的發(fā)展,基于機器學(xué)習(xí)的農(nóng)作物病蟲害識別方法受到了研究人員的廣泛關(guān)注。機器學(xué)習(xí)方法是根據(jù)已有的數(shù)據(jù)設(shè)計并構(gòu)造算法使得計算機學(xué)習(xí)獲得數(shù)據(jù)特征的規(guī)律,以此進行預(yù)測[5]。趙蕓[6]利用光譜數(shù)據(jù)建模以及數(shù)字圖像處理等技術(shù),對油菜病蟲害的分類進行建模。趙建敏等[7]利用OTSU閾值算法,對馬鈴薯葉片病害區(qū)域圖像進行分割,提取對應(yīng)部分的顏色、形狀、紋理特征,采用支持向量機進行分類識別,識別率為92%。王佳[8]使用計算機視覺技術(shù),對香芋葉片提取顏色和紋理特征,以此構(gòu)建病害數(shù)據(jù)庫,同時采用支持向量機對香芋病害進行識別,識別的平均準確率達到了93.00%。Nettleton等[9]提出了M5Rules和遞歸神經(jīng)網(wǎng)絡(luò)的兩種基于機器學(xué)習(xí)算法的方法,與Yoshino以及WARM這2種基于過程的模型進行比較,經(jīng)過試驗得出基于機器學(xué)習(xí)的兩個模型在最大平均歸一化以及平均絕對誤差(MAE)結(jié)果方面更加優(yōu)秀,同時具有更好的泛化性?;跈C器學(xué)習(xí)方法盡管可以通過提取農(nóng)作物的病害圖像特征對農(nóng)作物病蟲害進行識別和檢索,但是由于客觀條件,如光照條件變化、復(fù)雜背景的存在等,難以提取有效的數(shù)據(jù)特征。此外,機器學(xué)習(xí)方法需要大量的數(shù)據(jù)支持模型訓(xùn)練,才可以獲得較好的識別準確率,然而現(xiàn)實中獲取大量有效的農(nóng)作物病蟲害圖像樣本比較困難。因此現(xiàn)有基于機器學(xué)習(xí)方法的農(nóng)作物病蟲害識別與檢索仍然具有挑戰(zhàn)。
隨著深度學(xué)習(xí)的不斷發(fā)展,近年來基于深度學(xué)習(xí)的農(nóng)作物病蟲害識別方法在農(nóng)業(yè)領(lǐng)域取得了不錯的成果。王國偉等[10]對LeNet模型進行改進,通過使用Adam替換SGD以及添加L2正則項到交叉熵函數(shù)構(gòu)建10層CNN網(wǎng)絡(luò)結(jié)構(gòu),對于5種玉米病蟲害的平均識別率達96%。趙立新等[11]對AlexNet進行改進,引入遷移學(xué)習(xí)方法輔助數(shù)據(jù)增強,在此基礎(chǔ)上對預(yù)訓(xùn)練模型進行微調(diào),識別棉花葉部病蟲害的平均準確率達97.16%。鮑文霞等[12]針對蘋果病害葉片數(shù)據(jù)集,采用選擇性核卷積模塊以及使用全局平均池化替代全連接層的方法對VGG16網(wǎng)絡(luò)模型進行改進,對蘋果病害局部病斑的識別準確率達94.70%。馮曉等[13]分析MobileNetV2模型以及遷移學(xué)習(xí)方法,通過合適的數(shù)據(jù)增強方法、添加Dropout層、改變初始學(xué)習(xí)率等對模型進行改進,改進后的模型對3種小麥葉部病害的識別準確率達到 99.96%。謝州益等[14]使用ResNet18作為特征編碼器,在解碼器上融合了注意力機制的LSTM,對10種水稻病蟲害的Top5準確率達98.48%。彭紅星等[15]改進MobileV2模型,在反向殘差模塊種引入坐標注意力機制,同時設(shè)計雙分支特征融合模塊,對19類葡萄病蟲害的識別準確率達89.16%。
然而現(xiàn)有病蟲害識別與檢索方法要求在訓(xùn)練階段獲得所有類別信息及對應(yīng)的樣本,不能對一些未知類別病害進行識別。為此,研究人員提出了零樣本學(xué)習(xí)技術(shù)解決上述問題。零樣本學(xué)習(xí)是指根據(jù)一些可見類別的數(shù)據(jù),融合輔助信息用于訓(xùn)練模型,實現(xiàn)對未見類別的數(shù)據(jù)進行分類。目前主流的學(xué)習(xí)方式是利用嵌入模型,其主要思路是將數(shù)據(jù)特征嵌入到同一個語義空間中進行相似性度量學(xué)習(xí)[16]。Zhong等[17]提出了一種多層次的網(wǎng)絡(luò)架構(gòu),將不同模態(tài)的數(shù)據(jù)特征和類別標簽以及屬性信息聯(lián)系起來。Ji等[18]構(gòu)建了一個屬性引導(dǎo)的網(wǎng)絡(luò)結(jié)構(gòu),使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)相應(yīng)的數(shù)據(jù)特征。Shu等[19]結(jié)合數(shù)據(jù)特征及其屬性信息,使用非對稱相似策略構(gòu)造哈希碼。現(xiàn)有主流零樣本學(xué)習(xí)方法側(cè)重于利用語義空間來實現(xiàn)對未知類別的分類,在數(shù)據(jù)特征提取的過程中沒有嵌入農(nóng)作物病蟲害標記屬性信息。此外,基于零樣本學(xué)習(xí)的農(nóng)作物病蟲害識別與檢索也處于探索階段,尚未形成有效的研究成果。為此,本研究以枸杞蟲害為研究對象,提出一種基于零樣本學(xué)習(xí)的枸杞蟲害檢索與識別方法。
1材料與方法
1.1試驗數(shù)據(jù)集介紹
本研究選取了2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集[20]進行零樣本以圖搜文和以文搜圖兩種跨模態(tài)檢索任務(wù)的相關(guān)試驗。同時,本研究選取了現(xiàn)有零樣本跨模態(tài)檢索方法常用的2個公開非農(nóng)業(yè)數(shù)據(jù)集Wiki和Pascal VOC數(shù)據(jù)集,進一步驗證所提方法的有效性。試驗所使用的數(shù)據(jù)集詳情如下:
(1)2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集包含了來源于17個類別經(jīng)擴增處理后的共9 496對枸杞蟲害圖像-文本樣本對。試驗隨機選取了每個類別的80%共計7 596對樣本對組成訓(xùn)練集,剩余1 900對樣本對組成測試集。對于圖像模態(tài)數(shù)據(jù),使用512維的GIST特征表示,對于文本模態(tài)數(shù)據(jù),使用潛在狄利克雷分布方法提取為10維的特征向量。
(2)Wiki數(shù)據(jù)集包含了來源于10個類別的共2 866對圖像-文本樣本對,其中2 173對為訓(xùn)練集數(shù)據(jù),剩余693對為測試集數(shù)據(jù)。對于圖像模態(tài)數(shù)據(jù),通過BOVW的SIFT提取為128維特征向量,對于文本模態(tài)數(shù)據(jù),通過潛在狄利克雷分布方法提取為10維特征向量。
(3)Pascal VOC數(shù)據(jù)集包含了來源于20個類別的共9 963對圖像-標簽樣本對,本試驗只選取其中單標簽的數(shù)據(jù),共有2 799對訓(xùn)練集數(shù)據(jù)以及2 820對測試集數(shù)據(jù)。對于圖像模態(tài)數(shù)據(jù),使用512維GIST特征表示,對于文本模態(tài)數(shù)據(jù),使用399維的詞頻特征描述。
對于每個數(shù)據(jù)集中的類別標簽,采用了GloVe模型對其進行詞向量轉(zhuǎn)換,生成對應(yīng)的300維特征向量作為類別屬性信息。
1.2試驗設(shè)置及評價指標
本研究隨機選取數(shù)據(jù)集中的類別并將其設(shè)置為不可見類進行試驗。其中,對于2020年寧夏枸杞蟲害數(shù)據(jù)集,本研究隨機選取3個類別作為不可見類,剩余14個類別作為可見類。對于Wiki數(shù)據(jù)集,本研究隨機選取2個類別作為不可見類,剩余8個類別作為可見類。對于Pascal VOC數(shù)據(jù)集,本研究隨機選取4個類別作為不可見類,剩余16個類別作為可見類。共進行10次試驗取平均值作為結(jié)果。在訓(xùn)練階段,訓(xùn)練樣本包含了來源于圖片以及文本模態(tài)的特征向量、one-hot形式的類別標簽以及屬性信息。在評估階段,查詢樣本為測試集中不可見類的全體樣本,用于檢索的數(shù)據(jù)庫包含了訓(xùn)練時的可見類樣本以及未參與訓(xùn)練的不可見類樣本。對于2020年寧夏枸杞蟲害、Wiki以及Pascal VOC數(shù)據(jù)集,設(shè)置了兩個中間層,其中p1為200,p2為100。對于2020年寧夏枸杞蟲害數(shù)據(jù)集,超參數(shù)η設(shè)置為150,τ設(shè)置為4,α設(shè)置為6,λ設(shè)置為40。對于Wiki數(shù)據(jù)集,超參數(shù)η設(shè)置為350,τ設(shè)置為6,α設(shè)置為6,λ設(shè)置為15。對于Pascal VOC數(shù)據(jù)集,超參數(shù)η設(shè)置為100,τ設(shè)置為5,α設(shè)置為3,λ設(shè)置為20。
本研究采用mAP、PH2、Top-10準確率3種常見的評價指標對提出的方法進行評估。3種評價指標的定義如下:
mAP=1QQq=11R′Rr=1Pq(r)δq(r)
式中:Q為待檢索樣本數(shù);R為數(shù)據(jù)庫中數(shù)據(jù)量;R′為數(shù)據(jù)庫與待檢索樣本相關(guān)的數(shù)據(jù)量;Pq(r)為排名第q個檢索樣本的top-r精度值,δ(r)∈{0,1},當(dāng)?shù)趓個數(shù)據(jù)實例與第q個檢索樣本相關(guān)則為1,否則為0。PH2表示在漢明空間中由哈希對照表判定半徑為2的檢索準確度,反應(yīng)模型對局部數(shù)據(jù)分情況描述的準確性。Top-10準確率為檢索結(jié)果中概率最大的前10個結(jié)果包含正確類別的占比。
1.3模型概述
基于零樣本學(xué)習(xí)的枸杞病蟲害檢索與識別模型。假設(shè)X(1)=[x(1)1,x(1)2,…,x(1)n]∈Rd1×n為圖像模態(tài),X(2)=[x(2)1,x(2)2,…,x(2)n]∈Rd2×n為文本模態(tài),n為可見類別的數(shù)據(jù)樣本數(shù),d1和d2分別為圖像和文本模態(tài)數(shù)據(jù)特征維度,一般情況下d1≠d2??梢婎悇e以及不可見類別的標簽信息分別表示為Ls=[l1,l2,…,ls]∈Rl×s和Lu=[l1,l2,…,lu]∈Rl×u,s和u分別為可見類別、不可見類別的數(shù)量,且Ls∩Lu=。令A(yù)=[a1,a2,…,an]∈Rda×n為類別屬性,A通常由標簽信息決定,da為屬性特征維數(shù)。本研究可見類別的數(shù)據(jù)信息為圖像和文本模態(tài)學(xué)習(xí)統(tǒng)一的哈希編碼和每個模態(tài)對應(yīng)的哈希函數(shù),在檢索階段將不可見類別的數(shù)據(jù)投影到漢明空間中進行相似度評估。
1.3.1深層矩陣分解本研究使用深層矩陣分解的方法來學(xué)習(xí)不同模態(tài)數(shù)據(jù)的深層潛在特征表示??紤]圖像特征矩陣的半非負矩陣分解,有X(1)≈Z(1)1H(1)1,其中Z(1)1為基向量矩陣,H(1)1為潛在特征矩陣,且Z(1)1≥0。對潛在特征矩陣H(1)1繼續(xù)進行半非負矩陣分解得到H(1)1≈Z(1)2H(1)2,其中Z(1)2為基向量矩陣,H(1)2為潛在特征矩陣。如此循環(huán)往復(fù)直到H(1)m-1≈Z(1)mH(1)m,其中H(1)m為獲得第m層的潛在特征矩陣。類似的可以獲得文本模態(tài)第m層的潛在特征矩陣H(2)m。上述分解過程可以描述如下:
X(v)≈Z(v)1H(v)1,Z(v)1≥0
H(v)1≈Z(v)2H(v)2,Z(v)2≥0
H(v)m-1≈Z(v)mH(v)m,Z(v)m≥0(1)
本研究使用如下?lián)p失函數(shù)衡量分解時的誤差:
L1=‖X(v)-Z(v)1Z(v)2…Z(v)mH(v)m‖2F(2)
式中,Z(v)i∈Rpi-1×pi,i∈{1,2,…,m},v∈{1,2},pi為第i層的維數(shù),p0為初始維數(shù),pm=k為哈希碼長度。
1.3.2統(tǒng)一哈希碼學(xué)習(xí)由于不同模態(tài)的樣本對屬于同一個類別,生成的哈希碼在漢明空間中的距離應(yīng)該足夠小,可以近似看成同一個哈希碼,故本研究將圖像模態(tài)生成的哈希碼和文本模態(tài)生成的哈希碼進行如下約束:
L2=‖H(v)m-H‖2F(3)
通過上述約束可以獲得統(tǒng)一的哈希碼H∈{-1,1}k×n,其中k為哈希碼長度。
1.3.3類別信息嵌入為了學(xué)習(xí)具有判別能力的哈希碼,即對于相同類別的樣本,其漢明空間中的距離應(yīng)該足夠小,同時對于不同類別的樣本則漢明空間中的距離應(yīng)該足夠大。本研究通過以下線性分類損失函數(shù),獲得具有判別能力的哈希碼:
L3=‖WTH-LS‖2F(4)
式中,W為線性分類器。
1.3.4屬性特征保持為了適應(yīng)零樣本環(huán)境下的跨模態(tài)檢索任務(wù),生成的哈希碼還需要具有一定的屬性保持能力,從而對不可見類的樣本,在檢索階段也可以通過相似的屬性信息來對其進行有效的分類。因此對類別屬性設(shè)置以下線性約束:
L4=‖VTA-H‖2F(5)
式中,V為線性分類器。
1.3.5哈希函數(shù)學(xué)習(xí)在檢索階段需要將不可見類的樣本投影到漢明空間中進行相似性度量,本研究考慮線性哈希碼生成函數(shù),對應(yīng)的損失函數(shù)如下:
L5=‖P(v)X(v)-H‖2F(6)
式中,P(v)∈Rk×dv,v∈{1,2}為投影矩陣。
綜上所述,本研究所提出的方法的目標函數(shù)如下:
minZ(v)i,H(v)i,H,W,V,P(v)L=L1+τL2+λL3+αL4+ηL5
s.t.Z(v)i≥0,H∈{-1,1}k×n(7)
式中,τ、λ、α、η為超參數(shù)。
1.4優(yōu)化
由于目標函數(shù)是非凸的,本研究采用交替迭代優(yōu)化方法來求解所提出的模型。
1.4.1優(yōu)化Z(v)i由公式(7)可知,Z(v)i的解可以表述為如下優(yōu)化問題:
minZ(v)i‖X(v)-Z(v)1Z(v)2…Z(v)mH(v)m‖2F
s.t.Z(v)i≥0(8)
對于X(v),v∈{1,2}的求解是相互獨立的,為求解方便,舍去上標v得到:
minZi‖X-DZiHi‖2F,s.t.Zi≥0(9)
式中,D=Z1Z2…Zi-1,1≤i≤m。進一步,可以得到:
Zi=Zi⊙[XH~T1]++[Z1H︿1]-[XH~T1]-+[Z1H︿1]+,如果i=1
Zi⊙[DTXH~Ti]++[DTZiH︿i]-[DTXH~Ti]-+[DTZiH︿i]+,如果igt;1(10)
式中,H~i是對第i層特征矩陣的重構(gòu)矩陣,H︿i=H~iH~Ti,⊙表示哈達瑪積。
1.4.2優(yōu)化H(v)i固定其他變量,關(guān)于H(v)i的目標函數(shù)為:
minH(v)i‖X(v)-Z(v)1Z(v)2…Z(v)iH(v)i‖2F
對H(v)i求偏導(dǎo)并將偏導(dǎo)置為0可得:
H(v)i=(ΦTΦ)-1ΦTX(v)(11)
式中,ilt;m,Φ=Z(v)1Z(v)2…Z(v)i。
1.4.3優(yōu)化H(v)m固定其他變量,關(guān)于H(v)m的優(yōu)化問題可以為:
minH(v)m‖H(v)-ΦmH(v)m‖2F+τ‖H(v)m-H‖2F
對第m層的潛在特征描述H(v)m求偏導(dǎo)并將偏導(dǎo)置為0,可以求解得出:
H(v)m=(ΦTmΦm+τI)-1(ΦTmX(v)+τH)(12)
式中,I為單位矩陣,Φm=Z(v)1Z(v)2…Z(v)m。
1.4.4優(yōu)化H固定其他變量,可以獲得如下子問題:
minHVv=1(τ‖H(v)m-H‖2F+λ‖P(v)X(v)-H‖2F)+α‖VTA-H‖2F+η‖WTH-LS‖2F
式中,H∈{-1,1}k×n,可以通過線性化方法進行求解得到:
H=sgn{yv=x[τηH(v)m+ληP(v)X(v)+αηVTA]-WWTH+WLS}(13)
式中,sgn為符號函數(shù)。
1.4.5優(yōu)化P(v)固定其他變量,關(guān)于P(v)的優(yōu)化問題可以為:
minP(v)‖P(v)X(v)-H‖2F
對P(v)求偏導(dǎo)并將偏導(dǎo)置為0,不難得出:
P(v)=HX(v)T[X(v)X(v)T]-1(14)
1.4.6優(yōu)化W固定其他變量可得:
minW‖WTH-LS‖2F
對W求偏導(dǎo)并將偏導(dǎo)置為0,不難得出:
W=(HHT)-1HLTS(15)
1.4.7優(yōu)化V固定其他變量可得:
minV‖VTA-H‖2F
對V求偏導(dǎo)并將偏導(dǎo)置為0,不難得出:
V=(AAT)-1AHT(16)
通過交替求解上述優(yōu)化問題,可得到原問題(7)的最優(yōu)解,總體優(yōu)化流程為:
輸入:圖片和文本模態(tài)中可見類別數(shù)據(jù)為X(1)和X(2),類別標簽為Ls,屬性信息矩陣為A,中間層大小為pi,超參數(shù)為τ、λ、α、η。
輸出:生成的哈希碼矩陣H以及兩個模態(tài)對應(yīng)的哈希函數(shù)P(v)。
1:隨機初始化[Z(v)i、H(v)i]、P(v)、W和V;
2:重復(fù);
3:對每個模態(tài)中所有層通過公式(10)更新Z(v)i;
4:對于每個模態(tài)通過公式(11)和公式(12)更新H(v)i和H(v)m;
5:通過公式(14)更新P(v);
6:通過公式(15)更新W;
7:通過公式(16)更新V;
8:通過公式(13)更新H;
9:直到收斂結(jié)束返回H和P(v)。
1.5時間復(fù)雜度分析
設(shè)p=max(pi),1≤i≤m,上述優(yōu)化過程中的時間復(fù)雜度更新如下:
(1)更新Z(v)i的時間復(fù)雜度為O(2p2n+2p2dv+ndvp+p3);
(2)更新H(v)i(ilt;m)的時間復(fù)雜度為O(ndvp+p2n+dvp2);
(3)更新H(v)m的時間復(fù)雜度為O(ndvp+dvp2+p3);
(4)更新P(v)的時間復(fù)雜度為O(ndvp+d2vn);
(5)更新H的時間復(fù)雜度為O(sp2+spn+2pdvn);
(6)更新W的時間復(fù)雜度為O(nsp+p2n);
(7)更新V的時間復(fù)雜度為O(nd2v+pdvn)。
令d=max{dv},v∈{1,2},則總的時間復(fù)雜度為O{tl2(3pdn+2p2n+nd2+nps+dp2+sp2)+p3},其中t為迭代次數(shù),l=m+1為總的層數(shù)。通常情況下,p、d、s的取值都遠遠小于樣本數(shù)n,易知所提出的算法的時間復(fù)雜度可以表示為O(n)。
2結(jié)果與分析
2.1試驗結(jié)果
將提出的方法與7種哈希方法進行比較。其中基于協(xié)同矩陣分解的哈希方法(CMFH)[21]和基于潛在語義的稀疏哈希方法(LSSH)[22]為跨模態(tài)哈希方法,基于屬性的哈希方法(AH)[23]和基于遷移監(jiān)督知識的哈希方法(TSK)[24]為零樣本單模態(tài)哈希方法,基于跨模態(tài)屬性的哈希方法(CMAH)[17]、基于正交投影的哈希方法(CHOP)[25]和離散非對稱零樣本哈希方法(DAZSH)[19]為零樣本跨模態(tài)哈希方法。
圖1、圖2、圖3顯示了本研究所提出的方法與對比方法在3個數(shù)據(jù)集上的mAP值。與CMFH以及LSSH相比,所提出的方法由于引入了類別屬性信息的監(jiān)督,可以在零樣本的跨模態(tài)檢索精度上取得較高的提升。而AH和TSK方法是針對單一模態(tài)的零樣本檢索,雖然能夠比傳統(tǒng)的跨模態(tài)哈希方法更好,但是在零樣本跨模態(tài)檢索精度上效果不佳,所提出的方法由于考慮到了不同模態(tài)數(shù)據(jù)特征的異構(gòu)性,故能夠獲得更高的檢索精度。與CMAH、CHOP及DAZSH相比,由于提出的深層矩陣分解方法能夠針對不同模態(tài)的深層數(shù)據(jù)特征進行表述,所以在檢索精度方面取得了很好的效果。
CMFH:基于協(xié)同矩陣分解的哈希方法;LSSH:基于潛在語義的稀疏哈希方法;TSK:基于遷移監(jiān)督知識的哈希方法;AH:基于屬性的哈希方法;CMAH:基于跨模態(tài)屬性的哈希方法;CHOP基于正交投影的哈希方法;DAZSH:離散非對稱零樣本哈希方法;Ours:本研究方法。
此外,圖4、圖5、圖6顯示了本研究所提出的方法與對比方法在3個數(shù)據(jù)集上的PH2值,從結(jié)果可以看出本研究所提出的方法在以文搜圖和以圖搜文任務(wù)上表現(xiàn)良好,驗證了所提出的方法的有效性。圖7顯示了本研究所提出的方法與對比方法在Wiki數(shù)據(jù)集上的Top-10準確率,從結(jié)果可以看出所提出的方法在以文搜圖和以圖搜文任務(wù)上表現(xiàn)良好,驗證了所提出的方法的有效性。圖8顯示了所提出的方法與融合注意力方法[26]在2020年寧夏枸杞蟲害數(shù)據(jù)集上的病蟲害識別結(jié)果對比實例,實線邊框為正確識別的結(jié)果,虛線邊框為識別錯誤的結(jié)果。從以文搜圖和以圖搜文的結(jié)果可以看出,本研究所提出的方法在零樣本的枸杞病蟲害識別方面表現(xiàn)優(yōu)于對比方法。
表1顯示在Wiki數(shù)據(jù)集上本研究所提出的方法與CHOP以及DAZSH在訓(xùn)練上所花費的時間,從對比結(jié)果可以看出本研究所提出的方法與CHOP相比需要花費較多的訓(xùn)練時間,與DAZSH相比花費較少的訓(xùn)練時間。綜合檢索精度與訓(xùn)練時長的結(jié)果,本研究所提出的方法能夠適用于大規(guī)模數(shù)據(jù)集的零樣本跨模態(tài)檢索任務(wù)。
2.2有效性分析
為驗證深層矩陣分解的有效性,將本研究方法與不使用深層矩陣分解的方法進行比較。當(dāng)m取值為0時,可以看作對模態(tài)數(shù)據(jù)只進行單層矩陣分解,這里選取了在Wiki數(shù)據(jù)集上哈希編碼為32 bit的試驗結(jié)果。其mAP與PH2評價指標結(jié)果如圖9所示。
從結(jié)果可以看出,深層矩陣分解方法在mAP和PH2指標上相較于單層矩陣分解方法有較大的提升。表明深層矩陣分解方法可以提取到模態(tài)數(shù)據(jù)深層次結(jié)構(gòu)特征,從而提升零樣本識別的精確度。
2.3參數(shù)敏感性
對于本研究所提出的方法中的超參數(shù)(τ、λ、α、η),如何選擇合適的超參數(shù)值以獲得更好的試驗結(jié)果。以Wiki數(shù)據(jù)集下32 bit長度的哈希編碼為試驗環(huán)境,初始將所有的超參數(shù)的值設(shè)置為1,每次只調(diào)整其中1個超參數(shù)的值,固定其他參數(shù),對其進行敏感性分析,結(jié)果如圖10~圖13所示。
由圖10可以看出mAP值在τ取值為[2,7]時相對穩(wěn)定,在[8,9]時下降比較明顯。由圖11可以看出mAP值在λ取值為[5,15]時有較大的上升,在[15,40]時比較穩(wěn)定。由圖12可以看出mAP值在α取值為[1,4]時較為穩(wěn)定,在[5,8]時波動且稍微下降。由圖13可以看出mAP值在η取值為[50,350]時相對穩(wěn)定,在η=400時以圖搜文的mAP值有所下降。
3結(jié)論
本研究提出了一種基于零樣本學(xué)習(xí)的枸杞蟲害跨模態(tài)檢索與識別方法,將零樣本跨模態(tài)哈希方法應(yīng)用于農(nóng)作物蟲害檢索與識別領(lǐng)域,同時解決了現(xiàn)有零樣本跨模態(tài)哈希方法中存在的問題。通過對不同模態(tài)的數(shù)據(jù)進行深層矩陣分解獲得深層結(jié)構(gòu)特征,生成具有判別能力的哈希碼。利用類別標簽和類別屬性信息對生成的哈希碼引入線性約束,從而實現(xiàn)不可見類到可見類的知識遷移。使用離散方法學(xué)習(xí)哈希碼避免了連續(xù)松弛帶來的量化誤差,增加了檢索時的精度。
在2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集以及Wiki、Pascal VOC這3個公共數(shù)據(jù)集上的試驗結(jié)果顯示,與7種現(xiàn)有零樣本跨模態(tài)哈希方法相比,本研究所提出的方法在以文搜圖任務(wù)上的平均精度提高了0.210 6,在以圖搜文任務(wù)上的平均精度提高了0.145 0,優(yōu)于所有對比方法。
從試驗結(jié)果可以看出本研究所提出的方法作為有監(jiān)督的零樣本跨模態(tài)哈希方法,在檢索精度方面取得了不錯的效果,如何將本研究方法擴展到半監(jiān)督零樣本跨模態(tài)哈希方法,提升模型的泛用性將是后續(xù)研究的方向。
參考文獻:
[1]許盼盼. 枸杞抗鹽種質(zhì)資源篩選與抗鹽基因的克隆鑒定[D]. 咸陽:西北農(nóng)林科技大學(xué),2018.
[2]徐峰. 寧夏枸杞產(chǎn)業(yè)競爭力研究[D]. 銀川:寧夏大學(xué),2017.
[3]范振軍. 農(nóng)作物病蟲害圖像檢索方法研究與實現(xiàn)[D]. 綿陽:西南科技大學(xué),2018.
[4]汪京京,張武,劉連忠,等. 農(nóng)作物病蟲害圖像識別技術(shù)的研究綜述[J]. 計算機工程與科學(xué),2014,36(7):1363-1370.
[5]杭立,車進,宋培源,等. 基于機器學(xué)習(xí)和圖像處理技術(shù)的病蟲害預(yù)測[J]. 西南大學(xué)學(xué)報(自然科學(xué)版),2020,42(1):134-141.
[6]趙蕓. 基于高光譜和圖像處理技術(shù)的油菜病蟲害早期監(jiān)測方法和機理研究[D]. 杭州:浙江大學(xué),2013.
[7]趙建敏,薛曉波,李琦. 基于機器視覺的馬鈴薯病害識別系統(tǒng)[J]. 江蘇農(nóng)業(yè)科學(xué),2017,45(2):198-202.
[8]王佳. 計算機視覺在香芋病害檢測中的應(yīng)用研究[J]. 農(nóng)機化研究,2020,42(8):241-244.
[9]NETTLETON D F, KATSANTONIS D, KALAITZIDIS A, et al. Predicting rice blast disease:machine learning versus process-based models[J]. BMC Bioinformatics,2019,20:1-16.
[10]王國偉,劉嘉欣. 基于卷積神經(jīng)網(wǎng)絡(luò)的玉米病害識別方法研究[J]. 中國農(nóng)機化學(xué)報,2021,42(2):139-145.
[11]趙立新,侯發(fā)東,呂正超,等. 基于遷移學(xué)習(xí)的棉花葉部病蟲害圖像識別[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(7):184-191.
[12]鮑文霞,吳剛,胡根生,等. 基于改進卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉部病害識別[J]. 安徽大學(xué)學(xué)報(自然科學(xué)版),2021,45(1):53-59.
[13]馮曉,李丹丹,王文君,等. 基于輕量級卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的小麥葉部病害圖像識別[J]. 河南農(nóng)業(yè)科學(xué),2021,50(4):174-180.
[14]謝州益,馮亞枝,胡彥蓉,等. 基于ResNet18特征編碼器的水稻病蟲害圖像描述生成[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(12):197-206.
[15]彭紅星,徐慧明,劉華鼐. 融合雙分支特征和注意力機制的葡萄病蟲害識別模型[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(10):156-165.
[16]冀中,汪浩然,于云龍,等. 零樣本圖像分類綜述:十年進展[J]. 中國科學(xué)(信息科學(xué)),2019,49(10):1299-1320.
[17]ZHONG F, CHEN Z, MIN G. An exploration of cross-modal retrieval for unseen concepts[C]//LI G L, YANG J, GAMA J, et al. Database systems for advanced applications:24th international conference, Proceedings, Part Ⅱ. Cham, Switzerland:Springer International Publishing,2019:20-35.
[18]JI Z, SUN Y, YU Y, et al. Attribute-guided network for cross-modal zero-shot hashing[J]. IEEE Transactions on Neural Networks and Learning Systems,2019,31(1):321-330.
[19]SHU Z, YONG K, YU J, et al. Discrete asymmetric zero-shot hashing with application to cross-modal retrieval[J]. Neurocomputing,2022,511:366-379.
[20]陳磊,劉立波,王曉麗. 2020 年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集[J]. 中國科學(xué)數(shù)據(jù),2022,7(3):149-156.
[21]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing for multimodal data[C]// IEEE. Proceedings of the IEEE conference on computer vision and pattern recognition. Los Alamitos, USA:IEEE,2014:2075-2082.
[22]ZHOU J, DING G, GUO Y. Latent semantic sparse hashing for cross-modal similarity search[C]//ACM. Proceedings of the 37th international ACM SIGIR Conference on research amp; development in information retrieval. New York:ACM,2014:415-424.
[23]XU Y, YANG Y, SHEN F, et al. Attribute hashing for zero-shot image retrieval[C]//IEEE. 2017 IEEE international conference on multimedia and expo (ICME). Hong Kong:IEEE,2017:133-138.
[24]YANG Y, LUO Y, CHEN W, et al. Zero-shot hashing via transferring supervised knowledge[C]//ACM. Proceedings of the 24th ACM international conference on multimedia. New York:ACM,2016:1286-1295.
[25]YUAN X, WANG G, CHEN Z, et al. CHOP:an orthogonal hashing method for zero-shot cross-modal retrieval[J]. Pattern Recognition Letters,2021,145:247-253.
[26]劉立波,趙斐斐. 融合注意力機制的枸杞蟲害圖文跨模態(tài)檢索方法[J]. 農(nóng)業(yè)機械學(xué)報,2022,53(2):299-308.
(責(zé)任編輯:成紓寒)