摘 要:隨著人工智能技術(shù)的快速發(fā)展,特別是深度學(xué)習(xí)的應(yīng)用,昆蟲識別領(lǐng)域已經(jīng)實(shí)現(xiàn)從傳統(tǒng)方法向自動化和智能化方法的轉(zhuǎn)變。該文介紹一種結(jié)合視覺變換器(Vision Transformer,ViT)和隨機(jī)森林(Random Forest,RF)的昆蟲識別系統(tǒng),旨在提高識別的準(zhǔn)確性和效率。通過這種創(chuàng)新的混合方法,能夠更有效地處理大規(guī)模昆蟲圖像數(shù)據(jù)集,并實(shí)現(xiàn)高效率的昆蟲識別。
關(guān)鍵詞:人工智能;深度學(xué)習(xí);昆蟲識別;視覺變換器;隨機(jī)森林
中圖分類號:F323 文獻(xiàn)標(biāo)志碼:A 文章編號:2096-9902(2024)21-0021-04
Abstract: With the rapid development of artificial intelligence technology, especially the application of deep learning, the field of insect recognition has transformed from traditional methods to automated and intelligent methods. This paper introduces an insect recognition system that combines Vision Transformer(ViT) and Random Forest(RF) to improve the accuracy and efficiency of recognition. Through this innovative hybrid approach, we are able to more effectively process large-scale insect image datasets and achieve efficient insect recognition.
Keywords: artificial intelligence; deep learning; insect recognition; Vision Transformer (ViT); Random Forest (RF)
昆蟲作為地球上種類最為豐富的生物群體,其多樣性和廣泛分布對農(nóng)業(yè)生產(chǎn)和生態(tài)系統(tǒng)的健康起著至關(guān)重要的作用。昆蟲不僅是許多生態(tài)系統(tǒng)中關(guān)鍵的授粉者、食物源和分解者,同時也可能成為破壞性極大的農(nóng)業(yè)害蟲或疾病傳播者。因此,對昆蟲進(jìn)行快速且準(zhǔn)確的識別對于生物多樣性的研究、農(nóng)業(yè)害蟲的管理及環(huán)境監(jiān)測等領(lǐng)域具有極其重要的意義。
傳統(tǒng)上,昆蟲的識別依賴于昆蟲學(xué)專家的視覺檢查和形態(tài)學(xué)分析,這一過程不僅需要大量的人力物力,而且效率低下。此外,由于專家可用性的限制,這種方法的可擴(kuò)展性非常有限,難以應(yīng)對大規(guī)?;蜓杆傩枰R別大量樣本的情況。隨著科技的進(jìn)步,尤其是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,昆蟲識別方法已經(jīng)從依賴傳統(tǒng)的生物光子檢測、聲測法轉(zhuǎn)變?yōu)槔脠D像識別和深度學(xué)習(xí)技術(shù)。
近年來,深度學(xué)習(xí)尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別領(lǐng)域的成功應(yīng)用,極大地推動了自動昆蟲識別技術(shù)的發(fā)展。通過訓(xùn)練深度學(xué)習(xí)模型識別昆蟲圖像中的特征,研究人員可以快速準(zhǔn)確地識別不同的昆蟲種類,大幅提高了識別的速度和準(zhǔn)確性。然而,盡管取得了顯著的進(jìn)展,當(dāng)前的昆蟲識別系統(tǒng)仍面臨一些挑戰(zhàn),包括處理高度復(fù)雜和多樣化的昆蟲圖像數(shù)據(jù)時的準(zhǔn)確率問題及在實(shí)際應(yīng)用中的速度瓶頸。
許多昆蟲在自然環(huán)境中體積小、顏色和背景相近,這些因素都給準(zhǔn)確識別帶來了困難。此外,現(xiàn)有系統(tǒng)在處理具有遮擋、不同姿態(tài)或變異個體時,識別性能常常會大打折扣。因此,需要更高效的算法和技術(shù)來克服這些問題,提高系統(tǒng)在各種復(fù)雜環(huán)境下的魯棒性和適應(yīng)性。
為此,本文提出了一個結(jié)合視覺變換器(Vision Transformer,ViT)和隨機(jī)森林(Random Forest,RF)的昆蟲識別新系統(tǒng)。ViT作為一種新興的深度學(xué)習(xí)模型,通過其獨(dú)特的自注意力機(jī)制,能夠更好地捕捉圖像中的全局特征和復(fù)雜關(guān)系。而RF作為一個成熟的機(jī)器學(xué)習(xí)算法,其在分類任務(wù)上的高效性和穩(wěn)定性能夠有效提高識別的準(zhǔn)確率和處理速度。通過這一新穎的方法組合,期望能夠有效地解決現(xiàn)有昆蟲識別技術(shù)面臨的問題,推動昆蟲識別技術(shù)向更高效、更智能化的方向發(fā)展。
1 模型假設(shè)和算法描述
構(gòu)建基于ViT和RF的昆蟲識別系統(tǒng)如圖1所示,數(shù)據(jù)的收集與預(yù)處理是基礎(chǔ)且關(guān)鍵的步驟。首先,需要構(gòu)建一個廣泛覆蓋不同物種的昆蟲圖像數(shù)據(jù)庫。這通常涉及到在多種環(huán)境下采集昆蟲的高質(zhì)量圖像,并確保每個圖像都有清晰的昆蟲特征展示。數(shù)據(jù)的多樣性對于訓(xùn)練一個健壯的模型是至關(guān)重要的,因此,圖像的來源應(yīng)包括不同的地理、氣候條件及昆蟲的多種生活階段。
在采集的圖像數(shù)據(jù)集上進(jìn)行標(biāo)注是下一個重要步驟。標(biāo)注不僅包括昆蟲的種類,還需標(biāo)注圖像中昆蟲的具體位置,通常采用邊界框或像素級的分割來實(shí)現(xiàn)。這一步驟通常需要昆蟲學(xué)專家的參與,以確保數(shù)據(jù)的準(zhǔn)確性和可靠性。
圖像預(yù)處理則包括幾個關(guān)鍵技術(shù)。
圖像傾斜校正:糾正拍攝時可能產(chǎn)生的角度偏差,確保昆蟲圖像的標(biāo)準(zhǔn)化。
灰度增強(qiáng):通過調(diào)整圖像的對比度和亮度,使昆蟲的細(xì)節(jié)更加清晰,便于特征提取。
圖像去噪:消除圖像捕獲和處理過程中引入的噪聲,提高圖像質(zhì)量。在特征提取階段,本系統(tǒng)采用了ViT作為主要的工具。ViT通過將圖像分割成多個小塊(patches),并將這些小塊輸入到基于自注意力機(jī)制的Transformer網(wǎng)絡(luò)中,有效捕獲了圖像內(nèi)部各個部分之間的復(fù)雜關(guān)系。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,ViT在處理圖像中的全局信息方面顯示出更高的效能,這對于昆蟲圖像的多樣性和復(fù)雜性尤為重要。
Autoencoder包含2個主要部分:Encoder(編碼器)和Decoder(解碼器)。
Encoder(編碼器):編碼器是一個前饋、全連接的神經(jīng)網(wǎng)絡(luò)。它接收原始的高維輸入數(shù)據(jù),并將其壓縮為潛在空間表示,即編碼。編碼器的作用是將輸入數(shù)據(jù)編碼為低維的表示形式,這個表示形式稱為編碼或者潛在空間向量。編碼后的向量大小通常比原始輸入的維度小很多,這樣就實(shí)現(xiàn)了數(shù)據(jù)的壓縮。
Decoder(解碼器):解碼器也是一個前饋神經(jīng)網(wǎng)絡(luò),它與編碼器形成鏡像關(guān)系。解碼器接收編碼后的低維表示,并嘗試將其解碼為原始的高維輸入數(shù)據(jù)。解碼器的作用是將編碼后的低維表示解碼回原始的高維數(shù)據(jù)空間,重構(gòu)原始輸入。
在訓(xùn)練過程中,解碼器的任務(wù)是盡可能準(zhǔn)確地重構(gòu)原始輸入,而編碼器的任務(wù)是學(xué)習(xí)如何最好地壓縮輸入數(shù)據(jù)以重構(gòu)原始數(shù)據(jù)。通過這個過程,Autoencoder會選擇最具信息量的特征,并將其保留在低維表示中,從而實(shí)現(xiàn)數(shù)據(jù)的有效壓縮。
在Autoencoder中,壓縮后的表示保存在編碼器和解碼器之間的中間層,即所謂的“code”層。通過訓(xùn)練,Autoencoder能夠?qū)W習(xí)到數(shù)據(jù)的有效表示如圖2所示,使得它在解碼器端可以準(zhǔn)確地重構(gòu)原始數(shù)據(jù)。
隨機(jī)森林是一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),適用于大規(guī)模昆蟲圖像處理。利用bootstrap方法從原始圖像數(shù)據(jù)中隨機(jī)選取多個子樣本,為每個子樣本構(gòu)建決策樹模型。然后,通過匯總這些決策樹的預(yù)測結(jié)果,采用平均或投票的方式確定每個昆蟲圖像的最終分類結(jié)果。這種方法不僅能夠處理大規(guī)模數(shù)據(jù)集,還能提高昆蟲識別的準(zhǔn)確性和效率。
式中:H(x)表示組合分類模型結(jié)果;hi(x)表示單個決策樹的分類模型結(jié)果;Y表示因變量;I(·)表示一個示性函數(shù)。
給定一組分類模型h1(x),h2(x),…,hk(x),每個分類模型的訓(xùn)練集都是從原始數(shù)據(jù)集(X,Y)中隨機(jī)抽樣得到的,因此可以得到測度平均正確分類數(shù)超過平均錯誤分類數(shù)程度的余量函數(shù)。
余量函數(shù)越大,分類預(yù)測便越可靠,從而得到模型的泛化誤差
PE*=PX,Y(mg(X,Y)<0)。
這也意味著,隨著決策樹分類數(shù)的逐漸增大,h(X,0)服從強(qiáng)大數(shù)定律,所有森林中的決策樹的泛化誤差都收斂于
PE=Pxy(Pθ(k(X,θ)=Y))-maxPθ(k(X,θ)=j)<0)。
因此,隨著決策樹數(shù)量的增加,隨機(jī)森林的泛化誤差將趨向于一個上界,這表明隨機(jī)森林具有很好的收斂性和防止過擬合的能力。RF是一種決策樹的集成模型,它利用每個用自助抽樣(bootstrap sampling)生成的新訓(xùn)練集構(gòu)建決策樹(圖3),并且在決策樹的生長過程中不進(jìn)行剪枝。在RF中,理論已經(jīng)證明,在原始樣本集D中大約37%的樣本不會出現(xiàn)在bootstrap樣本中,這些樣本被稱為袋外數(shù)據(jù)(Out-Of-Bag,OOB data)。利用這些袋外數(shù)據(jù)來估計(jì)模型的性能就是所謂的OOB估計(jì)。每棵決策樹都有一個OOB誤差估計(jì),而將所有決策樹的OOB誤差估計(jì)取平均值就得到了整個隨機(jī)森林的泛化誤差估計(jì)。
2 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證基于ViT和RF的昆蟲識別系統(tǒng)的性能,設(shè)計(jì)了一系列實(shí)驗(yàn)來比較此系統(tǒng)與傳統(tǒng)昆蟲識別技術(shù)(主要是基于卷積神經(jīng)網(wǎng)絡(luò)的方法)的效果。實(shí)驗(yàn)數(shù)據(jù)集包括來自不同生態(tài)環(huán)境和地理位置的數(shù)千張昆蟲圖像,這些圖像被細(xì)致地標(biāo)記了昆蟲種類及其具體位置信息。數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,其中80%用于訓(xùn)練模型,10%用于模型驗(yàn)證,10%用于測試模型的最終性能。
測試過程中,每個模型都在相同的硬件條件下運(yùn)行,以保證結(jié)果的公平性。ViT模型首先從每張圖像中提取高維特征,這些特征隨后被輸入到隨機(jī)森林分類器中進(jìn)行最終的昆蟲種類判定。為了評估模型性能,采用了多種指標(biāo),包括準(zhǔn)確率、召回率、F1分?jǐn)?shù)和處理速度。
實(shí)驗(yàn)結(jié)果表明,基于ViT-RF的昆蟲識別系統(tǒng)在多個方面超過了傳統(tǒng)方法。
準(zhǔn)確率:ViT-RF系統(tǒng)在昆蟲識別的準(zhǔn)確率上顯著優(yōu)于基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的系統(tǒng)。具體來說,準(zhǔn)確率提高了約10%至15%,這主要得益于ViT在提取昆蟲圖像全局特征方面的優(yōu)勢。
召回率:該系統(tǒng)在召回率上同樣表現(xiàn)出色,尤其是在難以識別的小型或遮擋昆蟲圖像中,能更有效地識別出目標(biāo)昆蟲。
F1分?jǐn)?shù):F1分?jǐn)?shù)作為準(zhǔn)確率和召回率的調(diào)和平均,是衡量模型綜合性能的重要指標(biāo)。ViT-RF系統(tǒng)的F1分?jǐn)?shù)普遍高于傳統(tǒng)方法,顯示了其在平衡精確性和覆蓋率方面的能力。
處理速度:盡管ViT涉及較為復(fù)雜的計(jì)算過程,但由于隨機(jī)森林的高效性和整個系統(tǒng)的優(yōu)化,其處理速度比基于深度學(xué)習(xí)的傳統(tǒng)方法有所提高。在標(biāo)準(zhǔn)測試集上,ViT-RF系統(tǒng)的平均處理時間比傳統(tǒng)方法快約20%。
這些結(jié)果不僅證實(shí)了ViT和RF結(jié)合的有效性,也展示了該系統(tǒng)在實(shí)際應(yīng)用中的潛力。尤其是在需要快速且準(zhǔn)確識別大量昆蟲樣本的生物多樣性研究和農(nóng)業(yè)害蟲管理中,此系統(tǒng)可以提供顯著的幫助。
3 未來展望
昆蟲識別技術(shù)的未來發(fā)展極為廣泛,其精度、速度、應(yīng)用范圍和智能化水平的提升將為多個行業(yè)帶來革命性的變化。以下詳細(xì)探討了未來昆蟲識別技術(shù)的發(fā)展方向及其潛在的社會影響。
3.1 提升識別準(zhǔn)確性
未來的昆蟲識別系統(tǒng)將通過算法的持續(xù)優(yōu)化和擴(kuò)展數(shù)據(jù)集的多樣性來提高準(zhǔn)確性。隨著深度學(xué)習(xí)和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,新的算法如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和生成對抗網(wǎng)絡(luò)(GAN)等將被進(jìn)一步改進(jìn),以更好地處理復(fù)雜和變化的昆蟲圖像數(shù)據(jù)。此外,通過集成全球不同地區(qū)的昆蟲數(shù)據(jù),增加數(shù)據(jù)的地理和生態(tài)多樣性,可以使系統(tǒng)更全面地學(xué)習(xí)和識別各種罕見或常見的昆蟲種類。
3.2 提高系統(tǒng)的實(shí)時性和效率
隨著計(jì)算能力的提高,特別是GPU和TPU等專用硬件的發(fā)展,昆蟲識別系統(tǒng)的實(shí)時性和效率將得到顯著提升。這意味著在實(shí)時監(jiān)控和快速識別昆蟲的場景下,如自動化農(nóng)業(yè)害蟲管理和生態(tài)監(jiān)測,系統(tǒng)能夠迅速準(zhǔn)確地處理和分析大規(guī)模圖像數(shù)據(jù),實(shí)現(xiàn)即時反饋和應(yīng)對。
3.3 探索更廣泛的應(yīng)用場景
昆蟲識別技術(shù)的應(yīng)用領(lǐng)域?qū)⑦M(jìn)一步拓寬。在農(nóng)業(yè)領(lǐng)域,精準(zhǔn)識別技術(shù)可以幫助農(nóng)民更有效地管理害蟲,減少農(nóng)藥使用,促進(jìn)可持續(xù)農(nóng)業(yè)的發(fā)展。在生態(tài)環(huán)境保護(hù)中,此技術(shù)可以用于監(jiān)測生物多樣性和生態(tài)系統(tǒng)健康。醫(yī)學(xué)領(lǐng)域也可能受益于此技術(shù),例如通過識別可能攜帶病原體的昆蟲來預(yù)防疾病的傳播。
3.4 結(jié)合其他先進(jìn)技術(shù)和方法
未來的昆蟲識別系統(tǒng)可能會結(jié)合更多的前沿技術(shù),如強(qiáng)化學(xué)習(xí)提高模型的自主決策能力,遷移學(xué)習(xí)促進(jìn)模型快速適應(yīng)新的昆蟲種類或環(huán)境變化。此外,技術(shù)如邊緣計(jì)算和物聯(lián)網(wǎng)(IoT)的集成,能夠使設(shè)備在不依賴中心服務(wù)器的情況下,就地處理和分析數(shù)據(jù),增強(qiáng)系統(tǒng)的靈活性和可擴(kuò)展性。
3.5 推動自動化和智能化發(fā)展
昆蟲識別技術(shù)的持續(xù)發(fā)展將是自動化和智能化在農(nóng)業(yè)生產(chǎn)、生態(tài)環(huán)境保護(hù)等領(lǐng)域推廣的關(guān)鍵。自動化技術(shù)可以減少人力需求,降低成本,同時提高操作的精度和效率。智能化技術(shù)的應(yīng)用可以提升數(shù)據(jù)分析和決策制定的質(zhì)量,使得管理措施更加科學(xué)和精確。
4 結(jié)論
本研究開發(fā)的昆蟲識別系統(tǒng)結(jié)合了ViT和RF 2種技術(shù)的優(yōu)勢使得該系統(tǒng)在昆蟲識別領(lǐng)域表現(xiàn)出色。ViT是一種基于自注意力機(jī)制的模型,它能夠處理圖像中的全局特征,從而捕捉到復(fù)雜昆蟲形態(tài)的細(xì)微差異。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,ViT提供了更好的尺度不變性和更強(qiáng)的特征表達(dá)能力。此外,RF作為一個集成學(xué)習(xí)方法,通過構(gòu)建多個決策樹來提高分類的準(zhǔn)確性和魯棒性,特別適合處理具有高維特征的圖像數(shù)據(jù)。
通過組合這2種強(qiáng)大的技術(shù),本系統(tǒng)不僅在實(shí)驗(yàn)室環(huán)境中表現(xiàn)出高效的識別能力,而且在現(xiàn)場應(yīng)用中也顯示出極高的實(shí)用性。在農(nóng)業(yè)應(yīng)用中,該系統(tǒng)可以用于識別和分類農(nóng)作物害蟲,幫助農(nóng)業(yè)從業(yè)者實(shí)施更精準(zhǔn)的害蟲控制策略,從而減少農(nóng)藥的使用,提高農(nóng)作物產(chǎn)量和品質(zhì)。此外,系統(tǒng)的高速處理能力確保了在大規(guī)模害蟲爆發(fā)時能夠迅速響應(yīng),最大限度地減少損失。
在生態(tài)研究領(lǐng)域,這一系統(tǒng)為生物多樣性的監(jiān)測提供了強(qiáng)有力的工具。研究人員可以利用這一系統(tǒng)對野外收集的昆蟲樣本進(jìn)行快速鑒定,大大減少了傳統(tǒng)人工鑒定的時間和勞動成本。此外,系統(tǒng)的高識別精度有助于提高物種分布數(shù)據(jù)的準(zhǔn)確性,為生態(tài)保護(hù)和生物多樣性研究提供可靠的科學(xué)依據(jù)。
系統(tǒng)的進(jìn)一步發(fā)展還將探索更多的功能,例如利用深度學(xué)習(xí)進(jìn)行圖像增強(qiáng)和噪聲過濾,以提高在復(fù)雜環(huán)境中的識別準(zhǔn)確率。同時,未來的研究也會著重于提升系統(tǒng)的用戶交互體驗(yàn),如開發(fā)更加友好的圖形用戶界面和增加自動化功能,使非專業(yè)人員也能輕松操作。
這一結(jié)合ViT和RF技術(shù)的昆蟲識別系統(tǒng)不僅在技術(shù)上具有創(chuàng)新性,而且在農(nóng)業(yè)生產(chǎn)和生態(tài)研究等多個實(shí)際應(yīng)用場景中展現(xiàn)了巨大的潛力和價值。隨著技術(shù)的進(jìn)一步完善和應(yīng)用的拓展,預(yù)期將為昆蟲識別領(lǐng)域帶來更多的突破和發(fā)展。
參考文獻(xiàn):
[1] 寧方立OjbicciZ0Frf7N9OtUjbbZ7tNVhLRXjbV8ceXT0p/tQ=,王珂,郝明陽.融合CNN和ViT的聲信號軸承故障診斷方法[J].振動與沖擊,2024,43(3):158-163,170.
[2] 王碩,賈鋒,周全,等.基于MTF-ResNet-ViT的風(fēng)電機(jī)組精細(xì)級聯(lián)故障預(yù)警[J].上海電力大學(xué)學(xué)報(bào),2024,40(1):17-24.
[3] 裴非飛,聶梓龍,許國敏,等.Friction-1D Transformer:用于瀝青路面抗滑預(yù)測的一維VIT混合模型[J/OL].中外公路,1-14[2024-04-26].http://kns.cnki.net/kcms/detail/43.1363.u.2024012
4.1631.004.html.
[4] 丁偉,鄒復(fù)民,劉吉順,等.基于CNN-BiLSTM-Attention的電動裝載機(jī)電池荷電狀態(tài)預(yù)測[J/OL].電源學(xué)報(bào),1-12[2024-04-26].http://kns.cnki.net/kcms/detail/12.1420.TM.20240426.1024.024.html.
[5] 陳剛,侯賓杰.基于生成對抗網(wǎng)絡(luò)的高斯型數(shù)據(jù)的過采樣算法[J].信息與控制,2024,53(2):182-190.
[6] 趙鳳,耿苗苗,劉漢強(qiáng),等.卷積神經(jīng)網(wǎng)絡(luò)與視覺Transformer聯(lián)合驅(qū)動的跨層多尺度融合網(wǎng)絡(luò)高光譜圖像分類方法[J].電子與信息學(xué)報(bào),2024,46(5):2237-2248.
[7] 傅夢希,朱效宇,張良,等.基于深度殘差神經(jīng)網(wǎng)絡(luò)的光場PIV粒子場重建方法研究[J/OL].光學(xué)學(xué)報(bào),1-21[2024-04-26].http://kns.cnki.net/kcms/detail/31.1252.o4.20240424.1056.050.html.
[8] 郭明澤,張興媛,金楨玥.基于卷積神經(jīng)網(wǎng)絡(luò)和激光超聲的表面缺陷檢測[J/OL].激光與光電子學(xué)進(jìn)展,1-15[2024-04-26].http://kns.cnki.net/kcms/detail/31.1690.TN.20240422.1522.024.html.
[9] 張鐵志,陳萃華,黃華,等.基于卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)成像橋梁裂縫檢測方法研究[J].世界橋梁,2024,52(3):111-118.
[10] 陶加貴,韓飛,汪倫,等.基于機(jī)器視覺和卷積神經(jīng)網(wǎng)絡(luò)的無人化智能裝卸研究[J].自動化技術(shù)與應(yīng)用,2024,43(4):26-30.