陳杰,何月順,熊凌龍,鐘海龍,張朝鋒,龐振宇
1)東華理工大學(xué)信息工程學(xué)院,南昌,330013;2)江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實驗室,南昌,330013
內(nèi)容提要:傳統(tǒng)古生物化石鑒定方法多依賴于古生物學(xué)家的經(jīng)驗知識,現(xiàn)有的人工智能識別方法需要大量的化石訓(xùn)練樣本才能達(dá)到較高的準(zhǔn)確率。為解決上述問題,在少量化石圖像樣本情況下準(zhǔn)確識別化石,筆者等嘗試使用殘差網(wǎng)絡(luò)和注意力模塊相結(jié)合的方法,并將其運用于小樣本的化石鑒定。首先以殘差網(wǎng)絡(luò)作為模型的特征提取模塊,并在殘差網(wǎng)絡(luò)的殘差塊中嵌入CBAM卷積注意力模塊,提高模型對于化石紋理特征的關(guān)注,以提取更為全面的深層次化石圖像特征,再使用小樣本度量學(xué)習(xí)中的原型網(wǎng)絡(luò)對提取特征進(jìn)行原型計算,最后通過多輪次迭代訓(xùn)練得出最佳的化石判別模型。使用本文方法與5種經(jīng)典的小樣本學(xué)習(xí)方法進(jìn)行對比實驗,實驗結(jié)果表明本文方法的識別準(zhǔn)確率最高,在樣本數(shù)量為1和5的情況下,準(zhǔn)確率達(dá)到了86.32%和94.21%,對稀缺樣本下的化石識別具有更顯著的優(yōu)勢。
對于古生物化石的鑒定一直都是古生物學(xué)中的重要內(nèi)容,古生物學(xué)家可以通過對化石的鑒定和地層比較來了解地球的演化歷史,從而對物種的演化關(guān)系提供強(qiáng)有力的理論支持,如Song Haijun等(2023)在《Science》雜志上發(fā)表的研究成果就是通過對特定化石組合的鑒定,發(fā)現(xiàn)了距離地球歷史最大一次生物滅絕事件:二疊紀(jì)—三疊紀(jì)之交生物大滅絕僅過去了一百萬年的時間,這一重大發(fā)現(xiàn)為我們理解最大規(guī)模滅絕之后的生命恢復(fù)速度和模式提供了新的認(rèn)識。但是傳統(tǒng)的古生物系統(tǒng)分類對人類專家的依賴性很強(qiáng),對專業(yè)知識和長時間的經(jīng)驗積累要求很高(任偉等,2020),在實際的化石鑒定工作中,科研人員的主觀因素在很大程度上決定了鑒定結(jié)果。而人工智能技術(shù)具有高效性和客觀性,可以避免傳統(tǒng)方法鑒定過程中的主觀因素干擾,并極大提高化石鑒定的精度和可信度。通過利用人工智能技術(shù)對古生物化石進(jìn)行鑒定,我們能夠深入挖掘其地層古生物學(xué)意義,為我們理解古生態(tài)環(huán)境和生物演化提供全新的視角和認(rèn)識。
近年來,隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的不斷發(fā)展,帶動了人工智能技術(shù)在不同領(lǐng)域的應(yīng)用,這期間,大數(shù)據(jù)與人工智能算法的引入使地球科學(xué)實現(xiàn)跨越式發(fā)展(周永章等,2021),并正在改變地質(zhì)學(xué)(曹蒙等,2023; 謝玉芝等,2023),越來越多的科研工作者使用計算機(jī)視覺技術(shù)在化石鑒定領(lǐng)域上進(jìn)行方法的創(chuàng)新。采用機(jī)器學(xué)習(xí)方法,將化石的尺寸,顏色,紋理等形態(tài)特征送入到機(jī)器學(xué)習(xí)模型中進(jìn)行學(xué)習(xí)迭代,可以實現(xiàn)化石快速分類。黃錚等(2009)使用非線性方法來解析牙形化石中重要且復(fù)雜的特征,并以反向傳播算法來構(gòu)建分類模型,取得了80%左右的準(zhǔn)確率,但構(gòu)建非線性的特征解析方法需要依賴專家的經(jīng)驗知識。張濤等(2019)以方向梯度直方圖(Histograms of Oriented Gradient,HOG)來提取微體化石形態(tài)的特征描述因子作為主要特征向量,并在支持向量機(jī)(Support Vector Machine,SVM)的基礎(chǔ)上設(shè)計了一種二叉樹型多分類器,取得了較高的識別準(zhǔn)確率,但模型訓(xùn)練使用了1500多張高質(zhì)量的圖像樣本進(jìn)行訓(xùn)練。
采用深度學(xué)習(xí)方法,將化石圖像輸入進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中進(jìn)行特征提取,通過不斷學(xué)習(xí)迭代更新權(quán)重參數(shù)獲得最佳的識別效果。Rehn等(2019)采用U-Net和VGG兩種卷積神經(jīng)網(wǎng)絡(luò)對木炭化石進(jìn)行識別,在經(jīng)過1600多張圖片樣本的訓(xùn)練后,兩個網(wǎng)絡(luò)模型均取得了不錯的準(zhǔn)確率。余曉露等(2021)提出了一種基于殘差神經(jīng)網(wǎng)絡(luò)的碳酸鹽巖生物化石顯微圖像的識別方法,通過不斷的迭代訓(xùn)練實現(xiàn)了對薄片圖像中生物化石的自動識別,識別準(zhǔn)確率達(dá)到了86%,但模型的訓(xùn)練樣本集數(shù)量是通過數(shù)據(jù)增強(qiáng)的手段擴(kuò)展到1645張,原始的碳酸鹽巖生物化石數(shù)據(jù)集僅為327張。Song Haijun等(2020)實現(xiàn)了4個經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)來解決從微相中識別化石這一復(fù)雜繁瑣的任務(wù),在實驗過程中獲得了高達(dá)95%測試準(zhǔn)確率,但使用的數(shù)據(jù)集包括了1133篇參考文獻(xiàn)的公共數(shù)據(jù)和22個化石以及非生物顆粒組的30815張圖像。在立體顯微鏡下手動識別有孔蟲形態(tài)物種對于微體學(xué)家來說是耗時的,為了讓識別過程自動化,Ross(2020)等使用卷積神經(jīng)網(wǎng)絡(luò)作為分類器來對有孔蟲圖像進(jìn)行自動分類,其最佳精度達(dá)到了90%左右,但分類器的構(gòu)建是在公開可用的超過34000張圖像的大型有孔蟲數(shù)據(jù)集Endless Forams(Hsiang et al., 2019)上進(jìn)行的。安玉訓(xùn)等(2022)設(shè)計了一種分層次識別模型,即先采用Faster R-CNN算法對介形類化石進(jìn)行定位和檢測,再使用InceptionV3和SVM的結(jié)合分類模型對介形類化石進(jìn)行分類,模型的總體準(zhǔn)確率達(dá)到了95%,但每一類化石的識別效果并不均衡,樣本數(shù)量多的東營介屬類化石識別準(zhǔn)確率最高,樣本數(shù)量少的瓜星介化石識別準(zhǔn)確率最差。Wang Haizhou等(2022)設(shè)計了一種轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)(Transpose Convolutional Neural Network,TCNN),在網(wǎng)絡(luò)結(jié)構(gòu)中添加了一層上采樣的卷積層,將該層所提取的特征圖與其他卷積層特征進(jìn)行融合,以充分混合由神經(jīng)網(wǎng)絡(luò)提取化石圖像的大小尺度特征,該模型的識別準(zhǔn)確率在90%以上,能夠?qū)崿F(xiàn)對腕足化石的準(zhǔn)確識別,但訓(xùn)練集樣本數(shù)量少于100張時,模型并不能很好的提取到準(zhǔn)確的化石圖像特征。
雖然,上述研究在化石識別上都取得了較為滿意的成果,但它們都將著重點放在了如何提高模型的識別準(zhǔn)確率上,而忽略了化石樣本的本身的稀缺性。在大量的數(shù)據(jù)下,人工智能技術(shù)能夠在圖像識別上表現(xiàn)出很好的效果,但古生物化石樣本由于時間久遠(yuǎn)和樣本難以保存等原因,大量的訓(xùn)練樣本是較難獲取的,一旦訓(xùn)練樣本數(shù)量減少,模型的分類精度將大打折扣,這顯然無法普遍應(yīng)用于挖掘大量的稀有化石樣本?;谏鲜銮闆r,為了實現(xiàn)在少量化石樣本的情況下達(dá)到較高的準(zhǔn)確率,筆者等嘗試了一種結(jié)合小樣本學(xué)習(xí)(Few-Shot-learning)技術(shù)和殘差網(wǎng)絡(luò)技術(shù)的古生物化石識別方法,通過小樣本學(xué)習(xí)中的度量學(xué)習(xí)技術(shù)建立識別模型,并對殘差神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),在少量化石訓(xùn)練樣本的情況下,采用原型網(wǎng)絡(luò)(Prototype Network)度量分類的方式進(jìn)行化石類別的判定,同時在特征提取模塊上引入了殘差網(wǎng)絡(luò)和卷積注意力機(jī)制來增強(qiáng)模型的特征提取能力,以提高模型的識別準(zhǔn)確率。
原型網(wǎng)絡(luò)以原型理論為基礎(chǔ),認(rèn)為一個概念可以抽象出一個原型,并用該原型來表示這個概念(Snell et al., 2017)。原型網(wǎng)絡(luò)通過特征提取模塊將支持集中的所有樣本提取的圖像特征投影到一個較低維的嵌入空間中,然后計算該類別的原型。原型Ck的計算如公式(1)所示:
(1)
Sk表示支持集中類別的樣本集,fφ表示將圖像特征映射到嵌入空間的特征提取模塊。計算出原型后,原型網(wǎng)絡(luò)使用給定的距離函數(shù)d計算查詢點與各原型的距離,再使用分類函數(shù)計算查詢集樣本所屬類別的概率,從而確定分類,其示意圖如圖1所示。
圖1 原型網(wǎng)絡(luò)判斷類別過程示意圖(據(jù)Snell et al., 2017)Fig.1 The process of judging categories (from Snell et al., 2017)
CBAM(Convolutional Block Attention Module)是一種輕型注意力模塊,可以在通道和空間維度上進(jìn)行注意力計算(Woo et al., 2018)。CBAM的結(jié)構(gòu)圖如圖2所示。CBAM包含兩個子模塊,通道注意模塊(Channel Attention Module,CAM)和空間注意模塊(Spatial Attention Module,SAM),用于計算通道和空間上的注意力權(quán)重。
圖2 CBAM模塊架構(gòu)(據(jù)Woo et al., 2018)Fig.2 Convolutional Block Attention Modulestructure(from to Woo et al., 2018)
從圖2可知,以卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖F為輸入,進(jìn)行CBAM操作,可以獲得一個一維通道注意力特征圖Mc和一個二維空間注意力特征圖Ms。 整個注意力計算過程可以概括為:
F′=Mc(F)?F
(2)
F″=Mc(F′)?F′
(3)
符號?表示乘以元素,F′表示通過通道注意獲得的新特征,用作空間注意的輸入,最后,得到整個CBAM模塊輸出的特征F″。
在小樣本度量學(xué)習(xí)的眾多模型中,可以將模型的組成部分大致分為特征提取和相似度度量兩大模塊,其中特征提取模塊的性能可以較大程度影響到整個模型的準(zhǔn)確率。而筆者等采集的化石圖像具有較大的類內(nèi)樣本差異,且包含豐富的紋理、顏色和形態(tài)特征。使用常規(guī)的淺層卷積神經(jīng)網(wǎng)絡(luò)并不能很好的捕捉化石圖像的深層次細(xì)節(jié)特征,使用深層的卷積神經(jīng)網(wǎng)絡(luò)會有較大概率出現(xiàn)過擬合的問題,故筆者等采用ResNet-12淺層殘差神經(jīng)網(wǎng)絡(luò)作為模型的主干網(wǎng)絡(luò)。殘差神經(jīng)網(wǎng)絡(luò)是在2016年由He Kaiming等(2016)提出,該網(wǎng)絡(luò)引入了跳躍連接,使得前饋神經(jīng)網(wǎng)絡(luò)部分可以更深,從而收斂速度更快,可以有效解決在計算梯度的過程中存在的梯度爆炸或梯度消失等問題。其結(jié)構(gòu)圖如圖3所示:
圖3 殘差單元結(jié)構(gòu)(據(jù)He Kaiming et al., 2016)Fig.3 The structure of residual block (from He Kaiming et al., 2016&)
化石圖像中的紋理特征多存在于圖像的通道信息中,顏色形態(tài)特征多存在于空間信息中,為了進(jìn)一步的提取化石圖像的空間—通道信息,將CBAM注意力模塊融合進(jìn)殘差網(wǎng)絡(luò)中,借助CAM(通道注意力模塊)和SAM(空間注意力模塊)兩個子模塊的能力,改進(jìn)后的網(wǎng)絡(luò)能夠捕捉到圖像在通道和空間上的特征,從而對化石的紋理特征更為敏感。通道注意力和空間注意力的結(jié)構(gòu)圖如下圖4和圖5所示。
圖4 通道注意力模塊結(jié)構(gòu)圖(據(jù)Woo et al., 2018)Fig.4 Structure of channel attention module (from Woo et al., 2018)
圖5 空間注意力模塊結(jié)構(gòu)圖(據(jù)Woo et al., 2018)Fig.5 Structure of sptial attention module (from Woo et al., 2018)
在CAM模塊中,輸入的化石圖像特征維度為高度×寬度×通道數(shù),特征會經(jīng)過最大池化層和平均池化層得到化石圖像在兩個通道的描述,其中平均池化層可以對通道特征進(jìn)行有效壓縮,而最大池化層可以根據(jù)最大值保留的特性對目標(biāo)在通道上的特征進(jìn)行收集,隨后將池化的特征圖送入到由全連接層組成的多層感知機(jī)中進(jìn)行權(quán)重計算和更新,再對多層感知機(jī)產(chǎn)出的特征結(jié)果進(jìn)行對位相乘并求和,將求和結(jié)果經(jīng)由Sigmod激活函數(shù)進(jìn)行非線性激活,從而輸出通道注意力特征圖。通道注意力特征圖的計算過程如下公式(4)所示:
Mc(F)=σsigmod{MLP[AvgPool(F)]+
MLP[MaxPool(F)]}
(4)
式中:F為圖像特征;MLP多層感知機(jī);Avgpool為平均池化操作;MaxPool為最大池化操作。
在SAM模塊中,會對CAM所產(chǎn)出的通道注意力特征圖進(jìn)行空間特征信息的提取,以提高網(wǎng)絡(luò)對于化石紋理等圖像特征的提取能力,加強(qiáng)其在圖像細(xì)節(jié)部分的關(guān)注和學(xué)習(xí)。CAM模塊將通道注意力特征圖送入到最大池化層和平均池化層進(jìn)行特征的拼接,再進(jìn)入到一層卷積層中進(jìn)行特征的提取,由于在CAM模塊中通過多層感知機(jī)進(jìn)行了權(quán)重的更新優(yōu)化,此時SAM模塊進(jìn)行卷積提取的特征會更加符合化石圖像的本質(zhì)特征,最后由激活函數(shù)進(jìn)行非線性變換得到注意力特征圖。SAM的計算過程如公式(5)所示:
Ms(F′)=σsigmod{f[AvgPool(F′)];
[MaxPool(F′)]}
(5)
式中:F′為通道注意力模塊輸入的特征圖;f為進(jìn)行的卷積運算。
在整個CBAM注意力模塊中,CAM子模塊和SAM子模塊呈現(xiàn)串聯(lián)結(jié)構(gòu),先進(jìn)行CAM操作再進(jìn)行SAM操作,SAM為CAM進(jìn)行補(bǔ)充,讓網(wǎng)絡(luò)提取的特征更為全面。結(jié)合所采集的化石圖像特點,筆者等將CBAM模塊嵌入到殘差網(wǎng)絡(luò)的每一個殘差塊中,而不是將其放在殘差網(wǎng)絡(luò)的開始與結(jié)尾這兩個部分,若在開始和結(jié)尾兩部分嵌入CBAM模塊,這會讓CBAM模塊的參與度減少,從而忽略中間殘差部分的特征提取,而將其嵌入到每一個殘差塊中則可以讓殘差網(wǎng)絡(luò)對CBAM模塊計算后的特征圖也進(jìn)行殘差計算,有助于提取化石圖像更深層次的特征,故筆者等所提出融合卷積注意力機(jī)制的改進(jìn)殘差網(wǎng)絡(luò)CBAM—ResNet結(jié)構(gòu)如圖6所示,該網(wǎng)絡(luò)結(jié)構(gòu)由4層嵌入CBAM注意力的殘差層和一層全局平均池化層組成。其中每一個殘差塊由3層卷積核為3×3的卷積層、3層標(biāo)準(zhǔn)歸一化層、一層最大池化層、兩個ReLu激活函數(shù)和CBAM卷積注意力模塊組成。損失函數(shù)采用交叉熵?fù)p失函數(shù)。
圖6 CBAM—ResNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 CBAM—ResNet structure
本文模型的訓(xùn)練過程是以元任務(wù)形式展開的,每一個元任務(wù)的樣本數(shù)量為N(S+Q)個,其中N為元任務(wù)的分類數(shù)量,S為支持集的樣本數(shù)量,Q為查詢集的樣本數(shù)量。除了用于訓(xùn)練的樣本,元任務(wù)中還包含特征提取模塊F,即改進(jìn)后的殘差神經(jīng)網(wǎng)絡(luò)CBAM—ResNet,用歐氏距離計算查詢樣本與原型之間距離的度量模塊M。
在元任務(wù)的訓(xùn)練過程中,特征提取模塊會同時對支持集的樣本和查詢集的樣本進(jìn)行特征提取,特征提取的過程如下:①首先,化石圖像進(jìn)入到一層卷積層中進(jìn)行維度降低。② 然后將第一層卷積提取的特征圖送入到標(biāo)準(zhǔn)歸一化層中進(jìn)行數(shù)據(jù)歸一化處理,在卷積層后進(jìn)行標(biāo)準(zhǔn)歸一化處理可以減少模型對于在訓(xùn)練過程中對于上層輸入的依賴,從而提高模型的魯棒性。歸一化的計算過程如公式(6)所示:
(6)
式中:E(x)為所輸入的數(shù)據(jù)均值;Var為方差計算;y為歸一化后的結(jié)果。③ 將歸一化后的特征圖送入到融合CBAM模塊的改進(jìn)殘差神經(jīng)網(wǎng)絡(luò)部分中進(jìn)一步提取化石圖像中更加細(xì)節(jié)更加全面的特征。④將改進(jìn)殘差塊(Residual Block)產(chǎn)出的特征圖經(jīng)由一層全局平均池化層進(jìn)行特征過濾與降維,并將特征向量展開。
通過改進(jìn)殘差網(wǎng)絡(luò)提取到支持集樣本和查詢集樣本的特征向量后,會先將支持集樣本的特征向量映射至嵌入空間中,計算每一類別的均值中心以形成每一類別的原型,再將查詢集樣本的特征向量映射至嵌入空間中,由度量模塊計算查詢集樣本與各類別的相似性,給出查詢集樣本所屬類別的概率。通過多輪次的不斷重復(fù)上述的類別判斷過程,在訓(xùn)練中對網(wǎng)絡(luò)模型的權(quán)重參數(shù)進(jìn)行優(yōu)化,各類別支持集的樣本的特征向量被映射到嵌入空間的位置會更加聚集,可以計算得出更加準(zhǔn)確的類別均值中心,形成較為合理的類別原型,進(jìn)而做到較為準(zhǔn)確的類別判斷。整個識別方法的流程如圖7所示。
圖7 本文模型識別流程示意Fig.7 Flow chart of theproposed method in this paper
筆者等對東華理工大學(xué)地質(zhì)博物館中所收藏的化石標(biāo)本進(jìn)行采集。共采集角石、菊石、三葉蟲、鸚鵡螺、雙殼綱、腹足綱、植物、腕足綱等17種不同類別綱目的化石圖像樣本,合計417張圖片。采集的化石樣本部分實例如圖8所示。
所采集數(shù)據(jù)集詳細(xì)信息如表1所示。
表1 化石數(shù)據(jù)集詳情Table 1 Details of fossil data sets
所采集的化石數(shù)據(jù)集中,各分類的圖片數(shù)量并不一致,且417張圖片不能很好完成一個小樣本分類模型的實驗。為了讓采集的圖像質(zhì)量更高以及擴(kuò)充數(shù)據(jù)集數(shù)量,采用提取目標(biāo)中心和圖像翻轉(zhuǎn)兩種數(shù)據(jù)增強(qiáng)方法對數(shù)據(jù)集進(jìn)行預(yù)處理。
2.2.1提取化石目標(biāo)
化石圖像的背景區(qū)域較多,以及化石圖像中存在的其他干擾因素會影響到特征提取網(wǎng)絡(luò)對化石特征的有效提取,從而較低模型識別準(zhǔn)確率。為減少背景區(qū)域,采用裁剪等方式提取圖像中化石目標(biāo)。提取前后的效果圖如圖9所示。
2.2.2數(shù)據(jù)增強(qiáng)
為了讓每一個化石類別的圖片數(shù)量一致,采用隨機(jī)向左向右旋轉(zhuǎn)90°、旋轉(zhuǎn)180°以及高斯濾波等方式從各類別化石圖片中隨機(jī)抽取若干張圖片進(jìn)行操作,將每一類別的圖像數(shù)量在原有基礎(chǔ)上增加若干張圖片,其中翻轉(zhuǎn)圖像的效果圖10所示。通過上述的數(shù)據(jù)增強(qiáng)方法后,原有的數(shù)據(jù)集數(shù)量增加為510張圖片,且每一類圖片數(shù)量都在30張。各類別化石圖像數(shù)量的一致有利于小樣本分類模型的訓(xùn)練。
實驗所采用配置如下:實驗平臺為Windows11,64位操作系統(tǒng);CPU為i7-9900k;GPU為NVIDA Geforce GTX3080Ti,12GB顯存;計算機(jī)運行內(nèi)存為32GB。CUDA版本為11.1;Python版本為3.8;Pytorch版本為1.7。實驗所用代碼參考了開源的小樣本學(xué)習(xí)算法庫LibFewShot (Li Wenbin et al, 2021),該算法庫是一個主要用于小樣本學(xué)習(xí)的綜合算法庫。其中以統(tǒng)一框架集成了多種經(jīng)典的小樣本學(xué)習(xí)方法,包含4種基于微調(diào)的方法,6種基于元學(xué)習(xí)的方法,以及8種基于度量學(xué)習(xí)的方法。其代碼簡潔,結(jié)構(gòu)明了,適合計算機(jī)基礎(chǔ)較為薄弱的的地質(zhì)工作者使用。
筆者等采用準(zhǔn)確率(Accarcy,Acc)作為模型性能的評價標(biāo)準(zhǔn),準(zhǔn)確率的計算過程如公式(7)所示:
(7)
式中:真正例(True Positive,TP)表示預(yù)測為正類且實際為正類的樣本數(shù),真反例(True Negative,TN)表示預(yù)測為負(fù)類且實際為負(fù)類的樣本數(shù),TP+TN為正確預(yù)測的樣本數(shù);total為總樣本數(shù)。準(zhǔn)確率可以很直觀的表現(xiàn)出模型對化石圖像判斷正確的比例,可以評判模型的總體性能。
以生物性狀差異的程度和親緣關(guān)系的遠(yuǎn)近為依據(jù),可以將不同的生物加以分門別類。古生物學(xué)家將生物化石依次分為:界、門、綱、目、科、屬、種7個等級。筆者等所采集的的17種化石材料分布在頭足綱、腹足綱、雙殼綱、珊瑚綱、植物綱、腕足綱、三葉蟲綱這7種綱上,但每一種綱下的屬級化石數(shù)量不一致,在實驗過程中,隨機(jī)抽取的屬級化石很有可能會同屬于一個綱,從而影響實驗結(jié)果。為了證明筆者所嘗試的方法有效,筆者等以綱這個大類等級來劃分?jǐn)?shù)據(jù)集,在上述每種綱級化石中只隨機(jī)抽取一個子類進(jìn)行實驗,從而形成分類等級一致的包含7種綱的“綱”級實驗數(shù)據(jù)集,并按照3∶1∶1的比例將化石樣本劃分成訓(xùn)練集、測試集、驗證集。
整個模型訓(xùn)練過程由50個訓(xùn)練輪次組成,每一個輪次包含100個元任務(wù),每一個元任務(wù)從訓(xùn)練集樣本中隨機(jī)抽取N個化石綱,每個綱隨機(jī)抽取S個樣本作為支持集,再從每個綱剩下的樣本中隨機(jī)抽取Q個樣本組成查詢集。其中N、S、K的值會根據(jù)實驗內(nèi)容作出相應(yīng)變化。圖像大小為224×224像素,通道數(shù)為3。
為了解模型的性能表現(xiàn),使用包含7個綱的“綱”級實驗數(shù)據(jù)集進(jìn)行模型訓(xùn)練。在化石綱數(shù)為5,支持集樣本數(shù)為1和5這兩種參數(shù)設(shè)置中,將每一個訓(xùn)練輪次中所有元任務(wù)的平均準(zhǔn)確率(Acc)進(jìn)行記錄,并繪制成曲線圖,具體情況如圖11所示:
圖11 模型準(zhǔn)確率曲線圖Fig.11 The Acc curve of the proposed model
通過圖11可以了解到,支持集樣本數(shù)量為1時的模型初始準(zhǔn)確率為60.78%,最終準(zhǔn)確率為86.24%,整個訓(xùn)練過程準(zhǔn)確率的變化程度較大;支持樣本數(shù)量為5的模型初始準(zhǔn)確率為78.84%,最終準(zhǔn)確率為94.21%,準(zhǔn)確率的起伏波動不多,較為平穩(wěn)。雖然樣本數(shù)量對模型的性能有較大影響,但無論是在Way5 Shot1的情況下還是Way5 Shot5的情況下(其中Way代表化石綱的數(shù)量,Shot代表支持集樣本數(shù)),模型的損失值都在逐步減少并下降至一個穩(wěn)定值,而模型的準(zhǔn)確率在穩(wěn)步上升至一個較為滿意的值,這說明該模型的性能正在不斷地被優(yōu)化,能夠較好的開展化石識別任務(wù)。
為研究卷積注意力模塊CBAM和殘差塊對模型的性能提升,使用上述實驗數(shù)據(jù)集,在“綱”這一化石分類等級中,展開消融實驗。實驗結(jié)果如表2所示。
表2 消融實驗結(jié)果Table 2 Results of ablation experiments
由表2可知,使用帶有殘差塊的ResNet-12網(wǎng)絡(luò)作為特征提取模塊會比使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Conv6的識別效果更佳,在化石綱數(shù)為3樣本數(shù)為1時,嵌入ResNet-12網(wǎng)絡(luò)的模型識別準(zhǔn)確率相較于嵌入Conv4網(wǎng)絡(luò)的模型高出11.43%。這說明在化石識別任務(wù)中,帶有殘差塊的殘差網(wǎng)絡(luò)對于化石特征更加敏感,特征提取能力更強(qiáng),嵌入殘差塊可以提高模型的識別準(zhǔn)確率。在殘差網(wǎng)絡(luò)中嵌入卷積注意力模塊CBAM的模型識別準(zhǔn)確率最高,在化石綱數(shù)為5樣本數(shù)為5的參數(shù)設(shè)置下,準(zhǔn)確率達(dá)到了94.25%,比未嵌入CBAM模塊的模型高出了6.57%,這說明嵌入卷積注意力模塊進(jìn)一步提高了模型的識別準(zhǔn)確率,殘差塊和注意力模塊的嵌入都對模型準(zhǔn)確率的提升有促進(jìn)作用。
對比實驗是將新的方法技術(shù)與已有模型進(jìn)行比較。而已有的基準(zhǔn)模型通常是在該領(lǐng)域中已經(jīng)被廣泛接受的、經(jīng)過驗證的模型或方法。通過與基準(zhǔn)模型進(jìn)行對比,可以評估新方法的性能改進(jìn)或突破。使用“綱”級數(shù)據(jù)集,在綱數(shù)為5,樣本數(shù)量Shot為1和5這兩種參數(shù)設(shè)定的情況下,將本文模型與SiameseNet(Koch et al., 2015)、MatchingNet(Vinyals et al., 2016))、 RelationNet(Sung et al., 2018)這3種基于相似度計算的經(jīng)典小樣本學(xué)習(xí)模型和MAML(Finn et al., 2017)、Meta-Baseline(陳胤伯等,2020)這2種其他小樣本學(xué)習(xí)模型進(jìn)行性能對比測試。具體的實驗結(jié)果如表3 所示。
表3 各模型在“綱”級化石數(shù)據(jù)集上的Acc值Table 3 Acc value comparison of different methods on fossil data set of order level
從表3可以看出,在“綱”級數(shù)據(jù)集中,本文模型的準(zhǔn)確率遠(yuǎn)高于MAML和Meta-Baseline這兩種模型,與SiameseNet、MatchingNet和RelationNet這三種經(jīng)典的小樣本度量學(xué)習(xí)模型相比,在支持集數(shù)量為1的情況下,準(zhǔn)確率分別高出14.95%、3.69%、1.54%,在支持集數(shù)量為5的情況下,準(zhǔn)確率分別高出14.7%、6.67%、4.43%。而在“屬”級數(shù)據(jù)集中,本文模型的識別準(zhǔn)確率在樣本數(shù)為1和5這兩種設(shè)定下分別達(dá)到了89.27%和95.64%,在所有對比模型中表現(xiàn)最佳。
為了進(jìn)一步評價本文模型在化石識別任務(wù)中的有效性,可以在現(xiàn)有的“綱”級實驗數(shù)據(jù)集基礎(chǔ)上,引入更高級別的分類等級進(jìn)行對比實驗。具體而言,就是把原始數(shù)據(jù)集中雙殼綱包含的熠翅蛤、牡蠣等6個屬級化石進(jìn)行抽取,形成“屬”這一分類等級的實驗數(shù)據(jù)集,然后使用相同的模型進(jìn)行對比實驗,以驗證本文模型在化石識別任務(wù)中的有效性。通過比較模型在“綱”級和“屬”級數(shù)據(jù)集上的表現(xiàn),可以評估模型在更具挑戰(zhàn)性和精細(xì)化的分類任務(wù)中的準(zhǔn)確性。“屬”級數(shù)據(jù)集的具體實驗結(jié)果如表4所示。
表4 各模型在“屬”級化石數(shù)據(jù)集上的Acc值Table 4 Acc value comparison of different methods on fossil data set of genus level
從表4可以看出,在“屬”級數(shù)據(jù)集中,本文模型的識別性能在所有對比的小樣本模型中依然是最佳的,在支持集數(shù)量為1和5的情況下,準(zhǔn)確率分別達(dá)到了89.27%和95.64%,比其它小樣本學(xué)習(xí)模型都有顯著的提升。與“綱”級數(shù)據(jù)集的實驗結(jié)果相對比,可以看出本文模型在“屬”級實驗數(shù)據(jù)集的識別效果會比在“綱”級數(shù)據(jù)集的識別效果更好,且所有模型的整體準(zhǔn)確率都有提升。但這并不能說明本文模型的泛化能力較強(qiáng),這是因為“屬”級實驗數(shù)據(jù)集中屬的數(shù)量為6,比“綱”級數(shù)據(jù)集的分類數(shù)量少,準(zhǔn)確率的提升是由于類別數(shù)量的下降,要證實本文模型的泛化能力還需要進(jìn)一步擴(kuò)充實驗數(shù)據(jù)集,這也反映出筆者等所采集的數(shù)據(jù)集不夠全面,模型的泛化能力有待進(jìn)一步增強(qiáng)。
損失函數(shù)的繪制可以提供對模型性能的可解釋性和可溝通性。通過損失曲線圖表,可以直觀地展示模型的訓(xùn)練過程和性能表現(xiàn)。對各模型在“綱”級數(shù)據(jù)集訓(xùn)練的損失值進(jìn)行記錄并繪制成曲線圖,具體情況如圖12所示。
圖12 各模型訓(xùn)練損失值曲線Fig.12 Training loss curves of each model
由圖12可以看出,本文模型初始值較高,在訓(xùn)練過程中不如RelationNet模型收斂地平穩(wěn),存在較大波動,這是因為本文模型在加入CBAM注意力機(jī)制后對圖像的紋理特征捕捉得更為具體,故在進(jìn)行迭代優(yōu)化的過程中會出現(xiàn)反復(fù),但本文模型的損失值在第35輪訓(xùn)練后趨于平穩(wěn),且損失值最小,這說明本文模型在化石識別任務(wù)上有更好的性能。
由上述所有實驗可以看出,在不同的設(shè)定條件下,本文模型的準(zhǔn)確率和損失值均為最優(yōu),但MatchingNet和RelationNet的總體性能也表現(xiàn)較好,在支持集樣本數(shù)量更少時,與本文模型的識別準(zhǔn)確率并無較大差距。且由于筆者等所采集的數(shù)據(jù)集類別較少,較為局限,所以本文模型在泛化能力上還存在著不足,在實際的化石鑒定工作中,筆者等的工作還需要進(jìn)一步深入才能面對各種復(fù)雜的實際情況。
在模型訓(xùn)練的實驗中,筆者等發(fā)現(xiàn)支持集的樣本數(shù)量會在一定程度上影響模型的性能。為研究Way分類數(shù)量與Shot支持集樣本數(shù)量對模型的具體影響,采用控制變量法,使用本文模型在Way為5,分別設(shè)置shot為1~10和在Shot為5,分別設(shè)置Way數(shù)量為2~6這兩種情況下在化石數(shù)據(jù)集中進(jìn)行實驗,實驗結(jié)果如圖13所示:
圖13 Way參數(shù)對本文模型Acc精度結(jié)果Fig.13 Influence of Way parameter on Acc accuracy results of this model
由圖13和圖14可知,在分類數(shù)量(Way)相同時,隨著支持集樣本Shot數(shù)量的不斷增加,模型的識別精度在逐漸的上升,在Shot數(shù)量相同時,隨著Way數(shù)量的不斷增加,模型的識別精度會不斷的下降,這可以說明在相同分類數(shù)量的情況下,提高支持集樣本數(shù)量可以有效提高模型的精度,在相同樣本數(shù)量的情況下,減少Way分類數(shù)量可以提高模型的性能。
圖14 Shot參數(shù)對本文模型Acc精度結(jié)果影響Fig.14 Influence of Shot parameter on Acc accuracy results of this model
Song Haijun等(2022)通過網(wǎng)絡(luò)爬蟲技術(shù)收集了415339張化石圖像,使用高性能工作站訓(xùn)練了三個強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了90%的平均準(zhǔn)確率,并將模型部署在了www.ai-fossil.com網(wǎng)站上以便公眾使用。為探究本文模型的實用價值以及開展后續(xù)工作,筆者等也將模型進(jìn)行部署并嘗試開發(fā)了一套古生物化石智能識別軟件平臺。該平臺如圖15所示:
圖15古生物化石智能識別系統(tǒng)Fig.15 Intelligent identification system of paleontological fossils
目前,該平臺可以對所采集的7個化石綱下的17種化石圖像進(jìn)行準(zhǔn)確識別,雖然分類數(shù)量較少,但這為后續(xù)小樣本古生物化石識別的研究工作提供了新的嘗試。
采用傳統(tǒng)方法鑒定化石過于消耗人力物力,而且化石專家的主觀意識會在一定程度上影響到鑒定結(jié)果,若采用常規(guī)的人工智能方法進(jìn)行識別則需要大量的高質(zhì)量化石圖像樣本才能到達(dá)較高準(zhǔn)確率。筆者等所提方法采用小樣本度量學(xué)習(xí)中的原型網(wǎng)絡(luò)作為主干框架,將CBAM卷積注意力模塊嵌入ResNet12殘差網(wǎng)絡(luò)的殘差塊中,可以有效提高網(wǎng)絡(luò)的特征提取能力,實現(xiàn)在少量化石圖像訓(xùn)練樣本的情況下,達(dá)到較高的識別準(zhǔn)確率,能夠有效解決化石樣本圖像少與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)需要大量化石圖像樣本才能達(dá)到較高準(zhǔn)確率相矛盾的問題。目前,筆者等的工作只是對所采集的7個“綱”等級下的17類化石圖像進(jìn)行小樣本模型的訓(xùn)練,化石數(shù)據(jù)集的類別尚不豐富,還需進(jìn)一步的拓展,本文模型的泛化能力也需進(jìn)一步增強(qiáng),如何在不同級別分類單元中差異很大的情況下使用小樣本學(xué)習(xí)模型,并達(dá)到較高的識別精度是筆者等今后的研究方向。
致謝:感謝審稿專家黃浩博士和孫超博士的寶貴意見,在此致以誠摯的謝意。