胡 科,劉新躍
(成都大學(xué)信息網(wǎng)絡(luò)中心,四川成都)
據(jù)《中國藥典》中記載,貝母類藥材主要分為川貝母、浙貝母、平貝母、伊貝母和湖北貝母五種。臨床應(yīng)用中川貝母藥用價(jià)值最高,按其性狀又可分為松貝母、青貝母和爐貝母。目前計(jì)算機(jī)視覺技術(shù)在中草藥檢測中的應(yīng)用已有一些研究報(bào)道[1-3],主要通過小波分析、灰度共生矩陣等特征提取方法對多個(gè)特征量進(jìn)行選擇,再輸入SVM、RNN 等分類器完成分類鑒定。這些方法主要集中于視覺特征區(qū)別較大,不同種間的識(shí)別,且算法過程復(fù)雜,無法利用高層語義的特征信息,準(zhǔn)確率和識(shí)別效率還有待提升。本研究構(gòu)造一種基于改進(jìn)YOLOv3 網(wǎng)絡(luò)的目標(biāo)檢測模型,快速定位并精確識(shí)別出川貝母各個(gè)類別及其偽品,實(shí)現(xiàn)快速批量自動(dòng)化的檢測識(shí)別。
YOLO 系列網(wǎng)絡(luò)是目標(biāo)檢測領(lǐng)域常用的一種端到端的深度學(xué)習(xí)網(wǎng)絡(luò),YOLO 系列算法在經(jīng)過YOLOv2[4]和YOLOv3[5]兩次改進(jìn)之后,YOLOv3 算法在檢測精度和速度上都得到了很大提升。由于川貝母各個(gè)類別的外觀差異較小,神經(jīng)網(wǎng)絡(luò)不僅要能提取到像紋理、輪廓、形狀等這樣的低層次特征,還需要學(xué)習(xí)到更為抽象的高層次特征。為了兼顧檢測準(zhǔn)確率和速度的同步提升,本研究在YOLOv3 的基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計(jì)出能夠充分表達(dá)川貝母特征的網(wǎng)絡(luò)模型,提升川貝母的檢測識(shí)別精度。
本研究在YOLOv3 的基礎(chǔ)上嵌入雙通路模塊和注意力機(jī)制模塊,創(chuàng)造更加豐富的特征信息的同時(shí),自適應(yīng)校準(zhǔn)特征通道響應(yīng)值,篩選出更有用的特征,提升模型對川貝母圖像數(shù)據(jù)的檢測精度。Dual-YOLO網(wǎng)絡(luò)如圖1 所示,首先輸入大小為416×416 的RGB圖像數(shù)據(jù)到DBL 單元中,其中DBL 單元由3×3 卷積、批量歸一化和Leaky ReLU 激活函數(shù)組成;接著引入雙通路模塊(Dual)[6]和注意力機(jī)制模塊(SE)[7],替代Darknet-53 作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取。輸入圖像經(jīng)過5 次下采樣后輸出第一種大小為13×13 的特征圖;再經(jīng)上采樣后與第4 次下采樣的特征圖堆疊,輸出第二種大小為26×26 的特征圖;同理與第3 次下采樣的特征圖堆疊得到第三種大小為52×52 的特征圖。最后將輸出得到的三種特征圖分別通過大小1×1的卷積進(jìn)行目標(biāo)邊界框的預(yù)測,卷積核的數(shù)量m 為
圖1 Dual-YOLO 網(wǎng)絡(luò)結(jié)構(gòu)
式中:k 為目標(biāo)邊界框的數(shù)量;class 為目標(biāo)的類別數(shù),本研究川貝母數(shù)據(jù)共4 類,k 取值為3,因此卷積核數(shù)量m 為27。
川貝母及次品平貝母樣品來源于成都市國際貿(mào)易城中藥材市場,經(jīng)成都市中草藥研究所的研究員鑒定其所屬類別,其中,川貝母包括松貝母、青貝母、爐貝母,共計(jì)四類樣品。由于川貝母體積較小,單目標(biāo)分類效率不高,市場上對川貝母的分類通常為多目標(biāo)檢測識(shí)別的形式,并且川貝母呈現(xiàn)的體位各異,因此通過單反相機(jī)分別對四種樣品進(jìn)行隨機(jī)批量圖像采集,圖像分辨率為5184×3456。每一類樣品各采集200~300 張,共計(jì)1072 張圖像,每張圖像包含6~10 個(gè)檢測目標(biāo),所有目標(biāo)都經(jīng)過圖像標(biāo)注工具LabelImg 進(jìn)行人工標(biāo)注,生成.xml 文件,標(biāo)簽文件主要包含目標(biāo)的類別和位置坐標(biāo)信息,并確保圖像數(shù)據(jù)與標(biāo)簽文件一一對應(yīng)。
本研究采用數(shù)據(jù)增強(qiáng)方法,如圖像翻轉(zhuǎn)、旋轉(zhuǎn)、加噪等。一方面,擴(kuò)大了數(shù)據(jù)量;另一方面,克服了過擬合問題,增強(qiáng)了模型分類檢測性能。數(shù)據(jù)量擴(kuò)大為原來的4 倍,共計(jì)4288 張圖像。訓(xùn)練開始前,將川貝母四類樣本數(shù)據(jù)集以4:1:1 的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集,表1 為數(shù)據(jù)集中所有類別的目標(biāo)數(shù)量。
表1 數(shù)據(jù)集中目標(biāo)數(shù)量
由于YOLOv3 網(wǎng)絡(luò)原始先驗(yàn)框的大小是根據(jù)COCO 數(shù)據(jù)集得到的,并不適用于川貝母數(shù)據(jù)集的目標(biāo)檢測。本研究使用K-means 聚類得到先驗(yàn)框的大小,從而標(biāo)準(zhǔn)化圖像的高度和寬度與先驗(yàn)框的高度和寬度。本研究使用K-means 聚類得到的先驗(yàn)框大小為(29,42),(31,47),(33,43),(34,49),(36,55),(37,49),(40,53),(42,60),(50,67),其中尺寸最小的三個(gè)先驗(yàn)框分給最大特征圖的輸出,尺寸最大的三個(gè)先驗(yàn)框分給最小特征圖的輸出,剩下的分給中間尺寸特征圖的輸出。
本研究沿用YOLOv3 的損失函數(shù),綜合評價(jià)坐標(biāo)差異、分類誤差和置信度誤差。所有訓(xùn)練均在Linux 4.19、CPU 為Intel Pentium G640 @ 2.80GHz、16GB RAM環(huán)境下進(jìn)行,使用Python3.6 及Tensorflow深度學(xué)習(xí)框架實(shí)現(xiàn)。訓(xùn)練設(shè)置Batch 大小為16,最大迭代次數(shù)為1000 次,學(xué)習(xí)率設(shè)定為0.001。
本實(shí)驗(yàn)采用平均精度均值(mean average precision,mAP)和檢測速度(FPS)作為評價(jià)指標(biāo)對算法模型進(jìn)行評價(jià)。使用測試集對Dual-YOLO 網(wǎng)絡(luò)進(jìn)行性能測試,圖2 為Dual-YOLO 在四個(gè)類別數(shù)據(jù)上的檢測識(shí)別結(jié)果。從檢測識(shí)別結(jié)果可以看出,青貝母和爐貝母的平均檢測精度最高,分別為0.96 和0.89,而松貝母和平貝母的平均檢測精度相對較低,分別為0.82 和0.75,這與實(shí)際各個(gè)類別的特征鑒別點(diǎn)不同有關(guān)。
圖2 部分檢測識(shí)別結(jié)果
作為對比,本實(shí)驗(yàn)在原始YOLOv3 網(wǎng)絡(luò)上進(jìn)行相同訓(xùn)練參數(shù)下的性能測試,兩種算法在川貝母目標(biāo)檢測上的性能比較如表2 所示。對表2 分析可知,Dual-YOLO 模型mAP 達(dá)到80%,相較于YOLOv3 算法提升了約4 個(gè)百分點(diǎn)。從檢測速度上來看,Dual-YOLO 提高了3 幀/ 秒;在模型大小方面,Dual-YOLO 比YOLOv3 小23MB,其參數(shù)量亦更小,相同參數(shù)下網(wǎng)絡(luò)模型的收斂速度更快。
表2 兩種算法的檢測性能比較
通過消融實(shí)驗(yàn)驗(yàn)證Dual-YOLO 網(wǎng)絡(luò)在川貝母檢測識(shí)別中的有效性。刪除不同的網(wǎng)絡(luò)模塊,使用相同的數(shù)據(jù)集和訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,分別測試雙通路模塊(Dual-block)和注意力機(jī)制模塊(SE-block)在YOLO網(wǎng)絡(luò)中作用,測試結(jié)果如表3 所示。
表3 消融實(shí)驗(yàn)的結(jié)果
從表3 可知,相比Dual-YOLO 網(wǎng)絡(luò)的檢測識(shí)別結(jié)果,刪除Dual-block 后,以darknet-53 作為基礎(chǔ)網(wǎng)絡(luò)會(huì)使平均檢測精度降低,對檢測速度和模型大小的影響較??;而刪除SE-block 會(huì)使模型的參數(shù)量增加,導(dǎo)致檢測速度降低,模型大小增大,并且平均檢測精度降低。由此可知,雙通路模塊主要作用是增強(qiáng)特征提取,提升網(wǎng)絡(luò)的檢測精度;注意力機(jī)制模塊可以提升網(wǎng)絡(luò)對特征的選擇,從而降低模型復(fù)雜度,提升模型的檢測性能。
本研究采集具有代表性的多視覺川貝母圖像,提出一種基于改進(jìn)YOLOv3 的川貝母檢測識(shí)別方法,利用雙通路模塊重用上層特征并產(chǎn)生新的特征,增強(qiáng)模型對特征信息的利用;并采用注意力機(jī)制模塊對雙通路模塊提取的特征信息進(jìn)行通道加權(quán),自動(dòng)學(xué)習(xí)不同通道特征的重要程度,提升網(wǎng)絡(luò)的識(shí)別效率和精度。在實(shí)際中藥材鑒別場景中,本研究的川貝母檢測識(shí)別方法同樣可以推廣到其它中藥材的圖像檢測和識(shí)別上,從而完善中藥材行業(yè)質(zhì)量鑒定方法體系。