周麗媛 ,趙啟軍 ,2**,高定國
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 拉薩 850000;2.四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)
我國作為多個(gè)民族組成的國家,民族文化源遠(yuǎn)流長。藏族文化作為我國民族文化中的一顆瑰寶,其最具特點(diǎn)的藏醫(yī)藥更是人類醫(yī)藥的遺產(chǎn)。藏醫(yī)藥是在廣泛吸收、融合了中醫(yī)藥學(xué)等理論的基礎(chǔ)上,通過長期實(shí)踐形成的獨(dú)特醫(yī)藥體系,迄今已有上千年歷史,是我國較為完整、較有影響的民族藥之一[1]。藏藥材切片作為藏醫(yī)藥的關(guān)鍵組成部分,對其進(jìn)行正確的識別以及應(yīng)用是發(fā)揮藏藥材藥用價(jià)值的重要前提。早期的藏藥材切片識別大多依靠人工,專業(yè)技術(shù)人員通過觀察、觸摸、品嘗、鼻聞等方式對藏藥材進(jìn)行識別與鑒定[2],人工識別結(jié)果的準(zhǔn)確性深度依賴于技術(shù)人員的累積經(jīng)驗(yàn)很容易出錯(cuò)。然而,對專業(yè)技術(shù)人員的培養(yǎng)需要較長的時(shí)間,具有豐富的藏藥材識別經(jīng)驗(yàn)的人才缺乏是制約現(xiàn)階段藏藥材發(fā)展的重要因素。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)視覺[3]逐漸成為熱點(diǎn)。計(jì)算機(jī)視覺是利用計(jì)算機(jī)模擬人類的視覺功能,對給定的圖片、視頻等進(jìn)行信息的特征提取并對其進(jìn)行判斷和推理。隨著高質(zhì)量的標(biāo)注數(shù)據(jù)集的大量出現(xiàn),深度學(xué)習(xí)在計(jì)算機(jī)視覺中占據(jù)日益重要的地位,推動(dòng)了計(jì)算機(jī)視覺應(yīng)用在諸多領(lǐng)域百花齊放。特別地,在藥材識別領(lǐng)域,計(jì)算機(jī)視覺技術(shù)使得中藥飲片自動(dòng)識別在過去幾年間得到了快速發(fā)展。
圖1 本文數(shù)據(jù)集示例圖像
表1 本文收集的復(fù)雜背景藏藥材切片圖像數(shù)據(jù)集信息
伍紅年等[4]使用指紋圖譜結(jié)合機(jī)器學(xué)習(xí)方法進(jìn)行白三七及近源種藥材識別。賈偉等[5]使用Tamura方法描述中藥飲片紋理,能夠較為精確的表示中藥飲片的紋理特征。謝樹瑩等[6]使用OpenCV、支持向量機(jī)(SVM)算法對5種中藥飲片進(jìn)行辨色處理,實(shí)驗(yàn)表明在理想環(huán)境下可以實(shí)現(xiàn)對5種飲片100%的識別正確率。徐飛等[7]使用GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)對人參與西洋參飲片圖像進(jìn)行識別,并取得90%的識別準(zhǔn)確率。胡繼禮等[8]使用Incepltion-V3模型對理想環(huán)境下的137種中藥飲片進(jìn)行識別,并取得88.3%的識別準(zhǔn)確率。陶歐等[9-12]使用灰度共生矩陣和灰度梯度共生矩陣提取中藥飲片紋理的數(shù)字特征,使用BP神經(jīng)網(wǎng)絡(luò)建立18 種中藥辨識模型,并取得90%的辨識正確率。李震[13]結(jié)合紋理特征和顏色形狀特征對檳榔、蒼術(shù)、地榆等5種飲片的識別準(zhǔn)確率達(dá)到98%。孫鑫等[14]使用卷積神經(jīng)網(wǎng)絡(luò)對自然場景下的50種中藥飲片圖像實(shí)現(xiàn)70%的平均識別準(zhǔn)確率。
盡管這些中藥飲片圖像識別方法為藏藥材圖像識別提供了重要參考,但是它們大部分都是針對理想環(huán)境下拍攝的單個(gè)切片的圖像,導(dǎo)致在復(fù)雜背景下拍攝的圖像上的識別效果會(huì)顯著下降(識別準(zhǔn)確率從90%以上[6-7,12-13]下降到約70%[14])。本文針對復(fù)雜背景下拍攝的藏藥切片圖像(見圖1),提出結(jié)合傳統(tǒng)紋理特征與深度學(xué)習(xí)特征的識別模型,并通過引入注意力機(jī)制提高模型對復(fù)雜背景干擾因素的魯棒性。本文收集了18種藏藥材切片的1620幅圖像,實(shí)驗(yàn)結(jié)果表明本文方法在該數(shù)據(jù)集上可以達(dá)到81%以上的識別準(zhǔn)確率。
在藏藥材切片圖像識別領(lǐng)域,目前尚未存在公開的標(biāo)準(zhǔn)數(shù)據(jù)集,因此難以在相同標(biāo)準(zhǔn)下評估不同方法。之前的研究大多是在理想環(huán)境下拍攝的單個(gè)藥材切片圖像數(shù)據(jù)集上進(jìn)行的,而實(shí)際生活中的藥材切片多處于背景復(fù)雜或互相堆積嚴(yán)重的環(huán)境中,因此它們的研究成果很難應(yīng)用于自然場景。為進(jìn)一步拓展藏藥材切片圖像識別的應(yīng)用范圍,本文收集并建立了一個(gè)復(fù)雜背景藏藥材切片圖像數(shù)據(jù)集。本文提供的數(shù)據(jù)集來自于西藏自治區(qū)自然博物館和拉薩市特產(chǎn)店拍攝的藏藥材切片圖像以及使用爬蟲[15]通過搜索引擎在互聯(lián)網(wǎng)上爬取的藏藥材切片圖像。爬取的圖片經(jīng)人工篩選,去除了模糊不清或者信息有誤的圖片,再利用圖像處理軟件將圖像大小統(tǒng)一調(diào)整為512×512像素。如表1所示,本文收集了18種藏藥材切片的圖像,共計(jì)1620張,每一類藏藥材的有效切片圖像為70-100張。數(shù)據(jù)集示例圖像如圖1所示。本文所提供的數(shù)據(jù)集圖像具有不同藥材之間的顏色和形狀高度相似、切片形狀由于藥材采集的時(shí)間跨度而不同、部分圖像質(zhì)量較低等特點(diǎn)。
為了驗(yàn)證本文提出的注意力引導(dǎo)的深度紋理特征學(xué)習(xí)(AGDTFL)模型的識別準(zhǔn)確率,本文從1620張復(fù)雜背景藏藥材切片圖像中單獨(dú)挑選了270張建立了復(fù)雜測試集。復(fù)雜測試集圖像與簡單測試集圖像相比,具有背景顏色與藏藥材切片顏色基本一致、堆疊更加嚴(yán)重等特點(diǎn)。復(fù)雜測試集與簡單測試集示例圖像如圖2所示。對于藏藥材切片的識別任務(wù),訓(xùn)練集和測試集分離,按照4∶1的比例將剩余1350張圖像隨機(jī)劃分為訓(xùn)練集和測試集(簡單測試集)。訓(xùn)練集包含18種藏藥材切片的1080張圖像,測試集(簡單測試集)包含18種藏藥材切片的270張圖像,復(fù)雜測試集包含18種藏藥材切片的270張圖像。
圖2 簡單測試集與復(fù)雜測試集示例圖像
圖3 AGDTFL模型
復(fù)雜背景下藏藥材切片圖像往往存在一些器具、人手等無效信息,如何讓模型摒棄這些無效信息并關(guān)注藏藥材切片的紋理信息,是提高模型識別準(zhǔn)確率的關(guān)鍵。為此,本文提出首先使用分塊局部二值模式(LBP)提取藏藥材切片圖像紋理特征,然后將其作為深度神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)一步學(xué)習(xí)深度紋理特征表示。本文采用AlexNet作為骨干網(wǎng)絡(luò)(Backbone),為了提高AlexNet網(wǎng)絡(luò)對切片圖像的識別準(zhǔn)確率,進(jìn)一步引入注意力機(jī)制,形成注意力引導(dǎo)的深度紋理特征學(xué)習(xí)模型。本文在AlexNet網(wǎng)絡(luò)的第一層和卷積層的最后一層加入注意力機(jī)制,其結(jié)構(gòu)如圖3所示。將輸入圖像通過多個(gè)卷積層和池化層,得到大小為C×H×W的特征圖。C、H、W分別是特征圖的通道數(shù)、高度和寬度。為了實(shí)現(xiàn)注意力引導(dǎo),使用1×1×C卷積濾波器對特征圖進(jìn)行卷積得到注意力熱力圖,再對注意力熱力圖進(jìn)行全局最大池化,在注意力熱力圖上選取最大的響應(yīng)值,就可以得到具有判別特征的區(qū)域。
LBP(Local binary patterns)紋理分析算子由Ojala等[16]首先提出,該算法在對紋理對象的特征提取過程中應(yīng)用廣泛,其理論及計(jì)算相對簡單,且對尺度旋轉(zhuǎn)和灰度變化不敏感。在藏藥材切片圖像受到光照、角度、互相堆疊遮擋的情況下,LBP算法能夠比較理想的提取出藏藥材切片圖像的紋理特征,提高成藏藥材切片圖像識別的魯棒性和準(zhǔn)確率。本文首先將藏藥材切片圖像調(diào)整為統(tǒng)一大小,然后將圖像進(jìn)行LBP分塊提取,有利于充分體現(xiàn)出復(fù)雜背景下藏藥材切片圖像的局部特征。本文應(yīng)用的LBP定義[16]如下:
其中,gc表示像素c在局部鄰域中心點(diǎn)的灰度值gp(p=0,1,…,p-1)表示距中心點(diǎn)距離為R的領(lǐng)域內(nèi)P個(gè)采樣像素的灰度值;s(x) 為符號函數(shù);s(gp-gc)為鄰域中的每個(gè)周圍像素分配二項(xiàng)式權(quán)重2p,將局部鄰域的對比度信息轉(zhuǎn)換為LBP特征值。本文設(shè)定P=8、R=1計(jì)算像素周圍8個(gè)鄰域的紋理對比度信息,構(gòu)建一個(gè)256維的直方圖,然后將每個(gè)直方圖組合成一個(gè)特征向量作為最終的LBP特征。
注意力機(jī)制(Attention mechanism)源于對人類視覺的大腦信號處理機(jī)制的研究。人類大腦在接收外界信息時(shí),并不會(huì)將收到的所有信息進(jìn)行處理,而是只關(guān)注較為重要的信息,這有利于過濾干擾信息,從而提高信息處理效率[17]。認(rèn)知科學(xué)中,由于信息處理的瓶頸,當(dāng)人在面對一個(gè)大型復(fù)雜場景時(shí),人類會(huì)選擇性地關(guān)注所有信息的一部分,如顏色突?;蝻L(fēng)格突變的區(qū)域,同時(shí)忽略其他可見的信息即其它相對平凡的地方。計(jì)算機(jī)視覺中的注意力機(jī)制正是借鑒于此,讓網(wǎng)絡(luò)從眾多的信息中聚焦重要信息,忽略不重要信息。其最早應(yīng)用在自然語言處理上,之后延伸到圖像處理領(lǐng)域。由于復(fù)雜背景下的藏藥材切片圖像一般包含許多無關(guān)信息,對切片圖像進(jìn)行識別的依據(jù)往往來自于僅占圖像部分的切片紋理特征。本文將注意力機(jī)制引入AlexNet網(wǎng)絡(luò)中,對復(fù)雜背景下的藏藥材切片圖像在紋理特征的關(guān)鍵區(qū)域進(jìn)行聚焦,最終提取出較為精準(zhǔn)的關(guān)鍵紋理特征信息,進(jìn)而提高復(fù)雜背景下藏藥材切片圖像的識別準(zhǔn)確率。本文的注意力機(jī)制的單元結(jié)構(gòu)如圖4所示。Squeeze操作將C×H×W的輸入轉(zhuǎn)變?yōu)?×1×C的輸出,Excitation操作生成通道權(quán)重,最后對特征圖進(jìn)行Scale,獲得通道權(quán)重調(diào)整后的特征圖。
注意力機(jī)制的核心部分由一組1×1×C的卷積濾波器和一個(gè)全局最大池化層組成,卷積特征的每個(gè)通道對應(yīng)一個(gè)視覺模式,由于缺乏一致性和魯棒性,這些特征不能作為注意力映射[17]。本文采用一組1×1×C卷積濾波器,根據(jù)特征通道的空間關(guān)系將特征圖轉(zhuǎn)化為局部注意力圖[18]。注意力機(jī)制的關(guān)鍵是加權(quán)以及求和,注意力機(jī)制中不同的權(quán)重比例反映了模型關(guān)注度不同的圖像區(qū)域。為了提高計(jì)算速度、減少計(jì)算參數(shù),采用softmax方法作為輸出特征權(quán)重值。
AlexNet在2012年由Hinton和他的學(xué)生Alex Krizhevsky提出。AlexNet首次在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中成功應(yīng)用了ReLU、Dropout和LRN等Trick,并使用GPU進(jìn)行運(yùn)算加速[19]。AlexNet作為經(jīng)典的CNN,與ResNet、GoogLeNet等模型相比,其網(wǎng)絡(luò)結(jié)構(gòu)更簡單,網(wǎng)絡(luò)參數(shù)更少[20]。因此,本文用AlexNet網(wǎng)絡(luò)進(jìn)行藏藥材切片圖像的識別。AlexNet網(wǎng)絡(luò)輸入圖像的尺寸為(224×224×3),網(wǎng)絡(luò)結(jié)構(gòu)分為8層,前5層是卷積層,后3層是全連接層。第一、二層都使用了卷積、ReLU、池化、歸一化操作。第三層和第四層都使用了卷積和ReLU操作。與三、四層相比,第五層多了池化操作,分別為卷積、ReLU和池化。然后將前五層操作后的結(jié)果傳遞到神經(jīng)網(wǎng)絡(luò)中,在最后三層均使用全連接網(wǎng)絡(luò)結(jié)構(gòu)。AlexNet 的提出對卷積神經(jīng)網(wǎng)絡(luò)有著重大意義,具有許多優(yōu)點(diǎn)[21]。它成功使用ReLU函數(shù)代替Sigmoid和tanh函數(shù)作為CNN的激活函數(shù)并在全連接層中增加Dropout層,訓(xùn)練時(shí)使用Dropout隨機(jī)忽略一部分神經(jīng)元避免模型過擬合,提高了模型的泛化能力;全部使用最大池化,避免平均池化的模糊化效果;使池化核比步長的尺寸大,讓池化層的輸出之間有重疊和覆蓋,提高了特征的豐富性;使用局部響應(yīng)歸一化層,用競爭機(jī)制使神經(jīng)元中響應(yīng)較大的值變得更大,并抑制反饋較小的神經(jīng)元,增強(qiáng)了模型的泛化能力。
圖4 注意力機(jī)制單元
圖5 簡單測試集識別準(zhǔn)確率
表2 復(fù)雜測試集實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文方法的有效性,本文在收集的復(fù)雜背景藏藥材切片圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先,將圖像大小調(diào)整為256×256像素輸入AlexNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果受多個(gè)超參數(shù)影響[22],學(xué)習(xí)率(Learning rate)代表每次收斂的步長,它決定了收斂的快慢;批尺寸(Batch size)代表每次選取的訓(xùn)練樣本數(shù)量,它決定了收斂的方向。本文實(shí)驗(yàn)中參數(shù)設(shè)定如下:將網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減系數(shù)λ設(shè)置為0.0005,批尺寸設(shè)置為10。實(shí)驗(yàn)采用隨機(jī)梯度下降法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,設(shè)置網(wǎng)絡(luò)迭代次數(shù)(Epoch)為500,損失函數(shù)使用CrossEntropyLoss。之后將大小為256×256像素的圖像輸入融入注意力機(jī)制的AlexNet網(wǎng)絡(luò),網(wǎng)絡(luò)中關(guān)于注意力機(jī)制的權(quán)值都由網(wǎng)絡(luò)通過自身學(xué)習(xí)確定,并通過反向傳播不斷調(diào)整權(quán)值大小,直到學(xué)習(xí)到合適的權(quán)值以使網(wǎng)絡(luò)達(dá)到最優(yōu)性能并在相同的實(shí)驗(yàn)參數(shù)下獲得識別準(zhǔn)確率。然后將圖像輸入AGDTFL網(wǎng)絡(luò),在相同的實(shí)驗(yàn)參數(shù)下獲得識別準(zhǔn)確率。最后在復(fù)雜測試集上分別用AlexNet網(wǎng)絡(luò)、融入注意力機(jī)制的AlexNet網(wǎng)絡(luò)、AGDTFL網(wǎng)絡(luò)進(jìn)行識別,測試網(wǎng)絡(luò)識別的準(zhǔn)確性。
從實(shí)驗(yàn)結(jié)果圖5可以看出,在訓(xùn)練過程中,隨著迭代次數(shù)的增加,網(wǎng)絡(luò)模型的識別準(zhǔn)確率均逐漸提高并最終趨于穩(wěn)定。但增加了注意力機(jī)制的AlexNet網(wǎng)絡(luò)模型的識別準(zhǔn)確率更高??傮w看來,Attention+AlexNet網(wǎng)絡(luò)性能優(yōu)于單一的AlexNet網(wǎng)絡(luò)模型。AlexNet網(wǎng)絡(luò)模型的識別準(zhǔn)確率為73%,而Attention+AlexNet網(wǎng)絡(luò)的識別準(zhǔn)確率為79%,準(zhǔn)確率提升較高。對圖像抽取LBP特征后使用增加了注意力機(jī)制的AlexNet網(wǎng)絡(luò)模型(AGDTFL,即注意力引導(dǎo)的深度紋理特征學(xué)習(xí))的識別準(zhǔn)確率為82%,準(zhǔn)確率優(yōu)于使用Attention+AlexNet網(wǎng)絡(luò)進(jìn)行識別。在復(fù)雜測試集上的實(shí)驗(yàn)結(jié)果見表2,與在簡單測試集上獲得的識別準(zhǔn)確率相比,AGDTFL網(wǎng)絡(luò)模型對復(fù)雜背景藏藥材切片圖像的識別更加穩(wěn)定,準(zhǔn)確率僅下降1%,而單一的AlexNet與Attention + AlexNet網(wǎng)絡(luò)準(zhǔn)確率分別下降4%和2%,結(jié)果證明LBP算法可以很好的提取復(fù)雜背景中藏藥材切片的紋理信息。
特征信息是模型對不同藏藥材切片圖像進(jìn)行分類的依據(jù),對藏藥材切片圖像中關(guān)鍵紋理特征信息的準(zhǔn)確提取有助于提高模型的可解釋性。從實(shí)驗(yàn)的分類準(zhǔn)確率結(jié)果來看,本文提出的AGDTFL網(wǎng)絡(luò)模型由于加入了注意力層對復(fù)雜背景下藏藥材切片圖像進(jìn)行識別,獲得了比只使用AlexNet網(wǎng)絡(luò)和Attention+AlexNet網(wǎng)絡(luò)更高的準(zhǔn)確率。本文在測試集上選取了3種復(fù)雜背景下藏藥材切片圖像,分別將AlexNet、Attention+AlexNet和AGDTFL網(wǎng)絡(luò)模型最后一個(gè)卷積層提取到的圖像特征信息進(jìn)行可視化操作即繪制特征信息的熱力圖[23],結(jié)果如圖6所示。模型具體是依據(jù)圖像中的哪些紋理特征信息把復(fù)雜背景下藏藥材切片圖像準(zhǔn)確識別為正確的藏藥材名稱以及模型分類所依據(jù)的特征信息是否真正來自于圖像中的切片紋理區(qū)域,圖6給予了明確的表示。為便于對比,對于每個(gè)特征信息熱力圖,均給出了相應(yīng)的原始藏藥材切片圖像。其中,熱力圖顏色從藍(lán)色過渡到紅色表示特征信息即判圖分類識別依據(jù)越來越重要。
圖6 藏藥材切片圖像特征信息熱力圖
表3 簡單測試集對比實(shí)驗(yàn)結(jié)果
圖7 不同模型在復(fù)雜測試集上的部分圖像識別結(jié)果
從熱力圖中可以明顯看到,AlexNet網(wǎng)絡(luò)、融入注意力機(jī)制的AlexNet網(wǎng)絡(luò)對圖像進(jìn)行分類識別所依據(jù)的關(guān)鍵切片紋理特征有很大的差別。只使用AlexNet網(wǎng)絡(luò)時(shí)提取的特征信息在大部分集中在復(fù)雜背景上,對關(guān)鍵的切片紋理特征的聚焦度較低,沒有給關(guān)鍵切片紋理特征部位賦予很高的權(quán)重,這說明AlexNet網(wǎng)絡(luò)雖然能夠?qū)Σ厮幉那衅瑘D像進(jìn)行了正確的分類識別但是卻沒有對圖像上關(guān)鍵的切片紋理部位進(jìn)行有效的它特征提取導(dǎo)致圖像識別準(zhǔn)確率較低。與AlexNet網(wǎng)絡(luò)相比,Attention+AlexNet網(wǎng)絡(luò)提取的特征信息的分布比較集中,關(guān)鍵的切片紋理特征部位被紅色覆蓋,這說明注意力機(jī)制能夠有效地對關(guān)鍵的切片紋理特征部位進(jìn)行聚焦,從而使得Attention+AlexNet網(wǎng)絡(luò)對復(fù)雜背景下藏藥材切片圖像的識別比AlexNet網(wǎng)絡(luò)更加精準(zhǔn)。與單純使用Attention+AlexNet網(wǎng)絡(luò)相比,AGDTFL網(wǎng)絡(luò)提取的特征信息的分布更加集中,關(guān)鍵的切片紋理特征部位均被紅色覆蓋,這說明使用LBP特征抽取后,不同藏藥材切片之間的紋理差異更加明顯,從而使得Attention+AlexNet網(wǎng)絡(luò)對復(fù)雜背景下藏藥材切片圖像的分類識別的準(zhǔn)確率比直接將圖像輸入Attention+AlexNet網(wǎng)絡(luò)進(jìn)行識別更加精準(zhǔn)。
本部分實(shí)驗(yàn)將所提模型與現(xiàn)有的藥材切片識別方法進(jìn)行對比分析。結(jié)果如表3所示,與其他算法相比,本文提出的算法效果更優(yōu)。RGB+SVM[24]模型在6種對比模型中的準(zhǔn)確率最低,由于該模型是對圖像的RGB特征進(jìn)行提取后再分類,但復(fù)雜背景圖像的RGB特征容易隨背景的變化而變化,不能作為可靠的識別特征,因此在復(fù)雜背景藏藥材切片圖像數(shù)據(jù)集上,RGB+SVM模型表現(xiàn)一般。現(xiàn)有的使用VGG16[14]、Inception-V3[8]、LeNet-5[25]、GoogleNet[26]網(wǎng)絡(luò)的研究方法在理想環(huán)境下對中藥切片的識別已取得較高的準(zhǔn)確率,但通過實(shí)驗(yàn)發(fā)現(xiàn),這些網(wǎng)絡(luò)對復(fù)雜背景下的藏藥材切片圖像識別準(zhǔn)確率均不高。本文所提模型,在對比實(shí)驗(yàn)中的準(zhǔn)確率最高。圖7顯示了不同模型在復(fù)雜測試集上的識別結(jié)果,可以看出AGDTFL網(wǎng)絡(luò)與其他模型相比,在背景顏色與藏藥材切片顏色基本一致、堆疊更加嚴(yán)重等情況下具有更好的識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文提出的結(jié)合傳統(tǒng)紋理特征(LBP)和深度學(xué)習(xí)(AlexNet),以及引入注意力機(jī)制的方法能有效提升模型在復(fù)雜背景藏藥材切片圖像上的識別準(zhǔn)確率。
本文利用18種復(fù)雜背景下藏藥材切片的1620張圖像,建立了包含標(biāo)注的數(shù)據(jù)集。本文為了驗(yàn)證網(wǎng)絡(luò)模型的魯棒性,在建立數(shù)據(jù)集時(shí),充分考慮了藥材的顏色和形狀高度相似,拍攝環(huán)境的強(qiáng)光差異,圖像質(zhì)量高與低,不同形狀和藥材采集的時(shí)間跨度等多變化的數(shù)據(jù)。該數(shù)據(jù)集有望為復(fù)雜背景下藏藥材切片識別任務(wù)提供數(shù)據(jù)基礎(chǔ),促進(jìn)基于深度學(xué)習(xí)的藏藥材識別技術(shù)的發(fā)展。本文提出AGDTFL網(wǎng)絡(luò)模型去識別復(fù)雜背景下的藏藥材切片,在簡單測試數(shù)據(jù)集上的準(zhǔn)確率達(dá)到82%。這種方法的實(shí)驗(yàn)為藏藥材切片識別研究提供了良好的基準(zhǔn)。但是,本實(shí)驗(yàn)的數(shù)據(jù)集中藏藥材圖片的數(shù)量比起標(biāo)準(zhǔn)公開數(shù)據(jù)集CIFAR-10來說較少,提出的模型雖在準(zhǔn)確率上取得了提升,但與理想情況下的藥材切片識別相比仍有較大提升空間。在下一步工作中,將進(jìn)一步擴(kuò)充本文構(gòu)建的成品藏藥材數(shù)據(jù)集,并采用無監(jiān)督或半監(jiān)督的方法來解決高成本、大規(guī)模藏藥材切片數(shù)據(jù)集的標(biāo)注問題。
世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化2022年12期