摘? 要:舌象診斷是臨床決策中非常重要的一個環(huán)節(jié)。研究人員提出了自動化的舌象診斷方法。他們通常從圖片提取舌象,然后通過特征工程或深度學(xué)習(xí)方法,提取出相關(guān)的特征并分類,取得了不錯的效果。然而,使用特征工程設(shè)計舌頭特征需要很大工作量,另外僅使用手工特征或深度特征,無法較好地表示舌頭的特征,特別是在舌頭處于非統(tǒng)一光源和姿態(tài)下。因此,文章首先設(shè)計了基于Faster-RCNN的檢測框架對舌象進行預(yù)處理,然后使用了多特征融合的方法,對底層特征和高層語義特征進行特征融合,使用該方法來對舌象進行分類。結(jié)果表明,該算法具有更好的診斷效果。
關(guān)鍵詞:舌頭圖像;檢測框架;多特征融合;深度特征;小樣本舌象
中圖分類號:TP391.41? ? ? ?文獻標(biāo)識碼:A 文章編號:2096-4706(2020)01-0063-04
Abstract:Tongue image diagnosis is a very important step in clinical decision-making. The researchers proposed an automated method of tongue image diagnosis. They usually extract tongue images from images,and then extract relevant features and classify them through feature engineering or deep learning methods,and achieve good results. However,it takes a lot of work to use feature engineering to design tongue features. In addition,only manual features or depth features are used to represent tongue features,especially when the tongue is in a non-uniform light source and posture. Therefore,this paper first designs a Faster-RCNN based detection framework to preprocess the tongue image,and then uses the method of multi feature fusion to fuse the features of the underlying features and the high-level semantic features,using this method to classify the tongue image. The results show that the algorithm has better diagnosis effect.
Keywords:tongue image;detection frame;multi-feature fusion;depth feature;small sample tongue image
0? 引? 言
隨著社會經(jīng)濟的不斷發(fā)展,人們對醫(yī)療資源的需求逐漸提高。面對日益增長的需求,許多使用計算機輔助診斷的系統(tǒng)被研發(fā)出來緩和資源緊張的局面。對于中醫(yī)來說,主要圍繞舌診系統(tǒng)進行開發(fā)。現(xiàn)有的舌診系統(tǒng)在數(shù)據(jù)采集和診斷準(zhǔn)確率方面存在問題,一是數(shù)據(jù)采集需要較大人力成本,二是系統(tǒng)診斷準(zhǔn)確率容易受到外界因素的影響,例如光照、姿勢等等。因此本文提出了基于Faster-RCNN的檢測框架,用來處理圖片采集的問題,另外針對現(xiàn)有的診斷模型一般需要在受限條件下進行診斷的問題,本文提出了一種多特征融合的診斷模型,能夠較好地解決上述問題。本文組織如下,首先介紹了所提出的檢測和診斷框架,然后進行了實驗并與其他方法進行比較,最后總結(jié)全文。
1? 中醫(yī)智能舌診介紹
舌象診斷在傳統(tǒng)中醫(yī)學(xué)中是非常重要的一個部分。通過望診觀察病人的舌頭,中醫(yī)從業(yè)者能夠評估病人的健康狀態(tài)。盡管高級的醫(yī)生診斷水平很高,然而對于初級醫(yī)生來說,由于缺乏足夠的經(jīng)驗,他們很容易對病人的情況進行誤判。因此,研究者提出了一些基于機器學(xué)習(xí)的自動診斷算法,希望能夠在缺少醫(yī)療資源或者醫(yī)生經(jīng)驗不足的情況下使用該方法進行輔助診斷,從而緩解醫(yī)療資源緊張的情況,同時減少誤診的情況。
基于機器學(xué)習(xí)的舌象診斷算法,一般來說包括以下步驟,首先從給定的舌象圖片中定位到舌頭,然后使用相關(guān)的算法對舌頭的特征進行提取,最后使用提取好的特征來判斷這個舌象是否異常。目前的工作主要集中在對舌象的特征提取上,對舌象的特征提取工作可以分為兩個部分,一方面是基于傳統(tǒng)手工特征工程的方法,另一方面是基于深度學(xué)習(xí)的自動提取特征的方法。在參考文獻[1-3]中,使用底層手工特征將舌象的形狀、紋理和顏色等特征提取出來,用來進行分類;另一方面,參考文獻[4-6]嘗試使用了基于深度學(xué)習(xí)技術(shù)的方法自動提取高層語義特征,并使用該特征來對舌頭圖像進行分類。
盡管以前的工作在舌頭分類這個任務(wù)上取得了很好的成績,然而依然有很多問題需要考慮。首先,在之前的工作中,舌頭的舌體圖像是相關(guān)人員手工從原始圖片中提取出來的,這是一個十分費時費力的工作;第二,以前的工作往往使用單一手工設(shè)計特征進行舌象分類,例如,使用顏色特征來區(qū)分舌象的異常,或者是使用紋理特征來判斷舌象是否存在裂紋從而判斷異常,使用單特征的方法僅僅能從一個方面來判斷舌象異常,具有較大的局限性。參考文獻[6]中使用了多個手工特征組合的特征進行分類,效果好于使用單一手工特征。然而使用手工特征的局限性很大,一方面是設(shè)計這些特征需要相關(guān)的領(lǐng)域知識,并且有時想要設(shè)計出一個好的特征存在困難,另一方面,這些特征一般容易受到如光線、姿勢、變形等外界因素的影響,例如,如果圖片偏亮或者偏暗就會使顏色特征提取器提取出錯誤的特征。使用深度學(xué)習(xí)技術(shù)自動從舌象圖片里提取特征,一方面降低了手工設(shè)計特征的復(fù)雜性以及困難性,另一方面深度學(xué)習(xí)提取的高層語義特征一般具有魯棒性,較少受限于外界因素,然而深度學(xué)習(xí)一般需要使用大量數(shù)據(jù)進行訓(xùn)練,當(dāng)數(shù)據(jù)量不夠大時,深度學(xué)習(xí)可能無法提取出滿意的特征,特別是在舌象診斷這個領(lǐng)域,往往缺乏大量的圖片來訓(xùn)練一個好的深度學(xué)習(xí)分類器。
為了解決第一個問題,本文提出了一個檢測框架來對舌頭圖像進行提取,這個檢測框架能夠有效地對舌頭圖像進行定位。在第二個問題上,本文結(jié)合了傳統(tǒng)特征和深度特征的特點,提出了一個基于多特征融合的特征提取方法,將傳統(tǒng)的手工特征HOG、LBP以及從ResNet-50提取的高層的深度語義特征進行融合。相比于之前僅僅使用底層特征或者高層特征來診斷舌頭圖像,本文的方法考慮到傳統(tǒng)特征和深度特征各自的優(yōu)勢,利用這種多特征融合方法能夠表達更完整和準(zhǔn)確的舌象特征,從而取得更好的舌象分類結(jié)果。
本文的貢獻在于,首先,提出了一個舌象預(yù)處理的檢測框架;第二,提出了一個基于多特征融合的方法來改善舌象分類的準(zhǔn)確率。本文剩下的部分按如下組織,第二節(jié)介紹了整個舌象分析框架,包括檢測框架和多特征融合方法,第三節(jié)展示了實驗結(jié)果,最后一節(jié)進行總結(jié)。
2? 舌象檢測與診斷架構(gòu)
本文提出的分析框架包括兩個部分,分別是檢測模型和分類模型。一個舌頭首先通過檢測模型從原始的舌頭圖片中被定位出來,然后將它們切割并調(diào)整到同樣的大小。最后,這樣的舌頭圖像被分類模型進行分類。本文所提出的框架如圖1所示。
2.1? 檢測模型
本文首先介紹非常有名的檢測網(wǎng)絡(luò)Faster-RCNN[7],然后提出本文所使用的檢測網(wǎng)絡(luò)。
Faster-RCNN是檢測領(lǐng)域的領(lǐng)先算法,它能夠在很多任務(wù)上取得非常高的檢測準(zhǔn)確率。原始的Faster-RCNN算法由骨干網(wǎng)絡(luò)、區(qū)域提出網(wǎng)絡(luò)、興趣區(qū)池化層以及分類網(wǎng)絡(luò)組成。骨干網(wǎng)絡(luò)用來從原始的圖片提取高層語義特征。區(qū)域提出網(wǎng)絡(luò)使用這些特征來生成邊界框和一個類別描述來判斷其是否存在物體或者背景。在給定了邊界框之后,使用非極大值抑制算法將多余的邊界框去除,剩余的邊界框和從骨干網(wǎng)絡(luò)中提取出的特征一起被送到興趣區(qū)池化層,將它們調(diào)整成同樣的形狀,最終被分類網(wǎng)絡(luò)進行分類是否是舌象。Faster-RCNN系統(tǒng)框架如圖2所示。
然而在舌象診斷的任務(wù)中,僅僅只有一個物體也就是舌象需要被檢測。而原始的Faster-RCNN是用來進行多任務(wù)檢測的。因此需要將Faster-RCNN的輸出調(diào)整成兩類,即舌頭和背景。另外,原始的Faster-RCNN使用了VGG16作為其骨干網(wǎng)絡(luò),這樣的網(wǎng)絡(luò)沒有近期出現(xiàn)的更深的神經(jīng)網(wǎng)絡(luò),例如ResNet-50,具有更強大的特征提取能力。因此將VGG16替換成了ResNet-50,如圖3所示。
2.2? 分類模型
本文使用HOG和LBP方法來獲得手工設(shè)計的底層特征,使用ResNet-50來生成高層的語義特征。這些特征被使用拼接的特征融合方法融合成一組特征,然后將它們送入分類器進行舌象狀態(tài)的識別。
HOG[8]是一個被用在計算機視覺領(lǐng)域特征描述的描述器。這個描述器計算了一個圖片里被定位部分的梯度方向。這樣做的基本想法是,在一個圖片里,局部物體的外貌和形狀能夠被梯度強度和邊的方向分布所描述。因此,這個方法能夠被用來提取圖像的邊緣特征。
LBP[9]是一種視覺描述器。它在1994年被最先提出,從那時起到現(xiàn)在被認為是非常強大的用于提取紋理特征的特征提取器工具。在本文中使用這個描述器來提取舌象的紋理特征。
ResNet-50[10]是一種人工神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)包括了一種殘差神經(jīng)網(wǎng)絡(luò),其能夠利用跳過連接或者捷徑來跳過一些層而不進行訓(xùn)練[10]。相比于那些淺層的神經(jīng)網(wǎng)絡(luò),這種神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的關(guān)鍵語義信息。因此使用這個網(wǎng)絡(luò)來獲取舌象的高層語義特征。
本文所提出的多特征融合方法如圖4所示。多個特征使用拼接方式進行特征融合,融合后的特征被送入支持向量機和K-最鄰近鄰居算法進行分類,從而識別舌頭的狀態(tài)。
3? 舌象診斷實驗
3.1? 數(shù)據(jù)集
使用搜索引擎在網(wǎng)上(百度、谷歌以及Pinterest)收集到了185張舌頭圖片,包括94張正常的樣例和91張異常的樣例。這些舌頭圖像包括完整的舌頭,并且適合做舌象診斷。另外又從網(wǎng)上收集了若干舌象并打上標(biāo)簽,送入一個預(yù)訓(xùn)練好的檢測框架里進行微調(diào),從而訓(xùn)練出了一個能夠進行舌象定位的檢測框架。而185張舌頭圖片則用于分類,需要注意的是,這些圖片不是在統(tǒng)一的光源和姿態(tài)下采集的,并且舌頭的形狀和大小的區(qū)別也較大。
在訓(xùn)練分類模型的時候,首先使用IMAGENET訓(xùn)練集來預(yù)訓(xùn)練ResNet-50模型,在預(yù)訓(xùn)練好整個模型后,再用這個已經(jīng)預(yù)訓(xùn)練好的模型,并利用訓(xùn)練舌象對模型進行再次訓(xùn)練,從而對整個模型進行微調(diào)。當(dāng)模型訓(xùn)練完之后,模型被去掉最后一層全連接層并新增了平均池化層來得到輸出,此時的模型輸出可以拿來用作深度特征提取器。
3.2? 實驗結(jié)果
在分類階段,本文比較了所提出的多特征融合方法,包括HOG、LBP以及ResNet-50這三類特征提取器。本文使用了支持向量機和K-最鄰近鄰居作為分類器,并使用了準(zhǔn)確率、精確度、召回率和F1-score作為度量指標(biāo)來評價模型的分類性能。因為沒有公開的數(shù)據(jù)集,本文使用收集的數(shù)據(jù)集來評估上文提出的指標(biāo)。文獻[6]使用了HOG和LBP特征對舌象進行分類,本文提出的多特征融合的算法將與文獻[6]進行比較。
HOG和LBP被選為底層手工設(shè)計特征的代表特征提取器。ResNet-50則被用作是深度語義特征提取器。
結(jié)果展示在了表1和表2中。從表1和表2能夠看出,本文提出的多特征融合的方法比使用傳統(tǒng)的手工設(shè)計特征的方法以及深度語義特征的方法能取得更好的性能。這里能夠比文獻[6]的特征提取方法取得更好的效果,可能的原因是,該文章里的舌象是處于固定姿態(tài)且統(tǒng)一光源的情況下,在這些因素改變的情況下,傳統(tǒng)的手工特征提取器可能會失效。另外,本文使用支持向量機能夠取得比K-最鄰近鄰居更高的準(zhǔn)確率。
4? 結(jié)? 論
本文設(shè)計了一個舌象檢測框架,并提出了一種使用多特征融合方法,包括底層手工設(shè)計特征和高層深度語義特征,來解決舌象分類問題。結(jié)果表明,本文提出的多特征融合方法能夠在舌象分類任務(wù)上取得較好的結(jié)果。
參考文獻:
[1] KANAWONG R,OBAFEMI-AJAYI T,MA T,et al. Automated Tongue Feature Extraction for ZHENG Classification in Traditional Chinese Medicine [J].Evidence-Based Complementary and Alternative Medicine,2012.
[2] WANG X. Statistical Analysis of Tongue Images for Feature Extraction and Diagnostics [J].Image Processing,IEEE Transactions on Image Processing,2013,22(12):5336-5347.
[3] ZHANG? B,ZHANG H .Significant Geometry Features in Tongue Image Analysis [J/OL]. Evidence-Based Complementary and Alternative Medicine,2015:897580 (2015-07-13).https://scite.ai/reports/10.1155/2015/897580.
[4] HUO C M,ZHENG H,SU H Y,et al. Tongue shape classification integrating image preprocessing and Convolution Neural Network [C]// Intelligent Robot Systems.IEEE,2017.
[5] HOU J,SU H Y,YAN B,et al. Classification of Tongue Color Based on CNN// [C].Proceedings of 2017 IEEE 2nd International Conference on Big Data Analysis(ICBDA 2017).Institute of Electrical and Electronics Engineers,2017:745-749.
[6] MENG D,CAO G,DUAN Y,et al. A deep tongue image features analysis model for medical application [C]//2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).IEEE,2016.
[7] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(6):1137-1149.
[8] DALAL N,TRIGGS B. Histograms of Oriented Gradients for Human Detection [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR05).IEEE,2005.
[9] OJALA T,PIETIKAINEN M,MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[10] HE K,ZHANG X,REN S,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE Computer Society,2016.
作者簡介:邱童(1994.11-),男,漢族,江蘇徐州人,碩士在讀,研究方向:數(shù)據(jù)分析。