關(guān)鍵詞:舌診;證型辨識(shí);特征融合;多視圖
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-026-2116-07
doi:10.19734/j. issn.1001-3695.2024.11.0471
Abstract:Fortongue diagnosis inTCM(traditional Chinese medicine),clinical physiciansobservethequality,coating,and baseof the tongue to understand the patient’s health status and pathologicalchanges.Existing tongue diagnosis auxiliary syndromediferentiation modelslack comprehensiveanalysisand ignore thecomplementarycharacteristicsofthe tonguesurface and tongue base.To solvethe problem,thispaper proposedasyndrome identification model basedon multi-view tongue featurefusion(SI-MTF).Bycolecting3348tonguesurfaceandtonguebaseimagesandrequestingtraditional Chinese medicine physicianstolabeltheimages with syndrome types,thispaperconstructedatongueimagedatasetand proposedSI-MTF.Firstly,this methodextractedthetongue surfaceand tongue base regions basedon Mask R-CNNand NanoDet,andthenconstructedaconvolutional neural network with denseconnectionsto extractandfusetonguesurfaceandtonguebase features.SI-MTF extractedcolor,shape,andtexturefeaturesof the tongue image throughchannelmeanof HSVcolormodel,localbinarypatternalgorithm,andGaborfilter.Duringthetrainingstage,thismethodusedateacher-studentnetwork toimprovetheability offusingtonguesurfaceandtonguebase.Finall,itusedfullyconnectedlayersandsoftmaxfunctiontolearntherelationship between fusion features and syndrome types for achieving TCM syndrome identification.Basedonthe tongue image dataset, this paper conductedcomparative experiment,parameter discussion,ablation experiment,and robustness experiment,and then the method obtained an accuracy of 76.75% ,improved by 7.51 percentage points compared to the baseline method. Theexperimentalresultsshowthat thecomprehensiveanalysisofthetonguesurfaceandtonguebasebasedonmultiviewcaneffectively improve theperformanceof the tongue diagnosis auxiliary syndrome diferentiation model.
Keywords:tongue diagnosis;syndrome identification;feature fusion;multi-view
0 引言
望診是中醫(yī)四診之首,其中舌診作為望診中的關(guān)鍵流程,醫(yī)師通過(guò)觀察舌質(zhì)、舌苔和舌底變化了解人體生理功能和病理變化,是中醫(yī)學(xué)獨(dú)具特色的診法之一[1]。中醫(yī)認(rèn)為,舌體與人體臟腑和組織通過(guò)經(jīng)絡(luò)相互聯(lián)系,臟腑生理和病理變化可能反映在舌象上。舌體需要?dú)庋甜B(yǎng),因此舌象能夠反映氣血盛衰,與脾臟運(yùn)化功能和氣血生成有直接關(guān)聯(lián),比如,如果舌色較正常人淺淡,則有可能是虛證或者寒證,如果舌底脈絡(luò)紫且粗張,則可能是氣血不足[2]。中醫(yī)通過(guò)觀察舌體,包括舌體表面紋路和舌底脈絡(luò),判斷患者健康狀況[3]
傳統(tǒng)舌診方法依賴中醫(yī)醫(yī)師檢查患者舌體外觀和舌苔情況,包括舌面和舌底色澤、形態(tài)和質(zhì)地等方面的變化,并結(jié)合臨床經(jīng)驗(yàn)進(jìn)行診斷[1]。然而,這一過(guò)程受到中醫(yī)醫(yī)師技能水平、臨床經(jīng)驗(yàn)等因素影響,主觀性較強(qiáng),因此,近年來(lái)舌診客觀化研究得到重視[4]。通過(guò)引入人工智能算法,將傳統(tǒng)中醫(yī)舌診與計(jì)算機(jī)圖像處理相結(jié)合,實(shí)現(xiàn)舌體圖像的定性和定量分析[5]。然而,目前中醫(yī)舌診客觀化研究存在以下問(wèn)題:a)基于舌象的輔助辨證研究主要關(guān)注舌面特征[6-8],缺乏對(duì)舌面和舌底特征的綜合分析,這類研究利用特征提取器從舌面圖像提取關(guān)鍵信息特征,利用全連接層進(jìn)行中醫(yī)證型、病位和病性等分類,其存在僅利用舌面圖像特征的局限,而舌底脈絡(luò)作為中醫(yī)分析氣血運(yùn)行的重要依據(jù),該類研究未綜合分析舌面和舌底圖像特征;b)在基于舌象的輔助辨證模型中,利用深度學(xué)習(xí)技術(shù)進(jìn)行舌象特征提取[9\~11],其利用CNN、Transformer、MLP(multilayerperceptron)等模型進(jìn)行自適應(yīng)特征提取,利用全連接層實(shí)現(xiàn)舌色、苔色、病位和病性等分類,該類研究利用模型進(jìn)行自動(dòng)特征提取,缺乏對(duì)舌象具體特征的挖掘,如紋理、顏色和形狀特征。
因此,利用人工智能技術(shù)設(shè)計(jì)基于舌象的中醫(yī)證型輔助辨識(shí)模型是必要的。為解決現(xiàn)有研究存在的問(wèn)題,本文設(shè)計(jì)密集連接和雙分支結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)提取和融合舌面和舌底的特征,以實(shí)現(xiàn)舌面和舌底特征綜合分析,并單獨(dú)提取舌體的顏色、形狀和紋理特征,將教師-學(xué)生網(wǎng)絡(luò)融人模型,引入舌象的具體特征。綜上,本文提出基于多視圖舌象特征融合的中醫(yī)證型辨識(shí)(syndrome identification based on multi-view tonguefeaturefusion,SI-MTF)模型。本文主要貢獻(xiàn)如下:
a)構(gòu)建多分支密集連接網(wǎng)絡(luò),在提取舌面和舌底的特征同時(shí)逐層融合舌面和舌底特征,編碼包含舌面和舌底特征。
b)引入教師-學(xué)生網(wǎng)絡(luò),使用特征提取器(HSV通道均值、LBP算法和Gabor濾波器)提取紋理、顏色和形狀特征,與深度學(xué)習(xí)模型提取的特征進(jìn)行融合,提取關(guān)鍵舌面-舌底特征。
1相關(guān)工作
目前利用計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行中醫(yī)舌診相關(guān)的研究可分為舌象特征識(shí)別和舌象辨證兩類。
1.1 舌象特征識(shí)別
目前舌象特征識(shí)別的方法,主要利用圖像處理和機(jī)器學(xué)習(xí)算法提取舌象特征,將特征進(jìn)行定量分析,根據(jù)舌象特征進(jìn)行特征分類、關(guān)鍵區(qū)域檢測(cè)或者分割。Tang等人[12針對(duì)手工提取舌苔特征存在固定位置導(dǎo)致在舌苔區(qū)域大小或位置變化時(shí)性能不穩(wěn)定的問(wèn)題,提出基于卷積神經(jīng)網(wǎng)絡(luò)和多實(shí)例支持向量機(jī)提取和分類舌苔特征的方法。通過(guò)先驗(yàn)知識(shí)獲取可疑舌苔區(qū)域,利用CNN提取特征,再利用多實(shí)例支持向量機(jī)進(jìn)行分類,避免傳統(tǒng)固定位置提取特征局限性,實(shí)驗(yàn)取得 85.00% 準(zhǔn)確率和 89.80% 召回率。杜春慧13提出基于同態(tài)濾波和C-均值聚類的質(zhì)色識(shí)別方法,用于分離舌質(zhì)和舌苔較為集中的區(qū)域,并提取質(zhì)色特征,用于舌裂紋、齒痕舌以及質(zhì)色的識(shí)別。Hu等人[14]針對(duì)舌底脈絡(luò)特征提取和分類缺少針對(duì)性算法及高質(zhì)量數(shù)據(jù)集的問(wèn)題,提出基于Swin-Transformer的舌底脈絡(luò)區(qū)域分割和分類的方法,取得90. 46% 的平均交并比(meanin-tersection over union)和 82.21% 的準(zhǔn)確率。Lin等人[15提出基于矩不變量的舌象數(shù)據(jù)增強(qiáng)方法,緩解傳統(tǒng)數(shù)據(jù)增強(qiáng)方案在舌象數(shù)據(jù)集上不穩(wěn)定的問(wèn)題,利用該方法進(jìn)行舌象分割并達(dá)到97.01% 的交并比(intersectionoverunion)。 Wu 等人[1針對(duì)舌苔特征提取問(wèn)題,基于TransUNet提出減影特征金字塔和視覺(jué)特征增強(qiáng)模型,取得 96.36% 的準(zhǔn)確度和 97.43% 的召回率。
1.2舌象辨證
目前基于舌象辨證的研究,主要利用人工設(shè)計(jì)或者深度學(xué)習(xí)的特征提取器,將舌象高級(jí)特征送入分類器進(jìn)行預(yù)測(cè),得到辨證結(jié)果。 Hu 等人[1針對(duì)通用卷積網(wǎng)絡(luò)對(duì)詳細(xì)的區(qū)域舌象特征建模的能力較弱,忽略卷積通道間組關(guān)系,導(dǎo)致模型高冗余度的問(wèn)題,采用隨機(jī)區(qū)域池化方法獲取詳細(xì)的舌象區(qū)域特征,并采用內(nèi)成像通道關(guān)系建模方法對(duì)所有舌象通道上的多區(qū)域關(guān)系進(jìn)行建模,結(jié)合空間注意機(jī)制,實(shí)現(xiàn)基于舌象的疾病位置識(shí)別。實(shí)驗(yàn)表明,對(duì)疾病位置識(shí)別的準(zhǔn)確率可以達(dá)到75.23% 。Balasubramaniyan等人[18]利用全景舌體圖像提取多種特征,包括顏色、紋理、形狀、齒紋和皮毛等,提出糖尿病診斷方法,特征提取階段使用了ResNet50架構(gòu),而分類階段基于自動(dòng)編碼器學(xué)習(xí)機(jī)制的深度徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)算法。實(shí)驗(yàn)結(jié)果顯示,在準(zhǔn)確度、精度和靈敏度等評(píng)估指標(biāo)上分別達(dá)到98.40%.98.90%.99.10% 。Jiang等人[19]觀察1778名參與者舌象特征,結(jié)合定量舌體圖像特征、基本信息和血清學(xué)指標(biāo)(如肝脂肪變性指數(shù)和脂肪肝指數(shù))等,使用多種神經(jīng)網(wǎng)絡(luò)算法,如邏輯回歸、梯度提升決策樹(shù)和自適應(yīng)提升算法,進(jìn)行非酒精性脂肪性肝病的診斷,最終采用Logistic回歸診斷模型獲得最佳的融合效果,取得了 81.70% 的準(zhǔn)確度。Zhang等人[20針對(duì)基于舌底脈絡(luò)進(jìn)行糖尿病檢測(cè)的問(wèn)題,引入顏色描述符,并通過(guò)引人Hilbert-Schmidt獨(dú)立準(zhǔn)則和歐幾里德距離,提出多特征學(xué)習(xí)方法,提高其算法在跨模態(tài)特征表示方面的能力,取得了 93.38% 的準(zhǔn)確度。
現(xiàn)有舌象識(shí)別方法和舌象辨證方法主要針對(duì)舌面或舌底分別進(jìn)行分析,缺乏對(duì)舌面和舌底圖像特征的綜合分析,缺少對(duì)具體舌象特征的利用,包括顏色、形狀和紋理。針對(duì)以上問(wèn)題,本文利用多視圖學(xué)習(xí),構(gòu)建密集連接和雙分支網(wǎng)絡(luò)編碼舌面和舌底關(guān)鍵特征,并設(shè)計(jì)教師-學(xué)生網(wǎng)絡(luò)融合自動(dòng)提取特征和舌色、舌體形狀和紋理特征,提高模型輔助辨證能力。
2方法
2.1 總體框架
SI-MTF模型整體流程如圖1所示,包括三個(gè)部分:基于MaskR-CNN和NanoDet的舌體分割、基于多路徑密集連接神經(jīng)網(wǎng)絡(luò)的舌象特征提取和基于教師學(xué)生網(wǎng)絡(luò)的特征融合。a)在舌體分割過(guò)程中,分別通過(guò)MaskR-CNN和NanoDet對(duì)舌面和舌底進(jìn)行分割,提取出舌質(zhì)、舌苔和舌底脈絡(luò)區(qū)域。b采用分層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行舌面和舌底的特征提取,同一路徑內(nèi)的層之間以及不同路徑的層之間進(jìn)行特征傳遞。每個(gè)視圖的特征經(jīng)過(guò)潛在特征提取模塊,針對(duì)性地提取舌面和舌底的顏色、紋理和形狀等特征,然后,利用softmax函數(shù)計(jì)算每個(gè)視圖分支的概率,并計(jì)算視圖分類損失。c)通過(guò)合并的兩個(gè)視圖計(jì)算教師軟標(biāo)簽,并將學(xué)生軟標(biāo)簽和教師軟標(biāo)簽融入一致性和互補(bǔ)性信息,計(jì)算視圖蒸餾損失,提高特征提取的準(zhǔn)確度。
所提模型基于Python語(yǔ)言實(shí)現(xiàn),使用的核心庫(kù)以及版本包括:Torch(版本2.3.1),基于其 nn 模塊構(gòu)建卷積和全連接層等,為NanoDet提供支持;Torchvision(版本0.18.1),通過(guò)其模型庫(kù)構(gòu)建MaskR-CNN;skimage(版本0.25.O),opencv-python(版本4.10.0.84),利用這兩個(gè)庫(kù)實(shí)現(xiàn)Gabor濾波器、LBP算子和HSV顏色空間。
2.2基于MaskR-CNN和NanoDet的舌體分割
為屏蔽舌體圖像中背景區(qū)域?qū)τ谔卣魈崛〉挠绊?,使用MaskR-CNN對(duì)于舌體圖像中舌面的舌苔和舌體進(jìn)行分割,如圖2所示。具體來(lái)說(shuō),對(duì)于輸入的舌體圖像,輸入到預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,獲得對(duì)應(yīng)的特征圖;通過(guò)錨框?qū)μ卣鲌D中的每個(gè)位置設(shè)定預(yù)定數(shù)量的感興趣區(qū)域(regionofinterest,RoI),獲得多個(gè)候選RoI;將這些候選的RoI送入?yún)^(qū)域提議網(wǎng)絡(luò)(regionproposalnetwork,RPN)進(jìn)行二分類(前景或背景)和邊界框回歸,過(guò)濾掉一部分候選的RoI;對(duì)剩余的RoI進(jìn)行對(duì)齊操作,對(duì)這些RoI進(jìn)行目標(biāo)分類、邊界框回歸和掩碼生成(在每個(gè)RoI內(nèi)進(jìn)行全卷積網(wǎng)絡(luò)操作,生成像素級(jí)別的掩碼)。最終將舌面分割為舌體區(qū)域和舌苔區(qū)域。
對(duì)于舌底區(qū)域的提取,因?yàn)槭轻槍?duì)舌底的脈絡(luò)整體進(jìn)行特征提取,采用NanoDet算法進(jìn)行區(qū)域提取,在減少參數(shù)量的同時(shí)保證提取區(qū)域的準(zhǔn)確率。具體舌底的提取流程如圖3所示。對(duì)于輸入的舌底圖像,通過(guò)特征提取網(wǎng)絡(luò)降低圖像分辨率,提高特征維度,將不同維度舌像特征輸入特征金字塔網(wǎng)絡(luò),提取舌底高維特征和低維特征,最后將提取的多尺度特征通過(guò)邊框回歸和分類兩個(gè)分支輸出圖像的舌底區(qū)域。
2.3基于多路徑密集連接神經(jīng)網(wǎng)絡(luò)的舌象特征提取
在進(jìn)行舌象特征提取時(shí),設(shè)計(jì)多層卷積隱藏特征提取網(wǎng)絡(luò),將原始舌面圖像與分割后的舌底圖像分別輸入特征提取網(wǎng)絡(luò),不同分支負(fù)責(zé)提取不同潛在特征,通過(guò)密集連接實(shí)現(xiàn)信息共享,特征經(jīng)過(guò)融合層整合,輸出舌象的特征表示。網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)卷積塊的輸入是來(lái)自兩條路徑的所有先前層輸出的串聯(lián),也就是密集連接不僅發(fā)生在同一路徑內(nèi)的層之間,而且還發(fā)生在不同路徑的層之間。兩條路徑的特征計(jì)算表達(dá)式為
其中: ;I 表示網(wǎng)絡(luò)中的舌象特征圖; ξl 表示網(wǎng)絡(luò)的第 l 層; H 為連接操作;通過(guò)最后一層網(wǎng)絡(luò)分別得到舌面潛在特征 IL1 和舌底潛在特征 IL2,L 表示網(wǎng)絡(luò)的層數(shù)。
將舌面 I11 和 I12 轉(zhuǎn)為HSV,計(jì)算出 通道總平均值作為顏色特征 F1c ;使用局部二值模式(local binary pattern,LBP)算法提取出舌體區(qū)域 I11 的形狀特征 F1b ,使用Gabor濾波器提取舌苔區(qū)域 I12 的紋理特征 F1t 。
對(duì)于舌底區(qū)域 I2' ,將圖像轉(zhuǎn)為HSV,計(jì)算出 H,S,V 通道平均值作為顏色特征 F2c ,使用LBP和Gabor濾波器分別用于提取紋理特征 F2b 和形狀特征 F2t 。
最后,分別將舌面和舌底特征多層卷積隱藏特征提取網(wǎng)絡(luò)提取出的潛在特征組合,得到最終的舌面特征 f1(I1) 和舌底特征 f2(I2') 。
2.4基于教師-學(xué)生網(wǎng)絡(luò)的特征融合
在教師-學(xué)生網(wǎng)絡(luò)中,教師網(wǎng)絡(luò)生成軟標(biāo)簽,學(xué)生網(wǎng)絡(luò)提取特征并計(jì)算學(xué)生軟標(biāo)簽,教師軟標(biāo)簽和學(xué)生軟標(biāo)簽用于提供一致性和差異性信息,用于引導(dǎo)學(xué)生網(wǎng)絡(luò)更好地提取特征,提高準(zhǔn)確度。具體來(lái)說(shuō),每個(gè)視圖數(shù)據(jù)都經(jīng)過(guò)全連接分類網(wǎng)絡(luò)得到證型分類標(biāo)簽,然后計(jì)算多視圖的分類損失,損失函數(shù)如式(5)所示。
其中: LCE1?LCE2 分別表示舌面視圖和舌底視圖的分類損失 Ω:pi1 表示舌面特征標(biāo)簽中推斷為證型類別 i 的概率; pi2 表示舌底特征標(biāo)簽中推斷為證型類別 i 的概率; yi 表示真實(shí)的證型類別標(biāo)簽; N 表示證型類型的數(shù)量。綜合兩個(gè)視圖的分?jǐn)?shù)得到總的分類損失 LCEviews 。
通過(guò)教師-學(xué)生網(wǎng)絡(luò)融合舌面特征與舌底特征等關(guān)鍵特征,蒸餾非關(guān)鍵特征。其中教師標(biāo)簽通過(guò)對(duì)各視圖進(jìn)行平局池化獲得,公式如式(6所示。
接下來(lái),分別計(jì)算學(xué)生軟標(biāo)簽 Ps,v 和教師軟標(biāo)簽 PT ,其中
向量 Ps,v 與 PT 中每個(gè)值的計(jì)算公式為
其中: ps,vi 表示視圖 V 屬于證型類別 χi 的概率標(biāo)簽; pri 表示融合標(biāo)簽中屬于證型類別 i 的概率標(biāo)簽 σ;fV(σIVi) 表示視圖 V 屬于證型類別 i 的特征標(biāo)簽 σ;ft(σIi) 表示教師標(biāo)簽 ft(I) 中屬于證型類別 i 的特征標(biāo)簽;S表示softmax操作; τ 為比例參數(shù)。
最后計(jì)算每個(gè)視圖得分與總得分之間的蒸餾損失,公式如式(9)所示,其中 LKD1?LKD2 分別表示舌面視圖和舌底視圖的蒸餾損失。
最后,算法的整體損失 Ltotal 如式(10)所示。 ρ,θ 表示不同損失對(duì)應(yīng)的權(quán)重參數(shù),使用隨機(jī)梯度下降來(lái)更新整個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù),最后將訓(xùn)練好的模型用于證型辨識(shí)。
Ltotal=ρLKDviews+θLCEviews
3 實(shí)驗(yàn)與分析
3.1數(shù)據(jù)集
本文舌象數(shù)據(jù)由合作單位采集,記錄患者在臨床診斷過(guò)程中的舌體圖像和對(duì)應(yīng)患者的相關(guān)信息。遵循數(shù)據(jù)納人標(biāo)準(zhǔn):a)符合中醫(yī)舌診要求并開(kāi)展診斷流程的患者;b)具有明確證型的患者;c)簽署知情同意書。執(zhí)行數(shù)據(jù)排除標(biāo)準(zhǔn):a)不符合上述納入標(biāo)準(zhǔn)者;b)舌體圖像采集不完整、不清晰的患者。2021年12月\~2022年1月共收集整理臨床病例1452例,平均年齡28.52歲。其中去除質(zhì)量不高的圖像,包括舌象不完整、舌體模糊、亮度不足和遮擋嚴(yán)重的照片。最終采集3348張圖像,分別為1674組,每組包括舌面和舌底兩張圖像,并請(qǐng)中醫(yī)專家標(biāo)注舌體圖像對(duì)應(yīng)的中醫(yī)證型。使用開(kāi)源軟件Labelme(https://github.com/wkentaro/labelme)對(duì)每張圖像的舌象區(qū)域進(jìn)行人工標(biāo)注。舌象區(qū)域的標(biāo)注效果如圖4所示,舌象具體區(qū)域的標(biāo)注結(jié)果形式為:[86.0,133.0,120.0,123.0],其中(86.0,133.0),(120.0,123.0)分別為舌象區(qū)域左上角和右下角點(diǎn)的像素坐標(biāo)。本文將輸入模型的圖像尺寸統(tǒng)一縮放為 224×224 ,并且通過(guò)隨機(jī)剪裁和隨機(jī)翻轉(zhuǎn)操作增加了數(shù)據(jù)多樣性。
3.2 實(shí)驗(yàn)環(huán)境和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)使用Python語(yǔ)言,計(jì)算機(jī)配置為Intel③Core TMi7 113700CPU,GPU為NVIDIAGTX4060,內(nèi)存大小為 16GB 。實(shí)驗(yàn)隨機(jī)將舌象-證型數(shù)據(jù)集的 70% 劃為訓(xùn)練集, 20% 劃分為驗(yàn)證集,其余剩余數(shù)據(jù)作為測(cè)試集。根據(jù)輸入舌體圖像獲得對(duì)應(yīng)證型的輸出,模型優(yōu)化策略為Adam梯度下降。本實(shí)驗(yàn)通過(guò)準(zhǔn)確率(ACC)評(píng)價(jià)指標(biāo)評(píng)估模型的性能,其公式如式(11)所示。
其中: ncorrect 為被正確分類的樣本數(shù)量; ntotal 為總樣本個(gè)數(shù)。
3.3 對(duì)比實(shí)驗(yàn)
選取實(shí)驗(yàn)過(guò)程中的學(xué)習(xí)率、比例參數(shù)、特征提取網(wǎng)絡(luò)層數(shù)、蒸餾損失權(quán)重參數(shù)、分類損失權(quán)重參數(shù)的最優(yōu)參數(shù),將本文模型與已有的分類模型進(jìn)行對(duì)比以驗(yàn)證模型的性能,選擇ResNeXt5[21] 、DenseNet[22]、 SK-Net[23] 、Swin Transformer[24]ResMLP[25] 、Vision Permutator[26]作為對(duì)比模型,在舌象-證型數(shù)據(jù)集上進(jìn)行訓(xùn)練,選擇驗(yàn)證集測(cè)試各個(gè)模型的辨識(shí)準(zhǔn)確率。對(duì)比模型涵蓋了目前圖像識(shí)別領(lǐng)域的三類模型,包括卷積神經(jīng)網(wǎng)絡(luò)、基于注意力的Transformer類模型和基于線性投影層的MLP類模型。
a)ResNeXt5:重復(fù)利用一組具有相同拓?fù)浣Y(jié)構(gòu)的轉(zhuǎn)換操作塊來(lái)構(gòu)建多分支網(wǎng)絡(luò),在寬度和深度不增加的情況下,通過(guò)增加轉(zhuǎn)換操作的數(shù)量來(lái)提高分類精度。
b)DenseNet:提出密集連接結(jié)構(gòu),將模型中的每一層建立直接連接進(jìn)行跨層特征傳遞,緩解梯度消失問(wèn)題,增強(qiáng)特征傳遞和復(fù)用。
c)SK-Net:針對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中固定卷積核大小導(dǎo)致感受野大小固定的問(wèn)題,設(shè)計(jì)動(dòng)態(tài)選擇機(jī)制,進(jìn)行不同大小感受野的卷積,得到多尺度特征,并動(dòng)態(tài)地進(jìn)行特征的融合。
d)SwinTransformer:將移動(dòng)窗口機(jī)制引人到Transformer類模型中,緩解Transformer類模型在圖像識(shí)別領(lǐng)域計(jì)算復(fù)雜度高和局部窗口間無(wú)關(guān)聯(lián)的問(wèn)題。
e)ResMLP:提出基于多層感知機(jī)結(jié)構(gòu)的圖像識(shí)別網(wǎng)絡(luò),每一層中分別進(jìn)行跨分片和跨通道的交互,在沒(méi)有使用注意力和卷積操作的情況下,實(shí)現(xiàn)準(zhǔn)確度和復(fù)雜度的平衡。
f)VisionPermutator:提出基于多層感知機(jī)的圖像識(shí)別網(wǎng)絡(luò),在每一層結(jié)構(gòu)中對(duì)圖像沿著長(zhǎng)、寬和通道維度分別進(jìn)行線性投影來(lái)進(jìn)行特征編碼,保留更多空間信息。
對(duì)比模型與SI-MTF的實(shí)驗(yàn)結(jié)果如表1所示。
從表1結(jié)果可以發(fā)現(xiàn),SI-MTF在舌象-證型數(shù)據(jù)集上取得最優(yōu)結(jié)果。其中SwinTransformer、ResMLP和VisionPermutator未能取得更好的結(jié)果,可能是舌象噪聲部分對(duì)能捕獲更多全局信息的Transformer類模型和MLP類模型造成了干擾。雖然對(duì)比算法輸入是人工剪裁后的舌象區(qū)域,但仍然存在部分噪聲,如圖4所示,還有邊緣的皮膚、嘴唇和口腔區(qū)域。其中VisionPermutator受影響最大,可能是因?yàn)槠浣Y(jié)構(gòu)中分別對(duì)圖像從長(zhǎng)和寬維度進(jìn)行特征編碼,導(dǎo)致受到更多舌象無(wú)關(guān)的區(qū)域干擾。
另一方面,對(duì)比算法中最優(yōu)模型SK-Net通過(guò)結(jié)合多尺度特征信息,捕捉不同層次的舌象特征,準(zhǔn)確率(ACC)達(dá)到72.64% ,但是該算法沒(méi)有針對(duì)舌象的多視角(舌面和舌底)數(shù)據(jù)進(jìn)行處理的能力。而SI-MTF采用基于教師-學(xué)生網(wǎng)絡(luò)的特征融合方法,利用教師網(wǎng)絡(luò)生成軟標(biāo)簽,學(xué)生網(wǎng)絡(luò)提取特征并計(jì)算學(xué)生軟標(biāo)簽,然后通過(guò)蒸餾損失引導(dǎo)學(xué)生網(wǎng)絡(luò)更準(zhǔn)確地提取舌面和舌底的特征,準(zhǔn)確率(ACC)相比SK-Net有了4.11百分點(diǎn)的提高。
3.4參數(shù)討論
對(duì)模型參數(shù)進(jìn)行討論,包含學(xué)習(xí)率 lr? 比例參數(shù) τ 、特征提取網(wǎng)絡(luò)層數(shù) d 、蒸餾損失權(quán)重參數(shù) ρ 、分類損失權(quán)重參數(shù) θ 實(shí)驗(yàn)選取其余參數(shù)最佳值保持不變,對(duì)單個(gè)參數(shù)進(jìn)行實(shí)驗(yàn),用舌象-證型數(shù)據(jù)集中測(cè)試集的準(zhǔn)確率(ACC)作為模型性能評(píng)估。參數(shù)實(shí)驗(yàn)如圖5\~7和表2所示。
首先對(duì)學(xué)習(xí)率 lr 進(jìn)行討論,如圖5所示。模型在學(xué)習(xí)率為0.05時(shí),在舌象-證型測(cè)試數(shù)據(jù)集上取得最優(yōu)76. 75% 的準(zhǔn)確率。
然后對(duì)教師和學(xué)生軟標(biāo)簽的比例系數(shù) τ 進(jìn)行討論,如圖6所示。在比例系數(shù)為0.5的時(shí)候,模型對(duì)于證型的辨識(shí)取得最優(yōu)結(jié)果,當(dāng)比例系數(shù)高于或低于0.5時(shí),辨識(shí)準(zhǔn)確率都呈現(xiàn)下降趨勢(shì)。
接著對(duì)多路徑特征提取網(wǎng)絡(luò)模塊中特征提取層的層數(shù) d 進(jìn)行討論,如圖7所示,特征提取層在6層時(shí),能夠取得實(shí)驗(yàn)的最優(yōu)結(jié)果。當(dāng)特征提取層較少時(shí),導(dǎo)致模型提取舌象特征信息較少,模型表征能力不足;當(dāng)特征提取層數(shù)增加時(shí),導(dǎo)致模型訓(xùn)練參數(shù)量增加,存在過(guò)擬合的風(fēng)險(xiǎn)。因此特征提取層為6層時(shí),取得折中效果。
最后對(duì)蒸餾損失和分類損失的權(quán)重參數(shù)比例進(jìn)行討論,結(jié)果如表2所示。從表2中可以看出, ρ,θ 兩個(gè)參數(shù)在比例為2:1 時(shí),模型辨識(shí)準(zhǔn)確率取得最優(yōu)結(jié)果,可以看出在舌象辨識(shí)的過(guò)程中,舌面信息對(duì)于證型的辨識(shí)起到主要作用。
3.5消融實(shí)驗(yàn)
為了驗(yàn)證模型中多路徑密集連接神經(jīng)網(wǎng)絡(luò)、教師-學(xué)生網(wǎng)絡(luò)的有效性,對(duì)SI-MTF進(jìn)行消融實(shí)驗(yàn)。分別討論使用不同的特征提取模塊,以及是否使用教師-學(xué)生網(wǎng)絡(luò)對(duì)模型分類效果的影響,結(jié)果如表4、5所示。
采用兩種方案驗(yàn)證所提出的雙路徑密集連接對(duì)于舌象特征提取的作用,如圖8和9所示。一種是將舌面和舌底特征通過(guò)提前特征融合的方式送人單路徑特征提取網(wǎng)絡(luò)(圖8),另一種為分別將舌面和舌底特征圖各自送人一條單路徑特征提取網(wǎng)絡(luò)后再進(jìn)行融合的雙路徑特征提取模式(圖9)。從表4可以看出,雙路徑特征提取網(wǎng)絡(luò)對(duì)于舌象證型的辨識(shí)準(zhǔn)確率取得了最優(yōu)結(jié)果,相對(duì)于單路徑特征提取方法提高了7.51百分點(diǎn)。
為驗(yàn)證后處理模塊中所提出的教師學(xué)生網(wǎng)絡(luò)對(duì)于模型辨識(shí)準(zhǔn)確率的影響,采用均值相加的方式直接融合舌面和舌底特征,結(jié)果如表5所示,可以看出采用教師-學(xué)生網(wǎng)絡(luò)的特征融合方式能夠取得最優(yōu)結(jié)果。
3.6 噪聲干擾實(shí)驗(yàn)
為驗(yàn)證模型對(duì)于常見(jiàn)噪聲的抵抗能力,本文通過(guò)對(duì)原始測(cè)試集中不同比例的樣本添加高斯噪聲和泊松噪聲進(jìn)行對(duì)比實(shí)驗(yàn)。其中高斯噪聲和泊松噪聲分別是指圖片噪點(diǎn)的概率密度函數(shù)服從高斯分布(即正態(tài)分布)和泊松分布的噪聲[27]。添加噪聲后的圖像如圖10所示。
使用最佳模型在噪聲數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6所示。使用的模型為最佳參數(shù)設(shè)置下,在訓(xùn)練數(shù)據(jù)集上得到的最佳模型,無(wú)噪聲、高斯噪聲、泊松噪聲和嚴(yán)重高斯噪聲分別是原始測(cè)試集、添加高斯噪聲測(cè)試集(均值為0,方差為0.01)添加泊松噪聲測(cè)試集、添加高斯噪聲測(cè)試集(均值為0,方差為2)。實(shí)驗(yàn)結(jié)果表明,SI-MTF模型對(duì)噪聲具有一定的魯棒性,雖然在添加噪聲后模型準(zhǔn)確度出現(xiàn)下降,但在噪聲更加明顯的情況下,模型準(zhǔn)確度下降并不顯著。
3.7 案例分析
如表7所示,在基于舌象特征方面,對(duì)于舌體顏色特征、形狀特征、紋理特征比較明顯的案例(案例1、2),所提算法由于分別對(duì)舌質(zhì)、舌苔和舌底區(qū)域進(jìn)行特征提取,能夠準(zhǔn)確地提取舌體特征,以正確識(shí)別證型結(jié)果;對(duì)于案例3、4,雖然舌體圖像有一定的陰影遮擋,但是識(shí)別算法通過(guò)密集連接神經(jīng)網(wǎng)絡(luò)提取出其中舌體區(qū)域的隱藏特征,正確識(shí)別出證型,因此算法具有一定的魯棒性,但是所提算法準(zhǔn)確度受到采集圖像質(zhì)量影響。對(duì)于案例5和6,由于圖像清晰度較差,所以通過(guò)顏色等特征不能準(zhǔn)確識(shí)別其對(duì)應(yīng)的證型;對(duì)于案例7和8,由于在拍攝過(guò)程中環(huán)境光線較差,對(duì)識(shí)別顏色方面存在一定干擾,造成識(shí)別偏差現(xiàn)象。
因此后續(xù)模型會(huì)進(jìn)一步考慮模糊或者陰影遮罩情況下,添加圖像增強(qiáng)的預(yù)處理模塊對(duì)于舌象特征進(jìn)行加強(qiáng),減少非舌象特征對(duì)于結(jié)果的影響。此外,可以通過(guò)將患者的各種體征信息進(jìn)行特征化,并融入到基于舌象特征的證型辨識(shí)過(guò)程中,利用多模態(tài)學(xué)習(xí)的方式,提高證型辨識(shí)的準(zhǔn)確性。
4結(jié)束語(yǔ)
中醫(yī)舌象辨識(shí)研究是中醫(yī)舌診的重要組成部分,本文針對(duì)目前存在的證型辨識(shí)方法未充分考慮舌面和舌底特征對(duì)于證型診斷的作用,提出基于多視圖舌象特征融合的中醫(yī)證型辨識(shí)模型。分別對(duì)舌面和舌體采用舌體分割和舌象檢測(cè)的方法提取圖像中的關(guān)鍵舌象區(qū)域,采用多路徑密集連接神經(jīng)網(wǎng)絡(luò)提取舌面和舌底特征,最后通過(guò)教師-學(xué)生網(wǎng)絡(luò)融合舌面與舌底特征,根據(jù)特征信息輸出證型標(biāo)簽。為了驗(yàn)證所提模型性能,在舌象-證型數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn),包括參數(shù)討論、對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)、噪聲干擾實(shí)驗(yàn)和案例分析。實(shí)驗(yàn)結(jié)果表明,提出模型在證型辨識(shí)上具有較高的有效性,在舌象-證型數(shù)據(jù)集上達(dá)到 76.75% 的準(zhǔn)確率。
人工智能技術(shù)在醫(yī)學(xué)數(shù)據(jù)處理中得到了廣泛應(yīng)用,在各類數(shù)據(jù),包括醫(yī)學(xué)圖像、電子病歷和生理信號(hào)的處理、分類和分割上取得了成果。但是人工智能技術(shù)目前在醫(yī)學(xué)領(lǐng)域上也存在一些不足和限制,如依賴于高質(zhì)量標(biāo)注訓(xùn)練樣本,其需要大量的人力和時(shí)間進(jìn)行準(zhǔn)備;模型可解釋性不好,部分人工智能模型目前屬于“黑盒子”,只能給出相應(yīng)的結(jié)果,而沒(méi)有充分的理由支撐,使其分類結(jié)果的可靠性不佳;模型魯棒性不佳,應(yīng)用到復(fù)雜多變的臨床環(huán)境上,模型容易受各類噪聲的干擾,從而給出錯(cuò)誤的判斷。在未來(lái)的工作中,針對(duì)上述不足,筆者將設(shè)計(jì)智能模型提高模型性能,進(jìn)一步推進(jìn)中醫(yī)客觀化。
參考文獻(xiàn):
[1]李燦東,吳承玉.中醫(yī)診斷學(xué)[M].3版.北京:中國(guó)中醫(yī)藥出 版社,2O12.(LiCandong,Wu Chengyu.Diagnostics of traditional Chinese medicine[M].3rd ed.Beijing:ChinaPress of Traditional ChineseMedicine,2012.)
[2]謝寧,張國(guó)霞.中醫(yī)學(xué)基礎(chǔ)[M].4版.北京:中國(guó)中醫(yī)藥出版 社,2016.(XieNing,ZhangGuoxia.Fundamentals of Chinese medicine[M].4th ed.Beijing:China Press of Traditional Chinese Medicine,2016.)
[3]張晶.基于光譜法的中醫(yī)舌診客觀化[D].天津:天津大學(xué), ZUIU.( ZHang JIng. UvJecucauon uI tongue uIagnosis Im uauiuonal Chinese medicine based on spectroscopy[D]. Tianjin:Tianjin University,2010.)
[4]陳雪姣,王玉臣,王德才,等.中醫(yī)舌診客觀化研究的發(fā)展概況 [J].江西中醫(yī)藥,2012,43(1):72-75.(Chen Xuejiao,Wang Yuchen,Wang Decai,et al.Development of objectification research ontongue diagnosis in traditional Chinese medicine[J]. Jiangxi Journalof Traditional ChineseMedicine,2012,43(1):72-75.)
[5]樊威,李瀟瀟,丁江濤,等.人工智能在中醫(yī)舌診中的應(yīng)用探討 [J].光明中醫(yī),2019,34(1):37-40.(FanWei,LiXiaoxiao, Ding Jiangtao,et al.Discussion on the application of artificial intelligence in tongue diagnosis of traditional Chinese medicine[J].Guangming Journal of Chinese Medicine,2019,34(1):37-40.)
[6].陳家煒.基于深度學(xué)習(xí)的舌像和語(yǔ)音智能中醫(yī)輔助診斷研究 [D].廣州:華南理工大學(xué),2O23.(ChenJiawei.Research on Chinese medicine aided diagnosis based on intelligent tongue image and speech based on deep learning[D].Guangzhou:South China University of Technology, 2023.)
[7]莫國(guó)鳳,王燁,常娜娜,等.基于深度學(xué)習(xí)ConvNeXt模型的冠心 病痰濕證舌診信息分類辨識(shí)[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2024,21 (16):21-23,45.(Mo Guofeng,Wang Ye,Chang Nana,et al. Classification and identification of tongue diagnosis information of phlegmdampness syndrome of coronary heart disease based on deep learning ConvNeXt model[J].China Medical Herald,2024,21 (16):21-23,45.)
[8]董易杭,王建勛,王晶,等.基于深度學(xué)習(xí)的陽(yáng)虛質(zhì)與陰虛質(zhì)舌 象分類研究[J].中華中醫(yī)藥學(xué)刊,2024,42(7):27-30,261- 262.(Dong Yihang,Wang Jianxun,Wang Jing,et al. Study of tongue image classfication for Yang deficiency and Yin deficiency constitutions based on deep learning[J]. Chinese Archives of Traditional Chinese Medicine,2024,42(7):27-30,261-262.)
[9]陸俊紅,徐藝峰,王憶勤,等.基于計(jì)算機(jī)圖像技術(shù)的中醫(yī)舌形 客觀化研究概述[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2022,24 (11):4568-4573.(Lu Junhong,Xu Yifeng,Wang Yiqin,et al. Review of the objectification of TCM tongue shape based on computer image technology[J]. Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology, 2022,24(11) : 4568-4573.)
[10]張林子,周武,張洪來(lái).自動(dòng)舌診技術(shù)的研究進(jìn)展[J].中國(guó)中 醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2023,29(5):871-876.(ZhangLinzi,Zhou Wu,Zhang Honglai. Research progress of automatic tongue diagnosis technology[J].Journal of Basic Chinese Medicine,2023,29 (5): 871-876.)
[11]陳恩納,李圣燁,胡毓親,等.中醫(yī)舌診圖像采集與色彩信息分 析研究進(jìn)展[J].中華中醫(yī)藥雜志,2024,39(7):3586-3589. (ChenEnna,Li Shengye,Hu Yuqin,etal.Research progressin imageacquisition and color information analysis of tongue diagnosis in traditional Chinese medicine [J].China Journal of Traditional Chinese Medicine and Pharmacy,2024,39(7):3586-3589.)
[12]Tang Yonghui,Sun Yue,ChiangJY,et al.Research on multipleinstance learning for tongue coating classification [J]. IEEE Access,2021,9:66361-66370.
[13]杜表彗中醫(yī)壬質(zhì)特征的機(jī).哭學(xué)習(xí)模型研究「D]成都,由子科技 大學(xué),2020.(Du Chunhui. Study on machine learning model of tongue quality characteristics in traditional Chinese medicine[D]. Chengdu: UniversityofElectronic ScienceandTechnologyof China,2020.)
[14]Hu Yulong, Qiu Dehui, Wan Xiaohua,et al.A tongue feature extraction method based on a sublingual vein segmentation [C]// Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway,NJ:IEEE Press,2023:1138-1143.
[15]Lin Senlin,Song Xuekun,Xu Ziheng,et al.Moment invariants with data augmentation for tongue image segmentation [C]// Proc of IEEE International Conference on Bioinformatics and Biomedicine.Piscataway,NJ:IEEE press,2021:988-993.
[16]Wu Jiaze,Li Zijian, Cai Yiheng,et al. A novel tongue coating segmentation method based on improved TransUNet[J]. Sensors, 2024,24(14): 4455.
[17]Hu Yang,Wen Guihua,Luo Mingnan,et al.Fully-channel regional attention network for disease-location recognition with tongue images [J].Artificial Intelligence in Medicine,2021,118:102110.
[18]Balasubramaniyan S,JeyakumarV,NachimuthuD S.Panoramic tongue imaging and deep convolutional machine learning model for diabetes diagnosis in humans [J]. Scientific Reports,2022,12:186.
[19]Jiang Tao,Guo Xiaojing,Tu Liping,etal.Application of computer tongue image analysis technology in the diagnosis of NAFLD[J]. Computers in Biology and Medicine,2021,135:104622.
[20]ZhangNannan,Jiang Zhixing,Li Jinxing,et al.Multiple color representationand fusion fordiabetes mellitus diagnosis based on back tongue images[J].Computers in Biology and Medicine,2023, 155:106652.
[21]Xie Saining,Girshick R, Dollar P,et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017: 5987-5995.
[22]Huang Gao,Liu Zhuang,Van Der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press, 2017:2261-2269.
[23]Li Xiang, Wang Wenhai, Hu Xiaolin,et al. Selective kernel networks [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ: IEEE Press,2019:510-519.
[24]Liu Ze,Lin Yutong,Cao Yue,et al.Swin Transformer:hierarchical vision transformer using shifted windows [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021:9992-10002.
[25]Touvron H,BojanowskiP,Caron M,et al.ResMLP:feedforward networks for image classification with data-efficient training[J]. IEEE Trans on Pattemn Analysis and Machine Intelligence, 2023,45(4): 5314-5321.
[26]Hou Qibin,Jiang Zihang,Yuan Li,etal.Vision Permutator:a permutableMLP-like architecture forvisual recognition[J].IEEE Trans on Patterm Analysis and Machine Intelligence,2023,45 (1):1328-1334.
[27]胡學(xué)龍.?dāng)?shù)字圖像處理[M].4版.北京:電子工業(yè)出版社, 2020.(Hu Xuelong.Digital image processing[M]. 4th ed.Beijing:Publishing House of Electronics Industry,2020.)