潘思行,林 育,周蘇娟,黃展鵬
(1. 廣東藥科大學(xué)公共衛(wèi)生學(xué)院 廣州 510310;2. 廣州中醫(yī)藥大學(xué)臨床藥理研究所廣州 5100063. 廣東藥科大學(xué)醫(yī)藥信息工程學(xué)院 廣州 510006)
中醫(yī)體質(zhì)指的是體內(nèi)陰陽、氣血、津液盛衰變化引起的一種的反應(yīng)狀態(tài)[1],是體現(xiàn)機(jī)體對(duì)外界因素反應(yīng)性、易感性、傾向性的個(gè)性特質(zhì)。體質(zhì)的變化可以直接影響病證的形成、轉(zhuǎn)變和轉(zhuǎn)歸,是制約疾病發(fā)生、發(fā)展和變化的重要因素。舌受體內(nèi)氣血津液的滋養(yǎng),是反映人身體狀態(tài)的一扇窗戶。舌象表現(xiàn)也是中醫(yī)體質(zhì)分類最易掌握、最易客觀化的一項(xiàng)[2]。隨著計(jì)算機(jī)科學(xué)的發(fā)展,采用計(jì)算機(jī)輔助實(shí)現(xiàn)中醫(yī)舌診的客觀化研究已成為中醫(yī)現(xiàn)代化發(fā)展的熱點(diǎn)之一[3]。張季等利用數(shù)字化舌象多重分形譜特征參數(shù),構(gòu)建出自動(dòng)辨識(shí)舌象苔質(zhì)特征的神經(jīng)網(wǎng)絡(luò)分類器,取得了良好的識(shí)別效果[4]。張新峰通過粗糙集理論融合舌象的特征,構(gòu)建出基于概率輸出的體質(zhì)識(shí)別支持向量機(jī)分類器,為中醫(yī)舌象的輔助診斷提供了量化依據(jù)[5]。然而形體特征作為機(jī)體體質(zhì)的另一種外在表現(xiàn)形式,在體質(zhì)辨識(shí)研究中甚少論述。本文通過提取數(shù)字化舌象、形體特征并構(gòu)建人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和支持向量機(jī)(Support Vector Machine,SVM)兩種中醫(yī)體質(zhì)自動(dòng)辨識(shí)模型,探索中醫(yī)以舌辨質(zhì)的高效自動(dòng)識(shí)別方法,為中醫(yī)體質(zhì)辨識(shí)客觀化、規(guī)范化研究提供科學(xué)依據(jù),為中醫(yī)藥現(xiàn)代化的傳承和發(fā)展奠定了理論基礎(chǔ)。
選取自愿參與舌圖像數(shù)據(jù)采集和中醫(yī)體質(zhì)測(cè)定的受測(cè)者231 人,其中男100 人、女131 人。在光源恒定的現(xiàn)場(chǎng)采集舌圖像、測(cè)量形體數(shù)、收集體質(zhì)數(shù)據(jù),同時(shí)由兩名中醫(yī)師根據(jù)《中醫(yī)體質(zhì)分類與判定自測(cè)表》確定其體質(zhì)類型,再對(duì)采集的舌圖像進(jìn)行特征分析,取得客觀化的舌象數(shù)據(jù),經(jīng)相關(guān)性分析后建立基于舌象和形體特征的輔助中醫(yī)體質(zhì)辨識(shí)模型,并選擇分別用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)兩種模型進(jìn)行比較分析,在人工神經(jīng)網(wǎng)絡(luò)識(shí)別模型中分別采用單網(wǎng)絡(luò)多類輸出值網(wǎng)絡(luò)和一個(gè)網(wǎng)絡(luò)一個(gè)輸出網(wǎng)絡(luò)兩種,具體研究思路如圖1所示。
圖1 融合舌象和形體特征的中醫(yī)體質(zhì)辨識(shí)模型研究思路圖
圖2 舌圖像的特征分析
在體質(zhì)辨識(shí)中,采集的舌圖像需要進(jìn)行分析處理,取得舌象的顏色特征、紋理特征和齒痕特征的數(shù)據(jù),以和形體特征一起作為體質(zhì)辨識(shí)模型的輸入,在體質(zhì)辨識(shí)中融入舌象和形體等客觀化的信息。
研究在已經(jīng)提取舌所在區(qū)域的圖像上,采用最大類間方差法將舌圖像分割成舌質(zhì)和舌苔兩部分[6-7]。最大類間方差法先確定圖像的灰度閾值,然后用該圖像的所有像素點(diǎn)的灰度值與該閾值進(jìn)行比較,小于閾值的則直接將該像素的灰度值賦值為0,大于該閾值的則直接將該像素點(diǎn)的灰度值賦值為255,由此便可將圖像劃分為兩類區(qū)域,通過不斷地調(diào)整閾值,找到使區(qū)域的類間方差達(dá)到最大或者類內(nèi)方差最小的閾值,從而達(dá)到區(qū)域劃分成舌質(zhì)和舌苔的目的,其舌質(zhì)和舌苔的分析效果如圖2 所示,圖2(a)為舌圖像的原圖,圖2(b)和圖2(c)分別為用最大類間方差法分割后的舌苔和舌質(zhì)圖,以便用于舌苔紋理特征分析和舌質(zhì)與舌苔的顏色特征分析。
在分割了舌苔和舌質(zhì)的基礎(chǔ)上,需要分析舌象的顏色特征。傳統(tǒng)RGB(即紅綠藍(lán)三原色)色彩模式是工業(yè)界的一種顏色標(biāo)準(zhǔn),通過改變紅色(Red)、綠色(Green)、藍(lán)色(Blue)三種顏色深淺變化和疊加程度得到各式各樣的顏色。由于R、G、B 三個(gè)分量之間相關(guān)性高,且RGB 彩色空間色彩均勻性較差,無法用空間距離來度量兩種色彩的相似性,而HSI(Hue-Saturation-Intensity,HSI)色彩空間用色調(diào)、飽和度和亮度來描述色彩,亮度分量與色度分量是分開的,比傳統(tǒng)RGB 色彩空間更符合人的視覺特性,適合于彩色特性檢測(cè)和分析。因此在舌象的顏色特征表示上選擇HSI顏色空間計(jì)算其色調(diào)和飽和度分量的值,這兩個(gè)分量與患者舌象的色彩特征聯(lián)系緊密。RGB空間轉(zhuǎn)化為HSI空間的公式如下:
上述式中的R、G和B分別表示RGB顏色空間中紅色、綠色和藍(lán)色分量的值。
利用式(1)、式(2)和式(3)將已經(jīng)分割的舌苔和舌質(zhì)彩色圖像變換到HSI 顏色空間,然后計(jì)算色調(diào)和飽和度分量的均值,以此作為舌苔和舌質(zhì)的顏色特征值。
依據(jù)分割后的舌質(zhì)和舌苔區(qū)域,依據(jù)中醫(yī)體質(zhì)辨識(shí)主要依賴舌質(zhì)和舌苔的顏色以及舌苔的紋理等情況,根據(jù)式(1)和式(2)分別計(jì)算舌質(zhì)和舌苔的色調(diào)和飽和度值的均值,而舌苔的紋理特征通過分析舌苔區(qū)域的亮度均值和平滑度來描述。舌苔的亮度均值計(jì)算公式:
其中,zi是表示亮度的一個(gè)隨機(jī)變量,p(zi)是一個(gè)區(qū)域中的灰度級(jí)的直方圖,L為可能的亮度級(jí)數(shù)。
舌苔的平滑度計(jì)算公式:
齒痕是指舌體邊緣見牙齒的痕跡,多因舌體胖大而受齒緣壓迫所致,其對(duì)臨床辨證論治有很大的指導(dǎo)意義,因此將齒痕作為舌象特征引入體質(zhì)辨識(shí),采用基于道格拉斯-普克法刪除冗余頂點(diǎn)的舌齒痕個(gè)數(shù)提取方法,該方法能有效保持原曲線大波峰而過濾小波峰,有利于舌齒痕特征的提取[8]。其基本思路是:對(duì)每一條曲線的首末點(diǎn)虛連一條直線,求所有點(diǎn)與直線的距離,并找出最大距離值dmax,用dmax與限差D 相比:若dmax<D,這條曲線上的中間點(diǎn)全部舍去;若dmax≥D,保留dmax對(duì)應(yīng)的坐標(biāo)點(diǎn),并以該點(diǎn)為界,把曲線分為兩部分,對(duì)這兩部分重復(fù)使用該方法,將統(tǒng)計(jì)的齒痕的數(shù)目作為中醫(yī)體質(zhì)辨識(shí)中舌象特征的一個(gè)重要指標(biāo)。其分析結(jié)果如圖2(d)所示,綠色為齒痕的區(qū)域,圖中紅色正方形為算法識(shí)別的齒痕,據(jù)此統(tǒng)計(jì)齒痕的數(shù)目。
形體研究中形體特征采用身體質(zhì)量指數(shù)(Body Mass Index,BMI),數(shù)據(jù)采集過程中,身高和體重分別用卷尺(研究對(duì)象直立靠墻壁,三角板壓頭皮,測(cè)量裸足腳底距三角板的距離,精確至0.001 m)和電子體重秤測(cè)量(精確至0.1 kg),用體重公斤數(shù)除以身高米數(shù)平方得出的數(shù)字即為受測(cè)者的BMI值。
基于上述步驟的計(jì)算,分別得到了舌苔和舌質(zhì)的色調(diào)和飽和度值,舌苔的亮度均值和平滑度,以及齒痕數(shù)目和代表形體特征的BMI 值,由于這些值差異較大,為了使上述8個(gè)屬性值具有相同的權(quán)重,本文采用高斯歸一化方法進(jìn)行歸一化處理。設(shè)V=[v1,v2,v3…vN],為V的均值,σ為V的標(biāo)準(zhǔn)差,歸一化處理:
對(duì)大于1 和小于-1 的值分別取1 和-1,以保證所有值均落在[-1,1]的區(qū)間,使得上述屬性值在中醫(yī)體質(zhì)辨識(shí)中具有同等的權(quán)重。
人工神經(jīng)網(wǎng)絡(luò)是由多個(gè)相互關(guān)聯(lián)的神經(jīng)元連接構(gòu)成的網(wǎng)狀系統(tǒng),該系統(tǒng)可以根據(jù)現(xiàn)有信息不斷自主學(xué)習(xí)并自動(dòng)完善自身結(jié)構(gòu)。人工神經(jīng)網(wǎng)絡(luò)利用自帶的學(xué)習(xí)函數(shù)將每一條樣本數(shù)據(jù)構(gòu)造成一對(duì)“輸入值/目標(biāo)輸出值”的映像關(guān)系[9],并通過這種充分的訓(xùn)練獲得對(duì)該類數(shù)據(jù)的自動(dòng)識(shí)別能力。根據(jù)神經(jīng)元之間的不同連接方式(拓?fù)浣Y(jié)構(gòu)),人工神經(jīng)網(wǎng)絡(luò)可分為:?jiǎn)尉W(wǎng)絡(luò)多類輸出值網(wǎng)絡(luò)(All Class in One Network,ACON)、一個(gè)網(wǎng)絡(luò)一個(gè)輸出網(wǎng)絡(luò)(One Class in One Network,OCON)兩種。
3.1.1 ACON神經(jīng)網(wǎng)絡(luò)模型
其網(wǎng)絡(luò)包括三層:輸入層、中間層(隱藏層)和輸出層,網(wǎng)絡(luò)訓(xùn)練算法常見的是誤差反向傳播算法。訓(xùn)練過程主要分為計(jì)算輸出值和調(diào)整網(wǎng)絡(luò)權(quán)值兩個(gè)過程。1.計(jì)算輸出值:網(wǎng)絡(luò)接收輸入層的所有舌象和形體的特征向量,并在隱藏層給每一個(gè)向量分配初始權(quán)值和閾值再通過運(yùn)算得到四種體質(zhì)的輸出值。2.調(diào)整網(wǎng)絡(luò)權(quán)值:網(wǎng)絡(luò)將輸出值與目標(biāo)輸出值進(jìn)行比較,計(jì)算各層的輸出誤差并通過該誤差調(diào)整輸入層和隱層、隱藏和輸出層之間的連接權(quán)值和閾值。然后重新開始計(jì)算新的四種體質(zhì)的輸出值(反復(fù)迭代的過程),直到網(wǎng)絡(luò)的實(shí)際輸出與目標(biāo)輸出之間的誤差達(dá)到了可以接受的范圍或者迭代的次數(shù)達(dá)到了預(yù)先設(shè)定的最大值為止。ACON神經(jīng)網(wǎng)絡(luò)中醫(yī)體質(zhì)辨識(shí)如圖3所示。
3.1.2 OCON神經(jīng)網(wǎng)絡(luò)模型
研究中該網(wǎng)絡(luò)由四種體質(zhì)預(yù)測(cè)網(wǎng)絡(luò)組成,通過一系列運(yùn)算構(gòu)造輸入特征向量與體質(zhì)輸出之間映像關(guān)系,從而實(shí)現(xiàn)體質(zhì)的辨識(shí)。每個(gè)網(wǎng)絡(luò)結(jié)構(gòu)與ACON 類似,但只有一個(gè)輸出值,即每一種體質(zhì)都單獨(dú)創(chuàng)建一個(gè)網(wǎng)絡(luò)。由于單個(gè)網(wǎng)絡(luò)輸出少,每個(gè)網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單、運(yùn)算更快捷、更容易訓(xùn)練,但需要針對(duì)每種體質(zhì)構(gòu)建一個(gè)中醫(yī)體質(zhì)識(shí)別模型,其中醫(yī)體質(zhì)辨識(shí)模型如圖4所示。
支持向量機(jī)是一種二元分類器,其結(jié)構(gòu)大致可以分為輸入層、核空間和輸出層。其原理是統(tǒng)計(jì)學(xué)習(xí)理論的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,追求在現(xiàn)有信息下的最優(yōu)解的過程。支持向量機(jī)通過映射函數(shù)將低維特征向量映射到高維空間里,然后尋找一個(gè)最優(yōu)的超平面將向量充分分割,使分割后的兩部分?jǐn)?shù)據(jù)點(diǎn)離平面的距離最遠(yuǎn)。分類過程的關(guān)鍵是利用核函數(shù)把復(fù)雜的分類過程通過映射轉(zhuǎn)化成一個(gè)線性可分問題[10]。
支持向量機(jī)算法的原理就是找到一個(gè)分割超平面,它能把數(shù)據(jù)正確的分類,并且間距最大,線性可分的支持向量機(jī)模型如圖5 所示,H 為分類面,H1 和H2上的點(diǎn)為分類的支持向量。對(duì)于非線性可分的數(shù)據(jù),采用徑向基核函數(shù)為內(nèi)積核函數(shù),是一種沿徑向?qū)ΨQ用于計(jì)算空間中任一點(diǎn)到某一中心間歐氏距離的單調(diào)函數(shù),本研究采用高斯徑向基函數(shù)核,對(duì)于每種中醫(yī)體質(zhì)分別建立支持向量機(jī)辨識(shí)模型,利用現(xiàn)有舌象和形體特征以及中醫(yī)體質(zhì)數(shù)據(jù)進(jìn)行訓(xùn)練,然后辨識(shí)模型可識(shí)別測(cè)試的數(shù)據(jù)是否為該體質(zhì)。
根據(jù)采集的舌圖像、形體和性別數(shù)據(jù),以及對(duì)應(yīng)的中醫(yī)體質(zhì)辨識(shí)結(jié)果,利用Matlab 編寫程序,對(duì)舌圖像的顏色特征、紋理特征和齒痕特征進(jìn)行分析處理,取得對(duì)應(yīng)的特征值并進(jìn)行歸一化處理,用SPSS對(duì)中醫(yī)體質(zhì)與上述特征的相關(guān)性進(jìn)行分析,以篩選有用的特征量用于體質(zhì)辨識(shí),再導(dǎo)入Matlab 編寫的神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型進(jìn)行中醫(yī)體質(zhì)辨識(shí)。神經(jīng)神經(jīng)網(wǎng)絡(luò)的隱含層的神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)為10,訓(xùn)練函數(shù)為附加動(dòng)量的梯度下降法;支持向量機(jī)采用二次核函數(shù),其它參數(shù)為默認(rèn)值。
圖3 ACON神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中醫(yī)體質(zhì)識(shí)別模型示意圖
圖4 OCON神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中醫(yī)體質(zhì)識(shí)別模型示意圖
圖5 支持向量機(jī)的分類模型示意圖
由于體質(zhì)分布的差異,采集的樣本中陽虛質(zhì)、痰濕質(zhì)、濕熱質(zhì)、血瘀質(zhì)和特稟質(zhì)等五種體質(zhì)的樣本數(shù)量低于30 例,模型的訓(xùn)練和測(cè)試的穩(wěn)定性較差,剔除上述五種體質(zhì)后剩余樣本共184 例,其中平和質(zhì)90例,氣虛質(zhì)45 例,陰虛質(zhì)62 例和氣郁質(zhì)50 例,因中醫(yī)體質(zhì)存在兼質(zhì),四種體質(zhì)的樣本例數(shù)之和大于剩余樣本總數(shù)。在對(duì)平和質(zhì)、氣虛質(zhì)、陰虛質(zhì)、氣郁質(zhì)四種體質(zhì)與性別、形體質(zhì)量指數(shù)和舌象特征進(jìn)行相關(guān)性分析的基礎(chǔ)上,利用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)進(jìn)行中醫(yī)體質(zhì)自動(dòng)辨識(shí)研究。
表1 中醫(yī)體質(zhì)類型與性別、舌象和形體特征的相關(guān)系數(shù)
相關(guān)系數(shù)是變量之間線性相關(guān)程度的指標(biāo),取值范圍在[-1,1]之間,正數(shù)為正相關(guān),負(fù)數(shù)為負(fù)相關(guān),本文采用皮爾遜相關(guān)系數(shù),其定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商。本研究對(duì)各變量歸一化后值與四種體質(zhì)做相關(guān)性分析,結(jié)果顯示,中醫(yī)體質(zhì)與舌象和形體特征存在一定的相關(guān)性,其舌的齒痕特征、身體質(zhì)量指數(shù)和舌苔的色調(diào)的相關(guān)性較大,如表1 所示。舌質(zhì)的飽和度分量與四種體質(zhì)的相關(guān)性太低,在后續(xù)的中醫(yī)體質(zhì)模型辨識(shí)中不予納入。
為保證最終分類科學(xué)性、準(zhǔn)確性和可重復(fù)性,本研究采用隨機(jī)抽取樣本并多次訓(xùn)練的方法,最終預(yù)測(cè)結(jié)果取平均值。每次隨機(jī)抽取70%的樣本訓(xùn)練,剩余30%樣本用于預(yù)測(cè),重復(fù)10 次訓(xùn)練,取所有預(yù)測(cè)結(jié)果平均值作為最終辨識(shí)的結(jié)果。對(duì)于ACON神經(jīng)網(wǎng)絡(luò)模型,體質(zhì)數(shù)據(jù)分別用不同的值代表不同的體質(zhì),將所有訓(xùn)練數(shù)據(jù)導(dǎo)入模型進(jìn)行訓(xùn)練,然后利用模型根據(jù)輸入的測(cè)試數(shù)據(jù)中的舌象和形體特征數(shù)據(jù)進(jìn)行體質(zhì)辨識(shí);OCON 神經(jīng)網(wǎng)絡(luò)模型則需要為每種體質(zhì)建立一個(gè)模型,然后將訓(xùn)練數(shù)據(jù)中屬于該體質(zhì)的體質(zhì)類型值設(shè)為1,其它為0,對(duì)模型進(jìn)行訓(xùn)練,再用測(cè)試數(shù)據(jù)中的舌象和形體特征數(shù)據(jù)作為輸入對(duì)所有的模型進(jìn)行測(cè)試,以此計(jì)算其準(zhǔn)確性;支持向量機(jī)模型的訓(xùn)練和測(cè)試方法與OCON 神經(jīng)網(wǎng)絡(luò)模型類似,需要對(duì)每種體質(zhì)建立模型,測(cè)試也需要將輸入導(dǎo)入所有模型得到其辨識(shí)結(jié)果。由表2 可知,支持向量機(jī)在測(cè)試的四種體質(zhì)中總體表現(xiàn)優(yōu)于人工神經(jīng)網(wǎng)絡(luò),故可見在樣本量不大的情況下進(jìn)行輔助中醫(yī)體質(zhì)辨識(shí),支持向量機(jī)的總體準(zhǔn)確率較高。
表2 基于支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)體質(zhì)辨識(shí)準(zhǔn)確率比較/%
現(xiàn)代中醫(yī)體質(zhì)學(xué)在中醫(yī)治未病領(lǐng)域,將體質(zhì)分為平和(健康)體質(zhì)和偏頗體質(zhì)兩大類,主張?jiān)诩膊“l(fā)病前糾正偏頗體質(zhì)狀態(tài),以達(dá)到預(yù)防疾病、防患于未然的效果[11]。此外,深入剖析偏頗體質(zhì)在疾病產(chǎn)生對(duì)應(yīng)證型的過程中所起的從化作用,可以從體質(zhì)角度闡明同一疾病在不同個(gè)體間存在證型差異的原因,發(fā)揮中醫(yī)個(gè)性化“治未病”獨(dú)特優(yōu)勢(shì)[12]。袁尚華等[13]分析正常高值血壓人群中醫(yī)體質(zhì)與血壓值相關(guān)性,發(fā)現(xiàn)復(fù)合偏頗體質(zhì)多見,為開展中醫(yī)高血壓“未病”體質(zhì)干預(yù)提供科學(xué)依據(jù)?;趥鹘y(tǒng)以望診、問診為主的中醫(yī)體質(zhì)辨識(shí)方法受主觀化影響較大的特點(diǎn),客觀化的辨識(shí)技術(shù)為中醫(yī)診療現(xiàn)代化開拓了新的出路。
舌診是中醫(yī)辨識(shí)體質(zhì)的常用望診方法之一。臟腑之寒熱虛實(shí)、氣血之興盛衰敗,皆可由舌象變化間接顯現(xiàn)。黃婧文等[14]分析糖脂代謝病患者體質(zhì)類型及舌象特點(diǎn),發(fā)現(xiàn)患者以氣虛質(zhì)居多(40%),舌象以淡紅舌薄白苔為主。羊琪琪等[15]采用舌面一體儀分析學(xué)齡前兒童體質(zhì)類型與舌色色調(diào)的關(guān)系,發(fā)現(xiàn)不同偏頗體質(zhì)者舌質(zhì)的紅色、綠色、藍(lán)色和色調(diào)各有不同(P<0.05),兩者之間存在明顯的相關(guān)性。形體主要指人體高矮胖瘦的身形體態(tài)特征,是人體體質(zhì)狀況的另一種間接反映,與人體體質(zhì)關(guān)聯(lián)緊密,引入客觀化的形體特征有利用提升中醫(yī)體質(zhì)辨識(shí)的客觀化水平。綜上,融合舌象特征和形體特征的客觀化診斷技術(shù),在中醫(yī)體質(zhì)輔助辨識(shí)中具有較好的研究價(jià)值。
人工神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)系統(tǒng)原理的新型智能信息處理系統(tǒng),擁有并行分布式處理、自學(xué)習(xí)、良好容錯(cuò)性等特點(diǎn)[16],現(xiàn)已普遍用于中醫(yī)藥領(lǐng)域。田艷鵬等運(yùn)用徑向基和多層感知器人工神經(jīng)網(wǎng)絡(luò)分別構(gòu)建高血壓病痰濕壅盛證診斷模型,測(cè)試準(zhǔn)確率均超過90%[17]。羅悅等采用人工神經(jīng)網(wǎng)絡(luò),構(gòu)建中醫(yī)體質(zhì)與體檢指標(biāo)關(guān)聯(lián)模型,學(xué)習(xí)誤差可以控制到0.001[18]。趙書穎等采用多層感知器、徑向基函數(shù)人工神經(jīng)網(wǎng)絡(luò)建立高血壓病陰陽兩虛證診斷模型,測(cè)試正確率達(dá)到93.9%、96.3%[19]。人工神經(jīng)網(wǎng)絡(luò)的主要優(yōu)點(diǎn)有:1.對(duì)高維數(shù)據(jù)的分類更準(zhǔn)確、更高效;2.建模前不需要考慮變量間的交互作用、線性和非線性關(guān)系[20]。其缺點(diǎn)是:1.對(duì)網(wǎng)絡(luò)構(gòu)建需要有一定的先驗(yàn)知識(shí)基礎(chǔ),涉及結(jié)構(gòu)選擇問題,局部極小值問題,過度擬合問題等。2.當(dāng)樣本量過大、隱含層層數(shù)或神經(jīng)元個(gè)數(shù)過多時(shí),會(huì)使網(wǎng)絡(luò)復(fù)雜化,訓(xùn)練時(shí)間延長。
支持向量機(jī)是近年興起在中醫(yī)藥領(lǐng)域的基于統(tǒng)計(jì)學(xué)風(fēng)險(xiǎn)最小原理分類預(yù)測(cè)算法,可以根據(jù)有限信息在簡(jiǎn)化模型和保證學(xué)習(xí)能力之間尋求全局最優(yōu)方法,具很好的推廣性[16]。許明東等運(yùn)用支持向量機(jī)算法探討高血壓中醫(yī)證候與血脂、血尿酸、空腹血糖的關(guān)系,最終總體識(shí)別準(zhǔn)確率高達(dá)90.8%[21]。闞紅星等根據(jù)2型糖尿病3 種證型的舌象特征,提取舌體、舌苔及舌質(zhì)的顏色、裂紋和胖大特征值,實(shí)現(xiàn)2型糖尿病的中醫(yī)證型識(shí)別,其靈敏度達(dá)到93.85%[22]。支持向量機(jī)的優(yōu)點(diǎn)是不需要先知經(jīng)驗(yàn),通過目標(biāo)向量從低維空間向高維映射的方法,將復(fù)雜分類轉(zhuǎn)化成簡(jiǎn)單的線性可分問題。很好地解決小樣本、非線性、高維數(shù)和局部最小等實(shí)際問題[5]。支持向量機(jī)的缺點(diǎn)是這種二次型尋優(yōu)算法,面對(duì)大樣本時(shí)模型訓(xùn)練的速度會(huì)變慢,適用性會(huì)受到影響。
本研究中人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的辨識(shí)結(jié)果顯示,舌象、形體特征在中醫(yī)體質(zhì)臨床辨識(shí)中起到重要作用,有利于提升中醫(yī)體質(zhì)識(shí)別的客觀化水平。人工神經(jīng)網(wǎng)絡(luò)是受生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而構(gòu)建的算法模型,其需要大量數(shù)據(jù)進(jìn)行訓(xùn)練;支持向量機(jī)是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法,最大化分類邊際的思想是支持向量機(jī)方法的核心,支持向量機(jī)的最終決策函數(shù)只由少數(shù)的支持向量所確定。研究結(jié)果也表明,在樣本量不大的情況下,支持向量機(jī)的體質(zhì)辨識(shí)效果要優(yōu)于人工神經(jīng)網(wǎng)絡(luò),而人工神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)中又以單網(wǎng)絡(luò)多類輸出值網(wǎng)絡(luò)更優(yōu)。分析結(jié)果中存在的陰虛質(zhì)的支持向量機(jī)識(shí)別率較低的原因可能與陰虛質(zhì)的體質(zhì)特征區(qū)分度不高相關(guān),導(dǎo)致支持向量確定的支持向量難于有效地區(qū)分是否為陰虛質(zhì)。