黃曉祥,胡詠梅,吳 丹,任力杰
(1.山東大學控制科學與工程學院,濟南 250061;2.中國科學院深圳先進技術研究院,廣東深圳 518055;3.深圳市第二人民醫(yī)院神經內科,廣東深圳 518028)
腦卒中是一種急性腦血管疾病,也是全球第二大致死和第一大致殘疾病,它是由腦部血管突然破裂或因血管阻塞導致血液不能流入大腦而引起腦組織損傷的一組疾病,它的發(fā)病率在發(fā)展中國家仍不斷上升[1]。由于它更多的是造成殘疾,因此病人需要更長的住院時間和更多的照顧,這對個人和家庭也是一種沉重的負擔[2]。據(jù)世界衛(wèi)生組織統(tǒng)計,全球每年約有1 500 萬人患腦卒中,預計到2030 年,這一數(shù)字還將增加340 萬[3]。大量研究表明,頸動脈病變,如頸動脈內中膜厚度增加(Carotid Intima Media Thickness,CIMT)或頸動脈斑塊等是動脈粥樣硬化性心血管疾病(AtheroSclerotic CardioVascular Disease,ASCVD)的亞臨床病理表現(xiàn),進而導致缺血性卒中的發(fā)生[4-6]。頸動脈壁增厚與一些可改變的危險因素,如高血壓、抽煙、飲酒和缺乏體育鍛煉等有關[7]。因此,早期發(fā)現(xiàn)頸動脈異常不僅能夠識別易患腦卒中的人群,而且通過預防干預也可以延緩和避免急性臨床事件的發(fā)生。
在臨床實踐中,B 超是診斷和評估頸動脈異常包括CIMT、頸動脈斑塊和頸動脈狹窄等的有效工具之一[8-9]。然而,受制于有限的醫(yī)療資源,頸動脈超聲檢查在大規(guī)模的腦卒中篩查中是耗時且昂貴的,特別是在欠發(fā)達國家和發(fā)展中國家的偏遠地區(qū)。因此,有必要利用人工智能技術建立一種簡單的基于生理檢查和電子病歷(Electronic Medical Record,EMR)的頸動脈異常早期識別方法,這不僅有助于早期篩查腦卒中,同時也能促進數(shù)字化醫(yī)學的發(fā)展。現(xiàn)有的包括機器學習、深度學習等在內的人工智能技術都是以數(shù)據(jù)為基礎的,因此,建立可靠的模型需要足夠的、完整的數(shù)據(jù)集。然而醫(yī)學數(shù)據(jù)的獲取又是不易的,而且由于系統(tǒng)性、偶然性或是人為過失等緣故,數(shù)據(jù)總是不可避免會出現(xiàn)缺失。粗略地去除含有缺失值的數(shù)據(jù)將減少樣本容量,并最終影響所建模型的效果。因此,如何處理缺失數(shù)據(jù)也是衛(wèi)生信息學研究中另一個常見而又具有挑戰(zhàn)性的問題。
本文以容易獲得的個體體格信息、常規(guī)體檢信息和家族病史作為特征屬性,以頸動脈超聲檢查結果作為標簽建立識別和預測異常頸動脈的模型,初步確定頸動脈病變,包括CIMT、頸動脈狹窄和斑塊等頸動脈異常情況,進而輔助腦卒中的早期篩查。
K近鄰(K-Nearest Neighbors,KNN),均值和眾數(shù)常被用來填補缺失數(shù)據(jù),而VAE 常用來生成新樣本數(shù)據(jù)。為了處理缺失值,本文提出了兩種缺失數(shù)據(jù)填補方法:一是KNN、均值和眾數(shù)混合的方法(Mixture of mean,mode andKNN,MKNN);二是改進的變分自編碼器(Variational AutoEncoder,VAE),分別運用這兩種方法對樣本中含有的缺失值進行填補。利用遺傳算法(Genetic Algorithm,GA)[10]對樣本含有的屬性特征進行篩選并結合邏輯回歸(Logistic Regression,LR)[11]、支持向量機(Support Vector Machine,SVM)[12]、隨機森林(Random Forest,RF)[13]和極限梯度提升樹(eXtreme Gradient Boosting Tree,XGBT)[14]四種有監(jiān)督學習方法建立異常頸動脈分類模型,評估MKNN和改進的VAE兩種數(shù)據(jù)填補方法的效果。最后建立基于改進的VAE的半監(jiān)督異常頸動脈預測模型。
本文的主要工作包括以下幾個方面:
1)運用MKNN 以及改進的VAE 分別對含有缺失值的樣本數(shù)據(jù)進行填補。
2)運用多種方法對特征進行分析并排序。
3)運用不同的分類方法結合GA 對缺失值填補前后的數(shù)據(jù)進行建模,發(fā)現(xiàn)基于改進的VAE的半監(jiān)督模型性能最好。
目前關于腦卒中的研究,大都致力于探尋卒中風險因子,或是對預后腦卒中發(fā)展情況進行預測。文獻[7]基于統(tǒng)計學方法,通過線性回歸系數(shù)來衡量與腦卒中關系密切的風險因素和疾病。文獻[15-16]通過顯著性檢驗、皮爾森相關系數(shù)等建立線性風險評分模型,預測干預后卒中的死亡和致殘情況。在腦卒中的早期預測方面,文獻[17]提出了Framingham 風險評分模型來預測未來10 年腦卒中發(fā)病風險,它是通過多年大量的研究,針對5 個危險因子建立的分層表。文獻[18]中基于國內實際情況建立了心血管風險預測方法——China-PAR(Prediction for ASCVD Risk in China),這是一種預測10 年內腦卒中發(fā)病風險的模型,與國際上的Framingham 風險評分模型類似,不過它加入了體現(xiàn)中國人群腦卒中風險特征的因素,因此更適合預測中國人的情況。然而,這些方法都是基于數(shù)理統(tǒng)計方法建立的線性分析模型,未能很好地探索存在的非線性關系;并且預測的是10 年期的發(fā)病風險,時間范圍太大。這些都將不同程度地影響模型的性能。
近年來,隨著計算機技術的快速發(fā)展,機器學習方法越來越多地應用于疾病診斷和預測方面,如糖尿病的預測[19]、癌癥的診斷和預測[20]、風濕病的研究[21]、慢性肝病的預測[22]等。2017 年,文獻[23]指出機器學習算法相較于傳統(tǒng)線性模型可以提高心血管疾病風險預測的準確性。隨后,許多研究者致力于在機器學習方法如RF 和SVM 的基礎上進行更準確的預測或分類。本文主要解決兩個問題:一是缺失值的填補;二是利用容易獲得的調查信息和體格檢查,建立異常頸動脈識別和預測模型,間接達到大規(guī)模腦卒中初步篩查的目的。
本章主要介紹缺失數(shù)據(jù)填補、特征排序、GA、有監(jiān)督學習模型以及模型評估方法。重點闡述了改進的變分自編碼器的原理和具體實現(xiàn)過程。
2.1.1 MKNN
考慮到男性和女性不同的生理特征,對不同性別分別處理,過程如下:
1)將數(shù)據(jù)集按照性別分為兩類,分別處理每一類。
2)對數(shù)據(jù)進行歸一化,轉化到區(qū)間[0,1]上。
3)對于腰圍,根據(jù)身高和體重,采用KNN 來尋找最近值,然后填補,設置K=1。
4)對于連續(xù)變量,使用平均值來填充;對于離散變量,使用眾數(shù)進行填補。
5)將處理后的兩個類合并,作為填補所得數(shù)據(jù)集。
2.1.2 改進的VAE
文獻[24]首次提出VAE,它是一種深層生成模型,基于的原理是:對于任意一個n維的隨機變量X,總是可以用n個服從標準正態(tài)分布的隨機變量Z通過一個足夠復雜的函數(shù)去逼近它。該方法的分布可以表示為:
其中:P(X)為隨機變量X的分布函數(shù),P(Z)為標準正態(tài)分布,P(X|Z)為變量X的后驗分布。根據(jù)這個后驗分布進行采樣,就能夠得到與變量X類似的生成變量,即達到了數(shù)據(jù)生成的目的。P(X|Z)即可認為是上面提到的所謂的足夠復雜的函數(shù),它由稱為解碼器的神經網(wǎng)絡計算所得。這種方法被廣泛應用于圖像、文本、視頻和人機交互[25-27]等各個方面。該算法能夠有效模擬大型高維度數(shù)據(jù)集的分布情況,生成與原始真實數(shù)據(jù)相似的新數(shù)據(jù),但不能直接適用于混合有連續(xù)和離散值并且包含缺失值的數(shù)據(jù)。
文獻[28]提出了一種可以處理異質(同時存在連續(xù)值和離散值)不完整數(shù)據(jù)的變分自編碼器,它不僅能夠處理連續(xù)值,而且也能夠處理分類值、計數(shù)值和序數(shù)值等離散值,同時也能夠補全不完整的數(shù)據(jù)。本文對該變分自編碼器進行了優(yōu)化,包括超參數(shù)的調整、dropout 層的使用以及目標函數(shù)的改進,結果表明改進的VAE 對于本實驗的樣本集效果更好。首先,由編碼器構建一個混合高斯分布,代表離散值和連續(xù)值的后驗概率分布;然后,據(jù)此采樣兩個隱變量;其次,由解碼器假設兩個先驗分布,對于連續(xù)變量構建標準正態(tài)分布,對于離散變量構建均勻分布;同時,解碼器還包括兩個似然函數(shù)模型,這兩個似然函數(shù)根據(jù)采樣的隱變量產生與原始樣本近似的生成樣本。優(yōu)化函數(shù)包括兩個部分:一是重構誤差,它度量了生成樣本和原始樣本之間的差異,用均方誤差來計算;另一個是后驗分布與先驗分布之間的差異。用交叉熵(cross entropy)來度量離散變量分布之間的差異,用KL(Kullback-Leibler)散度[29]度量連續(xù)變量分布之間的差異。優(yōu)化函數(shù)的計算不包括缺失部位的數(shù)據(jù)。具體設計步驟如下:
1)編碼器構建在X條件下的高斯混合后驗分布q(S|X)和q(Z|S,X),依此進行采樣得到隱變量S和Z,并將之輸入到解碼器用來生成新樣本。S代表獨熱編碼向量空間,包含了混合高斯分布的均值和方差信息,Z代表隱變量空間,用來生成新數(shù)據(jù)。
2)解碼器創(chuàng)建高斯混合先驗分布p(S)和p(Z|S),并根據(jù)p(X,Z,S)采樣生成新樣本。對于連續(xù)數(shù)據(jù),假設高斯似然分布p(X|Z);對于分類數(shù)據(jù),使用多項式p(x=r|Z)來表示每個類別的概率分布,r為離散值。H代表隱藏層的輸出。
3)批處理數(shù)據(jù)歸一化(Batch Normalization,BN)和逆歸一化(Batch De-Normalization,B-DN),防止某些特征主導訓練過程,并防止KL散度消失。dropout層用來避免過擬合。
4)優(yōu)化函數(shù)下界(Evidence Lower BOund,ELBO),優(yōu)化編碼器和解碼器的參數(shù)。KL(·)表示KL 散度計算公式,EN(·)代表交叉熵計算公式,a、b∈[0,1],代表權重系數(shù)。本文設置a=1,b=0.5。
圖1 展示了改進的VAE 模型的流程。N1 是一個創(chuàng)建離散分布的全連接深度神經網(wǎng)絡和BN 層;Sm是一個采樣的獨熱編碼向量;N2 是一個神經網(wǎng)絡和dropout 層,產生均值和方差來創(chuàng)建一個產生潛在變量的高斯分布;Zm是采樣所得的隱向量,并服從標準高斯分布;N3 是一個創(chuàng)建高斯先驗分布的softmax層;L-hood是生成新樣本的似然函數(shù)層,它可以生成連續(xù)值和離散值;N4 是B-DN 層,將數(shù)據(jù)返回到原始的數(shù)值范圍;Input 是輸入的數(shù)據(jù)集;Output 為改進的VAE 生成的新數(shù)據(jù)集。
圖1 改進的VAE的流程Fig.1 Flowchart of improved VAE
GA是一種通過模擬自然進化過程來搜索最優(yōu)解的方法,它被廣泛應用于路徑優(yōu)化、最優(yōu)值查找和特征篩選[30-31]等方面。本文用GA來進行特征選擇。具體如下:
1)初始化。設置最大進化次數(shù)T和初始群體S(0),S(0)包括若干個體,每個個體具有不同的染色體。在本文中,染色體長度設為L,代表不同的基因(特征屬性),用長度為L的一維數(shù)組來表示,數(shù)組只包含0 和1,0 代表不含有該位置的特征,1表示含有該對應位置的特征。
2)計算適應度。計算群體S(t)中每個個體的適應度。本文中,每個個體代表一個特征集合,對僅包含這個特征集合的數(shù)據(jù)集進行建模,以模型5 折交叉驗證的分類準確率作為每個個體(所選特征)的適應度值。
3)遺傳。將適應度高的個體遺傳到下一代。本文以輪盤賭的方式在群體中選擇個體進行遺傳,將適應度高的特征集合保留下來。適應度越高,個體保留下來的概率也越高。
4)交叉。在群體中對染色體進行交叉,實現(xiàn)特征集合的變化。本文每兩個染色體進行部分交換,以[0,1]上的隨機數(shù)模擬概率,當滿足交叉概率Pc時,在某個點位處將兩個染色體的后半部分交換,否則不進行交叉。
5)變異。對群體中每個染色體進行基因突變,實現(xiàn)特征集合的改變。本文中,當滿足變異概率Pm時,在某個點位進行突變,即原來的1變?yōu)?,原來的0變?yōu)?;否則不發(fā)生突變。
6)判斷。滿足條件終止計算,并輸出具有最大適應度的個體。當不滿足終止條件時,依次重復步驟2)~6)。本文中,當進化次數(shù)超過T時,算法終止。
LR、SVM、RF 和XGBT 是在醫(yī)學、經濟和環(huán)境等許多領域廣泛應用于分類和預測任務的有監(jiān)督機器學習算法。
1)LR 是一個廣義線性模型,是在線性回歸的基礎上加入了非線性(sigmoid 函數(shù))映射,與線性回歸不同的是,LR 輸出的是離散值,所以解決的是分類問題。
2)SVM是一種二分類模型。它首先定義一個在特征空間上間隔最大的線性分類器,當數(shù)據(jù)線性不可分時,先利用核函數(shù)將特征空間的數(shù)據(jù)進行映射,再求解能夠正確劃分訓練數(shù)據(jù)集并且使得幾何間隔最大的超平面,所以SVM 是一種非線性分類器。
3)RF 是一種集成學習模型,是為了解決單個決策樹模型的不足,從而整合起更多的決策樹來避免局限性。對于分類問題,整合每一棵樹的結果進行投票。首先對樣本和特征同時進行有放回隨機采樣,生成若干個訓練集;然后對每個訓練集構造一棵決策樹;最后整合所有樹的結果,輸出模型分類結果。由于同時對樣本和特征進行了采樣,所以RF可以很好地避免過擬合。
4)XGBT 也是一種集成學習模型,它也是整合若干個弱學習器的結果,然后輸出最終的結果。不同于RF 的是,這些弱學習器是依次建立的。首先,定義損失函數(shù);然后,基于損失函數(shù)的負梯度進行學習,也稱為基于偽殘差的學習。在具體實現(xiàn)時,XGBT 對損失函數(shù)進行二階泰勒展開,以一階導數(shù),二階導數(shù)和正則化來訓練回歸樹,迭代生成若干個基學習器,相加輸出分類結果。
本文采用的是平衡數(shù)據(jù)集,即正樣本(標簽為1)和負樣本(標簽為0)數(shù)量相同。定義混淆矩陣:正樣本被預測為正樣本的數(shù)量(True Positive,TP),正樣本被預測為負樣本的數(shù)量(False Negative,F(xiàn)N),負樣本被預測為正樣本的數(shù)量(False positive,F(xiàn)P),負樣本被預測為負樣本的數(shù)量(True Negative,TN)。為了評估分類模型性能,采用如下指標:
1)靈敏度(Sensitivity,Sen),反映了對正樣本的識別能力,值越高,說明模型越能夠識別出患病的樣本,漏診的概率就越低。計算公式為:
2)特異性(Specificity,Spe),反映了對負樣本的識別能力,值越高,說明模型將負樣本識別為正樣本的概率越小,誤診的概率就越低。計算公式為:
3)F1 值,是精確率P和召回率R的調和平均值,它也是衡量模型性能的一個重要指標。計算公式為:
4)分類準確率(Accuracy,Acc),準確率越高,說明模型預測的越準確。計算公式為:
運用皮爾森系數(shù)(Pearson)的絕對值分析特征與目標之間的線性關系。皮爾森相關系數(shù)定義為:
利用最大互信息系數(shù)(Maximum Mutual Information,MIC)[32]度量特征與目標之間的非線性關系。最大互信息系數(shù)定義為:
其中:|X|、|Y|表示對數(shù)據(jù)進行網(wǎng)格化處理時的分段個數(shù);B為劃分方格總數(shù)的限定值,可根據(jù)實際情況進行設定。
數(shù)據(jù)來源于深圳市第二人民醫(yī)院腦卒中篩查與預防項目(倫理審批號:20200116002)。受試者為年齡超過40 歲的本地居民,共入組2 626名,建立了含有缺失值的原始數(shù)據(jù)集,包括34 項特征和1 項標簽,缺失數(shù)據(jù)分布情況如表1 所示。34個特征說明如表2 所示。同時,通過去除含有缺失值的樣本,得到另一組數(shù)據(jù)集(完整數(shù)據(jù)集),共2 049個樣本。這些特征屬性包括問卷調查、實驗室檢查和體格檢查。另外,本文將頸動脈超聲檢查結果作為分類目標:頸動脈正常(標簽0)和異常(標簽1)。頸動脈超聲檢查結果異常包括CIMT、頸動脈狹窄或出現(xiàn)斑塊;相反,檢查結果正常代表頸動脈無異常。為了避免數(shù)據(jù)不平衡問題,隨機選取最大數(shù)量的正常樣本,得到兩個平衡數(shù)據(jù)集Dx和Dc。Dc不含缺失數(shù)據(jù),Dx包含缺失數(shù)據(jù),且每個樣本缺失值個數(shù)不超過5。使用MKNN 和改進的VAE對數(shù)據(jù)集Dx 分別進行填補,得到兩個完整的數(shù)據(jù)集Dm 和Dv,如圖2所示。
表1 缺失值分布情況Tab.1 Distribution of missing value
表2 特征變量說明Tab.2 Description of feature variables
圖2 數(shù)據(jù)處理過程Fig.2 Data processing process
圖2顯示了數(shù)據(jù)的處理過程。其中使用改進的VAE的具體步驟為:先對含有缺失值的數(shù)據(jù)集進行預填充,即用每個對應屬性中已經出現(xiàn)的任意一個數(shù)值來填充缺失部位的值,得到預填補后的數(shù)據(jù)集,這樣做僅僅是為了能夠進行數(shù)學計算;再將預填充的數(shù)據(jù)集作為改進的VAE 的輸入(Input),經過處理得到輸出(Output);然后保持原始數(shù)據(jù)集中真實數(shù)值不變,用Output中的數(shù)據(jù)填補缺失值,即得到填補后的數(shù)據(jù)集。
所有實驗均在一臺本地工作站(Intel Core I5-6500 CPU 3.20 GHz,內存20 GB)上操作運行。用Python3.7 來處理數(shù)據(jù)集,并進行模型建立和分析。VAE 部分,使用Tensorflow 框架來建立深度學習模型。
數(shù)據(jù)集按照7∶3 的比例劃分為訓練集和測試集,并保證訓練集和測試集的正負樣本數(shù)量保持平衡。模型建立之前先對特征作歸一化處理,以免因數(shù)據(jù)范圍的不同而影響模型的性能。每個實驗重復5次,得到平均結果。
本文首先進行特征分析的實驗,對特征進行排序;接著對數(shù)據(jù)集Dc、Dm 和Dv 分別運用遺傳算法進行特征篩選并建立有監(jiān)督模型,以此評估數(shù)據(jù)填補方法的性能;然后,建立半監(jiān)督模型;最后,對比所有模型結果。設置遺傳算法L=34,Pc=0.6,Pm=0.2,T=300。
利用Pearson、MIC、遞推特 征消除(Recursive Feature Elimination,RFE)法、RF 與XGBT 內置的屬性重要度法來確定所有特征的重要性,每種方法都將結果歸一化到區(qū)間[0,1]。綜合這6 種分析的結果,對特征進行排序??紤]到結果的可靠性,本文對不含缺失值的數(shù)據(jù)集Dc進行特征分析,圖3顯示了特征排序的結果,LR_REF 和SVM_REF 表示基于LR和SVM 建模的遞推特征消除法??梢钥闯?,不同的方法得到的結果具有很大程度的一致性,這說明所得的特征排序能夠反映特征與目標之間的關系。腰圍、年齡、卒中家族史、脈壓、同型半胱氨酸等特征的重要性比較高,表明它們與頸動脈異常的發(fā)生關系密切,也暗示著腦卒中的風險。
圖3 特征排序Fig.3 Feature rank
3.3.1 監(jiān)督模型性能
為了評估MKNN 和改進的VAE 兩種方法填補缺失值的效果,采用LR、SVM、RF和XGBT 這四種有監(jiān)督學習方法結合GA分別對Dc、Dm 和Dv建立分類模型,其中基于數(shù)據(jù)集Dc所建的模型作為本實驗的基線模型。表3 顯示了各個模型的性能指標,從中可以得出三個方面的結果:
表3 不同模型的各項指標對比Tab.3 Comparison of indices of different models
1)對于用同種方法填補所得的數(shù)據(jù)集,不論是否進行特征篩選,集成方法XGBT 明顯取得了最好的效果,集成方法RF在測試數(shù)據(jù)集上也取得了良好的結果;而在以往的大多數(shù)分類任務中被廣泛使用的LR 和SVM 模型,表現(xiàn)并不好。這說明,常見的監(jiān)督模型中,XGBT 模型更加適合用來對本文的數(shù)據(jù)進行建模。
2)對于不同數(shù)據(jù)集,不論是否進行特征篩選,使用同種方法進行建模時,基于Dm 所得模型準確率與Dc 的模型相當或是提高2%左右;基于Dv 所得模型準確率與Dc 的模型相比提高1%~4%;基于數(shù)據(jù)集Dv 構建的分類模型的各項指標均比對應的由Dm 建立的模型提高2%以上。這說明對本實驗數(shù)據(jù)集而言,MKNN和改進的VAE都是不錯的數(shù)據(jù)填補方法;而對于兩種填補方法而言,改進的VAE的性能明顯優(yōu)于MKNN,這表明改進的VAE是一種填補缺失值的更好方法。
3)對比特征篩選前后的模型,可以發(fā)現(xiàn)運用GA 進行特征篩選后模型各項指標都有所提升。這說明,使用GA 進行特征篩選是得當?shù)?,得到更少的特征?shù)量,使得模型復雜度降低,同時也使得模型性能得到提升。
由于本文使用的是正負樣本數(shù)量相同的平衡數(shù)據(jù)集,所以對于每單個模型可以發(fā)現(xiàn)它的F1值和準確率是相等的。
對于數(shù)據(jù)集Dv,在XGBT 模型中,GA 篩選出了24 個特征。它們編號分別為(1,2,3,4,5,7,8,9,10,11,13,14,16,17,18,20,22,23,25,27,28,32,33,34),參考表2。
3.3.2 基于改進的變分自編碼器的半監(jiān)督模型性能
由3.3.1 節(jié)知,改進的VAE 是一種能夠填補不完全數(shù)據(jù)的較好的方法??紤]到它可以填補類型為離散值的特征,本文設想它也可以處理目標中的值?;诖怂枷耄⒘艘粋€分類模型。具體過程如下:首先隱藏一些標簽,將目標值轉換為含有缺失值的數(shù)據(jù);然后利用改進的VAE 對不完整數(shù)據(jù)進行估計;再將估算的標簽值與真實值進行比較,并計算敏感度、特異性、F1 值和準確率。同時參考3.3.1 節(jié),為了方便對比,也使用XGBT 模型中運用的24 個特征。隨機刪除30%的標簽來訓練生成模型,這意味著訓練集和測試集的比例為7∶3。重復5次實驗,取平均結果,見表4。
表4 不同模型的結果對比Tab.4 Comparison of results of different models
表4 實驗結果表明,將特征進行篩選之后,使用基于改進的VAE 的分類方法所建立的模型各個分類指標都有了明顯的提升。同時,對比表2 和表3 的結果,發(fā)現(xiàn)基于改進的VAE+GA 的方法(敏感性為0.893 8,特異性為0.927 2,F(xiàn)1 值為0.910 5,準確性為0.910 5)在所有指標中均獲得最佳結果。與常用的監(jiān)督模型相比,此方法所得模型各項指標都提高了6%以上,同時對比本文的基線(基于平衡的完整數(shù)據(jù)集Dc 所建模型),可以發(fā)現(xiàn)基于改進的VAE+GA 的半監(jiān)督模型性能提升明顯。
利用醫(yī)療數(shù)據(jù),本文提出基于改進的變分自編碼器的半監(jiān)督模型來識別和預測異常頸動脈,進而間接達到腦卒中大規(guī)模初步篩查的目的。它是一種簡單的分類模型,僅僅依靠常規(guī)的體檢和家族病史信息;同時該方法還能夠填補丟失的數(shù)據(jù),使得數(shù)據(jù)集可以在更廣泛的分類算法中得以運用。另外,分析了每個特征屬性與目標值之間的關聯(lián),尤其是篩選出來的24 個使得模型效果最好的特征屬性,可以在日常生活中重點關注,這對預防和風險控制提供了參考。
在未來的工作中,我們可能會收集更多的樣本和特征屬性來建立更有說服力的模型;對特征屬性進行更為細致的分析和篩選,在探究特征屬性與卒中的關系的同時,使得模型更加簡潔;此外,篩選一部分年齡不太大的個體,對其進行長期跟蹤,以此來評估和改進提出的模型。同時,本文提出的半監(jiān)督模型也可以轉化為安裝在移動設備上的應用程序,用于腦卒中的早期自我篩查。