陳陸爽,周 暉
(南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019)
慢性腎病每年造成數(shù)百萬(wàn)人死亡,而且其患病率和致死率還在不斷增加[1]。早發(fā)現(xiàn)早治療是控制CKD和降低死亡率的有效方法[2],但該疾病隱蔽性強(qiáng),發(fā)病早期不易察覺(jué),導(dǎo)致患者錯(cuò)過(guò)最佳治療時(shí)機(jī)[3]。對(duì)CKD早期預(yù)測(cè)的研究,引起國(guó)內(nèi)外學(xué)者越來(lái)越多的關(guān)注。文獻(xiàn)[4]分析現(xiàn)有模型后,提出一種使用感知器將邏輯回歸和隨機(jī)森林相結(jié)合的CKD預(yù)測(cè)集成模型,并分析K近鄰插補(bǔ)對(duì)集成模型準(zhǔn)確率的影響;文獻(xiàn)[5]研究支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)在CKD預(yù)測(cè)方面的應(yīng)用,并確定兩種技術(shù)的優(yōu)化參數(shù)。群智能[6]由于其全局搜索優(yōu)勢(shì)已被應(yīng)用于CKD預(yù)測(cè)。文獻(xiàn)[7]提出基于NN-CS的模型來(lái)檢測(cè)早期CKD,CS算法選擇最佳NN的輸入權(quán)重向量以正確訓(xùn)練數(shù)據(jù)。文獻(xiàn)[8]將基于密度和蟻群優(yōu)化的特征選擇算法D-ACO用于CKD分類(lèi)。但是,目前對(duì)CKD的研究是將最大化CKD的預(yù)測(cè)準(zhǔn)確率看作單目標(biāo)特征選擇問(wèn)題,而忽略了無(wú)關(guān)和冗余特征的影響,造成模型復(fù)雜度增加,精度和泛化能力下降;另外,現(xiàn)有方法無(wú)法篩選出影響CKD的高危因素。
針對(duì)上述問(wèn)題,提出基于互信息和皮爾遜相關(guān)系數(shù)的多目標(biāo)CKD預(yù)測(cè)模型,并針對(duì)該模型提出多目標(biāo)CKD特征選擇算法MCFS,能夠篩選出信息量最大的特征。MCFS采用精英反向?qū)W習(xí)、非線性控制參數(shù)和聯(lián)想記憶3個(gè)改進(jìn)算子,使其在CKD預(yù)測(cè)方面的性能更好。
僅考慮特征數(shù)和分類(lèi)準(zhǔn)確率兩個(gè)評(píng)估標(biāo)準(zhǔn),容易忽略特征間的冗余度和特征與類(lèi)別之間的相關(guān)性等信息,不同目標(biāo)函數(shù)的選取也會(huì)對(duì)CKD預(yù)測(cè)效果造成不同程度影響[9]??紤]最大化特征數(shù)與類(lèi)別之間的相關(guān)性以及最小化特征之間的依賴(lài)性。在特征選擇領(lǐng)域,相關(guān)性或相互依賴(lài)性通常由互信息(MI)和皮爾遜相關(guān)系數(shù)(PCC)度量。然而,MI容易忽略線性相關(guān)性,而PCC對(duì)非線性相關(guān)性敏感,選擇其中任意一種度量相關(guān)性,都會(huì)造成結(jié)果的不可靠。針對(duì)以上問(wèn)題,將MI和PCC分別用于計(jì)算線性和非線性相關(guān)性,構(gòu)造兩個(gè)目標(biāo)函數(shù)。
對(duì)于第一個(gè)目標(biāo),需要找出與類(lèi)別相關(guān)性較高的特征子集,可表示為
(1)
式中: |M| 為特征數(shù),I(xi,l) 表示特征與類(lèi)別之間的互信息,ρ(xi,l) 表示特征與類(lèi)別之間的皮爾遜相關(guān)系數(shù)。
當(dāng)兩個(gè)特征高度相關(guān),刪除一個(gè)特征不會(huì)顯著影響其它特征的預(yù)測(cè)能力,第二個(gè)目標(biāo)可描述如下
(2)
式中:I(xi,xj) 表示特征之間的互信息,ρ(xi,xj) 表示特征之間的皮爾遜相關(guān)系數(shù)。
為了將MI和PCC的值放置在相同的范圍內(nèi),兩個(gè)目標(biāo)函數(shù)都考慮了PCC的絕對(duì)值,MI和PCC計(jì)算如下
(3)
(4)
式中:X和Y是兩個(gè)離散變量,p(x,y) 是X和Y的聯(lián)合概率密度函數(shù),p(x) 和p(y) 分別是x和y的邊緣密度函數(shù),cov表示協(xié)方差,σ表示標(biāo)準(zhǔn)差。
構(gòu)建多目標(biāo)慢性腎病特征選擇模型
(5)
由于現(xiàn)階段針對(duì)CKD預(yù)測(cè)的研究無(wú)法在保持分類(lèi)準(zhǔn)確率較高的同時(shí)篩選出與CKD緊密相關(guān)的特征,提出多目標(biāo)慢性腎病特征選擇算法MCFS,其生成的非支配解能夠在選擇較少特征的情況下保持較高的預(yù)測(cè)精度,從而找到CKD的高風(fēng)險(xiǎn)因素。
GWO算法的位置更新方程如下
X(t+1)=(X1(t)+X2(t)+X3(t))/3
(6)
X1(t)=Xα(t)-A1·Dα
(7)
X2(t)=Xβ(t)-A2·Dβ
(8)
X3(t)=Xδ(t)-A3·Dδ
(9)
Dα=|C1·Xα(t)-X(t)|
(10)
Dβ=|C2·Xβ(t)-X(t)|
(11)
Dδ=|C3·Xδ(t)-X(t)|
(12)
A=2a·r1-a
(13)
(14)
C=2·r2
(15)
其中,X(t) 是第t次迭代時(shí)wolf的位置,α,β和δ是適應(yīng)度值排名前三的個(gè)體,r1,r2是[0,1]之間的隨機(jī)向量,Maxiter是最大迭代次數(shù)。
MCFS將CKD數(shù)據(jù)集特征的選取視作一組二進(jìn)制解,通過(guò)改進(jìn)的GWO算法對(duì)隨機(jī)生成的初始解進(jìn)行優(yōu)化,優(yōu)化目標(biāo)即式(5),采用MOPSO的多目標(biāo)框架生成一組非支配解。
(1)基于EOBL(精英反向?qū)W習(xí))的種群初始化
EOBL通過(guò)增加種群多樣性改善算法的全局搜索,假設(shè)x是 [a,b] 范圍內(nèi)的實(shí)數(shù)。x的相反點(diǎn)xop為
xop=a+b-x
(16)
同樣地,該定義也可以擴(kuò)展至D維(D≥2)假設(shè)x=(x1,x2,…,xD),xi∈[ai,bi],x的相反點(diǎn)xop=(x1op,x2op,…,xDop)
xiop=ai+bi-xi
(17)
初始化階段產(chǎn)生一個(gè)原始種群P1, 包含個(gè)體xi,i=1,2,…,n。 基于精英反向?qū)W習(xí)產(chǎn)生的種群為P2。 初始種群和精英反向?qū)W習(xí)種群合并為一個(gè)種群 {P1∪P2}, 從中選取n個(gè)最優(yōu)個(gè)體組成新的初始化種群。精英反向個(gè)體x′i=(x′i,1,x′i,2,…,x′i,D)
x′i,j=r×(daj+dbj)-xi,j
(18)
式中:i=1,2,…,n,j=1,2,…,D,r=rand(0,1),daj,dbj是動(dòng)態(tài)邊界,daj=min(xi,j),dbj=max(xi,j), 若x′i,j超出動(dòng)態(tài)邊界,則x′i,j=rand(daj,dbj)。
(2)非線性控制參數(shù)
GWO算法中收斂因子a從2線性減小到0,不能準(zhǔn)確反映和適應(yīng)復(fù)雜的非線性搜索過(guò)程,運(yùn)用一種基于余弦函數(shù)的非線性控制參數(shù)
(19)
式中:Maxiter是最大迭代次數(shù),t是當(dāng)前迭代次數(shù)。
(3)聯(lián)想記憶策略
運(yùn)用聯(lián)想記憶策略增強(qiáng)wolf的團(tuán)體協(xié)作和信息交換能力,在整個(gè)搜索過(guò)程中記錄每只wolf的歷史最佳并集成到算法的搜索機(jī)制中,由領(lǐng)導(dǎo)者和個(gè)體最優(yōu)共同探索解空間。
GWO算法中位置更新修改為
Dα=|C1·Xα(t)-Xi pbest(t)|
(20)
Dβ=|C2·Xβ(t)-Xi pbest(t)|
(21)
Dδ=|C3·Xδ(t)-Xi pbest(t)|
(22)
Y1(t)=Xα(t)-A1×Dα
(23)
Y2(t)=Xβ(t)-A2×Dβ
(24)
Y3(t)=Xδ(t)-A3×Dδ
(25)
Yi(t+1)=(Y1(t)+Y2(t)+Y3(t))/3
(26)
其中,Xi pbest(t) 是第i只wolf直至迭代次數(shù)為t時(shí)的歷史最優(yōu)位置,其余變量和GWO定義一樣。
除了leader wolf,其余wolf的歷史最優(yōu)個(gè)體也能為算法提供一定的指導(dǎo)意義。為了增加算法的隨機(jī)性,添加隨機(jī)個(gè)體信息,通過(guò)下式在個(gè)體歷史最優(yōu)位置周?chē)M(jìn)一步搜索
Zi(t+1)=Xi pbest(t)+η×(Xr3(t)-Xr4(t))
(27)
(28)
其中,Xr3(t) 和Xr4(t) 是隨機(jī)wolf的位置,η為鄰域搜索因子。
通過(guò)下式的交叉算子合并領(lǐng)導(dǎo)者和個(gè)體的指導(dǎo)信息,從而協(xié)調(diào)種群交流和個(gè)體記憶在算法搜索能力上的影響
(29)
式中:r5是[0,1]內(nèi)均勻分布的隨機(jī)數(shù),CR是交叉概率,設(shè)置為0.4。
為了加快收斂速度,待位置更新后,貪婪選擇被用于在兩次相鄰迭代之間保留最佳個(gè)體
Xi(t+1)=Xi(t),ifF(Xi(t+1))>F(Xi(t))
(30)
(4)存檔和領(lǐng)導(dǎo)者選擇機(jī)制
多目標(biāo)[11]根據(jù)存檔機(jī)制來(lái)存儲(chǔ)整個(gè)優(yōu)化過(guò)程中最好的非支配解,并通過(guò)以下規(guī)則,實(shí)現(xiàn)檔案的存儲(chǔ)和更新。
在迭代過(guò)程中,若一個(gè)解支配檔案中的任意解,則將其存檔,刪除被支配解;若被檔案中一個(gè)或多個(gè)解支配則不存檔;若一個(gè)解與檔案中的解相比是非支配的而且檔案擁有足夠空間,則將解添加到檔案中;若超過(guò)存檔數(shù)量上限,則用網(wǎng)格機(jī)制刪減非支配解密度較大段中的個(gè)體以容納新解。自適應(yīng)網(wǎng)格將目標(biāo)空間劃分為多段,每個(gè)部分的擁擠程度取決于其擁有的非支配解的數(shù)量。擁擠程度越高,從中隨機(jī)刪除解的可能性越大,因此選擇第段刪除解的概率可表示為
(31)
式中:ni指的是第i段中非支配解的數(shù)量,c是常數(shù),通常設(shè)為1。
多目標(biāo)搜索空間中解的優(yōu)劣是通過(guò)支配概念比較的,領(lǐng)導(dǎo)者選擇機(jī)制可以幫助MOGWO找到α,β和δ。 與存檔溢出時(shí)解的刪除操作相反,MOGWO運(yùn)用輪盤(pán)賭選擇一個(gè)段,其中每個(gè)段的選擇概率與該段中非支配解的數(shù)量成反比
(32)
式中:ni指的是第i段中非支配解的數(shù)量,c是大于1的常數(shù)。
(5)轉(zhuǎn)移函數(shù)
MCFS生成的個(gè)體位置是連續(xù)值,它與特征選擇的二元性質(zhì)相矛盾,將連續(xù)搜索空間轉(zhuǎn)換為二進(jìn)制版本的最有效方法之一是利用轉(zhuǎn)移函數(shù)(transfer function,TF)[12],某個(gè)特征的選擇與否用1和0來(lái)表示。根據(jù)以下公式將連續(xù)搜索空間轉(zhuǎn)換為二進(jìn)制搜索空間
(33)
(34)
(35)
其中,xi是搜索個(gè)體的連續(xù)值位置,TFS是S形轉(zhuǎn)移函數(shù),TFV是V形轉(zhuǎn)移函數(shù)。
整個(gè)算法流程如圖1所示。
圖1 算法流程
仿真研究分4個(gè)部分:①對(duì)比兩種轉(zhuǎn)移函數(shù)(S型和V型)和4個(gè)常見(jiàn)分類(lèi)器SVM(支持向量機(jī))、KNN(K近鄰)、NB(樸素貝葉斯)、DT(決策樹(shù))生成的平均Pareto Front,驗(yàn)證使MCFS性能最佳的分類(lèi)器和TF,同時(shí)將MCFS與未經(jīng)改進(jìn)的算法MCFS-NI對(duì)比,驗(yàn)證3個(gè)改進(jìn)算子的有效性;②對(duì)比多目標(biāo)特征選擇算法和現(xiàn)有的一些已用于CKD預(yù)測(cè)的單目標(biāo)特征選擇算法的優(yōu)劣;③對(duì)比不同多目標(biāo)進(jìn)化算法在CKD預(yù)測(cè)方面的效果;④統(tǒng)計(jì)CKD數(shù)據(jù)集中特征被選的頻率,總結(jié)與CKD緊密相關(guān)的特征。
使用UCI數(shù)據(jù)庫(kù)中的CKD數(shù)據(jù)集。該數(shù)據(jù)集包含400個(gè)樣本和24個(gè)特征,其中有250個(gè)樣本被標(biāo)記為陽(yáng)性,其余150個(gè)樣本被標(biāo)記為陰性。表1給出了數(shù)據(jù)集中所有特征信息。
(1)缺失值填充
利用KNN插補(bǔ)(k=9)選擇具有最短歐氏距離的k個(gè)完整樣本,對(duì)CKD數(shù)據(jù)集的缺失值進(jìn)行填充。對(duì)于數(shù)字變量,缺失值使用k個(gè)完整樣本相應(yīng)變量的中位數(shù)填充;對(duì)于類(lèi)別變量,缺失值使用k個(gè)完整樣本相應(yīng)變量中頻率最高的類(lèi)別填充。
表1 CKD數(shù)據(jù)集
(2)數(shù)據(jù)分割
采用十折交叉驗(yàn)證將CKD數(shù)據(jù)集隨機(jī)分割成10組,每組輪流做一次測(cè)試集,9次訓(xùn)練集。取10次平均值作為模型性能的評(píng)估。
(3)數(shù)據(jù)縮放
由于CKD數(shù)據(jù)集中存在的所有特征量綱不一致,采用標(biāo)準(zhǔn)化縮放方法使特征落入統(tǒng)一區(qū)間。
種群數(shù)量和檔案大小均為30,最大迭代次數(shù)為100。所有算法進(jìn)行20次獨(dú)立運(yùn)行。實(shí)驗(yàn)平臺(tái)是Intel Corei7 2.60 GHz CPU,8GRAM,windows10操作系統(tǒng),開(kāi)發(fā)環(huán)境為Matlab2018b,算法參數(shù)見(jiàn)表2。
表2 參數(shù)設(shè)置
(1)Accuracy
(36)
式中:TP、TN、FP、FN分別表示真正率、真負(fù)率、假正率、假負(fù)率。
(2)Pareto最優(yōu)解個(gè)數(shù)(NPS)
(3)平均理想距離(MID)
該準(zhǔn)則用于度量Pareto最優(yōu)解和理想點(diǎn)之間的接近度,MID值越低,解的質(zhì)量越高
(37)
(4)Spacing
Spacing表示連續(xù)解之間的相對(duì)距離。具有較小間距的非支配解意味著Pareto Front分布更加均勻
(38)
(39)
(40)
(5)多樣性度量(DM)
DM值越大,Pareto Front的多樣性越高
(41)
(6)CPU時(shí)間
算法執(zhí)行所需時(shí)間越少,效率越高。
合并20次運(yùn)行產(chǎn)生的非支配解,將同一特征數(shù)所匹配的錯(cuò)誤率取平均值,獲得平均Pareto Front,以特征數(shù)作為橫坐標(biāo),錯(cuò)誤率作為縱坐標(biāo)(表中最優(yōu)結(jié)果均被加粗,F(xiàn)N指所選特征數(shù))。4個(gè)部分實(shí)驗(yàn)介紹如下:
(1)仿真研究一
本節(jié)驗(yàn)證了MCFS這3個(gè)改進(jìn)算子的有效性以及使分類(lèi)性能達(dá)到最佳的TF和分類(lèi)器。首先以DT作為分類(lèi)器,將MCFS與MCFS-NI(未加入3個(gè)改進(jìn)算子的版本)以及兩種不同類(lèi)型TF(S型,V型)對(duì)比,結(jié)果如圖2所示。
圖2 基于不同TF的平均Pareto Front
由圖2可知,無(wú)論基于S型還是V型TF,MCFS的平均Pareto Front總是優(yōu)于MCFS-NI,可見(jiàn)3個(gè)改進(jìn)算子確實(shí)提高了CKD預(yù)測(cè)性能。對(duì)于MCFS和MCFS-NI來(lái)說(shuō),基于S型TF的預(yù)測(cè)效果總是比基于V型TF的好,能夠在獲得較高準(zhǔn)確率的同時(shí)選出較少的特征,所以S型TF最適合將MCFS離散化。4種算法均在特征數(shù)為8時(shí)得到了最低分類(lèi)錯(cuò)誤率。MCFS-S比MCFS-V的最高預(yù)測(cè)準(zhǔn)確率98.11%提升了1.19%;MCFS-NI_S比MCFS-NI_V的最高預(yù)測(cè)準(zhǔn)確率95.75%提升了1.31%??傮w來(lái)說(shuō),MCFS-NI所能達(dá)到的最高預(yù)測(cè)準(zhǔn)確率比MCFS低2.24%。因此,S型TF對(duì)MCFS的探索和開(kāi)發(fā)進(jìn)程有著更大程度的改善,而且3個(gè)改進(jìn)算子對(duì)于MCFS性能的提高是有效的。之后MCFS默認(rèn)使用S型TF。
由于不同分類(lèi)器對(duì)不同多目標(biāo)問(wèn)題適應(yīng)度不同,采用4種常用分類(lèi)器(SVM、KNN、NB、DT)比較其在多目標(biāo)慢性腎病特征選擇模型中分類(lèi)能力的差異,結(jié)果如圖3所示。
圖3 基于不同分類(lèi)器的平均Pareto Front
圖3顯示,基于DT的MCFS獲得了最佳平均Pareto Front,在不同特征數(shù)下,錯(cuò)誤率始終能夠保持最低,其余3種分類(lèi)器的分類(lèi)效果從高到低依次是SVM、KNN、NB。特征數(shù)為8時(shí),基于DT和基于NB的MCFS均達(dá)到最高預(yù)測(cè)準(zhǔn)確率,分別為99.3%和94.75%,在原始CKD數(shù)據(jù)集的基礎(chǔ)上,特征數(shù)削減了66.67%;特征數(shù)為6時(shí),基于SVM的MCFS可達(dá)到96.25%的最高準(zhǔn)確率;特征數(shù)為7時(shí),基于KNN的MCFS可達(dá)到96.25%的最高準(zhǔn)確率。與其它分類(lèi)器相比,基于DT的模型預(yù)測(cè)準(zhǔn)確率有了2.3%~4.55%的提升。因此,DT對(duì)CKD的預(yù)測(cè)效果最好,之后的仿真研究默認(rèn)以DT作為分類(lèi)器。
(2)仿真研究二
本節(jié)比較了多目標(biāo)特征選擇(MOFS)算法與單目標(biāo)特征選擇(SOFS)算法在CKD預(yù)測(cè)方面的優(yōu)劣??紤]了8種算法,包括MOFS算法MCFS和MCFS-w(所提算法的多目標(biāo)加權(quán)形式,兩個(gè)目標(biāo)的加權(quán)系數(shù)分別為α和1-α,α取0.99,0.9,0.8,0.7,0.6,0.5)以及以最大化分類(lèi)準(zhǔn)確率為目標(biāo)的SOFS算法SCFS(所提算法的單目標(biāo)形式),DFS-ITLBO(基于密度的特征選擇和改進(jìn)教學(xué)優(yōu)化算法),CFS-SMO(基于相關(guān)性的特征選擇和序列最小優(yōu)化算法),GA-FS(遺傳特征選擇算法),F(xiàn)OA-FS(果蠅優(yōu)化特征選擇算法),PSO-FS(粒子群優(yōu)化特征選擇算法),ACO-FS(蟻群優(yōu)化特征選擇算法),結(jié)果如圖4所示。
圖4 MOFS算法和SOFS算法的平均Pareto Front
首先將MCFS與MCFS-w對(duì)比,可以看出,與加權(quán)形式的MOFS算法相比,MCFS得到的是Pareto Front,提供了選擇靈活性,而且任意特征數(shù)所對(duì)應(yīng)的分類(lèi)錯(cuò)誤率均低于所有加權(quán)值下的MCFS-w。可見(jiàn),基于后驗(yàn)的MCFS比基于先驗(yàn)的MCFS-w在CKD預(yù)測(cè)方面效果更好。其次,對(duì)比MCFS與SOFS算法后發(fā)現(xiàn),在最好的情況下,SCFS和PSO-FS通過(guò)10個(gè)特征分別得到98.11%和95.81%的預(yù)測(cè)準(zhǔn)確率,DFS-ITLBO通過(guò)8個(gè)特征得到97.69%的預(yù)測(cè)準(zhǔn)確率,CFS-SMO通過(guò)17個(gè)特征得到98.43%的預(yù)測(cè)準(zhǔn)確率,GA-FS通過(guò)9個(gè)特征得到98.02%的預(yù)測(cè)準(zhǔn)確率,F(xiàn)OA-FS通過(guò)14個(gè)特征得到96.54%的預(yù)測(cè)準(zhǔn)確率,ACO-FS通過(guò)16個(gè)特征得到99.2%的預(yù)測(cè)準(zhǔn)確率。
不難看出,相比其它7種SOFS算法和一個(gè)基于先驗(yàn)的MOFS算法,MCFS在選擇更少特征的同時(shí)能夠獲得較高的CKD預(yù)測(cè)準(zhǔn)確率。所以,采用MCFS可以更為有效地探索搜索空間,綜合考量多種子集評(píng)價(jià)方式,能夠選出質(zhì)量更高的特征子集并得到更好的CKD預(yù)測(cè)效果。
(3)仿真研究三
迄今為止出現(xiàn)了許多行之有效的多目標(biāo)優(yōu)化算法,首先選取5種經(jīng)典的多目標(biāo)進(jìn)化算法(MOEA)NSGAII、MOEA/D、PESA2、NSGAIII、SPEA2與MCFS進(jìn)行對(duì)比,結(jié)果如圖5所示。
圖5 MCFS與經(jīng)典MOEA的平均Pareto Front
比較圖中6個(gè)平均Pareto Front,可以觀察到,在CKD預(yù)測(cè)方面,MCFS的平均Pareto Front最優(yōu)。NSGAII的最高預(yù)測(cè)準(zhǔn)確率96.17%在特征數(shù)為6時(shí)獲得,MOEA/D的最高預(yù)測(cè)準(zhǔn)確率92%在特征數(shù)為10時(shí)獲得,PESA2和NSGAIII均在特征數(shù)為6時(shí)獲得最高預(yù)測(cè)準(zhǔn)確率,分別為95.75%和94%,SPEA2和MCFS的最高預(yù)測(cè)準(zhǔn)確率分別為95.87%和99.3%,均在特征數(shù)為8時(shí)獲得??傮w上看,MCFS的預(yù)測(cè)準(zhǔn)確率比其它幾個(gè)經(jīng)典MOEA提升了3.13%~7.3%,在CKD預(yù)測(cè)性能方面效果顯著。
表3展現(xiàn)了MCFS與不同經(jīng)典MOEA生成的平均Pareto Front在多個(gè)指標(biāo)上的評(píng)估結(jié)果。MCFS雖然在CPU運(yùn)行時(shí)間上略遜于NSGAII,但是其收斂性最好,獲得的平均Pareto Front最為均勻,非支配解多樣性最高。
表3 經(jīng)典MOEA指標(biāo)評(píng)估
其次,由于群智能算法在解決各種多目標(biāo)方面顯示出極大優(yōu)勢(shì),為了確定最適合預(yù)測(cè)CKD的群智能MOEA,將MCFS與現(xiàn)今較為流行的群智能MOEA進(jìn)行對(duì)比,結(jié)果如圖6所示。
圖6 MCFS與群智能MOEA的平均Pareto Front
由圖6可知,MCFS生成的平均Pareto Front最優(yōu),MODE、MOABC、MOWOA、MODA生成的平均Pareto Front類(lèi)似,MOPSO生成的Pareto Front最不占優(yōu)勢(shì)。特征數(shù)為1時(shí),MCFS比其它群智能MOEA提高了11.04%~20.39%;特征數(shù)為2時(shí),MCFS比其它算法提高了7.37%~17.12%;特征數(shù)為3時(shí),MCFS比其它MOEA提高了4.25%~9.2%;特征數(shù)為4時(shí),比其它MOEA提高了3.75%~7.11%;特征數(shù)為5時(shí),比其它MOEA提高了3.37%~6.22%;特征數(shù)為6時(shí),比其它MOEA提高了2.93%~5.62%;特征數(shù)為7時(shí),比其它MOEA提高了3.52%~5.08%;特征數(shù)為8時(shí),比其它MOEA提高了3.43%~5.05%。由此可見(jiàn),在CKD預(yù)測(cè)方面,MCFS選擇任意特征子集時(shí)都比其它群智能MOEA有較大程度提升。
表4對(duì)群智能MOEA生成的平均Pareto Front進(jìn)行了多個(gè)指標(biāo)的評(píng)估。由表4可知,MCFS在所有指標(biāo)上均達(dá)到了最優(yōu),得到的非支配解質(zhì)量相對(duì)較高,可以在減少特征數(shù)和分類(lèi)錯(cuò)誤率的同時(shí),受益于較低的時(shí)間成本。
表4 群智能MOEA指標(biāo)評(píng)估
(4)仿真研究四
多目標(biāo)慢性腎病特征選擇算法MCFS權(quán)衡了特征數(shù)和分類(lèi)準(zhǔn)確率兩個(gè)指標(biāo),刪除大量不必要特征的同時(shí)保留了與CKD識(shí)別最有價(jià)值的信息,既極大程度上簡(jiǎn)化了數(shù)據(jù),又能夠保證較高的預(yù)測(cè)準(zhǔn)確率。為了得到影響CKD的高危因素,計(jì)算每次運(yùn)行中特征被選中的次數(shù),取20次平均值,從大到小排序,得到前8個(gè)被選頻率最高的特征。影響CKD的主要特征信息見(jiàn)表5。
表5 CKD數(shù)據(jù)集被選頻率最高的8個(gè)特征
綜上可見(jiàn),MCFS的S型二進(jìn)制變體對(duì)算法性能提升度最高,DT是評(píng)估所提多目標(biāo)模型的最佳分類(lèi)器,在與其它多種單目標(biāo)和多目標(biāo)算法的對(duì)比中發(fā)現(xiàn),MCFS無(wú)論在特征子集的數(shù)量還是預(yù)測(cè)效果方面均領(lǐng)先于現(xiàn)有算法,并能夠找到與CKD緊密相關(guān)的特征子集以做進(jìn)一步研究,足以驗(yàn)證其在CKD預(yù)測(cè)方面的潛力。
由于現(xiàn)階段尚未出現(xiàn)可以逆轉(zhuǎn)CKD的醫(yī)療手段,早發(fā)現(xiàn)早治療是有效控制CKD亟待解決的問(wèn)題。所提多目標(biāo)慢性腎病特征選擇模型綜合考慮線性和非線性因素,將現(xiàn)有的CKD預(yù)測(cè)模型從單目標(biāo)擴(kuò)展為多目標(biāo),在預(yù)測(cè)準(zhǔn)確率方面具有較大優(yōu)勢(shì)。所提多目標(biāo)慢性腎病特征選擇算法MCFS消除了冗余或不相關(guān)的特征,保留了影響CKD的關(guān)鍵特征,早期患者可以針對(duì)這些方面進(jìn)行醫(yī)療監(jiān)測(cè),阻止病情惡化,正常人可以盡量將這些指標(biāo)控制在正常范圍內(nèi)以預(yù)防CKD。
下一步將研究所提方法在其它醫(yī)學(xué)臨床數(shù)據(jù)中的適用度,提高模型的利用率。