程天藝,王亞剛,龍 旭,潘曉英
1.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,西安 710121
2.陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,西安 710121
癌癥作為世界常見(jiàn)病種之一具有極高的致死率,其中頭頸癌(head and neck cancer,HNC)因其原發(fā)部位和病理類(lèi)型之多,居全身腫瘤之首。同時(shí),由于頭頸部包括人體的多數(shù)重要器官組織,解剖關(guān)系復(fù)雜,對(duì)于此類(lèi)癌癥的治療也就尤為困難。因此,對(duì)患者進(jìn)行精準(zhǔn)的生存期預(yù)測(cè)是當(dāng)前癌癥問(wèn)題的關(guān)鍵[1]。
目前常見(jiàn)的生存期預(yù)測(cè)多從基因組學(xué)數(shù)據(jù)入手[1-4]。然而,除此之外,病理圖像、臨床信息等其他癌癥數(shù)據(jù)也與頭頸癌的生存期預(yù)測(cè)關(guān)系密切。大量的研究表明,病理圖像中包含豐富的癌癥生存期預(yù)測(cè)相關(guān)信息,可以直接反映癌癥的類(lèi)型、區(qū)別腫瘤的良惡性以及腫瘤的組織病理分級(jí)等,這些信息均與頭頸癌預(yù)后,尤其是生存期的狀態(tài)有著直接聯(lián)系[5],在癌癥的生存期預(yù)測(cè)中扮演著十分重要的角色[6-7]。目前己有一些基于病理圖像的癌癥生存期預(yù)測(cè)工作成功提出。Wang 等人提取出166 個(gè)病理圖像形態(tài)學(xué)特征并用于非小細(xì)胞肺癌的分類(lèi)和生存期預(yù)測(cè)[6]。其后,Yu 等人進(jìn)一步采用CenProfiler[8]工具從2 186張肺癌患病理圖像中提取出包含更全面圖像信息的9 879 維特征[7]。然而,采用現(xiàn)有工具提取出的圖像特征,存在數(shù)據(jù)維度較高而樣本數(shù)相對(duì)于特征而言較少的鮮明特點(diǎn)。這些數(shù)據(jù)中常包含不相關(guān)或冗余特征[9],對(duì)現(xiàn)存機(jī)器學(xué)習(xí)算法處理小樣本高維數(shù)據(jù)的效果造成影響,通過(guò)特征選擇來(lái)降低數(shù)據(jù)維數(shù)是解決該問(wèn)題的一種有效途徑。
特征選擇作為一種常用的降維方法可分為兩類(lèi)[10]:基于相關(guān)性的過(guò)濾式特征選擇和基于搜索的啟發(fā)式特征選擇?;谙嚓P(guān)性的過(guò)濾式特征選擇通過(guò)樣本的統(tǒng)計(jì)屬性來(lái)評(píng)價(jià)特征子集對(duì)于分類(lèi)目標(biāo)所起的作用,由此選擇出最優(yōu)特征子集。它不將任何分類(lèi)器納入到評(píng)估標(biāo)準(zhǔn),相對(duì)于后續(xù)分類(lèi)算法具有極強(qiáng)獨(dú)立性,可避免高維數(shù)據(jù)所造成的較高的分類(lèi)算法運(yùn)行成本。但同時(shí),這種統(tǒng)計(jì)方法不能保留特征間關(guān)聯(lián)性對(duì)分類(lèi)結(jié)果的影響。此類(lèi)型下常見(jiàn)的特征選擇算法包括Relief[11]、MRMR(minimum-redundancy maximum-relevancy)[12]、Mitra 基于特征相似性進(jìn)行的特征選擇[13]、CFS(completely fair schedule)[14]和FCBF(fast correlation-based filter)[15]等。
另一類(lèi)是基于搜索的特征選擇,這類(lèi)算法中常采用啟發(fā)式搜索方式來(lái)尋找最優(yōu)特征子集[16],這種方式選出的特征子集保障了特征對(duì)分類(lèi)目標(biāo)的共同影響。然而基于搜索的特征選擇受搜索空間的影響,在高維問(wèn)題上表現(xiàn)較差。近年來(lái),由于進(jìn)化算法優(yōu)秀的全局搜索能力及通用性,眾多研究者將目標(biāo)放在了通過(guò)改進(jìn)各類(lèi)進(jìn)化算法來(lái)進(jìn)行特征空間的搜索上。Zhang 等人[17]將骨干粒子群算法結(jié)合最近鄰算法應(yīng)用于特征選擇。Vieira 等人[18]用決策樹(shù)來(lái)進(jìn)行特征選擇,采用遺傳算法來(lái)尋找使得決策樹(shù)分類(lèi)錯(cuò)誤率最小的一組特征子集。Xue 等人[19]在粒子群算法中引入了三種新的初始化機(jī)制、個(gè)體和全局最優(yōu)更新機(jī)制,在特征數(shù)量和分類(lèi)性能上均有提高。
針對(duì)頭頸癌病理圖像特征提取后產(chǎn)生的高維度小樣本問(wèn)題,本文提出一種基于ReliefF-HEPSO 的多層次特征選擇算法。
(1)ReliefF-HEPSO 算法將過(guò)濾式特征選擇算法與啟發(fā)式搜索算法相結(jié)合,構(gòu)建多層次框架。在高維環(huán)境下,由于啟發(fā)式搜索算法存在篩選精度低,效率低下的問(wèn)題,引入過(guò)濾式特征選擇算法,從而縮小搜索空間,提升搜索精度,降低算法運(yùn)行時(shí)間。
(2)混合二進(jìn)制進(jìn)化粒子群算法(hybrid binary evolutionary particle swarm optimization,HEPSO)使用進(jìn)化神經(jīng)策略(evolutionary neural strategies,ENS)來(lái)改進(jìn)傳統(tǒng)的二進(jìn)制粒子群算法(binary particle swarm optimization,BPSO),并將其應(yīng)用在頭頸癌圖像特征上。該算法通過(guò)ENS 使得粒子突變產(chǎn)生新的粒子種群,豐富了粒子種群多樣性,從而使得算法能夠跳出局部最優(yōu)解,提升搜索效率。
(3)HEPSO 采用決策樹(shù)(decision tree,DT)分類(lèi)器的分類(lèi)準(zhǔn)確率作為算法的目標(biāo)函數(shù)(即評(píng)價(jià)準(zhǔn)則),驗(yàn)證了ReliefF-HEPSO 算法在頭頸癌病理圖像特征數(shù)據(jù)上的有效性。ReliefF-HEPSO 算法以較快速度尋找到使得分類(lèi)性能較高且特征個(gè)數(shù)較少的病理圖像特征子集。
本文提出融合ReliefF 和HEPSO 的多層次的病理圖像特征選擇算法——ReliefF-HEPSO。如圖1 所示,對(duì)于頭頸癌數(shù)據(jù)特征集,首先使用對(duì)應(yīng)特征的平均值以補(bǔ)全整個(gè)樣本集,并將經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集輸入到ReliefF-HEPSO 中;其次通過(guò)ReliefF提取數(shù)據(jù)的低維特征并將其作為HEPSO 的輸入,不斷迭代得到最優(yōu)特征子集;最后將經(jīng)過(guò)特征選擇的數(shù)據(jù)集劃分為測(cè)試集和訓(xùn)練集,其中訓(xùn)練集用來(lái)訓(xùn)練決策樹(shù)分類(lèi)器的相關(guān)參數(shù),測(cè)試集則被送入固定參數(shù)的決策樹(shù)分類(lèi)模型中,從而得到頭頸癌數(shù)據(jù)的分類(lèi)結(jié)果。
Fig.1 Multi-level pathological image feature selection algorithm flow圖1 多層次病理圖像特征選擇算法流程
ReliefF 算法是一種基于隨機(jī)選擇特征權(quán)重搜索的特征選擇方法[11],它根據(jù)單個(gè)特征與數(shù)據(jù)類(lèi)別的相關(guān)性,給予特征不同的權(quán)重,將高于指定閾值或滿(mǎn)足某種判定條件的特征作為候選子集,其余特征被移除。特征的權(quán)重根據(jù)式(1)來(lái)更新。
其中,Ri是每次從訓(xùn)練樣本集U中任意選擇的一個(gè)樣本,H、M(C)分別是在Ri的同類(lèi)樣本集和不同類(lèi)(設(shè)為C類(lèi))樣本集中分別找出的p個(gè)近鄰樣本,近鄰樣本個(gè)數(shù)p的選取由數(shù)據(jù)集的實(shí)際情況決定,p>0且小于類(lèi)別樣本中的最小值,本文p∈[0,14],P(C)為C類(lèi)樣本數(shù)占樣本總數(shù)的概率,M為抽樣次數(shù)。
患者的病例圖像特征同時(shí)存在連續(xù)值和離散值兩種類(lèi)型,當(dāng)?shù)趉個(gè)特征的屬性是連續(xù)值時(shí),根據(jù)式(2)計(jì)算樣本Ra和樣本Rb在第k個(gè)特征上的絕對(duì)差值。
當(dāng)?shù)趉個(gè)特征的屬性是離散值時(shí),根據(jù)式(3)進(jìn)行計(jì)算。
如果Xi和Hj在某個(gè)特征上的距離小于Xi和Mj(C)的距離,diff(k,Ri,Hj)<diff(k,Ri,Mj(C)),表明該特征對(duì)區(qū)分同類(lèi)和不同類(lèi)樣本是有益的,應(yīng)當(dāng)增加該特征的權(quán)重;反之,則降低該特征的權(quán)重。迭代m次,得到各特征的最佳權(quán)重。
w(k)越大,表示該特征的分類(lèi)能力越強(qiáng),對(duì)特征權(quán)重進(jìn)行篩選,若w(k)>?,?為特征閾值,保留第k個(gè)特征作為候選特征,否則刪除該特征。重復(fù)該過(guò)程直至i個(gè)特征全部遍歷完成。
為解決離散問(wèn)題的需求,Eberhart 等人[20-21]提出基于二進(jìn)制編碼的離散粒子群優(yōu)化算法(BPSO)。該算法通過(guò)模仿生物種群(鳥(niǎo)類(lèi))的覓食行為,將待優(yōu)化問(wèn)題的解空間對(duì)應(yīng)于鳥(niǎo)類(lèi)的飛行空間,將每只鳥(niǎo)抽象為一個(gè)粒子,用以表示候選解。
每個(gè)粒子被視為搜索空間中的一個(gè)搜索個(gè)體,僅具有兩個(gè)屬性:速度和位置。粒子的當(dāng)前位置表示為待優(yōu)化問(wèn)題的一個(gè)候選解,粒子的飛行過(guò)程則是該個(gè)體的搜索過(guò)程。粒子的飛行速度根據(jù)粒子歷史最優(yōu)位置和種群歷史最優(yōu)位置進(jìn)行動(dòng)態(tài)調(diào)整。BPSO 算法不斷迭代,更新粒子的速度和位置,最終得到滿(mǎn)足終止條件的最優(yōu)解。
針對(duì)高維度特征選擇問(wèn)題,BPSO 存在兩個(gè)主要不足:第一,BPSO 中每次迭代產(chǎn)生的粒子,即使確定為非最優(yōu)粒子也無(wú)法被剔除,仍然參與算法的迭代過(guò)程,這一行為大大增加了計(jì)算資源的浪費(fèi);第二,在BPSO 中更優(yōu)的粒子在每一次迭代結(jié)束時(shí)會(huì)丟棄所有有價(jià)值的信息,并在下一次迭代開(kāi)始時(shí)再次被隨機(jī)初始化,這樣的行為模式與算法在整個(gè)演變過(guò)程中始終追蹤局部最佳和全局最佳的目標(biāo)相矛盾,極易使得BPSO 陷入局部極小值。
因此,本文采用進(jìn)化神經(jīng)策略(ENS),通過(guò)粒子突變產(chǎn)生新的粒子種群,豐富種群多樣性,同時(shí)丟棄失敗粒子,降低算法時(shí)間復(fù)雜度。
2.3.1 進(jìn)化神經(jīng)策略(ENS)
進(jìn)化神經(jīng)策略(ENS)是Chellapilla 等人在數(shù)學(xué)游戲中學(xué)習(xí)的一種適當(dāng)策略[22]。該策略由m個(gè)神經(jīng)網(wǎng)絡(luò)pi(i=1,2,…,m)組成,每個(gè)網(wǎng)絡(luò)中均存在一個(gè)自適應(yīng)參數(shù)向量σi(j),σi(j)的每個(gè)分量對(duì)應(yīng)一個(gè)權(quán)重或偏置值,它們負(fù)責(zé)管理搜索神經(jīng)網(wǎng)絡(luò)的新突變參數(shù)的步長(zhǎng)。權(quán)重或偏置值通過(guò)在[-2,2]上的均勻分布抽樣產(chǎn)生。
對(duì)于每個(gè)父輩pi來(lái)說(shuō),后代可以通過(guò)式(4)、式(5)來(lái)創(chuàng)建。
其中,Nj(0,1)是每一個(gè)j重新采樣的標(biāo)準(zhǔn)正態(tài)分布,Nw表示權(quán)重和偏差的最大數(shù)量,并且。
2.3.2 BPSO 的改進(jìn)算法HEPSO
m個(gè)粒子的種群中每個(gè)粒子i在K維空間的位置和速度都可表示為一個(gè)矢量。
位置向量Xi={Xi1,Xi2,…,Xik} 表示候選特征子集,Xik表示第i個(gè)粒子的第k個(gè)特征;
速度向量Vi={Vi1,Vi2,…,Vik}表示選擇該特征子集的概率,即粒子位置Xi分配為1 的概率。
HEPSO 算法中首先對(duì)粒子的位置向量和速度向量隨機(jī)初始化,根據(jù)式(6)、式(7)更新粒子的速度向量,根據(jù)式(8)更新位置向量。
其中,n為迭代次數(shù);rand() 為0~1 之間的隨機(jī)數(shù);pbestik為粒子i的個(gè)體最優(yōu)值;pbestgk為粒子的種群最優(yōu)值;w為慣性系數(shù),w∈[2.1,8.0]決定了粒子先前速度對(duì)當(dāng)前速度的影響程度,調(diào)節(jié)w的大小可以起到平衡粒子群算法全局搜索能力和局部搜索能力的作用[23]。
適應(yīng)度函數(shù)是HEPSO 算法中評(píng)價(jià)特征子集優(yōu)劣的重要指標(biāo),如式(9)所示,自定義適應(yīng)度函數(shù)f(pi)為分類(lèi)器的準(zhǔn)確率。適應(yīng)度函數(shù)的輸入表示具有所選特征子集的粒子(即Xi向量中標(biāo)記為1 的特征),然后基于所選特征子集構(gòu)建DT 分類(lèi)器。適應(yīng)度函數(shù)的輸出設(shè)置為分類(lèi)器的分類(lèi)準(zhǔn)確率。
其中,TP(true positives)是樣本被分類(lèi)器正確地劃分為正例的個(gè)數(shù),TN(true negatives)是被正確地劃分為負(fù)例的個(gè)數(shù),F(xiàn)為樣本總數(shù)。
本文將特征選擇思想引入最優(yōu)化搜索算法中,利用混合二進(jìn)制進(jìn)化粒子群算法(HEPSO),結(jié)合BPSO 與ENS,在迭代過(guò)程中通過(guò)父輩與子代之間的突變豐富粒子種群的多樣性,同時(shí)種群個(gè)體之間的協(xié)作和信息共享也使得能夠更好地尋找最優(yōu)特征集合。
Fig.2 HEPSO particle mutation network圖2 HEPSO 算法粒子突變網(wǎng)絡(luò)
如圖2 所示,每次迭代時(shí),對(duì)適應(yīng)度函數(shù)值進(jìn)行排序,保留前一半更優(yōu)適應(yīng)值對(duì)應(yīng)的獲勝粒子,優(yōu)化的個(gè)體(或解)直接遺傳到下一代通過(guò)BPSO 繼承其全部信息,視為精英粒子。而剩下的具有最低適應(yīng)度函數(shù)值的失敗粒子將被丟棄。在獲勝粒子的基礎(chǔ)上,根據(jù)式(4)、式(5)進(jìn)行突變產(chǎn)生新的粒子,并與原有父輩pi中的精英粒子組合,形成下一次迭代的新種群。
粒子i在HEPSO 算法中的演化過(guò)程如圖3 所示。
Fig.3 Particle evolution process in HEPSO圖3 粒子在HEPSO 算法中的演化過(guò)程
ENS 中的突變特性是通過(guò)使粒子“飛入”新的搜索空間來(lái)幫助粒子群體多樣化從而達(dá)到豐富種群多樣性的目的,解決了BPSO 在迭代過(guò)程中產(chǎn)生的局部最優(yōu)解問(wèn)題。同時(shí),來(lái)自BPSO 父輩突變后產(chǎn)生相同數(shù)量的粒子將被用來(lái)填補(bǔ)被丟棄后粒子的空白。這些新粒子繼承了父輩的認(rèn)知特征,這將反過(guò)來(lái)增強(qiáng)ENS 的競(jìng)爭(zhēng)力和多樣性。
第k+1 次粒子狀態(tài)更新結(jié)束后,對(duì)粒子個(gè)體最優(yōu)值和種群最優(yōu)值進(jìn)行更新,局部最優(yōu)pbest和全局最優(yōu)gbest的更新方式如式(10)、式(11)、式(12)所示。
HEPSO 算法的步驟如下所示:
步驟1 隨機(jī)初始化HEPSO 算法的參數(shù)PID,包括粒子數(shù)m,迭代次數(shù)n,鄰域大小[-a,a],常參數(shù)c1、c2等。
步驟2 隨機(jī)選擇一組粒子并初始化粒子位置random(Xik,Vik),即隨機(jī)選擇特征向量。
步驟3 根據(jù)式(9)計(jì)算所有粒子的適應(yīng)度函數(shù)f(pi)。
步驟7 根據(jù)式(6)~式(8)更新精英粒子的位置與速度,合并父輩精英粒子與突變粒子為下次迭代的子代粒子群。
步驟8 若當(dāng)前迭代次數(shù)j≥n,結(jié)束迭代循環(huán),轉(zhuǎn)步驟9;否則轉(zhuǎn)步驟3。
步驟9 輸出種群最優(yōu)gbest作為問(wèn)題最優(yōu)解,求得最優(yōu)特征集合。
算法流程如圖4 所示,首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將處理后的數(shù)據(jù)送入ReliefF 算法中,計(jì)算每個(gè)特征權(quán)重并以此進(jìn)行排序,選擇特征權(quán)重較大的特征作為候選特征子集。其次初始化HEPSO 參數(shù),以決策樹(shù)分類(lèi)器的分類(lèi)準(zhǔn)確率為適應(yīng)度函數(shù),對(duì)其降序排列。其中排序前一半的粒子作為精英粒子保留,更新當(dāng)前迭代的個(gè)體極值位置和全局極值位置,而剩下粒子在精英粒子的基礎(chǔ)上進(jìn)行突變,產(chǎn)生新的子代粒子群,從而參與更新全局最優(yōu)。重復(fù)這個(gè)過(guò)程,直到滿(mǎn)足迭代終止條件,生成最優(yōu)特征子集。
設(shè)ReliefF-HEPSO 的迭代次數(shù)為n,粒子數(shù)為m,其中ReliefF 算法的特征總個(gè)數(shù)為N,抽樣次數(shù)為M,選取近鄰樣本數(shù)為p,則執(zhí)行ReliefF 算法的時(shí)間復(fù)雜度為O(M×max(N×p,N2))。設(shè)執(zhí)行ReliefF 算法后保留特征個(gè)數(shù)為K1,HEPSO 算法的時(shí)間復(fù)雜度為。傳統(tǒng)BPSO 算法無(wú)需進(jìn)行適應(yīng)度函數(shù)的排序以及新粒子的突變,設(shè)其特征個(gè)數(shù)為K2,則時(shí)間復(fù)雜度為O(n×m×K2)。由于HEPSO算法中的K1經(jīng)過(guò)ReliefF 算法做低維特征選擇,遠(yuǎn)低于BPSO 中使用全部特征的K2,且m通常小于K1、K2,因此HEPSO 的時(shí)間復(fù)雜度小于BPSO。此時(shí),ReliefF-HEPSO 的時(shí)間復(fù)雜度為:
Fig.4 ReliefF-HEPSO multi-level pathological image feature selection algorithm圖4 ReliefF-HEPSO 多層次病理圖像特征選擇算法
在空間復(fù)雜度方面,本文ReliefF-HEPSO 算法的HEPSO 比標(biāo)準(zhǔn)BPSO 算法在每次迭代中增加了常數(shù)量級(jí)的中間變量,如式(4)、式(5)中的σi(j)、等,以及與之相關(guān)的臨時(shí)變量的存儲(chǔ),空間復(fù)雜度有所升高,但由于在迭代前使用ReliefF 算法大幅減少HEPSO 算法中作為輸入的粒子向量長(zhǎng)度,縮小存儲(chǔ)空間,因此空間復(fù)雜度相比標(biāo)準(zhǔn)BPSO 算法仍有所降低。
在現(xiàn)代化技術(shù)支持下,建立智慧園區(qū)的總體構(gòu)想,綜合考量地塊信息化差異。其一,應(yīng)用系統(tǒng)層,主要包括園區(qū)控制云、園區(qū)管理云和園區(qū)服務(wù)云;第二,應(yīng)用支撐平臺(tái)層;其三,網(wǎng)絡(luò)通信層;其四,智能感知層;其五,基礎(chǔ)設(shè)施層。
實(shí)驗(yàn)數(shù)據(jù)采用由美國(guó)加州醫(yī)院提供的真實(shí)患者數(shù)據(jù)集,其中關(guān)于患者個(gè)人敏感信息已被剔除,使用之前對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。原始數(shù)據(jù)為患者的RT 病理圖像,圖像格式為dicom 的CT 圖像,如圖5 所示。
通過(guò)Ibex 軟件[24]從患者的CT 圖像中提取出數(shù)據(jù)形狀為[59,1 387]的csv 格式文本數(shù)據(jù)。其中59 指共59 名患者作為樣本參與預(yù)測(cè),1 387 指提取出的圖像特征共1 387 維。
每條患者數(shù)據(jù)包含形狀、圖像直方圖強(qiáng)度、灰度共生矩陣、鄰域強(qiáng)度差矩陣、灰度級(jí)游程長(zhǎng)度矩陣和強(qiáng)度直方圖高斯擬合共6 種特征類(lèi)別。每類(lèi)中通過(guò)不同的圖像特征提取方法提取出圖像特征,例如,形狀中根據(jù)二元掩模中的相鄰體素的3D 連通性來(lái)計(jì)算ROI 凸包的體積。每種方法對(duì)應(yīng)1 個(gè)屬性,共產(chǎn)生1 387個(gè)特征屬性。全部特征的具體描述見(jiàn)文獻(xiàn)[24]。
由于數(shù)據(jù)集為真實(shí)病例數(shù)據(jù),其中存在部分信息缺失問(wèn)題,使用整列特征的平均值來(lái)進(jìn)行補(bǔ)全。對(duì)于部分特征屬性,為避免某些數(shù)值較小的屬性被隱藏掩蓋,提高精度,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
醫(yī)院原始數(shù)據(jù)給出的59 名患者的生存期(按月計(jì)算)分布如圖6 所示。根據(jù)相關(guān)醫(yī)學(xué)文獻(xiàn)及醫(yī)生經(jīng)驗(yàn)分析,將59 名患者的生存期劃分為3 類(lèi),分別用0、1、2 表示。其中,0~18 個(gè)月為第一類(lèi),用0 表示,共24 人;18~36 個(gè)月為第二類(lèi),用1 表示,共15 人;36~150 個(gè)月為第三類(lèi),用2 表示,共20 人。每類(lèi)標(biāo)簽占總數(shù)的比例分別為41%、25%、34%。
本文實(shí)驗(yàn)環(huán)境為Windows10 64 位操作系統(tǒng),處理器為Intel i5-8250U,2.6 GHz,安裝內(nèi)存RAM 4.00 GB。軟件環(huán)境pycharm 編譯器,python3.5。
Fig.6 Label distribution of survival time圖6 生存期標(biāo)簽分布
為了驗(yàn)證ReliefF-HEPSO 算法在頭頸癌病理圖像特征選擇上的有效性和優(yōu)越性,本文分別與未降維、特征降維方法——PCA、ReliefF 算法、混合鯨魚(yú)優(yōu)化算法(whale optimization algorithm-simulate anneal,WOA-SA)[25]、二進(jìn)制粒子群算法(BPSO)、混合二進(jìn)制進(jìn)化粒子群算法(HEPSO)、ReliefF-BPSO 進(jìn)行對(duì)比實(shí)驗(yàn)。
其中,WOA-SA、BPSO、HEPSO、ReliefF-BPSO和ReliefF-HEPSO 這5 種模型的最大迭代次數(shù)n取100。WOA-SA 模型其他參數(shù)根據(jù)文獻(xiàn)[24]設(shè)置。BPSO、HEPSO 模型參數(shù)設(shè)置:種群規(guī)模m=50,學(xué)習(xí)因子c1=c2=0.5,慣性系數(shù)w=2.5,粒子最大速度Vmax=4,最小速度Vmin=-4。ReliefF-BPSO、ReliefF-HEPSO參數(shù)設(shè)置:抽樣次數(shù)M=5,閾值?=30 293.46,近鄰樣本數(shù)p=10,其他參數(shù)與BPSO、HEPSO 模型相同。ReliefF 參數(shù):抽樣次數(shù)M=5,閾值?=50 588.91,近鄰樣本數(shù)p=10。
針對(duì)Ibex 軟件提取后的頭頸癌病理圖像特征數(shù)據(jù)集,實(shí)驗(yàn)使用原始數(shù)據(jù)(即未降維數(shù)據(jù))、PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO 和ReliefF-HEPSO 共8 種模型,分別得到真實(shí)數(shù)據(jù)集下的最優(yōu)特征集合,并使用決策樹(shù)分類(lèi)模型作為分類(lèi)器。
測(cè)試采用5 折交叉驗(yàn)證,計(jì)算正確率(accuracy)、精度(precision)、召回率(recall)、F1 分?jǐn)?shù)(F1-score)和運(yùn)行時(shí)間(單位:s),并通過(guò)比較8 種模型的多項(xiàng)分類(lèi)性能指標(biāo)及其特征子集規(guī)模,說(shuō)明算法在特征選擇和分類(lèi)預(yù)測(cè)方面的能力。
決策樹(shù)分類(lèi)模型有以下分類(lèi)性能評(píng)價(jià)指標(biāo):
(1)正確率
正確率是最常見(jiàn)的評(píng)價(jià)指標(biāo),accuracy=(TP+TN)/(P+N)。通常來(lái)說(shuō),正確率越高,分類(lèi)器越好。其中,TP指被正確地劃分為正例(P)的個(gè)數(shù),即實(shí)際為正例且被分類(lèi)器劃分為正例的實(shí)例數(shù)(樣本數(shù));TN是被正確地劃分為負(fù)例(N)的個(gè)數(shù),即實(shí)際為負(fù)例且被分類(lèi)器劃分為負(fù)例的實(shí)例數(shù)。
(2)精度
精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,precision=TP/(TP+FP) 。其中,F(xiàn)P(false positives)指被錯(cuò)誤地劃分為正例的個(gè)數(shù),即實(shí)際為負(fù)例但被分類(lèi)器劃分為正例的實(shí)例數(shù)。
(3)召回率
召回率是覆蓋面的度量,度量有多少個(gè)正例被劃分為正例,即所有正例中被分對(duì)的比例,recall=TP/(TP+FN)=TP/P。其中,F(xiàn)N(false negatives)指被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為正例但被分類(lèi)器劃分為負(fù)例的實(shí)例數(shù)。
(4)F1 分?jǐn)?shù)
F1 分?jǐn)?shù),也稱(chēng)為綜合分類(lèi)率,它被定義為精確率和召回率的調(diào)和平均數(shù),F(xiàn)1=2×precision×recall/(precision+recall)。本文實(shí)驗(yàn)為3 分類(lèi),因此為了綜合多個(gè)類(lèi)別的分類(lèi)情況,評(píng)測(cè)系統(tǒng)整體性能,采用宏平均F1(macro-averaging)。宏平均F1 先對(duì)每個(gè)類(lèi)別單獨(dú)計(jì)算F1 值,再取這些F1 值的算術(shù)平均值作為全局指標(biāo)。由于宏平均F1 平等對(duì)待每一個(gè)類(lèi)別,因此它的值易受到稀有類(lèi)別的影響。
由表1 可得,PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO 算法選取的特征子集規(guī)模較未降維前,分別減少93%、93%、57%、48%、51%、97%和98%。且在降維比例最低98%時(shí),ReliefF-HEPSO 算法達(dá)到最佳的分類(lèi)效果83%。
Table 1 Number of features under different algorithms表1 不同算法下的特征個(gè)數(shù)
PCA 和ReliefF 算法在降維率均為93%時(shí)在數(shù)據(jù)集上分類(lèi)準(zhǔn)確率分別為67%、75%,且均比未降維前數(shù)據(jù)分類(lèi)效果好。因此,在本文數(shù)據(jù)集上,使用特征選擇算法獲得的分類(lèi)性能效果較好。
在相同迭代條件下,HEPSO 的分類(lèi)準(zhǔn)確率為75%,比BPSO 高出9 個(gè)百分點(diǎn),同時(shí)特征的降維率也提高了3 個(gè)百分點(diǎn),特征個(gè)數(shù)相比BPSO 的720 個(gè)減少至675 個(gè)。ReliefF-BPSO 在降維率為97%時(shí)取得81%的準(zhǔn)確率,ReliefF-HEPSO 的降維率為98%時(shí),準(zhǔn)確率為83%,特征個(gè)數(shù)相比ReliefF-BPSO 的42 個(gè)減少了52.4%。因此,HEPSO 比傳統(tǒng)BPSO 在本文數(shù)據(jù)集上表現(xiàn)更好,以較高降維率取得較好分類(lèi)性能。無(wú)論是BPSO、ReliefF-BPSO 還是HEPSO 與ReliefFHEPSO 相比,使用ReliefF 算法先進(jìn)行低維特征選擇的算法均能取得更好降維率并提升分類(lèi)準(zhǔn)確率。
WOA-SA 算法是Mafarja 在2017 年提出用于特征選擇的啟發(fā)式算法,并在UCI經(jīng)典數(shù)據(jù)集中有較好表現(xiàn)效果。相同迭代條件下,由表1 可知,WOA-SA在降維率和準(zhǔn)確率上分別為57%、70%,雖比傳統(tǒng)BPSO算法的表現(xiàn)較好,但仍遜色于本文提出的ReliefFHEPSO 算法。
BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO的降維率分別為48%、51%、97%和98%時(shí),分類(lèi)準(zhǔn)確率為66%、75%、81%、83%。隨著降維率的提高,分類(lèi)準(zhǔn)確率也隨之升高。但WOA-SA 中,降維率為57%時(shí),分類(lèi)準(zhǔn)確率卻僅有70%。因此,降維率與分類(lèi)準(zhǔn)確率成正比的關(guān)系,僅在一定區(qū)間范圍內(nèi)成立。隨著降維率的升高,分類(lèi)準(zhǔn)確率在一定時(shí)刻達(dá)到最高,其后存在降低的可能性。
從運(yùn)行時(shí)間角度分析,在相同迭代次數(shù)下,BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO 的運(yùn)行時(shí)間分別為31.79 s、22.99 s、16.63 s、10.84 s,ReliefF-BPSO 和ReliefF-HEPSO 的運(yùn)行時(shí)間分別比BPSO 和HEPSO 提高15.16 s、12.15 s 且沒(méi)有降低分類(lèi)性能。HEPSO、ReliefF-HEPSO 相比BPSO、ReliefFBPSO 運(yùn)行時(shí)間也有所提升。由此可知,使用ReliefF算法先做低維特征選擇能大幅減少運(yùn)算時(shí)間,且保持較好分類(lèi)準(zhǔn)確率。
綜上所述,ReliefF-HEPSO 算法在本文數(shù)據(jù)集上的特征選擇能力優(yōu)秀,能得到更小比例的特征子集;并且在原本千維級(jí)別特征的基礎(chǔ)上,算法僅使用2%左右比例的特征即可達(dá)到最佳分類(lèi)性能,運(yùn)行時(shí)間也最短。因此,ReliefF-HEPSO 算法在較短時(shí)間內(nèi),既使得取得的特征子集規(guī)模更小,又能夠保證獲得最高分類(lèi)性能,該算法很好地減小了數(shù)據(jù)規(guī)模,獲得更高分類(lèi)準(zhǔn)確率,減少算法運(yùn)行時(shí)間。
Fig.7 Characteristic heatmap圖7 特征熱力圖
Table 2 Comparison of classification performance of different feature selection and dimensionality reduction algorithms表2 不同特征選擇和降維算法的分類(lèi)性能對(duì)比
8 種算法在決策樹(shù)的多標(biāo)簽分類(lèi)器下的分類(lèi)性能如表2 所示。ReliefF-HEPSO 算法在各項(xiàng)度量參數(shù)上較之未降維、PCA、WOA-SA、BPSO、HEPSO、ReliefFBPSO 算法均有大幅提高。ReliefF-HEPSO 在分類(lèi)準(zhǔn)確率、召回率、F1 參數(shù)上較之ReliefF 算法有所提升,只有分類(lèi)精度與ReliefF 算法基本持平。ReliefFHEPSO 在分類(lèi)準(zhǔn)確率、分類(lèi)精度、F1 參數(shù)上較之ReliefF-BPSO 算法均有提升,在召回率上保持近似。ReliefF-HEPSO 算法較之未進(jìn)行降維前的預(yù)測(cè)準(zhǔn)確率提高33 個(gè)百分點(diǎn)。由上述結(jié)果可知,經(jīng)過(guò)ReliefFHEPSO 算法進(jìn)行頭頸癌病理圖像特征選擇后的數(shù)據(jù)多項(xiàng)分類(lèi)性能均得到了優(yōu)化,整體表現(xiàn)優(yōu)于其他算法。
圖7 所示為最終選取的20 維特征的heatmap圖像。
綜上所述,ReliefF-HEPSO 算法能夠有效地去除特征冗余,獲得規(guī)模更小的特征子集,并且在整體性能上優(yōu)于同類(lèi)算法,經(jīng)其輸出的特征子集更加精簡(jiǎn)和有效。因此,本文提出ReliefF-HEPSO 多層次特征選擇算法,并將其運(yùn)用到頭頸癌病理圖像特征的選擇中是可行的。經(jīng)過(guò)特征選擇后的病理圖像特征可用于設(shè)計(jì)個(gè)體化放射治療以潛在改善臨床結(jié)果。
本文將特征選擇方法運(yùn)用于頭頸癌患者的病理圖像特征的研究中,提出了一種基于ReliefF-HEPSO的多層次特征選擇方法。該算法首先利用ReliefF算法對(duì)病理圖像的形態(tài)學(xué)特征進(jìn)行快速降維,然后用特征權(quán)重較大的特征候選子集初始化粒子群,決策樹(shù)分類(lèi)器(DT)的分類(lèi)準(zhǔn)確率作為特征子集的評(píng)價(jià)函數(shù),將離散二進(jìn)制粒子群算法(BPSO)與進(jìn)化神經(jīng)策略(ENS)相結(jié)合,通過(guò)多次迭代得到最優(yōu)特征子集。實(shí)驗(yàn)表明,與PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO 這6 種模型比較,ReliefFHEPSO 算法更能有效剔除冗余特征,篩選出高相關(guān)性的病理圖像形態(tài)學(xué)特征,在保證83.3%的分類(lèi)準(zhǔn)確率情況下,達(dá)到98%的降維率,同時(shí)保持較快的運(yùn)算速度。ReliefF-HEPSO 算法構(gòu)造了過(guò)濾型與搜索型算法相結(jié)合的多層次混合模型,不僅能夠快速降低數(shù)據(jù)維度,而且能夠自動(dòng)確定最優(yōu)特征子集,該算法為解決小樣本高維問(wèn)題提供了一種行之有效的方法。