張飛飛,周濤,陸惠玲,梁蒙蒙,楊健
(1.寧夏醫(yī)科大學(xué) 公共衛(wèi)生與管理學(xué)院,銀川 750000;2.寧夏醫(yī)科大學(xué) 理學(xué)院,銀川 750000; 3.寧夏智能信息與大數(shù)據(jù)處理重點實驗室,銀川 750021)
肺癌是許多國家癌癥相關(guān)死亡的首要原因[1],傳統(tǒng)診斷方法有X射線、活檢、核磁共振等。PET/CT用于腫瘤的診斷越來越普及[2],雖然給腫瘤的診療帶來曙光,但大量圖像也給醫(yī)生帶來沉重的負擔(dān),因此,計算機輔助診斷(computer aided diagnosis,CAD)的發(fā)展將成為一種必然。Sachdeva[3]等提出了一種腦腫瘤CAD系統(tǒng),聯(lián)合GA-SVM和GA-ANN兩種模型,在不同數(shù)據(jù)集上最高正確率分別達到91.7%和94.9%;Rendon-Gonzalez[4]等使用支持向量機(support vector machine,SVM)在肺癌CAD系統(tǒng)中進行特征分類,正確率為78.08%;Wang[5]等結(jié)合ANN、遺傳算法(genetic algorithm, GA)和粗糙集(rough set,RS)構(gòu)建乳腺癌CAD模型,精度達到98.1%;尚丹[6]利用SVM進行肺癌的早期診斷,使用GA和PSO優(yōu)化參數(shù),精確度分別為90.91%和93.18%。
特征級融合在保留重要信息的基礎(chǔ)上,實現(xiàn)信息量的壓縮,處理速度快,但特征之間的冗余性和相關(guān)性使得“維數(shù)災(zāi)難”成為難題,屬性約簡是解決其行之有效的措施。而RS的屬性約簡和GA的尋優(yōu)能力在約簡過程中扮演著不可或缺的角色。在CAD診斷階段,SVM是常用分類器,但單個SVM不能精確判別對象所屬關(guān)系,降低了穩(wěn)定性和泛化能力,故常將SVM作為成員分類器,進行SVM集成以提高泛化能力[7]。
本研究提出基于變精度粗糙集(variable precision rough set,VPRS)、GA和SVM的肺部腫瘤CAD模型。首先構(gòu)造適應(yīng)度函數(shù),采用無回放余數(shù)隨機選擇法、均勻交叉和高斯變異算子進行遺傳操作;然后在不同的樣本空間中分別提取特征構(gòu)造特征空間,運用VPRS-RUGGA-SVM模型進行約簡和分類識別;最后采用集成的方式提高模型的穩(wěn)定性和分類性能。
為緩解Pawlak RS只能處理精確分類問題的局限,Ziarko提出了VPRS的概念,引入分類錯誤率β(0≤β<0.5),將下近似由完全包含擴展為部分包含,定義如下:
定義1[8],條件屬性P關(guān)于決策屬性Q的β約簡是P的一個子集red(P,Q,β),且滿足:
(1)γ(P,Q,β)=γ(red(P,Q,β),Q,β)
(2)從red(P,Q,β)中去掉任何一個屬性,都將使表達式(1)不成立。
定義2[9],決策屬性集Q對條件屬性集P的β依賴度定義為:
GA算法通過選擇、交叉、變異等操作,實現(xiàn)個體適應(yīng)性的提高。雖然目前GA在各個領(lǐng)域得到廣泛的應(yīng)用,但是仍然存在過快收斂和局部最小的問題。不同的遺傳算子對結(jié)果影響較大,下面簡要介紹遺傳算子和本研究選用的參數(shù)組合。
2.2.1選擇算子 無放回余數(shù)隨機選擇操作方法可以確保適應(yīng)度比平均適應(yīng)度大的個體一定能夠被遺傳到下一代,誤差較小,其具體操作過程如下:
(1)計算群體中每個個體在下一代群體中的生存期望數(shù)目Ni:
2.2.2交叉和變異算子 本研究選擇均勻交叉和高斯變異算子,其中均勻交叉指配對個體的每一個基因座上的基因,都以相同的交叉概率進行交換,形成兩個新的個體。高斯變異[10]是改進遺傳算法對重點搜索區(qū)域局部搜索性能的一種變異操作方法,是指在進行變異操作時,用符合均值為μ、方差為σ的正態(tài)分布隨機數(shù)替換原有的基因值。
SVM集成綜合了單個SVM的優(yōu)良性能,可提高泛化能力。成員分類器的設(shè)計須降低單個分類器的誤差并增加分類器之間的差異[11]。本研究在CT、PET、PET/CT樣本空間中,分別提取特征,構(gòu)造單一個體分類器,SVM集成結(jié)論的生成,采用相對多數(shù)投票法。
模型主要有三個特點:一是適應(yīng)度函數(shù)綜合考慮了屬性依賴度、約簡長度和懲罰函數(shù);二是采用無放回余數(shù)隨機選擇、均勻交叉和高斯變異算子進行遺傳操作;三是在不同的樣本空間中構(gòu)造個體分類器,采用集成的方式提高模型的穩(wěn)定性和泛化能力。流程見圖1。
圖1 CAD模型流程圖
3.2.1數(shù)據(jù)收集與預(yù)處理 從寧夏某三甲醫(yī)院收集肺部腫瘤CT、PET和PET/CT圖像9 000幅,各模態(tài)3 000幅,良惡性各1500幅。對原始圖像進行預(yù)處理,并從三個模態(tài)截取有較強區(qū)分能力的子圖作為ROI區(qū)域;最后將ROI歸一化為50×50的實驗圖像。ROI獲取及預(yù)處理過程見圖2。
3.2.2ROI分割 分割是圖像預(yù)處理的重要步驟,常用的方法包括閾值法、邊界檢測法、區(qū)域法等[12]。Otsu分割法是最常見的方法,核心思想是將圖像劃分為兩類,計算每個灰度級到兩類的灰度方差和,當(dāng)類間方差達到最大時,該灰度級為最佳閾值[13]。本研究采用Otsu對ROI區(qū)域分割,見圖3,以CT圖像ROI分割為例給出分割前后的實例。
圖2 ROI區(qū)域的獲取及預(yù)處理
圖3 分割前后的CT圖像ROI區(qū)域?qū)嵗?/p>
Fig3ExampleofROIregionbeforeandaftersegmentationofCTimage
3.2.3特征提取 提取腫瘤ROI區(qū)域的特征,見表1,利用模糊C均值聚類算法對特征結(jié)構(gòu)進行簡化。
表1 肺部腫瘤ROI區(qū)域不同類型特征
PET圖像惡性腫瘤ROI是黑色亮斑,良性是灰色區(qū)域,難以提取6維幾何特征,故CT和PET/CT的特征共104維,PET 98維。
3.2.4特征約簡 輸入:決策信息表S=(U,A,V,f),染色度為0,1組成的序列,β=0.4,交叉概率Pc=0.8,變異概率Pm=0.2,迭代次數(shù)K=150,初始種群M=20;
輸出:red(P,Q,β)
BEGIN
generate(M)
for i=1:K
Set nvars; //染色體長度
Set options;
F(x)=-ω1×target1-ω2×target2+ω3×target3;
P=Select(M, 2, Pc); //選擇
Q=Crossover(P, 2, Pc); //交叉
Q’=Mutation(Q, Pm); //變異
END
3.2.5集成SVM 通過三個單一SVM構(gòu)建集成SVM模型。
3.2.6決策識別 利用SVM對肺部腫瘤進行診斷識別。
約簡模型評價指標(biāo)包括約簡長度、依賴度、時間,分類模型評價指標(biāo)包括準(zhǔn)確率、敏感性、特異性、F值和時間,公式如下:
其中,TP表示被正確分類的惡性腫瘤數(shù);FP表示被錯分的惡性腫瘤數(shù);TN表示被正確分類的良性腫瘤數(shù);FN表示被錯分的良性腫瘤數(shù)。
采用VPRS-RUGGA對不同模態(tài)特征集合進行約簡,每個參數(shù)組合約簡5次,分別得到約簡長度、適應(yīng)度值、依賴度和時間,求五組約簡對應(yīng)結(jié)果的均值作為該模態(tài)結(jié)果。對于每次約簡結(jié)果采用五折交叉分類識別,得到五組識別結(jié)果,求各指標(biāo)均值作為此約簡結(jié)果,最后求五次約簡結(jié)果的平均值作為該組結(jié)果。
在CT、PET和PET/CT樣本空間構(gòu)造個體分類器,使用VPRS-RUGGA進行屬性約簡,約簡子集采用SVM分類識別,實驗結(jié)果見表2、表3。
表2 不同模態(tài)模型約簡結(jié)果的比較Table 2 Comparison of the reduction results from different modals
由表2可知,基于CT的CAD模型約簡長度為6.8維,依賴度較高,時間為303.6945 s;基于PET的CAD模型約簡長度為6.6維,依賴度和運行效率最高;基于PET/CT的CAD模型約簡長度為8.6維,依賴度和時間介于CT和PET之間,且三模態(tài)約簡過程均無早熟現(xiàn)象。
表3不同模型分類結(jié)果的比較
Table3Comparisonoftheclassificationresultsfromdifferentmodels
模型精確度(%)敏感性(%)特異性(%)F值(%)時間(s)CT-SVM92.2391.4792.9992.1817.8284PET-SVM99.0698.29100.0099.045.9659PET/CT-SVM98.4097.6999.1198.367.7584集成98.9598.4399.4698.6731.7889
由表3可知,CT各指標(biāo)均高于90%,但相對最低,分類效果不理想;PET分類性能相比CT提高很快,運行效率較高。PET顯示功能代謝信息,惡性腫瘤ROI為黑色斑塊,而良性為灰色,易于區(qū)分[13],故在PET空間構(gòu)造分類器效果很好;PET/CT各評價指標(biāo)介于CT和PET之間,PET/CT能全面描述病灶區(qū)域的解剖和功能結(jié)構(gòu),在PET/CT特征空間構(gòu)造分類器效果較好;集成模型的精確度相比CT和PET/CT提高6.72%和0.55%,靈敏性高于單模態(tài),特異性高于CT。
實驗表明,不同模態(tài)圖像在肺癌診斷中扮演著不同的角色,在不同的樣本空間構(gòu)造個體分類器精確度不同,排除PET圖像易于區(qū)分的特性,集成可提高泛化能力和穩(wěn)定性。
驗證實驗表明VPRS-RUGGA-SVM模型在不同模態(tài)的適用性,且集成模型的優(yōu)越性更加顯著。為驗證模型在屬性約簡和分類識別階段的優(yōu)勢,選用效果較好的PET/CT圖像做對比實驗。
參數(shù)設(shè)置:SGA表示經(jīng)典GA,輪盤賭選擇、交叉和變異概率分別為0.8,0.2;VPRS的分類錯誤率β=0.4。實驗結(jié)果見表4、表5和圖4、圖5。
表4 不同模型約簡結(jié)果對比Table 4 Comparison of reduction results from different models
圖4RS-SGA-SVM某次約簡過程中適應(yīng)度函數(shù)變化情況
Fig4ThechangeoffitnessfunctioninareductionprocessofRS-SGA-SVM
圖5 VPRS-SGA-SVM某次約簡過程適應(yīng)度函數(shù)變化情況
Fig5ThechangeoffitnessfunctioninareductionprocessofVPRS-SGA-SVM
由表4可知,RS-SGA-SVM和VPRS-SGA- SVM相比驗證實驗中前三組,約簡長度增加,依賴度降低,時間是本研究模型的2倍左右,運行效率降低,且每次約簡都出現(xiàn)了類似圖4、圖5的早熟現(xiàn)象。RUGGA-SVM模型的適應(yīng)度函數(shù)只包括約簡長度和懲罰函數(shù),運行效率較高;RS-RUGGA-SVM模型引入RS后,依賴度最高,約簡長度和時間相比,本研究模型較長,但有效改善了早熟問題。因此,引入無回放余數(shù)隨機選擇法、均勻交叉和高斯變異算子組合以后,改善了早熟問題,且提高了運行效率。
因RS-SGA-SVM和VPRS-SGA-SVM模型在屬性約簡階段存在不同程度的早熟現(xiàn)象,就不再進行SVM的分類比較。
從表5可見,RUGGA-SVM模型在不引入屬性依賴度時,雖約簡長度和時間都優(yōu)于其他模型,但是分類階段各指標(biāo)嚴重降低,運行效率低下;RS-RUGGA-SVM模型相比RUGGA-SVM模型引入屬性依賴度,精確度提高3.41%、時間減少,但是相比本研究模型,精確度、敏感性和特異性分別降低1.04%,1.12%,0.96%。
表5 不同模型分類結(jié)果的比較Table 5 Comparison of classification results from different models
通過對比實驗可知,VPRS-RUGGA-SVM 模型有效改善了GA算法的早熟收斂問題,且通過引入VPRS提高了模型的識別性能。
針對CAD易出現(xiàn)穩(wěn)定性差和早熟問題,提出一種集成模型。為驗證模型的可行性和有效性,提取三個模態(tài)肺部腫瘤ROI區(qū)域的特征構(gòu)建原始特征空間,在此基礎(chǔ)上做了兩組實驗,驗證實驗運用VPRS-RUGGA-SVM模型在CT、PET和PET/CT三個模態(tài)進行實驗,取得較好的效果,且集成以后精確度相比單一CT和PET/CT提高6.72%和0.55%,提高了穩(wěn)定性和泛化能力;對比實驗說明VPRS-RUGGA-SVM模型在引入無回放余數(shù)隨機選擇法、均勻交叉和高斯變異算子組合后,改善了GA算法的早熟問題,且通過引入VPRS,提高了模型的識別性能。因此本研究模型能較好的解決CAD優(yōu)化過程中穩(wěn)定性差和早熟問題,但是參數(shù)的選擇在實際應(yīng)用時應(yīng)具體問題具體分析。