任海玲 周 濤,2,3* 霍兵強(qiáng)
1(寧夏醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院 寧夏 銀川 750004)2(寧夏醫(yī)科大學(xué)理學(xué)院 寧夏 銀川 750004)3(寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室 寧夏 銀川 750021)4(北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 寧夏 銀川 750004)
據(jù)2018年世界衛(wèi)生組織下屬國(guó)際癌癥研究機(jī)構(gòu)(IARC)發(fā)布的《全球癌癥報(bào)告》[1]:肺癌是人類發(fā)病率及死亡率最高的癌癥,對(duì)人類的生命健康造成巨大威脅。醫(yī)學(xué)影像是肺部腫瘤診斷的重要參考依據(jù),能為肺部腫瘤良惡性識(shí)別等提供全面的評(píng)估信息,輔助醫(yī)生提高肺部腫瘤良惡性識(shí)別精度。其中,CT[2]通過血管的對(duì)比造影清晰地顯示縱隔和肺門部的解剖結(jié)構(gòu),能夠精確定位病灶及顯示病灶細(xì)微結(jié)構(gòu)變化;PET采用正電子核素作為示蹤劑,通過病灶部位對(duì)示蹤劑的攝取了解病灶功能代謝狀態(tài),可以從分子水平反映全身各臟器功能、代謝等病理特征[3];PET/CT[4]將CT解剖成像和PET功能成像進(jìn)行融合,能夠全面發(fā)現(xiàn)病灶,精確定位及判斷病灶良惡性。
粗糙集理論(rough set,RS)是波蘭學(xué)者Pawlak[5]提出的處理不精確、不一致數(shù)據(jù)的工具,它能夠基于各類數(shù)據(jù)本身所提供的信息利用等價(jià)關(guān)系、上下近似等對(duì)知識(shí)進(jìn)行劃分,具有優(yōu)良的知識(shí)提取和屬性約簡(jiǎn)能力。經(jīng)典粗糙集利用絕對(duì)等價(jià)關(guān)系對(duì)知識(shí)進(jìn)行獲取,容錯(cuò)性差。變精度粗糙集[6]通過引入分類錯(cuò)誤率β,具有一定的容錯(cuò)能力,但僅憑人的經(jīng)驗(yàn)來指定某個(gè)值,具有隨機(jī)性。貝葉斯粗糙集[7]、決策粗糙集[8]等RS擴(kuò)展模型對(duì)錯(cuò)誤率進(jìn)行了泛化,具有客觀性。但是,以上粗糙集模型都只能處理離散數(shù)據(jù),對(duì)于現(xiàn)實(shí)生活生產(chǎn)存在的連續(xù)型數(shù)據(jù)不能直接處理。在醫(yī)療、金融、科研等領(lǐng)域,如基于醫(yī)學(xué)影像圖像的計(jì)算機(jī)輔助診斷領(lǐng)域,存在著大量連續(xù)型數(shù)據(jù),包括屬性約簡(jiǎn)處理的諸如粗糙度、周長(zhǎng)、面積、方差、均值等。通常的解決手段是采用離散化算法把數(shù)值型轉(zhuǎn)換為離散型[9],但數(shù)據(jù)的轉(zhuǎn)換會(huì)導(dǎo)致其信息的丟失,而計(jì)算處理的結(jié)果很大程度上取決于數(shù)據(jù)轉(zhuǎn)換的效果。針對(duì)上述問題,文獻(xiàn)[10]基于鄰域?;痛植诒平岢隽肃徲虼植诩?Neighborhood Rough Set ,NRS),可以直接處理連續(xù)型數(shù)據(jù),且具有一定的容錯(cuò)能力。近年來,徐久成等[11]提出一種基于鄰域粗糙集和粒子群優(yōu)化的特征基因選擇算法;王效俐等[12]為提高醫(yī)療決策的效率和有效性,建立了鄰域粗糙集融合貝葉斯神經(jīng)網(wǎng)絡(luò)的組合醫(yī)療決策模型,對(duì)智能醫(yī)療行業(yè)的發(fā)展有重要意義。
差分進(jìn)化(Differential evolution,DE)算法[13]是解決實(shí)值變量問題的有效算法之一,群體搜索與協(xié)同搜索相結(jié)合,具有結(jié)構(gòu)簡(jiǎn)單易于使用的優(yōu)點(diǎn)[14]。集成學(xué)習(xí)[15]通過一定的規(guī)則生成多個(gè)具有同性質(zhì)且又存在差異的個(gè)體學(xué)習(xí)器,然后采用某種集成策略整合所有個(gè)體學(xué)習(xí)器的預(yù)測(cè)結(jié)果,最后綜合判斷并獲得比單個(gè)個(gè)體學(xué)習(xí)器更為客觀、準(zhǔn)確的預(yù)測(cè)結(jié)果。
本文首先以肺部腫瘤醫(yī)學(xué)影像組學(xué)[16]為基礎(chǔ),結(jié)合DE與NRS算法,分別搭建了屬性約簡(jiǎn)模型(CT-DE-NRS、PET-DE-NRS、PET/CT-DE-NRS);其次,利用SVM分類器分別對(duì)三個(gè)單一屬性約簡(jiǎn)模型得到的屬性約簡(jiǎn)結(jié)果進(jìn)行肺部腫瘤良惡性識(shí)別準(zhǔn)確率檢測(cè);最后采用相對(duì)多數(shù)投票決策策略整合三個(gè)SVM個(gè)體分類器的預(yù)測(cè)結(jié)果,從而得到較為客觀的肺部腫瘤良惡性識(shí)別預(yù)測(cè)結(jié)果。
DE是一類基于種群的啟發(fā)式全局搜索技術(shù),具有原理簡(jiǎn)單、受控參數(shù)少、對(duì)于連續(xù)型參數(shù)的優(yōu)化有較好的魯棒性等優(yōu)點(diǎn)[17]。首先,從初始化種群中隨機(jī)選擇兩個(gè)個(gè)體向量進(jìn)行差分處理得到差分向量;其次,差分向量對(duì)第三隨機(jī)目標(biāo)向量進(jìn)行擾動(dòng)得到變異向量;然后,變異向量與目標(biāo)向量進(jìn)行雜交得到試驗(yàn)向量;最后選擇目標(biāo)向量和試驗(yàn)向量中較優(yōu)者保存在下一代群體中,即:初始化、變異、交叉、選擇。
Pawlak[5]提出的RS以離散數(shù)據(jù)為研究對(duì)象,對(duì)于連續(xù)型數(shù)據(jù)需先進(jìn)行離散化預(yù)處理,而經(jīng)離散化后的數(shù)據(jù)存在信息丟失問題。鄰域粗糙集利用鄰域關(guān)系代替等價(jià)關(guān)系,有效地避免了數(shù)據(jù)離散化對(duì)數(shù)據(jù)精準(zhǔn)性的影響?;径x如下:
定義1 鄰域。給定決策信息系統(tǒng)DS=(U,C,D,V,F),論域U={x1,x2,…,xn},條件屬性集C={c1,c2,…,cn},決策屬性D={d1,d2,…,dn},?B?C,?xi∈U,xi的B鄰域δB(xi)表示如下:
δB(xi)={xj|xj∈U,ΔB(xi,xj)<δ}
(1)
式中:ΔB(xi,xj)用于計(jì)算xi與xj之間的距離,表示對(duì)象xi與xj之間的相似程度;Δ表示對(duì)象屬性距離的計(jì)算函數(shù)。常見的距離計(jì)算函數(shù)是曼哈頓距離函數(shù),如下:
(2)
式中:f(xi,ak)表示xi的第i個(gè)屬性的值;N表示屬性個(gè)數(shù);xi的B鄰域是指在論域U中,所有與xi之間距離小于鄰域大小δ的樣本集合。
定義2 鄰域的上、下近似。任意樣本子集X?U,X在B上的上近似和下近似如下:
(3)
(4)
由此得出X的邊界域BN(X)為:
(5)
依據(jù)經(jīng)典粗糙集定義規(guī)則,X的下近似定義為正域,與X完全無關(guān)的域?yàn)樨?fù)域,即:
(6)
(7)
定義3 鄰域決策系統(tǒng)的上近似和下近似。給定鄰域決策信息系統(tǒng)NSD=(U,C∪D),決策屬性D將論域U劃分為N的等價(jià)類(X1,X2,…,Xn),?B?C,則決策屬性D關(guān)于子集B的上、下近似分別為:
(8)
(9)
式中:
(10)
(11)
同樣可以得到鄰域決策系統(tǒng)的邊界域?yàn)椋?/p>
(12)
鄰域決策系統(tǒng)的正域和負(fù)域分別為:
(13)
(14)
決策屬性D對(duì)條件屬性C的依賴度為:
(15)
由式(15)可得依賴度KD是單調(diào)的,若B1?B2?…?A,λB1(D)≤λB2(D)≤…≤λA(D)。
屬性ci在屬性集C相對(duì)于決策屬性D的重要度可定義為:
SIG(ci,C,D)=rC(D)-rC-{ci}(D)
(16)
定義4 相對(duì)約簡(jiǎn)。鄰域決策系統(tǒng)NDS=(U,C∪D),B?C,如果滿足以下條件,則稱屬性子集B是C的一個(gè)相對(duì)約簡(jiǎn)。
(1)rB(D)=rC(D),即PosB(D)=PosC(D),子集B與C具有相同的分類能力。
(2) ?C?B,rB(D)>rB-{c}(D),屬性子集B中沒有冗余屬性。
集成學(xué)習(xí)[18]通過一定的規(guī)則生成多個(gè)具有同性質(zhì)且又存在差異的個(gè)體學(xué)習(xí)器,然后采用某種集成策略整合所有個(gè)體學(xué)習(xí)器的預(yù)測(cè)結(jié)果,最后綜合判斷并獲得比單個(gè)個(gè)體學(xué)習(xí)器更為客觀、準(zhǔn)確的預(yù)測(cè)結(jié)果,且在大多數(shù)情況下可以顯著提高學(xué)習(xí)系統(tǒng)的泛化能力。
首先獲取肺部CT、PET、PET/CT醫(yī)學(xué)影像圖像;其次,對(duì)圖像進(jìn)行病灶區(qū)(region of interest,ROI)截取與分割預(yù)處理;再次,對(duì)預(yù)處理后的圖像進(jìn)行特征提取,形成CT、PET、PET/CT特征庫;然后,基于DE與NRS構(gòu)建屬性約簡(jiǎn)模型,得到CT、PET、PET/CT特征子集;基于SVM分類器模型,搭建肺部CT、PET、PET/CT個(gè)體分類器;最后,采取相對(duì)多數(shù)投票準(zhǔn)則對(duì)三個(gè)個(gè)體分類器做集成學(xué)習(xí),得到該模型的最后結(jié)果。具體模型流程如圖1所示。
圖1 本文功能流程圖
2.2.1 算法步驟
Step 1 獲取數(shù)據(jù)。從寧夏某三甲醫(yī)院獲取帶有良惡性標(biāo)記的肺部腫瘤患者的肺部CT、PET、PET/CT影像圖像各3 000例,其中:良性1 500例,惡性1 500例。
Step 2 ROI截取。以同一患者的三模態(tài)(CT、PET、PET/CT)醫(yī)學(xué)影像圖像為研究樣本,將具有較強(qiáng)區(qū)分能力的子圖處理為50×50像素的ROI區(qū)域。
Step 3 圖像分割。為準(zhǔn)確測(cè)量肺部腫瘤的周長(zhǎng)、面積、紋理等特征,選擇不受圖像對(duì)比度和亮度影響且具有準(zhǔn)確、穩(wěn)定優(yōu)點(diǎn)的OTSU算法對(duì)ROI區(qū)域進(jìn)行圖像分割預(yù)處理。肺部腫瘤CT、PET、PET/CT醫(yī)學(xué)影像圖像分割前后的對(duì)比如圖2所示。
圖2 分割前后的對(duì)比如圖
Step 4 特征提取。對(duì)分割后的肺部腫瘤CT-ROI、PET-ROI、PET/CT-ROI進(jìn)行形狀、角點(diǎn)、Hu矩陣、小波、統(tǒng)計(jì)、幾何、灰度共生矩陣等特征的提取,其中:CT和PET/CT分別共提取104維條件屬性特征和1維決策屬性特征;PET是功能成像,難以提取周長(zhǎng)、面積等幾何特征,故共提取98維條件屬性特征和1維決策屬性特征?;诜尾磕[瘤三模態(tài)醫(yī)學(xué)影像圖像的特征提取集合見表1。
表1 CT、PET、PET/CT三模態(tài)肺部影像特征集合
Step 5 基于DE與NRS的屬性約簡(jiǎn)。屬性約簡(jiǎn)的基本思想是在不影響決策信息系統(tǒng)的分類和決策能力條件下,刪除其中不相關(guān)或不重要的屬性,得到最優(yōu)屬性約簡(jiǎn)子集?;诮?jīng)典粗糙集的屬性約簡(jiǎn)算法是通過絕對(duì)等價(jià)關(guān)系對(duì)知識(shí)進(jìn)行處理,容錯(cuò)性差;經(jīng)典粗糙集只能處理離散數(shù)據(jù),不能處理本文的連續(xù)型數(shù)據(jù)?;谝陨显?,本文結(jié)合DE與NRS進(jìn)行屬性約簡(jiǎn),降低特征屬性的維度,提高分類學(xué)習(xí)算法的性能,簡(jiǎn)化數(shù)據(jù)描述和避免過擬合。具體步驟如下:
(1) 設(shè)定種群規(guī)模和進(jìn)化代數(shù):本文種群規(guī)模520,進(jìn)化代數(shù)取值200。
(2) 隨機(jī)生成初始種群:隨機(jī)生成NP個(gè)初始種群。
(3) 構(gòu)造適應(yīng)度函數(shù):合理且有效的適應(yīng)度函數(shù)決定DE搜索方向和進(jìn)化結(jié)果的好壞,適應(yīng)度值是判斷個(gè)體性能的重要指標(biāo)。本文從屬性重要度和約簡(jiǎn)數(shù)量?jī)煞矫婵紤],構(gòu)造適應(yīng)度函數(shù)進(jìn)行DE尋優(yōu),找到最優(yōu)屬性約簡(jiǎn)子集,適應(yīng)度函數(shù)為:
F(x)=-w1×target1-w2×target2
(17)
式中:target1=SIG(ci,C,D)是基于NRS計(jì)算的屬性重要度;target2=(|C|-|Lr|)/|C|,|C|表示由0、1構(gòu)成的條件屬性個(gè)數(shù),|Lr|表示條件屬性中值為1的個(gè)數(shù)。適應(yīng)度函數(shù)值越小越好。
(4) 變異:變異操作使用差分策略,即從初始化種群中隨機(jī)選擇兩個(gè)個(gè)體向量進(jìn)行差分處理得到差分向量,再利用差分向量對(duì)第三隨機(jī)目標(biāo)向量進(jìn)行擾動(dòng)得到變異向量。例如對(duì)目標(biāo)向量σ的變異操作:從當(dāng)前種群中隨機(jī)選擇三個(gè)向量xr1(t)、xr2(t)、xr3(t),對(duì)其中兩個(gè)向量的差值進(jìn)行縮放,并與第三個(gè)向量相加得到一個(gè)變異向量Vi(t):
Vi(t)=xr1(t)+F(xr2(t)-xr3(t))
(18)
式中:F為DE的縮放因子,取值范圍為[0,1]。
(5) 交叉:差分進(jìn)化算法中的雜交算子采用目標(biāo)向量和變異向量進(jìn)行操作:
(19)
式中:j∈{1,2,…,D};rand[0,1]是[0,1]之間的隨機(jī)數(shù);CR是交叉概率,取值范圍[0,1]。
(6) 選擇:DE的選擇策略是一種基于貪婪的選擇機(jī)制。若試驗(yàn)向量ui(t) 的適應(yīng)度值優(yōu)于目標(biāo)向量Vi(t)的值,則保留到下一代種群,否則保留Vi(t)。
Step 6 基于DE-NRS構(gòu)造個(gè)體分類器。將上述基于DE、NRS得到的屬性約簡(jiǎn)結(jié)果, 基于三個(gè)模態(tài)(CT、PET、PET/CT)肺部腫瘤醫(yī)學(xué)影像圖像構(gòu)成的樣本空間建立三個(gè)相對(duì)獨(dú)立的DE-NRS個(gè)體分類器(CT-DE-NRS、PET-DE-NRS、PET/CT-DE-NRS)。
Step 7 基于DE-NRS的集成學(xué)習(xí)計(jì)算機(jī)輔助診斷模型。采用相對(duì)多數(shù)投票法集成三個(gè)DE-NRS模型得到的肺部腫瘤識(shí)別結(jié)果。從靈敏性、特異性、識(shí)別精度、馬修相關(guān)系數(shù)四個(gè)方面比較三個(gè)單一DE-NRS模型個(gè)體分類器和集成DE-NRS在肺部腫瘤計(jì)算機(jī)輔助診斷中的整體性能。
2.2.2 算法偽代碼
基于DE-NRS屬性約簡(jiǎn)算法的偽代碼如下:
算法輸入:決策信息表(其中:CT和PET/CT包括104維條件屬性特征和1維決策屬性特征;PET包括98維條件屬性特征和1維決策屬性特征);測(cè)試樣本parnum;鄰域半徑lambda;權(quán)重值weight;種群數(shù)目popsize;進(jìn)化代數(shù)maxgen;交叉系數(shù)CR;變異系數(shù)F;
算法輸出:約簡(jiǎn)后屬性值features;約簡(jiǎn)后屬性長(zhǎng)度fnum;適應(yīng)度值。
算法步驟:
Main
//主函數(shù)
For k=1:dim
Dis=bsxfun(@minus,data_scale(:,k),data_scale(:,k)’);
flagMat(:,:,k)=abs(dis)<=delta(k);
end
myDE
//差分進(jìn)化算法
for gen=1:maxgen;
for p =1:popsize;
r = randperm(popsize,3);
while any(r == p)
r = randperm(popsize,3);
end
trailVar = popVar(r(1),:) + F*(popVar(r(2),:)-popVar(r(3),:));
trailVar = min(max(trailVar,low),up);
idx = rand(1,dim) < CR;
idx(randi(dim))=1;
mutVar=trailVar.*idx+popVar(p,:).*(1-idx); mutObj=myfun(mutVar);
if mutObj<=popObj(p,:)
popVar(p,:)=mutVar;
popObj(p,:)=mutObj;
end
end
myfun
//基于鄰域粗糙集的屬性重要度求解算法
if(isempty(C));
gama = 0;
return;
end
posCD = PositiveRegion(U,C,D);
gama = length(posCD)/length(U);
end
肺部腫瘤良惡性識(shí)別SVM個(gè)體分類器算法的偽代碼如下:
算法輸入:經(jīng)DE-NRS屬性約簡(jiǎn)模型約簡(jiǎn)后的屬性約簡(jiǎn)子集決策信息表。
算法輸出:時(shí)間time; 靈敏度sen;特異度spe;識(shí)別精度acc;馬修相關(guān)系數(shù)mcc。
算法步驟:
indx1=find(features(:,1000)==1); indx0=find(features(:,1000)==-1);
test_data_index=[indx1([1*1000-199:1*1000]);indx0([1*1000-999:1*1000])];[1*1000-999:1*1000];
[train_final,test_final]=scaleForSVM(train_data,test_data,-1,1);
[bestCVaccuracy,bestc,bestg]=SVMcgForClass(train_data_labels,train_final,0,6.5,-1.5,2,5,0.5,1,0.9);
cmd = [′-c′,num2str(bestc),′-g′,num2str(bestg)];
model = svmtrain(train_data_labels, train_final,cmd);
[ptrain_label2, train_accuracy]=svmpredict(train_data_labels, train_final, model);
[ptest_label2,accuracy,decision_values]=svmpredict(test_data_labels, test_final, model);
處理器:Intel(R)core(TM)i7-6800K CPU 3.40 GHz;內(nèi)存:16 GB;系統(tǒng)類型:64位操作系統(tǒng);運(yùn)行環(huán)境:MATLAB 2018;實(shí)驗(yàn)數(shù)據(jù)來源:寧夏某三甲醫(yī)院帶有良惡性標(biāo)記的肺部腫瘤患者的肺部影像資料CT、PET、PET/CT各3 000例,其中良性1 500例,惡性1 500例。
為確保和驗(yàn)證模型的有效性和可行性,進(jìn)行如下實(shí)驗(yàn):1) 對(duì)鄰域粗糙集的鄰域大小σ確定方式進(jìn)行探討;2) 對(duì)差分進(jìn)化算法中涉及的變異系數(shù)F、交叉系數(shù)CR、權(quán)重值ω等參數(shù)進(jìn)行探討;3) CT、PET、PET/CT集成實(shí)驗(yàn); 4) 與變精度粗糙集、深度信念網(wǎng)絡(luò)等算法進(jìn)行對(duì)比實(shí)驗(yàn)。
以下實(shí)驗(yàn)結(jié)果均為相同實(shí)驗(yàn)環(huán)境下5次實(shí)驗(yàn)結(jié)果的均值。
3.3.1 NRS的參數(shù)實(shí)驗(yàn)
NRS模型中,鄰域大小σ對(duì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確性起著至關(guān)重要的影響作用,目前,鄰域大小σ取值方式包括兩種:(1) 點(diǎn)值式(即依據(jù)人的經(jīng)驗(yàn)制定特定的值);(2) 通過σ=stda/λ計(jì)算所得,其中參數(shù)λ也是通過點(diǎn)值式確定。合適的σ取值能讓算法得到個(gè)數(shù)較少且有效性較高的屬性約簡(jiǎn)子集。屬性約簡(jiǎn)子集的有效性體現(xiàn)在分類器根據(jù)其對(duì)數(shù)據(jù)進(jìn)行識(shí)別后得到的識(shí)別精度上,識(shí)別精度越高,則屬性約簡(jiǎn)子集的有效性越高。因此,本文使用控制變量法對(duì)鄰域大小σ取值進(jìn)行實(shí)驗(yàn),探討σ的兩種計(jì)算方式對(duì)實(shí)驗(yàn)結(jié)果的影響,其中基于公式計(jì)算的實(shí)驗(yàn)通過控制變量λ進(jìn)行。圖3給出約簡(jiǎn)數(shù)量、識(shí)別精度隨點(diǎn)值式σ取值的變化情況,其中,σ取值以0.05為步長(zhǎng),從0到1變化。圖4給出約簡(jiǎn)數(shù)量、識(shí)別精度隨λ的變化情況,λ的取值以0.1為步長(zhǎng),從2到4變化。
圖3 約簡(jiǎn)數(shù)量、識(shí)別精度隨鄰域大小σ的變化情況
圖4 約簡(jiǎn)數(shù)量、識(shí)別精度隨鄰域大小λ的變化情況
從得到的約簡(jiǎn)結(jié)果來看,以點(diǎn)值式方式直接確定鄰域大小存在約簡(jiǎn)數(shù)量大的問題,得到約簡(jiǎn)數(shù)量均值為44.7,占總屬性數(shù)目的44.23%,而以公式σ=stda/λ確定鄰域大小得到的約簡(jiǎn)數(shù)量較為理想,為7。從識(shí)別精度來看,以點(diǎn)值式方式直接確定鄰域大小與通過公式σ=stda/λ確定鄰域大小得到識(shí)別精度均值相差不大。因此,綜合約簡(jiǎn)數(shù)量和識(shí)別精度兩方面因素,本文鄰域大小選擇使用公式σ=stda/λ計(jì)算確定,且λ取值為2.2。約簡(jiǎn)數(shù)量隨σ和λ取值變化的對(duì)比如圖5所示。
圖5 約簡(jiǎn)數(shù)量λ、σ的變化情況
3.3.2 DE的參數(shù)實(shí)驗(yàn)
(1) 變異系數(shù)F與交叉系數(shù)CR參數(shù)研究。DE算法主要利用獲選解間的不同性來搜索更多的可能的解。一個(gè)候選解當(dāng)作一個(gè)個(gè)體,每個(gè)個(gè)體的更新需要利用不同個(gè)體間的差異來進(jìn)行。但是獲取個(gè)體間的差異性的方式需要進(jìn)一步分析,以及怎樣利用這些差異性,即設(shè)置其相關(guān)的參數(shù)來搜索更好的解需進(jìn)一步研究。DE算法涉及的主要控制參數(shù)包括:種群規(guī)模、迭代次數(shù)、交叉系數(shù)CR、變異系數(shù)F。本文種群規(guī)模根據(jù)經(jīng)驗(yàn)取值為520,迭代次數(shù)根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)取值200,主要探討交叉系數(shù)CR、變異系數(shù)F對(duì)約簡(jiǎn)數(shù)量和識(shí)別精度的影響。圖6、圖7展示了約簡(jiǎn)數(shù)量、識(shí)別精度分別隨F和CR的變化情況;圖8展示了約簡(jiǎn)數(shù)量、識(shí)別精度隨(CR,F(xiàn))組合值的變化情況。其中:CR的取值以0.1為步長(zhǎng),從0.8到1變化;F的取值以0.1為步長(zhǎng),從0.5到1變化。
圖6 約簡(jiǎn)數(shù)量、識(shí)別精度隨F值的變化
圖7 約簡(jiǎn)數(shù)量、識(shí)別精度隨CR變化
圖8 約簡(jiǎn)數(shù)量、識(shí)別精度隨(CR、F)組合值的變化
由實(shí)驗(yàn)結(jié)果可知:CR與F并非同時(shí)取最優(yōu)值時(shí),便能夠得到最優(yōu)約簡(jiǎn)數(shù)量和識(shí)別精度,在CR=0.8,F(xiàn)=1時(shí),約簡(jiǎn)數(shù)量和識(shí)別精度達(dá)最優(yōu)值,因此本文CR取0.8,F(xiàn)取1。
(2) 權(quán)重值參數(shù)研究。差分進(jìn)化算法還涉及適應(yīng)度函數(shù)的構(gòu)造,針對(duì)本文構(gòu)造的適應(yīng)度函數(shù),探討了權(quán)重(ω1,ω2)組合值對(duì)約簡(jiǎn)數(shù)量和分類精度的影響。圖9展示了約簡(jiǎn)數(shù)量、識(shí)別精度隨(ω1,ω2)組合值的變化情況。通過實(shí)驗(yàn)結(jié)果對(duì)比,本文實(shí)驗(yàn)參數(shù)(ω1,ω2)取值(-0.3、-0.7)。
圖9 約簡(jiǎn)數(shù)量、識(shí)別精度隨(ω1,ω2)組合值的變化
3.3.3 個(gè)體分類器實(shí)驗(yàn)
本文選用五折交叉驗(yàn)證法分別計(jì)算基于CT、PET、PET/CT肺部腫瘤識(shí)別性能,具體評(píng)價(jià)指標(biāo)為:靈敏度、特異度、識(shí)別精度、馬修相關(guān)系數(shù)。
(1) 基于肺部腫瘤CT樣本空間構(gòu)造個(gè)體分類器?;诜尾磕[瘤CT樣本空間的104維特征構(gòu)造CT-SVM個(gè)體分類器,利用五折交叉訓(xùn)練法(在1 500例良性腫瘤中,1 200例作為訓(xùn)練集,300例作為測(cè)試集。1 500例惡性腫瘤訓(xùn)練同理)得到肺部腫瘤良惡性識(shí)別性能,見表2。實(shí)驗(yàn)表明,CT圖像肺部腫瘤識(shí)別精度為95%,靈敏度為97.8%,特異度為92.2%,說明在CT圖像構(gòu)成的樣本空間里構(gòu)造的個(gè)體分類器靈敏度高、特異度較低。
表2 基于肺部CT醫(yī)學(xué)影像圖像的肺部腫瘤識(shí)別精度
(2) 基于肺部腫瘤PET樣本空間構(gòu)造個(gè)體分類器?;诜尾磕[瘤PET樣本空間的98維特征構(gòu)造PET-SVM個(gè)體分類器,利用五折交叉訓(xùn)練法(在1 500例良性腫瘤中,1 200例作為訓(xùn)練集,300例作為測(cè)試集。1 500例惡性腫瘤訓(xùn)練同理)得到肺部腫瘤良惡性識(shí)別性能,見表3。實(shí)驗(yàn)表明,PET圖像肺部腫瘤識(shí)別精度為97%,靈敏度為1,特異度為98.2%,說明PET較CT圖像在構(gòu)成的樣本空間里構(gòu)造的個(gè)體分類器靈敏度高,特異度、識(shí)別精度較高。
表3 基于肺部PET醫(yī)學(xué)影像圖像的肺部腫瘤識(shí)別精度
(3) 基于肺部腫瘤PET/CT樣本空間構(gòu)造個(gè)體分類器。基于肺部腫瘤PET/CT樣本空間的104維特征構(gòu)造PET/CT-SVM個(gè)體分類器,利用五折交叉訓(xùn)練法(在1500例良性腫瘤中,1 200例作為訓(xùn)練集,300例作為測(cè)試集。1 500例惡性腫瘤訓(xùn)練同理)得到肺部腫瘤良惡性識(shí)別性能,見表4。實(shí)驗(yàn)表明,PET/CT圖像肺部腫瘤識(shí)別精度為98.9%,靈敏度為99.66%,特異度為99.04%,說明在PET/CT圖像的樣本空間里構(gòu)造的個(gè)體分類器靈敏度、特異度、識(shí)別精度都較高。
表4 基于肺部PET/CT醫(yī)學(xué)影像圖像的肺部腫瘤識(shí)別精度
3.3.4 診斷模型實(shí)驗(yàn)
上述實(shí)驗(yàn)結(jié)果表明:不同模態(tài)樣本空間的SVM個(gè)體分類器對(duì)肺部腫瘤識(shí)別精度不同。本文利用相對(duì)多數(shù)投票準(zhǔn)則對(duì)不同模態(tài)個(gè)體分類器的識(shí)別結(jié)果做集成學(xué)習(xí),從而得到最終識(shí)別結(jié)果,具體見表5??梢钥闯觯杭蒒RS-DE對(duì)肺部腫瘤的識(shí)別精度達(dá)99.72%,相對(duì)于單個(gè)CT、PET、PET/CT個(gè)體分類器在靈敏度、特異度、識(shí)別精度分別提高了4.72%、2.72%、0.82%。這說明集成DE-NRS比單個(gè)DE-NRS對(duì)肺部腫瘤識(shí)別效果更好,利于輔助醫(yī)生對(duì)肺部腫瘤進(jìn)行識(shí)別。
表5 基于集成學(xué)習(xí)的肺部腫瘤識(shí)別精度
3.3.5 不同模型識(shí)別精度的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文模型的合理性及有效性,本文與集成SVM[19]、集成VPRS-RUGGA-SVM[20]進(jìn)行相同數(shù)據(jù)不同方法的比較實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在肺部腫瘤識(shí)別的靈敏度、特異度和識(shí)別精度上都得到一定程度的提高。實(shí)驗(yàn)對(duì)比結(jié)果見表6。
表6 不同集成算法對(duì)肺部腫瘤識(shí)別精度的比較
肺癌是人類發(fā)病率及死亡率最高的癌癥,對(duì)人類的生命健康造成巨大威脅。計(jì)算機(jī)輔助診斷在肺癌的早期診斷中扮演著重要角色,但仍然存在著假陽性高等問題。本文結(jié)合DE提出基于集成NRS的肺部腫瘤影像組學(xué)計(jì)算機(jī)輔助診斷模型在肺部腫瘤良惡性識(shí)別上,整體性能較好,識(shí)別精度達(dá)到99.72%,具有較好的魯棒性和可擴(kuò)展性,為肺部腫瘤計(jì)算機(jī)輔助診斷提供了技術(shù)支持。若能將肺部腫瘤計(jì)算機(jī)輔助診斷系統(tǒng)應(yīng)用于更多的基層醫(yī)院、放射科室,將會(huì)拯救更多的肺癌患者。于家庭,早發(fā)現(xiàn)早治療,更能為其節(jié)約昂貴的化療等費(fèi)用,進(jìn)而減輕其經(jīng)濟(jì)壓力和精神壓力;于醫(yī)院,降低醫(yī)生的閱片時(shí)間,提高醫(yī)生的閱片準(zhǔn)確率,進(jìn)而為醫(yī)院節(jié)省大量的人力、物力、財(cái)力等成本;于社會(huì),實(shí)現(xiàn)醫(yī)療資源均衡化,滿足人民群眾日益增長(zhǎng)的醫(yī)療衛(wèi)生健康需求。