蘇志遠(yuǎn) 劉慧 尹義龍
(1.山東財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 濟(jì)南,250014;2.山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 濟(jì)南,250101; 3.山東省數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室, 濟(jì)南,250014)
?
基于弱監(jiān)督ECOC算法的肺結(jié)節(jié)輔助檢測
蘇志遠(yuǎn)1,3劉慧1,3尹義龍1,2
(1.山東財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 濟(jì)南,250014;2.山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 濟(jì)南,250101; 3.山東省數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室, 濟(jì)南,250014)
肺結(jié)節(jié)的準(zhǔn)確分類與識別是計(jì)算機(jī)輔助診斷系統(tǒng)在肺癌診斷領(lǐng)域應(yīng)用的關(guān)鍵,同時(shí)也面臨巨大的挑戰(zhàn)。該技術(shù)不僅在特征表示、樣本標(biāo)記等方面存在發(fā)展的瓶頸,而且目前缺少準(zhǔn)確、有效的分類識別算法。本文提出了一種結(jié)合弱監(jiān)督糾錯(cuò)輸出編碼(Error-correcting output codes, ECOC)算法和肺結(jié)節(jié)形狀特征表達(dá)的肺結(jié)節(jié)多分類算法。為了提高分類識別的準(zhǔn)確率,本文對肺結(jié)節(jié)的形狀特征進(jìn)行了詳細(xì)的分析,并提出了一系列準(zhǔn)確的形狀特征描述向量。在分類識別階段,算法訓(xùn)練學(xué)習(xí)了利用專家對肺結(jié)節(jié)標(biāo)記信息標(biāo)記的少量樣本,并生成二類分類器,獲得編碼矩陣。最后,通過計(jì)算測試樣本編碼和編碼矩陣每一行的漢明距離,確定樣本所屬類別。實(shí)驗(yàn)結(jié)果表明,本文方法能夠獲得更加準(zhǔn)確的分類結(jié)果。
肺結(jié)節(jié); 分類識別; 弱監(jiān)督; 糾錯(cuò)輸出編碼; 肺部圖像數(shù)據(jù)庫聯(lián)盟
近些年,由于環(huán)境污染和吸煙等因素導(dǎo)致肺癌的發(fā)病率和死亡率成逐年上升的趨勢。如果無法找到有效的方法提早發(fā)現(xiàn)并診斷肺癌,預(yù)計(jì)到2025年中國的肺癌患者將增加到100萬人,從而成為世界肺癌第一大國。國家衛(wèi)生和計(jì)劃生育委員會的統(tǒng)計(jì)數(shù)據(jù)顯示,目前癌癥發(fā)病率每年以26.9%的速度增長[1],尤其是在霧霾嚴(yán)重地區(qū),如北京、天津、濟(jì)南等地區(qū),肺癌發(fā)病率明顯高于全國平均水平,PM2.5成為肺癌發(fā)病的罪魁禍?zhǔn)?。肺癌的早期發(fā)現(xiàn)和診療成為降低肺癌死亡率主要手段[2]。因此,研究高效準(zhǔn)確的肺癌輔助檢測系統(tǒng)(Computer-aided diagnosis, CAD)具有重要的理論和現(xiàn)實(shí)意義。
圖1 本文提出的CAD系統(tǒng)流程圖Fig.1 Proposed flow chart of CAD
本文研究的肺癌CAD系統(tǒng)的工作流程如圖1所示,主要分為3步:肺結(jié)節(jié)分割、特征提取和結(jié)節(jié)病變程度的判定。整個(gè)流程中結(jié)節(jié)的病變程度判定最為重要,研究者已經(jīng)提出很多有效方法,例如神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)(Support vector machine, SVM)[4]等。其中,支持向量機(jī)在處理小樣本學(xué)習(xí)及非線性等問題中具有一定的優(yōu)勢,已經(jīng)在模式識別等領(lǐng)域得到了廣泛的應(yīng)用。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,SVM針對有限樣本進(jìn)行的分類學(xué)習(xí),在理論應(yīng)用上比神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力。但是,一般的SVM只能對二類問題進(jìn)行分類,不能對多分類進(jìn)行有效的操作。為此,許多學(xué)者提出了多種解決方法,主要包括一對一(One-vs-One)[5]、一對多(One-vs-Rest)[6]和二叉樹等方法。其中One-vs-One具有較強(qiáng)的分類能力,但需要多個(gè)SVM分類器支持。例如,對一個(gè)n類問題進(jìn)行分類處理,需要n(n-1)/2個(gè)SVM分類器,并且在獲得最后分類結(jié)果時(shí),需要利用投票策略進(jìn)行最終的判定。但是,在判斷一類樣本類別時(shí),當(dāng)出現(xiàn)多個(gè)類的得票數(shù)目相等,就無法進(jìn)行分類,產(chǎn)生拒分區(qū)域。One-vs-Rest方法對于n類問題只需要n個(gè)SVM分類器,但分類器在分界區(qū)域存在重疊現(xiàn)象,所以分類效果不理想。二叉樹方法具有很高的分類效率,對于n類問題只需要(n-1)個(gè)SVM分類器,不會出現(xiàn)不可分現(xiàn)象,但是容易造成誤差累積的情況,并且,二叉樹的拓?fù)浣Y(jié)構(gòu)和每個(gè)節(jié)點(diǎn)所包含子類的設(shè)置均會對分類結(jié)果產(chǎn)生影響。但是,糾錯(cuò)輸出編碼(Error-correcting output code, ECOC)在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用解決了這個(gè)難題。同時(shí),文獻(xiàn)[7]提出利用糾錯(cuò)碼將二分類器擴(kuò)展到多分類的分類問題中,有效地解決了上述分類問題中的拒分問題。由于糾錯(cuò)輸出編碼在性能上的優(yōu)秀表現(xiàn),許多研究學(xué)者對它進(jìn)行了深入的研究和擴(kuò)展,文獻(xiàn)[8]利用反向傳播的思想將ECOC應(yīng)用在不同類型的分類問題上。文獻(xiàn)[9]則通過優(yōu)化最大似然目標(biāo)函數(shù)找到了最合適的樣本空間編碼矩陣。文獻(xiàn)[10]提出一種改進(jìn)的基于ECOC算法,可以消除分類過程中的類別重疊無法分類的情況,該方法將糾錯(cuò)輸出編碼分類算法推向了一個(gè)新的高度。
綜合上述分析,本文設(shè)計(jì)了一套行之有效的肺癌CAD系統(tǒng)。文獻(xiàn)[11]完成了肺結(jié)節(jié)的分割提取,提出了快速自適應(yīng)C均值模糊聚類算法(Fuzzy c-means, FCM),獲得了準(zhǔn)確滿意的分割結(jié)果[11]。在特征提取階段,本文通過分析肺部圖像數(shù)據(jù)庫聯(lián)盟(Lung image database consortium, LIDC)數(shù)據(jù)庫提供的注釋文件制定了一組準(zhǔn)確反映肺結(jié)節(jié)形狀信息的特征向量[12]。同時(shí),通過選取部分肺結(jié)節(jié)建立了具有標(biāo)簽信息的肺結(jié)節(jié)特征的數(shù)據(jù)集。通過綜合分析,本系統(tǒng)將肺結(jié)節(jié)綜合分成3類:惡性結(jié)節(jié)、陽性結(jié)節(jié)和假陽性結(jié)節(jié)。然而,肺結(jié)節(jié)類型多樣、結(jié)構(gòu)復(fù)雜,如孤立型、粘連型、毛玻璃型和空洞型等,在訓(xùn)練學(xué)習(xí)階段,利用現(xiàn)有數(shù)據(jù)獲得大量完備、準(zhǔn)確的標(biāo)記樣本集合十分困難。因此,本文引入弱監(jiān)督思想[13]的ECOC算法,以解決有效標(biāo)記樣本數(shù)量不足的缺陷,即采用學(xué)習(xí)部分標(biāo)記樣本的策略,從而有效改善由于標(biāo)記樣本數(shù)量不足導(dǎo)致分類精度下降的情況[14]。
圖2 LIDC數(shù)據(jù)庫中病例的CT圖像及肺結(jié)節(jié)區(qū)域 Fig.2 CT image and pulmonary nodules in LIDC
為了促進(jìn)對肺癌CAD系統(tǒng)的設(shè)計(jì)與研發(fā),美國國家癌癥研究所(National cancer institute, NCI)建立了肺部計(jì)算機(jī)斷層掃描影像數(shù)據(jù)庫LIDC,其中包含1 012個(gè)病例,共含有1 356個(gè)可供研究人員學(xué)習(xí)的肺結(jié)節(jié)。數(shù)據(jù)庫為每一病例建立一個(gè)獨(dú)立的文件,其中包含整肺的CT斷層掃描影像(DICOM格式)100~500張不等,并且為每一病例出示一個(gè)XML格式的注釋文件來標(biāo)注結(jié)節(jié)。每一病例中都有4名放射學(xué)方面專家對其出現(xiàn)的結(jié)節(jié)情況進(jìn)行診斷,以結(jié)節(jié)的邊界坐標(biāo)劃分和視覺特征,如毛刺征、分葉征、鈣化和結(jié)節(jié)惡性程度等特征對結(jié)節(jié)進(jìn)行描述并存儲到注釋文件中。如圖2所示,其特征數(shù)值越大,表明惡性程度越高。
肺結(jié)節(jié)通過準(zhǔn)確的特征描述子進(jìn)行表述是獲得準(zhǔn)確分類識別結(jié)果的基石。由于肺結(jié)節(jié)直徑一般在3~30 mm之間,非專業(yè)人士無法給出精確的診斷結(jié)果,導(dǎo)致無法對結(jié)節(jié)類別進(jìn)行有效的標(biāo)記。LIDC數(shù)據(jù)庫提供了4位肺部影像專家對同一病例的診斷結(jié)論,并給出了精細(xì)度、球形度、鈣化程度、惡性程度、邊緣、分葉征和毛刺特征等9個(gè)病變特征描述。通過對1 000個(gè)病例的統(tǒng)計(jì)分析,發(fā)現(xiàn)分葉征和毛刺征是最能表征肺結(jié)節(jié)的惡性程度的病理特征。肺結(jié)節(jié)病變惡性程度與分葉征和毛刺征表現(xiàn)等級服從同一分布,從圖2可以得到這個(gè)結(jié)論。而分葉征和毛刺征病變程度加深在形態(tài)學(xué)上的主要體現(xiàn)就是形狀特征和灰度的變化。但是,由于不同機(jī)器拍攝CT影像時(shí)掃描劑量不固定,同一病例在不同劑量不同機(jī)器下獲得CT影像灰度不同。綜上原因,本文選擇以形狀作為主要特征描述。因?yàn)樾螤钚畔⒉粫艿綑C(jī)器和掃描劑量等因素的影響。因此本文通過實(shí)驗(yàn)總結(jié),選取了一組以形狀特征為主的特征向量組對肺結(jié)節(jié)特征信息進(jìn)行了提取,包括灰度方差、灰度直方圖熵、似圓度、徑向均值和方差、邊界粗糙度、緊湊度、形狀不變矩(H0,H2,H3,H4)和傅里葉描述子(選取前20項(xiàng))等31項(xiàng)描述子。
在獲得有效的特征向量之后,由于不同特征的物理意義不同,導(dǎo)致在取值范圍上也大不相同。并且每種特征需要在特征表達(dá)權(quán)值上相同,因此需要對獲得的特征向量做歸一化處理,使整個(gè)特征取值映射到同一取值范圍。本文應(yīng)用高斯歸一化算法對獲得的特征向量進(jìn)行歸一化處理。高斯歸一化可以表示為
(1)
利用分割提取階段獲得的準(zhǔn)確肺結(jié)節(jié)區(qū)域進(jìn)行特征提取計(jì)算,獲得肺結(jié)節(jié)特征數(shù)據(jù),如圖3所示。然后,利用LIDC數(shù)據(jù)庫提供的XML注釋文件對每一肺結(jié)節(jié)實(shí)例進(jìn)行病變等級標(biāo)注。圖3所示肺結(jié)節(jié)的部分特征數(shù)據(jù)如表1所示。到目前為止已經(jīng)建立了一個(gè)基于LIDC數(shù)據(jù)的31維形狀特征肺結(jié)節(jié)標(biāo)記數(shù)據(jù)庫。
圖3 肺結(jié)節(jié)分割結(jié)果Fig.3 Segmentation results of pulmonary nodules
表1 圖3所示肺結(jié)節(jié)的部分特征數(shù)據(jù)
2.1 糾錯(cuò)輸出編碼
圖4 一個(gè)5類問題的ECOC分類器Fig.4 ECOC design for 5-class problem
在編碼過程中,利用L個(gè)二類分離器可以獲得測試數(shù)據(jù)集中每一樣本的編碼碼字。通過計(jì)算測試樣本編碼和編碼矩陣的每一行的漢明距離,根據(jù)距離最小的原則確定樣本所屬類別,即當(dāng)碼字之間距離最小,則其具有相同的標(biāo)簽,且該分類器結(jié)合了通信論中關(guān)于信道傳輸?shù)募m錯(cuò)解碼技術(shù)。當(dāng)分類器中某些SVM分類器產(chǎn)生錯(cuò),也可以通過糾錯(cuò)機(jī)制獲得準(zhǔn)確的分類結(jié)果。當(dāng)兩碼字之間的距離為d時(shí),可以利用ECOC算法的糾錯(cuò)機(jī)制對(d-1)/2位誤碼進(jìn)行糾正。
2.2 結(jié)合弱監(jiān)督思想的ECOC算法
盡管利用ECOC作為多分類框架對多分類問題進(jìn)行分解并得到了很好的應(yīng)用實(shí)踐,但是在肺結(jié)節(jié)的分類應(yīng)用過程中,仍然存在著大量無法區(qū)分模棱兩可的數(shù)據(jù),描述特征之間存在重合的現(xiàn)象,使訓(xùn)練過程不能得到完全準(zhǔn)確的編碼矩陣。本文結(jié)合了弱監(jiān)督算法PL-ECOC算法[10]并同時(shí)為系統(tǒng)提供了準(zhǔn)確標(biāo)記的肺結(jié)節(jié)訓(xùn)練實(shí)例。該方法通過ECOC算法對準(zhǔn)確標(biāo)記的肺結(jié)節(jié)樣本進(jìn)行學(xué)習(xí)。該標(biāo)記樣本通過LIDC數(shù)據(jù)庫中提供的注釋文件標(biāo)記肺結(jié)節(jié)獲得標(biāo)記特征數(shù)據(jù)集。利用標(biāo)記特征樣本集的信息為獲得二進(jìn)制編碼矩陣提供監(jiān)督信息。根據(jù)該明確的監(jiān)督信息可以有效降低樣本中模棱兩可的干擾信息。因此,該系統(tǒng)可以獲得準(zhǔn)確的類別標(biāo)記結(jié)果。在實(shí)驗(yàn)結(jié)果分析中也同樣證明了該系統(tǒng)的高效性。
弱監(jiān)督ECOC算法作為一個(gè)完善的多分類機(jī)制,仍然延續(xù)的是One-vs-Rest策略。給定訓(xùn)練樣本集:
利用上述算法,本文在訓(xùn)練階段向分類識別系統(tǒng)提供標(biāo)記的肺結(jié)節(jié)特征數(shù)據(jù)(xi, yi),在這里需要說明的是本文構(gòu)造了一個(gè)新的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含特征數(shù)據(jù)和分類標(biāo)簽。通過訓(xùn)練階段后可以獲得L位的二類分類器,進(jìn)而獲得編碼矩陣。在訓(xùn)練二類分類器時(shí),按照樣本是否完全屬于該類的原則計(jì)算生成二類分類器,如果假設(shè)成立,則賦值為+1,否則賦值為-1。下面給出基于弱監(jiān)督ECOC分類器的肺結(jié)節(jié)分類識算法。
算法1 基于弱監(jiān)督ECOC分類器的分類識別算法
輸入:標(biāo)記的肺結(jié)節(jié)特征訓(xùn)練集{xi, yi},編碼長度L,二分類監(jiān)督學(xué)習(xí)器B,二分類訓(xùn)練集閾值thr=ceil(0.1×numtrain),肺結(jié)節(jié)特征測試樣本xT。
輸出:測試樣本xT的標(biāo)簽yT。
初始化:l=0;
Whilel≠Ldo
任意生成L位的列碼字n=[n1, n2, …, nc]T;
參照標(biāo)記樣本計(jì)算ni,初始化二類分類器訓(xùn)練集T=0;
如果訓(xùn)練樣本完全屬于y+,則設(shè)置編碼矩陣M(i, +1);反之如果完全屬于y-,則設(shè)置編碼矩陣M(i, -1);
l=l+1;
M(:,l)=n;
Endif
Endwhile
那么,將B(T)賦值給二類分類器。
輸出:二類分類器f(x);計(jì)算測試樣本和每一個(gè)碼字之間的距離d(x);返回測試樣本xT的標(biāo)簽yT。
本文使用LIDC數(shù)據(jù)庫提供的CT影像作為實(shí)驗(yàn)數(shù)據(jù),并選擇了188個(gè)病例。其中包括147例惡性結(jié)節(jié),149例良性結(jié)節(jié)和156例假陽性結(jié)節(jié)。在整個(gè)數(shù)據(jù)庫中,4位放射科專家對每個(gè)結(jié)節(jié)進(jìn)行分析診斷,并對惡性等級進(jìn)行評估標(biāo)記為1~5,即隨著數(shù)值的增大惡性程度將會增大。因此,本文將惡性等級標(biāo)記為4, 5的結(jié)節(jié)定義為惡性腫瘤。同樣地,將注釋文件中惡性等級為1, 2和3定義為良性結(jié)節(jié)。其中,假陽性結(jié)節(jié)病例是大多病例中提取的如血管等區(qū)域。本文為系統(tǒng)訓(xùn)練階段提供144例標(biāo)記信息作為監(jiān)督信息,包括47例惡性結(jié)節(jié),42例良性結(jié)節(jié)和55例假陽性結(jié)節(jié)。為了證明弱監(jiān)督ECOC分類器在肺結(jié)節(jié)分類識別應(yīng)用方面的準(zhǔn)確性。圖5給出了部分結(jié)節(jié)分類結(jié)果。
圖5 部分肺結(jié)節(jié)分類結(jié)果Fig.5 Classification results section of pulmonary nodules
為了進(jìn)一步證明本系統(tǒng)性能,比較了傳統(tǒng)的分類識別方法和本文提出的部分標(biāo)記的弱監(jiān)督分類方法。通過調(diào)整訓(xùn)練樣本的比例,得到在不同比例下訓(xùn)練樣本對分類結(jié)果準(zhǔn)確率的影響。表2給出了本文系統(tǒng)算法與One-vs-One,One-vs-Rest和傳統(tǒng)的FCM分類方法[15]的性能比較。其中,Mean為均值,表示平均分類準(zhǔn)確率, Std為標(biāo)準(zhǔn)差,表示該方法的穩(wěn)定性[16]。
表2 不同分類方法在肺結(jié)節(jié)的特征數(shù)據(jù)集上的性能比較
表2的實(shí)驗(yàn)結(jié)果顯示,傳統(tǒng)的FCM聚類算法在標(biāo)記樣本比例發(fā)生變化時(shí),由于不是監(jiān)督算法其準(zhǔn)確率沒有呈現(xiàn)出相應(yīng)的變化。而One-vs-Rest和One-vs-One的算法則隨著監(jiān)督信息中標(biāo)記樣本所占比例的增加,其算法準(zhǔn)確率逐漸提高。但是在監(jiān)督標(biāo)記樣本比例較低的情況下并沒有表現(xiàn)出優(yōu)秀的識別性能。本文提出的算法隨著監(jiān)督標(biāo)記樣本比例提高的同時(shí)其識別準(zhǔn)確率也成逐漸提高的趨勢,同時(shí)在監(jiān)督標(biāo)記樣本比例較低的情況下同樣表現(xiàn)優(yōu)秀。但在標(biāo)記樣本例增加到一定的程度時(shí),性能又有下降的趨勢,其原因可能是隨著監(jiān)督信息的增多,標(biāo)記樣本中的模糊分類樣本的誤差堆積產(chǎn)生的。綜合上述實(shí)驗(yàn)結(jié)果可知,本文提出的系統(tǒng)方案能夠獲得較好的分類識別效果。比較3類傳統(tǒng)的分類算法,可以發(fā)現(xiàn)該方法尤其在標(biāo)記樣本量較少的情況下性能仍然表現(xiàn)優(yōu)異,而其他分類方法則隨著訓(xùn)練樣本比例的增加,性能得到提高并趨于平衡。因此,該方法能有效解決肺結(jié)節(jié)標(biāo)記樣本不足的情況。
對于普通的監(jiān)督算法而言,隨著監(jiān)督樣本的增加,其性能可以得到有效改善。但現(xiàn)實(shí)情況下往往存在有效標(biāo)記樣本不足的情況,無法為分類算法提供足夠的監(jiān)督信息。本文提出了一種針對肺結(jié)節(jié)分類識別的系統(tǒng),在系統(tǒng)中結(jié)合ECOC分類器和弱監(jiān)督思想,有效地解決了可用肺結(jié)節(jié)標(biāo)記樣本不足的問題。其中,在構(gòu)建肺癌輔助診斷系統(tǒng)的過程中,通過分析和解釋LIDC數(shù)據(jù)庫中的注釋文件,提取并構(gòu)建了一個(gè)標(biāo)記的肺結(jié)節(jié)形狀特征數(shù)據(jù)集,進(jìn)而利用該數(shù)據(jù)集對肺結(jié)節(jié)進(jìn)行診斷識別。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能有效地提高肺結(jié)節(jié)分類識別的準(zhǔn)確率及魯棒性,特別是在監(jiān)督樣本量較少的情況下性能表現(xiàn)依然優(yōu)秀,在一定程度上解決了肺結(jié)節(jié)標(biāo)記樣本不足的問題。本文將進(jìn)一步豐富和完善對肺結(jié)節(jié)的特征表示,同時(shí)優(yōu)化改進(jìn)分類算法,獲得更加準(zhǔn)確的分類結(jié)果。
[1] Siegel R, Ma J M, Zou Z H, et al. Cancer statistics [J]. A Cancer Journal for Clinicians, 2014, 64(1): 9-29.
[2] Ayman E B, Garth M B, Georgy G, et al. Computer-aided diagnosis systems for lung cancer: Challenges and methodologies [J]. International Journal of Biomedical Imaging, 2013: 942353.
[3] Zaidi N A, Squire D M. Local adaptive SVM for object recognition [C] //Digital image computing: Techniques and Application (DICTA), 2010 International Conference on. Sydney, Australia: IEEE, 2010:196-201.
[4] Tanchotsrinon C, Phimoltares S, Maneeroj S. Facial expression recognition using graph-base features and artificial neural networks [C] // Imaging Systems and Techniques (IST), 2011 IEEE International Conference on. Penang, Malaysia: IEEE, 2011:331-334.
[5] Anthony G, Gregg H, Tshilidzi M. Image classification using SVMs: One-against-one vs one-against-all [C] //Proceeding of the 28th Asian Conference on Remote Sensing. Kuala Lumpur, Malaysia: IEEE, 2007:12-16.
[6] Hong J H, Cho S B. Aprobabilistic multi-class strategy of one-vs-rest support vector machines for cancer classification [C]. // Advances in Neural Information Processing (ICONIP 2006). Brazilian: Neurocomputing, 2008: 3275-3281.
[7] Dietterichand T G, Bakiri G. Solving multiclass learning problems via error-correcting output codes [J]. Journal of Artificial Intelligence Research, 1995, 2:263-286.
[8] Alpaydin E, Mayoraz E. Learning error-correcting output codes form data [C] // Proceeding of the 9th Internet Conference on Artificial Neural Networks. Edinburgh, UK: IET, 1999:743-748.
[9] Utschick W, Weichselberger W. Stochastic organization of output codes in multiclass learning problems [J]. Neural Compute, 2001, 13(5):1065-1102.
[10]Zhang M L. Disambiguation-free partial label learning [C] //Proceeding of the 14th SIAM International Conference on Data Mining(SDM14). Philadelphia, PA:[s.n.], 2014:37-45.
[11]Liu H, Zhang C M, Su Z Y, et al. Research on a pulmonary nodule segmentation method combining fast self-adaptive FCM and classification [J]. Computational and Mathematical Methods in Medicine, 2015: 18576.
[12]Samuel G A, Geoffrey M. The lung image database consortium (LIDC) and image database resource initiative (IDRI): A completed reference database of lung nodules on CT scans [J]. Medical Physics, 2011, 38:915-931.
[13]汪荊琪, 徐林莉. 一種基于多視圖數(shù)據(jù)的半監(jiān)督特征選擇和聚類算法 [J]. 數(shù)據(jù)采集與處理, 2015, 30(1):106-116.
Wang Jingqi, Xu Linli. Semi-supervised feature selection and clustering for multi-view data [J]. Journal of Data Acquisition and Processing, 2015, 30(1):106-116.
[14]Cour T, Sapp B, Taskar B.Learning from partial labels [J]. Journal of Machine Learning Research, 2011, 12:1501-1536.
[15]Bouchachia A, Pedrycz W. Data clustering with partial supervision [J]. Data Mining and Knowledge Discovery, 2006, 12(1):47-78.
[16]Foody G M. Harshness in image classification accuracy assessment [J]. International Journal of Remote Sensing, 2008, 29(11):3137-3158.
Pulmonary Nodule Aided Detection Based on Weakly-Supervised ECOC Algorithm
Su Zhiyuan1,3, Liu Hui1,3, Yin Yilong1,2
(1.School of Computer Science and Technology, Shandong University of Finance and Economics, Jinan, 250014, China;2.School of Computer Science and Technology, Shandong University, Jinan, 2500101, China;3.Digital Media Technology Key Lab of Shandong Province, Jinan, 250014, China)
Accurate classification and recognition of pulmonary nodules are key process of lung cancer computer-aided diagnosis (CAD) system. Meanwhile,there are still some scientific and technical challenges, including the difficulty of the feature representation and samples labeled, and the lack of accurate and effective recognition and classification algorithms. A multi-classification algorithm is presented combining weakly-supervised ECOC algorithm with pulmonary nodules features expression of shape. In order to improve the classification accuracy, we select a series of accurate shape feature description vectors by deliberating the shape features of pulmonary nodules. During the training phase, the coded matrix is constructed by a series of binary classifiers, which are generated by a small amount of labeled pulmonary nodules from experts. Finally, the Humming distance between the code of testing sample and each row of the coded matrix are calculated to determine the category of the testing sample. Experimental results show that the proposed method can obtain more accurate classification results.
pulmonary nodule; classification and recognition; weakly-supervised learning; error-correction output codes; lung image database consortium
國家自然科學(xué)基金(61272245)資助項(xiàng)目;山東省科技發(fā)展計(jì)劃(2014GGX101037)資助項(xiàng)目;濟(jì)南市高校自主創(chuàng)新計(jì)劃(201401216)資助項(xiàng)目。
2015-06-08;
2015-06-30
TP391.41
A
蘇志遠(yuǎn)(1988-),男,碩士研究生,研究方向:醫(yī)學(xué)圖像處理、機(jī)器學(xué)習(xí)及應(yīng)用,E-mail:suzhiyuanlt@163.com。
劉慧(1978-),女,教授,研究方向:醫(yī)學(xué)圖像處理、計(jì)算機(jī)輔助診斷、信息檢索機(jī)器學(xué)習(xí)及其應(yīng)用。
尹義龍(1972-),男,教授,博士生導(dǎo)師,研究方向:機(jī)器學(xué)習(xí)及應(yīng)用。