王莉莉,付忠良,陶 攀,朱 鍇
(1.中國科學(xué)院 成都計算機應(yīng)用研究所,成都 610041; 2.中國科學(xué)院大學(xué),北京 100049)
(*通信作者電子郵箱wanglili8773@163.com)
基于多分類AdaBoost改進算法的TEE標(biāo)準(zhǔn)切面分類
王莉莉1,2*,付忠良1,2,陶 攀1,2,朱 鍇1,2
(1.中國科學(xué)院 成都計算機應(yīng)用研究所,成都 610041; 2.中國科學(xué)院大學(xué),北京 100049)
(*通信作者電子郵箱wanglili8773@163.com)
針對超聲圖像樣本冗余、不同標(biāo)準(zhǔn)切面因疾病導(dǎo)致的高度相似性、感興趣區(qū)域定位不準(zhǔn)確問題,提出一種結(jié)合特征袋(BOF)特征、主動學(xué)習(xí)方法和多分類AdaBoost改進算法的經(jīng)食管超聲心動圖(TEE)標(biāo)準(zhǔn)切面分類方法。首先采用BOF方法對超聲圖像進行描述;然后采用主動學(xué)習(xí)方法選擇對分類器最有價值的樣本作為訓(xùn)練集;最后,在AdaBoost算法對弱分類器的迭代訓(xùn)練中,根據(jù)臨時強分類器的分類情況調(diào)整樣本更新規(guī)則,實現(xiàn)對多分類AdaBoost算法的改進和TEE標(biāo)準(zhǔn)切面的分類。在TEE數(shù)據(jù)集和三個UCI數(shù)據(jù)集上的實驗表明,相比AdaBoost.SAMME算法、多分類支持向量機(SVM)算法、BP神經(jīng)網(wǎng)絡(luò)和AdaBoost.M2算法,所提算法在各個數(shù)據(jù)集上的G-mean指標(biāo)、整體分類準(zhǔn)確率和大多數(shù)類別分類準(zhǔn)確率都有不同程度的提升,且比較難分的類別分類準(zhǔn)確率提升最為顯著。實驗結(jié)果表明,在包含類間相似樣本的數(shù)據(jù)集上,分類器的性能有顯著提升。
多分類AdaBoost;主動學(xué)習(xí);特征袋模型;標(biāo)準(zhǔn)切面分類;超聲圖像分類
目前,經(jīng)食管超聲心動圖(TransEsophageal Echocardiography, TEE)已被廣泛應(yīng)用于各種心臟疾病的診斷和術(shù)中監(jiān)測中,不同的標(biāo)準(zhǔn)切面在疾病診斷中起著不同的作用。近年來,研究者們采用監(jiān)督學(xué)習(xí)的方法對標(biāo)準(zhǔn)切面進行自動識別[1-4],文獻[5]基于尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)特征和稀疏編碼構(gòu)造超聲心動圖視頻詞典,構(gòu)建詞袋(Bag of Words, BOW)模型,通過多類別支持向量機(Support Vector Machine, SVM)實現(xiàn)多個標(biāo)準(zhǔn)切面的自動識別。文獻[6]把不同的標(biāo)準(zhǔn)切面看作不同的人臉目標(biāo),通過手動定位出左心室位置來調(diào)整數(shù)據(jù),使用多分類Boosting算法提取Harr-like特征,實現(xiàn)了對二維超聲心動圖標(biāo)準(zhǔn)切面分類。文獻[7]基于知識庫方法,采用Probabilistic Boosting Tree (PBT) 檢測器,使用Harr-like 特征,采取由粗到細策略實現(xiàn)標(biāo)準(zhǔn)切面的識別,進而實現(xiàn)三維超聲心動圖標(biāo)準(zhǔn)切面的自動檢測。
不同病人心臟大小不同,不同疾病造成的心臟形狀、腔室輪廓不同,且超聲圖像的對比度和分辨率較低,夾雜斑點噪聲,這些都使得感興趣區(qū)域(Region of Interest, ROI)的自動分割非常困難,也會影響全局特征的提取,并進一步影響到分類性能。特征袋(Bag of Features, BOF)[8-9]是一種高層語義特征,能夠避免ROI定位不準(zhǔn)確問題, BOF模型采用加速魯棒特征(Speeded Up Robust Feature, SURF)[10]算法提取局部特征,與SIFT特征相比,SURF算法執(zhí)行效率更高,在醫(yī)療領(lǐng)域中也取得了一些成果[11-12]。
超聲圖像容易出現(xiàn)大量的樣本冗余問題,訓(xùn)練集樣本的選擇對分類器的分類性能影響很大。主動學(xué)習(xí)的思想最初是用來解決無標(biāo)記樣本數(shù)量大、且標(biāo)記代價高的問題,其本質(zhì)是有效的樣本選擇策略。文獻[13]采用主動學(xué)習(xí)方法構(gòu)造平衡的訓(xùn)練集,并提出了一種基于SVM的主動學(xué)習(xí)樣本選擇策略,能用較少的樣本獲得較高的分類性能;但是主動學(xué)習(xí)需要迭代多次選擇最有價值的樣本,進行多次模型訓(xùn)練,而SVM的非線性模型優(yōu)化過程對計算和存儲要求太高。AdaBoost (Adaptive Boosting)算法[14]是一種集成學(xué)習(xí)方法,可以將重心放在ROI特征上,避免背景區(qū)域特征影響分類器性能。因此可以考慮將BOF模型、主動學(xué)習(xí)方法和AdaBoost算法進行結(jié)合,實現(xiàn)圖像描述、訓(xùn)練集樣本選擇和分類器模型構(gòu)建。
標(biāo)準(zhǔn)切面自動識別問題屬于典型的多分類問題,多分類問題的解決方法主要包括兩種類型:一種是將多分類問題分解為多個二分類問題;另一種是直接修改算法,使之能適應(yīng)多分類問題。多分類SVM算法[15]是采用分解法把多分類問題分解為二分類問題,將二分類SVM擴展到多類別分類問題中;AdaBoost.M2算法[16]采用一對一分解策略,將二分類AdaBoost擴展到多分類問題中;AdaBoost.SAMME算法[17]是采用CART、C4.5等能直接解決多分類問題的算法作為弱分類器,將二分類AdaBoost算法直接推廣到多分類問題中。標(biāo)準(zhǔn)切面識別中,因疾病類型不同,類間樣本存在一定的相似性,影響分類器性能。對于相似性高的標(biāo)簽給予不同的錯分代價,可將標(biāo)簽相似問題轉(zhuǎn)化為代價敏感問題解決。文獻[18-19]在AdaBoost算法中引入標(biāo)簽相關(guān)性,對弱分類器構(gòu)造方法和權(quán)重調(diào)整規(guī)則進行改進。本文在多分類AdaBoost算法對弱分類器的迭代訓(xùn)練中,綜合已訓(xùn)練所得的臨時強分類器的分類情況,動態(tài)調(diào)整樣本的錯分代價,對多分類 AdaBoost算法進行改進,能綜合提高標(biāo)準(zhǔn)切面的分類性能。
在疾病診斷中最基本且最常用的三個標(biāo)準(zhǔn)切面是四腔心(four Chamber, 4C)、右室流入流出道(Right Ventricle Inflow-Outflow, RV IO)和左室長軸(Left ventricular long AXis, LAX),如圖1所示。圖像包括背景區(qū)域和ROI區(qū)域,為避免ROI定位不準(zhǔn)確問題,本文采用BOF模型完成對超聲圖像的特征描述,最后采用多分類AdaBoost改進算法構(gòu)建分類器對標(biāo)準(zhǔn)切面進行分類。
圖1 疾病診斷中最基本的三個標(biāo)準(zhǔn)切面Fig. 1 The three most basic standard planes in disease diagnosis
1.1 圖像預(yù)處理
儀器采集的超聲圖像的四周,包含儀器自身所標(biāo)注的文字、圖標(biāo)等相關(guān)信息,為便于后續(xù)步驟中特征提取,采用形態(tài)學(xué)濾波方法提取出包含有效信息的超聲子圖。式(1)~(4)為自定義掩膜。
(1)
(2)
(3)
(4)
采用形態(tài)學(xué)掩膜mask1和mask2進行濾波,則在經(jīng)食管超聲圖像左側(cè)邊緣處和右側(cè)邊緣處得到的結(jié)果最大;然后采用掩膜mask3和mask4進行濾波,則在兩個直角邊緣處得到結(jié)果最大。如圖2(a)所示為四腔心切面原圖,圖2(b)所示是對圖2(a)預(yù)處理后的結(jié)果。
圖2 圖像預(yù)處理結(jié)果Fig. 2 Image preprocessing results
1.2 BOF模型構(gòu)建
BOF的基本思想是將圖像看作相互獨立的圖像塊的集合,為每個圖像塊提取描述向量;對訓(xùn)練集的特征向量進行聚類,生成一個包含視覺單詞的詞典;根據(jù)詞典對圖像中的描述向量進行加權(quán)統(tǒng)計,生成特征直方圖向量,該向量即代表整個圖像,完成對圖像的特征表達。
BOF構(gòu)建過程主要涉及以下步驟:
1)檢測圖像塊并生成描述向量。檢測圖像塊的常見方法有密集采樣法、隨機采樣法和網(wǎng)格劃分法等,本文使用網(wǎng)格劃分法。常見的描述算子有SIFT、PCA-SIFT (Principal Components Analysis-Scale Invariant Feature Transform)和SURF等,本文使用SURF描述算子。
2)應(yīng)用聚類算法將圖像塊描述算子聚類為視覺詞匯,常見的聚類算法有K-means等。
3)使用一種加權(quán)策略,如TF-IDF(Term Frequency-Inverse Document Frequency)加權(quán)技術(shù),將圖像的描述算子映射到視覺詞匯中,然后進行步加權(quán)、歸一化。
1.3 基于主動學(xué)習(xí)方法的訓(xùn)練集選擇
TEE標(biāo)準(zhǔn)切面存在大量的冗余樣本,采用主動學(xué)習(xí)方法進行樣本選擇。對于AdaBoost算法采用基于Margin策略的不確定性來選擇訓(xùn)練集樣本,如式(5)所示:
(5)
基于Margin策略的訓(xùn)練集樣本選擇流程:
輸入 有標(biāo)注樣本集X={(x1,y1),(x2,y2),…,(xm,ym)},其中yi∈{1,2,…,K},初始訓(xùn)練集L1,非訓(xùn)練集U1=XL1;
Fork=1,2,…,iter
1)
在訓(xùn)練集Lk上訓(xùn)練多分類AdaBoost分類器f;
2)
用分類器f對非訓(xùn)練集Uk中樣本預(yù)測,如果分類模型滿足停止條件,循環(huán)終止;
3)
對Uk中每個樣本計算f(x,l1)-f(x,l2),l1和l2分別是最具有最大和第二大值的置信度輸出值,選擇最小的N個樣本,記為S;
4)
更新Lk+1=Lk∪S,Uk+1=UkS;
End
輸出 訓(xùn)練集L。
2.1 多分類AdaBoost改進算法原理
訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xn,yn)},其中yi∈{1,2,…,K},集成學(xué)習(xí)算法通常指通過某種方式得到T個弱分類器ht(x):X×Y→[0,1]和弱分類器權(quán)重αt,然后進行組合得到強分類器,即:
(6)
強分類器的輸出為:
(7)
訓(xùn)練到第t個弱分類器時,可以得到臨時強分類器:
(8)
調(diào)用ft臨時強分類器對訓(xùn)練樣本集X進行分類,若標(biāo)簽yi被錯分為標(biāo)簽l的概率Pt(yi,l)>thresh(閾值),則可以認為標(biāo)簽l是標(biāo)簽yi的相似標(biāo)簽,此時令St(yi,l)=1,否則St(yi,l)=0,如此可得標(biāo)簽相似性矩陣St。如果標(biāo)簽l是標(biāo)簽yi的相似標(biāo)簽,令ct(yi,l)=c2,否則令ct(yi,l)=c1,如此可得動態(tài)代價矩陣Ct。
分類算法總是希望平均錯分代價最小,即希望式(9)最?。?/p>
(9)
其中:當(dāng)條件π滿足時,δ(π)為1,否則為0;c(yi,l)表示標(biāo)簽為yi的樣本xi錯分為l的代價。假設(shè)權(quán)重更新參數(shù)αt>0,結(jié)合動態(tài)代價矩陣得到改進的多分類AdaBoost算法如下:
輸入 訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xn,yn)},樣本權(quán)重D,弱分類器h:X×Y→R,迭代次數(shù)T;
初始化: D1(i)=1/n,其中i=1,2,…,n;
Fort=1,2,…,T
1)
根據(jù)樣本分布Dt,訓(xùn)練弱分類器ht:X×Y→R。
2)
根據(jù)臨時強分類器:
計算動態(tài)標(biāo)簽相似性矩陣St,若t=1,則令S1=I(K×K),I(K×K)為K階單位矩陣。
3)
對動態(tài)代價矩陣Ct賦值:若l≠yi,且St(yi,l)=1,則令ct(yi,l)=c2,否則ct(yi,l)=c1,其中c1,c2>0。
4)
計算弱分類器權(quán)重αt。
5)
更新權(quán)重:
其中:
2.2 訓(xùn)練誤差有界性驗證
證明 根據(jù)權(quán)值更新公式可得:
DT(i)=
故有:
2.3 計算弱分類器權(quán)重αt
假設(shè)ht:X×Y→R,根據(jù)文獻[15]的證明,由于:
2.4 錯分代價動態(tài)性
本文算法根據(jù)臨時強分類器的分類情況,可以獲得動態(tài)的標(biāo)簽相似矩陣,在權(quán)值更新中,需要根據(jù)標(biāo)簽相似矩陣和c1,c2>0的值對錯分代價矩陣Ct進行動態(tài)賦值。
3.1 實驗數(shù)據(jù)集
本文實驗使用TEE標(biāo)準(zhǔn)切面數(shù)據(jù)集和三個UCI數(shù)據(jù)集。其中,TEE數(shù)據(jù)集中所有圖像來自華西醫(yī)院麻醉科,大多數(shù)均是患有疾病的超聲圖像,圖像采集數(shù)據(jù)以視頻格式存在,選取視頻中能包含一個心動周期的連續(xù)6~7幀圖像作為圖像樣本集,為避免重疊,測試集和訓(xùn)練集分別來自不同的視頻。實驗數(shù)據(jù)詳細情況如表1所示。
表1 實驗數(shù)據(jù)集Tab. 1 Experimental data sets
3.2 在TEE數(shù)據(jù)集上的實驗結(jié)果與分析
3.2.1 訓(xùn)練集選擇
初始訓(xùn)練集L1的選擇:在全部訓(xùn)練集上訓(xùn)練多分類AdaBoost分類器f,然后調(diào)用分類器f對訓(xùn)練集中全部樣本進行預(yù)測,對每個樣本計算f(x,l1)-f(x,l2),其中l(wèi)1和l2分別是最具有最大和第二大值的置信度輸出值,對每個類別選擇f(x,l1)-f(x,l2)值最小的100個樣本,共得到300個樣本作為初始訓(xùn)練集。
訓(xùn)練集選擇過程:每次迭代選擇20個最有價值的樣本加入訓(xùn)練集,共迭代50次,或滿足停止條件。
4C、RV IO和LAX的原始訓(xùn)練集樣本數(shù)均為1 000,新的訓(xùn)練集樣本數(shù)分別為300、320和340。
3.2.2 實驗設(shè)置
本文在實驗過程中采用stump決策樹作為弱分類器,共訓(xùn)練30個弱分類器。主要對以下兩個方面進行實驗: 1)參數(shù)thresh、c1和c2的選擇; 2)本文算法與AdaBoost.M2算法(簡寫為Ada.M2)、多分類SVM算法、AdaBoost.SAMME算法(簡寫為Ada.SAMME)、BP神經(jīng)網(wǎng)絡(luò)(簡寫為BP-Net)算法進行比較。
在對參數(shù)thresh、c1和c2的最優(yōu)選擇實驗時,在[0.01,0.3]區(qū)間內(nèi)以步長0.01變化,動態(tài)錯分代價矩陣中c1、c2值的確定通過征集10位醫(yī)學(xué)專家的意見,得到了10個不同的c1、c2值,通過升序排列,形成一個[0.1,10]的錯分類代價區(qū)間。在實驗時認為對于任何屬于[0.1,10]區(qū)間里的c1、c2都是可行的,步長設(shè)為0.1。
3.2.3 性能評價指標(biāo)
本文采用G-mean指標(biāo)、Accuracy和各類別的分類準(zhǔn)確率評價分類器的性能。
令ni表示屬于類別li的樣本總數(shù),K為類別個數(shù),cm(li,lj)表示類別為li的樣本被判斷為類別lj的個數(shù),則類別li的分類準(zhǔn)確率可定義為:
G-mean定義為:
Accuracy定義為:
3.2.4 實驗對比結(jié)果
通過實驗可知,當(dāng)thresh=0.03,c1=6.9,c2=1.3時總體識別性能最優(yōu),此時與Ada.M2算法、多分類SVM算法、AdaBoost.SAMME算法、BP-Net進行比較,每個類別的分類準(zhǔn)確率和整體分類準(zhǔn)確率如表2所示。
表2 分類性能對比Tab. 2 Comparison of classification performance
從表2可以看出,本文算法的各個類別分類準(zhǔn)確率、G-mean指標(biāo)和Accuracy都是最優(yōu)的。多分類SVM和BP-Net算法性能較低,BP-Net算法稍好于多分類SVM算法。這是因為這兩種算法的性能直接跟樣本特征值相關(guān),將超聲圖像的背景區(qū)域特征和ROI區(qū)域特征同等看待,而背景區(qū)域占據(jù)圖像比例較大,影響了分類器的性能。AdaBoost.M2算法和Ada.SAMME算法在模型構(gòu)建中會選擇比較重要的特征,突出ROI區(qū)域特征、削弱背景區(qū)域特征對分類器的影響,兩種算法性能不相上下,Ada.SAMME算法略勝一籌。相比Ada.SAMME算法,本文算法的Accuracy提升了3.93%,G-mean指標(biāo)提升了2.76%,4C準(zhǔn)確率提升了2.31%,RV IO準(zhǔn)確率提升了4.38%,LAX準(zhǔn)確率提升了1.61%;相比BP-Net算法,本文算法的Accuracy提升了11.94%,G-mean指標(biāo)提升了10.3%,4C準(zhǔn)確率提升了14.51%,RV IO準(zhǔn)確率提升了8.73%,LAX準(zhǔn)確率提升了7.8%。
3.3 在UCI數(shù)據(jù)集上的實驗結(jié)果與分析
另外對本文算法在三個UCI數(shù)據(jù)集上進行實驗,包括Usps數(shù)據(jù)集、Mnist數(shù)據(jù)集和Pendigits數(shù)據(jù)集,這三個數(shù)據(jù)集都是對手寫數(shù)字0~9進行識別。如表3所示是本文算法與其他四個對比算法在三個數(shù)據(jù)集上的G-mean指標(biāo)和Accuracy對比結(jié)果。可以看出本文算法在三個UCI數(shù)據(jù)集上的G-mean值和Accuracy均是最優(yōu)的,而其他四個對比算法中Ada.M2算法性能較優(yōu)。
相比Ada.M2算法,在Usps數(shù)據(jù)集上,本文算法的G-mean值提升了1.5%,Accuracy提升了1.18%;在Mnist數(shù)據(jù)集上,本文算法的G-mean值提升了1.67%,Accuracy提升了1.94%;在Pendigits數(shù)據(jù)集上,本文算法的G-mean值提升了2.17%,Accuracy提升了1.72%。
相比多分類SVM算法,在Usps數(shù)據(jù)集上,本文算法的G-mean值提升了3.59%,Accuracy提升了3.28%;在Mnist數(shù)據(jù)集上,本文算法的G-mean值提升了3.66%,Accuracy提升了3.55%;在Pendigits數(shù)據(jù)集上,本文算法的G-mean值提升了3%,Accuracy提升了2.89%。
表3 在三個UCI數(shù)據(jù)集上的G-mean和Accuracy對比Tab. 3 Comparison of G-mean and Accuracy on three UCI data sets
本文算法與Ada.M2算法對各個類別的分類準(zhǔn)確率對比結(jié)果如表4所示。
表4 本文算法與Ada.M2算法對各類別的分類準(zhǔn)確率對比Tab. 4 Classification accuracy comparison of each class by using proposed algorithm and Ada.M2
表4數(shù)據(jù)表明,與Ada.M2算法相比,本文算法在三個UCI數(shù)據(jù)集上對各個類別的分類準(zhǔn)確率都有一定程度的提升,其中較難分類的類別有顯著的提升。Usps數(shù)據(jù)集中數(shù)字5的準(zhǔn)確率提升了7.96%,數(shù)字8的準(zhǔn)確率提升了6.71%左右;Mnist數(shù)據(jù)集中數(shù)字5提升了7.73%左右;Pendigits數(shù)據(jù)集中數(shù)字1提升了4.91%,數(shù)字4提升了7.82%。
本文結(jié)合BOF模型、主動學(xué)習(xí)方法和動態(tài)錯分代價矩陣對TEE標(biāo)準(zhǔn)切面進行分類。首先采用BOF模型完成超聲圖像的特征描述,BOF模型能突出ROI區(qū)域特征,削弱背景區(qū)域特征,避免ROI定位不準(zhǔn)確問題;然后采用主動學(xué)習(xí)方法選擇對分類器最有價值的樣本作為訓(xùn)練集,消除樣本冗余;最后對多分類AdaBoost算法進行改進。改進算法在每個弱分類器的訓(xùn)練中都會將已經(jīng)訓(xùn)練得到的弱分類器集成為臨時強分類器,根據(jù)臨時強分類器的性能為不同類別的樣本賦予不同的錯分代價,調(diào)整權(quán)重更新規(guī)則,強迫正在訓(xùn)練的弱分類器“關(guān)注”錯分代價較高的樣本。在TEE標(biāo)準(zhǔn)切面數(shù)據(jù)集上的實驗結(jié)果表明,本文算法的Accuracy、G-mean指標(biāo)和各個類別的分類準(zhǔn)確率均優(yōu)于AdaBoost.SAMME算法及其他常用的多類別分類算法。在三個UCI數(shù)據(jù)集上的實驗結(jié)果表明,本文算法在各個數(shù)據(jù)集上的Accuracy和G-mean指標(biāo)均優(yōu)于AdaBoost.M2算法,在易分錯的類別上提升效果更顯著。實驗分析表明:在存在類間相似樣本的數(shù)據(jù)集上,或者存在“難分”類別的數(shù)據(jù)集上,本文算法的提升效果最為顯著。
References)
[1] EBADOLAHI S, CHANG S F, WU H. Automatic view recognition in echocardiogram videos using parts based representation [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004, 2: 2-9.
[2] RAHMATULLAH B, PAPAGEORGHIOU A, NOBLE J A. Automated selection of standardized planes from ultrasound volume [C]// MLMI 2011: Proceedings of the 2011 International Workshop on Machine Learning in Medical Imaging, LNCS 7009. Berlin: Springer-Verlag, 2011: 35-42.
[3] PARK J H, ZHOU S K, SIMOPOULOS C, et al. Automatic cardiac view classification of echocardiogram [C]// ICCV 2007: Proceedings of the 2007 11th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8.
[4] 王勇,呂揚生.基于紋理特征的超聲醫(yī)學(xué)圖像檢索[J].天津大學(xué)學(xué)報,2005,38(1):57-60. (WANG Y, LYU Y S. Retrieval of medical ultrasound image based on texture feature [J]. Journal of Tianjin University, 2005, 38(1): 57-60.)
[5] QIAN Y, WANG L, WANG C, et al. The synergy of 3D SIFT and sparse codes for classification of viewpoints from echocardiogram videos [C]// MCBR-CDS 2012: Proceedings of the 2012 MICCAI International Workshop on Medical Content-Based Retrieval for Clinical Decision Support, LNCS 7723. Berlin: Springer-Verlag, 2012: 68-79.
[6] ZHOU S K, PARK J H, GEORGESCU B, et al. Image-based multiclass boosting and echocardiographic view classification [C]// CVPR 2006: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 1559-1565.
[7] LU X, GEORGESCU B, ZHENG Y, et al. AutoMPR: Automatic detection of standard planes in 3D echocardiography [C]// ISBI 2008: Proceedings of the 2008 5th International Symposium on Biomedical Imaging: From Nano to Macro. Piscataway, NJ: IEEE, 2008: 1279-1282.
[8] ZHOU L, ZHOU Z, HU D. Scene classification using a multi-resolution bag-of-features model [J]. Pattern Recognition, 2013, 46(1): 424-433.
[9] 梁曄,于劍,劉宏哲.基于BoF模型的圖像表示方法研究[J].計算機科學(xué),2014,41(2):36-44. (LIANG Y, YU J, LIU H Z. Study of BOF model based image representation [J]. Computer Science, 2014, 41(2): 36-44.)[10] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR 2006: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 2169-2178.
[11] BAY H, TUYTELAARS T, GOOL L V. SURF: Speeded Up Robust Features [C]// ECCV 2006: Proceedings of the 2006 European Conference on Computer Vision, LNCS 3951. Berlin: Springer-Verlag, 2006: 404-417.
[12] SHEN L, LIN J, WU S, et al. HEp-2 image classification using intensity order pooling based features and bag of words [J]. Pattern Recognition, 2014, 47(7): 2419-2427.
[13] ERTEKIN S, HUANG J, GILES C L. Active learning for class imbalance problem [C]// SIGIR 2007: Proceedings of the 2007 30th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 823-824.
[14] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.
[15] WU T-F, LIN C-J, WENG R C. Probability estimates for multi-class classification by pairwise coupling [J]. Journal of Machine Learning Research, 2004, 5: 975-1005.
[16] GURUSWAMI V, SAHAI A. Multiclass learning, boosting, and error-correcting codes [C]// COLT 1999:Proceedings of the Twelfth Annual Conference on Computational Learning Theory. New York: ACM, 1999: 145-155.
[17] ZHU J, ZOU H, ROSSET S, et al. Multi-class Adaboost [J]. Statistics and Its Interface, 2009, 2(3): 349-360.
[18] FU Z, WANG L, ZHANG D. An improved multi-label classification ensemble learning algorithm [C]// CCPR 2014: Proceedings of the 2014 Chinese Conference on Pattern Recognition, CCIS 483. Berlin: Springer-Verlag, 2014: 243-252.
[19] 王莉莉,付忠良.基于標(biāo)簽相關(guān)性的多標(biāo)簽分類AdaBoost算法[J].四川大學(xué)學(xué)報(工程科學(xué)版),2016,48(5):91-97. (WANG L L, FU Z L. Multi-label AdaBoost algorithm based on label correlations [J]. Journal of Sichuan University (Engineering Science Edition), 2016, 48(5): 91-97.)
This work is partially supported by the Sichuan Science and Technology Support Project (2016JZ0035), the West Light Project of the Chinese Academy of Sciences.
WANGLili, born in 1987, Ph. D. candidate. Her research interests include machine learning, pattern recognition, data mining.
FUZhongliang, born in 1967, M. S., professor. His research interests include machine learning, pattern recognition.
TAOPan, born in 1988, Ph. D. candidate. His research interests include machine learning, data mining.
ZHUKai, born in 1991, Ph. D. candidate. His research interests include machine learning, data mining.
TEEstandardplaneclassificationbasedonimprovedmulti-classAdaBoostalgorithm
WANG Lili1,2*, FU Zhongliang1,2, TAO Pan1,2, ZHU Kai1,2
(1.ChengduInstituteofComputerApplication,ChineseAcademyofSciences,ChengduSichuan610041,China;2.UniversityofChineseAcademyofSciences,Beijing100049,China)
Due to redundancy of ultrasound image samples, high similarity between different planes caused by disease, and inaccurate positioning of region-of-interest, a classification method of TransEsophageal Echocardiography (TEE) standard plane was proposed by combining with Bag of Features (BOF) model, active learning and improved multi-class AdaBoost algorithm. Firstly, BOF model was constructed to describe ultrasound image. Secondly, active learning was adopted to select the most informative samples for classifiers as training data set. Lastly, improved multi-class AdaBoost algorithm was proposed, where the weight update rule of multi-class AdaBoost was modified according to the classfication results of temporary strong learner, and the TEE standard plane was classified by the improved multi-class AdaBoost algorithm. The experimental results on TEE data set and three UCI data sets showed that, compared with AdaBoost.SAMME, multi-class Support Vector Machine (SVM), BP neural network and AdaBoost.M2, the G-mean value, the total classification accuracy and the classification accuracy in most classes of the proposed method were improved in varying degrees, the classification accuracy of easily misclassified class was improved most significantly. The experimental results illustrate that the improved multi-class AdaBoost algorithm can significantly improve the G-mean value and accuracy of easily misclassified class in the datasets containing similar samples between classes.
multi-class AdaBoost; active learning; Bag of Features (BOF) model; standardized plane classification; ultrasound image classification
TP391.4; TP181
A
2017- 03- 01;
2017- 04- 12。
四川省科技支撐計劃項目(2016JZ0035);中國科學(xué)院西部之光項目。
王莉莉(1987—),女,河南周口人,博士研究生,主要研究方向:機器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘; 付忠良(1967—),男,重慶合川人,教授,碩士,主要研究方向:機器學(xué)習(xí)、模式識別; 陶攀(1988—),男,河南安陽人,博士研究生,主要研究方向:機器學(xué)習(xí)、數(shù)據(jù)挖掘; 朱鍇(1991—),男,貴州安順人,博士研究生,主要研究方向:機器學(xué)習(xí)、數(shù)據(jù)挖掘。
1001- 9081(2017)08- 2253- 05
10.11772/j.issn.1001- 9081.2017.08.2253