任福龍,曹 鵬,萬(wàn) 超,趙大哲
(1.東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽(yáng) 110089; 2.東北大學(xué) 軟件架構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110179;3.中國(guó)醫(yī)科大學(xué)附屬第一醫(yī)院 眼科,沈陽(yáng) 110001)(*通信作者電子郵箱hundred2005@126.com)
近年來(lái)糖尿病已發(fā)展成為世界流行的重大疾病,而糖尿病視網(wǎng)膜病變(Diabetic Retinopathy, DR)(簡(jiǎn)稱(chēng)糖網(wǎng))是糖尿病最為嚴(yán)重的并發(fā)癥之一。糖網(wǎng)以其發(fā)病早、發(fā)病率高、波及廣,已成為西方國(guó)家成年人致盲的首位原因[1]。目前我國(guó)約有1億人正受到糖尿病的威脅,由糖尿病引起的視力下降和失明的發(fā)病率正與日俱增。臨床上,糖網(wǎng)的早期病變可通過(guò)眼底圖像中視網(wǎng)膜病變的醫(yī)學(xué)征兆進(jìn)行檢測(cè),而對(duì)于糖尿病患者而言,盡早的診斷和治療是控制糖網(wǎng)病情發(fā)展的關(guān)鍵,因此,利用眼底圖像進(jìn)行及早的、定期的糖網(wǎng)篩查是防治糖網(wǎng)病變的唯一有效手段。
糖尿病患者由于長(zhǎng)期的血糖過(guò)高,導(dǎo)致視網(wǎng)膜毛細(xì)血管形狀和結(jié)構(gòu)發(fā)生改變,毛細(xì)血管壁因受損造成膨出從而形成微動(dòng)脈瘤(MicroAneurysms, MAs)。MAs作為糖網(wǎng)最早期的病變表現(xiàn),在眼底圖像中表現(xiàn)為紅色小圓點(diǎn),直徑在10~100 μm,也是眼底圖像上能觀測(cè)到的最小病變。而之后下一個(gè)呈現(xiàn)的病變是出血斑(Hemorrhages, HEMs)。HEMs是脆弱的毛細(xì)血管破裂所致,在眼底表現(xiàn)為灰度不均勻、大小不一的紅或暗紅色區(qū)域,其直徑一般大于125 μm[2],這也是與MAs的主要區(qū)分特征。MAs和HEMs統(tǒng)稱(chēng)為紅色病灶[3],圖1顯示一幅標(biāo)記眼底結(jié)構(gòu)和紅色病灶的圖像實(shí)例。在糖網(wǎng)的臨床分級(jí)標(biāo)準(zhǔn)中,紅色病灶作為糖網(wǎng)早期的病灶,它們的出現(xiàn)與否以及數(shù)目決定了疾病的嚴(yán)重級(jí)別,因此,糖網(wǎng)分級(jí)的準(zhǔn)確性主要依賴(lài)于紅色病灶檢測(cè)的精度。近年來(lái),針對(duì)糖網(wǎng)的自動(dòng)分級(jí)診斷,國(guó)內(nèi)外許多學(xué)者進(jìn)行了研究并提出相關(guān)算法[3-6]。盡管達(dá)到了較高的敏感性,但由于病灶在眼底圖像上呈現(xiàn)的尺寸差異、對(duì)比度差以及部分組織(如血管片段等)在顏色特征和形狀特征方面與紅色病灶很相似,而易被誤解為病變區(qū)域等因素,造成病變的檢測(cè)中不可避免地產(chǎn)生了大量的假陽(yáng)性,如何降低假陽(yáng)性一直是病變檢測(cè)中的難點(diǎn)。在解決糖網(wǎng)檢測(cè)假陽(yáng)性過(guò)多的過(guò)程中,有兩個(gè)關(guān)鍵問(wèn)題亟待解決。
1)標(biāo)注信息不完備。
假陽(yáng)性去除的通常方法是利用有標(biāo)記的樣本構(gòu)建監(jiān)督學(xué)習(xí)的分類(lèi)模型,來(lái)有效區(qū)分真假陽(yáng)性;但現(xiàn)有的糖網(wǎng)公開(kāi)數(shù)據(jù)集存在標(biāo)注信息不完備的問(wèn)題。如DIARETDB1(http://www.it.lut.fi/project/imageret/diaretdb1)數(shù)據(jù)集只有病灶標(biāo)注卻缺失糖網(wǎng)分級(jí)信息,而MESSIDOR(http://messidor.crihan.fr/index-en.php)數(shù)據(jù)集只提供了糖網(wǎng)分級(jí)信息,并沒(méi)有提供病灶的標(biāo)注。由于不同的數(shù)據(jù)集采集方式、采集來(lái)源等因素差異,如果利用其他有病灶標(biāo)注的數(shù)據(jù)集構(gòu)建監(jiān)督性的分類(lèi)模型,對(duì)MESSIDOR數(shù)據(jù)集產(chǎn)生的疑似病灶區(qū)域進(jìn)行分類(lèi),將會(huì)面臨不同數(shù)據(jù)集的數(shù)據(jù)分布不一致的問(wèn)題,很難達(dá)到很高的準(zhǔn)確率。
2)類(lèi)別分布不均衡。
初始檢測(cè)產(chǎn)生的疑似病灶區(qū)域的正負(fù)類(lèi)別的樣本數(shù)量存在差異,又會(huì)面臨不均衡數(shù)據(jù)的分類(lèi)問(wèn)題[7],造成分類(lèi)模型傾向于多數(shù)類(lèi)別的預(yù)測(cè)而忽略少數(shù)類(lèi)別,最終也會(huì)影響分類(lèi)器的分類(lèi)性能。
半監(jiān)督學(xué)習(xí)[8-9]允許訓(xùn)練集和目標(biāo)集的樣本之間存在差異,能夠利用訓(xùn)練數(shù)據(jù)中有類(lèi)別標(biāo)記的樣本和無(wú)類(lèi)別標(biāo)記的樣本進(jìn)行訓(xùn)練,有效地預(yù)測(cè)訓(xùn)練數(shù)據(jù)中無(wú)類(lèi)別標(biāo)記樣本的類(lèi)標(biāo)記;而基于代價(jià)敏感的分類(lèi)模型是解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題的一種有效手段,它在分類(lèi)時(shí)為不同類(lèi)別的錯(cuò)誤分配不同的代價(jià),使高代價(jià)錯(cuò)誤產(chǎn)生的數(shù)量和錯(cuò)誤分類(lèi)的代價(jià)總和最小[10]。此外,單一分類(lèi)模型很難實(shí)現(xiàn)在整個(gè)樣本空間上的準(zhǔn)確分類(lèi),研究表明半監(jiān)督集成學(xué)習(xí)充分利用了集成學(xué)習(xí)的優(yōu)勢(shì),能明顯改進(jìn)單一分類(lèi)器的性能,讓每一個(gè)分類(lèi)模型都在其優(yōu)勢(shì)空間區(qū)域內(nèi)發(fā)揮作用,提高模型的準(zhǔn)確性[11-13]。綜合以上思路,本文將半監(jiān)督學(xué)習(xí)技術(shù)與代價(jià)敏感的方法相結(jié)合,并引入到集成學(xué)習(xí)的Bagging框架中以提高算法的泛化能力和精準(zhǔn)性,最終構(gòu)建基于代價(jià)敏感的半監(jiān)督Bagging(Cost-Sensitive based Semi-supervised Bagging, CS-SemiBagging)模型。通過(guò)對(duì)MESSIDOR數(shù)據(jù)集提供的1 200幅眼底圖像進(jìn)行糖網(wǎng)分級(jí)評(píng)估,獲得準(zhǔn)確率為90.2%,敏感性為87.4%,特異性為96.7%,F(xiàn)1-score為0.873的結(jié)果。結(jié)果表明了本文提出的方法在糖網(wǎng)分級(jí)中的有效性。
在樣本類(lèi)別分布不平衡的環(huán)境下,本文研究的基于代價(jià)敏感的半監(jiān)督Bagging模型的構(gòu)建流程如圖2所示。整個(gè)流程主要包括3個(gè)階段:1)建立基于代價(jià)敏感的支持向量機(jī)模型作為基分類(lèi)器;2)利用半監(jiān)督技術(shù)預(yù)測(cè)無(wú)標(biāo)記樣本的偽類(lèi)別標(biāo)記,并基于高置信度的策略進(jìn)行采樣;3)以Bagging方式構(gòu)建多個(gè)不同的訓(xùn)練樣本集,分別在其上訓(xùn)練多個(gè)基分類(lèi)器,將各基分類(lèi)器集成為強(qiáng)分類(lèi)器,并通過(guò)投票方式得到最終的分類(lèi)結(jié)果。
圖2 CS-SemiBagging模型的構(gòu)建流程
近年來(lái),由類(lèi)別分布不均衡數(shù)據(jù)的分類(lèi)而引發(fā)的不平衡學(xué)習(xí)問(wèn)題已成為了機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要研究?jī)?nèi)容。本文采用基于代價(jià)敏感的支持向量機(jī)(Cost Sensitive Support Vector Machine, CS-SVM)作為集成學(xué)習(xí)中的基分類(lèi)器。支持向量機(jī)是機(jī)器學(xué)習(xí)領(lǐng)域中解決非線性分類(lèi)問(wèn)題的一種有效手段,其目標(biāo)函數(shù)為:
(1)
s.t.yi[(wTxi)+b]≥1-ξi;i=1,2,…,N,ξi≥0
其中:ξi為松弛因子,懲罰系數(shù)C>0。傳統(tǒng)SVM是基于所有類(lèi)被錯(cuò)分的代價(jià)相等。為了提高不均衡數(shù)據(jù)下分類(lèi)器的性能,采用不同的懲罰參數(shù)C+和C-代替原來(lái)的參數(shù)C,使得分類(lèi)時(shí)針對(duì)不同的類(lèi)別采用不同的錯(cuò)分代價(jià)以提高少數(shù)類(lèi)別的識(shí)別能力,則式(1)可轉(zhuǎn)化為:
(2)
s.t.yi[(wTxi)+b]≥1-ξi,i=1,2,…,N,ξi≥0
其中:C+為正類(lèi)誤分的代價(jià),C-為負(fù)類(lèi)誤分的代價(jià)。重新設(shè)置參數(shù)C+和C-,令C-=C,C+=C×Cf,其中,C為SVM的懲罰參數(shù),Cf為錯(cuò)分代價(jià)因子,則式(2)變?yōu)椋?/p>
(3)
s.t.yi[(wTxi)+b]≥1-ξi;i=1,2,…,N,ξi≥0
通過(guò)求其對(duì)偶問(wèn)題:
(4)
(5)
其中k(xi,x)=exp(γ‖xi-xj‖2)作為高斯核函數(shù),γ為核參數(shù)。
半監(jiān)督學(xué)習(xí)能夠在保持?jǐn)?shù)據(jù)樣本分布的情況下對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記。在半監(jiān)督學(xué)習(xí)中,給無(wú)標(biāo)注樣本分類(lèi)常常遵循兩個(gè)準(zhǔn)則:1)無(wú)標(biāo)記樣本的類(lèi)別一定與其相似度高的標(biāo)記樣本的類(lèi)別一致;2)相似度高的無(wú)標(biāo)記樣本一定屬于相同的類(lèi)別[12]?;谶@兩個(gè)準(zhǔn)則,本文在給無(wú)標(biāo)記樣本分類(lèi)時(shí),通過(guò)準(zhǔn)則1)在樣本空間與其最相似的K個(gè)有標(biāo)記樣本,以及準(zhǔn)則2)在決策空間與其最相似的K個(gè)無(wú)標(biāo)記樣本的分類(lèi)一致性來(lái)決定無(wú)標(biāo)記樣本的偽類(lèi)別標(biāo)記。通過(guò)衡量無(wú)標(biāo)記樣本與有標(biāo)記樣本的相似度來(lái)判斷無(wú)標(biāo)記樣本的類(lèi)別標(biāo)記,同時(shí)計(jì)算無(wú)標(biāo)記樣本的置信度,選取高置信度的無(wú)標(biāo)記樣本,可避免或減緩在半監(jiān)督學(xué)習(xí)中錯(cuò)誤地標(biāo)記樣本對(duì)分類(lèi)器分類(lèi)性能的影響。
(6)
(7)
Bagging方法是一種通過(guò)組合隨機(jī)生成的訓(xùn)練集而改進(jìn)分類(lèi)的集成算法,它通過(guò)隨機(jī)采樣方式抽取訓(xùn)練子集,從而構(gòu)造多個(gè)基分類(lèi)器,最終組合生成強(qiáng)分類(lèi)器。Bagging作為一種集成學(xué)習(xí)方法,要求各基分類(lèi)器之間盡可能相互獨(dú)立,并且各基分類(lèi)器之間盡可能有較大的差異[14],因此,本文通過(guò)變化訓(xùn)練集中有標(biāo)記樣本數(shù)量來(lái)增加基分類(lèi)器間的差異,即在不同采樣率lp下對(duì)有標(biāo)記樣本進(jìn)行bootstrap采樣,并與訓(xùn)練集中的無(wú)標(biāo)記樣本一起進(jìn)行半監(jiān)督訓(xùn)練,將訓(xùn)練得到的多個(gè)基分類(lèi)器組合為強(qiáng)分類(lèi)器,并使用多數(shù)投票法得到最終的分類(lèi)結(jié)果。
本文CS-SemiBagging算法流程描述如下。
1)樣本的采樣率LP={lp1,lp2,…,lpM},近鄰參數(shù)K,U中被采樣加入到標(biāo)記樣本集的樣本占U中全部樣本的比率Tup,其可作為半監(jiān)督學(xué)習(xí)收斂的條件。
4)form=1,2,…,M
②Repeat
表1 MESSIDOR的糖網(wǎng)分級(jí)標(biāo)準(zhǔn)
為了驗(yàn)證本文方法在眼底圖像上糖網(wǎng)分級(jí)的效果,本文選用兩個(gè)國(guó)際公開(kāi)的數(shù)據(jù)集:DIARETDB1和MESSIDOR數(shù)據(jù)集。DIARETDB1數(shù)據(jù)集包含了89幅分辨率為1 500×1 152的眼底圖像,每幅圖像都提供了糖網(wǎng)的病灶標(biāo)注(包括微動(dòng)脈瘤、出血斑、棉絮斑和硬性滲出),這個(gè)數(shù)據(jù)集主要作為紅色病灶分類(lèi)實(shí)驗(yàn)中有標(biāo)記樣本的來(lái)源;而MESSIDOR數(shù)據(jù)集用于糖網(wǎng)分級(jí)結(jié)果的驗(yàn)證,它提供了糖網(wǎng)分級(jí)標(biāo)準(zhǔn)(分為4級(jí),如表1所示),包含了分辨率分別為1 400×960、2 240×1 488和2 304×1 536的1 200幅眼底圖像。其中:0級(jí)的圖像有547幅,1級(jí)圖像有153幅,2級(jí)圖像有246幅,3級(jí)圖像有254幅。為了評(píng)估算法的性能,本文采用了準(zhǔn)確率(Accuracy)、敏感性(Sensitivity)、特異性(Specificity)以及F1分?jǐn)?shù)(F1-score)4種評(píng)價(jià)指標(biāo),并采用10倍交叉驗(yàn)證進(jìn)行評(píng)估。評(píng)價(jià)指標(biāo)通過(guò)真陽(yáng)(True Positive, TP)、假陽(yáng)(False Positive, FP)、真陰(True Negative, TN)、假陰(False Negative, FN)、精度(Precision, P)和召回率(Recall, R)進(jìn)行計(jì)算,具體定義如下:
Sensitivity=TP/(TP+FN)
Specificity=TN/(TN+FP)
Accuracy=(TP+TN)/(TP+FP+TN+FN)
F1-score=2*P*R/(P+R)
P=TP/(TP+FP)
R=TP/(TP+FN)
如果疑似病灶區(qū)域50%以上的像素落在參考標(biāo)準(zhǔn)的區(qū)域內(nèi),則被認(rèn)為真陽(yáng)。在CS-SemiBagging模型中懲罰參數(shù)C設(shè)為10,代價(jià)因子Cf設(shè)為正負(fù)樣本的數(shù)量比例,核函數(shù)中的γ設(shè)為1,有標(biāo)記樣本的采樣率LP={30%,40%,50%,60%,70%,80%,90%,100%},而近鄰參數(shù)K和無(wú)標(biāo)記樣本采樣率Tup均采用內(nèi)部交叉驗(yàn)證得到其最優(yōu)值作為最終參數(shù)值。
表2 特征列表
圖3為在DIARETDB1數(shù)據(jù)集上進(jìn)行紅色病灶檢測(cè)的例子,圖中的白色圓圈表示病灶的參考標(biāo)準(zhǔn)。由于紅色病灶和血管在綠色通道圖像中具有較好的對(duì)比度,所以將原始灰度圖像(如圖3(a))轉(zhuǎn)換為綠色通道的灰度圖像(如圖3(b))?;诰G色通道的灰度圖像,采用之前工作中的圖像處理方法[7],包括Top-hat變換方法、高斯濾波、區(qū)域生長(zhǎng)等一系列操作,獲得主要的血管分割結(jié)果(如圖3(c))和疑似病灶區(qū)域(如圖3(d))。
為了獲得具有足夠區(qū)分度的特征來(lái)描述疑似病灶區(qū)域,本文從顏色、形狀和紋理方面對(duì)每個(gè)疑似病灶的感興趣區(qū)域(Region Of Interest, ROI)提取多維(22維)特征(如表2所示)。由于微動(dòng)脈瘤和出血斑等紅色病灶在眼底圖像上表現(xiàn)為紅色或暗紅色,其在綠色通道圖像上具有更高的亮度值和對(duì)比度,并且由于LAB色彩空間的亮度信息分離度高于其他色彩空間,LAB色彩空間的A通道表示從紅色到綠色的信息范圍,其上紅色的病灶也體現(xiàn)了較高的亮度值,所以特征f1到f12分別從RGB、綠色通道和LAB的A通道圖像上提取ROI的顏色特征,以增加紅色病灶的區(qū)分度。特征f13到f17體現(xiàn)了微動(dòng)脈瘤的形狀信息,真正的微動(dòng)脈瘤的形狀上近似圓形,其外接矩形的長(zhǎng)軸和短軸更加接近,并具有更高的緊湊度,此外,微動(dòng)脈瘤的直徑在100 μm左右,而出血斑的直徑要大于125 μm,因此,ROI的面積特征能夠更好地區(qū)分微動(dòng)脈瘤與出血斑。特征f18到f22描述紅色病灶的紋理信息,眼底圖像上暗色的紅色病灶區(qū)域一般具有相對(duì)明顯的邊界,其邊界上具有較高的梯度值,并且區(qū)域內(nèi)部具有較小的灰度變化,其外接矩形內(nèi)具有較低的熵值。
圖3 紅色病灶的檢測(cè)
在對(duì)每個(gè)疑似病灶區(qū)域提取底層視覺(jué)特征后,構(gòu)建本文提出的CS-SemiBagging模型,并訓(xùn)練優(yōu)化模型進(jìn)行病灶的分類(lèi),在具體的MAs與HEMs的分類(lèi)上,本文采用了兩階段二分類(lèi)的策略(如圖4所示),在第一階段中將疑似病灶區(qū)域分類(lèi)為紅色病灶與非病灶區(qū)域,以去除假陽(yáng)性,第二階段中將紅色病灶分類(lèi)為MAs與HEMs,圖3(e)和圖3(f)分別為MAs與HEMs的檢測(cè)結(jié)果。最終依據(jù)MAs與HEMs的數(shù)目并參照糖網(wǎng)分級(jí)的標(biāo)準(zhǔn)(如表1)進(jìn)行糖網(wǎng)分級(jí)。
在CS-SemiBagging模型中,需要對(duì)近鄰參數(shù)K和無(wú)標(biāo)記樣本采樣率Tup進(jìn)行參數(shù)調(diào)優(yōu)和有效性驗(yàn)證。
2.4.1 近鄰參數(shù)K對(duì)性能的影響
參數(shù)K表示在模型的每一次半監(jiān)督學(xué)習(xí)的迭代過(guò)程中,計(jì)算每個(gè)無(wú)標(biāo)記樣本的相似度矩陣時(shí)選取的近鄰數(shù)。本文分別令K=5,10,15,20,25,并暫時(shí)令Tup=50%,K值的選擇與糖網(wǎng)分級(jí)的性能之間的關(guān)系如圖5所示。實(shí)驗(yàn)表明:隨著K值的增加,模型的分類(lèi)性能會(huì)先提升再下降,最后趨于平穩(wěn)。這是因?yàn)镵值的增加使選取的無(wú)標(biāo)記樣本的近鄰樣本數(shù)增多,則根據(jù)樣本的置信度和偽類(lèi)別標(biāo)注的計(jì)算公式,樣本置信度的可信度得到提升的同時(shí),樣本被錯(cuò)誤標(biāo)記的可能性也逐漸減小,因此,模型的分類(lèi)性能會(huì)升高。由于近鄰樣本數(shù)的增加也會(huì)引入噪聲數(shù)據(jù),當(dāng)噪聲數(shù)據(jù)達(dá)到一定量時(shí),導(dǎo)致了樣本的偽類(lèi)別標(biāo)注的準(zhǔn)確度和置信度的可信度下降,進(jìn)而降低了模型的分類(lèi)性能。另外,由于實(shí)驗(yàn)中無(wú)標(biāo)記樣本采樣率Tup不變,即引入訓(xùn)練中的無(wú)標(biāo)記樣本的數(shù)量一定,所以當(dāng)K值達(dá)到一定數(shù)值后,模型的性能不會(huì)再有大的變化。實(shí)驗(yàn)中K值在10時(shí)獲得最優(yōu)的結(jié)果。
圖4 微動(dòng)脈瘤與出血斑的分類(lèi)
2.4.2 參數(shù)Tup對(duì)性能的影響
參數(shù)Tup表示訓(xùn)練集的U中被采樣加入到標(biāo)記樣本集的樣本占U中全部樣本的比率,其也是半監(jiān)督迭代訓(xùn)練中模型的收斂條件。本文實(shí)驗(yàn)中分別令Tup=30%,40%,50%,60%,70%,80%,90%,同時(shí)設(shè)置K值為10。實(shí)驗(yàn)結(jié)果如圖6所示。實(shí)驗(yàn)表明:Tup值的增加,即目標(biāo)數(shù)據(jù)集中參與模型訓(xùn)練的樣本數(shù)目的增加,也就會(huì)相應(yīng)地提升目標(biāo)數(shù)據(jù)集的分類(lèi)性能,但由于不同數(shù)據(jù)集之間的差異,當(dāng)被采樣的無(wú)標(biāo)記樣本的總數(shù)目增加到一定量后,樣本的偽類(lèi)別被錯(cuò)誤標(biāo)注的可能性將增加,同時(shí)樣本置信度的可信度也會(huì)下降,也就導(dǎo)致了模型的分類(lèi)性能的下降。實(shí)驗(yàn)中Tup值在70%時(shí)獲得最優(yōu)的性能。
圖5 不同K值下CS-SemiBagging算法的性能
圖6 不同Tup值下CS-SemiBagging算法的性能
2.4.3 分類(lèi)結(jié)果
圖7顯示了在患有糖網(wǎng)的眼底圖像上病灶(微動(dòng)脈瘤和出血斑的)的檢測(cè)結(jié)果,其中白色圓圈標(biāo)記了檢測(cè)到的微動(dòng)脈瘤的位置,白色矩形標(biāo)記了檢測(cè)到的出血斑的位置。從檢測(cè)結(jié)果中可以觀察到一些比較小的和鄰近血管的病灶都得到了很好的識(shí)別。在MESSIDOR數(shù)據(jù)集的1 200幅圖像上得到的糖網(wǎng)分級(jí)的詳細(xì)結(jié)果如表3所示。結(jié)果顯示雖然糖網(wǎng)0級(jí)的圖像所占總圖像數(shù)目的比例較高,但由于引入代價(jià)敏感的方法,使得實(shí)驗(yàn)結(jié)果沒(méi)有嚴(yán)重地向糖網(wǎng)0級(jí)進(jìn)行傾向。
圖7 糖網(wǎng)圖像上紅色病灶的檢測(cè)結(jié)果
Tab. 3 Results of DR grading on MESSIDOR dataset
為了比較本文的CS-SemiBagging方法與其他方法的性能,分別選擇了監(jiān)督學(xué)習(xí)中的SVM和CS-SVM方法,以及半監(jiān)督學(xué)習(xí)中的Self-training和Co-training方法進(jìn)行測(cè)試,其中兩個(gè)半監(jiān)督方法的基分類(lèi)器均采用CS-SVM,其相關(guān)參數(shù)設(shè)置與CS-SemiBagging模型中的設(shè)置相同。此外,測(cè)試中也選擇了基于Radon變換的圖像分類(lèi)方法[3]與本文方法進(jìn)行比較,通過(guò)Radon變換可以計(jì)算圖像在某個(gè)角度下徑向線方向的投影,進(jìn)而利用Radon變換數(shù)據(jù)標(biāo)準(zhǔn)差的差異來(lái)區(qū)分圖像上的線狀目標(biāo)(血管片段)和點(diǎn)塊狀目標(biāo)(微動(dòng)脈瘤或出血斑)。各方法性能比較的結(jié)果如表4所示,從表4中可以看出基于機(jī)器學(xué)習(xí)的方法要好于Radon變換的圖像分類(lèi)方法,這是由于紅色病灶在顏色、形狀、對(duì)比度等方面的多樣性決定了基于多特征描述的機(jī)器學(xué)習(xí)方法要比依賴(lài)于單一形狀特征描述的Radon變換方法更適合病灶假陽(yáng)性的去除,如Radon變換方法對(duì)于形狀不一的出血斑病灶不能達(dá)到完全有效的識(shí)別,此外,Radon變換數(shù)據(jù)標(biāo)準(zhǔn)差的閾值決定了此方法的分類(lèi)精度,而不同數(shù)據(jù)集間的差異嚴(yán)重影響了此閾值選擇的有效性,導(dǎo)致了此方法的性能不高。實(shí)驗(yàn)結(jié)果中CS-SVM的性能要好于SVM的性能,這是考慮了不均衡數(shù)據(jù)的分類(lèi)問(wèn)題的結(jié)果。另外,半監(jiān)督學(xué)習(xí)方法的性能要好于監(jiān)督學(xué)習(xí)的方法,這是由于半監(jiān)督學(xué)習(xí)能夠很好地解決不同數(shù)據(jù)集的數(shù)據(jù)分布不一致的問(wèn)題,從而提高目標(biāo)數(shù)據(jù)集分類(lèi)性能的緣故。從結(jié)果中也可以看出CS-SemiBagging方法的性能要優(yōu)于其他方法,這主要由于此方法除了考慮以上提到的兩個(gè)問(wèn)題之外,還采用了多分類(lèi)器集成學(xué)習(xí)思想的緣故,實(shí)驗(yàn)結(jié)果也表明了本文提出的方法在糖網(wǎng)分級(jí)中的有效性和一定的優(yōu)勢(shì)。
表4 不同糖網(wǎng)分級(jí)方法的比較
本文在糖網(wǎng)的分級(jí)診斷應(yīng)用中提出了基于代價(jià)敏感的半監(jiān)督集成學(xué)習(xí)的算法,將半監(jiān)督學(xué)習(xí)技術(shù)與代價(jià)敏感的SVM方法相結(jié)合,并融入到集成學(xué)習(xí)的Bagging框架中,提升了分類(lèi)的泛化能力和精準(zhǔn)性,進(jìn)而有效地實(shí)現(xiàn)對(duì)眼底圖像的糖網(wǎng)分級(jí)診斷。該算法一方面考慮了糖網(wǎng)病灶樣本的類(lèi)別分布不平衡對(duì)分類(lèi)性能的影響;另一方面在半監(jiān)督技術(shù)上采用K近鄰樣本的一致性對(duì)無(wú)標(biāo)記樣本進(jìn)行偽類(lèi)別標(biāo)簽的標(biāo)注和置信度計(jì)算,從而大幅度降低了無(wú)標(biāo)記樣本采樣過(guò)程中引入噪聲的可能性。實(shí)驗(yàn)結(jié)果表明本文提出的方法能夠很好地解決醫(yī)學(xué)圖像分類(lèi)中病灶沒(méi)有標(biāo)注的問(wèn)題和假陽(yáng)性去除中存在的不均衡數(shù)據(jù)分類(lèi)問(wèn)題,同時(shí)獲得了更好的結(jié)果。本文工作只是進(jìn)行糖網(wǎng)病變程度的分級(jí)診斷,未來(lái)在本文研究的基礎(chǔ)上,如何利用半監(jiān)督集成學(xué)習(xí)的方法進(jìn)行其他眼底疾病如糖網(wǎng)黃斑水腫的風(fēng)險(xiǎn)分級(jí)等,將是今后的研究重點(diǎn)。