杜 優(yōu)
(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海201620)
乳腺癌是女性的高發(fā)癌癥,世界衛(wèi)生組織GLOBOCAN發(fā)布的最新數(shù)據(jù)表明2018年大約有210萬(wàn)新診斷的乳腺癌病例,占女性癌癥發(fā)病率的25%[1]。雖然中國(guó)女性的乳腺癌發(fā)病在全球處于較低的水平,但國(guó)內(nèi)的乳腺癌發(fā)病趨勢(shì)在逐年增高[2]。
作為一種乳腺癌的常用檢測(cè)手段,乳腺超聲具有價(jià)格便宜、檢測(cè)率高等優(yōu)點(diǎn),因此日常乳腺癌的檢測(cè)與篩查大多采用乳腺超聲的手段。
在國(guó)內(nèi)影像學(xué)醫(yī)師較為稀缺,而又面臨較大市場(chǎng)需求的情況下,基于人工智能的輔助決策診斷可以大大減少影像學(xué)醫(yī)師的工作量,同時(shí)也可為社會(huì)的各類(lèi)就醫(yī)群體提供更好醫(yī)療保障和服務(wù)。
圖像特征提取和分類(lèi)模型構(gòu)建是醫(yī)療影像識(shí)別領(lǐng)域的2個(gè)主要步驟。特征提取主要是提取影像的相關(guān)特征,例如紋理特征、顏色特征、形狀特征等。分類(lèi)模型的構(gòu)建主要是指利用特征信息來(lái)構(gòu)建并學(xué)習(xí)一套分類(lèi)準(zhǔn)則,在此分類(lèi)準(zhǔn)則下可以對(duì)圖像進(jìn)行分類(lèi)和預(yù)測(cè)。在醫(yī)學(xué)影像分類(lèi)中,采用的分類(lèi)方法主要有支持向量機(jī)、決策樹(shù)等。但是不同的分類(lèi)器的分類(lèi)能力不同,例如,對(duì)于一張圖像某些分類(lèi)器的識(shí)別效果較好,但是某些分類(lèi)器的識(shí)別效果較差。所以,可以通過(guò)適當(dāng)?shù)厝诤戏诸?lèi)器的分類(lèi)結(jié)果,來(lái)提高分類(lèi)模型的準(zhǔn)確率。
本文采用了公開(kāi)乳腺超聲數(shù)據(jù),對(duì)超聲數(shù)據(jù)進(jìn)行了紋理特征的提取,使用了4種基本分類(lèi)器,對(duì)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行基于決策的信息融合,最后獲得預(yù)測(cè)與診斷結(jié)果。
本文提出的基于信息融合的醫(yī)療影像輔助決策方法的總體流程,見(jiàn)圖1。首先提取出乳腺超聲圖像感興趣區(qū)域,生成乳腺超聲紋理特征數(shù)據(jù)集,將獲得的紋理特征的數(shù)據(jù)集輸入到4個(gè)不同的分類(lèi)器(樸素貝葉斯、決策樹(shù)、SVM、KNN)中,將3個(gè)分類(lèi)器分類(lèi)的結(jié)果進(jìn)行決策層的信息融合,得到最終的識(shí)別結(jié)果。
圖1 基于決策信息融合醫(yī)療影像流程圖Fig.1 Flow chart of fusion medical image based on decision information
乳腺超聲圖像具有特殊性和復(fù)雜性,因?yàn)樾枰杉橄俪暩信d趣區(qū)域的特征來(lái)進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
灰度共生矩陣的定義如下:假設(shè)一張矩形的圖片有Nx列Ny行,出現(xiàn)在每個(gè)像素處的灰度級(jí)被量化為Ng級(jí)。 設(shè)Lx={1,2,…,Nx}為列,Ly={1,2,…,Ny} 為行,且Gx={0,1,…,Ng-1}是Ng個(gè)量化灰度級(jí)的集合,集合Lx×Ly是按行列指定排序的圖像像素集。圖像I可以表示為將G中的一些灰度級(jí)分配給Lx×Ly中的每個(gè)像素或坐標(biāo)對(duì)的函數(shù),即I:Lx×Ly→G。 紋理上下文信息由相對(duì)頻率Pij的矩陣指定,在圖像上距離為d的2個(gè)像素,分別記為i和j?;叶裙采仃囀墙嵌汝P(guān)系和相鄰像素之間距離的函數(shù)。在本文的研究中使用了6個(gè)特征,以下等式定義了這些特征。設(shè)p(i,j)是標(biāo)準(zhǔn)化灰度共生矩陣的第(i,j)個(gè)條目。矩陣的行和列的平均值和標(biāo)準(zhǔn)差可分別表示為:
在此基礎(chǔ)上,研究繼而給出各特征定義的數(shù)學(xué)表述具體如下。
(1)對(duì)比度(contrast)
(2)非相似性(dissimilarity)
(3)同質(zhì)性(homogeneity)
(4)ASM 能量(ASM)
(5)能量(energy)
(6)自相關(guān)(correlation)
本文采用灰度共生矩陣來(lái)提取乳腺超聲感興趣區(qū)域的紋理特征,共采集了對(duì)比度(contrast)、非相似性(dissimilarity)、同質(zhì)性(homogeneity)、ASM 能量(ASM)、能量(energy)、自相關(guān)(correlation)6 個(gè)特征,每個(gè)特征擴(kuò)展為4個(gè)維度,共24個(gè)特征,最終生成紋理數(shù)據(jù)集。例如對(duì)于id為us1的乳腺超聲圖像提取紋理特征之后得到的數(shù)據(jù)集示例詳見(jiàn)表1。
機(jī)器學(xué)習(xí)實(shí)質(zhì)是研究如何根據(jù)過(guò)去的觀察結(jié)果自動(dòng)學(xué)習(xí)做出準(zhǔn)確的預(yù)測(cè)。分類(lèi)算法是機(jī)器學(xué)習(xí)當(dāng)中的常用算法,對(duì)于數(shù)據(jù)的預(yù)測(cè)與分類(lèi)有著重要的意義。本文選取的分類(lèi)算法主要有樸素貝葉斯、決策樹(shù)、SVM、CNN?;痉诸?lèi)器分類(lèi)方法可探討論述如下。
1.2.1 樸素貝葉斯分類(lèi)器
樸素貝葉斯分類(lèi)器是一種概率分類(lèi)器,同時(shí)也是基于貝特斯定理的分類(lèi)技術(shù),并假設(shè)預(yù)測(cè)變量之間具有獨(dú)立性。樸素貝葉斯分類(lèi)器假定類(lèi)中特定特征的存在與其它特征的存在無(wú)關(guān)。
表1 乳腺影像感興趣區(qū)域特征提取結(jié)果示例Tab.1 Example of feature extraction results of regions of interest in breast imaging
貝葉斯定理提供了一種從P(c),P(x)和P(x|c(diǎn))來(lái)計(jì)算后驗(yàn)概率P(c|x)的方法,可將其解析為如下數(shù)學(xué)公式:
1.2.2 KNN 分類(lèi)器
KNN是用于分類(lèi)和回歸的十大數(shù)據(jù)挖掘算法之一,是懶惰學(xué)習(xí)器的代表。KNN根據(jù)分配給測(cè)試樣本的KNN標(biāo)簽進(jìn)行預(yù)測(cè)。工作原理可闡述如下。
在一組訓(xùn)練數(shù)據(jù)集D上選擇K的初始值,因?yàn)闆](méi)有標(biāo)準(zhǔn)的方法來(lái)設(shè)置K的值,使得K的初始值將根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行隨機(jī)選擇。根據(jù)樣本數(shù)據(jù)的所需結(jié)果確定K的值。此后再使用歐幾里得距離公式測(cè)量采樣點(diǎn)X與其K個(gè)鄰居之間的距離。這些樣本之間的距離可定義為:
最后根據(jù)得到的距離來(lái)進(jìn)行排序,選擇距離最小的K個(gè)點(diǎn),由此完成分類(lèi)、回歸或其它任務(wù)。
1.2.3 決策樹(shù)分類(lèi)器
決策樹(shù)以樹(shù)結(jié)構(gòu)的形式構(gòu)建分類(lèi)或回歸模型。通過(guò)將數(shù)據(jù)集劃分為越來(lái)越小的子集,同時(shí)逐步開(kāi)發(fā)相關(guān)的決策樹(shù)。最終結(jié)果是具有決策節(jié)點(diǎn)和葉節(jié)點(diǎn)的樹(shù)。決策節(jié)點(diǎn)具有2個(gè)或更多分支,葉節(jié)點(diǎn)表示分類(lèi)或決定。樹(shù)中最頂層的決策節(jié)點(diǎn),對(duì)應(yīng)于成為根節(jié)點(diǎn)的最佳預(yù)測(cè)器。決策樹(shù)可以處理分類(lèi)和數(shù)值數(shù)據(jù)。
構(gòu)建決策樹(shù)的核心算法,稱為ID3。其中,采用自上而下的貪婪搜索方式,通過(guò)可能的分支空間進(jìn)行無(wú)回溯。
信息增益基于在屬性上拆分?jǐn)?shù)據(jù)集后熵的減小來(lái)構(gòu)建決策樹(shù),對(duì)其設(shè)計(jì)步驟可簡(jiǎn)潔分述如下。
(1)計(jì)算目標(biāo)的熵,如式(13)所示:
(2)將數(shù)據(jù)集拆分為不同的屬性,計(jì)算每個(gè)分支的熵,而后按比例添加,來(lái)獲得拆分的總熵,在分割之前從熵中減去所得的熵,最終信息增益或熵減小。研究可得數(shù)學(xué)運(yùn)算公式如下:
(3)選擇具有最大信息增益的屬性作為決策節(jié)點(diǎn),將數(shù)據(jù)集除以其分支,并且在每個(gè)分支上重復(fù)相同的過(guò)程。
(4)熵為0的分支為葉子節(jié)點(diǎn)。
(5)熵大于0的分支需要進(jìn)一步?jīng)Q策并分裂。
(6)ID3算法在非葉子分支上運(yùn)行,直到所有數(shù)據(jù)都被分類(lèi)。
1.2.4 SVM 分類(lèi)器
支持向量機(jī)通過(guò)在高維或者無(wú)限維空間中構(gòu)造超平面來(lái)解決分類(lèi)、回歸或其它任務(wù)。SVM通過(guò)一個(gè)與任何類(lèi)的最近訓(xùn)練數(shù)據(jù)點(diǎn)具有最大距離的超平面來(lái)實(shí)現(xiàn)分類(lèi)、回歸或其它任務(wù)。通常,邊緣越大,分類(lèi)器的泛化誤差越低。雖然通常情況下,原始數(shù)據(jù)集可以在有限空間中進(jìn)行描述,但是可能會(huì)面臨要區(qū)分的集合不是線性可分的問(wèn)題。所以,有學(xué)者提出將原始的有限維空間映射到更高維空間,使得分類(lèi)或預(yù)測(cè)更加容易。高維空間中的超平面則定義為在該空間中具有向量的內(nèi)積是恒定的點(diǎn)集。
信息融合是指將來(lái)自于不同的信息源、多格式信息等進(jìn)行合并,從而產(chǎn)生更加完整、準(zhǔn)確的信息或決策。在數(shù)據(jù)挖掘領(lǐng)域信息融合得到了廣泛的應(yīng)用,主要應(yīng)用在基于特征層的信息融合、基于決策層的信息融合和基于數(shù)據(jù)源的信息融合等方面。本文所使用的信息融合方法即為基于決策層的信息融合。
由于單一的分類(lèi)器可能會(huì)因?yàn)榉诸?lèi)器的分類(lèi)原理而有不同的結(jié)果,為了提高分類(lèi)的效果,本文在使用4種不同的分類(lèi)器劃定分類(lèi)后,將不同分類(lèi)器的分類(lèi)結(jié)果進(jìn)行信息融合,如此就能得到一個(gè)更準(zhǔn)確、更可靠的分類(lèi)模型。
對(duì)于乳腺超聲影像來(lái)說(shuō),基于決策層的信息融合指的是多分類(lèi)器結(jié)果融合。本文使用投票法來(lái)對(duì)多分類(lèi)器結(jié)果進(jìn)行信息融合。由于每個(gè)分類(lèi)器對(duì)每一種分類(lèi)結(jié)果均為概率輸出,則本文使用的投票法為對(duì)每一種分類(lèi)器的概率輸出進(jìn)行累加之后比較每一種分類(lèi)的概率大小,從而計(jì)算求出分類(lèi)結(jié)果,比如,對(duì)于一個(gè)分類(lèi)為0和1二分類(lèi),分類(lèi)為0的概率,投票法公式為:
對(duì)于分類(lèi)為1的概率,投票法公式為:
之后對(duì)p0和p1進(jìn)行歸一化,即可得到最終的分類(lèi)結(jié)果。
本文首先對(duì)乳腺超聲感興趣區(qū)域圖像進(jìn)行紋理特征提取,得到新的紋理數(shù)據(jù)集,而后對(duì)紋理數(shù)據(jù)集進(jìn)行隨機(jī)化并以7:3來(lái)進(jìn)行劃分,分為訓(xùn)練集和測(cè)試集。
樸素貝葉斯分類(lèi)器、KNN分類(lèi)器、決策樹(shù)分類(lèi)器、SVM分類(lèi)器以及使用投票法進(jìn)行基于決策的分類(lèi)模型的ROC曲線如圖2所示。
在仿真實(shí)驗(yàn)中,觀察分析后可得到如下實(shí)驗(yàn)結(jié)果:高斯貝葉斯分類(lèi)器在訓(xùn)練集上的準(zhǔn)確率為72%,在測(cè)試集上的準(zhǔn)確率為78.67%,AUC值為85.76%;KNN分類(lèi)器在訓(xùn)練集上的準(zhǔn)確率為95.43%,在測(cè)試集上的準(zhǔn)確率為89.33%,AUC值為96.77%;決策樹(shù)分類(lèi)器在訓(xùn)練集上的準(zhǔn)確率為100%,在測(cè)試集上的準(zhǔn)確率為90.67%,AUC值為90.14%;此外,SVM分類(lèi)器在訓(xùn)練集上的準(zhǔn)確率為84.57%,在測(cè)試集上的準(zhǔn)確率為85.33%,AUC值為94.83%;使用投票法對(duì)4種分類(lèi)器做基于決策的數(shù)據(jù)融合分類(lèi)模型,在訓(xùn)練集上的準(zhǔn)確率為99.43%,在測(cè)試集上的準(zhǔn)確率為93.33%,AUC值為97.65%。
圖2 4種基本分類(lèi)器和融合分類(lèi)模型結(jié)果示意對(duì)比圖Fig.2 Schematic comparison of the results of the four basic classifiers and the fusion classification model
4種基本分類(lèi)器和投票法分類(lèi)模型的AUC值折線圖和準(zhǔn)確率折線圖如圖3、圖4所示。
圖3 4種基本分類(lèi)器和融合分類(lèi)模型AUC值對(duì)比圖Fig.3 Comparison of AUC values of four basic classifiers and fusion classification models
圖4 4種基本分類(lèi)器和融合分類(lèi)模型準(zhǔn)確率對(duì)比圖Fig.4 Comparison of the accuracy of the four basic classifiers and the fusion classification model
由圖3和圖4可知,相比于單個(gè)分類(lèi)器的分類(lèi)效果,本文使用的融合了多個(gè)分類(lèi)器的投票法模型有更高的AUC值和準(zhǔn)確率。本文使用的投票法模型具有較高的準(zhǔn)確率,對(duì)臨床上的乳腺超聲影像識(shí)別有著重要意義。
本文針對(duì)乳腺超聲影像感興趣區(qū)域進(jìn)行了紋理特征的提取,組成了新的紋理數(shù)據(jù)集,并對(duì)紋理數(shù)據(jù)集使用基本分類(lèi)器進(jìn)行分類(lèi),接下來(lái)又對(duì)基本分類(lèi)器使用投票法進(jìn)行信息融合,來(lái)獲得新的分類(lèi)模型。此后的實(shí)驗(yàn)結(jié)果表明:基于信息融合的分類(lèi)模型相比4個(gè)基本分類(lèi)器有更好的分類(lèi)效果和更高的準(zhǔn)確率,對(duì)于臨床上乳腺癌的良惡性分類(lèi)有較高的實(shí)用價(jià)值。