趙 爽,馬志慶,趙文華,李延軍
乳腺癌是女性發(fā)病率最高的惡性腫瘤,其發(fā)病率呈逐年上升和年輕化的趨勢(shì)[1],乳腺癌的早期發(fā)現(xiàn)及有效治療能提高患者的存活率。目前乳腺癌臨床診斷多基于人工病理圖像分析,其費(fèi)力、耗時(shí),且診斷結(jié)果易受到主觀人為因素的影響,借助計(jì)算機(jī)輔助診斷對(duì)病理圖像自動(dòng)進(jìn)行良、惡性分類,可為醫(yī)師提供更加客觀、準(zhǔn)確的診斷判斷。
馬軍超等[2]從骨內(nèi)CT圖像中提取了灰度均值、偏度、平方和等多個(gè)紋理進(jìn)行良惡性的鑒別;黃寶嬋等[3]從乳腺腫瘤紅外圖像中計(jì)算乳腺圖像腫瘤區(qū)域與非腫瘤區(qū)域的灰度共生矩陣,提取了圖像的相關(guān)性、能量、逆差矩、最大概率、熵等紋理特征進(jìn)行分類;熊飛等[4]中從肺部CT圖像中提取了均值、熵值、偏度、峰度和不均勻度等紋理特征進(jìn)行了分類。上述研究中對(duì)圖像只提取了紋理特征,且都為CT、紅外圖像,而病理圖像是醫(yī)師最后確診乳腺癌的重要標(biāo)準(zhǔn),對(duì)病理圖像進(jìn)行準(zhǔn)確的診斷是醫(yī)師制訂最佳治療方案的重要依據(jù)。該次研究通過深入分析乳腺癌病理圖像,提取乳腺腫瘤病理圖像的顏色特征和紋理特征,構(gòu)建乳腺腫瘤良惡性分類模型,對(duì)乳腺腫瘤良惡性進(jìn)行分類。
1.1 實(shí)驗(yàn)實(shí)施 該研究采用公開數(shù)據(jù)集BreaKHis[5]。BreaKHis由82例患者采用不同顯微鏡放大倍率(40×,100×,200×及 400×)采集的 7909 幅乳腺腫瘤組織病理圖像組成。其包含2480幅良性圖像和5429幅惡性圖像(700×460像素,RGB三通道,每個(gè)通道8位深度,PNG格式)。該數(shù)據(jù)庫(kù)是Spanhol等人與巴西的P&D實(shí)驗(yàn)室合作建立的。
從乳房組織活檢切片中產(chǎn)生樣品,用蘇木精和伊紅染色。經(jīng)SOB收集后進(jìn)行組織學(xué)研究,并由P&D實(shí)驗(yàn)室的病理學(xué)家進(jìn)行標(biāo)記。其工作采用標(biāo)準(zhǔn)的石蠟切片制備方法,保留最初的組織切片結(jié)構(gòu)。整個(gè)制備過程包括取材、固定、修整、脫水、透明、浸蠟、包埋、切片、染色等步驟。為了安裝在載玻片上,切片厚度為3 μm,染色后用蓋玻片封片。最后解剖學(xué)家和解剖病理學(xué)家通過在顯微鏡下對(duì)組織切片的視覺分析來識(shí)別每個(gè)載玻片上的腫瘤區(qū)域,每個(gè)病例的最終診斷均由經(jīng)驗(yàn)豐富的病理學(xué)家提供,并通過免疫組織化學(xué)分析等輔助檢查進(jìn)行確認(rèn)。
使用具有放大倍數(shù)為3.3倍中繼鏡的Olympus BX-50型顯微鏡與三星數(shù)碼彩色相機(jī)SCC-131AN耦合,從乳房組織切片獲得數(shù)字化圖像(相機(jī)使用1/3Sony Super-HAD行間轉(zhuǎn)移電荷耦合器件,像素尺寸為 6.5 μm×6.25 μm,總像素?cái)?shù)為 752×582)。 去除不需要的區(qū)域,最終被剪切并保存為700×460像素,且圖像是無顏色標(biāo)準(zhǔn)化的原始圖像。
該研究選取其數(shù)據(jù)集40×的1995幅(良性625幅,惡性1370幅)腫瘤病理圖像為研究對(duì)象,如圖1所示。
圖1 乳腺惡性腫瘤病理切片圖
1.2 特征提取 特征提取是進(jìn)行乳腺腫瘤良惡性診斷的關(guān)鍵一步,通過從病理圖像中提取特征來量化腫瘤等重大疾病,可以有效解決腫瘤異質(zhì)性難以定量評(píng)估的問題,該文提取了顏色矩、顏色自相關(guān)圖、Haralick紋理特征共99維特征乳腺腫瘤進(jìn)行量化。
由于HSV顏色空間與人眼對(duì)顏色的主觀意識(shí)相對(duì)符合[6],該研究采用HSV顏色空間下的顏色矩作為顏色特征之一,每種顏色分量的一階矩 (均值)、二階矩(方差)、三階矩(斜度)表示圖像中的顏色分布。最后三個(gè)顏色分量的三階顏色矩組成一個(gè)9維特征向量。
顏色自相關(guān)圖是借助顏色相關(guān)圖得到的,顏色相關(guān)圖刻畫了某一種顏色的像素?cái)?shù)量占整個(gè)圖像的比例,還反映了不同顏色對(duì)之間的空間相關(guān)性[7]。由于顏色相關(guān)圖非常復(fù)雜和龐大,而顏色自相關(guān)圖僅考察具有相同顏色的像素間的空間關(guān)系,空間復(fù)雜度降低很多。因此該研究采用 k=1、3、5、7、9這五個(gè)距離作為算法中的像素空間距離,提取每一像素空間距離下的64維顏色自相關(guān)特征,最后根據(jù)分類結(jié)果求出最優(yōu)距離。
Haralick紋理特征是借助灰度共生矩陣(Graylevel Co-occurrence Matrix,GLCM)得到的[8]。 灰度共生矩陣通過計(jì)算像素相對(duì)距離(d=6)[9]和4個(gè)不同方向(θ=0°、45°、90°、135°),并對(duì)原始圖像灰度級(jí)量化成16級(jí)得到。計(jì)算出13個(gè)Haralick紋理特征:角二階矩、對(duì)比度、相關(guān)性、方差、逆差矩、和均值、和方差、和熵、熵、差方差、差熵、相關(guān)信息測(cè)度1和相關(guān)信息測(cè)度2。最后對(duì)四個(gè)方向上的特征向量取均值和標(biāo)準(zhǔn)差來獲得26維特征向量。
具體特征維度分別為顏色矩,維度為9;顏色自相關(guān)圖,維度為64;Haralick紋理特征,維度為26;合計(jì)為99。
1.3 良惡性診斷模型構(gòu)建 將40×的乳腺病理圖像隨機(jī)分為訓(xùn)練集(70%)和測(cè)試集(30%)。采用“min-max 標(biāo)準(zhǔn)化”(Min-max normalization)對(duì)訓(xùn)練組和測(cè)試組的特征數(shù)據(jù)進(jìn)行歸一化處理,然后利用極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)建立分類模型,并在測(cè)試集進(jìn)行了驗(yàn)證。分類模型構(gòu)建流程圖如圖2所示。
極限學(xué)習(xí)機(jī)是由黃廣斌提出來的求解單隱層神經(jīng)網(wǎng)絡(luò)的算法[10]。在訓(xùn)練中能夠隨機(jī)產(chǎn)生輸入層和隱含層間的連接權(quán)值和隱含層神經(jīng)元間的閾值,無須調(diào)整,只需設(shè)置隱含層神經(jīng)元個(gè)數(shù)即可獲得全局最優(yōu)解。由于ELM學(xué)習(xí)速度快、泛化性能好等優(yōu)點(diǎn),近年來越來越多的學(xué)者將其應(yīng)用于非線性函數(shù)擬合、回歸和模式分類問題研究[11]。如圖3 ELM的拓?fù)浣Y(jié)構(gòu)圖所示,整個(gè)結(jié)構(gòu)由輸入層、隱含層和輸出層組成,各層之間由神經(jīng)元連接。圖中的輸入層有 t個(gè)輸入變量(x1,x2,x3,……xt);隱含層中有 l個(gè)神經(jīng)元(o1,o2,o3,……ol);輸出層有 l個(gè)輸出變量(y)。
ELM 算法主要步驟為[12]:(1)給定訓(xùn)練集,隨機(jī)產(chǎn)生輸入層與隱含層間權(quán)值wij和隱含層神經(jīng)元閾值b;(2)確定隱含層神經(jīng)元節(jié)點(diǎn)數(shù)和激活函數(shù)g(x)(默認(rèn)取值“sig”);(3)計(jì)算出隱含層與輸出層間的連接權(quán)值βjk和隱含層輸出矩陣H;(4)計(jì)算輸出層權(quán)值β;β=H-1T,式中:H-1為H的廣義逆矩陣;T為理想輸出。
為了獲取更高的預(yù)測(cè)準(zhǔn)確率,該研究對(duì)ELM的參數(shù)進(jìn)行了優(yōu)化。ELM的分類性能受到多種因素影響,其中最關(guān)鍵的因素為隱含層的節(jié)點(diǎn)數(shù)。該研究中隱含層節(jié)點(diǎn)個(gè)數(shù)的設(shè)置通過100個(gè)節(jié)點(diǎn)到500個(gè)節(jié)點(diǎn)以50個(gè)節(jié)點(diǎn)為間隔實(shí)驗(yàn)得到。
圖2 分類模型構(gòu)建流程圖
圖3 極限學(xué)習(xí)機(jī)算法拓?fù)浣Y(jié)構(gòu)
圖4 不同像素空間距對(duì)模型的性能影響
該研究基于顏色特征和紋理特征利用ELM構(gòu)建了乳腺腫瘤良惡性分類模型,對(duì)分類模型的評(píng)判標(biāo)準(zhǔn)有很多,該研究選擇“靈敏度”“特異性”和“準(zhǔn)確度”進(jìn)行了計(jì)算。實(shí)驗(yàn)結(jié)果是通過100次實(shí)驗(yàn)后取均值得到的。
顏色自相關(guān)圖中不同的像素空間距離k分別對(duì)模型預(yù)測(cè)的性能影響,如圖4所示。
由圖可知,不同的像素空間距離比較后發(fā)現(xiàn)差異很小,距離為9時(shí)分類準(zhǔn)確度達(dá)到最高為90.67%;對(duì)比不同的節(jié)點(diǎn),發(fā)現(xiàn)曲線呈相同趨勢(shì),先升高后下降,節(jié)點(diǎn)數(shù)為250,300,350時(shí)均呈現(xiàn)過最高點(diǎn),分類準(zhǔn)確度最高達(dá)到90.67%。
綜上所述像素空間距離為9,隱含層節(jié)點(diǎn)數(shù)為250時(shí)分類準(zhǔn)確度最高,達(dá)到90.67%。
對(duì)像素空間距離為9,隱含層節(jié)點(diǎn)數(shù)為250的靈敏度和特異性單獨(dú)進(jìn)行了計(jì)算,結(jié)果:準(zhǔn)確度為90.79%,靈敏度為89.18%,特異性為92.39%。
在計(jì)算機(jī)輔助診斷的基礎(chǔ)上,該研究對(duì)乳腺病理圖像提取了顏色特征和紋理特征共99維特征,并利用ELM建立分類器進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)顏色自相關(guān)圖中像素空間距離為9,ELM隱含層節(jié)點(diǎn)數(shù)為250時(shí)分類精度最高,準(zhǔn)確度能達(dá)到90.79%,靈敏性達(dá)到89.18%,特異性達(dá)到92.39%。對(duì)于腫瘤組織的量化比較,該文通過提取顏色和紋理特征對(duì)乳腺腫瘤病理圖像進(jìn)行了量化,利用乳腺病理圖像數(shù)據(jù)集中隨機(jī)選取的70%圖像進(jìn)行訓(xùn)練建立模型,最后對(duì)30%圖像進(jìn)行測(cè)試,測(cè)試圖像為良性還是惡性,與原數(shù)據(jù)集中標(biāo)記的良惡性進(jìn)行比較,準(zhǔn)確度能達(dá)到90.79%,從而完成對(duì)乳腺病理圖像的良惡性進(jìn)行了分類。該研究?jī)H對(duì)乳腺腫瘤進(jìn)行了分類,也可以對(duì)其他腫瘤進(jìn)行分類。但是實(shí)驗(yàn)只能診斷腫瘤是良性還是惡性,希望以后的工作能夠?qū)δ[瘤的發(fā)生發(fā)展階段做出更詳細(xì)判斷。