林春漪,鄒波,周建華
(1.華南理工大學 電子與信息學院,廣州 510640;2.中山大學 附屬腫瘤醫(yī)院,廣州 510080)
乳腺癌是中國女性最常見的癌癥,中國新增和死亡病例分別占全球的12.2%和9.6%[1]。乳腺癌若能得到及時診斷和治療,其生存率將大大提高。然而良性和惡性病灶在B超圖上不易區(qū)分,目前穿刺活檢是良惡性診斷的“金標準”,但有創(chuàng)且不可重復,同時缺乏經驗的醫(yī)生需要有效的輔助診斷信息,因此,研究高精度且無創(chuàng)的乳腺病灶良惡性分類方法具有重要的臨床意義。
超聲組織定征以其無創(chuàng)、無損、簡易、可重復的優(yōu)點在乳腺病灶良惡性分類及乳腺癌分級等問題上受到了廣泛關注。用于乳腺病灶研究的超聲組織定征方法主要有三種。一種是基于B超圖的方法,主要提取病灶的形態(tài)和紋理特征[2-3]。此外有回波包絡線法,Shankar[4]假定回波包絡服從Nakagami分布,利用分布參數(shù)α和m對乳腺病灶進行良惡性分類,AUC分別為0.828和0.79。此方法僅利用了回波幅度信息,而重要的頻譜、相位、軟組織與超聲波相互作用等信息丟失[5]。因此,Lizzi[6]提出基于單幀背散射RF信號方法,該方法利用組織對超聲波的衰減特性。Tadayyon[7]提取RF信號的頻譜及頻譜紋理特征來對乳腺癌進行Ⅰ級與Ⅱ、Ⅲ級分類,取得86%的分類準確率。此方法雖利用了頻譜和相位等信息,但提取的特征由于受超聲傳播路徑影響而個體差異大,對噪聲敏感,需深度衰減補償,從而影響定征精度的可靠性。為此,Moradi[8-9]近年來提出基于超聲RF時間序列分析的方法,已成功應用于前列腺癌及不同動物組織類型的識別,這些研究結果表明RF時間序列蘊含組織定征信息,Daoud[10]認為原因在于超聲輻射引起組織溫度升高,使得聲速改變,導致RF信號相位偏移,且溫度變化的大小取決于組織生物力學和熱物理性質。Uniyal[11-12]提取RF時間序列頻譜和形態(tài)學特征,Uniyal[12]在SVM和隨機森林下對22個乳腺病灶樣本進行良惡性分類,得到SVM和隨機森林的AUC分別為0.86和0.81,并與前兩種定征方法進行了對比,結果表明,基于超聲RF時間序列的方法不僅可以有效地分辨乳腺病灶的良惡性,而且分類精度三者中最高。
雖然Uniyal證明了基于超聲RF時間序列分析方法對乳腺病灶良惡性分類是有效的,然而Uniyal[11-12]中樣本數(shù)量過少,對RF時間序列的分析僅局限于頻域,精度有待提高。時間序列的分析方法不僅有基于頻域的方法,還有基于時域的方法,目前已有研究將時域特征(峰度、峰值、模糊熵、過零點、過零點標準差)應用于腦電識別,取得了很好的效果[13-15]。本研究在乳腺病灶樣本數(shù)量增加的同時提取RF時間序列的時域特征,結合頻域特征和分形維數(shù)(fractal dimension,F(xiàn)D),通過以多維度特征,進一步改善分類精度,并開發(fā)了具備用戶交互功能的乳腺病灶良惡性分類系統(tǒng)(benign and malignant breast lesions classification system,BMBLCS)。
BMBLCS的系統(tǒng)流程見圖1,BMBLCS基于Microsoft Visual Studio2013開發(fā),可實現(xiàn)RF信號的解析、顯示RF時間序列與乳腺B超圖、計算特征值、基于SVM和隨機森林的乳腺病灶良惡性分類與結果顯示、分類器參數(shù)設置等功能,利用ROC和分類準確率來評價分類效果。
圖1 乳腺病灶良惡性分類系統(tǒng)流程圖
BMBLCS界面之一見圖2。左為乳腺B超圖,紅色矩形為感興趣區(qū)(region of interest,ROI),綠色輪廓為病灶邊界,所有乳腺病灶樣本的邊界和位置均在醫(yī)生的指導下確定,以確保ROI選取在病灶區(qū)域內,右為RF時間序列的FD、頻域和時域特征值。
本研究采用加拿大Ultrasonix公司的Sonix Touch 超聲診斷儀,14L5 常規(guī)超聲線陣探頭,超聲儀器參數(shù)設置如下:動態(tài)范圍76 dB,機械指數(shù)0.25,幀頻33 Hz,深度3 cm,焦點位于乳腺病灶中央,中心頻率10 MHz。
本研究所有女性乳腺病灶樣本來自中山大學腫瘤防治中心,樣本均經穿刺活檢確認良惡性,樣本共275例(良性125例,惡性150例),病灶直徑5~72 mm。超聲回波RF信號共采集10 s,僅采用前256幀,即RF時間序列的長度為256。
讀取一幀RF信號,解調并顯示B超圖,然后在B超圖上選取ROI(大小為20×70),對ROI內每一點取其256幀RF信號,形成一個RF時間序列,從而得到1 400個長度為256的RF時間序列,見圖3。
圖2乳腺病灶良惡性分類系統(tǒng)界面
Fig2Interfaceofbenignandmalignantbreastlesionsclassificationsystem
圖3 超聲RF時間序列形成示意圖
本研究提取了RF時間序列的FD、頻域特征和時域特征。
2.4.1FD FD是定量表征信號的復雜度和不規(guī)則度等特征的重要參數(shù)。本研究采用Higuchi法計算FD,步驟如下:
(1)設長度為N的RF時間序列為{x(n):1≤n≤N}。
(1)
(2)
(3)
(6)對ROI內1400個RF時間序列的FD求取均值即為特征FD。
2.4.2頻域特征 首先將RF時間序列做快速傅里葉變換(FFT),得頻譜并歸一化,將頻段四等分,計算每個頻段頻譜幅值之和即得S1、S2、S3和S4;然后對歸一化頻譜進行直線擬合即得slope和Intercept,具體見圖4。
頻域特征的具體計算步驟如下:
(1)設ROI內每個長度為N的RF時間序列為{x(l):1≤l≤N}。
(2)對{x(l)}做傅里葉變換求頻譜X(w)
(3)對ROI內相同頻率下的頻譜X(w)求均值Xave(w)
圖4 頻域特征示意圖
(4)
(5)
2.4.3時域特征 (1)峰度
峰度(Kurtosis)描述時間序列對于極端值的敏感性,時間序列變化越大,峰度的值越大。峰度計算公式如下:
(6)
(2)峰值
峰值(Peak)描述時間序列的最大波動范圍。峰值定義為RF時間序列前L個較大幅度絕對值的均值,峰值計算公式如下:
(7)
本研究L取10,其中{x(i):1≤i≤L}表示RF時間序列前L個最大值。
(3)模糊熵
模糊熵(FuzzyEnropy)作為時間序列規(guī)律性的度量[13],對噪聲具有良好的魯棒性,已經成功用于基于腦電信號對人的左右手動作的識別[14]。模糊熵計算步驟如下:
(a)按照RF時間序列{x(i):1≤i≤N}原來順序重新生成一組m維的向量:
(8)
(9)
式中i,j=1,2,L,N-m,j≠1
(10)
(d)定義函數(shù)φm(n,r):
(11)
(e)重復a~d生成一組m+1維的新向量并計算φm+1(n,r)
(f)計算模糊熵(m,n,r,N):
FuzzyEnropy(m,n,r,N)=lnφm(n,r)-lnφm+1(n,r)
(12)
本研究中,m=n=2,r=0.3SD,SD為RF時間序列的標準差,計算公式如下:
(13)
(4)過零點和過零點標準差
過零點分析方法對干擾不敏感,可以量化時間序列波形結構上的細節(jié),相比傳統(tǒng)的頻域分析會有更準確的結果[15],過零點(mZCl)反映時間序列的復雜性,過零點標準差(nsZCl)反映時間序列震動的復雜性。mZCl和nsZCl計算步驟如下:
(b)查找{y(l)}中過零點數(shù),計算兩個相鄰過零點之間點數(shù),記為d1,d2,L,dz;
(14)
(15)
依次對ROI內的每個RF時間序列計算Kurtosis、Peak、FuzzyEnropy、mZCI和nsZCI,然后計算ROI內1400個RF時間序列特征值的均值即得病灶區(qū)時域特征。
本研究分類器參數(shù)設置:訓練和測試樣本為7:3,SVM采用基于C語言的LibSVM-3.14庫,核函數(shù)選擇高斯徑向基核函數(shù),通過十折交叉驗證來尋找最好的懲罰系數(shù)C,隨機森林采用OpenCV機器學習庫,決策樹數(shù)量為300,深度為6。
SVM和隨機森林的ROC見圖5,分類結果見表1,采用與Uniyal[12]相同的評價指標將本研究的分類結果與Uniyal[12]進行比較,具體見表1。
圖5 SVM和隨機森林ROC
Table 1 Result of this paper and Uniyal[12]
由圖可知,本研究SVM和隨機森林的AUC比Uniyal[12]分別提高了0.054(約6.3%)和0.127(約15.7%),表明本研究從時域、頻域、形態(tài)學三個維度提取的特征能有效地提高乳腺病灶良惡性的分類精度,達到了提高分類精度的目的。
本研究隨機森林AUC大于SVM的AUC,而Uniyal[12]中隨機森林AUC小于SVM的AUC,造成這種差異的原因在于Uniyal[12]樣本數(shù)量很少,良惡性樣本數(shù)量差異大,由于良惡性樣本數(shù)量不平衡的問題導致其隨機森林分類效果下降,隨機森林適合于高維特征的分類,SVM適合于小樣本的分類,因此Uniyal[12]中SVM的分類效果比隨機森林好。本研究樣本數(shù)量多達275例,良惡性樣本數(shù)量較為均衡,并從時域、頻域、形態(tài)學三個維度進行特征提取,提高了樣本的特征維數(shù),從而使本研究隨機森林的分類效果好于SVM。
為了減小患者呼吸和醫(yī)生手持探頭可能的抖動對RF信號采集的影響,在檢查過程中囑咐患者盡量屏氣以減少檢查切面移動,選擇操作熟練的醫(yī)生,使探頭固定于同一切面,盡量減小外部因素對研究結果的影響。本研究中的Peak特征,在不同的超聲采集系統(tǒng)中會有所差異,在后續(xù)的研究中會考慮消除這種系統(tǒng)的依賴性。
本研究采用基于超聲RF時間序列分析方法,通過在時域、頻域和形態(tài)學三個維度對RF時間序列進行特征提取,以SVM和隨機森林為分類器對乳腺病灶進行良惡性分類,所取得的高分類精度表明,基于本研究方法研發(fā)的BMBLCS可以為缺乏診斷經驗的醫(yī)生提供有效的輔助診斷信息,提取的特征分布信息可以為臨床的實驗研究提供新的分析手段,BMBLCS已試用于中山大學腫瘤防治中心的臨床乳腺病灶的實驗研究。