高凡 屠娟,2 章東,2
(1 南京大學(xué)聲學(xué)研究所 南京 210093)
(2 湖南潤(rùn)澤醫(yī)學(xué)影像科技有限公司 岳陽(yáng) 414000)
癌癥是對(duì)人類健康的一大威脅,在中國(guó),癌癥的發(fā)病率和死亡率一直持續(xù)上升[1]。而在所有癌癥當(dāng)中,甲狀腺癌的增長(zhǎng)是最為明顯的,而且由于人口老齡化的原因,未來(lái)所面臨的情況將更為嚴(yán)峻[2]。因此,對(duì)存在癌變可能的甲狀腺結(jié)節(jié)進(jìn)行檢查顯得尤為重要。細(xì)針穿刺活檢(Fine-needle aspiration,FNA)[3]是判斷甲狀腺結(jié)節(jié)良惡性的金標(biāo)準(zhǔn),但是檢查費(fèi)用昂貴,而且會(huì)給患者帶來(lái)巨大的痛苦,在目前的臨床應(yīng)用中,僅當(dāng)結(jié)節(jié)被懷疑為惡性的時(shí)候才會(huì)進(jìn)行穿刺活檢。因此,在做穿刺活檢之前對(duì)甲狀腺結(jié)節(jié)的預(yù)篩查有著重要的臨床價(jià)值。
甲狀腺結(jié)節(jié)的預(yù)篩查方法主要包括X光照片(Radiographs)[4]、計(jì)算機(jī)斷層成像(Computed tomography,CT)[5]、磁共振成像(Magnetic resonance imaging,MRI)[6]和超聲成像。其中X光檢查的輻射會(huì)對(duì)人體造成損害,CT和MRI需要消耗大量的時(shí)間,使用成本較高。相比較而言,超聲由于其非侵入性、成本較低、使用方便、對(duì)人體無(wú)害的特點(diǎn),目前在臨床上已經(jīng)廣泛應(yīng)用于甲狀腺結(jié)節(jié)的篩查[7]。美國(guó)放射學(xué)會(huì)提出甲狀腺成像報(bào)告和數(shù)據(jù)系統(tǒng)(Thyroid imaging reporting and data system,TI-RADS)[8],用于對(duì)甲狀腺結(jié)節(jié)圖像進(jìn)行預(yù)篩查。但是TI-RADS依賴于超聲科醫(yī)生的經(jīng)驗(yàn),具有較強(qiáng)的主觀性,且人工篩查會(huì)增加醫(yī)生的工作量。超聲智能診斷系統(tǒng)在解決以上問(wèn)題方面展現(xiàn)出巨大的應(yīng)用前景。該方法旨在通過(guò)各類機(jī)器學(xué)習(xí)技術(shù),利用計(jì)算機(jī)智能分析對(duì)超聲圖像給出參考性的診斷意見(jiàn),進(jìn)行初步的篩查,幫助醫(yī)生減輕工作量。
目前在智能診斷方面的研究大致分為兩類:一類是將特定參數(shù)人工提取與較為簡(jiǎn)單的機(jī)器學(xué)習(xí)工具相結(jié)合的傳統(tǒng)方法,計(jì)算機(jī)所需要完成的僅僅是對(duì)人工提取完畢的特征進(jìn)行分析和組合;另一類是依靠深度神經(jīng)網(wǎng)絡(luò),利用計(jì)算機(jī)對(duì)大量標(biāo)記后的超聲圖像進(jìn)行自發(fā)學(xué)習(xí)和聚類,而無(wú)需人工提取特定參數(shù)。前者中比較有代表性的包括P值法[9]、基于定量超聲(Quantitative ultrasound,QUS)參數(shù)的研究[10]等。這類方法依賴于人工對(duì)興趣區(qū)(Region of interest,ROI)的準(zhǔn)確選取或精確的圖像分割方法來(lái)將結(jié)節(jié)與正常組織區(qū)分開(kāi),且往往將分割出的結(jié)節(jié)作為一個(gè)整體進(jìn)行研究,在整個(gè)結(jié)節(jié)內(nèi)部取得參數(shù)的平均值,這樣的做法可能會(huì)導(dǎo)致信息的丟失。根據(jù)TIRADS中的臨床診斷標(biāo)準(zhǔn),結(jié)節(jié)良惡性的區(qū)分不僅依賴于與結(jié)節(jié)整體的特征例如平均灰度、散射子平均直徑,也與很多圖像的局部特征有關(guān),諸如是否有毛刺[11]、邊界是否清晰規(guī)整[12]、內(nèi)部是否有鈣化斑點(diǎn)[13]等等,甚至結(jié)節(jié)周邊的組織形態(tài)也與結(jié)節(jié)的良惡性有著密切的關(guān)聯(lián)[14],而這些特點(diǎn)很難用單個(gè)參數(shù)來(lái)進(jìn)行表征。因此,傳統(tǒng)方法具有較大的局限性,限制其準(zhǔn)確度的進(jìn)一步提升以及臨床應(yīng)用的可能性。為了解決以上問(wèn)題,深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到該領(lǐng)域[15?17],通過(guò)搭建復(fù)雜的神經(jīng)網(wǎng)絡(luò),對(duì)大量的超聲圖像進(jìn)行層層卷積,由計(jì)算機(jī)自動(dòng)提取所需特征。該類方法可以充分利用圖像中的細(xì)節(jié)信息,從而達(dá)到更高的準(zhǔn)確率。但是深度學(xué)習(xí)本身依賴于大量的樣本和較大的計(jì)算資源,成本較高,如果樣本數(shù)目不足,則無(wú)法自動(dòng)提取出準(zhǔn)確的分類特征,且對(duì)于計(jì)算機(jī)自動(dòng)判別的中間過(guò)程難以給出詳細(xì)的理論解釋,限制其與現(xiàn)有的醫(yī)學(xué)知識(shí)相結(jié)合。因此,有必要在這兩者之間進(jìn)行折衷,提出一些針對(duì)醫(yī)學(xué)領(lǐng)域特定的方法,既可以盡量減小所需的計(jì)算資源,又可以對(duì)結(jié)節(jié)的良惡性進(jìn)行準(zhǔn)確區(qū)分。此前,研究者們通過(guò)灰度共生矩陣提取超聲射頻(Radio-frequency,RF)信號(hào)的紋理特征[18?19],且取得較好的分類效果,并可通過(guò)改進(jìn)算法進(jìn)一步縮減計(jì)算量。
超聲RF信號(hào)相比于傳統(tǒng)超聲圖像在計(jì)算機(jī)智能診斷方面具有獨(dú)到的優(yōu)勢(shì)。傳統(tǒng)超聲圖像除了對(duì)超聲RF信號(hào)進(jìn)行取包絡(luò)和對(duì)數(shù)壓縮之外,還加入了諸如對(duì)比度增強(qiáng)、平滑濾波等個(gè)性化設(shè)置,這些操作會(huì)使超聲圖像更加美觀,但是其中的一部分信息不可避免地丟失。研究表明,超聲原始RF信號(hào)比傳統(tǒng)的超聲圖像包含更多信息,而一些在人工判斷中用處不大的信息對(duì)于機(jī)器來(lái)說(shuō)卻可以很好地利用[18]。近年來(lái),基于超聲RF信號(hào)的組織定征參數(shù)已經(jīng)被應(yīng)用于甲狀腺診斷之外的醫(yī)學(xué)領(lǐng)域,例如Tsui等使用基于超聲原始RF信號(hào)的香農(nóng)熵[20]、加權(quán)熵[21]和峰度[22]對(duì)脂肪肝病變進(jìn)行分級(jí),而Nakagami成像也被應(yīng)用于白內(nèi)障的篩查[23]。這類組織定征參數(shù)基于超聲RF背向散射信號(hào),描述其局部的概率密度函數(shù)的特征,具有較強(qiáng)的物理理論基礎(chǔ),能夠反映生物組織由于各種原因發(fā)生的異變,且與灰度共生矩陣相比,其計(jì)算量有著明顯的降低。
因此,本文提出一種基于該類參數(shù)的計(jì)算機(jī)智能診斷方法用于甲狀腺結(jié)節(jié)的預(yù)篩查,使用滑動(dòng)窗口圖像分析方法,對(duì)超聲原始RF信號(hào)進(jìn)行重構(gòu),形成熵、加權(quán)熵、Nakagami-m和峰度的圖像。為了進(jìn)一步提取樣本的細(xì)節(jié),在特征提取的步驟中,使用16塊ROI覆蓋結(jié)節(jié),以代替?zhèn)鹘y(tǒng)方法中僅使用一整塊區(qū)域的做法。本文使用基于誤差逆向傳播算法訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[24?25]作為分類器,該種網(wǎng)絡(luò)相比用于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)要簡(jiǎn)單,具優(yōu)勢(shì)在于:無(wú)需對(duì)潛在的關(guān)鍵變量進(jìn)行先驗(yàn)的識(shí)別,無(wú)需對(duì)數(shù)據(jù)進(jìn)行太多的正則化,并且可以識(shí)別輸入變量之間復(fù)雜的非線性關(guān)系,且有多種訓(xùn)練模式可供選擇。此外,本文還研究了覆蓋甲狀腺結(jié)節(jié)的ROI數(shù)量和大小對(duì)于準(zhǔn)確率和訓(xùn)練時(shí)間的影響,比較了基于概率密度函數(shù)的熵、加權(quán)熵、Nakagami-m和峰度與基于灰度共生矩陣參數(shù)的計(jì)算時(shí)間。在本文的研究基礎(chǔ)上,有望可以建立更為精準(zhǔn)、高效的基于超聲RF信號(hào)的甲狀腺結(jié)節(jié)良惡性智能診斷新方法,并推動(dòng)其在臨床領(lǐng)域的實(shí)際應(yīng)用。
本研究的數(shù)據(jù)處理流程如圖1所示。將采集得到的超聲RF信號(hào)經(jīng)過(guò)數(shù)據(jù)篩選、滑動(dòng)窗口重構(gòu)、特征提取等預(yù)處理步驟之后,得到一系列用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的樣本,再利用劃分出的訓(xùn)練集和驗(yàn)證集訓(xùn)練用于良惡性分類的人工神經(jīng)網(wǎng)絡(luò),用預(yù)留的測(cè)試集測(cè)試其分類效果,并統(tǒng)計(jì)結(jié)果。
圖1 數(shù)據(jù)處理的流程圖Fig.1 Flow chart of data processing
從南京軍區(qū)總院采集數(shù)據(jù),用vinno70型飛依諾彩色多普勒超聲系統(tǒng)采集患者的原始RF數(shù)據(jù)并保存其對(duì)應(yīng)的B超圖像。診斷儀設(shè)置在組織諧波模式,即由二次諧波信號(hào)成像,掃描探頭為X6-16L寬頻帶探頭,探頭頻率設(shè)為10 MHz。以50 MHz采樣頻率采集回聲信號(hào),獲得原始RF數(shù)據(jù),每幀數(shù)據(jù)包含312條掃描線,每條掃描線包含2856個(gè)采樣點(diǎn),共采集270例樣本。
為適應(yīng)文中所提出的方法,對(duì)數(shù)據(jù)按照一定標(biāo)準(zhǔn)進(jìn)行篩選,首先,去除由于采集時(shí)抖動(dòng)等客觀原因而導(dǎo)致圖像模糊、無(wú)法人工標(biāo)定結(jié)節(jié)的樣本。此外,由于本文所提出的方法在參數(shù)提取的步驟中需要使用多塊ROI對(duì)結(jié)節(jié)的局部區(qū)域進(jìn)行提取分析,過(guò)大的結(jié)節(jié)需要用較大的ROI來(lái)進(jìn)行覆蓋,而過(guò)大的ROI會(huì)包含更多的生物組織,難以再視為結(jié)節(jié)局部的特征,合理性和一致性均有待商榷,基于這樣的認(rèn)識(shí),本文去除了直徑超過(guò)2.5 cm的結(jié)節(jié)。剩余的樣本數(shù)量為155例,其中良性67例,惡性88例。
使用滑動(dòng)窗口技術(shù)[20]提取超聲原始RF信號(hào)的特征參數(shù)。窗口長(zhǎng)度設(shè)置為單個(gè)RF脈沖的1/2,以50%重疊率移動(dòng)小窗遍歷整個(gè)RF信號(hào)矩陣,在每個(gè)停留處計(jì)算其局部的參數(shù)大小。再以線性插值的方法將重構(gòu)后的矩陣還原到原始信號(hào)相同大小,以方便后續(xù)統(tǒng)一進(jìn)行計(jì)算處理。所提取的組織定征參數(shù)包括以下4類,即香農(nóng)熵、加權(quán)熵、Nakagami-m及峰度。
香農(nóng)熵[20]的計(jì)算公式為
其中,y代表信號(hào)幅度,w(y)是其概率密度函數(shù),在實(shí)際計(jì)算中以離散的統(tǒng)計(jì)直方圖代替。香農(nóng)熵衡量的是信號(hào)的混亂程度,如果信號(hào)幅度處處相等,則熵取得最小值;若信號(hào)幅度每處均不相等,則熵取得最大值。注意到滑動(dòng)窗口所覆蓋的信號(hào)為二維信號(hào),本文將二維信號(hào)重排成為一維信號(hào),再對(duì)重排得到的一維信號(hào)使用公式進(jìn)行計(jì)算。
加權(quán)熵[21]的計(jì)算公式為
加權(quán)熵是針對(duì)香農(nóng)熵的統(tǒng)計(jì)學(xué)修正。注意到香農(nóng)熵的公式的幅值y只在概率密度函數(shù)w(y)中出現(xiàn),因此香農(nóng)熵的大小實(shí)質(zhì)上和幅值大小無(wú)關(guān),只與其概率密度函數(shù)有關(guān)。而加權(quán)熵多了一個(gè)幅度加權(quán)因子,會(huì)放大信號(hào)中幅值較大的部分的影響,在組織定征方面與香農(nóng)熵有一定的差異性。
Nakagami-m[23]參數(shù)的提取通?;贜akagami信道模型,在該模型下,信號(hào)的概率密度函數(shù)可以表示為
其中,Γ和U代表伽馬函數(shù)和階躍函數(shù),Ω表示信號(hào)的平均功率,為信號(hào)包絡(luò)R的均方值。如果用E來(lái)代表統(tǒng)計(jì)平均值,那么m可以用公式(4)來(lái)表示:
其中,R為RF信號(hào)包絡(luò)。Nakagami-m反映的是信號(hào)的分部類型偏離瑞利分布的程度,m<0.5時(shí),屬于Nakagami-gamma分布;0.5
峰度[22]的計(jì)算公式為
其中,μ是RF包絡(luò)信號(hào)R的平均值。峰度是度量信號(hào)分布的尖銳程度的參量。峰度K=3表示包絡(luò)數(shù)據(jù)的概率分布是高斯分布;當(dāng)K>3時(shí),信號(hào)分布比高斯分布尖銳,當(dāng)K<3時(shí),信號(hào)分布比高斯分布平緩。
圖2是同一例原始RF信號(hào)經(jīng)過(guò)滑動(dòng)窗口重構(gòu)之后得到的組織定征參數(shù)圖像,每幅圖像根據(jù)范圍設(shè)置了不同的色軸,在所有圖片中均可以看到異常的結(jié)節(jié)區(qū)域,對(duì)應(yīng)RF灰度圖片的低回聲區(qū),但是其邊緣輪廓和細(xì)節(jié)特征因參與圖像重構(gòu)的參數(shù)不同而有一定的區(qū)別。
圖2 典型的重構(gòu)圖像和結(jié)節(jié)選取Fig.2 Typical reconstructed image and nodule selection
通過(guò)常規(guī)的石蠟切片和蘇木精-伊紅染色,由經(jīng)驗(yàn)豐富的病理學(xué)家判斷組織病理學(xué)結(jié)果。結(jié)節(jié)性甲狀腺腫、甲狀腺腺瘤和甲狀腺炎被歸為良性,甲狀腺乳頭狀癌、濾泡狀甲狀腺癌等歸為惡性。
病理學(xué)檢查的良惡性將作為金標(biāo)準(zhǔn)用于之后的ANN監(jiān)督學(xué)習(xí)和敏感性、特異性、正確率的統(tǒng)計(jì)。
首先,由有經(jīng)驗(yàn)的超聲科醫(yī)師用矩形框?qū)x定甲狀腺結(jié)節(jié)進(jìn)行定位,選取要求為包含甲狀腺結(jié)節(jié)及其完整輪廓,如圖2中紅框所示,同一例樣本在灰度圖像和每個(gè)重構(gòu)圖像中選擇相同區(qū)域。對(duì)每個(gè)框定的結(jié)節(jié),使用16塊等大的ROI進(jìn)行覆蓋,并計(jì)算其中的參數(shù)平均值作為樣本特征(如圖3所示)。為分析甲狀腺結(jié)節(jié)與正常組織之間的差異性,本文取得與之等大的參考區(qū)域(Region of reference,RR),選擇與包含結(jié)節(jié)的方框相同大小的區(qū)域,且不包含明顯異常的組織,盡量與結(jié)節(jié)相同高度,以保證是同一層組織,能有效對(duì)比(如圖2中黃框所示)。
圖3 多ROI覆蓋結(jié)節(jié)和參數(shù)提取Fig.3 Use multiple ROIs to cover nodules and extract features
使用神經(jīng)網(wǎng)絡(luò)模式識(shí)別工具(Neural net pattern recognition tool,NPRTOOL)來(lái)搭建誤差逆向傳播的前饋人工神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行良惡性分類。選擇萊文伯格-馬夸特方法(Levenberg-Marquardt algorithm)作為訓(xùn)練方法,該算法是介于牛頓法與梯度下降法之間的一種非線性優(yōu)化方法,對(duì)于過(guò)參數(shù)化問(wèn)題不敏感,能有效處理冗余參數(shù)問(wèn)題,使代價(jià)函數(shù)陷入局部極小值的機(jī)會(huì)大大減小,因此適用于當(dāng)前的問(wèn)題。使用“交叉熵”作為網(wǎng)絡(luò)的代價(jià)函數(shù),其優(yōu)點(diǎn)在于使用sigmoid函數(shù)在梯度下降時(shí)能避免均方誤差損失函數(shù)學(xué)習(xí)速率降低的問(wèn)題,因?yàn)閷W(xué)習(xí)速率可以被輸出的誤差所控制。
隱藏層中神經(jīng)元的數(shù)量由以下經(jīng)驗(yàn)公式確定:
其中,m是隱藏層中神經(jīng)元的數(shù)量;n是輸入層中輸入的數(shù)量,該問(wèn)題下為96;l是輸出層中輸出的數(shù)量,該問(wèn)題下為1;α是1到10之間的常數(shù)。過(guò)少的神經(jīng)元會(huì)導(dǎo)致網(wǎng)絡(luò)的欠擬合,即無(wú)法充分利用輸入的信息;而過(guò)多的神經(jīng)元會(huì)增加網(wǎng)絡(luò)的復(fù)雜度,也容易在訓(xùn)練中陷入局部極小點(diǎn),使網(wǎng)絡(luò)學(xué)習(xí)速度變慢。經(jīng)過(guò)調(diào)試,神經(jīng)元數(shù)量最終被確定為10。
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如圖4所示,其中Input代表輸入的特征,在本問(wèn)題下包括16處RF信號(hào)包絡(luò)、16個(gè)灰度值、16個(gè)香農(nóng)熵、16個(gè)加權(quán)熵、16個(gè)Nakagami-m和16個(gè)峰度,共96個(gè)特征。隱藏層包含10個(gè)神經(jīng)元,單個(gè)神經(jīng)元的結(jié)構(gòu)如圖4中所示,將輸入x轉(zhuǎn)為w x+b的形式,再由非線性的sigmoid函數(shù)來(lái)控制輸出,w和b為待定系數(shù),會(huì)在網(wǎng)絡(luò)的收斂過(guò)程中不斷調(diào)整直至穩(wěn)定。輸出層與隱藏層類似,但是只包含一個(gè)神經(jīng)元用于控制最終的輸出。Output為0或1,0代表良性,1代表惡性。
圖4 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of artificial neural network structure
表1是各個(gè)組織定征參數(shù)在155例樣本中的分布范圍,以平均值±標(biāo)準(zhǔn)差的形式表示。其中參考區(qū)域選取的是結(jié)節(jié)附近相同大小不包含結(jié)節(jié)的正常組織。分別在結(jié)節(jié)和參考區(qū)之間、良性與惡性結(jié)節(jié)之間使用雙樣本t檢驗(yàn)(p<0.05時(shí)視為有顯著差異)。結(jié)果顯示,結(jié)節(jié)與不包含結(jié)節(jié)的正常區(qū)域之間、良性和惡性兩類結(jié)節(jié)之間,各項(xiàng)參數(shù)均具有統(tǒng)計(jì)學(xué)差異。
該結(jié)果表明,所選取的組織定征參數(shù)能有效反映甲狀腺結(jié)節(jié)引起的組織異變,且惡性結(jié)節(jié)引發(fā)的異變相比于良性結(jié)節(jié)更大:惡性結(jié)節(jié)有著較低的香農(nóng)熵、加權(quán)熵、Nakagami-m和較高的峰度,與之相反,不包含結(jié)節(jié)的正常組織,其香農(nóng)熵、加權(quán)熵和Nakagami-m較高,峰度較低,而良性結(jié)節(jié)的各項(xiàng)參數(shù)正好介于惡性結(jié)節(jié)與正常組織之間。
使用人工神經(jīng)網(wǎng)絡(luò)統(tǒng)合所有的組織定征參數(shù),表2是對(duì)155例樣本進(jìn)行良惡性分類的結(jié)果,其中70%的樣本(109例)被劃分為訓(xùn)練集,各15%的樣本(各23例)被劃分為驗(yàn)證集和測(cè)試集。以敏感度表示惡性結(jié)節(jié)的檢出概率,以特異性表示良性結(jié)節(jié)的檢出概率。在訓(xùn)練集上,網(wǎng)絡(luò)達(dá)到了89.8%的敏感度、94.0%的特異性、91.7%的準(zhǔn)確率;在驗(yàn)證集上,敏感度、特異性、準(zhǔn)確率均為100%;在測(cè)試集上,敏感度為100%,特異性為90.6%,準(zhǔn)確率為95.7%。所有樣本敏感度為93.2%,特異性為94.0%,而準(zhǔn)確率為93.5%。
基于上述結(jié)果,本文認(rèn)為所有的組織定征參數(shù)在訓(xùn)練過(guò)程中都存在自身的貢獻(xiàn),并非單一某個(gè)參數(shù)的作用。為了驗(yàn)證這一推斷,本文將單個(gè)參數(shù)分布作為輸入量,使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類并記錄了結(jié)果,如表3所示,僅將單參數(shù)作為輸入量進(jìn)行訓(xùn)練時(shí),其敏感度、特異性和準(zhǔn)確率和表2中的結(jié)果相比均有不同程度的下降。
表1 灰度和組織定征參數(shù)的分布范圍Table 1 Distribution range of grayscale and tissue characterization parameters
表2 人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果Table 2 Artificial neural network training results
表3 單一參數(shù)的訓(xùn)練結(jié)果Table 3 Single parameter training results
圖5是根據(jù)神經(jīng)網(wǎng)絡(luò)給出的參考評(píng)分與穿刺活檢的良惡性結(jié)果做出的受試者特征(Receiver operating characteristic,ROC)曲線,其曲線下面積(Area under curve,AUC)可以用于評(píng)判二分類問(wèn)題下的分類效果。結(jié)果顯示,將所有的組織定征參數(shù)相結(jié)合(黑色曲線)的時(shí)候,AUC明顯大于僅使用單一參數(shù)時(shí)的AUC。這進(jìn)一步說(shuō)明在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,多個(gè)參數(shù)共同作用的效果要優(yōu)于單個(gè)參數(shù),且并非其中某一個(gè)參數(shù)在起主導(dǎo)作用,各個(gè)組織定征參數(shù)之間確實(shí)存在一定的互補(bǔ)性。
圖5 良惡性分類的ROC曲線Fig.5 ROC curves for benign and malignant classification
對(duì)于計(jì)算機(jī)智能診斷系統(tǒng)來(lái)說(shuō),除準(zhǔn)確率之外,其成本與運(yùn)行時(shí)間也是需要考慮的因素,尤其在實(shí)際應(yīng)用中需要應(yīng)對(duì)大量樣本時(shí)就顯得更為重要。
基于灰度共生矩陣的紋理特征參數(shù)曾被用于超聲圖像的分析,但是其計(jì)算量相比于文中所用的組織定征參數(shù)更大,這是因?yàn)橛?jì)算這類參數(shù)首先需要建立灰度共生矩陣,在此過(guò)程中,需要對(duì)每個(gè)滑動(dòng)窗口中相鄰的像素點(diǎn)進(jìn)行逐點(diǎn)掃描統(tǒng)計(jì),耗時(shí)較長(zhǎng)。相比較而言,本文所用的熵、加權(quán)熵、Nakagami-m和峰度這幾個(gè)組織定征參數(shù)來(lái)作為訓(xùn)練特征,僅需要在每個(gè)滑動(dòng)窗口停留處做概率密度函數(shù)統(tǒng)計(jì),無(wú)需通過(guò)二維紋理掃描的方式建立中間過(guò)度的灰度共生矩陣,其計(jì)算復(fù)雜度和耗時(shí)均較灰度共生矩陣參數(shù)有明顯降低。
為了進(jìn)一步驗(yàn)證這個(gè)猜測(cè),本文同樣對(duì)155例原始RF信號(hào)進(jìn)行灰度共生矩陣參數(shù)的滑動(dòng)窗口重構(gòu),提取灰度共生矩陣參數(shù)包括能量、逆差矩、對(duì)比度、同質(zhì)性。結(jié)果顯示,灰度共生矩陣的滑動(dòng)窗口重構(gòu)平均每例需要耗費(fèi)48 s,總共需要將近2 h來(lái)完成,而使用香農(nóng)熵、加權(quán)熵、Nakagami-m和峰度進(jìn)行滑動(dòng)窗口重構(gòu),平均每例僅需要12 s,155例樣本總共只需0.5 h即可完成。
本文采用了多塊ROI覆蓋甲狀腺結(jié)節(jié)的方法,以代替?zhèn)鹘y(tǒng)方法中在整個(gè)結(jié)節(jié)內(nèi)部取得參數(shù)平均的做法。對(duì)于人工神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),多塊ROI進(jìn)行覆蓋可以增加樣本信息,提供更多的局部特征,從而為其分類提供更充分的依據(jù),但是過(guò)于密集的小塊ROI和過(guò)于細(xì)致的提取同時(shí)也會(huì)帶來(lái)額外的計(jì)算負(fù)擔(dān),因此需要考慮兩者之間的平衡。
為了研究這個(gè)問(wèn)題,本文分別使用1塊、4塊、9塊、16塊、36塊、81塊ROI對(duì)結(jié)節(jié)進(jìn)行覆蓋和特征提取,并分別獨(dú)立地用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和分類。如圖6所示,當(dāng)ROI數(shù)目從1塊增加到16塊時(shí),良惡性分類的準(zhǔn)確率隨著ROI數(shù)目的增加而增加(從75%增加至95%)。但當(dāng)ROI數(shù)目大于16塊后,良惡性分類的準(zhǔn)確率增長(zhǎng)趨于飽和,而訓(xùn)練時(shí)間則始終隨著ROI數(shù)量的增加呈指數(shù)增長(zhǎng)。鑒于在使用16塊ROI來(lái)覆蓋結(jié)節(jié)之后,其分類準(zhǔn)確率已經(jīng)達(dá)到90%以上,足以完成預(yù)篩查的要求,所以本文最終采用16塊ROI來(lái)對(duì)結(jié)節(jié)進(jìn)行覆蓋和特征提取。
圖6 ROI數(shù)目對(duì)準(zhǔn)確率和訓(xùn)練時(shí)間的影響Fig.6 The effect of ROI number on accuracy and training time
本文使用滑動(dòng)窗口對(duì)超聲RF信號(hào)進(jìn)行重構(gòu),形成新的組織定征參數(shù)圖。在此過(guò)程中,窗口的大小是一個(gè)重要的變量。以往的研究表明,無(wú)論過(guò)大或者過(guò)小的窗口都會(huì)導(dǎo)致參數(shù)無(wú)法準(zhǔn)確估計(jì),過(guò)大的窗口還會(huì)導(dǎo)致分辨率下降。因此,本文嘗試了不同窗口大小下的成像效果,發(fā)現(xiàn)在1/2脈沖長(zhǎng)度的時(shí)候,所提取的參數(shù)區(qū)分度是最大的,同時(shí)圖像分辨率也較高,綜合參數(shù)的分布范圍和圖像的視覺(jué)效果,最終選擇1/2脈沖長(zhǎng)度作為窗口大小。
滑動(dòng)窗口重構(gòu)的過(guò)程中,使用公式對(duì)圖像局部的參數(shù)進(jìn)行計(jì)算,由于窗口大小遠(yuǎn)小于整幅超聲二維圖像,且與單個(gè)RF脈沖長(zhǎng)度在同一數(shù)量級(jí),因此可以認(rèn)為局部的信號(hào)類型是比較接近的。而文中所用的組織定征參數(shù)的公式,對(duì)于各個(gè)信號(hào)的出現(xiàn)順序并無(wú)要求,所以本文將位于窗口內(nèi)的由幾小段RF信號(hào)線組成的二維信號(hào)重排為一維,視為一列新的RF信號(hào)進(jìn)行處理,計(jì)算該處的參數(shù)值。
需要指出的是,在基于B超圖像的甲狀腺智能診斷的工作中,結(jié)節(jié)的大小或整體形狀可能會(huì)對(duì)診斷結(jié)果產(chǎn)生影響,因此,研究者們通常會(huì)采用入組數(shù)據(jù)預(yù)篩選的方式來(lái)提高診斷準(zhǔn)確率。例如,Xu等[9]的工作通過(guò)對(duì)比ROI與RR區(qū)域中非線性二次諧波差異度,計(jì)算相對(duì)P值來(lái)對(duì)甲狀腺結(jié)節(jié)的良惡性進(jìn)行分類。當(dāng)結(jié)節(jié)過(guò)大時(shí),很難確保ROI和RR區(qū)域面積相等,只能通過(guò)數(shù)據(jù)預(yù)篩選剔除過(guò)大的結(jié)節(jié),以降低誤判概率。而本文采用滑動(dòng)窗圖像分析方法,通過(guò)對(duì)RF信號(hào)重構(gòu)形成熵、加權(quán)熵、Nakagami-m和峰度等圖像,在此基礎(chǔ)上提取樣本不同分區(qū)的細(xì)節(jié)信息,并利用ANN作為分類工具,將所有小塊ROI的特征信息(如灰度、熵值等)作為綜合判據(jù)納入考量,由此避免單塊ROI數(shù)據(jù)平均造成的細(xì)節(jié)信息損失,以此提高診斷的準(zhǔn)確率。當(dāng)結(jié)節(jié)過(guò)大時(shí),需要設(shè)置較大的ROI來(lái)包含更多的生物組織,但過(guò)大的ROI難以被視為結(jié)節(jié)局部的特征。因此,本文也通過(guò)數(shù)據(jù)預(yù)篩選的方式去除了直徑超過(guò)2.5 cm的結(jié)節(jié)。換言之,本文所提出的方法主要聚焦結(jié)節(jié)的細(xì)節(jié)信息,而忽略了樣本的總體形態(tài)信息(如樣本大小、縱橫比等)對(duì)診斷結(jié)果的影響,且對(duì)面積過(guò)大的結(jié)節(jié)無(wú)法適用。
本文提出了一種基于超聲原始RF信號(hào)的組織定征參數(shù)和人工神經(jīng)網(wǎng)絡(luò)結(jié)合的甲狀腺結(jié)節(jié)智能診斷方法。通過(guò)滑動(dòng)窗口成像得到基于超聲原始RF信號(hào)的組織定征參數(shù)圖,提取結(jié)節(jié)內(nèi)參數(shù)的平均值,并在良性和惡性樣本、結(jié)節(jié)和正常組織之間使用雙樣本t檢驗(yàn),結(jié)果顯示,結(jié)節(jié)與正常組織的參數(shù)有明顯不同,且惡性結(jié)節(jié)偏離正常組織的程度更高。采用多ROI覆蓋結(jié)節(jié)進(jìn)行滑動(dòng)窗成像,并結(jié)合人工神經(jīng)網(wǎng)絡(luò)對(duì)155例樣本進(jìn)行多參數(shù)提取和良惡性分類,可以達(dá)到93.2%的敏感度、94.0%的特異性、93.5%的準(zhǔn)確率。此外,文中所用的組織定征參數(shù)計(jì)算復(fù)雜度要低于灰度共生矩陣參數(shù),耗時(shí)僅為后者的1/4。在比對(duì)了不同數(shù)量和密集程度的ROI覆蓋結(jié)節(jié)的效果之后,本文發(fā)現(xiàn)16塊ROI是較為優(yōu)化的選擇,在達(dá)到較為滿意的準(zhǔn)確率的同時(shí),盡可能控制計(jì)算資源和時(shí)間耗費(fèi)。本文所提出的方法在一定程度上克服了傳統(tǒng)方法無(wú)法充分利用圖像局部細(xì)節(jié)信息的不足,另一方面,相比于深度神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),資源和樣本量的需求較少,屬于兩者之間的折衷,有望在此基礎(chǔ)上建立一套可用于甲狀腺結(jié)節(jié)的預(yù)篩查的臨床智能診斷系統(tǒng)。