鄧 偉,閆 諾,鄭志強,張英霞
(1.內蒙古醫(yī)科大學附屬醫(yī)院超聲科,內蒙古 呼和浩特 010050;2.內蒙古大學電子信息工程學院,內蒙古 呼和浩特 010050)
甲狀腺癌是內分泌系統(tǒng)最常見的惡性腫瘤,位居中國惡性腫瘤的第7位,也是近年來發(fā)生率上升最快的惡性腫瘤[1]。目前超聲檢查是甲狀腺結節(jié)術前診斷的重要手段[2]。超聲醫(yī)師根據(jù)超聲聲像圖特征對甲狀腺結節(jié)進行良惡性的鑒別診斷,但高診斷準確率對超聲醫(yī)師的檢查技能、臨床經驗及思維分析能力要求較高。面對目前醫(yī)療資源不均衡、診斷不規(guī)范、診斷水平參差不齊等因素,如何利用有限的醫(yī)療資源,快速有效地提高我國甲狀腺結節(jié)術前診斷能力,成為亟待解決的問題。近年來,深度學習作為前沿醫(yī)學技術逐漸應用于醫(yī)學影像領域,并在甲狀腺結節(jié)超聲診斷中不斷創(chuàng)造新高度,其中卷積神經網(wǎng)絡[3]的應用最為廣泛,其優(yōu)勢是能夠自動提取甲狀腺結節(jié)的超聲圖像特征,減少人工干預,提高圖像識別效率。
目前所應用的卷積神經網(wǎng)絡模型大多使用單個圖像作為代表圖像輸入,而甲狀腺結節(jié)是三維立體的,從而使提取到的結節(jié)特征受限,導致卷積神經網(wǎng)絡學習到的敏感特征有限。在臨床實際工作中,超聲醫(yī)師一般通過橫切和縱切兩個切面觀察甲狀腺結節(jié)的特征,結合卷積神經網(wǎng)絡相同構造的卷積神經網(wǎng)絡輸入同樣的數(shù)據(jù)集也會提取到不同特征的情況[4]。為此我們提出了雙路卷積神經網(wǎng)絡模型,模型包含兩條相同的卷積神經網(wǎng)路路徑,其中一條以結節(jié)的橫切圖像輸入(CNN1),另一條以相應結節(jié)的縱切圖像輸入(CNN2),利用雙路卷積神經網(wǎng)絡間可提取到互補的特征,能夠增強卷積神經網(wǎng)絡擬合能力和提取特征表達的性能,分別提取其形狀及紋理相關特征,通過網(wǎng)絡輸出得到甲狀腺結節(jié)識別分類結果。
選取2016 年1 月—2021 年1 月間我院經手術或細針穿刺細胞學檢查(Fine-needle aspiration cytology,F(xiàn)NAC)病理證實的甲狀腺結節(jié)1 105枚,良性結節(jié)263 枚(包括甲狀腺腺瘤、甲狀腺腫及亞急性甲狀腺炎),惡性結節(jié)842 枚(包括乳頭狀癌及濾泡狀甲狀腺癌),每個結節(jié)均提供橫切面與縱切面圖像(圖1,2)。圖像采用不同的超聲儀器進行采集(百勝MYLAB CLASSC、日立AVIUS、東芝APLIO400、Mindray RE8、GE LOGIQ E8、LOGIQ E9、Siemens S2000 HELX ABVS、法國SuperSonic Imagine Aix-Plorer),探頭頻率為8~15 MHz 或5~12 MHz。所有圖像按3∶1∶1 的比例分為訓練集、驗證集及測試集,選取884 枚結節(jié)(惡性結節(jié)680枚,良性結節(jié)204 枚)作為訓練集和驗證集用于深度學習模型的訓練,余221枚結節(jié)(惡性結節(jié)162枚,良性結節(jié)59 枚)用于測試。所有結節(jié)最大直徑為0.4~3.9 cm,排除甲狀腺彌漫性病變、甲狀腺癌彌漫性鈣化型以及甲狀腺部分切除術后的結節(jié)。
對超聲甲狀腺結節(jié)的組織數(shù)據(jù)進行預處理,如調整對比度和邊緣增強、調整圖像尺寸、刪除注釋、對圖像進行過濾、去噪等操作。因視覺診斷依賴于結節(jié)和周圍組織的信息。因此,我們對原始圖像進行裁剪,將結節(jié)作為圖像主體,并保留結節(jié)周圍相關組織的信息,刪除與結節(jié)記錄較遠的部分,防止無用信息對網(wǎng)絡造成干擾。
本文采用深度學習的方式對結節(jié)所在位置進行分割。將結節(jié)與甲狀腺其他組織進行區(qū)分。所采用的模型是改進的Deeplabv3+,該模型是優(yōu)秀的分割網(wǎng)絡,在圖像分割的諸多領域取得優(yōu)秀的成果[5]。在MICCAI 2020 甲狀腺結節(jié)超聲分割挑戰(zhàn)賽中取得第1名,得到MIoU 為82.5%。本文采用在高年資醫(yī)生指導下由專業(yè)醫(yī)生標注的4 000 張甲狀腺結節(jié)圖片作為分割網(wǎng)絡的訓練集,對網(wǎng)絡進行訓練,最終取得Miou 為81.5%的分割結果。并且由于采用帶邊界距離的裁剪方式,最終所有結節(jié)都被包涵在裁剪的范圍內。
1.3.1 模型構建
采用Resnet50 構建深度學習模型,雙路卷積神經網(wǎng)絡由兩條結構相同的卷積神經網(wǎng)絡構成,用于甲狀腺結節(jié)的診斷,其中一條為CNN1,另一條為CNN2。CNN 由標準的卷積層、池化層及全連接層組成,能夠通過多個中間層捕獲輸入和輸出之間的高度非線性映射,可訓練的卷積濾波器、局部鄰域池操作和歸一化操作在輸入上交替執(zhí)行,并生成從低級到高級越來越復雜的特征層次結構[6],將甲狀腺結節(jié)橫切圖和相應縱切圖分別輸入兩條子網(wǎng)絡特征提取路徑進行訓練。把兩條子網(wǎng)絡的特征提取層結合為聯(lián)合層作為輸入,類別層作為輸出,兩層之間進行全連接,使兩條通道的子網(wǎng)絡成為整體,構成雙路卷積神經網(wǎng)絡(圖3)。
1.3.2 模型訓練
由于數(shù)據(jù)集中的圖像對深度學習訓練存在數(shù)據(jù)量不足的問題,主要采用數(shù)據(jù)擴增方法來增加訓練集,讓數(shù)據(jù)盡可能的多樣化,使得訓練的模型具有更強的泛化能力。主要包括使用標準化對圖像進行增強,使用幾何變換(平移、翻轉、旋轉)、隨機調整亮度、添加高斯噪聲和椒鹽噪聲對圖像進行仿射變換。但由于超聲聲像圖的特殊性,一些數(shù)據(jù)增廣的方式不適用。例如對比度的改變會影響到甲狀腺結節(jié)的邊界信息;二維超聲聲像圖分辨率本就不高,增加噪聲同樣不適用;甲狀腺解剖位置相對固定,使用幾何變換會破壞位置信息,所以此方法在超聲圖像上亦不適用。本研究中所使用的數(shù)據(jù)增廣的方法主要為裁剪與縮放。網(wǎng)絡采用跨數(shù)據(jù)集的遷移學習,在ImageNet 的預訓練基礎上訓練網(wǎng)絡,以達到更好的泛化[7-8]。
通過交叉驗證對數(shù)據(jù)的劃分+對評估結果的整合,我們可以有效的降低模型選擇中的方差。將原始的數(shù)據(jù)集進行分組,按照3∶1∶1 的比例分為訓練集、驗證集及測試集。首先用訓練集對分類器進行訓練,再用驗證集來測試訓練集得到的模型,以此作為評價分類器的性能指標。一般情況下,訓練集迭代次數(shù)為60 次或80次,每次迭代后進行驗證,隨著迭代次數(shù)的增加,模型的精確度趨于穩(wěn)定。
雙路卷積神經網(wǎng)絡及CNN1、CNN2 分別對測試集圖像(221 枚結節(jié))進行識別和判斷,CNN1、CNN2分別輸入甲狀腺結節(jié)橫切面和縱切面圖像,同時記錄模型對測試集的識別結果,診斷性能以術后病理結果為金標準,計算Kappa 系數(shù)、靈敏度、特異度、準確度[9]。
使用SPSS 25.0 軟件進行統(tǒng)計描述和統(tǒng)計分析,計數(shù)資料統(tǒng)計描述采用例數(shù)或百分比表示。采用基于Kappa 系數(shù)的一致性檢驗分別評估雙路卷積神經網(wǎng)絡及CNN1、CNN2 檢測結果與術后病理結果的一致性,計算Kappa 系數(shù)、靈敏度、特異度、準確度。Kappa 系數(shù)越大說明兩種檢測結果的一致性越高,Kappa值≥0.75 說明結果的一致性好,Kappa值為0.4~<0.75 說明結果的一致性一般,Kappa值<0.4說明結果缺乏一致性。兩種方法的靈敏度、特異度及準確度比較采用卡方檢驗。檢驗水準(α)為0.05。
測試集221 枚甲狀腺結節(jié),共442 張圖像。其中良性結節(jié)59枚,惡性結節(jié)162 枚。雙路卷積神經網(wǎng)絡模型測試集診斷甲狀腺結節(jié)的靈敏度、特異度及準確度分別為95.68%、84.75%、92.76%。兩路子網(wǎng)絡:橫切圖輸入CNN1 測試集診斷甲狀腺結節(jié)的靈敏度、特異度及準確度分別為82.10%、66.10%、77.83%;縱切圖輸入CNN2 測試集診斷甲狀腺結節(jié)的靈敏度、特異度及準確度分別為84.57%、69.49%、80.54%。
χ2檢驗表明,與雙路卷積神經網(wǎng)絡模型相比,CNN1 和CNN2 的靈敏度、特異度及準確度均有顯著性差異(P<0.05),雙路卷積神經網(wǎng)絡模型的靈敏度、特異度及準確度均高于CNN1 和CNN2;CNN1與CNN2 相比,靈敏度、特異度及準確度均無顯著性差異。Kappa 一致性檢驗結果顯示:雙路卷積神經網(wǎng)絡模型與病理診斷的Kappa值為0.813,P<0.05,表明二者診斷能力的一致性好;CNN1 與病理診斷的Kappa值為0.460,P<0.05,表明二者診斷能力的一致性一般;CNN2 與病理診斷的Kappa值為0.521,P<0.05,表明二者診斷能力一致性一般(表1)。
表1 雙路卷積神經網(wǎng)絡與CNN1、CNN2 診斷能力比較
近年來,深度學習作為機器學習中的一項新技術,在甲狀腺結節(jié)良惡性鑒別方面的應用已經日趨成熟,并不斷創(chuàng)造新高度,其中卷積神經網(wǎng)絡的應用最為廣泛,其優(yōu)勢是能夠很好的捕獲輸入圖像的語義特征,能夠自動提取二維甲狀腺結節(jié)超聲圖像的有效特征,充分利用輸入圖像的2D 結構、邊界、邊緣和不同的紋理特征,同時具有良好的噪聲容忍度。相比于超聲醫(yī)生,卷積神經網(wǎng)絡在克服異構性方面更具有優(yōu)勢,從甲狀腺圖像中學習特征時不受超聲醫(yī)生使用的工程特征的限制,診斷重復性更高[10]。目前,多項研究表明在鑒別甲狀腺結節(jié)的良惡性方面,卷積神經網(wǎng)絡達到了與有經驗的超聲醫(yī)生相當?shù)脑\斷性能[11-12]。
目前所應用的卷積神經網(wǎng)絡模型大多為單路卷積神經網(wǎng)絡,使用單個圖像作為代表圖像輸入,而甲狀腺結節(jié)是三維立體的,從而提取到的結節(jié)特征有限,導致卷積神經網(wǎng)絡學習到的敏感特征有限[13]。在實際臨床工作中,超聲醫(yī)生一般通過橫切和縱切兩個切面觀察甲狀腺結節(jié)的特征,為此我們提出了雙路卷積神經網(wǎng)絡模型,模型包含兩條卷積神經網(wǎng)絡路徑?;诰矸e神經網(wǎng)絡通過逐層學習提取更深層次的特征表達,學習能力相同的卷積神經網(wǎng)絡學習到的連接權重不盡相同,這也為卷積神經網(wǎng)絡提取到的特征帶來差異性。卷積神經網(wǎng)絡中非凸優(yōu)化問題的搜索域中有大量局部極值,致使網(wǎng)絡易陷入局部最優(yōu),并且其隨機初始化連接權值等特點導致了不同網(wǎng)絡狀態(tài)處在不同能量值點,最終致使同樣的神經網(wǎng)絡對相同數(shù)據(jù)提取到不同的特征[4]。本研究選擇兩條結構相同的子網(wǎng)絡,其中一條以結節(jié)的橫切圖像輸入,另一條以相應結節(jié)的縱切圖像輸入,分別提取其形狀及紋理相關特征,通過網(wǎng)絡輸出得到甲狀腺結節(jié)識別分類結果。
鑒于卷積神經網(wǎng)絡間提取的特征具有互補性,有研究提出多支分路網(wǎng)絡結構,多支分路網(wǎng)絡能夠增強卷積神經網(wǎng)絡的擬合能力和提取特征表達的性能,相對于單路卷積神經網(wǎng)絡,可以提高甲狀腺結節(jié)的識別能力。Ma 等[14]提出將兩種不同卷積層和全連接層的預先訓練的卷積神經網(wǎng)絡融合在一起,一條輸入結節(jié)的原始超聲圖像,另一條輸入此圖像的二值圖像,兩種基于卷積神經網(wǎng)絡的模型融合后,對甲狀腺結節(jié)的診斷性能顯著提高。Liu 等[15]提出了一個多分支分類網(wǎng)絡以集成面向多視圖診斷的特征,其中每個網(wǎng)絡分支捕獲并增強一組特定的特征,選擇結節(jié)代表圖像,分別輸入原始結節(jié)圖像、結節(jié)及周圍組織圖像和GVF-snake 法得到的結節(jié)輪廓圖像,通過識別結節(jié)內部、周邊組織及邊緣特征提高對甲狀腺結節(jié)的診斷率。不同于上述分支網(wǎng)絡單切面超聲圖像不同視角特征的輸入,本研究中雙路卷積神經網(wǎng)絡選擇同一結節(jié)的縱切面及橫切面圖像進行輸入,擬合超聲檢查中的多切面掃查,能夠更全面的提取圖像特征。雙路卷積神經網(wǎng)絡模型測試集診斷甲狀腺結節(jié)的靈敏度、特異度及準確度分別為95.68%、84.75%、92.76%,均優(yōu)于單路卷積神經網(wǎng)絡模型(均P<0.05),與病理診斷結果的一致性較高(Kappa值=0.75,P<0.001)。
甲狀腺結節(jié)橫切面及縱切面圖像能夠更加全面的提供結節(jié)體積、邊界、微鈣化分布及背膜是否受侵等特征,而這些特征均是鑒別診斷結節(jié)良惡性的重要指標,其中甲狀腺背膜是否受侵是甲狀腺惡性結節(jié)侵襲性的重要影像學信息之一[16-18]。深度學習模型可自動提取潛在的圖像特征,并在甲狀腺醫(yī)學影像研究領域中不斷創(chuàng)新,未來的發(fā)展趨勢主要是多網(wǎng)絡融合及對甲狀腺惡性結節(jié)侵襲性的預測。此模型理論上能夠更全面的提取圖像特征,更擬合超聲檢查中的多切面掃查,具有極大的預測潛力。本團隊初步嘗試對418 張經過高年資超聲醫(yī)生分類的甲狀腺乳頭狀癌術前超聲圖像進行有無侵襲性分類,實驗結果為帶有分類器的訓練好的雙路卷積神經網(wǎng)絡在訓練集上第26 輪的準確率達到99%,在測試集上準確率為71%,不帶有分類器的訓練好的雙路卷積神經網(wǎng)絡在訓練集上前30 輪的準確率達到73%,在測試集上準確率為63%,初步證明雙路卷積神經網(wǎng)絡對甲狀腺乳頭狀癌侵襲性的預測可能實現(xiàn)。本研究還存在一些不足,用于模型訓練的圖像數(shù)據(jù)相對較少,缺乏有效標準訓練數(shù)據(jù),為進一步提升診斷性能,算法模型仍需改進。