李盈盈,孫文軒,廖獻東,張明博,謝 芳,陳東浩,張 艷,羅渝昆
1中國人民解放軍總醫(yī)院第一醫(yī)學中心超聲科,北京 100853 2北京郵電大學人工智能學院,北京 100876
甲狀腺乳頭狀癌(papillary thyroid carcinoma,PTC)檢出率逐年上升,雖然PTC侵襲性低,但仍有約35%的患者在經(jīng)過初次手術(shù)治療后發(fā)生腫瘤復發(fā),其中頸部淋巴結(jié)是最高發(fā)部位[1- 2],中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移率高達24.1%~64.1%[3- 5]。超聲作為目前甲狀腺疾病的首選檢查方法,雖然對側(cè)頸區(qū)淋巴結(jié)診斷準確性較高,但其對中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移(central compartment lymph node metastasis,CLNM)的診斷靈敏度僅為10.9%~36.2%[6],為術(shù)前精確分期診斷帶來難題。PTC治療方式目前在國際上存在爭議[7- 10]。雖然2015 美國甲狀腺學會指南推薦對低風險甲狀腺微小乳頭狀癌患者進行積極監(jiān)測,也有學者采用超聲引導消融治療低風險甲狀腺微小乳頭狀癌取得良好療效[11- 13],但是由于超聲無法對CLNM患者做出明確的術(shù)前診斷,仍有外科學者堅持手術(shù)切除和預防性中央?yún)^(qū)淋巴結(jié)清掃(central compartment lymph node dissection,CLND),認為可降低腫瘤復發(fā)率,改善部分患者的TNM分期[14]。預防性CLND增加包括喉返神經(jīng)損傷、旁腺損傷等手術(shù)并發(fā)癥的風險[15]。因此,如何在術(shù)前篩選出可能存在CLNM的患者并選擇性進行CLND尤為重要。本研究旨在建立一個基于甲狀腺超聲圖像預測甲狀腺乳頭狀癌中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的人工智能診斷模型,為臨床選擇治療方案提供依據(jù)。
資料來源本研究經(jīng)倫理委員會批準,所有患者均豁免知情同意。連續(xù)收集2018年1至12月在中國人民解放軍總醫(yī)院第一醫(yī)學中心超聲科行超聲檢查的患者486例。納入標準:(1)于中國人民解放軍總醫(yī)院第一醫(yī)學中心行甲狀腺次全切除或全切術(shù),術(shù)中均行頸部中央?yún)^(qū)(Ⅵ區(qū)及Ⅷ區(qū))淋巴結(jié)清掃;(2)術(shù)后病理證實為單灶PTC;(3)術(shù)前2個月內(nèi)于中國人民解放軍總醫(yī)院第一醫(yī)學中心超聲科接受甲狀腺超聲檢查且圖像信息完整。排除標準:(1)發(fā)生淋巴結(jié)跳躍轉(zhuǎn)移,即側(cè)頸區(qū)淋巴結(jié)轉(zhuǎn)移而中央?yún)^(qū)淋巴結(jié)未轉(zhuǎn)移;(2)術(shù)后病理為多灶PTC;(3)病例資料不完整;(4)非甲狀腺乳頭狀癌。排除頸部淋巴結(jié)跳躍轉(zhuǎn)移患者4例,多灶PTC患者125例,病例資料不完全患者40例及非甲狀腺乳頭狀癌患者8例,最終共有309例患者入選,病例按照6∶1隨機分為訓練集(n=265)和測試集(n=44)。訓練集用于訓練模型,并通過觀察在訓練集上的損失函數(shù)值變化觀測模型學習進程、衡量模型學習能力;測試集用于測試模型效果,通過模型在測試集上的表現(xiàn)衡量模型泛化能力。
數(shù)據(jù)錄入研究初期對3名醫(yī)生進行統(tǒng)一培訓、訓練,并對3人進行圖像標注測試,結(jié)果顯示一致性較差。由1名超聲醫(yī)生(4年超聲工作經(jīng)驗)依據(jù)美國放射學會甲狀腺影像報告和數(shù)據(jù)系統(tǒng)指南對309例甲狀腺結(jié)節(jié)超聲圖像進行超聲特征標記及輪廓勾畫,并錄入患者臨床信息。臨床信息包括患者年齡、性別;甲狀腺結(jié)節(jié)超聲圖像信息包括結(jié)節(jié)位置、回聲、成分、邊界、形狀以及鈣化的情況。
超聲圖像預處理根據(jù)預先勾畫病灶輪廓確定其最小外接矩形,劃定感興趣區(qū)域,并提取超聲圖像。使用限制對比度的自適應直方圖均衡方法對超聲圖像進行降噪以增強圖像對比度。再根據(jù)比例尺信息將超聲圖像標準化放入256×256像素的黑色背景中。預處理后的每個病灶的橫切、縱切兩張超聲圖像,分別作為圖像的一個通道;將預先標注的患者臨床信息和病灶超聲圖像特征信息等特征歸一化后“涂抹”在黑色背景上形成的特征圖作為另一通道;形成橫切-縱切-預標注特征三通道圖像,輸入模型。
深度神經(jīng)網(wǎng)絡(luò)模型深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNNs)模型能夠較好地分析不同層次的特征,通過對樣本數(shù)據(jù)的內(nèi)在規(guī)律與特征的不斷學習,可以在測試數(shù)據(jù)上進行預測。殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet學習輸入輸出之間的殘差表示收斂速度更快且可以使用更多的層增大分類精確度,較傳統(tǒng)直接輸入輸出之間的映射關(guān)系更簡潔有效[16]。選擇Radosavovic等[17]在最新研究中設(shè)計的一個神經(jīng)網(wǎng)絡(luò)設(shè)計空間中的核心模型RegNet進行改良優(yōu)化。將三層卷積+批歸一化+激活層稱為一個殘差塊,假設(shè)期望的潛在映射為H(x),初始塊一層卷積+批歸一化+激活層擬合的結(jié)果為x,本模型使用22個殘差塊去擬合其殘差F(x)=H(x)-x,并通過后續(xù)訓練效果調(diào)整模型中的激活函數(shù)、卷積層輸入輸出通道數(shù)等參數(shù)以確定最終模型。
訓練及診斷效能評估設(shè)定橫切-縱切-預標注特征三通道圖像信息作為模型輸入,模型通過對圖像中關(guān)于病灶區(qū)域、預標注特征的提取和識別,給出中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移/無轉(zhuǎn)移的預測結(jié)果作為模型輸出,對模型進行訓練。首先使用初始模型進行訓練,將得到的模型效果初始值作為基準,根據(jù)模型在驗證集上的表現(xiàn)調(diào)整參數(shù),包括學習率、優(yōu)化器、擬合殘差塊數(shù)等,最后根據(jù)模型在測試集上的表現(xiàn)(包括預測的準確性、敏感性、特異性和受試者工作特征曲線下面積(area under receiver operating characteristic curve,AUC)評價該結(jié)構(gòu)模型的性能。對于模型內(nèi)部,每一次訓練均通過每一層的卷積操作由淺至深提取圖像的各通道、各像素點間的特征,將大量特征映射至最終的輸出,之后通過梯度下降的方法使用指定的優(yōu)化器不斷更新此映射關(guān)系,即各個特征的權(quán)重系數(shù),最終確定最優(yōu)的映射關(guān)系即完成訓練。此時若有新的圖像輸入模型,則使用同樣層級結(jié)構(gòu)的卷積操作提取特征以及同樣的映射關(guān)系得到模型輸出即預測結(jié)果。本研究模型在訓練到10次時,模型的損失函數(shù)值已經(jīng)下降到相對穩(wěn)定水平狀態(tài),之后隨著訓練次數(shù)增加該值持續(xù)下降但不明顯(圖1)。當訓練次數(shù)達到51次時,測試集上的準確率達到最大值,之后隨著訓練次數(shù)增加,準確率持續(xù)下降(圖2),即過擬合程度越來越大、泛化能力越來越弱。因此。選擇訓練51次時得到的模型作為本研究最終模型。
圖1 模型訓練過程損失函數(shù)值變化圖
圖2 模型訓練過程測試集表現(xiàn)圖
統(tǒng)計學處理采用SPSS 25.0統(tǒng)計軟件,對計量資料進行正態(tài)性檢驗,符合正態(tài)分布的計量資料以均數(shù)±標準差表示,組間比較采用獨立樣本t檢驗;不符合正態(tài)分布的計量資料以M(Q1,Q3)表示,組間比較采用非參數(shù)檢驗。分類變量用率或比描述,兩組間率的比較采用卡方檢驗。P<0.05為差異有統(tǒng)計學意義。
甲狀腺乳頭狀癌患者的臨床病理特點共納入309例患者[男∶女=93∶216;年齡18~77歲,平均(44.7±11.7)歲],CLNM 161例(52.1%),無CLNM 148例(47.9%),PTC平均直徑(1.04±0.67)cm(0.22~4.52 cm)。訓練集265例[男∶女=77∶188;年齡18~77歲,平均(45.6±11.7)歲],CLNM 140例(52.8%),無CLNM 125例(47.2%),PTC平均直徑(0.99±0.64)cm(0.22~4.52 cm)。測試集44例 [男∶女=16∶28;年齡24~70歲,平均(44.1±11.5)歲],CLNM 21例(47.7%),無CLNM 23例(52.3%),PTC平均直徑(1.06±0.75)cm(0.40~3.86 cm)。訓練集和測試集年齡、性別、PTC平均直徑、有無CLNM差異均無統(tǒng)計學意義(P均>0.05)。
基于深度學習輔助超聲預測甲狀腺乳頭狀癌中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的診斷效能測試集(n=44)中,CLNM患者21例,基于深度學習預測模型診斷轉(zhuǎn)移16例、診斷未轉(zhuǎn)移5例;無CLNM患者23例,基于深度學習預測模型診斷未轉(zhuǎn)移19例、診斷轉(zhuǎn)移4例。該模型在測試集中預測PTC中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的準確性、敏感性、特異性、陽性預測值和陰性預測值分別為0.80、0.76、0.83、80.00%、79.17%,AUC為0.794(95%CI=0.654~0.934)。
本研究建立了一個基于深度學習方法預測甲狀腺乳頭狀癌中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的人工智能診斷模型,其呈現(xiàn)出較好的診斷效能,準確性可達0.80,敏感性0.76,特異性0.83,AUC可達0.794(95%CI=0.654~0.934)。本研究為首個應用深度學習方法建立預測PTC患者中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移結(jié)構(gòu)模型,預測結(jié)果可為臨床手術(shù)決策提供依據(jù),選擇性行CLND。
Tian等[18]2020年回顧性研究報道顯示,根據(jù)PTC患者臨床信息及術(shù)前超聲檢查建立列線圖分組預測CLNM,男性組準確性、敏感性、特異性和AUC分別為0.76、0.72、0.82、0.813,年輕女性組準確性、敏感性、特異性和AUC分別為0.72、0.78、0.63、0.814,老年女性AUC為0.742。該研究納入多灶及單灶PTC,并根據(jù)年齡、性別危險因素將數(shù)據(jù)分為3組分別進行驗證。相比而言,本研究模型可取得更好準確性(80%),但AUC略低于男性組和年輕女性組。Lee等[19]在2018年建立一基于深度學習方法的計算機輔助診斷系統(tǒng)(computer-aided diagnosis,CAD)用于定位和診斷甲狀腺癌患者淋巴結(jié)良惡性,其診斷惡性淋巴結(jié)的準確性、敏感性和特異性分別為83.0%、79.5%、87.5%。該CAD是將淋巴結(jié)超聲圖像輸入模型進行訓練,輸出為淋巴結(jié)的良性/惡性。而本研究模型是將PTC的超聲圖像數(shù)據(jù)輸入模型,輸出為淋巴結(jié)是否轉(zhuǎn)移,減少了淋巴結(jié)顯示和選擇過程的干擾因素。此外,Lee等[19]研究中僅對側(cè)頸區(qū)淋巴結(jié)超聲圖像進行訓練,將中央?yún)^(qū)淋巴結(jié)排除,這是其診斷效能較高的重要原因。
根據(jù)目前指南,超聲檢查是PTC患者術(shù)前評估淋巴結(jié)轉(zhuǎn)移的首選影像學方法[9,20- 22],但其并不具備較好的診斷效能。超聲聯(lián)合CT檢查可一定程度提高PTC患者的中央?yún)^(qū)淋巴結(jié)檢出率,但是CT檢查存在輻射、花費較多等局限性。有研究表明,CAD在診斷評估方面總體來說優(yōu)于人類[23]。醫(yī)生在對超聲圖像進行讀取和診斷的過程中受到主觀因素的影響和臨床經(jīng)驗的限制[24- 25]。而CAD可彌補這一不足,對輸入的同一張超聲圖像其預測結(jié)果可保持一致,這樣可消除觀察者間差異性。而且,隨著訓練次數(shù)的增加,CAD預測診斷效能會進一步提升。
卷積神經(jīng)網(wǎng)絡(luò)一直以來在圖像特征提取任務上表現(xiàn)出色。由于無法解釋輸入數(shù)據(jù)特征和輸出結(jié)果之間的聯(lián)系性,深度學習方法常被稱為“黑箱學習”[26]。但是,本研究將超聲圖像和臨床信息整合建立三通道進行輸入,訓練模型對病例的臨床特征和影像學特征共同學習,增加了輸出結(jié)果的可解釋性。如何在小數(shù)據(jù)集基礎(chǔ)上訓練模型得出可靠的結(jié)果是目前技術(shù)存在的關(guān)鍵問題。許多研究人員已將小數(shù)據(jù)集DNNs應用于各種領(lǐng)域。傳統(tǒng)機器學習方法(如支持向量機、隨機森林方法等)存在的小數(shù)據(jù)回歸和分類問題,如今已被具有更高準確性和更優(yōu)泛化性能的DNNs解決。例如在材料領(lǐng)域,小數(shù)據(jù)集的DNNs被用來預測材料缺陷[27]。盡管擁有大數(shù)據(jù)集的DNNs是最佳解決方案,但在缺少大數(shù)據(jù)集的情況下,擁有小數(shù)據(jù)集的DNNs同樣是一個合理的選擇。Bornschein等[28]在國際機器學習會議的論著中指出,深度學習模型可以通過調(diào)整參數(shù)以及提前終止訓練的方法,在數(shù)據(jù)量不足的情況下找到不欠擬合也不過擬合的平衡點。
本研究為單中心回顧性研究,數(shù)據(jù)來源存在一定的局限性。以后,筆者將納入多中心數(shù)據(jù)對該結(jié)構(gòu)模型進行訓練,并對外部集進行測試,以達到更好的效果。納入病例手術(shù)方式為甲狀腺全切或次全切除并行頸部中央?yún)^(qū)淋巴結(jié)清掃術(shù),其中行甲狀腺次全切除術(shù)者常規(guī)行同側(cè)頸部中央?yún)^(qū)淋巴結(jié)清掃術(shù),并結(jié)合其術(shù)前超聲檢查及術(shù)中術(shù)者經(jīng)驗性觸摸決定是否行對側(cè)淋巴結(jié)清掃術(shù),這導致病理結(jié)果可能存在假陰性病例,導致結(jié)果的偏倚。在進一步研究過程中,將在目前臨床可行方案的基礎(chǔ)上盡量避免因手術(shù)方式導致的漏診,盡量保證研究結(jié)果的可靠性。綜上,建立一個基于深度學習方法輔助超聲預測PTC患者中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的結(jié)構(gòu)模型,可以為臨床手術(shù)方案的選擇提供依據(jù)。