王嘉旭 薛鵬 江宇 綜述 喬友林 審校
宮頸癌在全球女性惡性腫瘤中占第四位,2020年全球有超60萬新發(fā)和34萬死亡病例[1]。2015年中國約有11萬宮頸癌新發(fā)和3萬死亡病例[2],發(fā)病率和死亡率呈逐年升高趨勢,宮頸癌防治已刻不容緩。2018年,世界衛(wèi)生組織(WHO)發(fā)起并制定了2030年全球消除宮頸癌防控策略[3],其目的是進一步擴大對宮頸癌的預防、篩查和治療。盡管篩查是有效的防治策略[4],但國內(nèi)基層的從事宮頸細胞學專業(yè)人員和陰道鏡醫(yī)生資源能力有限,一定程度上制約了宮頸癌篩查[5]。因此,如何提升細胞學和陰道鏡醫(yī)生的診斷水平成為國內(nèi)宮頸癌篩查中的難點。
近年來,隨著人工智能(artificial intelligence,AI)的迅速發(fā)展,其在醫(yī)學圖像領(lǐng)域已經(jīng)獲得廣泛的應(yīng)用[6-8]。本研究將對AI的發(fā)展情況,AI輔助宮頸細胞學檢測和陰道鏡診斷系統(tǒng)的最新研究進行綜述。
近年來,AI得到迅速的發(fā)展,機器學習被廣泛地應(yīng)用于圖像識別等領(lǐng)域。作為機器學習的重要分支(圖1),深度學習在圖像識別領(lǐng)域中表現(xiàn)出優(yōu)異的性能[9]。深度學習是一種通過組合低層次特征形成高層次特征,進而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在特征的多層次神經(jīng)網(wǎng)絡(luò)模型[10](圖2)。目前,已有多個深度學習算法模型用于細胞學和陰道鏡圖像分類中[11]。
圖1 AI、機器學習和深度學習關(guān)系
AI輔助診斷系統(tǒng)的建立和驗證大致包括以下步驟:1)對于患者的宮頸細胞學組織,采用ThinPrep 或其他液基細胞學制片方法,在經(jīng)過自動移液、梯度離心、細胞沉降、固定以及染色沖洗等規(guī)范化處理后制成液基細胞涂片,使用顯微鏡拍攝生成數(shù)字化液基細胞學圖像[12-13];2)對于陰道鏡圖像,亦包括生理鹽水圖像、3%~5%醋酸染色圖像和碘染色圖像;3)將患者的宮頸細胞學或陰道鏡圖像分為訓練集和驗證集,根據(jù)病理診斷的金標準結(jié)果對圖像進行標注;4)AI 通過訓練集數(shù)據(jù)建立圖像和標注的關(guān)系,進而實現(xiàn)對驗證集圖像的自動標注[14](圖3),再根據(jù)模型預測結(jié)果計算相關(guān)統(tǒng)計指標[15](圖4)。
圖3 圖像標注模型的一般框架
Bao等[13]研究對2 145例患者的細胞學圖像進行AI 模型的訓練和驗證,測得模型檢出宮頸上皮內(nèi)瘤變(cervical intraepithelial neoplasia,CIN)2 級及以上(CIN2+)病變的受試者工作特征曲線下面積(area un?der the curve,AUC)為0.762;之后又對703 103例患者的細胞學圖像進行AI 模型的訓練和驗證,測得該模型檢出CIN2+病變的靈敏度為90.1%[16]。Wentzensen等[12]研究對602 例患者的細胞學圖像進行模型的訓練和驗證,測得模型檢出CIN3 級及以上(CIN3+)病變的AUC 為0.74。Yu 等[17]研究對1 839 例患者的細胞學圖像和HPV 檢測結(jié)果進行模型的訓練和驗證,測得該模型檢出CIN2+病變的AUC為0.71,見表1。
圖4 AI模型的建立及驗證流程
Hu 等[18]研究對9 406 例患者的子宮頸造影圖像進行模型的訓練及驗證,測得模型診斷CIN2+病變的AUC為0.91。Yuan等[19]研究對22 330例患者的電子陰道鏡圖像進行模型的訓練及驗證,測得子宮頸病變等級分類模型的靈敏度為85.38%,宮頸病變區(qū)域預測模型的醋酸染色和碘染色圖像的準確度分別為95.59%和95.70%。Cho 等[20]研究對791 例患者的光學陰道鏡圖像進行2 個AI 模型的訓練與驗證,使用CIN 分類時模型的平均準確度分別為48.6%和51.7%;使用鱗狀上皮內(nèi)病變(squamous intraepitheli?al lesion,SIL)分類[21]時,模型的平均準確度分別為71.8%和74.4。Miyagi 等[22]研究對253 例患者的陰道鏡圖像和臨床信息進行AI 分類模型訓練和驗證,測得AI 模型的靈敏度為95.6%、特異度為83.3%。Xue等[15]研究對19 435例患者的電子陰道鏡圖像和臨床信息進行模型訓練和驗證,并與陰道鏡醫(yī)生的診斷結(jié)果進行比較,結(jié)果顯示CAIADS模型的診斷結(jié)果與病理診斷的一致程度(82.2%)優(yōu)于陰道鏡醫(yī)生的診斷結(jié)果(65.9%),見表2。
表1 AI輔助診斷系統(tǒng)在宮頸細胞學檢測中的性能
表1 AI輔助診斷系統(tǒng)在宮頸細胞學檢測中的性能(續(xù)表1)
表2 AI輔助診斷系統(tǒng)在陰道鏡診斷中的性能
3.3.1 優(yōu)勢 1)AI 系統(tǒng)具有較好的診斷性能:國內(nèi)細胞學和陰道鏡醫(yī)生的診斷水平參差不齊,診斷質(zhì)量很大程度上受制于醫(yī)生水平等主觀因素,而AI系統(tǒng)可避免主觀因素的影響并發(fā)現(xiàn)圖像中的隱藏特征[9],具有較好的診斷性能;2)AI系統(tǒng)可提高宮頸癌篩查診斷的質(zhì)量和可及性:中國是人口大國,進行細胞學篩查和轉(zhuǎn)診陰道鏡的患者例數(shù)較多,AI系統(tǒng)對細胞學和陰道鏡圖像的處理速度較快,可減少臨床醫(yī)生的工作負擔,緩解醫(yī)療資源的緊張程度,提高宮頸癌篩查的可及性[7]。
3.3.2 局限性 1)診斷性能問題:盡管AI 系統(tǒng)優(yōu)于低年資陰道鏡醫(yī)生的診斷,但在診斷過程中仍存在誤診及漏診的情況,AI 系統(tǒng)的主要用途是輔助醫(yī)生進行診斷[23],并在一定程度上控制誤診和漏診。2)AI 系統(tǒng)的驗證:上述部分研究[18-20,22]的樣本量較小,且采用內(nèi)部驗證對系統(tǒng)的性能進行檢驗,部分研究[18-19]為了提高陰道鏡輔助診斷系統(tǒng)的性能,未采用CIN或SIL分類標準。Liu等[24]研究表明,現(xiàn)有很多評價AI 系統(tǒng)診斷性能的研究質(zhì)量過低,不足以得出明確的結(jié)論;為證明AI系統(tǒng)的性能,需要更加具有說服力、設(shè)計更加完善的前瞻性臨床試驗加以驗證。3)AI算法局限性:目前,大部分研究均是在深度學習算法基礎(chǔ)上進行開發(fā),訓練過程較易受到隱藏的混雜因素影響,而且需要較大的數(shù)據(jù)量;另外其主要計算法是對圖像進行識別,無法充分利用患者信息。
近年來,國內(nèi)AI、云計算、5G等領(lǐng)域均取得較為迅速的發(fā)展,也為宮頸癌的防治帶來新的發(fā)展機遇。推動AI系統(tǒng)在輔助醫(yī)生進行宮頸癌診斷方面的應(yīng)用,可有效減輕醫(yī)生負擔、提高診斷效率的同時提升基層醫(yī)生的診斷水平。結(jié)合宮頸HPV篩查自取樣技術(shù)和基于低延遲網(wǎng)絡(luò)技術(shù)的遠程診斷技術(shù),可極大地減少患者前往醫(yī)療機構(gòu)的次數(shù),簡化宮頸癌篩查流程,提高宮頸癌篩查的簡便性和可接受性。基于AI輔助診斷系統(tǒng)的宮頸癌篩查診斷模式將有效提高國內(nèi)宮頸癌篩查診斷的效率和質(zhì)量,助力健康中國戰(zhàn)略的推進,同時也會走向世界,為推動WHO提出的《加速消除作為公共衛(wèi)生問題的宮頸癌的全球戰(zhàn)略》貢獻中國力量與中國智慧。