張希鋼,白楊,戴捷,何順輝,賴春曉,黃潔文,江海洋
近年來,世界及我國范圍內(nèi)消化道惡性腫瘤的發(fā)生率呈升高趨勢[1-5],嚴重增加社會及家庭的醫(yī)療負擔。消化道惡性腫瘤早發(fā)現(xiàn)、早治療與患者預(yù)后高度相關(guān),多數(shù)可以達到完全治愈[6-8]。內(nèi)鏡技術(shù)的發(fā)展和應(yīng)用促進了消化道腫瘤早期發(fā)現(xiàn)。目前已有內(nèi)鏡窄帶成像技術(shù)(narrow band imaging,NBI)、放大NBI、放大內(nèi)鏡、共聚焦激光顯微內(nèi)鏡、可擴展電子分光色彩強調(diào)技術(shù)等消化內(nèi)鏡相關(guān)技術(shù)應(yīng)用于臨床[9-12],大大提高了消化道腫瘤及病變,尤其是早期上消化道惡性腫瘤的診斷水平。隨著計算機技術(shù)的發(fā)展,人工智能系統(tǒng)在檢測消化道疾病方面取得了顯著進展,成為國內(nèi)外研究熱點,研究領(lǐng)域涉及食管早癌、胃良惡性潰瘍、早期胃癌、胃鏡盲區(qū)監(jiān)測、潰瘍性結(jié)腸炎、結(jié)腸息肉等疾?。?3-21]。然而,目前尚無關(guān)于內(nèi)鏡應(yīng)用的成熟人工智能產(chǎn)品問世。在人工智能內(nèi)鏡研究中,部位識別是一項基本任務(wù),其目的在于自動檢測出圖片所處于上消化道中的具體位置。本研究為消化內(nèi)鏡醫(yī)師與計算機人工智能圖像專家合作,開發(fā)和驗證一種深度學(xué)習(xí)新方法(Transformer模型),經(jīng)學(xué)習(xí)訓(xùn)練形成基于Transformer模型的人工智能系統(tǒng),驗證其在胃鏡圖像位置識別的有效性。
2018年8月至2020年4月,從南方醫(yī)科大學(xué)南方醫(yī)院、南方醫(yī)科大學(xué)順德醫(yī)院等三甲醫(yī)院共收集胃鏡圖像21 782張。其中包括訓(xùn)練集18 640張,驗證集3 142張。以O(shè)lympus公司260、Olympus公司290為主要研究設(shè)備,內(nèi)鏡下白光為主要研究圖像,放大內(nèi)鏡、NBI、靛胭脂及碘染色等暫不在研究范圍。排除標準為:①年齡<18歲,或者>75歲;②胃內(nèi)食物潴留、出血或大量附著物等情形影響觀察;③食管、胃或者十二指腸術(shù)后導(dǎo)致上消化道明顯變形的;④非Olympus公司260、290型號設(shè)備。
與大多數(shù)胃腸道疾病診斷的深度學(xué)習(xí)方法研究類似[22-24],該研究包括三個主要階段,即數(shù)據(jù)標注階段、訓(xùn)練階段和驗證階段。圖1顯示了這三個階段的框架。
數(shù)據(jù)標注階段為經(jīng)過培訓(xùn)指導(dǎo)的內(nèi)鏡醫(yī)師及相關(guān)人員對于胃鏡圖像進行部位標注,所有標注人員培訓(xùn)通過《胃鏡標注培訓(xùn)規(guī)范》,標注胃鏡圖像共18 640張,形成訓(xùn)練集,在標注時對內(nèi)鏡圖像質(zhì)量進行判定。胃鏡圖像標注細分為34部位(見圖2)。標注規(guī)則為:每張胃鏡圖像由2名人員標注,兩名標注員標注完成后,由2名審核員審核,如2名審核員意見不能一致,則由資深消化內(nèi)鏡專家裁決(副主任醫(yī)師或主任醫(yī)師)判定。
圖2 胃鏡部位與準確度
訓(xùn)練階段旨在將標注的圖像應(yīng)用于深度學(xué)習(xí)模型(Transformer模型),訓(xùn)練學(xué)習(xí),形成基于Transformer模型的AI System,具有自動識別上消化道位置能力。驗證階段旨在通過對驗證集圖像的位置判定測試,按照實驗對照方式評價AI System(實驗組)與內(nèi)鏡醫(yī)師(對照組)的有效性,進一步評估Transformer模型性能。
將訓(xùn)練集完成標注后應(yīng)用于Transformer模型,人工智能人士完成操作,經(jīng)過學(xué)習(xí)訓(xùn)練,形成AI System。Transformer模型具備學(xué)習(xí)分析圖像特征能力,通過對大量被標注的胃鏡圖像學(xué)習(xí)分析,能根據(jù)目標圖像生成圖像特征預(yù)測值,獲得部位識別的能力,即為具備胃鏡圖像部位識別的人工智能系統(tǒng)(AI system)。在驗證階段使用驗證集(完成標注,共確定7282個部位標簽),分為人工智能系統(tǒng)組和對照組(內(nèi)鏡醫(yī)師)2組,其中對照組為2名高年資主治內(nèi)鏡醫(yī)師合作執(zhí)行,驗證階段評價比較基于Transformer人工智能系統(tǒng)和內(nèi)鏡醫(yī)師的準確度、特異度、整體有效性、操作時間。
驗證階段,基于Transformer人工智能系統(tǒng)整體準確度、特異度、整體有效度分別為83.4%、66.9%、77.8%,整體時間為9分30秒。
內(nèi)鏡醫(yī)師組整體準確度、特異度、整體有效度分別為78.4%、68.9%、73.8%,整體時間為10小時15分30秒。實驗結(jié)果表明,基于Transformer的人工智能系統(tǒng)在準確度和整體有效度方面明顯優(yōu)于內(nèi)鏡醫(yī)師組。同時,基于Transformer的人工智能系統(tǒng)的檢測耗時顯著少于內(nèi)鏡醫(yī)師組。
1.深度學(xué)習(xí)(Deep Learning)是主要的人工智能學(xué)習(xí)方法,為通過構(gòu)建多隱層的機器學(xué)習(xí)模型和大量的訓(xùn)練數(shù)據(jù),對數(shù)據(jù)的特征進行學(xué)習(xí),組合低層特征形成抽象高層特征表示屬性類別或特征[25];常見的深度學(xué)習(xí)模型類型包括全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)、Transformer、圖卷積等等。本文主要基于Transformer構(gòu)建,具體的模型結(jié)構(gòu)借鑒Vit,其主要結(jié)構(gòu)如圖3所示。Transformer核心為selfattention,transformer完全摒棄RNN或LSTM結(jié)構(gòu),直接采用attention機制取得了更好并行計算能力和更好的分類效果。transformer采用multi-head self-attention(MSA),MSA采用定義h個attention heads,即采用h個self-attention應(yīng)用于輸入sequence。具有更強的數(shù)據(jù)增強、數(shù)據(jù)讀取能力,具備多標簽標注的能力。相對于圖像分類中應(yīng)用較多的卷積神經(jīng)網(wǎng)絡(luò),基于Transformer模型圖像分類方法的優(yōu)勢在于其能更好的捕捉長距離特征。該系統(tǒng)同時具備視頻圖像特征提取、學(xué)習(xí)的能力,可繼續(xù)應(yīng)用于內(nèi)鏡視頻的研究,通過視頻圖像的學(xué)習(xí),可具備視頻部位、病變特征的識別能力。
圖3 Transformer模型主要結(jié)構(gòu)
2.國內(nèi)外對于人工智能的研究已涉及消化道病變的研究,人工智能Transformer模型在消化道部位的研究為基礎(chǔ)性研究,隨著人工智能識別水平的提高及技術(shù)的成熟,可逐步應(yīng)用于消化道疾病的臨床研究,如消化性潰瘍、早期食管癌、胃癌、胃息肉、幽門螺桿菌感染、大腸腺瘤性息肉等疾病的研究。
3.目前國內(nèi)外關(guān)于人工智能胃腸鏡的研究以圖像研究為主,僅有部分基于視頻的研究,樣本量小,且以視頻驗證為主。隨著研究的深入,多中心、前瞻性的內(nèi)鏡視頻研究將進一步推動人工智能在消化內(nèi)鏡領(lǐng)域的應(yīng)用。