陳碧江
(暨南大學附屬復大腫瘤醫(yī)院 信息部,廣東 廣州 510665)
我國是一個癌癥發(fā)病率較高的國家,每年因癌癥死亡的人數(shù)也非常多。而人們對于衛(wèi)生服務的需求與醫(yī)療衛(wèi)生具備的資源之間存在的矛盾,導致傳統(tǒng)醫(yī)療模式難以滿足當代社會發(fā)展的需求[1]。在大數(shù)據(jù)背景下和云計算的支撐中,人工智能也得到了高速的發(fā)展,應用于疾病診斷、藥品研發(fā)、中藥辨識、醫(yī)學理論及病理知識等方面取得可觀成就。為了進一步探討人工智能的應用價值,本文對人工智能在腫瘤科病理診斷以及評估當中的應用價值進行分析,如下。
人工智能以深度學習作為核心,深度學習則來源于人工神經(jīng)網(wǎng)絡的研究,對低層特征進行組合后,使其形成更加抽象的類別表現(xiàn)或高層屬性,由此顯示出數(shù)據(jù)的分布特征。在大數(shù)據(jù)時代與圖形處理器等各類強大的計算設備得到不斷改進及發(fā)展的背景下,深度學習能夠充分利用各種數(shù)據(jù),對抽象知識表達也可以做到自動學習,即在某種知識中將原始數(shù)據(jù)進行濃縮[2]。在大規(guī)模的結構化數(shù)據(jù)分析中,深度學習能夠把各種無法采用生物學統(tǒng)計提取或者肉眼辨別出來的數(shù)據(jù)特征識別出來,如CT、MRI 以及病理圖片等,不僅屬于結構化數(shù)據(jù),同時也可作為人工智能最佳的深度學習資料。
病理切片屬于二維醫(yī)學圖像,是一種結構化數(shù)據(jù),具有典型性,適合在人工智能的深度學習中應用。我國的病理醫(yī)師在職人數(shù)非常少,且收入較低,工作環(huán)境差,使人才嚴重流失,加大了疾病漏診和誤診率。而人工智在改善病理困境上可以發(fā)揮一定的作用,它具有速度快、準確度高、無地理空間要求、病理切片識別診斷標準統(tǒng)一等優(yōu)點,可以幫助腫瘤科醫(yī)師進行病理照片的識別、篩查和評估,提高疾病診斷水平。
在腫瘤科人工智能識別模型的構建過程中,精確性高的計算機模型都必須以大量的病理切片作為數(shù)據(jù)支撐,通過利用這些數(shù)據(jù)進行深度的學習,該過程擁有大量病理切片的數(shù)據(jù)支持,并利用這些數(shù)據(jù)進行后續(xù)深度學習,可分成五個階段,即:①數(shù)據(jù)標注:收集腫瘤病理切片,將所有切片數(shù)據(jù)化,通過標注工具對圖像加以分類,做好腫瘤細胞及特殊結構的位置標定,并詳細說明其主要特點之后將其錄至數(shù)據(jù)庫[3]。②數(shù)據(jù)預處理:對做了標注的圖像加以預處理,如反轉、模糊化以及曝光度調節(jié)等,讓神經(jīng)網(wǎng)絡的整個訓練過程得以更全面學習到病理疾病的本質特征,避免人為與環(huán)境因素的干擾,提高數(shù)據(jù)的準確性。在數(shù)據(jù)處理完成后,把圖片數(shù)據(jù)重新隨機排列,按6:2:2比例分成訓練集、驗證集、測試集三種,對其進行計算,確保效果的真實性。③算法設計:使用幾種在圖像識別和分類中有效的基本模型對系統(tǒng)進行基準測試,根據(jù)文獻設計算法模型,在每個神經(jīng)網(wǎng)絡中輸入訓練集并對其進行訓練,并通過驗證集對算法進行驗證。④算法訓練:經(jīng)過比較,確定了兩個或三個最優(yōu)模型,并在基本模型的基礎上進一步調整了神經(jīng)網(wǎng)絡的結果和網(wǎng)絡參數(shù),以提高算法的準確性。在獲得相位訓練的結果之后,測試算法以比較該算法是否可以正確識別出未經(jīng)訓練的圖像為標準。⑤算法測試:通過使用接收者的工作特征曲線來客觀地評估算法的性能,并構造靈敏度曲線和特異性曲線作為度量,其中,敏感性指示正確識別腫瘤的能力,而特異性指示正確識別良性腫瘤病變的能力。
算法作為病理人工智能的核心關鍵,有效的數(shù)據(jù)是其運行的基礎和必要的條件。在腫瘤病理診斷中,人工智能若對出去無法完整處理或者出偏移,就會導致最終的決策出現(xiàn)錯誤或者偏差,使人工智能的應用受限。和其他的圖像比較,病理圖像有其顯著特點,主要表現(xiàn)在:①獲取高質量且尺寸適宜的圖像,聯(lián)合顯微鏡及數(shù)字切片掃描儀等可以進一步提高圖像質量,但當病理切片圖片尺寸比較大時,則要按算法不斷進行訓練及調整[4]。②數(shù)據(jù)標注置信度,體現(xiàn)在人工智能于腫瘤病理算法中是否可以完全做到精準,這是由標注的可靠性來決定的,但病理切片標準非常繁瑣,工作量大,特殊病理還需由多名專家和特殊的染色審核進行輔助標注。③在病理診斷中涉及到的病種比較多,且每個病種都具備需要獨立模型的可能,尤其是腫瘤疾病,要求每一名專家都要對部分病種做到熟透于心。
病理標注的方式及算法不同,其表現(xiàn)也不同,但其原則是一致的,也就是準確完整的標記所有腫瘤細胞,標記原則包括:
3.1 標注團隊權威性。對腫瘤病理進行標準的工作人員必須有扎實的醫(yī)學知識和實踐能力,要求團隊成員中要有1 名固定病理專家、1 名病理技術者、3 名有醫(yī)學背景的年輕醫(yī)師等,其中,病理專家負責審核工作,適當修正錯漏標注;病理技術者主要負責特殊染色比如免疫組化等工作,年輕醫(yī)師則負責標注,在標注疾病前必須經(jīng)專家培訓及指導后進行。
3.2 標注工具簡單化。目前市場上可用于進行標準的軟件繁多,如Photoshop、view、image 等,這些工具都可對腫瘤細胞進行標記,但在像素及方便程度上有一定限制[5]。不同團隊使用的標注工具也不同,有簡單的也有復雜的,但均以簡單化為主,如選擇不連續(xù)線性標準工具,線的起始點可自動連接,線的粗細及顏色也可調節(jié),且附帶有自定義功能,可大大提高標注速度及標注的準確性。
3.3 標注序列程序化。明確了腫瘤人工智能診斷后,先掌握其細節(jié)與宏觀情況,如腫瘤細胞特點的分類等,如在胃癌的診斷中,由于胃癌類型有十多個,這就需要建立十多個序列,而在每個序列中都包含有一種類型的上百或者上千張病理圖片,借助統(tǒng)一掃描工具數(shù)字化所有圖片,再經(jīng)標注工具切取所需預期圖片,之后做好人員標注,最后經(jīng)專家審核及補充后方可使用。
3.4 制片流程標準化。如果圖片的質量比較低,很容易算成腫瘤,出現(xiàn)誤診情況,伊紅染色時間過長或過短都會發(fā)生偏差,如果伊紅染色太濃,將無法完全識別病理圖像神經(jīng),但是能夠完全識別正常染色,同時,不同組織結構的對比度將降低,從而難以區(qū)分。 該解決方案主要包括增加用于深度學習的不同染色質量切片的樣本大??;建造全自動的攝片和染色設備,并優(yōu)化工藝,提供數(shù)字化及標準化病理圖像。
3.5 標注流程規(guī)范性。在腫瘤的病理診斷中,即便醫(yī)師熟練標注的方法,在標注工具的使用中也要花費大量的時間及精力去摸索,如對分化程度比較低,如2048×2048 像素腺癌圖片在放大了200 倍后,要做的標記可能達到上百個,對印絨細胞癌病理照片的標注則可能要上千個。所以,為了減少再次返工情況,標注之前要制定規(guī)范流程進行標準,要求首先要明確好標記方式,專家獲取圖片后,按算法明確標注的方式;其次,明確標注的范圍,也就是要明確標記線與腺體是否要緊貼,若有空隙時是否會影響算法等;第三,標記清晰的組織,由于腫瘤組織有許多成分,其中一些在指導治療和評估預后方面起著重要作用,有必要事先確定是否貼標簽;最后,合理安排時間,及時報告疑難病理。
在腫瘤病理診斷中,計算機輔助算法的廣泛應用可大大提高腫瘤病理診斷準確性,以減輕臨床病理醫(yī)師的負擔,但由于病理人工智能處在研發(fā)的初始階段,在短時間內進入到臨床實踐比較困難。而病理診斷作為最終診斷,不可出現(xiàn)任何差錯時間,但由于當前人工智能在腫瘤病理診斷中的準確性還未能達到百分百,所以需要增加相應的醫(yī)療數(shù)據(jù),在病理專家的參與和深度學習中結合人類智能,人工智能和實驗室方法來提高腫瘤病理診斷的準確性。同時,我們必須整合分子檢測和免疫組織化學等先進的技術方法,以最大程度地減少漏診和誤診的發(fā)生率,為臨床后期治療和改善疾病預后等提供重要參考。