徐一云,陳佳靜,秦悅農(nóng),吳春宇,孫霃平,劉勝
(上海中醫(yī)藥大學附屬龍華醫(yī)院中西醫(yī)結(jié)合乳腺科,上海 200032)
近年來隨著篩查的普及和相關(guān)科技成果的轉(zhuǎn)化,女性發(fā)病率最高的惡性腫瘤——乳腺癌的早期確診率顯著提高,同時患者的預后顯著改善[1]。乳腺癌的全程全方位管理涵蓋了以腫瘤規(guī)范化治療為基礎(chǔ)的“精準治療”和早期乳腺癌治療后“慢病化管理”兩大模塊,同時也帶來了更多量級、多維度、高度復雜性、異質(zhì)性的乳腺癌相關(guān)診療數(shù)據(jù)。然而,受限于醫(yī)療資源分配不均、人力資源的有限性以及不同臨床評估標準體系的差異等因素,未來將乳腺癌的全程全方位治療管理理念高效地應(yīng)用于臨床還面臨諸多挑戰(zhàn)。數(shù)字技術(shù)的快速革新以及人工智能醫(yī)療、“互聯(lián)網(wǎng)+”醫(yī)療、物聯(lián)網(wǎng)醫(yī)療等概念及產(chǎn)業(yè)的發(fā)展,極大地促進了醫(yī)療大數(shù)據(jù)的傳輸、存儲、監(jiān)測、應(yīng)用與開發(fā)[2-3]。機器學習作為一種智能數(shù)據(jù)處理、分析、輔助制訂決策、預測事件結(jié)局的技術(shù),已廣泛應(yīng)用于醫(yī)療領(lǐng)域,在生命和醫(yī)學科學研究中具有重要地位[4]?,F(xiàn)就機器學習在乳腺癌全程全方位管理中的研究進展予以綜述。
機器學習是指計算機通過模擬人類行為實現(xiàn)智能學習和處理的技術(shù)。邏輯回歸等基礎(chǔ)算法是早期機器學習的主要算法,自20世紀80年代起,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5-6]、支持向量機(support-vector machine,SVM)[7]、隨機森林[8]等相繼誕生,但其數(shù)據(jù)和算力限制了機器學習的發(fā)展。進入21世紀,計算機算力的指數(shù)級增長推動了深度學習、生成對抗網(wǎng)絡(luò)的應(yīng)用與實踐,實現(xiàn)了機器模仿人類寫作、繪畫等,著名的Alpha Go系列人工智能更是展現(xiàn)了機器學習領(lǐng)域中深度強化學習在圍棋等擬人化復雜思維運算領(lǐng)域的成功[9-10]。目前,機器學習已應(yīng)用于醫(yī)療領(lǐng)域,旨在協(xié)助臨床醫(yī)師為每例腫瘤患者提供個性化的診療方案。
機器學習的步驟主要包含數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析、分析與總結(jié)。其中,數(shù)據(jù)分析即運用適當數(shù)學模型總結(jié)樣本中的規(guī)律,同時在未知的情形下進行驗證,以得出符合已知規(guī)律的結(jié)論,核心為機器學習的學習方法。而數(shù)據(jù)分析包括:①分類,通過使用標簽和參數(shù)來預測離散的分類響應(yīng)值;②聚類,將數(shù)據(jù)劃分為子組;③回歸,預測連續(xù)響應(yīng)的數(shù)值以識別分布趨勢。其中,分類和回歸基于監(jiān)督學習,而聚類涉及無監(jiān)督學習。
乳腺癌的診療方案涉及腫瘤篩查、診斷、治療、預后、隨訪期間相關(guān)并發(fā)癥等環(huán)節(jié)。機器學習算法在兼顧乳腺癌診療環(huán)節(jié)中的數(shù)據(jù)類型、研究目的、專業(yè)要求甚至產(chǎn)業(yè)結(jié)構(gòu)差異性的同時,還具有良好的臨床應(yīng)用能力。
2.1提高乳腺癌篩查效率 乳腺癌的篩查依賴于乳腺彩色多普勒超聲、鉬靶和磁共振成像等影像檢查以及專科醫(yī)師的體格檢查。各種篩查方法聯(lián)合應(yīng)用可以獲得較高的診斷靈敏度和特異度,有助于乳腺癌患者的早期診斷與干預,從而改善患者預后、減輕其經(jīng)濟負擔。然而,由于傳統(tǒng)計算機輔助診斷系統(tǒng)多依賴??漆t(yī)師的手工特征提取,同時乳腺影像的診斷速度與精準度又受限于人力、工作時間、專業(yè)性等因素,不能適應(yīng)目前呈指數(shù)級增長的乳腺影像數(shù)據(jù)。隨著機器學習和圖像處理技術(shù)的發(fā)展,以深度神經(jīng)網(wǎng)絡(luò)模型為主的機器學習算法不僅可以解決圖像分類任務(wù),還為乳腺癌的篩查、診斷、評估提供了可能[11]。有研究者開發(fā)了多尺度全CNN模型,實現(xiàn)了對乳腺鉬靶影像正常腺體以及乳腺良惡性腫瘤的自動分類,總體靈敏度達96%,受試者工作特征曲線下面積為0.99[12]。CNN等計算機算法被廣泛應(yīng)用于乳腺癌的影像判別。McKinney等[13]開發(fā)的鉬靶篩查乳腺癌的人工智能系統(tǒng)受試者工作特征曲線下面積為0.889(英國)和0.8107(美國)?;跈C器學習開發(fā)的人工智能系統(tǒng)對乳腺癌影像識別相關(guān)算法的不斷優(yōu)化,提高了乳腺癌的篩查效率,降低了誤診率和漏診率。與乳腺彩色多普勒超聲影像相比,相對客觀且可公開獲取的鉬靶影像組學更受機器學習相關(guān)研究者的關(guān)注。
2.2優(yōu)化乳腺癌病理診斷流程 整體切片成像系統(tǒng)的開發(fā)與應(yīng)用實現(xiàn)了數(shù)字化輔助病理診斷。由于像素級的差異,與臨床影像相比,病理組織影像攜帶了更多關(guān)于細胞種類、形態(tài)、空間排列等信息,更適合開展基于深度學習的對乳腺癌病理影像進行分類診斷的應(yīng)用研究,替代傳統(tǒng)病理診斷流程。在CAMELYON 16、ICIAR(International Conference on Image Analysis and Recognition)2018等機器學習算法輔助乳腺癌病理診斷的競賽中,排名靠前的算法均運用了CNN架構(gòu)[14-15]。CNN、多尺度CNN等均可實現(xiàn)對蘇木精-伊紅染色的乳腺病理圖像中正常組織、乳房良性病變、原位癌、浸潤性癌的自動分類。由于深度學習模型的泛化性與訓練的樣本量密切相關(guān),在樣本量受限時深度學習結(jié)合遷移學習可改善深度學習模型中過度擬合的問題[16]。
國外學者運用分類器模型實現(xiàn)了對91 505個母語為英語的乳腺病理報告的自動解析[17]。我國學者報道了一種以自然語言處理結(jié)合SVM算法判別乳腺中文病理檢查報告的方法,該方法對于二進制數(shù)值結(jié)果識別的完全正確率達85%(346/405)[18]。將機器學習算法應(yīng)用于病理報告的判讀,可從繁冗的信息中高效提取乳腺癌分期、分子分型等關(guān)鍵信息,降低人為誤判的可能性。但受地域、病理醫(yī)師專業(yè)性的影響,病理表述內(nèi)容及格式上存在差異,因此,未來更貼近母語使用習慣的算法將具有更廣闊的應(yīng)用前景。
2.3輔助乳腺癌西醫(yī)綜合治療 計算機對圖像及文本進行檢測、分級等基礎(chǔ)分析,目的是使工作流程自動化,且不改變?nèi)橄侔┡R床工作流程和治療建議。另一方面,機器學習可以揭示數(shù)據(jù)特征之間隱藏的關(guān)聯(lián)性,如通過構(gòu)建數(shù)學模型挖掘出術(shù)前醫(yī)療影像或文本中的特征與后續(xù)治療方案之間的相關(guān)性,而此類數(shù)學模型的應(yīng)用與推廣可能對乳腺癌的臨床治療決策產(chǎn)生影響。研究已證實,≤2枚前哨淋巴結(jié)轉(zhuǎn)移的早期乳腺癌患者,無需行腋窩淋巴結(jié)清掃術(shù)且不影響術(shù)后總生存期[19]。前哨淋巴結(jié)活檢術(shù)作為一項創(chuàng)傷性操作,也可能導致上肢麻木、水腫等術(shù)后并發(fā)癥。Yu等[20]通過回顧性預后研究構(gòu)建了動態(tài)對比增強磁共振成像放射學特征模型并進行了模型驗證,該模型可識別術(shù)前腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài),輔助醫(yī)師為不同淋巴結(jié)轉(zhuǎn)移狀態(tài)的乳腺癌患者制訂最優(yōu)的手術(shù)方案,同時該模型也可預測早期乳腺癌患者的無病生存期。Zheng等[21]應(yīng)用臨床參數(shù)結(jié)合深度學習超聲影像組學,預測早期乳腺癌患者術(shù)前腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài)。以上研究借助機器學習實現(xiàn)以非侵入性方式預測早期乳腺癌腋窩淋巴結(jié)轉(zhuǎn)移情況,為臨床醫(yī)師選擇恰當?shù)囊父C淋巴結(jié)手術(shù)治療方案提供了參考。
乳房在解剖結(jié)構(gòu)中與心、肺等重要臟器毗鄰,精準選擇感興趣區(qū)域、保證其運動跟蹤度均與減少乳腺癌患者放療不良反應(yīng)密切相關(guān)。有學者開發(fā)了基于CNN的方法,實現(xiàn)了自動選擇放療最優(yōu)的表面感興趣區(qū)域,且其定位的精準率顯著高于醫(yī)師手動選擇的區(qū)域[22]。同時,機器學習還可實現(xiàn)光束與患者解剖匹配,從而通過面部表情預測患者進階運動,提高放療的穩(wěn)定性[23-24]。還有研究以不同機器算法篩選最優(yōu)模型,通過正電子發(fā)射計算機斷層顯像、磁共振成像等影像特征早期預測乳腺癌新輔助治療后病理完全緩解等情況[25-27]。運用計算機建模評估人表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)基因過表達乳腺癌患者經(jīng)新輔助治療后的HER2表達水平[28],可以幫助臨床醫(yī)師在乳腺癌新輔助治療早期獲取更為精準的信息,及時評估或調(diào)整治療方案。
乳腺癌患者激素受體(hormone receptor,HR)的狀態(tài)是內(nèi)分泌治療的指征,而乳腺癌患者HR的表達需要經(jīng)免疫組織化學檢測。Naik等[29]開發(fā)了一個基于大樣本病理學習的深度神經(jīng)網(wǎng)絡(luò)算法,可通過蘇木精-伊紅染色的病理組織影像預測乳腺癌患者的HR狀態(tài),該算法可縮短乳腺癌患者獲得內(nèi)分泌治療決策的時間。有學者以HR+/HER2-的晚期乳腺癌患者電子健康記錄為數(shù)據(jù)集,運用機器學習和自然語言處理方法開發(fā)了預測HR+/HER2-早期和晚期乳腺癌進展的模型[30]。在晚期乳腺癌的診治領(lǐng)域開展相關(guān)機器學習的研究可使更多具有高危復發(fā)風險的患者獲得及時監(jiān)測并及早進入一線治療。值得注意的是,新技術(shù)和新藥物的不斷研發(fā)上市、乳腺癌診療指南內(nèi)容的不斷更新均會對目前機器學習模型的效能產(chǎn)生影響。
2.4輔助乳腺癌中醫(yī)診療 乳腺癌的中醫(yī)臨床診療流程涉及下列模塊:四診及癥狀的收集→辨病(臨床治療分期)→辨證→治法→方藥[31]。由于中醫(yī)相關(guān)醫(yī)療文本中癥狀、辨證記錄的模糊性、主觀性,中醫(yī)藥臨床研究的結(jié)果缺乏在更大數(shù)據(jù)集上驗證的準確性及可重復性。因此,中醫(yī)四診及癥狀的客觀化、標準化顯得尤為重要。目前機器學習已滲入乳腺癌中醫(yī)診療的各個方面。聲音、圖像的數(shù)字化存儲及處理可促進機器學習在中醫(yī)四診客觀化中的研究與應(yīng)用,如運用SVM、反向傳播神經(jīng)網(wǎng)絡(luò)等算法根據(jù)眼神特征將中醫(yī)中抽象的概念望神客觀化[32];運用SVM、隨機森林、CNN等算法可實現(xiàn)舌象的客觀分類[33-34];運用CNN可通過聲學信號實現(xiàn)聞診的虛實辨證[35];此外,還可通過梯度推進、隨機森林結(jié)合K均值聚類算法增強高血壓病脈沖波模型的穩(wěn)定性,實現(xiàn)脈沖波對脈診的客觀分類[36]。
目前,聚類、分類、關(guān)聯(lián)規(guī)則、邏輯回歸等傳統(tǒng)算法已廣泛用于基于醫(yī)療文本數(shù)據(jù)的乳腺癌證型的識別和處方分析。高秀飛等[37]應(yīng)用聚類分析184例乳腺癌伴抑郁癥患者發(fā)現(xiàn),肝郁氣滯、肝郁脾虛、肝腎陰虛、心脾兩虛為其主要證型,同時初步構(gòu)建乳腺癌伴抑郁癥患者的中醫(yī)辨證模型。還有研究采用關(guān)聯(lián)規(guī)則、聚類分析等研究中醫(yī)古籍處方治療乳腺癌的用藥規(guī)律,以期根據(jù)臨床腫瘤負荷的不同,提供不同的用藥思路[38-39]。
通過機器學習可以使目前傳統(tǒng)中醫(yī)大數(shù)據(jù)具有標準規(guī)范定義,促進中醫(yī)藥現(xiàn)代化進程。人工神經(jīng)網(wǎng)絡(luò)通過模擬自然神經(jīng)元的運作機制,構(gòu)建輸入與輸出間的系統(tǒng)模型。Huang等[40]運用神經(jīng)網(wǎng)將2 738例乳腺癌患者醫(yī)療文本中的中醫(yī)關(guān)鍵術(shù)語進行標準化和集成,同時結(jié)合聚類分析完成乳腺癌證型及中醫(yī)處方治療目的的自動識別。由于患者的素體差異可能導致臨床治療分期相同的患者間出現(xiàn)“同病異治”的情況,將個體化治療差異極大的中醫(yī)診療思維轉(zhuǎn)化為更具實際操作性的代碼是目前機器學習的難點。在醫(yī)療智能化、數(shù)據(jù)共享化的時代背景下,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)架構(gòu)的深度強化學習等算法可促進中醫(yī)內(nèi)在診療邏輯的具體應(yīng)用,助推中醫(yī)現(xiàn)代化的進程。
2.5監(jiān)測乳腺癌相關(guān)身心疾病 積極監(jiān)測乳腺癌相關(guān)并發(fā)癥以及早期心理干預可以改善患者的生活質(zhì)量。如早期監(jiān)測乳腺癌患者術(shù)后上肢淋巴水腫有助于及時干預控制病情[41];運用人工神經(jīng)網(wǎng)絡(luò)結(jié)合極限學習算法可實現(xiàn)對乳腺癌術(shù)后抑郁癥高?;颊叩脑缙谧R別[42]。近年來,隨著醫(yī)療物聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)的發(fā)展以及可穿戴式傳感器的普及,實現(xiàn)了對乳腺癌相關(guān)醫(yī)療健康數(shù)據(jù)的遠程獲取與實時監(jiān)測[43]。高效地從數(shù)據(jù)中提煉出具有臨床意義的信息并進行早期干預,是目前“萬物互聯(lián)”時代大背景下機器學習算法面臨的挑戰(zhàn)。
2.6預測乳腺癌復發(fā)風險 傳統(tǒng)乳腺癌風險預測工具的開發(fā)及應(yīng)用多基于患者的年齡、病理報告中描述的腫塊大小、腋窩淋巴結(jié)情況、免疫組織化學等指標。機器學習則試圖在臨床、病理影像等數(shù)據(jù)與基因表達之間構(gòu)建相關(guān)算法模型,繞過人工閱片、撰寫報告、臨床判讀等環(huán)節(jié),直接預測乳腺癌復發(fā)風險。Tahmassebi等[44]應(yīng)用8種機器學習算法通過多參數(shù)磁共振成像預測乳腺癌新輔助化療患者的生存結(jié)果?;诨?qū)用娴娜橄侔桶l(fā)風險檢測方法受限于高昂的檢測成本及技術(shù)可及性,無法廣泛開展。但有研究通過機器學習算法初步實現(xiàn)了通過蘇木精-伊紅染色的乳腺病理組織圖像判別患者的雌激素受體狀態(tài)、PAM50(prediction analysis of microarray 50)評分和復發(fā)評分風險[45-46]。由此可見,開發(fā)出更具泛化性的乳腺癌預后模型可使乳腺癌相關(guān)信息的獲取由基礎(chǔ)、簡便向更高級、更復雜的層級跨越,以更低的成本完成對患者預后的精準預測,減少整個社會在基因?qū)用鏅z測治療的支出,使更多患者獲益。
鑒于醫(yī)療行業(yè)的精密要求,必須控制過失誤差、系統(tǒng)誤差在極小范圍內(nèi)。受限于乳腺癌精準治療指南的更迭、中醫(yī)個體化辨證施治、患者生物信息等相關(guān)倫理問題,目前的機器學習擔負著輔助醫(yī)師完成臨床決策的重任。機器學習對數(shù)據(jù)的存儲、共享、可重復性、預測性等功能已全面滲透于乳腺癌的篩查、診斷、治療、監(jiān)測、評估、隨訪等各環(huán)節(jié)。未來,機器學習處理數(shù)據(jù)的高效能將逐步改變?nèi)橄侔┡R床診療中簡單重復的工作流程。而隨著5G通訊技術(shù)、物聯(lián)網(wǎng)、機器學習的協(xié)同發(fā)展,數(shù)字化醫(yī)療將為乳腺癌等疾病的診治及全方位管理帶來全新的體驗。