孫岳川,高鍵東,2,吳及,2
人工智能的概念最早于1956年在達特茅斯會議上提出,它是研究、開發(fā)用于模擬、延伸和擴展人智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能方法具有對多樣化問題的適應性,對復雜關系的建模能力,以及遠高于人類的計算處理能力。目前人工智能分為多個分支研究領域,包括計算機視覺、自然語言處理及數據挖掘等,在社會各行業(yè)均有廣泛應用。在醫(yī)學行業(yè),人工智能領域獲得了大量研究成果,且部分研究成果已成功進入應用階段,但在不同醫(yī)學細分領域中,人工智能方法適于解決不同問題,需要不同的應用條件,應用中需要注意的問題和不足各異。本文將對人工智能在臨床醫(yī)學中的應用現狀進行總結,并對發(fā)展前景進行展望。
人工智能是研究、開發(fā)用于模擬、延伸和擴展人智能的理論、方法、技術及應用系統的一門新的技術科學。機器學習是一種常用的實現人工智能的方法。研究者們在解決現實問題時經常需要對問題進行數學建模,即對現實問題中的原因和結果進行抽象和簡化,用數學的形式語言進行描述,此過程中常常需要把握原因到結果的主要聯系,忽略次要聯系。機器學習本質上是借助優(yōu)化算法對數學模型參數的搜索過程,其目的是找到一組模型參數使得該模型能夠描述從原因到結果的主要聯系,對實際問題有較好的近似或模擬。機器學習方法可大致分為傳統機器學習和以神經網絡模型為主的深度學習兩類。傳統機器學習方法模型簡單、計算量小,對于復雜而大量的數據,其通常借助以矩陣分解為主的數學原理,在盡量保留數據樣本之間關系的基礎上壓縮數據量,從而用較簡單的模型實現問題的近似,但對于模型輸入和輸出之間復雜的非線性關系的近似程度不夠理想。深度學習模型較復雜、計算量大,其通常借助梯度下降等方法直接構建從輸入至輸出的函數關系,對于復雜關系的擬合能力較好,但有時容易過度擬合數據中與問題無關的其他特性,過度關注從原因到結果的次要聯系,甚至偶然的無關聯系,從而削減了對問題本質關系的擬合[1]。
用于臨床的人工智能系統并非近些年才出現。從早期的專家系統,如斯坦福大學開發(fā)的為感染患者制訂抗生素處方的MYCIN[2]系統;至臨床決策支持系統,如哈佛大學研發(fā)的DXplain[3]和匹茲堡大學研發(fā)的QMR[4];再直至今日的以IBM Watson Health為代表的基于機器學習的復雜診療系統。
臨床人工智能伴隨著人工智能技術的發(fā)展慢慢走向成熟。今日的醫(yī)學人工智能系統覆蓋篩查、診斷、治療、預后及管理等多個臨床環(huán)節(jié),可利用實驗室檢查結果、影像、文本、音頻多種異質數據,完成系統性的復雜任務。
人工智能方法同時具有對復雜數據來源和復雜優(yōu)化目標的強大處理能力,可以處理如圖像、文本一類的復雜數據,也可融合處理多種形式的醫(yī)學數據;可以完成多樣化的任務目標,處理分類、回歸、圖像分割、知識圖譜構建等機器學習任務,在此基礎上完成數據整理及輔助診療工作。
臨床影像數據包括CT、MRI、超聲、X線等,是目前人工智能方法應用最為廣泛的一類數據,經常用于快速獲得病情診斷或病灶標定等結果。如利用神經網絡分析眼底影像數據,并進行糖尿病眼底病變的診斷[5];基于皮膚影像設計的神經網絡,可獲得與皮膚專科醫(yī)師水平相當的皮膚癌變診斷結果[6];根據超聲數據診斷乳腺病變,以及利用CT數據判斷肺小結節(jié)良惡性病變[7];根據心臟圖像進行心血管病的診斷或預測[8-9],以及結直腸息肉的標定[10]與腦腫瘤的圖像分割[11]等。
醫(yī)學文本數據包括電子病歷、影像學或其他檢查報告等,通常采用自然語言處理技術進行處理和應用,其可形成病情診斷,也可以進行更高層次知識圖譜的構建,并可輔助構建病歷數據庫等,可完成多樣化任務。如根據患者病歷分析得出可能存在的不良反應和術后并發(fā)癥[12-13];從非結構化病歷中提取結構化數據并進行癌癥診斷[14],用于構建醫(yī)療知識框架并達到職業(yè)醫(yī)師的知識儲備水平[15];利用患者死亡證明上的文本信息,根據國際疾病分類標準進行癌癥分類[16]等。
在以上研究的基礎上,目前已有研究成果進入轉化應用?;谌斯ぶ悄芊椒ǖ奶攸c,其被更多地用于減輕臨床醫(yī)護人員的工作負擔或輔助經驗不足的醫(yī)師進行疾病診斷。在各類疾病篩查階段,人工智能方法可以輔助選擇對病情診斷較為重要的放射影像技術[17];可以進行光學相干斷層成像檢查,評估患者患眼部病變風險,并決定該患者是否應該接受專業(yè)醫(yī)師檢查[18];也可以內嵌于手機應用程序中,可輔助篩查應該接受進一步檢查的患者[19]。對于各類重復性的簡單工作,人工智能方法可輔助臨床節(jié)省人力,并提升工作效率,如采用放射影像技術進行骨齡檢測[17],采用斷層成像進行眼部疾病的檢查[20],以及標定心血管影像中的狹窄血管段[21]等。
此外,人工智能方法也被用于開拓醫(yī)療診斷和醫(yī)學研究領域。人工智能方法可以輔助醫(yī)師進行病情診斷,使得診斷結果更加準確,超越以往專家或醫(yī)療設備單獨工作能夠達到的診斷水平[22-23],還可以自主進行治療方案的探索[24]。傳統方法對乳腺癌的分級僅依據乳腺癌上皮細胞的小部分形態(tài)特征,而人工智能方法探索了將間質細胞的形態(tài)特征和顯微圖像特征等增加至乳腺癌預測任務中的可能性[25],以及根據檢查結果預測心血管疾病危險因素[26],如根據正常心率情況下獲得的心電圖數據檢測心房顫動[27],根據CT檢查結果獲得早期的癡呆癥診斷[28]等多種創(chuàng)新性工作。
盡管人工智能方法是一類功能強大的工具,但對于人工智能方法的研究和實施具有特殊要求。與人類的認知特點不同,計算機程序對于數據標準化的要求非常嚴格,對于包括文件格式,數據種類和順序,數據單位等因素在內的數據格式,均需要明確的標準,否則可能造成輸出亂碼等不合常理的結果,甚至不能順利運行程序。目前各醫(yī)療中心中臨床影像數據、病歷數據等格式各異,如果能夠建立統一的數據標準,就可省略對不同數據建立不同程序流程的工作,并可促進一些成熟人工智能方法迅速部署至具有統一數據格式的醫(yī)療中心;也實現了科研數據通用化,使得科研人員能夠方便獲得多個醫(yī)療中心的數據,對其進行算法驗證和調優(yōu)。目前已有的數據標準化工作以“醫(yī)學數字成像和通信(DICOM)”標準為先,其整合了CT、X線、超聲及MRI等醫(yī)療影像技術,為一線醫(yī)師和科研人員提供了統一的數據接口,使后續(xù)工作省略了數據整理等流程,同時有效地節(jié)省了人力。
數據格式標準的制定需要綜合考慮現有條件,如程序接口、數據完整性及未來流程改進工作等多種因素,由各醫(yī)療中心協商制定。進一步建立統一的醫(yī)療數據庫還需要考慮患者隱私及數據安全等因素。目前已有的醫(yī)學數據庫包括心臟地圖集項目[29]和內臟解剖基準項目[30],隨著人工智能方法在醫(yī)學領域的普及,此類數據庫的建立和完善將有長足發(fā)展。
目前人工智能的實施主要依靠機器學習方法,而大部分機器學習方法需要依賴人工總結的邏輯規(guī)律作為起點,進行高層次關系的學習或訓練。在具體任務中,如病情的診斷和預測,則需要大量已知病情和其他信息的患者檔案作為起始知識,進行從患者數據至病情診斷的關系構建,從而能夠根據患者前瞻性數據獲得病情的診斷或預測結果。對于一些較為復雜的任務,如器官區(qū)域的圖像分割,則需要大量已知分割結果的醫(yī)學影像數據,而分割結果往往由醫(yī)師進行精細標注,一方面大量精細標注對醫(yī)師的時間和精力具有一定要求,另一方面標注結果會受到醫(yī)師主觀因素的影響,使人工智能方法的參數擬合過程受到影響,進而使模型建立不準確的數據與標注的映射關系,并對模型性能造成不利影響。機器學習領域對無標注的學習方法也進行了研究,可以提取無標注數據內在的關系進行疾病表型分類等研究,但由于缺少客觀一致的評價研究效果的標準,此種方法不易準確評價其性能,同時欠缺可解釋性。
作為一種技術工具,人工智能技術并不能完全替代醫(yī)學專家。醫(yī)學知識在不斷演進,醫(yī)學也是一門復雜性學科,目前人工智能系統的構建仍然需要醫(yī)學專家的深入參與。如從數據的角度分析,盡管特征篩選[31]等方法可以研究患者各類數據的重要性區(qū)別,但這類方法存在局限性,無法從更本質的病理學角度進行解釋,因此人工智能方法常需要醫(yī)師給定一種可能的數據集合,再從中選擇較為重要的數據用來完成任務。從任務目標的角度分析,依賴于醫(yī)學專家明確研究方向,將具體工作由機器學習模型實現。合理的問題定義和目標需要考慮目標實現的難度、臨床意義及預期性能等多方面因素,從而使人工智能方法的研發(fā)流程更加順利,并有利于合理進行實際部署。
臨床人工智能依然處于早期研發(fā)階段。為了使得人工智能方法更好地輔助臨床,研究人員需要就人工智能方法的局限性進行使用范圍的界定,并警惕其產生不合常理的診斷或操作結果。
目前大部分人工智能方法均依靠具體的機器學習算法實現,而大部分機器學習算法均以數理統計和概率相關理論作為支撐,并假設各病患數據樣本是“獨立同分布”的。盡管滿足“獨立同分布”假設的數據在實際工作中較少見,利用“非獨立同分布”樣本訓練得到的機器學習模型,其在與訓練數據相獨立的測試數據集上的性能仍然可以接受,但該模型能否在多變的實際應用條件下保持其性能仍然未知,其原因是機器學習模型嚴重依賴現有數據的分布情況,而數據集的體量總是有限的,無法窮盡所有可能的實際情況。
為尋找數據特點與標注之間的映射關系,機器學習模型可能會將一些無關的數據特性與標注聯系起來。如將皮膚上的外科水筆標記作為黑色素瘤的診斷標準[32],或由于不同醫(yī)學中心的診斷標準不同造成肺炎的診斷結果不一致[33]。數據上的漂移或偏見還可能造成社會問題或削弱病情診斷結果的穩(wěn)定性,如對不同人群死亡率的預測差異[34],根據不同人群的胸部X線檢查結果預測胸部疾病的效果差異[35],又如給皮膚圖像添加人眼不可識別的微小噪聲就會造成分類結果的差異[36]。研究者們往往嘗試利用工科領域的方法解決上述數據漂移等問題。電子病歷是機器學習算法的一大數據來源,而病患的臨床表現、診斷方法、治療方法等因素的變化使得電子病歷數據在較長時間尺度上的分布不同[37]。為維持算法穩(wěn)定性和較好的性能,可以采用非參數方法[38]及時更新模型,使其適應數據分布的變化。但現實問題復雜多變,工科領域提出的解決方案往往只針對模型的數學原理,而構建一種穩(wěn)定可靠的人工智能系統不僅需要完善的數學理論,還需要結合醫(yī)學知識的指導。
數據分布的不同會造成模型表現的不穩(wěn)定,因此研究者們希望尋求增強模型可解釋性的方法以了解模型結果的來源和過程。傳統機器學習模型的可解釋性要優(yōu)于深度學習模型,如支持向量機模型可提供從數據到結果的解析表達式,決策樹模型可提供每一步決策的理由,而深度學習模型常用激活圖提供了圖像中對分類結果重要的部分,或利用注意力機制形成自我解釋,但目前對于人工智能可解釋性的研究成果有限。醫(yī)學領域對于人工智能的可解釋性和安全性有迫切需求,對于患者的診斷和治療過程,醫(yī)師希望人工智能模型在提供結果的同時也有原因分析,從而提高該結果的可信度。由于模型可解釋性的欠缺,目前的人工智能應用仍存在局限,無法完全替代醫(yī)師對患者進行全流程診斷與治療。
多數臨床場景下,人工智能系統提供的結果僅作為參考信息。維也納醫(yī)科大學皮膚科探究了醫(yī)師如何采納人工智能系統提供的診斷建議,得到如下結論:①經驗越少的醫(yī)師越容易相信人工智能診斷結果而非醫(yī)師的診斷(即使醫(yī)師的診斷是正確的);②專家在信心充分時不易根據人工智能結果改變自己的判斷,在信心不足時也可通過人工智能系統獲得更多有助于診斷的參考信息;③不同經驗水平醫(yī)師在缺乏信心時均易接受人工智能的診斷建議;④若醫(yī)師過度依賴人工智能系統的診斷結果,可能導致隨著人工智能系統的誤診而改變自己正確判斷的結果[39]。因此在臨床應用中,醫(yī)師仍需保持獨立思考,應避免輕易采納人工智能系統提供的診斷結果。
人工智能的研究已進行了數十年,研究進程頗為曲折,目前借由計算機硬件技術的發(fā)展而得以發(fā)揮潛力。人工智能方法的優(yōu)勢在于快速大規(guī)模的數據處理能力及對復雜輸入輸出關系的強擬合能力,不足之處在于其良好性能依賴于數據質量,可解釋性問題也限制了其應用場景。作為一種技術工具,人工智能進入實際應用需要數據標準化、人工數據標注、醫(yī)學專家指導等外部條件的輔助。未來在疾病初篩、輔助和提升人工診斷效率,醫(yī)學科研前沿探索等方面,將會出現更多優(yōu)秀的臨床人工智能產品;而在數據偏倚較大,誤診后果嚴重或對診斷邏輯要求高等多種應用場景下,人工智能方法仍有待深入研究和探索。