徐璐璐 楊嘉樂(lè) 康樂(lè)樂(lè)
(1.南通大學(xué)圖書(shū)館,江蘇 南通 226019;2.南京大學(xué)信息管理學(xué)院,江蘇 南京 210023; 3.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023; 4.南通大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019)
醫(yī)學(xué)信息是面向基礎(chǔ)和臨床醫(yī)學(xué)為基礎(chǔ),融合計(jì)算機(jī)技術(shù)智能化應(yīng)用為代表的一門(mén)新興交叉學(xué)科。其中的智能化釋義:事物在網(wǎng)絡(luò)、大數(shù)據(jù)、物聯(lián)網(wǎng)等人工智能技術(shù)支持下,具有能動(dòng)滿足人各種需求的屬性,推進(jìn)現(xiàn)代人類(lèi)文明深度和廣度不斷發(fā)展的拓展趨勢(shì)。人工智能(Artificial Intelligence)是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人類(lèi)智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新興技術(shù)科學(xué),也已成為推動(dòng)國(guó)家持續(xù)發(fā)展的主要?jiǎng)恿Γ鲊?guó)(地區(qū))紛紛啟動(dòng)人工智能戰(zhàn)略規(guī)劃,旨在提升國(guó)家層面技術(shù)創(chuàng)新能力,擴(kuò)大本國(guó)(地區(qū))與其他國(guó)家(地區(qū))之間的差異。。
1956年,達(dá)特茅斯大學(xué)一次會(huì)議上,學(xué)者們正式提出“人工智能”一詞,邁出研究機(jī)器如何模擬人類(lèi)智能活動(dòng)新課題的第一步。隨后,人工智能不斷滲透教育、醫(yī)療等各個(gè)領(lǐng)域,不斷刷新人們的想象。自21世紀(jì),人工智能的5個(gè)標(biāo)志性事件相繼發(fā)生:2004年,美國(guó)國(guó)防部高等研究計(jì)劃署舉辦DARPA機(jī)器人挑戰(zhàn)賽;2008年,IBM提出“智慧地球”的概念;2012年,深度學(xué)習(xí)在圖像和語(yǔ)音方面產(chǎn)生重大突破,人工智能真正具備走出實(shí)驗(yàn)室步入市場(chǎng)的能力;2016年,Google DeepMind開(kāi)發(fā)人工智能程序“AlphaGo”與圍棋冠軍對(duì)決戰(zhàn)勝,引起全世界對(duì)人工智能的聚焦目光;2020年,生物界“AlphaGo”精準(zhǔn)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),解決生物學(xué)50年來(lái)重大挑戰(zhàn),成為顯著推動(dòng)醫(yī)學(xué)信息領(lǐng)域的重大進(jìn)步[1-6]。
在此時(shí)代潮流下,人工智能一步一步地融入了醫(yī)學(xué)信息的各個(gè)層面。歐美成為醫(yī)學(xué)信息智能化業(yè)界研發(fā)應(yīng)用領(lǐng)跑者,NIH投資320億美元進(jìn)行醫(yī)學(xué)信息智能化改造;英國(guó)10年投入60億英鎊,建設(shè)5個(gè)區(qū)域、300多家醫(yī)院和診所的國(guó)家信息化工程[7-8];立足國(guó)內(nèi),宏觀政策層面,2016年國(guó)家連續(xù)出臺(tái)《“健康中國(guó)2030”規(guī)劃綱要》《“十三五”全國(guó)人口健康信息化發(fā)展規(guī)劃》《關(guān)于促進(jìn)“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的指導(dǎo)意見(jiàn)》等[9]。
值得注意的是,醫(yī)學(xué)信息也隨著人工智能高技術(shù)、高門(mén)檻、高附加值的顯著特征發(fā)生了深刻變革。這些變革主要體現(xiàn)在:一方面,人工智能與醫(yī)學(xué)信息相關(guān)產(chǎn)業(yè)、政府和社會(huì)相互協(xié)同并交互升級(jí),創(chuàng)造出新興的醫(yī)學(xué)生態(tài)系統(tǒng),服務(wù)于更為復(fù)雜的基因組、細(xì)胞學(xué)等基礎(chǔ)科研和疾病的診斷、治療及并發(fā)癥等臨床醫(yī)療的現(xiàn)實(shí)場(chǎng)景之中;另一方面,由于精準(zhǔn)醫(yī)學(xué)范式引領(lǐng)和需求不斷擴(kuò)大,醫(yī)學(xué)信息越發(fā)依賴(lài)于人工智能的各類(lèi)優(yōu)化算法和模型,不斷改變醫(yī)生的工作模式,提高醫(yī)學(xué)領(lǐng)域的準(zhǔn)確性和效率,創(chuàng)新醫(yī)療服務(wù)高品質(zhì)發(fā)展,助力醫(yī)學(xué)信息領(lǐng)域各個(gè)環(huán)節(jié)。
綜上所述,人工智能在醫(yī)學(xué)信息領(lǐng)域多年來(lái)一直扮演著極其重要的角色。21世紀(jì)以來(lái),人工智能如何分階段地步入醫(yī)學(xué)信息領(lǐng)域,主題漂移內(nèi)容和呈現(xiàn)有何特征和區(qū)別,人工智能在醫(yī)學(xué)信息領(lǐng)域的演化脈絡(luò)又如何對(duì)于人工智能在醫(yī)學(xué)信息領(lǐng)域的未來(lái)有何展望呢。本研究以2000—2019年20年間的醫(yī)學(xué)信息發(fā)展為背景,以人工智能標(biāo)志性事件為階段,觀察醫(yī)學(xué)信息領(lǐng)域中人工智能技術(shù)的整體布局,通過(guò)3種深度學(xué)習(xí)的方法對(duì)醫(yī)學(xué)信息領(lǐng)域中人工智能技術(shù)進(jìn)行命名實(shí)體識(shí)別,并對(duì)其進(jìn)行詞頻對(duì)比統(tǒng)計(jì)并深度分析,實(shí)現(xiàn)人工智能技術(shù)命名實(shí)體識(shí)別的較優(yōu)效果。從而深入厘清人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域的主題漂移特征和規(guī)律、重要發(fā)展趨勢(shì)及演化軌跡,并提出3點(diǎn)未來(lái)可行性建議以做參考,更可為人工智能技術(shù)在其他領(lǐng)域?qū)嶓w識(shí)別及其如何發(fā)展變遷提供有價(jià)值、有意義的科學(xué)探討和研究借鑒。
進(jìn)入20世紀(jì),煥發(fā)活力的人工智能作為一種高效的技術(shù)工具,從獲取處理基礎(chǔ)的基因數(shù)據(jù),到調(diào)控識(shí)別各類(lèi)蛋白質(zhì)等網(wǎng)絡(luò)通路,再到面對(duì)復(fù)雜臨床疾病、文本圖像識(shí)別及藥物篩選等,不斷將先進(jìn)文明的科幻與現(xiàn)實(shí)場(chǎng)景加速融合,勢(shì)在必行地推動(dòng)人類(lèi)進(jìn)入新時(shí)代,為醫(yī)學(xué)信息相關(guān)領(lǐng)域的重大突破做出了巨大貢獻(xiàn)。2004年,國(guó)際人類(lèi)基因組測(cè)序組織(IHGSC)在《Nature》上發(fā)表一文描述人工智能如何利用強(qiáng)大潛能,建立一個(gè)新系統(tǒng)處理大量數(shù)據(jù)和臨床相關(guān)解釋?zhuān)瑥淖畛醯暮诵捻?xiàng)目200個(gè)全人類(lèi)基因組測(cè)序(WHGS)項(xiàng)目,擴(kuò)展到了750個(gè)WHG,幫助人類(lèi)基因組計(jì)劃走出困境[10]。隨后,Pr?ulj N等和Fortney K等利用人工智能在醫(yī)學(xué)信息領(lǐng)域進(jìn)行更豐富、更可行的操作,他們將數(shù)據(jù)信息與各類(lèi)網(wǎng)絡(luò)(蛋白質(zhì)相互作用網(wǎng)絡(luò)、轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、microRNA基因網(wǎng)絡(luò)、代謝和信號(hào)通路)整合在一起,識(shí)別數(shù)據(jù)孤島之間的關(guān)系,使用圖論算法或知識(shí)工具進(jìn)一步分析和深入了解這些數(shù)據(jù)與網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而表征這些蛋白質(zhì)、轉(zhuǎn)錄因子和microRNA的功能,最大限度地提高對(duì)轉(zhuǎn)化研究的影響,實(shí)現(xiàn)更準(zhǔn)確和可解釋的建模,增加對(duì)復(fù)雜疾病的理解,最終支持P4(精準(zhǔn)、個(gè)性化、參與式、預(yù)防性)醫(yī)學(xué)[11-12]。2011年,IBM研究人員利用名為沃森(Watson)的開(kāi)放智能問(wèn)答系統(tǒng)來(lái)參加比賽,達(dá)到了一個(gè)具有象征意義的里程碑,即可以梳理電子病歷和醫(yī)學(xué)文獻(xiàn)(如期刊),為人類(lèi)疾病做出臨床決策,并最終戰(zhàn)勝了排名最高的兩名人類(lèi)選手,獲得了勝利[13]。2013年,Abràmoff M D等利用Messidor數(shù)據(jù)庫(kù)對(duì)患者識(shí)別眼底虹膜等結(jié)構(gòu),通過(guò)人工智能的計(jì)算機(jī)檢測(cè)程序診斷糖尿病視網(wǎng)膜病變(RDR)相關(guān)信息,其準(zhǔn)確性與專(zhuān)家閱讀器的診斷準(zhǔn)確性相當(dāng)[14]。隨著模式識(shí)別工具數(shù)量和數(shù)據(jù)集大小的增加,人工智能在醫(yī)學(xué)圖像相關(guān)領(lǐng)域的分析呈指數(shù)級(jí)增長(zhǎng),2016年,Gillies R J等通過(guò)分析復(fù)雜系統(tǒng)內(nèi)生理參數(shù)、實(shí)驗(yàn)室和影像數(shù)據(jù),將圖像轉(zhuǎn)換為可挖掘的數(shù)據(jù),并隨后對(duì)這些數(shù)據(jù)進(jìn)行分析以提供決策支持,推動(dòng)智能在線問(wèn)診及預(yù)測(cè)疾病等,支撐各類(lèi)醫(yī)學(xué)信息及相關(guān)研究得以正常運(yùn)行[15]。2020年,Stokes J M等在《Cell》發(fā)文中基于深度神經(jīng)網(wǎng)絡(luò)模型引導(dǎo)的人工智能建模先進(jìn)方法,從龐大的化學(xué)文庫(kù)中預(yù)測(cè)新的候選抗生素,從而開(kāi)始有機(jī)會(huì)影響藥物發(fā)現(xiàn)的全新范式,擴(kuò)展對(duì)于抗生素庫(kù)的效用[16]。
基于上述文獻(xiàn)回顧可見(jiàn),人工智能所驅(qū)動(dòng)的相關(guān)技術(shù)正迅速演化為適用于醫(yī)學(xué)信息領(lǐng)域中精準(zhǔn)和高效的解決方案,越來(lái)越多地引起學(xué)術(shù)界的重點(diǎn)關(guān)注和聚焦。但是,人工智能在醫(yī)學(xué)信息領(lǐng)域的學(xué)術(shù)研究仍主要集中于國(guó)外文獻(xiàn),且針對(duì)某個(gè)具體領(lǐng)域逐一地進(jìn)行探討,國(guó)內(nèi)文獻(xiàn)也相對(duì)較少。特別是,鮮有研究能夠較為全面地追溯人工智能在醫(yī)學(xué)信息領(lǐng)域的主題漂移,系統(tǒng)探討其不同的主題特征,并通過(guò)時(shí)間維度來(lái)展示這些人工智能方法在醫(yī)學(xué)信息的發(fā)展脈絡(luò)。因此,很有必要重點(diǎn)聚焦與人類(lèi)生存和發(fā)展密切相關(guān)的醫(yī)學(xué)信息領(lǐng)域,著力關(guān)注人工智能作為一種“賦能”強(qiáng)大引力,如何不斷碰撞、融合、騰飛發(fā)展甚至重構(gòu)醫(yī)學(xué)信息的外延和內(nèi)涵,促使醫(yī)學(xué)信息在臨床和科研工作中愈加發(fā)揮不可估量作用。
針對(duì)所提出的研究問(wèn)題,本文首先采集了醫(yī)學(xué)信息學(xué)相關(guān)的學(xué)術(shù)論文。使用論文而非專(zhuān)利的主要原因是,論文更具有前沿性,往往引領(lǐng)著技術(shù)發(fā)展。通過(guò)分析學(xué)術(shù)論文,更能夠把握人工智能技術(shù)的發(fā)展趨勢(shì);其次,通過(guò)對(duì)論文數(shù)據(jù)利用VosViwer進(jìn)行分析,判斷該領(lǐng)域人工智能技術(shù)發(fā)展的時(shí)間脈絡(luò);最后,使用命名實(shí)體相關(guān)方法進(jìn)行主題漂移研究,從細(xì)粒度上分析醫(yī)學(xué)信息學(xué)領(lǐng)域具體人工智能技術(shù)的發(fā)展和應(yīng)用。
首先,本文依據(jù)2020年4月30日科睿唯安Journal Citation Reports(JCR)分區(qū)中Medical Informetrics類(lèi)目,確定26本Medical Informetrics英文期刊并獲取2000—2019年全部文獻(xiàn)題錄信息。然后,借助上述2000年、2004年、2008年、2012年、2016年人工智能標(biāo)志性事件,按照5個(gè)時(shí)間段全部題錄數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗,利用VosViewer可視化觀察人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域的分布,接著對(duì)其進(jìn)行BIO文本標(biāo)注,再通過(guò)BERT對(duì)文本數(shù)據(jù)預(yù)處理,再由CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種深度學(xué)習(xí)的命名實(shí)體方法[17-22],經(jīng)五折交叉實(shí)驗(yàn)對(duì)訓(xùn)練集和測(cè)試集來(lái)訓(xùn)練并識(shí)別醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)相關(guān)詞匯,從而最終對(duì)人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域如何應(yīng)用和發(fā)展,探討和挖掘相應(yīng)的主題漂移和演化脈絡(luò)。整體研究思路和框架流程如圖1所示。
圖1 研究思路和框架流程
本文采用Guitub人工智能等合計(jì)782個(gè)關(guān)鍵詞構(gòu)建本研究的標(biāo)注詞典,詞典對(duì)數(shù)據(jù)集進(jìn)行自動(dòng)BIO標(biāo)注,標(biāo)記序列(“B:開(kāi)始”,“I:內(nèi)部”,“O:外部”的縮寫(xiě))是一種對(duì)給定句子中的單元做序列標(biāo)注的方式,即從給定句子中抽取連續(xù)字/詞塊構(gòu)成有意義短語(yǔ),提取類(lèi)似于命名實(shí)體識(shí)別經(jīng)典問(wèn)題。并且,設(shè)計(jì)Python程序,利用標(biāo)注詞典對(duì)數(shù)據(jù)集進(jìn)行自動(dòng)標(biāo)注,其中80%訓(xùn)練,20%驗(yàn)證,以人工方式對(duì)標(biāo)注語(yǔ)料進(jìn)行審核,按照該語(yǔ)料標(biāo)注方法,構(gòu)建醫(yī)學(xué)信息領(lǐng)域涉及人工智能技術(shù)與方法語(yǔ)料庫(kù)。
基于上述剔除英文字母、亂碼句段、特殊字符、統(tǒng)一標(biāo)點(diǎn)符號(hào)等,得到人工智能技術(shù)相關(guān)內(nèi)容有效文本集含40 124條句子,26 052 241個(gè)字符,后本文進(jìn)行3種深度學(xué)習(xí)的命名實(shí)體識(shí)別實(shí)驗(yàn),對(duì)有效文本集進(jìn)行BIO文本標(biāo)注,后通過(guò)BERT對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,最后由3種CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種命名實(shí)體識(shí)別醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)相關(guān)詞匯,核心步驟和框架流程如圖2所示。
圖2 醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)命名實(shí)體核心步驟和流程
2.2.1 BERT預(yù)訓(xùn)練
任何模型的訓(xùn)練和預(yù)測(cè)都需要有一個(gè)明確的輸入,利用語(yǔ)言模型將文本表示為可以被計(jì)算機(jī)識(shí)別的輸入是進(jìn)行命名實(shí)體識(shí)別重要一步。2018年,提出BERT(Bidirectional Encoder Representation from Transformers),作為Word2Vec替代者,通過(guò)雙向Transformer的Encoder,捕捉更長(zhǎng)距離的依賴(lài),含有詞的向量(Token Embeddings)、語(yǔ)句分塊張量(Segmentation Embeddings)、位置編碼張量(Position Embeddings),將上述3個(gè)向量直接做加和形成最終的Embedding向量,在NLP測(cè)試中創(chuàng)造了當(dāng)時(shí)的最佳成績(jī)[23-24],如圖3所示。
圖3 基于BERT的文本向量化表示的示意圖
2.2.2 Bi LSTM
模塊長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)網(wǎng)絡(luò)(RNN)模型,克服傳統(tǒng)RNN模型由于序列過(guò)長(zhǎng)而產(chǎn)生的梯度彌散問(wèn)題[25-26],通過(guò)特殊設(shè)計(jì)的門(mén)結(jié)構(gòu)使得模型可有選擇地保存上下文信息,具有適合命名實(shí)體識(shí)別的特點(diǎn),其網(wǎng)絡(luò)的主要結(jié)構(gòu)可以形式化地表示為:
it=σ(wixxt+wihht-1+bi)
(1)
ft=σ(wfxxt+wfhht-1+bf)
ot=σ(woxxt+wohht-1+bo)
ht=ot?g(ct)
其中w代表各個(gè)權(quán)重矩陣,wix是輸入門(mén)到輸出的權(quán)重矩陣,b代表偏置向量,bi是輸入門(mén)的偏置向量,σ是Sigmoid函數(shù),i、f、o、c分別代表輸入門(mén)、忘記s門(mén)、輸出門(mén)以及Cell狀態(tài)更新向量,?代表點(diǎn)乘,g、h分別為Cell的輸入、輸出激活函數(shù),通常為tanh。
由于單向LSTM模型無(wú)法同時(shí)處理上下文信息,Graves A等提出Bi LSTM(Bidirectional Long-Short Term Memory,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)),對(duì)于每一個(gè)時(shí)刻而言都對(duì)應(yīng)著前向與后向的信息,對(duì)每個(gè)句子分別采用順序(從第一個(gè)詞開(kāi)始,從左往右遞歸)和逆序(從最后一個(gè)詞開(kāi)始,從右向左遞歸)計(jì)算得到兩套不同隱層的表示,然后通過(guò)向量拼接得到最終的隱層表示[27-28],其中輸出ht表示t時(shí)刻的輸出,具體結(jié)構(gòu)如圖4所示。
圖4 LSTM和Bi LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
2.2.3 線性CRF模塊
命名實(shí)體識(shí)別任務(wù)中,Bi LSTM善于處理長(zhǎng)距離的文本信息,但無(wú)法處理相鄰標(biāo)簽之間的依賴(lài)關(guān)系。CRF能通過(guò)鄰近標(biāo)簽的關(guān)系獲得一個(gè)最優(yōu)的預(yù)測(cè)序列,可以彌補(bǔ)Bi LSTM的缺點(diǎn)[29],故本文進(jìn)一步將CRF融合到Bi LSTM模塊中,對(duì)Bi LSTM輸出進(jìn)行處理,獲得全局最優(yōu)的標(biāo)記序列。對(duì)于任一個(gè)序列X,在此假定P是Bi LSTM的輸出得分矩陣,P的大小為n*k,其中n為詞的個(gè)數(shù),k為標(biāo)簽個(gè)數(shù),Pij表示第i個(gè)詞的第j個(gè)標(biāo)簽的分?jǐn)?shù)。對(duì)預(yù)測(cè)序列Y(y1,y2,…,yn)而言,得到它的分?jǐn)?shù)函數(shù)為:
(2)
式中,矩陣A是轉(zhuǎn)移矩陣,例如:Aij表示由標(biāo)簽i轉(zhuǎn)移到j(luò)的概率,y0、yn則是預(yù)測(cè)句子起始和結(jié)束的標(biāo)記,A是一個(gè)大小為k+2的方陣。所以在原序列X的條件下產(chǎn)生標(biāo)記序列y的概率為:
(3)
(4)
其中,YX表示所有可能的標(biāo)記集合,包括不符合BIO標(biāo)記規(guī)則的標(biāo)記序列。通過(guò)式(4)得到有效合理的輸出序列。預(yù)測(cè)時(shí),由式(5)輸出整體概率最大的一組序列:
(5)
2.2.4 Attention機(jī)制
2014年,Bahdanau D等在論文中第一次提出把Attention機(jī)制應(yīng)用到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯上[30],其通過(guò)模仿人類(lèi)注意力而提出一種解決問(wèn)題的辦法,從大量信息中快速篩選出高價(jià)值信息,保留LSTM的中間結(jié)果,用新的模型對(duì)其進(jìn)行學(xué)習(xí),并將其與輸出進(jìn)行關(guān)聯(lián),從而達(dá)到信息篩選的目的。在Bi LSTM層之后添加Attention層,用矩陣T來(lái)計(jì)算當(dāng)前目標(biāo)字與輸入文本中所有字的相似性。注意力權(quán)重系數(shù)tj(矩陣T的第t行第j列)表示第t個(gè)目標(biāo)輸出與第j個(gè)輸入的相似性,tj值越大,表示在生成第t個(gè)輸出的時(shí)候受第j個(gè)輸入的影響也就越大,計(jì)算如下:
(6)
(7)
stj被定義為括號(hào)中的兩種形式,分別表示為歐式距離,為b-a的值,當(dāng)xt和xj越相似的時(shí)候,余弦距離的值會(huì)越大,相反,歐式距離值會(huì)越小。
(8)
用一個(gè)全局變量ut表示解碼階段的第t時(shí)間序列,hj為Bi LSTM層的輸出編碼的權(quán)重之和,如下:
zt=tanh(wu[ut;ht])
(9)
將全局變量ut與Bi LSTM層的輸出ht合并成一個(gè)向量[ut;ht],再將其喂給一個(gè)tanh函數(shù)作為Attention層的輸出。
在Attention層之后用一個(gè)tanh層預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)簽得分:
在超聲的引導(dǎo)下,甲狀腺結(jié)節(jié)粗針穿刺活檢能夠準(zhǔn)確的診斷出結(jié)節(jié)的良性與惡性,且因粗針穿刺組織取樣足,檢測(cè)成功率高,對(duì)甲狀腺CNB的診斷精準(zhǔn)性高,并發(fā)癥的發(fā)生率低,值得大力推廣。與細(xì)針穿刺相比,粗針活檢取出的組織充足,在病理分析的難度上明顯低于細(xì)針的細(xì)胞學(xué)分析,更易于在基層醫(yī)院開(kāi)展。
et=tanh(wezt)
(10)
總之,自底向上:①長(zhǎng)度為N的輸入序列將獲得的3種不同的向量表示,分別為:Token Embeddings表示詞的向量;Segment Embeddings表示輔助BERT區(qū)別句子對(duì)中的兩個(gè)句子的向量;Position Embeddings讓BERT學(xué)習(xí)到輸入的順序?qū)傩?;②利用Bi LSTM獲取每個(gè)詞長(zhǎng)距離的上下文特征;③CRF層考慮單詞標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)注序列;④最后引入Attention模型對(duì)Bi-LSTM層輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算,根據(jù)重要度獲取文本整體特征,有助于取得更好的性能指標(biāo)。
本文依據(jù)上述科睿唯安JCR分區(qū)中Medical Informetrics類(lèi)目中確定26本相應(yīng)英文期刊并獲取2000—2019年全部文獻(xiàn)題錄信息,將21世紀(jì)以來(lái)的20年數(shù)據(jù)劃分5個(gè)時(shí)間段(2000年、2004年、2008年、2012年、2016年人工智能標(biāo)志性事件),并利用VosViewer軟件提取共現(xiàn)關(guān)鍵詞清晰可見(jiàn):2000—2003年model、models、meta-analysis、longitudinal data等;2004—2007 年model、models、logistic regression、longitudinal data等;2008—2011年model、models、algorithm、clustering等;2012—2015年model、models、regression、networks等;2016—2019年 model、models、machine learning、automatic detection等。20年來(lái),醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)的發(fā)展大致圍繞模型、算法與聚類(lèi)分析(model、algorithm、clustering),臨床前期研究(meta-analysis),臨床實(shí)驗(yàn)和數(shù)據(jù)管理(clinical trail、longitudinal data、networks),機(jī)器學(xué)習(xí)和自動(dòng)化技術(shù)(machine learning、automatic detection),大規(guī)模流行病預(yù)測(cè)(prediction)等方面,可視化結(jié)果顯示人工智能技術(shù)明顯簇?fù)碛谔摼€區(qū)域并在醫(yī)學(xué)信息領(lǐng)域持續(xù)占據(jù)重要地位,具體如圖5所示。
圖5 2000—2019年5個(gè)時(shí)間段醫(yī)學(xué)信息領(lǐng)域關(guān)鍵詞的總體分布占比
本文中醫(yī)學(xué)信息人工智能技術(shù)語(yǔ)料處理利用Python程序存儲(chǔ)Google云端硬盤(pán),采用計(jì)算平臺(tái)為Google Colaboratory,提供免費(fèi)云端Jupyter Notebook環(huán)境,支持Python 3.8運(yùn)行,使用GPU便于硬件加速,實(shí)驗(yàn)平臺(tái)參數(shù)Tesla K80,NVIDA驅(qū)動(dòng)版本418.67,CUDA版本10.10,顯存11.00GB。字符向量化由Google BERT訓(xùn)練得到,通過(guò)多輪測(cè)試,語(yǔ)言模型及序列標(biāo)注模型參數(shù)設(shè)置暫定為表1所示。編寫(xiě)Python程序調(diào)用Kashgari開(kāi)源框架中的BERT-Base Uncased_L-12_H-768_A-1模型進(jìn)行Bi LSTM、Bi LSTM—CRF和基于Attention機(jī)制Bi LSTM—CRF的3種實(shí)驗(yàn)方法。
表1 3種深度學(xué)習(xí)模型的參數(shù)
3.3.1 3種命名實(shí)體結(jié)果對(duì)比
在這項(xiàng)研究中,對(duì)于所抽取出來(lái)醫(yī)學(xué)信息人工智能技術(shù)的實(shí)體知識(shí),本文主要采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、F1值(F-Measure)這3個(gè)指標(biāo)進(jìn)行判定Bi LSTM、Bi LSTM-CRF和基于Attetion機(jī)制Bi LSTM-CRF 3種模型性能。使用F1值評(píng)分來(lái)評(píng)估模型的性能,同時(shí)考慮精度和召回率。將實(shí)驗(yàn)語(yǔ)料按照4∶1比例劃分出訓(xùn)練集和測(cè)試集。采用五折交叉驗(yàn)證的方法,每次實(shí)驗(yàn)隨機(jī)選擇其中4份進(jìn)行訓(xùn)練,余下1份進(jìn)行測(cè)試,對(duì)5次實(shí)驗(yàn)的結(jié)果求平均值,結(jié)果如表2所示,具體計(jì)算公式如下:
表2 醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)的3種命名實(shí)體實(shí)驗(yàn)結(jié)果
(11)
(12)
(13)
從表2可以看出,本研究在不使用任何人工特征的情況下,基于BERT模型為輸入的深度學(xué)習(xí)模型在醫(yī)學(xué)信息領(lǐng)域中人工智能的實(shí)體識(shí)別任務(wù)上,避免傳統(tǒng)機(jī)器學(xué)習(xí)方法導(dǎo)致系統(tǒng)成本提升、泛化能力下降的不良后果,獲得了比使用大量豐富特征和領(lǐng)域知識(shí)的淺層機(jī)器學(xué)習(xí)方法相對(duì)理想的性能結(jié)果。特別是,后兩種深度學(xué)習(xí)模型相對(duì)更為優(yōu)化,得益于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)擁有兩個(gè)相反方向的并行層特征,能夠同時(shí)考慮上下文信息。第二種模型Bi LSTM-CRF的準(zhǔn)確率均值提高到89.04%,召回率均值提高到75.60%,F(xiàn)1值均值提高到81.61%;第三種模型Bi LSTM-CRF-Attention的性能整體上更優(yōu),準(zhǔn)確率提高到89.08%,召回率提高到88.13%,F(xiàn)1值提高到88.40%。
尤其是第三種模型,不再僅以簡(jiǎn)單詞向量,使用BERT語(yǔ)言模型通過(guò)3部分Embedding求和組成來(lái)對(duì)文本進(jìn)行特征訓(xùn)練取得更好輸入,利用Bi LSTM提取上下文信息,避免喪失連接到遠(yuǎn)處信息的能力,同時(shí)結(jié)合CRF模型提取全局最優(yōu)序列,繼而通過(guò)Attention機(jī)制,提煉那些比較重要的單詞,賦予權(quán)重以提高他們的重要性,處理文本分類(lèi)的相關(guān)問(wèn)題具有較好的效果,該方法可以聚焦到最重要的詞,從而捕獲到句子中最重要的語(yǔ)義信息。在一定程度上,說(shuō)明集成了鏈?zhǔn)紺RF模型后,能夠充分利用相鄰標(biāo)簽之間的關(guān)系特征,考慮上下文的關(guān)系,并利用Attention機(jī)制本質(zhì)加權(quán)求和,從而比較穩(wěn)定地提高了整個(gè)序列化標(biāo)注的性能,最終識(shí)別醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)相關(guān)命名實(shí)體,從而為進(jìn)一步準(zhǔn)確地分析醫(yī)學(xué)信息領(lǐng)域中人工智能技術(shù)的主題漂移不同特征和發(fā)展脈絡(luò)提供重大幫助。
3.3.2 主題漂移的結(jié)果分析
基于命名實(shí)體識(shí)別結(jié)果,本文把20年來(lái)在醫(yī)學(xué)信息領(lǐng)域的人工智能相關(guān)技術(shù)進(jìn)行詞頻統(tǒng)計(jì),用于探索與尋找在5個(gè)時(shí)間階段中人工智能在醫(yī)學(xué)信息領(lǐng)域的主題漂移特征規(guī)律和演化軌跡。
1)人工智能的主題漂移軌跡主流相對(duì)穩(wěn)固——高、中頻關(guān)鍵詞
通過(guò)詞頻統(tǒng)計(jì)發(fā)現(xiàn),高頻次(1~5)排名前3位的一直集中是回歸(Regression)、分布(Distribution)和計(jì)算程式(Algorithm),即醫(yī)學(xué)信息領(lǐng)域涉及的人工智能方面的主要技術(shù)較為穩(wěn)定,改變并不明顯。中頻詞(6~10)選取有特征性,如:精確(Precision)、干預(yù)(Inference)、假定(Hypothesis)、聚類(lèi)(Clustering)、零散值(Odd)、ROC曲線、準(zhǔn)確性(Exact)等,總體也相對(duì)集中穩(wěn)定,且變化不大,代表性舉例結(jié)果如表3所示。
表3 具有代表性意義醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)的高、中、低頻詞
由此可見(jiàn),自21世紀(jì)以來(lái)的20年,人工智能在醫(yī)學(xué)信息領(lǐng)域歷經(jīng)多年的碰撞和磨合,高頻詞較為集中地圍繞在運(yùn)用各種簡(jiǎn)單回歸(Regression)等模型,同時(shí)中頻詞也相對(duì)穩(wěn)定地使用聚類(lèi)、假設(shè)等算法。同時(shí),這些持續(xù)占比較重的高、中頻詞,正是相對(duì)比較傳統(tǒng)型的人工智能技術(shù),20年來(lái)一直持久并深入地應(yīng)用于醫(yī)學(xué)信息領(lǐng)域的各個(gè)方面,相對(duì)固定且變化并不明顯。也就是說(shuō),人工智能的主題漂移軌跡主流呈現(xiàn)出尚缺乏帶動(dòng)性、爆發(fā)性的超級(jí)應(yīng)用融入基礎(chǔ)和臨床醫(yī)療領(lǐng)域,整體技術(shù)和研究流程依舊保持成熟穩(wěn)固的風(fēng)格,進(jìn)入比較理性和務(wù)實(shí)的主題狀態(tài)。
2)人工智能的主題漂移軌跡分支確有變化——低頻關(guān)鍵詞
基于上述高、中頻詞的觀察和分析可見(jiàn),醫(yī)學(xué)信息領(lǐng)域人工智能的主題漂移軌跡主流集中于基礎(chǔ)性相關(guān)技術(shù),整體進(jìn)入相對(duì)理性和務(wù)實(shí)狀態(tài)。進(jìn)一步基于5個(gè)時(shí)間段進(jìn)行命名實(shí)體識(shí)別訓(xùn)練,并對(duì)醫(yī)學(xué)信息領(lǐng)域人工智能技術(shù)低頻詞進(jìn)行詞頻統(tǒng)計(jì)(11~15),卻呈現(xiàn)不同的結(jié)果:2000—2003年離群值(Outlier)、機(jī)器學(xué)習(xí)之則化(Regularization)、多元線性回歸模型(MLR)、向量子空間(Subspace);2004—2007年多元線性回歸模型(MLR)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、學(xué)習(xí)向量量化(LVQ);2008—2011年深度神經(jīng)網(wǎng)絡(luò)(DNN)、隨時(shí)間反向傳播(BPTT)、BERT模型及微調(diào)(Fine-tuning);2012—2015年最大期望(Expectation-Maximization)算法、標(biāo)準(zhǔn)化(Normalization)算法;2016—2019年最大似然法(Log-likelihood)、邊緣化算法(Marginalization)、條件隨機(jī)場(chǎng)模型(CRF),詳見(jiàn)表3結(jié)果。
由此可見(jiàn),低頻詞變化從多元線性回歸模型,到深度神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)向量量化,再到各種標(biāo)準(zhǔn)化算法、邊緣化算法、BERT模型等,人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域明顯表現(xiàn)出由機(jī)器學(xué)習(xí)過(guò)度較為復(fù)雜深度學(xué)習(xí)的主題漂移分支特征。由于人工智能中具有難度的深度學(xué)習(xí)等相關(guān)技術(shù)尚未能高頻、全面使用,故對(duì)于其在醫(yī)學(xué)信息領(lǐng)域可能產(chǎn)生突破性的成果依然存有大量空間且尚需努力。因此,本文繼續(xù)對(duì)于低頻詞的典型性事例從主題、對(duì)象、方法、技術(shù)、目的和效果歸納如表4所示。
表4 人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域低頻詞的典型性事例
表4(續(xù))
3)主題漂移部分呈現(xiàn)直覺(jué)→支持→策略→后推理→前推理發(fā)展趨勢(shì)
通過(guò)上述人工智能技術(shù)的低頻詞典型性舉例的變化,清晰可見(jiàn)其由淺入深地融入醫(yī)學(xué)信息相關(guān)領(lǐng)域之主題漂移的部分發(fā)展趨勢(shì):①?gòu)倪x取動(dòng)物進(jìn)行實(shí)驗(yàn),早期運(yùn)用回歸模型處理簡(jiǎn)單事實(shí)的經(jīng)驗(yàn)知識(shí),生成簡(jiǎn)單的規(guī)則,得出某種醫(yī)學(xué)結(jié)論;②逐漸發(fā)展為面對(duì)多個(gè)及特殊問(wèn)題,通過(guò)對(duì)病患至少兩種以上的數(shù)據(jù)進(jìn)行分析,為醫(yī)生給出相對(duì)準(zhǔn)確的診斷建議;③充分利用數(shù)據(jù),利用各種回歸模型,對(duì)誤差進(jìn)行分析,處理復(fù)雜問(wèn)題,讓醫(yī)生再結(jié)合自己的專(zhuān)業(yè)進(jìn)行判斷,使診斷更快、更精準(zhǔn);④基于已經(jīng)掌握的數(shù)據(jù)和事實(shí),運(yùn)用標(biāo)準(zhǔn)化算法不斷地將各類(lèi)信息進(jìn)行多次加工整理,前推理地形成相應(yīng)的醫(yī)學(xué)知識(shí),進(jìn)行分類(lèi)、分析關(guān)聯(lián)關(guān)系,實(shí)時(shí)輔助醫(yī)生醫(yī)療決策;⑤在數(shù)字健康時(shí)代,當(dāng)事實(shí)于結(jié)果并無(wú)確定關(guān)系,利用文本數(shù)據(jù)、各種數(shù)據(jù)庫(kù)等多元性的數(shù)據(jù),為醫(yī)學(xué)知識(shí)注入卷積神經(jīng)網(wǎng)絡(luò),借助人工智能里邊緣性的多源算法,為醫(yī)生提供可信度較高的后推理,進(jìn)行各種健康管理,提高生活質(zhì)量,延伸至精準(zhǔn)醫(yī)療。
情報(bào)學(xué)領(lǐng)域經(jīng)典理論是由事實(shí)(Facts)→數(shù)據(jù)(Data)→信息(Information)→知識(shí)(Knowledge)→智能(Intelligence)5個(gè)鏈環(huán)構(gòu)成的信息鏈,即它是以信息為中心環(huán)節(jié),描述信息運(yùn)動(dòng)的一種邏輯構(gòu)造。而上述醫(yī)學(xué)信息領(lǐng)域中人工智能技術(shù)低頻詞的發(fā)展規(guī)律部分呈現(xiàn),直覺(jué)(經(jīng)驗(yàn)發(fā)掘)→支持(深入理解)→策略(強(qiáng)化分析)→后推理(支撐決策)→前推理(提前預(yù)測(cè)),清晰可見(jiàn)其主題漂移的演化脈絡(luò),這與情報(bào)學(xué)領(lǐng)域經(jīng)典理論“信息鏈”的完整邏輯鏈不謀而合[31]。也就是說(shuō),人工智能相關(guān)技術(shù)通過(guò)直覺(jué)感受可感事實(shí)信息→自動(dòng)理解數(shù)據(jù)并接收認(rèn)知信息→系統(tǒng)化、有邏輯地、有策略地分析既可感又可知信息→基于各種客觀信息的升華后做出決策→智能掌握分析海量數(shù)據(jù)并傳遞信息提前預(yù)測(cè),逐步發(fā)揮不可替代的重要作用,覆蓋診前、中、后全流程,極大促進(jìn)醫(yī)學(xué)信息及相關(guān)領(lǐng)域的成熟,步步助力精準(zhǔn)醫(yī)學(xué)的飛躍頂端,如圖6所示。
圖6 人工智能技術(shù)在醫(yī)學(xué)信息領(lǐng)域中主題漂移的部分發(fā)展趨勢(shì)
綜上所述,基于5個(gè)人工智能在醫(yī)學(xué)信息領(lǐng)域具有不同主題漂移特征和演化趨勢(shì)。一是,高、中和低頻詞基本集中于較為傳統(tǒng)型的人工智能技術(shù),低頻詞分階段涉及不同類(lèi)型的深度學(xué)習(xí)等較為復(fù)雜性人工智能技術(shù);二是,高頻詞變化小,最為穩(wěn)固,中頻詞整體相對(duì)穩(wěn)固,低頻詞隨著不同階段確有一定程度改變;三是,人工智能在醫(yī)學(xué)信息領(lǐng)域中主題漂移的演化脈絡(luò)呈現(xiàn)總體相對(duì)穩(wěn)固尚未能發(fā)生顛覆性的變革,但部分呈現(xiàn)直覺(jué)(經(jīng)驗(yàn)發(fā)掘)→支持(深入理解)→策略(強(qiáng)化分析)→后推理(支撐決策)→前推理(提前預(yù)測(cè))的發(fā)展趨勢(shì)。
由此可見(jiàn),目前醫(yī)學(xué)信息領(lǐng)域中人工智能尚處于弱人工智能時(shí)代,尚未完全具備溝通、引領(lǐng)、創(chuàng)新及突破的承載功能。未來(lái),期望通過(guò)人工智能技術(shù)來(lái)挖掘醫(yī)學(xué)信息領(lǐng)域強(qiáng)大內(nèi)在功能和多樣異質(zhì)特征,以最新研究技術(shù)和方法推動(dòng)其進(jìn)步與發(fā)展,有望將醫(yī)學(xué)傳統(tǒng)疾病檢測(cè)、診斷和治療轉(zhuǎn)變拓展為以數(shù)據(jù)為導(dǎo)向、面向技術(shù)的學(xué)科引領(lǐng)與創(chuàng)新,取得與人類(lèi)智能相媲美的成就。因此,根據(jù)上述人工智能在醫(yī)學(xué)信息領(lǐng)域主題漂移主流和分支不同特征和演化脈絡(luò),現(xiàn)有3點(diǎn)展望和建議,以供參考和驗(yàn)證。
在技術(shù)層面上,全面系統(tǒng)地學(xué)習(xí)人工智能各類(lèi)方法,將傳統(tǒng)型的技術(shù)更好地發(fā)揮和應(yīng)用于醫(yī)學(xué)信息領(lǐng)域。AlphaGo最主要研發(fā)人員David Silver博士曾經(jīng)表示:強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí)=人工智能?;趯W(xué)習(xí)充分理解人工智能現(xiàn)狀優(yōu)勢(shì)和潛在局限,將狹義人工智能通過(guò)“學(xué)習(xí)如何學(xué)習(xí)”,把人工智能傳統(tǒng)型的技術(shù)優(yōu)化為更具有廣泛價(jià)值及通用人工智能,繼而對(duì)其進(jìn)行有效選擇,通過(guò)單個(gè)項(xiàng)目到多任務(wù)地實(shí)戰(zhàn)演練和掌握處理復(fù)雜性和多樣性的醫(yī)學(xué)數(shù)據(jù)。一步步深刻理解人工智能全方位的特殊性質(zhì),不斷強(qiáng)化學(xué)習(xí)和自我對(duì)弈來(lái)提升人工智能的傳統(tǒng)技術(shù),更好理解其優(yōu)、缺點(diǎn),才能構(gòu)建豐富的醫(yī)學(xué)領(lǐng)域知識(shí)庫(kù),合理利用、分類(lèi)選擇、預(yù)測(cè)結(jié)果,獲取更公平、更少偏見(jiàn)的決策。也只有這樣,才能從根本上利用人工智能中傳統(tǒng)型技術(shù)更好地處理醫(yī)學(xué)信息領(lǐng)域復(fù)雜問(wèn)題和任務(wù)。產(chǎn)生令人印象深刻的翻天覆地的變化及突破,從而打開(kāi)通向卓越醫(yī)療保健的有效途徑。
在應(yīng)用層面上,不斷開(kāi)發(fā)具有復(fù)雜性的人工智能技術(shù),將其更精準(zhǔn)地應(yīng)用于醫(yī)學(xué)信息領(lǐng)域。由于醫(yī)學(xué)信息數(shù)據(jù)可分為大量結(jié)構(gòu)化數(shù)據(jù)(例如,國(guó)際疾病分類(lèi)代碼、實(shí)驗(yàn)室結(jié)果和藥物),非結(jié)構(gòu)化數(shù)據(jù)(醫(yī)師筆記、大多數(shù)記錄的數(shù)據(jù)),以及各類(lèi)數(shù)據(jù)的產(chǎn)生真實(shí)世界證據(jù)(關(guān)于醫(yī)療產(chǎn)品的使用、潛在益處或風(fēng)險(xiǎn)的臨床證據(jù))。對(duì)于結(jié)構(gòu)化數(shù)據(jù)完全可用現(xiàn)有科學(xué)技術(shù)進(jìn)行全面處理,但對(duì)于非結(jié)構(gòu)化數(shù)據(jù)和各類(lèi)數(shù)據(jù)產(chǎn)生的證據(jù)則需要進(jìn)行更為復(fù)雜的處理,人類(lèi)光靠自己是做不到的。因此,不斷開(kāi)發(fā)具有難度和深度的人工智能技術(shù),搜集大量外部數(shù)據(jù)信息,進(jìn)行患者檢查、數(shù)字格式保存、收集和分析病歷、藥物治療、處理各類(lèi)大型數(shù)據(jù)集等,并將其轉(zhuǎn)換為可分析的格式,確保一定程度的準(zhǔn)確性和可靠性,通過(guò)不帶有個(gè)人情緒和環(huán)境影響的人工智能技術(shù),引出各類(lèi)數(shù)據(jù)和證據(jù)更為深刻的內(nèi)在含義,大量減少漏診與誤診的幾率,分門(mén)別類(lèi)地精準(zhǔn)執(zhí)行醫(yī)學(xué)任務(wù)。人工智能技術(shù)不斷提升和拓展,給予醫(yī)學(xué)信息領(lǐng)域強(qiáng)大賦能,提取具有異質(zhì)癥狀的疾病本質(zhì),獲得更高質(zhì)量決策應(yīng)用和監(jiān)督管理,有助于對(duì)基礎(chǔ)研究和臨床診斷提供優(yōu)質(zhì)解決方案。
基于實(shí)踐驅(qū)動(dòng)和理論方法并行為特征的雙向?qū)用妫斯ぶ悄芗夹g(shù)的不斷深入和互動(dòng)于醫(yī)學(xué)信息領(lǐng)域。一方面,利用人工智能技術(shù)的精細(xì)化、多樣化手段進(jìn)行患者檢查,創(chuàng)新針對(duì)性、個(gè)性化的療法,嘗試獨(dú)特用藥及外科手術(shù)治療,幫助復(fù)雜醫(yī)療案件做出相對(duì)高效的優(yōu)化決策和精準(zhǔn)治療;一方面,人工智能賦予醫(yī)療行業(yè)更可靠的技術(shù),借助人工智能技術(shù)預(yù)約、跟蹤、檢測(cè)、調(diào)查在線患者,對(duì)健康預(yù)測(cè)提供便利和支持,普及到每家每戶,讓人們足不出戶做到日常預(yù)防監(jiān)測(cè),這樣不僅能夠提升醫(yī)療人員的工作效率,也從源頭上節(jié)約了醫(yī)療成本;另一方面,隨著人工智能擴(kuò)散到醫(yī)學(xué)信息各個(gè)領(lǐng)域,務(wù)必利用其強(qiáng)大的先發(fā)優(yōu)勢(shì)預(yù)測(cè)解決數(shù)據(jù)隱私、數(shù)據(jù)安全、數(shù)據(jù)保護(hù)等潛在危險(xiǎn)及社會(huì)影響,可持續(xù)性地對(duì)人民群眾身心安全起到強(qiáng)有力的保障作用。
自21世紀(jì)以來(lái),醫(yī)學(xué)信息領(lǐng)域不斷壯大、發(fā)展和挑戰(zhàn),人工智能技術(shù)不斷更新、嵌入及融合?;卺t(yī)學(xué)信息領(lǐng)域的人工智能技術(shù)現(xiàn)有整體相對(duì)穩(wěn)固,但尚缺乏顛覆性變革的現(xiàn)狀,部分呈現(xiàn)直覺(jué)(經(jīng)驗(yàn)發(fā)掘)→支持(深入理解)→策略(強(qiáng)化分析)→后推理(支撐決策)→前推理(提前預(yù)測(cè))的發(fā)展趨勢(shì)。未來(lái)期待通過(guò)上述技術(shù)、應(yīng)用及并行層面的3點(diǎn)展望,以人工智能強(qiáng)力崛起高技術(shù)、高門(mén)檻、高附加值的顯著特征,呈現(xiàn)從單一簡(jiǎn)單到復(fù)雜多樣地整理分析現(xiàn)實(shí)生活中的醫(yī)學(xué)信息,優(yōu)化臨床策略和精準(zhǔn)治療,協(xié)調(diào)醫(yī)學(xué)信息整體規(guī)劃,開(kāi)發(fā)提供健康預(yù)測(cè),制定相關(guān)國(guó)家政策法規(guī)等,邁向具有革命性影響且意義深遠(yuǎn)的美好未來(lái)。