• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子病歷文本挖掘研究綜述

      2021-11-25 09:18:02吳宗友白昆龍楊林蕊王儀琦田英杰
      關(guān)鍵詞:病歷實(shí)體文本

      吳宗友 白昆龍 楊林蕊 王儀琦 田英杰

      1(中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100049) 2(中國科學(xué)院大學(xué)計(jì)算機(jī)與科學(xué)技術(shù)學(xué)院 北京 100049) 3(中國科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心(中國科學(xué)院大學(xué)) 北京 100190) 4(中國科學(xué)院大數(shù)據(jù)挖掘與知識管理重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院大學(xué)) 北京 100190) 5(中國科學(xué)院大學(xué)中丹學(xué)院 北京 100049)

      (bossbit@126.com)

      在過去的幾十年里,互聯(lián)網(wǎng)信息技術(shù)蓬勃發(fā)展,使得數(shù)據(jù)的管理與傳輸變得更為高效,同時(shí)醫(yī)療機(jī)構(gòu)也構(gòu)建了大量的電子病歷信息庫.在眾多的現(xiàn)代化醫(yī)療數(shù)據(jù)中,電子病歷數(shù)據(jù)是最重要的醫(yī)療數(shù)據(jù)資源之一.每天都有海量的電子病歷數(shù)據(jù)在各級醫(yī)院產(chǎn)生,形成了醫(yī)療大數(shù)據(jù)的重要組成部分.電子病歷以患者為主體,比較完整地記錄患者長期的醫(yī)療信息,并且經(jīng)過計(jì)算機(jī)技術(shù)的整理、儲存、共享和分析,是紙質(zhì)病歷的升級版本.電子病歷的特性使得相關(guān)信息庫中同時(shí)包含著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)如表格數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)如文本數(shù)據(jù)和醫(yī)學(xué)圖像等.

      對電子病歷進(jìn)行數(shù)據(jù)挖掘有巨大的應(yīng)用前景,然而電子病歷數(shù)據(jù)量大、非結(jié)構(gòu)化數(shù)據(jù)多的特點(diǎn)使得數(shù)據(jù)挖掘十分困難.雖然早期部分研究人員利用一些簡單的電子病歷數(shù)據(jù)挖掘方法如決策樹[1]等輔助診斷,但是由于技術(shù)和方法的限制,對醫(yī)療數(shù)據(jù)的信息挖掘效果十分有限.而近年來,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在其他領(lǐng)域展現(xiàn)的巨大潛力給電子病歷的挖掘帶來了新的希望[2].本文主要針對電子病歷中的文本數(shù)據(jù)部分,結(jié)合國內(nèi)外的研究現(xiàn)狀,分析電子病歷數(shù)據(jù)挖掘面臨的挑戰(zhàn)以及現(xiàn)有的解決方案.

      1 電子病歷

      電子病歷往往包含了患者就診過程中產(chǎn)生的多種數(shù)據(jù)格式,如文本、圖像、表格等.本文主要針對的是電子病歷中的文本部分,包括患者基本信息、患者病史、患者的癥狀、醫(yī)生的診斷說明等.電子病歷中的文本數(shù)據(jù)同樣分為結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息.結(jié)構(gòu)化信息如身高、體重等往往通過簡單的數(shù)據(jù)清洗就可以作為各種機(jī)器學(xué)習(xí)算法的輸入;非結(jié)構(gòu)化的信息如診斷信息、用藥信息、檢查信息、臨床記錄等,這些數(shù)據(jù)則需要較為復(fù)雜的預(yù)處理和自然語言處理(natural language processing, NLP).對電子病歷信息進(jìn)行分析與利用需要大量有專業(yè)知識的人工付出大量的時(shí)間,成本昂貴.而NLP的發(fā)展為自動(dòng)處理電子病歷文本數(shù)據(jù)提供了基礎(chǔ).對電子病歷的數(shù)據(jù)挖掘有助于節(jié)省人力物力,提高醫(yī)生的診斷效率,實(shí)現(xiàn)智慧醫(yī)療.

      電子病歷的數(shù)據(jù)挖掘始于數(shù)據(jù)收集和預(yù)處理,在獲得海量電子病歷數(shù)據(jù)后需要針對數(shù)據(jù)的特性和挖掘分析的目標(biāo)對數(shù)據(jù)進(jìn)行預(yù)處理.電子病歷數(shù)據(jù)預(yù)處理常用的方法主要包括脫敏處理、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)規(guī)約.

      1) 脫敏處理.電子病歷的一個(gè)特性是隱私性,這意味著相關(guān)數(shù)據(jù)的收集只能以大型的醫(yī)院信息部門或者一些專業(yè)的醫(yī)療機(jī)構(gòu)作為數(shù)據(jù)來源,并且公開數(shù)據(jù)集時(shí)要對數(shù)據(jù)進(jìn)行處理,隱藏掉部分信息以保護(hù)患者的隱私權(quán).

      2) 數(shù)據(jù)清洗.數(shù)據(jù)清洗其主要目的是將錯(cuò)誤或雜亂無章的數(shù)據(jù)處理成干凈、標(biāo)準(zhǔn)的數(shù)據(jù)以供后續(xù)數(shù)據(jù)統(tǒng)計(jì)和挖掘使用.數(shù)據(jù)清洗主要包括補(bǔ)齊、去重和降維等方法,需要針對不同數(shù)據(jù)選擇具體的方法.對電子病歷文本挖掘前的數(shù)據(jù)清洗需要考慮電子病歷的特點(diǎn),電子病歷的建立通常需要醫(yī)護(hù)人員和患者協(xié)作,在記錄過程中可能會有數(shù)據(jù)缺失、噪聲數(shù)據(jù)、錯(cuò)誤語義甚至是自相矛盾的數(shù)據(jù)或文本存在.對于缺失的數(shù)據(jù),通常可以只刪除帶有缺失數(shù)據(jù)的樣本或者采用均值將缺失數(shù)據(jù)填充,再者,可以采用類似于回歸、貝葉斯、決策樹等機(jī)器學(xué)習(xí)方法來確定填充數(shù)據(jù)的最佳值.而噪聲數(shù)據(jù)通常指的是數(shù)據(jù)出現(xiàn)了明顯的不正常數(shù)值,如血壓數(shù)值高于常人數(shù)倍,面對這樣的數(shù)據(jù),通常采用平滑處理或異常值分析的方法.平滑處理通常用數(shù)據(jù)周圍點(diǎn)的均值進(jìn)行處理,而異常值分析方法通常通過聚類方法來構(gòu)建類別從而處理數(shù)據(jù).另外,面對一些語法錯(cuò)誤和語義錯(cuò)誤,只能通過人為再編輯或者NLP技術(shù)進(jìn)行修正.

      3) 數(shù)據(jù)集成.經(jīng)過數(shù)據(jù)清洗過后干凈的數(shù)據(jù)需要經(jīng)過數(shù)據(jù)集成操作,數(shù)據(jù)集成通常是指將不同源頭的電子病歷數(shù)據(jù)集成到同一個(gè)數(shù)據(jù)庫中,可以擴(kuò)大數(shù)據(jù)規(guī)模,方便模型的訓(xùn)練和后續(xù)算法的研究.但是數(shù)據(jù)集成也存在著問題,從不同源集成的數(shù)據(jù)之間可能存在結(jié)構(gòu)的不一致或數(shù)據(jù)存在冗余的現(xiàn)象,那么整理之后的數(shù)據(jù)要重新進(jìn)行數(shù)據(jù)清洗.在電子病歷數(shù)據(jù)中,同一個(gè)患者的數(shù)據(jù)可能來自不同醫(yī)院的不同科室,這些數(shù)據(jù)很容易出現(xiàn)異構(gòu)或重復(fù)的現(xiàn)象.

      4) 數(shù)據(jù)選擇.針對不同的研究目標(biāo),對整理出的電子病歷數(shù)據(jù)進(jìn)行內(nèi)容篩選處理也十分重要.根據(jù)研究目的的不同,選擇出電子病歷中不同的病歷記錄.經(jīng)過數(shù)據(jù)選擇確定研究數(shù)據(jù),一方面可以剔除掉無關(guān)屬性和噪聲對研究目標(biāo)的影響,另一方也起到了對數(shù)據(jù)的降維作用.高質(zhì)量的數(shù)據(jù)選擇是數(shù)據(jù)預(yù)處理中的關(guān)鍵步驟,影響著研究目標(biāo)的實(shí)現(xiàn)結(jié)果.

      5) 數(shù)據(jù)規(guī)約.數(shù)據(jù)規(guī)約是對電子病歷文本數(shù)據(jù)進(jìn)行規(guī)范化調(diào)整,將數(shù)據(jù)調(diào)整為適合進(jìn)行數(shù)據(jù)挖掘的形式,包括對輸入數(shù)據(jù)的歸一化處理(最小最大歸一化、零均值歸一化和分?jǐn)?shù)歸一化等)、遺漏數(shù)據(jù)的處理以及錯(cuò)誤信息的糾正.數(shù)據(jù)規(guī)約是為了使數(shù)據(jù)更加規(guī)范化,使得數(shù)據(jù)在接近原始數(shù)據(jù)的基礎(chǔ)上更加易于處理.

      2 電子病歷數(shù)據(jù)挖掘任務(wù)和方法

      電子病歷中包含著大量非結(jié)構(gòu)化文本信息,要從非結(jié)構(gòu)化的文本信息中挖掘出潛在的規(guī)律需要識別出大量專業(yè)詞匯和如疾病-癥狀等特殊鮮明的實(shí)體關(guān)系,要對這些文本信息進(jìn)行數(shù)據(jù)挖掘,關(guān)鍵的2個(gè)基本任務(wù)分別為命名實(shí)體識別和關(guān)系抽取.近年來,隨著NLP技術(shù)的發(fā)展,對電子病歷數(shù)據(jù)的分類任務(wù)和問答任務(wù)也有了一定的突破.下文將簡單介紹電子病歷文本挖掘中常見的4種任務(wù):命名實(shí)體識別、關(guān)系抽取、文本分類和問答系統(tǒng),并介紹任務(wù)常用的數(shù)據(jù)分析方法.

      2.1 醫(yī)學(xué)命名實(shí)體識別

      命名實(shí)體識別(named entity recognition, NER)也稱為概念抽取,即從指定的自由文本中抽取出相關(guān)的具有特定意義的詞語,它在醫(yī)學(xué)文本研究中被稱為生物醫(yī)學(xué)命名實(shí)體識別(biomedical named entity recognition, BioNER).電子病歷命名實(shí)體識別是BioNER的子領(lǐng)域,其主要任務(wù)是識別出患者的電子病歷中具有特定意義的實(shí)體,并對它們進(jìn)行標(biāo)注,這些實(shí)體根據(jù)研究目的不同而有所區(qū)別.通常中文電子病歷中的實(shí)體類型包括疾病、病因、臨床表現(xiàn)、檢查方法、藥品名稱、手術(shù)、身體部位等.電子病歷在被標(biāo)注實(shí)體之后可以提高醫(yī)生查看病歷的工作效率.同時(shí),標(biāo)注的結(jié)果也將輔助后續(xù)的如關(guān)系抽取和知識圖譜構(gòu)建等研究.隨著相關(guān)技術(shù)的進(jìn)步和研究的進(jìn)展,發(fā)展出了很多電子病歷命名實(shí)體識別的方法,最開始的方法是基于詞典與規(guī)則的方法和基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法.而在過去幾年中,基于深度學(xué)習(xí)的方法在該任務(wù)中效果顯著并得到廣泛使用,如2018年出現(xiàn)的BERT(bidir-ectional encoder representation from transformers)等深度學(xué)習(xí)框架進(jìn)一步改善了生物醫(yī)學(xué)命名實(shí)體識別的性能.目前主流的中文電子病歷命名實(shí)體識別的方法仍然是條件隨機(jī)場和雙向長短時(shí)記憶網(wǎng)絡(luò)[3].下面將對3類不同方法進(jìn)行詳細(xì)梳理.

      1) 基于詞典和規(guī)則的方法

      基于詞典的方法在識別過程中通常是依靠術(shù)語詞典,然后采取匹配算法進(jìn)行命名實(shí)體識別.因此,對于電子病歷這種專業(yè)性較強(qiáng)的文本,標(biāo)注語料即詞典的規(guī)模和質(zhì)量起到了相當(dāng)關(guān)鍵的作用.在醫(yī)療領(lǐng)域,中文電子病歷的標(biāo)注規(guī)范也在不斷的探索當(dāng)中,并形成語料庫,如曲春燕等人[4]在2015年參照i2b2 2010的標(biāo)注規(guī)范制定了中文電子病歷的標(biāo)注規(guī)范,并在2名臨床醫(yī)生的幫助下對標(biāo)準(zhǔn)語料進(jìn)行了檢驗(yàn),后來在他們的標(biāo)注語料基礎(chǔ)上,一些研究人員也進(jìn)行了改進(jìn)[5-6],這些都使得中文電子病歷標(biāo)注語料規(guī)模和質(zhì)量變得更加可靠.雖然完全基于詞典的命名實(shí)體識別準(zhǔn)確率有一定的保障,但是電子病歷的標(biāo)注語料庫的構(gòu)建需要醫(yī)療專業(yè)知識,通常需要醫(yī)學(xué)方面的專業(yè)人員共同協(xié)作,且隨著時(shí)間的推移語料庫的維護(hù)也耗時(shí)耗力.由于詞典規(guī)模有限且需要及時(shí)更新等原因,僅使用詞典往往并不能取得特別好的效果,因此后來詞典常作為特征幫助以提升自然語言處理的效果.

      與基于詞典的方法不同,基于規(guī)則的方法主要是通過對整個(gè)文本進(jìn)行分析來構(gòu)建規(guī)則模板,利用規(guī)則模板,通過匹配的方式實(shí)現(xiàn)命名實(shí)體的識別.基于規(guī)則的方法更加直觀且方便維護(hù),但規(guī)則的構(gòu)建也需要相關(guān)領(lǐng)域?qū)<业娜肆η液臅r(shí)較大,而且在沒有明顯規(guī)則時(shí)基于規(guī)則模板的識別將較困難.同時(shí),不同領(lǐng)域文本與實(shí)體大不相同,無法從某個(gè)醫(yī)學(xué)領(lǐng)域直接擴(kuò)展到其他醫(yī)學(xué)領(lǐng)域.因此,規(guī)則與詞典相似,后來也通常被用于輔助命名實(shí)體識別模型.例如利用規(guī)則優(yōu)化詞典等的特征,再結(jié)合條件隨機(jī)場對中文電子病歷進(jìn)行命名實(shí)體識別,比單純使用條件隨機(jī)場的效果要好[7].

      2) 基于統(tǒng)計(jì)學(xué)習(xí)的方法

      隨著機(jī)器學(xué)習(xí)的發(fā)展和流行,針對詞典和規(guī)則的方法存在的缺點(diǎn),基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)進(jìn)行命名實(shí)體識別的方法被提出并得到深入的研究和應(yīng)用,詞典和規(guī)則則作為一種輔助手段用于提高機(jī)器學(xué)習(xí)實(shí)體識別的效果.機(jī)器學(xué)習(xí)方法需要的專業(yè)人工相對較少,成本也較低,所以近年來應(yīng)用相對廣泛.傳統(tǒng)機(jī)器學(xué)習(xí)方法可以分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)3類.其中有監(jiān)督學(xué)習(xí)方法在命名實(shí)體任務(wù)中占了主流,它通常需要大規(guī)模帶標(biāo)簽的訓(xùn)練集,將命名實(shí)體識別任務(wù)轉(zhuǎn)換成分類問題,訓(xùn)練集用于模型的訓(xùn)練,生成目標(biāo)模型后才可以對未標(biāo)注語料中的實(shí)體進(jìn)行識別.常用的序列標(biāo)注模型包括隱馬爾可夫模型、最大熵模型、條件隨機(jī)場模型和支持向量機(jī)等.

      ① 隱馬爾可夫模型.隱馬爾可夫模型(hidden Markov model, HMM)最初由Bikel等人[8]提出并發(fā)表在統(tǒng)計(jì)學(xué)的系列論文中,該模型在后續(xù)研究中被證實(shí)在語言識別、自然語言處理以及生物信息學(xué)等多個(gè)領(lǐng)域的應(yīng)用都體現(xiàn)了很大價(jià)值[9].

      在序列標(biāo)注中使用HMM時(shí),目的在于給定觀測序列是X的條件下,求解使條件概率P(X|Y)最大的標(biāo)記序列Y*.根據(jù)貝葉斯公式推導(dǎo)可知,HMM的實(shí)質(zhì)為求解聯(lián)合概率P(X,Y).在獲得模型參數(shù)后,命名實(shí)體識別問題的解碼(常用Viterbi算法)過程目標(biāo)為得到相對于觀測序列的最優(yōu)命名實(shí)體標(biāo)記序列,解碼序列.HMM雖然是序列標(biāo)注的最常用且有效的方法之一,然而HMM是以獨(dú)立性假設(shè)為前提的,即觀測元素為獨(dú)立于觀測序列中的其他元素的單元.事實(shí)上元素之間一般并非獨(dú)立,且可能具有長距離依賴關(guān)系,如文本語句遠(yuǎn)距離上下文之間的語義聯(lián)系,嚴(yán)格的獨(dú)立性假設(shè)不能夠真實(shí)地描述數(shù)據(jù)序列所包含的信息,這是HMM的主要缺陷.

      ② 最大熵模型.熵(entropy)[10]表示能量在空間中分布的均勻程度.香農(nóng)在描述信息量時(shí)用了這個(gè)概念,提出了信息熵的概念,來表示系統(tǒng)的平均信息量.最大熵模型(maximum entropy, ME)是在最大熵原理[11]的基礎(chǔ)上實(shí)現(xiàn)的,主要思想是在已知部分知識的前提下選擇熵最大的概率分布,即在滿足約束條件的情況下選擇不確定性最大,信息量最大的模型.

      最大熵模型在特征選擇時(shí)相對靈活可以引入特征提高模型的準(zhǔn)確率,且不需要HMM必須的獨(dú)立性假設(shè).但是其迭代過程計(jì)算量巨大,計(jì)算的時(shí)間復(fù)雜度較高.

      ③ 條件隨機(jī)場模型.條件隨機(jī)場(conditional random fields, CRFs)[12-13]是一種用于序列標(biāo)記任務(wù)的概率統(tǒng)計(jì)模型.CRF是最大熵HMM模型在標(biāo)注問題上的改進(jìn).假設(shè)X,Y分別表示為需要標(biāo)記的觀測序列和相對應(yīng)的標(biāo)記序列的聯(lián)合分布的隨機(jī)變量,那么CRF就是一個(gè)以觀測序列X為作為全局條件的無向圖模型.在命名實(shí)體識別任務(wù)中,X可能是一句話,而Y則是相對應(yīng)的類別標(biāo)記序列.在對標(biāo)記序列進(jìn)行建模時(shí),最簡單也是最常用的圖形結(jié)構(gòu)就是:觀測節(jié)點(diǎn)與標(biāo)記序列中的節(jié)點(diǎn)構(gòu)成簡單的一階鏈形式,此時(shí)圖中的標(biāo)記序列形成了一條馬爾可夫鏈.CRF克服了HMM的獨(dú)立性假設(shè)條件,考慮了整個(gè)X即上下文的信息,雖然也具有時(shí)間復(fù)雜度大導(dǎo)致的訓(xùn)練難度高等問題,但是仍然被廣泛使用,對比其他傳統(tǒng)機(jī)器學(xué)習(xí)方法,是最受歡迎的用于命名實(shí)體識別的機(jī)器學(xué)習(xí)方法.在電子病歷的命名實(shí)體識別任務(wù)中也是如此,如燕楊等人[14]針對中文電子病歷的命名實(shí)體識別問題,提出使用層疊條件隨機(jī)場且在第2層中使用包含實(shí)體和詞性等特征的特征集,對疾病名稱和臨床癥狀2類命名實(shí)體進(jìn)行識別,該模型相比于傳統(tǒng)層疊CRF模型和單層CRF模型總體性能有顯著提高.

      ④ 支持向量機(jī).支持向量機(jī)(support vector machine, SVM)是較為經(jīng)典的模式識別方法,其在解決小樣本、線性不可分及高維度等模式識別問題中發(fā)揮了重大作用,在多個(gè)領(lǐng)域成功應(yīng)用,其中包括電子病歷文本挖掘.其主要思想是利用高維特征空間轉(zhuǎn)化使其變?yōu)榫€性可分問題處理,再基于結(jié)構(gòu)風(fēng)險(xiǎn)最小理論構(gòu)建最優(yōu)分割超平面,目標(biāo)是使得學(xué)習(xí)器得到全局最優(yōu)化.支持向量機(jī)在電子病歷文本挖掘中除了文本分類任務(wù)也可以被用來完成命名實(shí)體識別,例如Tang等人[15]研究了結(jié)構(gòu)化支持向量機(jī)(structed support vector machine, SSVM)用于臨床命名實(shí)體識別的方法,該算法結(jié)合了CRFs,SVMs以及詞表征.評價(jià)結(jié)果表明,當(dāng)使用相同的特征時(shí),基于SSVMs的NER系統(tǒng)在臨床實(shí)體識別方面的性能優(yōu)于單純基于CRFs的系統(tǒng).將2種不同類型的單詞表征與SSVMs相結(jié)合,最終系統(tǒng)精度表現(xiàn)最高達(dá)到85.82%.

      基于統(tǒng)計(jì)學(xué)習(xí)的方法學(xué)習(xí)過程不需要太多的人工干預(yù),便于在不同領(lǐng)域之間進(jìn)行模型的移植,因此大受歡迎,且有不少學(xué)者嘗試使用多個(gè)統(tǒng)計(jì)模型來提高醫(yī)學(xué)命名實(shí)體識別任務(wù)的效果.但是在廣泛使用的有監(jiān)督學(xué)習(xí)模型實(shí)施中,前期大規(guī)模標(biāo)注語料的構(gòu)建成本高,如何獲取高質(zhì)量、可靠的語料也是主要挑戰(zhàn)之一.所以也有不少研究利用半監(jiān)督學(xué)習(xí)方法對電子病歷進(jìn)行命名實(shí)體識別[16-17].無監(jiān)督學(xué)習(xí)方法最典型的就是聚類,在命名實(shí)體識別中的主要目標(biāo)就是通過相似的上下文將內(nèi)容或格式相似的實(shí)體聚在一起.

      3) 基于深度學(xué)習(xí)的方法

      近年來,隨著深度學(xué)習(xí)的興起,為降低人工消耗和訓(xùn)練代價(jià),研究者們也開始將神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理領(lǐng)域,獲得不少成果.在自然語言處理任務(wù)中,常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、Word2Vec模型和2018年出現(xiàn)的BERT模型等.

      ① 卷積神經(jīng)網(wǎng)絡(luò).卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)是由卷積層、池化層和全連接層組成,卷積層利用不同的卷積核提取不同的輸入特征,池化層是為了降維提取主要特征,全連接層為了結(jié)合最后損失函數(shù)進(jìn)行分類.

      CNN不僅在圖像處理領(lǐng)域有很好的效果,在NLP的諸多任務(wù)也可以實(shí)現(xiàn)特征抽取等目標(biāo),從而提升最終的性能.利用CNN對詞向量輸入進(jìn)行特征抽取,是CNN在NLP的一大應(yīng)用.每一個(gè)詞向量可以視為一個(gè)1維的輸入,而對于一個(gè)由詞語構(gòu)成的序列,它可以作為2維的數(shù)據(jù)(和2維圖像一樣),作為CNN的輸入.為了保證卷積操作的可解釋性,通常過濾器的某個(gè)維度會設(shè)置成和詞向量的維度一樣,而在另一個(gè)維度上的設(shè)置則是考慮上下文語境的長度,并在該維度上進(jìn)行移動(dòng)與卷積操作.CNN中的過濾器具有一定的感受野,考慮了前后語境的影響,這個(gè)過程也是n元語言模型的一種體現(xiàn).CNN在計(jì)算上還有一個(gè)巨大的優(yōu)勢:它支持并行計(jì)算,無論是單個(gè)過濾器在不同位置的卷積操作,還是不同過濾器之間,都互不影響,這也意味著在并行計(jì)算中CNN具有極高的自由度.但是通常來講,單個(gè)的卷積層只能夠捕捉到局部短距離的依賴關(guān)系(如三元語言模型),想要建立更長距離的語言特征、依賴關(guān)系,需要多層的卷積層,但深層網(wǎng)絡(luò)的參數(shù)優(yōu)化也會相應(yīng)的更加困難.另外一個(gè)CNN在NLP任務(wù)應(yīng)用的缺點(diǎn)是池化層在一定程度上丟棄了卷積層保留的相對位置關(guān)系,在NLP中有時(shí)候相對位置關(guān)系尤為重要,這也導(dǎo)致了一定程度的信息丟失.

      CNN在生物醫(yī)學(xué)命名實(shí)體識別任務(wù)研究中有大量應(yīng)用.Gehrmann等人[18]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的基于規(guī)則的實(shí)體提取系統(tǒng)進(jìn)行了對比和測試.結(jié)果顯示CNN優(yōu)于其他算法,基于NLP的深度學(xué)習(xí)方法提高了患者表型的性能.如Wu等人[19]將CNN應(yīng)用在中文臨床記錄文本的命名實(shí)體識別任務(wù)中,他們使用CNN對文本進(jìn)行詞向量的預(yù)訓(xùn)練,以此提高基準(zhǔn)模型的準(zhǔn)確率.Crichton等人[20]將每個(gè)單詞標(biāo)記及其周圍的上下文單詞作為輸入,設(shè)計(jì)了有監(jiān)督的多任務(wù)CNN模型,結(jié)果表明多任務(wù)學(xué)習(xí)的引入帶來了更好的效果,且對小型數(shù)據(jù)集很有用.Luo等人[21]同時(shí)應(yīng)用CNN和RNN對來自i2b2-VA挑戰(zhàn)數(shù)據(jù)集的出院摘要中的醫(yī)學(xué)概念之間的語義關(guān)系進(jìn)行分類,并表明具備單詞嵌入特征的CNN和RNN可以在挑戰(zhàn)中獲得與具有大量特征的系統(tǒng)相似性能.

      ② 循環(huán)神經(jīng)網(wǎng)絡(luò).在NLP領(lǐng)域,最常使用的深度學(xué)習(xí)算法是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的深層結(jié)構(gòu).傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法處理像自然語言這種具有時(shí)間序列特性的連續(xù)輸入,而RNN則通過添加指向自身的回路,使得網(wǎng)絡(luò)能夠利用輸入的序列特征,因而在處理概念抽取、詞性標(biāo)注等時(shí)間序列標(biāo)注任務(wù)時(shí)有著先天的優(yōu)勢.RNN的改進(jìn)之處在于添加了指向自身的回路,每個(gè)神經(jīng)元的輸出除了沿層間連接向上傳遞之外,還直接傳輸給了下一個(gè)序列.理論上,RNN可以處理任意變長的序列,然而,隨著時(shí)間序列的不斷累積,梯度會出現(xiàn)指數(shù)級衰減的現(xiàn)象,這導(dǎo)致RNN難以記錄距離較遠(yuǎn)的歷史信息,其性能也因此而受到制約.為了解決這個(gè)問題,1997年Hochreiter等人[22]第一次提出長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)概念,并從理論上證明了這種結(jié)構(gòu)能夠很好地解決梯度消失和爆炸問題.

      ③ LSTM. LSTM也是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò).在LSTM算法中加入了判斷信息有用與否的輸入門、遺忘門和輸出門,LSTM是解決長距離依賴問題的有效技術(shù).

      另外,在有些NLP任務(wù)中,某個(gè)時(shí)間的輸出不僅和過去信息有關(guān),也取決于它的未來信息,例如在命名實(shí)體識別任務(wù)中,一個(gè)詞語是否為命名實(shí)體,由其上下文共同決定.因此,為了同時(shí)考慮過去和后續(xù)的信息對當(dāng)前時(shí)刻的影響,我們可以在原有的LSTM中增加一個(gè)反向的信息流,來傳遞后續(xù)時(shí)刻的信息.Schuster等人[23]基于LSTM提出了雙向長短期記憶網(wǎng)絡(luò)(bi-directional LSTM, Bi-LSTM)概念,這種方法不僅從前到后對序列建模,而且從后到前也對序列建模,所以每一個(gè)時(shí)刻的狀態(tài)不僅包含前面的信息,而且囊括了后面的信息.

      在過去幾年中,使用LSTM和CRF結(jié)合的模型,BioNER的性能得到了很大改善.LSTM是解決傳統(tǒng)RNN中梯度消失問題的一種方法,而雙層循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-LSTM改進(jìn)了LSTM,使得在做命名實(shí)體識別時(shí)可以既利用正向序列信息同時(shí)利用反向序列信息.之后又在Bi-LSTM后加入了CRF層,Bi-LSTM可以充分利用字詞信息和位置信息得到特征,將其隱層輸出輸入到CRF層中來做標(biāo)簽的預(yù)測.Habibi等人[24]將通過學(xué)習(xí)一個(gè)實(shí)體注釋的金標(biāo)準(zhǔn)語料庫(gold standard corpora, GSC),結(jié)合預(yù)先學(xué)習(xí)詞嵌入(word embedding)的大型語料庫(大量來自PubMed的摘要)得到特征,并作為BiLSTM-CRF模型的輸入.在包括5種不同的實(shí)體類型的不同標(biāo)準(zhǔn)語料庫進(jìn)行了準(zhǔn)確率評估.平均而言,它比基于詞典的NER工具提升5%,比單獨(dú)使用CRF方法提升3%.Wang等人[25]為BioNER提出了一個(gè)使用字符級的多任務(wù)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)框架.該框架考慮了具有依賴于上下文的Bi-LSTM層的BiLSTM-CRF模型.通過重用相應(yīng)Bi-LSTM單元中的參數(shù),來自不同數(shù)據(jù)集的輸入可以有效地共享字符和單詞級表征.文獻(xiàn)[25]的作者將提出的多任務(wù)模型與多個(gè)BioNER系統(tǒng)和基線神經(jīng)網(wǎng)絡(luò)模型在15個(gè)基準(zhǔn)BioNER數(shù)據(jù)集上進(jìn)行比較,并觀察到更好的性能.Gorinski等人[26]對比了基于規(guī)則、運(yùn)用深度學(xué)習(xí)和遷移學(xué)習(xí)3種不同的系統(tǒng)在對腦卒中患者的腦成像報(bào)告中的命名實(shí)體識別任務(wù)的應(yīng)用效果.實(shí)驗(yàn)表明基于規(guī)則的系統(tǒng)因?yàn)橛邢嚓P(guān)領(lǐng)域?qū)<姨峁┑囊?guī)則效果最精確,而運(yùn)用BiLSTM-CRF模型的系統(tǒng)減少了設(shè)計(jì)新規(guī)則時(shí)對專家知識的需求,學(xué)習(xí)效率更高,遷移學(xué)習(xí)雖然仍然需要大量人工操作但是表現(xiàn)很好有代替基于規(guī)則的系統(tǒng)的可能.但是無論是RNN還是CNN,在處理NLP任務(wù)時(shí)都有缺陷.CNN是其卷積操作不適用于序列化的文本,RNN的缺點(diǎn)則是其不能實(shí)現(xiàn)數(shù)據(jù)處理并行化,這會導(dǎo)致對內(nèi)存的要求過高.在中文電子病歷的命名實(shí)體識別研究中,張聰品等人[27]構(gòu)建了LSTM-CRF模型對電子病歷進(jìn)行命名實(shí)體識別,準(zhǔn)確率達(dá)到了96.29%.

      在深度學(xué)習(xí)中不得不提到的是Word2Vec模型[28]和Bert模型,它們采用分布式表示方法將自然文本轉(zhuǎn)換到詞向量,之前提到的特征都是基于詞向量挖掘而被具體的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最終服務(wù)于各種任務(wù),包括命名實(shí)體識別、關(guān)系抽取任務(wù)等.

      ④ Word2Vec模型.傳統(tǒng)的自然語言詞語處理方法將詞語看作一個(gè)符號,被稱作one-hot表示,這種方法導(dǎo)致詞與詞之間的關(guān)系被獨(dú)立開,當(dāng)詞表過大時(shí),向量維度也隨著變大,Word2Vec的提出解決了這一問題.Google在2013年提出了一種新的用于計(jì)算詞向量的方法Word2Vec[28],Word2Vec模型是一種快速訓(xùn)練詞向量模型的方法.使用Word2Vec模型的目的在于從大量的文檔醫(yī)學(xué)文本數(shù)據(jù)中訓(xùn)練出高質(zhì)量的詞向量,Word2Vec被用來解決大規(guī)模語料的詞向量表達(dá)問題,在Word2Vec出現(xiàn)之前,很多的NLP技術(shù)都是采用one-hot結(jié)構(gòu),這樣構(gòu)建出的詞向量忽略了詞語之間的相似性和關(guān)聯(lián)性,Word2Vec則提出了詞向量的分布式表示方法,利用淺層神經(jīng)網(wǎng)絡(luò),在大規(guī)模無標(biāo)注語料庫上訓(xùn)練低維稠密的詞向量.Word2Vec框架提出基于分布式詞表示的思想,即要理解一個(gè)詞語的意思只需要通過了解詞語出現(xiàn)的上下文即可.由此提出了2種用于訓(xùn)練的模型,一種為連續(xù)詞袋模型(continuous bag of words, CBOW)模型,其基本思想是給定上下文來預(yù)測其中心詞;另一種為連續(xù)跳躍模型(continuous skip-gram model, Skip-Gram),是利用給定的中心詞來預(yù)測上下文進(jìn)行訓(xùn)練.在生物醫(yī)學(xué)文本挖掘任務(wù)中,由于生物醫(yī)學(xué)語料庫與一般領(lǐng)域語料庫在詞匯和表達(dá)方面存在較大差異,在應(yīng)用于生物醫(yī)學(xué)數(shù)據(jù)時(shí)需要在醫(yī)學(xué)文本語料上進(jìn)行訓(xùn)練.如Zhu等人[29]在包含臨床報(bào)告和臨床領(lǐng)域相關(guān)的Wikipedia頁面的語料庫上訓(xùn)練上下文單詞嵌入模型,然后訓(xùn)練BiLSTM-CRF模型.

      ⑤ BERT模型.以Word2Vec為代表的詞向量模型有一個(gè)明顯的缺陷,即訓(xùn)練好的詞向量是固定的,單詞不會因?yàn)樘幵诓煌恼Z境而改變,這對于一詞多義的情況是十分不利的.因此在Word2Vec出現(xiàn)之后,涌現(xiàn)了許多利用語言模型建立基于上下文的詞向量方法,如ELmo[30],OpenAI[31],BERT[32],其中的模型BERT是最具影響力的方法.BERT模型是基于Transformer提取特征,并采用雙向語言模型.其訓(xùn)練方式區(qū)別于傳統(tǒng)的從左到右的訓(xùn)練方式,而采用2種新的方法進(jìn)行大規(guī)模無監(jiān)督訓(xùn)練,2種方法分別是Masked LM和Next Sentence Prediction.Masked LM方法是在給定一句話并隨機(jī)抹去這句話中的1個(gè)或幾個(gè)詞語,然后利用BERT模型去預(yù)測這幾個(gè)被抹去的詞語.Next Sentence Prediction是給定一句話,判斷下一句話是否與給定的句子屬于同一個(gè)上下文中.其在文本分類任務(wù)、語句對分類任務(wù)和NER中均取得SOTA(state-of-the-art)的效果.BERT采用多層雙向Transformer編碼器,可以學(xué)習(xí)生成考慮語境的語言模型,并可以在調(diào)整后針對各種任務(wù)(如命名實(shí)體識別和關(guān)系抽取).Mao等人[33]在系統(tǒng)Hadoken中利用BERT模型對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后將臨床病例的表征提供給CRF輸出層以進(jìn)行分類,并且發(fā)現(xiàn)其適用于多語言命名實(shí)體識別任務(wù).

      深度學(xué)習(xí)的模型通常需要大量的標(biāo)注訓(xùn)練數(shù)據(jù),然而在電子病歷文本挖掘任務(wù)中構(gòu)建大型訓(xùn)練集需要專業(yè)人士的知識,成本非常高.因此用于生物醫(yī)學(xué)文本挖掘任務(wù)的訓(xùn)練數(shù)據(jù)較少,大多數(shù)生物醫(yī)學(xué)文本挖掘模型無法充分利用深度學(xué)習(xí)的能力.為了解決訓(xùn)練數(shù)據(jù)的缺乏,近年來有研究集中在訓(xùn)練多任務(wù)模型或是借助遷移學(xué)習(xí)的力量.如Yoon等人[34]提出使用多個(gè)NER模型(在文中指的是一組BiLSTM-CRF模型)組合的CollaboNet.在CollaboNet中,在不同數(shù)據(jù)集上訓(xùn)練的模型彼此連接,成功地減少了錯(cuò)誤分類實(shí)體的數(shù)量并提高了性能.另一方面,在深度學(xué)習(xí)中應(yīng)用遷移學(xué)習(xí)的思想,用在其他數(shù)據(jù)集訓(xùn)練好的模型初始化部分甚至所有的神經(jīng)網(wǎng)絡(luò)中的參數(shù),為用目標(biāo)數(shù)據(jù)集訓(xùn)練做準(zhǔn)備.Lee等人介紹了針對生物醫(yī)學(xué)文本挖掘任務(wù)的語境化語言表示模型BioBERT[35],其在原結(jié)構(gòu)BERT的基礎(chǔ)上重新訓(xùn)練.他們使用遷移學(xué)習(xí)來解決缺乏訓(xùn)練數(shù)據(jù)的問題,即使用一般語料庫和醫(yī)學(xué)領(lǐng)域語料庫對BioBERT進(jìn)行預(yù)訓(xùn)練.實(shí)驗(yàn)證明,BioBERT能有效地將大量其他語料庫文本的知識遷移到醫(yī)學(xué)文本挖掘任務(wù)中,只需要針對特定任務(wù)的體系結(jié)構(gòu)進(jìn)行少量修改.BioBERT在3個(gè)具有代表性的生物醫(yī)學(xué)文本挖掘任務(wù)、生物醫(yī)學(xué)命名實(shí)體識別、生物醫(yī)學(xué)關(guān)系提取和生物醫(yī)學(xué)問答系統(tǒng)上明顯優(yōu)于其他模型.

      2.2 關(guān)系抽取

      關(guān)系抽取(relation extraction, RE)通常基于命名實(shí)體識別的結(jié)果之上,也是自然語言處理中一個(gè)重要的子任務(wù),但是由于深度學(xué)習(xí)的發(fā)展,也有不少深度神經(jīng)網(wǎng)絡(luò)將命名實(shí)體識別和實(shí)體關(guān)系抽取看作一個(gè)完整的任務(wù).理論上,關(guān)系抽取任務(wù)分為2步,首先判斷一個(gè)實(shí)體對是否存在關(guān)系,若有關(guān)系,則進(jìn)一步判斷屬于哪種關(guān)系.在實(shí)際模型設(shè)計(jì)中,通常把無關(guān)系當(dāng)作一種特殊的關(guān)系,直接將關(guān)系抽取看作是多類別分類任務(wù).關(guān)系抽取是醫(yī)療健康知識庫建立維護(hù)的基礎(chǔ).在醫(yī)學(xué)領(lǐng)域,不同實(shí)體間的關(guān)系有不同的定義標(biāo)準(zhǔn),根據(jù)I2B2 2010評估會議[36],EMR中的實(shí)體關(guān)系可以分為3類,包括疾病之間的關(guān)系、疾病與醫(yī)學(xué)檢查的關(guān)系以及疾病與治療之間的關(guān)系.在醫(yī)學(xué)領(lǐng)域,常常采用基于共生[37]、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法來進(jìn)行關(guān)系抽取.基于共生的方法是基于2個(gè)實(shí)體同時(shí)出現(xiàn)的頻率越高關(guān)系越強(qiáng)這一假設(shè)的統(tǒng)計(jì)方法.最廣泛使用的方法還是傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法,例如Bhasuran等人[38]采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,即使用深度集成支持向量機(jī)來訓(xùn)練,利用語法和語義屬性的特征集并結(jié)合詞嵌入,從4個(gè)標(biāo)準(zhǔn)語料庫中提取基因-疾病關(guān)系.實(shí)驗(yàn)顯示在EUADR,GAD,CoMAGC,PolySearch四個(gè)語料庫處理結(jié)果的F-measure分別達(dá)到85.34%,83.93%,87.39%,85.57%.

      同時(shí),將機(jī)器學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,也可以提高電子病歷中關(guān)系抽取性能.如張玉坤等人[39]將CNN,SVM,CRF三者結(jié)合,然后通過聯(lián)合學(xué)習(xí)方式來對醫(yī)療文本進(jìn)行關(guān)系抽取,取得了不錯(cuò)的效果.自注意力機(jī)制也是醫(yī)療關(guān)系抽取中常用的方法,寧尚明等人[40]針對文本特征的每個(gè)通道都計(jì)算注意力權(quán)重,實(shí)現(xiàn)了電子病歷實(shí)體關(guān)系的抽取,在2010 i2b2和SemEval 2013 DDI中F1值分別達(dá)到69.72%和72.32%.

      時(shí)序性是電子病歷數(shù)據(jù)的一大特點(diǎn),因?yàn)殡娮硬v通常不僅包括患者當(dāng)前的治療狀況和指標(biāo),還包括患者過去所經(jīng)歷的臨床事件.為了自動(dòng)構(gòu)建這些事件之間的時(shí)間線,需要抽取臨床記錄中事件和時(shí)間的關(guān)系.自動(dòng)檢測并抽取患者記錄中的時(shí)間和事件之間的關(guān)系能幫助醫(yī)務(wù)人員了解疾病進(jìn)展,如Tian等人[41]提出了一種基于深度學(xué)習(xí)的漢語電子病歷時(shí)間信息提取框架.他們運(yùn)用LSTM-CRF模型提取臨床實(shí)體如疾病、治療等以及時(shí)間等相關(guān)實(shí)體,之后用CNN進(jìn)行時(shí)序關(guān)系分類.

      另外,從臨床記錄中提取藥物相關(guān)實(shí)體與藥物之間的關(guān)系,可以幫助患者避免藥物引發(fā)的不利效果,比如藥物的不良事件(adverse drug events, ADE)中的實(shí)體關(guān)系能反映某些藥物引起的副作用,以及副作用對患者產(chǎn)生的影響.電子病歷是挖掘ADE的豐富信息來源,學(xué)者們已經(jīng)廣泛應(yīng)用NLP技術(shù)以使用關(guān)系抽取方法挖掘在電子病歷數(shù)據(jù)中的ADE相關(guān)信息.Christopoulou等人[42]提出了一種集成學(xué)習(xí)方法,其運(yùn)用神經(jīng)網(wǎng)絡(luò)模型中的Bi-LSTM注意力機(jī)制和Transformer神經(jīng)網(wǎng)絡(luò)來提取藥物和藥物相關(guān)實(shí)體之間的關(guān)系.

      2.3 文本分類

      文本分類是文檔級的自然語言處理任務(wù),目標(biāo)是給文檔打上預(yù)定義的文檔級標(biāo)簽.電子病歷中的醫(yī)學(xué)報(bào)告是一種具有豐富信息的資源,特別是主要用自然語言寫的自由文本部分,這部分包括醫(yī)生的臨床推理信息及其思維過程,其能通過提供詳細(xì)的病人情況來幫助解決不同的臨床問題,而且它們通常不能被其他結(jié)構(gòu)化數(shù)據(jù)所代替.文檔分類有助于處理和提取這類數(shù)據(jù),輔助后續(xù)的分類預(yù)測任務(wù),并提高敘述性臨床筆記的利用效率,因此文檔分類成為臨床預(yù)測分析的一個(gè)重要研究領(lǐng)域.早期的文獻(xiàn)中,自動(dòng)分類研究需要利用手工實(shí)現(xiàn)且由專家制定規(guī)則的知識工程,這非常耗時(shí)耗力,且對人力資源有較高的要求.最近,機(jī)器學(xué)習(xí)算法和自然語言處理技術(shù)已經(jīng)被用來處理電子病歷以支持臨床決策,目前效果較好的文檔分類方法之一是基于Word2Vec的神經(jīng)網(wǎng)絡(luò)模型.深度神經(jīng)網(wǎng)絡(luò)可以通過算法本身學(xué)習(xí)復(fù)雜的數(shù)據(jù)特征,而不需要手工設(shè)計(jì)的特征提取規(guī)則.深度學(xué)習(xí)在醫(yī)療文本分類中通常使用的方法是先利用網(wǎng)絡(luò)將醫(yī)療文本以字為單位應(yīng)映射到向量空間,然后再利用SVM等模型對向量空間進(jìn)行分類[43],例如Hughes等人[44]將基于單詞分布式表示的CNN應(yīng)用于句子級的醫(yī)學(xué)文本分類任務(wù)中,取得了很好的性能.

      文本分類可以被用于分類臨床記錄,以此來輔助識別患者所患疾病,例如Turner等人[45]評估了多種傳統(tǒng)分類器(包括神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、樸素貝葉斯、支持向量機(jī)等)在系統(tǒng)性紅斑狼瘡患者識別中的性能,其中具有統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(unified medical language system, UMLS)概念唯一標(biāo)識符(CUIs)的淺神經(jīng)網(wǎng)絡(luò)和同時(shí)具有CUIs和詞袋模型(bag-of-words, BoW)的隨機(jī)森林表現(xiàn)最優(yōu).Topaz等人[46]針對從臨床記錄中識別糖尿病患者這一任務(wù)建立了一個(gè)基于NLP的分類系統(tǒng)Nimble-Miner,運(yùn)用了包括SVM,RNN等多種機(jī)器學(xué)習(xí)方法.Doing-Harris等人[47]使用聚類算法,基于詞匯和詞性的數(shù)據(jù)表征,通過無監(jiān)督學(xué)習(xí)區(qū)分不同文檔類型和信息來源,并取得了良好的性能.Kocbek等人[48]使用基于bag-of-phrases的SVM檢測各種疾病類別,對潛在疾病的人入院進(jìn)行分類.

      也有學(xué)者從臨床記錄中的句嵌入方法入手臨床文本分類問題,與詞嵌入相似,句嵌入是一種高維向量,它可以表示單詞序列的特征.句子嵌入的使用通常是考慮到在訓(xùn)練數(shù)據(jù)較少的情況下,依賴許多詞向量的RNN捕獲診斷信息來分類文檔比較困難,而少量的句子向量就可以獲得豐富的語義信息.如Ormerod等人[49]通過LSTM構(gòu)建電子病歷分類模型,并同時(shí)顯示文檔中哪些句子對患者的病情診斷最有幫助.另外,中文病歷的文本分類與英文電子病歷的文本分類有所不同,因?yàn)橹形恼Z言有其特殊性:斷句方式不同、需要新的分詞工具等,且中文電子病歷既有短文本又有長文本,因?yàn)樵诮梃b國外優(yōu)秀成果時(shí)需要結(jié)合中文特點(diǎn)作出調(diào)整.杜寶琛[50]在設(shè)計(jì)基于電子病歷的輔助治診斷系統(tǒng)時(shí)同時(shí)考慮長短文本,采用了雙通道下不同神經(jīng)網(wǎng)絡(luò)同時(shí)學(xué)習(xí).呂愿愿等人[51]在對電子病歷進(jìn)行自然語言處理后,利用TF-IDF和潛在語義分析(latent semantic analysis, LSA)方法提取特征,在挖掘出依存關(guān)系后對病歷短文本進(jìn)行分類.

      2.4 智能問診

      問答系統(tǒng)(question answering system, QA)是自然語言處理中的傳統(tǒng)任務(wù),相比于日常的機(jī)器問答,由于在醫(yī)學(xué)領(lǐng)域有更多的專業(yè)名詞,實(shí)現(xiàn)問答則更為困難,傳統(tǒng)的問答系統(tǒng)通常需要特征工程、語言工具或外部資源的幫助.通常是使用語言模型提取語義特征,利用決策樹等模型[52-53]來識別問題的答案.盡管這些方法具有一定的有效性,但它們需要額外的資源和特征工程并使用語言工具,模型的復(fù)雜性較高.

      目前,問答研究主要集中在利用深度學(xué)習(xí)技術(shù)自動(dòng)提取句子特征,且多在通用數(shù)據(jù)集上進(jìn)行測試.例如Wang等人[54]使用LSTM框架將答案選擇任務(wù)轉(zhuǎn)化為分類和排序問題.Xiong等人[55]使用動(dòng)態(tài)協(xié)作注意網(wǎng)絡(luò)將斯坦福問答數(shù)據(jù)集上的F1值增加到80.4%.此外,Tan等人[56]提出了一個(gè)基于注意力機(jī)制的RNN模型,將問題注意引入到答案表征中,建立了基于BiLSTM模型的匹配問答對,并利用余弦相似度計(jì)算了它們的接近度.Dong等人[57]提出了一種改進(jìn)的多列卷積神經(jīng)網(wǎng)絡(luò),從響應(yīng)路徑、上下文和答案類型3個(gè)方面學(xué)習(xí)問題和答案的分布式表示.Santos等人[58]提出了一種基于特征加權(quán)的雙向注意力機(jī)制,通過特征工程、注意機(jī)制等提高問答匹配的準(zhǔn)確性.

      使用大型帶注釋的數(shù)據(jù)集構(gòu)建的幾個(gè)開放領(lǐng)域的機(jī)器理解系統(tǒng)使自動(dòng)問答取得了長足的進(jìn)步.然而在臨床領(lǐng)域,自動(dòng)問答仍然在探索階段.由于缺乏大規(guī)模的臨床標(biāo)注數(shù)據(jù)集,目前還沒有一個(gè)通用的系統(tǒng)來回答醫(yī)生在病人的電子病歷上提出的自然語言問題.醫(yī)生們通常希望根據(jù)電子病歷中找到有關(guān)醫(yī)療實(shí)體和關(guān)系的問題答案,這需要計(jì)算機(jī)對臨床筆記有更深的理解.電子病歷中數(shù)據(jù)的特性包括大量的非結(jié)構(gòu)化數(shù)據(jù)、大量的專業(yè)術(shù)語、多個(gè)疾病之間有時(shí)序性和拼寫錯(cuò)誤等,而這些都是機(jī)器理解電子病歷時(shí)的難點(diǎn),現(xiàn)有的NLP工具難以應(yīng)付這種復(fù)雜情況.此外,在挖掘答案時(shí)也有難點(diǎn),因?yàn)榇鸢缚赡苁请[式的,而且可能需要多個(gè)臨床領(lǐng)域的知識和推理.由于這些挑戰(zhàn)的存在,為患者構(gòu)建可信的QA系統(tǒng)變得十分困難,同時(shí)QA系統(tǒng)一般需要大規(guī)模的問答注釋.然而構(gòu)建數(shù)據(jù)集涉及到個(gè)人健康信息的隱私問題以及大量人力資源,手工構(gòu)建大型注釋數(shù)據(jù)集不切實(shí)際[59].

      QA數(shù)據(jù)集主要分為兩大類:使用非結(jié)構(gòu)化文檔的機(jī)器理解(machine comprehension, MC)數(shù)據(jù)集和使用知識庫的問題-答案對數(shù)據(jù)集.MC系統(tǒng)旨在回答任何針對參考文本提出的問題.最近在云資源和搜索引擎方面的進(jìn)展導(dǎo)致了MC數(shù)據(jù)集的爆炸式增長,但其中有價(jià)值的數(shù)據(jù)比例卻較少.另一方面,特定領(lǐng)域MC數(shù)據(jù)集如MCTest,BioASQ,InsuranceQA等對專家注釋的需求高,同時(shí)也涉及隱私問題,這使其在規(guī)模上受到了限制(500~10 000).Pampari等人[60]利用i2b2數(shù)據(jù)集中針對各種NLP任務(wù)的臨床筆記上的現(xiàn)有專家注釋,為電子醫(yī)療記錄生成大型問題-答案對數(shù)據(jù)集.得到的語料庫有100萬個(gè)問題形式和40多萬個(gè)問題-答案對,在問題-答案的關(guān)系抽取時(shí)用了帶注意力層的端對端模型.Roberts等人[61]通過在468個(gè)電子病歷問題上手工注釋標(biāo)簽,生成了語料庫.隨著醫(yī)學(xué)QA系統(tǒng)的發(fā)展,學(xué)者們也結(jié)合了傳統(tǒng)的方法和深度神經(jīng)網(wǎng)絡(luò)方法來構(gòu)建混合模型.這些模型結(jié)合了神經(jīng)網(wǎng)絡(luò)模型的精確性和傳統(tǒng)方法中符號表示的可解釋性.

      總而言之,醫(yī)療問答系統(tǒng)方面還處于探索和研究階段,沒有能夠切實(shí)有效的落地應(yīng)用,但其未來的潛力巨大,是一個(gè)非常有前景的研究方向.

      3 電子病歷文本挖掘在糖尿病和心腦血管疾病中的應(yīng)用

      除了常見的命名實(shí)體識別、關(guān)系抽取、文本分類和醫(yī)療問答等基本任務(wù)外,對于電子病歷文本挖掘的應(yīng)用廣泛存在于不同的領(lǐng)域,且在不同的疾病中往往有不同的表現(xiàn)形式.

      3.1 糖尿病

      國際糖尿病聯(lián)合會2017年修訂的第8版本數(shù)據(jù)顯示,全球有4.25億糖尿病患者.這意味著每11個(gè)成年人里就有1個(gè)糖尿病患者,而中國有超過1億人患有糖尿病,所以不管是對個(gè)體患者還是在整個(gè)人類范圍內(nèi),管理糖尿病都是非常重要的[62].糖尿病是一種慢性疾病,健康的胰腺分別通過α-細(xì)胞和β細(xì)胞動(dòng)態(tài)控制胰島素和胰高血糖素激素的釋放,以維持正常血糖[63],而糖尿病特征是患者體內(nèi)不存在葡萄糖穩(wěn)態(tài).糖尿病可以分為多種,當(dāng)身體的免疫系統(tǒng)攻擊產(chǎn)生胰島素的細(xì)胞并完全停止產(chǎn)生胰島素時(shí),就會導(dǎo)致Ⅰ型糖尿病;當(dāng)身體不能產(chǎn)生足夠的胰島素或細(xì)胞產(chǎn)生胰島素抵抗時(shí),會導(dǎo)致Ⅱ型糖尿病,Ⅱ型糖尿病可能是遺傳、飲食不良、缺乏運(yùn)動(dòng)或肥胖的結(jié)果;另外還有妊娠期糖尿病(妊娠中期或晚期確診糖尿病且在妊娠前沒有糖尿病癥狀)和由于其他原因引起的特定類型的糖尿病,例如單基因糖尿病綜合征、外分泌胰腺疾病和藥物或化學(xué)誘導(dǎo)的糖尿病[64].糖尿病護(hù)理在很大程度上取決于患者的日常自我管理,包括吃什么以及何時(shí)運(yùn)動(dòng),以及確定部分患者需要的胰島素劑量和時(shí)間.在這種情況下,每個(gè)患者每天都產(chǎn)生與糖尿病相關(guān)的大量數(shù)據(jù),這些數(shù)據(jù)來源包括電子病歷、胰島素泵、傳感器、血糖儀和其他可穿戴設(shè)備,還包括實(shí)驗(yàn)中糖尿病相關(guān)的基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和微生物學(xué)數(shù)據(jù)[65].所以在糖尿病相關(guān)的研究中有許多數(shù)據(jù)挖掘的應(yīng)用.最早在2002年Breault等人[66]應(yīng)用CART分析方法對糖尿病數(shù)據(jù)庫進(jìn)行了分析,雖然準(zhǔn)確率僅為59%,但是首次驗(yàn)證了數(shù)據(jù)挖掘技術(shù)在糖尿病問題領(lǐng)域的應(yīng)用前景.隨著標(biāo)準(zhǔn)化的電子病歷系統(tǒng)在中國的興起,糖尿病相關(guān)的診斷和風(fēng)險(xiǎn)管理等也接受到電子病歷文本挖掘的輔助,本節(jié)將從糖尿病的診斷角度闡述機(jī)器學(xué)習(xí)在糖尿病上的應(yīng)用.

      糖尿病的診斷需要通過包括α-糖酸鹽血紅蛋白(A1C)實(shí)驗(yàn)、隨機(jī)血糖實(shí)驗(yàn)、空腹糖試驗(yàn)或口服葡萄糖耐量實(shí)驗(yàn)在內(nèi)的幾項(xiàng)實(shí)驗(yàn).無論是Ⅰ型還是Ⅱ型糖尿病,早期診斷和預(yù)測對于延緩疾病發(fā)展,有針對性地選擇藥物,延長患者預(yù)期壽命,減輕癥狀和相關(guān)并發(fā)癥的發(fā)作都至關(guān)重要.生物標(biāo)志物(例如生物分子)是代表健康和疾病狀態(tài)的特定病癥的可測量指標(biāo),通常在體液(血液、唾液或尿液)中測量.在研究糖尿病的情況下,生物標(biāo)志物可以反映患者是否存在高血糖及其嚴(yán)重程度,或是否存在糖尿病相關(guān)并發(fā)癥及其嚴(yán)重程度.而機(jī)器學(xué)習(xí)方法中的特征選擇可以幫助挖掘出新的生物標(biāo)志物,輔助糖尿病的確診,且在特征選擇步驟之后,分類算法可以被用來評估所選特征的預(yù)測準(zhǔn)確度.例如Jelinek等人[67]研究了在糖化血紅蛋白(glycated hemoglobin, HbA1c)水平低于或等于6.5%的情況下,找到的2種生物標(biāo)志物與HbA1c一起參與檢測,提高了糖尿病的診斷準(zhǔn)確性.也有學(xué)者利用特征提取的算法選取預(yù)測糖尿病的特征,如Bagherzadeh-Khiabani等人[68]使用了803名有55個(gè)特征的糖尿病前期女性的臨床數(shù)據(jù)集,比較了19種常用的特征選擇算法來預(yù)測糖尿病.Sideris等人[69]提出了一種基于聚類的特征提取框架,使用疾病診斷信息產(chǎn)生的特征群,并用作預(yù)測患者病情嚴(yán)重程度和患者再入院風(fēng)險(xiǎn).

      許多利用電子病歷的機(jī)器學(xué)習(xí)方法和框架被運(yùn)用到Ⅱ型糖尿病的早期診斷上[70-71].集成學(xué)習(xí)方法和關(guān)聯(lián)規(guī)則學(xué)習(xí)也被大量運(yùn)用到糖尿病的診斷中.如Tapak等人[72]比較了5種機(jī)器學(xué)習(xí)模型ANN,SVM,F(xiàn)CM(fuzzyk-means)、隨機(jī)森林(random forst, RF),LDA(linear discriminant analysis)來分類是否患有糖尿病的個(gè)體.集成學(xué)習(xí)也被逐漸應(yīng)用到診斷糖尿病的分類系統(tǒng)中[73].Han等人[74]提出了一種基于SVM和RF的規(guī)則提取集成學(xué)習(xí)方法.另外,通過挖掘一些與糖尿病相關(guān)的屬性也可以預(yù)測糖尿病風(fēng)險(xiǎn),提醒體檢的人注意某些習(xí)慣預(yù)防糖尿病的發(fā)生.

      深度學(xué)習(xí)方法也對糖尿病的診斷研究作出了貢獻(xiàn),尤其是在對電子病歷非結(jié)構(gòu)化數(shù)據(jù)的處理分析中,例如可以有效地識別病歷中未明確指出的糖尿病病例,從而顯著改善糖尿病病例發(fā)現(xiàn)現(xiàn)狀.EMR的非結(jié)構(gòu)化數(shù)據(jù)存在于臨床記錄、手術(shù)記錄、出院記錄、放射學(xué)報(bào)告和病理報(bào)告中.其中臨床記錄包含的信息有患者的病史(疾病和治療措施等)、疾病家族史、環(huán)境和生活方式等,因此提供了很多可供研究的細(xì)節(jié)信息[75].Zheng等人[76]針對已有算法無法大量識別糖尿病電子病歷案例中非結(jié)構(gòu)化數(shù)據(jù)的問題,使用RF的方法實(shí)現(xiàn)更完整的糖尿病診斷.Pham等人[77]針對個(gè)性化醫(yī)療中的預(yù)測患者疾病和護(hù)理過程建模問題,考慮了包括時(shí)序性等幾項(xiàng)特性,提出了一種端到端的深層動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò).其基于LSTM,引入了處理不規(guī)則且有時(shí)序性事件的方法,還模擬醫(yī)療干預(yù)措施改變病程,根據(jù)歷史和當(dāng)前健康狀態(tài)來估計(jì)未來結(jié)果.最近,Liu等人[78]提出了一個(gè)多任務(wù)學(xué)習(xí)框架來預(yù)測包括糖尿病在內(nèi)的慢性疾病的發(fā)病,并比較了不同深度學(xué)習(xí)架構(gòu)(包括CNN和LSTM)的性能.

      糖尿病作為影響人類健康的常見疾病,長久以來一直損害著社會的經(jīng)濟(jì),用自動(dòng)化、低成本的方式來管理糖尿病的患者,輔助醫(yī)療,將創(chuàng)造巨大的社會效益.

      3.2 心腦血管疾病

      心腦血管疾病是心臟血管和腦血管疾病的統(tǒng)稱,泛指由于高脂血癥、血液黏稠、動(dòng)脈粥樣硬化、高血壓等所導(dǎo)致的心臟、大腦及全身組織發(fā)生的缺血性或出血性疾病.其中心血管疾病(cardiovascular disease, CVD)是全球眾多致死疾病之一,因其死亡人數(shù)占全球死亡人數(shù)的13[79].2種疾病都嚴(yán)重威脅人類,特別是50歲以上中老年人的健康,且有幸存者生活不能完全自理的可能性,或者有嚴(yán)重的并發(fā)癥,例如心力衰竭(heart failure, HF).但是電子病歷文本挖掘可以在多個(gè)角度輔助患者的治療和風(fēng)險(xiǎn)管理等.例如通過電子病歷計(jì)算患者HF存活風(fēng)險(xiǎn)評分,識別高風(fēng)險(xiǎn)患者并應(yīng)用個(gè)體化治療和健康生活指導(dǎo)將降低其死亡風(fēng)險(xiǎn)[80],且可以在出院時(shí)確定再入院風(fēng)險(xiǎn)的患者.另外,Li Bin等人[81]在心血管疾病的許多嚴(yán)重的預(yù)后疾病如急性心肌梗死、肺栓塞、嚴(yán)重的腦神經(jīng)系統(tǒng)疾病等研究中發(fā)現(xiàn)風(fēng)險(xiǎn)預(yù)警模型可以探討其風(fēng)險(xiǎn)因素,篩選出與危重疾病預(yù)后相關(guān)的嚴(yán)重疾病(中風(fēng)、心力衰竭、腎功能衰竭).本節(jié)主要就心腦血管疾病的預(yù)測討論數(shù)據(jù)挖掘技術(shù)輔助心血管疾病治療的作用.

      對于心腦血管疾病的預(yù)測,在醫(yī)療領(lǐng)域,建立可預(yù)測患者疾病的模型可以提高醫(yī)院的治療效果和效率.傳統(tǒng)的對于心血管的治療預(yù)測等都是通過評分來輔助決策,例如美國心臟病學(xué)會(American College of Cardiology, ACC)美國心臟協(xié)會(American Heart Association, AHA)提出基于風(fēng)險(xiǎn)因素的組合Framingham風(fēng)險(xiǎn)評分,包括高血壓、糖尿病、膽固醇和吸煙狀況等這些常規(guī)因素的預(yù)測模型預(yù)測心血管疾病.然而,隨著電子病歷系統(tǒng)的迅速普及,患者的大部分?jǐn)?shù)據(jù)都以電子格式存儲.確定疾病所需的風(fēng)險(xiǎn)因素?cái)?shù)據(jù)存在于電子病歷中,包括結(jié)構(gòu)化數(shù)據(jù)如心電圖、血管造影等和臨床記錄等非結(jié)構(gòu)化數(shù)據(jù).然而,通常為了利用結(jié)構(gòu)化數(shù)據(jù),需要大量的人力物力資源來對數(shù)據(jù)進(jìn)行篩選和清洗,同時(shí)從非結(jié)構(gòu)化電子病歷數(shù)據(jù)中手動(dòng)提取所需成本也十分昂貴[82].且心血管疾病本質(zhì)上是復(fù)雜的,由多種遺傳、環(huán)境(例如空氣污染)和行為因素(例如飲食)引起的,需要更有效的工具來準(zhǔn)確地預(yù)測結(jié)果,而不是依靠簡單的評分系統(tǒng).在數(shù)據(jù)挖掘領(lǐng)域,人工智能技術(shù)(如機(jī)器學(xué)習(xí))正在徹底改變醫(yī)生制定臨床決策和診斷的方式,并提高心腦血管疾病風(fēng)險(xiǎn)自動(dòng)化預(yù)測的水平.將醫(yī)學(xué)信息技術(shù)與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,使用疾病相關(guān)數(shù)據(jù)生成的預(yù)測模型,可以提高預(yù)測準(zhǔn)確性.其中,有監(jiān)督學(xué)習(xí)算法已成功應(yīng)用于心腦血管疾病的預(yù)測.Kim等人[83]使用與心血管疾病相關(guān)的健康數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,找出與心血管疾病相關(guān)的變量,并建立了基于深度信念網(wǎng)絡(luò)(deep belief nets, DBN)的心血管風(fēng)險(xiǎn)預(yù)測模型.但是有監(jiān)督學(xué)習(xí)也有一定的缺點(diǎn),首先其需要大型數(shù)據(jù)集來訓(xùn)練模型并通過其他數(shù)據(jù)集進(jìn)行驗(yàn)證.通常還需要手動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù)集,比如蘇嘉等人[84]針對中文電子病歷特點(diǎn)構(gòu)建的心血管疾病風(fēng)險(xiǎn)因素的標(biāo)注語料庫,以預(yù)測死亡率和再入院率等.此外,即使模型能在給定的訓(xùn)練數(shù)據(jù)集和測試集上表現(xiàn)良好,但是它可能由于訓(xùn)練數(shù)據(jù)與真實(shí)數(shù)據(jù)的差異和過擬合情況而導(dǎo)致偏差.針對這些問題,也有不少無監(jiān)督學(xué)習(xí)算法應(yīng)用到心血管疾病預(yù)測模型中,在最近的趨勢下無監(jiān)督深度學(xué)習(xí)在這一領(lǐng)域表現(xiàn)較好.其次,深度學(xué)習(xí)可用于分類來自異質(zhì)CVD的新基因型和表型,例如肺動(dòng)脈高壓和心肌病等.另外,深度學(xué)習(xí)預(yù)測模型可以通過高血壓、腎功能異常、肝功能異常、年齡、藥物治療和酒精攝入等因子之間的加權(quán)來預(yù)測出血和中風(fēng)的風(fēng)險(xiǎn)評分,以確定患者的最佳劑量和抗凝治療持續(xù)時(shí)間[85].最后,通過深度學(xué)習(xí),可以從心電圖模式或超聲心動(dòng)圖預(yù)測冠狀動(dòng)脈鈣化評分.事實(shí)證明,深度學(xué)習(xí)比其他機(jī)器學(xué)習(xí)技術(shù)(如SVM)更好.但是深度學(xué)習(xí)也有缺點(diǎn),比如其通常是非線性分析,有很多參數(shù)和多層,因此可能導(dǎo)致過度擬合而預(yù)測性能不佳.而且,深度學(xué)習(xí)還需要大量的訓(xùn)練數(shù)據(jù)集,這需要各機(jī)構(gòu)之間的協(xié)作,對計(jì)算機(jī)硬件的要求也較高.

      腦血管疾病主要的表現(xiàn)就是腦卒中,也叫中風(fēng),主要分為缺血性腦卒中和出血性腦卒中.中風(fēng)的預(yù)測從簡單的到復(fù)雜的模型各不相同.腦卒中的風(fēng)險(xiǎn)因素是復(fù)雜的,可以從直接和間接2方面找到不同程度的因素.Leira等人[86]采用逐步回歸法對數(shù)據(jù)庫中選擇的1 266例患有缺血性腦卒中患者和復(fù)發(fā)腦卒中患者的醫(yī)療記錄進(jìn)行分析并選擇20個(gè)臨床變量進(jìn)行評估.Goyal[87]利用ICD-10編碼(包含疾病特征和分類)和腦卒中患者的電子病歷數(shù)據(jù)進(jìn)行分析,最終利用LSTM建立腦卒中的預(yù)測模型.除此之外大多數(shù)的數(shù)據(jù)挖掘模型都結(jié)合電子病歷中的醫(yī)學(xué)圖像輔助腦血管疾病的預(yù)測.

      簡而言之,對患有心腦血管疾病患者的電子病歷進(jìn)行數(shù)據(jù)挖掘,可以從病前、病中、病后3個(gè)階段進(jìn)行有效的預(yù)測,從而來配合醫(yī)生和患者做出更好的決策.

      4 總結(jié)與展望

      在醫(yī)療領(lǐng)域中,文本電子病歷是醫(yī)療單位對患者臨床診療的數(shù)字化相關(guān)信息載體.電子病歷數(shù)據(jù)中的知識對于臨床決策和醫(yī)藥研發(fā)等都有很強(qiáng)的指導(dǎo)意義,其非結(jié)構(gòu)化特征導(dǎo)致很難利用計(jì)算機(jī)直接進(jìn)行批量分析.故將人工智能技術(shù)和大數(shù)據(jù)數(shù)據(jù)挖掘的手段應(yīng)用在電子病歷中是大勢所趨,但是由于電子病歷數(shù)據(jù)的特性,機(jī)器學(xué)習(xí)方法的應(yīng)用也有特定的挑戰(zhàn)和難點(diǎn),其吸引了國內(nèi)外廣大學(xué)者的研究.本綜述針對電子病歷數(shù)據(jù)挖掘,尤其是其中的非結(jié)構(gòu)數(shù)據(jù)挖掘的主要分析流程和方法進(jìn)行了梳理,簡要介紹了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)常見網(wǎng)絡(luò)結(jié)構(gòu),綜述其在電子病歷等方面的最新研究進(jìn)展,并且探討了在糖尿病和心腦血管疾病這樣特定疾病中的應(yīng)用現(xiàn)狀和前景,為后續(xù)文本數(shù)據(jù)挖掘的研究應(yīng)用提供參考.

      猜你喜歡
      病歷實(shí)體文本
      強(qiáng)迫癥病歷簿
      趣味(語文)(2021年9期)2022-01-18 05:52:42
      “大數(shù)的認(rèn)識”的診斷病歷
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      為何要公開全部病歷?
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      长春市| 玉屏| 德格县| 张家港市| 三河市| 洛南县| 蓝山县| 宁南县| 株洲县| 宿州市| 佛冈县| 平南县| 柳江县| 观塘区| 靖宇县| 渑池县| 大宁县| 杂多县| 门头沟区| 兖州市| 博兴县| 阜城县| 谷城县| 太仆寺旗| 平罗县| 许昌县| 宜黄县| 沁水县| 宁晋县| 河间市| 潜山县| 谢通门县| 桦甸市| 胶州市| 哈密市| 丹巴县| 宜州市| 大安市| 天柱县| 科技| 罗平县|