• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子病歷的命名實體識別方法綜述

      2022-02-14 20:02:06陳翯常霞趙東宸
      科技創(chuàng)新導(dǎo)報 2022年20期
      關(guān)鍵詞:分詞命名病歷

      陳翯 常霞* 趙東宸

      (1.北方民族大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院 寧夏銀川 750021;2.寧夏智能信息與大數(shù)據(jù)處理重點實驗室寧夏銀川 750021)

      近年來,人工智能、大數(shù)據(jù)分析等新科學(xué)技術(shù)的發(fā)展不斷賦能醫(yī)藥衛(wèi)生產(chǎn)業(yè)。盡管中國智能醫(yī)院建設(shè)與發(fā)展總體呈現(xiàn)出穩(wěn)定增長的態(tài)勢,但醫(yī)療行業(yè)的信息化和智能化水平依然不夠高。醫(yī)院數(shù)據(jù)的來源、分析、獲取等方面存在較大的不足。但是智能健康發(fā)展遠(yuǎn)景寬廣,許多大型公司融合醫(yī)院數(shù)據(jù)、硬件資源,構(gòu)造智能健康產(chǎn)業(yè)鏈,如醫(yī)學(xué)影像分析、遠(yuǎn)程探診會診、智慧醫(yī)院系統(tǒng)等,而智慧醫(yī)院系統(tǒng)的建立需要以數(shù)字化的電子病歷數(shù)據(jù)庫作為支撐。這一過程包括采用自然語言處理方法將電子病歷文本結(jié)構(gòu)化。自然語言處理(Natural Language Processing,NLP)構(gòu)建了人與計算機通過自然語言開展有效溝通的理論和方法,其任務(wù)過程可以概括為詞性標(biāo)注、命名實體識別(Named Entity Recognition,NER)、實體關(guān)系抽取、數(shù)據(jù)訓(xùn)練等主要方面,其中命名實體識別是信息提取、問答系統(tǒng)、句法分析、機器翻譯,面向Semantic Web的元數(shù)據(jù)標(biāo)注等應(yīng)用領(lǐng)域的重要基礎(chǔ),在自然語言處理技術(shù)實用化過程中占據(jù)關(guān)鍵地位。電子病歷的命名實體識別以現(xiàn)有的病例數(shù)據(jù)庫作為支撐,但是由于醫(yī)生們的記錄習(xí)慣不同及中文表達的多樣性,導(dǎo)致目前電子病歷仍然以非結(jié)構(gòu)化文本為主。因此,將非結(jié)構(gòu)化電子病歷轉(zhuǎn)換為結(jié)構(gòu)化電子病歷成為了人們研究的一個重要方向。中文表達方式的多樣性,相較于其他語種的自然語言處理,中文電子病歷結(jié)構(gòu)化所面臨的研究工作仍具挑戰(zhàn)。

      早先的命名實體識別分析方法著重于詞典和規(guī)則[1]的設(shè)計。后因為機器學(xué)習(xí)的蓬勃發(fā)展和計算能力的不斷增強,各種基于統(tǒng)計機器學(xué)習(xí)[2-4]的命名實體識別方法問世。自本世紀(jì)初Yoshua Bengio 提出了舉世矚目的神經(jīng)網(wǎng)絡(luò)模型后,深度學(xué)習(xí)方法在各個領(lǐng)域大放異彩,也成為了現(xiàn)今命名實體識別應(yīng)用最廣泛的方法。

      2017年起,全國知識圖譜與語義計算大會(CCKS)啟動特別針對中文電子病案的MNER 測評技術(shù)難題,至今已連續(xù)舉辦五屆,推動了中文電子病歷NER研究的發(fā)展。雖然近年來,我國NER發(fā)展整體呈現(xiàn)上升趨勢,但由于中文表達的復(fù)雜性,歧義性以及其他的情況,中文命名實體識別仍然有較大的發(fā)展空間,而電子病歷因為其文本領(lǐng)域的特殊性,發(fā)展相較于其他類別的中文命名實體識別更稍顯落后。本文在已有的研究成果基礎(chǔ)上,總結(jié)了現(xiàn)有命名實體識別方法,分析討論了現(xiàn)有方法的優(yōu)勢及其局限性,綜述其研究進展,并對在醫(yī)療系統(tǒng)中的應(yīng)用發(fā)展前景進行了展望。

      1 基于規(guī)則和詞典的命名實體方法

      與通用領(lǐng)域的命名實體不同,電子病歷的命名實體識別任務(wù)因為其文本包含大量的專業(yè)術(shù)語,文本數(shù)據(jù)標(biāo)注呈現(xiàn)出更大的困難。早期的電子病歷命名實體識別面向生物醫(yī)學(xué)領(lǐng)域文本,與生物、化學(xué)等領(lǐng)域結(jié)合研究。最早期基于規(guī)則和詞典的NER方法,其文本針對性太強,并且消耗大量的人力資源進行數(shù)據(jù)標(biāo)注及規(guī)則的制定,已漸漸被淘汰。此方法對于現(xiàn)在每天海量更新的數(shù)據(jù)并不適應(yīng),但是對于簡單的序列標(biāo)注問題,其省時且簡單的方法更能提高效率。簡單來說基于規(guī)則方式的步驟可以概括為三步:(1)通過分詞獲得特征詞;(2)對特征詞進行序列標(biāo)注;(3)對標(biāo)注后的序列進行正則性匹配?;谝?guī)則的NER 優(yōu)點在于其規(guī)則可以人為設(shè)置,對于簡單的實體識別任務(wù)來說十分高效。但是因為其對于語言文本風(fēng)格的依賴性較強,針對性太強,適應(yīng)性太弱,系統(tǒng)轉(zhuǎn)接性差,對于不同使用環(huán)境需重新進行系統(tǒng)構(gòu)建,因此已經(jīng)漸漸被其他方式取代。

      2 基于機器學(xué)習(xí)的命名實體方法

      隨著機器學(xué)習(xí)的出現(xiàn),大量基于統(tǒng)計機器學(xué)習(xí)的NER 方法出現(xiàn),如隱馬爾可夫模型、最大熵模型、支持向量機、條件隨機場、決策樹等比較出色的方法。其中,條件隨機場方法到現(xiàn)在也仍然被許多研究人員用來與深度學(xué)習(xí)方法相結(jié)合提升NER 效果,此方法將NER 過程看作一個序列標(biāo)注問題,解決了高維度向量中存在的數(shù)據(jù)稀疏問題。

      基于統(tǒng)計學(xué)習(xí)的方法中最具代表性的4種算法分別為隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Models,MEM)、支持向量機(Support Vector Machine,SVM)及條件隨機場(Conditional Random Field,CRF)方法。HMM 是雙重隨機過程,即模型的變換過程隱秘,可檢視的隨機過程是隱秘的狀態(tài)切換過程的隨機函數(shù)[5]。對于NLP 來說,其文本序列具有遞歸性,當(dāng)序列長度較大時,HMM的復(fù)雜程度會大幅度增加,因此,HMM-NER更適用于短文本的任務(wù),當(dāng)面對長文本時,其效果有時并沒有MEM 及SVM 好。MEM 指在獲取部分?jǐn)?shù)據(jù)后,基于可知信息最大隨機的推想下判別最適當(dāng)?shù)奈疵鞣植迹灰话銇碚f正確率高于HMM,但是其模型關(guān)聯(lián)性高,雖然通用性高,但是訓(xùn)練較為復(fù)雜。SVM 是一種二分類模型,通過構(gòu)造超平面將數(shù)據(jù)一分為二,在解決小樣本或高位模式識別中優(yōu)勢十分突出,在NER任務(wù)中準(zhǔn)確性高于HMM模型。CRF是一種全局最優(yōu)的標(biāo)注框架,也是現(xiàn)在NLP 任務(wù)中更為受到青睞的一種方法,但是缺點為收斂速度較慢,訓(xùn)練時間長,所以一般將CRF與其他算法相結(jié)合,以達到更好的效果。基于統(tǒng)計學(xué)習(xí)方法的NER 對于語料庫的依賴性較強,而電子文本的NLP 任務(wù)的重難點就在于其數(shù)據(jù)難得,因此并不推薦這種方法處理中的電子病歷。

      3 基于深度學(xué)習(xí)的命名實體識別方法

      鑒于深度學(xué)習(xí)技術(shù)的逐步推進和計算機算力的不斷提高,基于深度學(xué)習(xí)的NER方法也已轉(zhuǎn)變成主流方法,Lample[6]等人提出的BiLSTM-CRF 模型變成NER的主流模型,Ma[7]等人將卷積神經(jīng)網(wǎng)絡(luò)加入BiLSTMCRF 中,提取了字符級特征。Rei[8]等人利用BiLSTMCRF 模型中的注意力機制,將原生的子向量和詞向量結(jié)合進一步改進成取用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱含層學(xué)習(xí)注意力機制的權(quán)值。

      如圖1所示,BiLSTM是雙向LSTM網(wǎng)絡(luò),由于單向LSTM網(wǎng)絡(luò)只包含一層前向隱藏層,只能通過輸入字符串的單項信息,但在雙向LSTM網(wǎng)絡(luò)中,則是從正反兩個路徑獲取編碼序列,學(xué)習(xí)雙向信息,避免了梯度消失的問題。此外,CRF 層通過BiLSTM 層的輸出,給出每個單詞的每個標(biāo)簽的得分,并用原始CRF 模型的參數(shù)得到最終標(biāo)簽序列的概率。BiLSTM-CRF 作為當(dāng)前深度學(xué)習(xí)中NER任務(wù)的最主流的模型,既保留了深度學(xué)習(xí)提取特征的優(yōu)勢,又不需要特征工程,便可提升詞典特征的效率,結(jié)果的質(zhì)量就會相應(yīng)提高。

      圖1 BiLSTM

      2018 年,Google 公司提出BERT 預(yù)訓(xùn)練語言模型,其概念簡單,但實驗效果極其出色,一經(jīng)面世便創(chuàng)下了11個NLP任務(wù)的最優(yōu)紀(jì)錄,在NLP領(lǐng)域奪得開創(chuàng)性的研究進展。因為BERT 提供了優(yōu)良的效果,使得此方法受到了大批研究人員的青睞,一些基于BERT 衍生的語言模型相繼出現(xiàn)。

      在醫(yī)學(xué)領(lǐng)域,NER任務(wù)的發(fā)展與常規(guī)的NER極為相似。傳統(tǒng)的醫(yī)療實體識別方法主要通過人工特征和規(guī)則進行實體識別。隨著近年來電子病歷數(shù)據(jù)的發(fā)展,對此類數(shù)據(jù)進行信息抽取越來越受到重視。但是因為電子病歷文本的特殊性,一般難以獲得大規(guī)模的數(shù)據(jù)進行訓(xùn)練,也使得電子病歷的NER任務(wù)發(fā)展受到了限制。電子病歷文本內(nèi)容中不僅有許多患者的個人隱私信息,且其內(nèi)容專業(yè)性極強,專業(yè)術(shù)語復(fù)雜多變;不僅如此,電子病歷書寫因人不同,不同醫(yī)生的記錄習(xí)慣都有或大或小的差異,這些都是電子病歷NER任務(wù)中數(shù)據(jù)來源的困難,也是限制電子病歷發(fā)展的主要問題。

      基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER方法,無需大量人工標(biāo)注,通過詞向量和字符向量即可達到不錯的效果,這也是他成為研究主流的原因,而且現(xiàn)階段的NER處理都更傾向于使用神經(jīng)網(wǎng)絡(luò)與機器學(xué)習(xí)相結(jié)合的方法,結(jié)合二者的優(yōu)點,使效果更為突出,無論是CNN-CRF 還是RNN-CRF 都取得了比基于豐富特征的CRF 模型更好的效果。其中最常用的是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Network,BRNN)與CRF 相結(jié)合的方式的方法:該方法通過從輸入句子的起點與終點同時進行處理,將上下文的信息編碼,并在最終增加CRF 層,既改進了CRF 收斂慢,訓(xùn)練時間長的短板,又融入了神經(jīng)網(wǎng)絡(luò)分詞算法對于處理輸入長序列的優(yōu)勢,羅熹[9]等人基于自設(shè)計的優(yōu)化字符級特征表示方法,提出將自注意力機制與BiLSTM-CRF 的命名實體識別方法,并與相關(guān)的醫(yī)學(xué)詞典結(jié)合,提高識別能力。除此之外,現(xiàn)在較為熱門的還有將注意力機制應(yīng)用在基于RNN或CNN等神經(jīng)網(wǎng)絡(luò)中,注意力機制的特點在于并不拘泥詞與詞之間的距離,直接計算二者的依賴關(guān)系,實現(xiàn)起來并不復(fù)雜。黃曉輝[10]等以卷積循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立中文分詞和實體識別聯(lián)合學(xué)習(xí)的序列標(biāo)注模型?;诮y(tǒng)一的分詞和實體識別序列標(biāo)注模式,構(gòu)建了分詞信息與實體信息的聯(lián)合學(xué)習(xí),避免了傳統(tǒng)流水線法的誤差傳播缺陷。不僅如此還可以在BiLSTM 的基礎(chǔ)上用其他方式對命名實體識別進行優(yōu)化、Yuan 等[11]人在已有的基于BiLSTM 基礎(chǔ)上通過使用關(guān)鍵值記憶網(wǎng)絡(luò)將句法信息合并到主干序列標(biāo)記器中的方法,提高了命名實體識別的效率。雖然電子病歷的NLP 任務(wù)處理尚不成熟,但是已經(jīng)引起了許多學(xué)者的注意,楊文明和褚偉杰[12]在IDCNN-BiLSTM-CRF中,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)采集特征向量,將得到的向量拼合映射后,輸入CRF層中完成NER目標(biāo),雖整體性能較好,但仍需要提高醫(yī)療實體識別率,并進行訓(xùn)練。其中,陳杰[13]等就基于ALBERT 模型,構(gòu)建了一個ALBERT-BilSTM-CRF 模型,此方法減少了訓(xùn)練時間,大大減少了時間開銷,但可能不如BERT可以訓(xùn)練更好的模型。

      但即便如此,我國電子病歷的NER任務(wù)近幾年的發(fā)展速度仍在提升,車翔玖[14]等人提出利用Word2Vec和BERT 為基礎(chǔ)進行預(yù)訓(xùn)練,再將生成的詞輸入到BiLSTM-CRF 網(wǎng)絡(luò)的二階段法進行生物醫(yī)學(xué)的命名實體識別,其在Yidu-S4k 數(shù)據(jù)集實驗的結(jié)果準(zhǔn)確率為80.94%。馬詩語[15]等人使用輕量級BERT 模型與BiLSTM-CRF 融合以減少訓(xùn)練時長,針對糖尿病數(shù)據(jù)集進行訓(xùn)練,取得了不錯的效果。景慎旗[16]等人使用中文百科半自動化實體標(biāo)注依賴神經(jīng)網(wǎng)絡(luò)GCN 對電子病歷文本的依賴結(jié)構(gòu)建模,構(gòu)建BERT-GCN-CRF模型進行電子病歷文書的NER 任務(wù)。胡海洋[17]等提出基于多頭注意力機制的膨脹卷積神經(jīng)網(wǎng)絡(luò)模型,通過字嵌入和位置嵌入算法減輕模型對分詞效果的依賴,使用北京協(xié)和醫(yī)院的電子病歷文本數(shù)據(jù)進行訓(xùn)練,準(zhǔn)確率達到0.918。張厚昌與劉成良[18]提出融合字詞特征的中文醫(yī)療命名實體識別模型,其內(nèi)在也是BERTBiLSTM-CRF 模型的搭建。2018 年,新加坡學(xué)者Yue Zhang、Jie Yang等[19]人提出了Lattice-LSTM模型,此模型也是基于BiLSTM-CRF 搭建,通過字向量與詞向量組成的Lattice 網(wǎng)格輸入,以減少識別的歧義。此模型充分利用了詞和詞序的信息,通過門控單元讓模型選擇最為相關(guān)的字和詞以實現(xiàn)實體識別,但是模型太過復(fù)雜且僅采用單向的LSTM,序列的反向信息并沒有得到充分的利用,如圖2所示。

      圖2 Lattice-LSTM

      綜上所述,可見在電子病歷的NER 任務(wù)中,BERT、BiLSTM、CRF 仍然是能夠取得最好效果的方法,在醫(yī)學(xué)方面也被廣泛應(yīng)用,但效果都明顯落后于如新聞稿件,微博博客類的生活類文本,這與醫(yī)學(xué)文本本身具有的特殊性以及專業(yè)性有關(guān)系,另外,醫(yī)學(xué)文本的數(shù)據(jù)稀缺也是一個極為重要的原因。

      NER 作為NLP 任務(wù)的底層任務(wù),對于電子病歷的處理來說有著舉足輕重的作用,將這一任務(wù)處理好,后續(xù)的工作都將更為輕松。現(xiàn)今我國對于電子病歷NER任務(wù)的研究已經(jīng)逐漸被研究人員注意,不再只聚集于特征工程任務(wù)的算法提高,而是因為電子病歷的特殊性逐漸做到對癥下藥,細(xì)致到每一步進程。

      4 分詞

      分詞作為語料預(yù)處理的一部分,其重要程度并不遜色于命名實體識別;現(xiàn)有公開的中文NLP 工具都十分出色,如哈爾濱工業(yè)大學(xué)研發(fā)的語言技術(shù)平臺(Language Technology Platform,LTP)、HanLP、THULAC、jieba 分詞,以及復(fù)旦大學(xué)邱錫鵬團隊的fastHan 及NLPIR;HanLP 蘊含的語料庫極為豐富,且針對不同NLP任務(wù)都有詳細(xì)代碼,且長期在GitHub上進行更新,方便同領(lǐng)域的其他研究人員使用學(xué)習(xí)。但是因為基于Java開發(fā),環(huán)境或調(diào)用包的設(shè)置有些復(fù)雜,可能對于不熟悉Java 的人來說稍有難度,且對于大文本數(shù)據(jù)可能耗時較其他工具略長。哈工大研發(fā)的LTP 支持跨平臺,跨語言編程,高效精確,不需要下載SDK。主要可以進行分詞,詞性標(biāo)注,命名實體識別,依存句法分析,語義角色標(biāo)注及語義依存分析六項任務(wù),其算法先進且功能全面,因此多被研究者們用來與自己算法結(jié)果進行對比。然而,它的缺點是必須基于API 參數(shù)構(gòu)建HTTP 請求,并在線獲得分析結(jié)果。fastHan 算法基于BERT 的聯(lián)合模型,通過fastNLP 與pytorch 實現(xiàn),且有base(前四層)與large(前八層)兩個版本。其安裝簡單方便,fastNLP 版本高于0.5.0,Pytorch版本高于1.0.0即可,可處理中文分詞、詞性標(biāo)注、依存句法分析、命名實體識別4項任務(wù)。輸出結(jié)果表現(xiàn)為list形式,為后續(xù)其他領(lǐng)域的使用提供了方便。且使用簡單,如分詞粒度,分詞風(fēng)格都可以根據(jù)使用者進行調(diào)換。Jieba 是基于前綴詞典實現(xiàn)高效的詞圖指標(biāo),選用實時規(guī)劃檢索最大概率路徑。支持精確模式、全模式及搜索引擎模式的3個分詞模式。不僅如此,jieba還支持自定義詞典,這對如電子病歷這種特性較強的文本處理非常友好,長期以來,jieba 是研究人員的基礎(chǔ)使用工具。但是詞典數(shù)據(jù)中不能包含空格,否則無法進行分詞。NLPIR使用基于CRF 的字標(biāo)注模型實施分詞,將頻數(shù)超過一定閾值的詞語作為候選詞語。NLPIR可以多角度保證大數(shù)據(jù)文本的需求,其功能全面豐富,并且所有功能模塊全部具有對應(yīng)的二次開發(fā)口,使用方便,也常常被用來與其他改進算法結(jié)果進行比較。THULAC所采用的分詞模型是結(jié)構(gòu)化感知器,屬于兩種CWS 模型中的Character-Based Model,將中文分詞視為序列標(biāo)注問題進行處理。不過雖然THULAC分詞時間消耗雖然比較少,但最后效果可能稍顯潦草。不過,這些NLP工具的分詞結(jié)果仍然都取得了喜人的效果,雖然因為病歷文本中許多疾病名稱或癥狀并不是這些工具訓(xùn)練數(shù)據(jù)庫中常見的詞組,對于電子病歷分詞的處理效果會有所下降,但是可以在這些開源代碼上加以電子病歷的訓(xùn)練達到更好的分詞效果。

      5 其他工作

      除了上述工作之外,后續(xù)的其他工作都對NLP 的結(jié)果產(chǎn)生影響。在上面提到的幾種分詞處理工具對于詞性標(biāo)注都有非常不錯的結(jié)果,若集中電子病歷數(shù)據(jù)對其進行訓(xùn)練,準(zhǔn)確率將不會遜色;電子病歷文本的獨特性,導(dǎo)致其間沒有語氣感嘆詞及其他需要進行大量停用的詞,因此直接導(dǎo)入停用詞表即可,且對停用詞數(shù)據(jù)庫的要求不那么嚴(yán)格,甚至可以不加停用詞的設(shè)計。

      獲得的數(shù)據(jù)經(jīng)過預(yù)處理之后,得到了可用的特征語料,再進行文本特征選擇。文本的構(gòu)造目前習(xí)慣用的幾種方法分別是句法分析、實體N-gram、頻次法及基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法,文本特征包含以上這些但不限于這些。這幾種方法都有應(yīng)在具體的應(yīng)用中。如現(xiàn)在比較成熟的幾種分詞方法,都不同地使用的這幾種方法且取得了相應(yīng)的成功。目前,較為熱門的方法仍然是無監(jiān)督或弱監(jiān)督的預(yù)訓(xùn)練與端對端的有監(jiān)督訓(xùn)練,這兩類方法作為現(xiàn)在研究的主流方法,吸引了大批量學(xué)者的研究,其中,頻次法中的TF-IDF 也受到許多人的青睞,因為其算法可以有效地提取出關(guān)鍵信息且不會提取重復(fù)的無用信息,因此經(jīng)常作為關(guān)鍵字抽取的主要算法之一。特征工程后,需要進行特征選擇工作,特征選擇的目的往往是降維。嚴(yán)格來講,一是減少特征數(shù)量,增強模型的泛化能力,降低過度擬合的出現(xiàn)概率;二是加強對特征和特征值的理解,但是特征選擇的工作往往使只能選擇其一,因此大部分的學(xué)者往往首選降維作為主要目的。當(dāng)做完降維工作也就是特征選擇的工作之后,再對模型進行訓(xùn)練以達到效果,現(xiàn)有的優(yōu)化算法勢不可擋,但仍然是我們后續(xù)研究探索的重點。

      6 結(jié)論與展望

      盡管電子病歷在我國的研究與應(yīng)用方面取得了一定的成績,但與發(fā)達國家相較仍有差距;一方面,礙于電子病歷的發(fā)展不均衡,軍隊醫(yī)院加速實現(xiàn)病例系統(tǒng)間信息聯(lián)結(jié)時,部分地方醫(yī)院仍然沒有使用電子病歷;另一方面,因為中文特有的文字表達方式及現(xiàn)在各個醫(yī)院結(jié)構(gòu)化電子病歷投入力度不夠,同時醫(yī)生對于病人的病史和體檢,體征方面的敘述表達差異較大,且病歷的私密性與隱私等相關(guān)問題等,一系列的原因造成了現(xiàn)在研究人員數(shù)據(jù)大量不足的情況,使得診療數(shù)據(jù)沒有實現(xiàn)其科學(xué)研究價值。除此之外,現(xiàn)有分詞工具較少,針對中文的NLP任務(wù)相對還處在發(fā)展階段,相較于英文NER 發(fā)展相對滯后,但相關(guān)研究人員仍在努力,現(xiàn)階段可能不夠突出,但后續(xù)發(fā)展仍然十分樂觀。除此之外,近兩年關(guān)于電子病歷的NLP 任務(wù)逐漸受到重視,大量科研人員都在努力克服困難,雖然數(shù)據(jù)來源仍然有困難,但不再是不可攻克的難關(guān)。

      對于NER任務(wù),深度學(xué)習(xí)與統(tǒng)計相結(jié)合的方法成為了現(xiàn)在的主流,因為其具有良好的效果且不會過多消耗人力和時間,近幾年成為了新的研究熱潮并產(chǎn)生了許多優(yōu)秀的成果。電子病歷的自然語言處理是電子病歷整理及后續(xù)研究工作的重點和基礎(chǔ),為解決此問題許多方法如BERT、BiLSTM、QCNN 等新型的神經(jīng)網(wǎng)絡(luò)模型被使用在電子病歷文本的處理上,并且具有良好的效果,如表1 所示[20]。且現(xiàn)在越來越多的學(xué)者已經(jīng)不滿足于僅使用神經(jīng)網(wǎng)絡(luò)模型,而是將神經(jīng)網(wǎng)絡(luò)與機器學(xué)習(xí)的方法結(jié)合起來,未來研究方向也將朝著兩種甚至更多的神經(jīng)網(wǎng)絡(luò)模型與機器學(xué)習(xí)的方法結(jié)合,以提高算法效率。為了滿足當(dāng)今科技發(fā)展,推動醫(yī)療智能化和自動化發(fā)展,采用命名實體識別技術(shù)挖掘電子病歷的數(shù)據(jù)信息,是今后智能化工作的關(guān)鍵和必由之路。在后續(xù)的工作中如特征工程與模型訓(xùn)練還有許多可以開發(fā)的空間,仍需要不斷地努力和探索。

      表1 現(xiàn)有部分算法在Weibo數(shù)據(jù)集上NER效果對比

      猜你喜歡
      分詞命名病歷
      強迫癥病歷簿
      趣味(語文)(2021年9期)2022-01-18 05:52:42
      命名——助力有機化學(xué)的學(xué)習(xí)
      “大數(shù)的認(rèn)識”的診斷病歷
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      值得重視的分詞的特殊用法
      為何要公開全部病歷?
      村醫(yī)未寫病歷,誰之過?
      高考分詞作狀語考點歸納與疑難解析
      黄骅市| 重庆市| 浮山县| 兴宁市| 电白县| 长春市| 堆龙德庆县| 巩义市| 松江区| 金溪县| 美姑县| 井研县| 衡南县| 辽阳市| 通榆县| 如东县| 京山县| 宝鸡市| 库车县| 开封县| 普安县| 乌恰县| 荣成市| 资兴市| 加查县| 环江| 沁阳市| 宜宾县| 彩票| 灵石县| 共和县| 泽普县| 奉节县| 抚顺县| 隆德县| 久治县| 龙州县| 连云港市| 镇江市| 香河县| 台南县|