琚沅紅 牟冬梅,2* 王書童 李 樺,2 徐靜雯 呂淑貞
(1.吉林大學(xué)公共衛(wèi)生學(xué)院,吉林 長春 130021;2.吉林大學(xué)第一醫(yī)院臨床研究部,吉林 長春 130021;3.長春中醫(yī)藥大學(xué)醫(yī)藥信息學(xué)院,吉林 長春 130117)
近年來,隨著數(shù)據(jù)的指數(shù)級增長、科學(xué)技術(shù)的不斷突破,以知識驅(qū)動的人工智能應(yīng)用已被廣泛落地于各種現(xiàn)實場景中,該現(xiàn)象帶動了人們對精煉、專業(yè)化、個性化知識需求的不斷增加的同時,推動了大數(shù)據(jù)研究范式從數(shù)據(jù)密集型向知識密集型轉(zhuǎn)變進程,也促進了情報工程化、智能化的發(fā)展和壯大。情報工程化、智能化為創(chuàng)新科技情報服務(wù)提供了有效途徑,但如何從海量多源異構(gòu)數(shù)據(jù)中識別并抽取知識,是當(dāng)下情報工程化、智能化亟需解決的問題,也是解決大數(shù)據(jù)時代信息超載的關(guān)鍵[1-2]。而數(shù)據(jù)的真實性、準(zhǔn)確性、可靠性、完整性程度對于提高數(shù)據(jù)到知識這一過程的有效性,增強所獲得知識的實用性起決定性作用。
診療規(guī)范作為高質(zhì)量醫(yī)學(xué)知識的重要組成部分,對于提升科研效率和促進成果產(chǎn)出具有重要價值。其是包括臨床實踐指南、專家意見、專家共識、臨床路徑、技術(shù)標(biāo)準(zhǔn)、指導(dǎo)原則、國家標(biāo)準(zhǔn)在內(nèi)的,由領(lǐng)域權(quán)威專家以循證醫(yī)學(xué)為前提,結(jié)合自身經(jīng)驗對具有代表性、有效性以及可行性的最新研究成果的全面總結(jié)和深度提煉。診療規(guī)范作為健康醫(yī)療大數(shù)據(jù)的一部分,不僅能對臨床診療過程起到重要的指導(dǎo)和規(guī)范作用,且作為臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)的核心知識源,能夠以“證據(jù)支持者”的角色為診療決策提供科學(xué)依據(jù),提高臨床診療效率的同時,從整體上改善醫(yī)療服務(wù)同質(zhì)化水平??偟膩碚f,診療規(guī)范對醫(yī)務(wù)工作者的指導(dǎo)和約束作用貫穿于疾病診療過程始終。然而,當(dāng)下診療規(guī)范以篇章為粒度且多以文本形式集成于各網(wǎng)站或數(shù)據(jù)庫系統(tǒng)中,未能以計算機可讀的形式嵌入到醫(yī)療信息系統(tǒng)中,文本形式的診療規(guī)范的難利用、不易擴展及可植入性差等問題無法滿足醫(yī)護人員在診療過程中對知識的需求,更加無法在實際診療的決策制定過程中提供自動化知識支持[3]。而且隨著互聯(lián)網(wǎng)+人工智能技術(shù)的發(fā)展,傳統(tǒng)的以經(jīng)驗為主導(dǎo)的臨床實踐模式正在向數(shù)據(jù)驅(qū)動的循證醫(yī)學(xué)、精準(zhǔn)醫(yī)學(xué)、人工智能+醫(yī)療等智慧化醫(yī)學(xué)模式變革。醫(yī)護人員對知識形式的需求逐漸從散在、孤立、簡單向聚合、關(guān)聯(lián)、復(fù)雜的方向發(fā)展,對知識的獲取深度也向著精準(zhǔn)化、個性化和智能化的方向轉(zhuǎn)變。因此,如何從醫(yī)學(xué)數(shù)據(jù)中精準(zhǔn)、智能、高效地提取知識,實現(xiàn)零散、異構(gòu)數(shù)據(jù)的有序化組織、結(jié)構(gòu)化存儲,從而促進對醫(yī)學(xué)知識的智能化應(yīng)用,為醫(yī)護診療提供決策支持,是智慧醫(yī)療發(fā)展過程中的首要環(huán)節(jié),也是最為基礎(chǔ)的一步[4]。
命名實體識別(Named Entity Recognition,NER)作為解決這一問題的基本手段,現(xiàn)階段主要用于對領(lǐng)域文本進行挖掘,其能夠根據(jù)目標(biāo)實體的粒度、語義層次、語義深度從非結(jié)構(gòu)化文本中對命名實體進行識別,其準(zhǔn)確性、完整性對構(gòu)建知識庫或知識圖譜起到了關(guān)鍵性的奠基作用。鑒于肺癌是對人類生命健康威脅最大的惡性腫瘤之一,《2020年世界癌癥報告》指明,肺癌發(fā)病率和死亡率一直位于全球各種惡性腫瘤首位(死亡率占總數(shù)18.4%)[5],其中,中國為發(fā)病率增幅最大的地區(qū)之一(年均增長率超過2%)[6],且根據(jù)國家癌癥中心發(fā)布的《2019年全國癌癥報告》顯示,按發(fā)病及死亡人數(shù)順位排序,肺癌位居我國惡性腫瘤發(fā)病率及死亡率首位,且其死亡率呈現(xiàn)逐年上升趨勢[7],對國家、社會和個人造成了嚴重的負擔(dān)。因此,本文以肺癌診療規(guī)范為例,以解決高質(zhì)量醫(yī)學(xué)知識在實際應(yīng)用過程中遇到的瓶頸為切入點,以結(jié)合詞匯增強的命名實體識別方式完成對非結(jié)構(gòu)化肺癌診療規(guī)范文本中實體邊界及其類別的識別,實現(xiàn)肺癌診療規(guī)范文本的有序化、結(jié)構(gòu)化,這對于提高診療水平的均等化和同質(zhì)化程度,促進醫(yī)療模式變革具有重要意義。
縱觀NER的發(fā)展歷程,其經(jīng)歷了早期的基于字典、基于規(guī)則的方法,基于隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)、條件隨機場(Conditional Random Fields,CRF)等傳統(tǒng)的機器學(xué)習(xí)的方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的深度學(xué)習(xí)的方法以及以上方法的混合等階段,而不同方法的更新迭代的宗旨均是為了提高NER性能[8]。其中,因為基于深度學(xué)習(xí)的方法不論在特征學(xué)習(xí)深度還是在模型識別精度上都表現(xiàn)出遠優(yōu)于傳統(tǒng)的基于機器學(xué)習(xí)方法的特點,而受到界內(nèi)學(xué)者的廣泛應(yīng)用。特別的,將機器學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合而形成的LSTM+CRF、BiLSTM+CRF是現(xiàn)階段中英文NER的主流方法[9]。但不論采用哪一種方法,其性能均依賴于足量的標(biāo)注數(shù)據(jù)以及標(biāo)注數(shù)據(jù)的質(zhì)量。而大多數(shù)標(biāo)注數(shù)據(jù)均體現(xiàn)出依賴人工、數(shù)據(jù)量小、質(zhì)量參差不齊等特點[10]。且垂直領(lǐng)域的術(shù)語或概念專業(yè)性更強,更加需要領(lǐng)域?qū)<业募映?,尤其是專業(yè)性極強的醫(yī)學(xué)領(lǐng)域,其對知識精準(zhǔn)度、完整度要求更高。對醫(yī)學(xué)領(lǐng)域文本數(shù)據(jù)進行NER時,對數(shù)據(jù)的準(zhǔn)確標(biāo)注要求更高,且鑒于疾病類型種類繁多,不同的疾病診療過程各異的特性,不同疾病所代表的知識概念體系間也存在較大差異,這使得醫(yī)學(xué)數(shù)據(jù)樣本在標(biāo)注時沒有統(tǒng)一的模板可循,再加上中文的表述不若英文沒有天然的分界,因此標(biāo)注過程也更為復(fù)雜。這也是造成研究者對醫(yī)學(xué)相關(guān)文本進行NER時缺乏用于模型訓(xùn)練的數(shù)據(jù)集的關(guān)鍵原因[11]。特別在總體數(shù)據(jù)量本身就少的中文診療規(guī)范數(shù)據(jù)識別方面,更加缺乏標(biāo)注數(shù)據(jù)的支持。因此,對中文診療規(guī)范命名實體識別進行深入研究不論是在理論突破還是現(xiàn)實意義方面均具有重要價值。
目前,少樣本NER研究還處于發(fā)展階段,相關(guān)工作大多聚焦于通用領(lǐng)域,對醫(yī)學(xué)領(lǐng)域的研究極少。石教祥等[12]認為,現(xiàn)階段少樣本NER大體分為4個研究方向:數(shù)據(jù)增強、模型遷移、特征變換以及知識鏈接。其中,數(shù)據(jù)增強相關(guān)研究更為常見,且主要從模型結(jié)構(gòu)設(shè)計和數(shù)據(jù)資源優(yōu)化兩個方面來提升少樣本NER性能。
NER模型結(jié)構(gòu)一般分為輸入表示層、序列建模層和標(biāo)簽解碼層。研究者們通常對基線模型中的某一層或某幾層進行結(jié)構(gòu)上的改良以實現(xiàn)更優(yōu)的NER性能。在輸入表示層方面,有Ding R等[13]利用多圖結(jié)構(gòu)實現(xiàn)實體詞典與基于字符的NER模型間的交互,進而解決詞典匹配沖突的問題。也有Ma R等[14]對Embedding層進行設(shè)計,避免信息損失的同時還能引入詞匯相對應(yīng)的Word Embedding;或者通過為每個詞匯的末尾字符進行編碼實現(xiàn)Batch并行化以獲得較高的識別效率[15]。在序列建模層方面,其模型構(gòu)造先后經(jīng)歷了從Zhang Y等[16]提出LatticeLSTM和從Li Z等[17]提出MGLatticeLSTM,即通過更改LSTM結(jié)構(gòu)將詞匯信息與基于字符的LSTM相融合。到Gui T等[18]提出LR-CNN,引入CNN實現(xiàn)并行化訓(xùn)練并提出了一種Rethinking機制來解決詞匯沖突問題。到Sui D等[19]提出CGN,通過拼接多個圖注意力網(wǎng)絡(luò)的計算結(jié)果來對模型中的圖網(wǎng)絡(luò)層進行設(shè)計。再到Li X等[20]提出FLAT,通過使用Transformer并對字符的相對位置進行編碼來更好地融合詞匯信息等過程。此外,相關(guān)研究多采用網(wǎng)絡(luò)多層感知機+激活函數(shù)(MLP+softmax)、CRF、RNN和指針等方式對序列建模層輸出的序列進行解碼,其中以CRF最為通用[21]。整體來看,對輸入表示層的研究主要是構(gòu)建基于詞匯信息的自適應(yīng)Embedding,模型可移植性好。對序列建模層的研究以模型動態(tài)框架設(shè)計為核心,在基于字符的基礎(chǔ)上融入詞匯信息,此類模型設(shè)計及運行較為復(fù)雜,且移植性較差,不適合在專業(yè)性較強的領(lǐng)域推廣使用。
梳理現(xiàn)有研究成果發(fā)現(xiàn),利用深度學(xué)習(xí)算法對相關(guān)領(lǐng)域內(nèi)各類命名實體進行識別的方法或流程已逐步趨于成熟。因此,學(xué)者們多以前人研究中的模型或算法為基礎(chǔ),將研究的重點聚焦于對訓(xùn)練語料的優(yōu)化方面。研究以此為出發(fā)點,將少樣本NER過程中所用到的數(shù)據(jù)資源分為內(nèi)部資源和外部資源。其中,內(nèi)部資源指用于訓(xùn)練、驗證以及測試模型性能的數(shù)據(jù)集;外部資源指由外部引入的用于提高模型性能的數(shù)據(jù)。當(dāng)下,以數(shù)據(jù)資源為操作核心的少樣本NER研究,或以內(nèi)部資源為優(yōu)化對象,通過增加資源支持體量、優(yōu)化資源特征表示、增強語義表示能力等方式來提升少樣本NER性能,或以外部資源為優(yōu)化對象,通過擴大資源提供維度來提高模型識別能力。
就資源體量而言,可通過主動學(xué)習(xí)采樣[22]為模型提供高質(zhì)量數(shù)據(jù)集,或通過半監(jiān)督采樣[23]、無監(jiān)督采樣[24]等方式增加模型對負樣本的學(xué)習(xí)難度以提高樣本篩選的準(zhǔn)確率。就特征表示而言,周康等[25]在BiLSTM的基礎(chǔ)上引入AdaBoost集成學(xué)習(xí)算法,通過整合各細分子類的分類器,從全局角度對數(shù)據(jù)不同維度的特征進行刻畫,提高模型的特征捕獲能力。陳曙東等[26]基于詞典并通過加權(quán)的方式對序列中的字符進行動態(tài)匹配后得到字符的增強特征表示,從而提高模型的自動推理能力。就語義表示而言,主要集中于對預(yù)訓(xùn)練語言模型的研究,研究者們在研究過程中通過不斷增強對字或者詞的語義表示能力以實現(xiàn)對字或者詞的多義性表征,從最初的利用Word2Vec工具[27]訓(xùn)練詞向量到近年來基于Transformer的BERT模型[28],從ElMo算法[29]、GloVe算法[30]到XLnet模型[31]再到如今的將XLnet模型和BERT模型相結(jié)合[32-34]的方法,雖然方法的復(fù)雜度越來越高,但對語義的表達能力越來越強。就資源維度而言,指外部資源的種類,可通過引入字典[14]、詞典[35]、本體庫[36]、知識庫[37]等外部資源來啟發(fā)式地標(biāo)記數(shù)據(jù),降低標(biāo)注數(shù)據(jù)的獲取難度,從而提高目標(biāo)NER任務(wù)的完成效率。
鑒于當(dāng)下醫(yī)學(xué)領(lǐng)域內(nèi),尤其是專病相關(guān)訓(xùn)練語料稀缺,且少樣本NER研究在醫(yī)學(xué)領(lǐng)域較為薄弱的現(xiàn)狀,本研究從改良模型結(jié)構(gòu)、優(yōu)化資源特征表示以及擴大資源提供維度的角度出發(fā),以肺癌為例,以中文各版肺癌診療規(guī)范文本為原始語料,通過自建肺癌專業(yè)術(shù)語詞典并將其與字符級模型輸入表示層相融合的方式實現(xiàn)詞匯增強的肺癌診療規(guī)范NER模型的構(gòu)建,并將該模型與基線模型BiLSTM-CRF、Soft-Lexicon相比較,從而進一步證實字詞融合方式在NER中優(yōu)越性的同時,實現(xiàn)肺癌診療規(guī)范有序化、結(jié)構(gòu)化,也為醫(yī)學(xué)領(lǐng)域內(nèi)少樣本高質(zhì)量醫(yī)學(xué)知識的命名實體識別研究提供路徑參考。
基于詞匯增強的NER的核心思想在于將詞匯信息引入到字級別的NER模型中,這種同時考慮字符和詞匯的做法分別在詞信息補全和詞邊界校準(zhǔn)兩方面發(fā)力,既能避免詞級別模型出現(xiàn)分詞錯誤傳播的問題,也能解決字級別模型詞匯信息缺失的問題。本研究通過創(chuàng)新Soft-Lexicon模型[14]在醫(yī)學(xué)領(lǐng)域的應(yīng)用,提出Fusion-Lexicon模型,即在利用字符詞典以及通用詞典進行字級別模型構(gòu)建的基礎(chǔ)上,特別引入領(lǐng)域?qū)I(yè)術(shù)語詞典,使字級和詞級特征相融合,進而促進NER效率的提升。具體研究框架設(shè)計如圖1所示。
圖1 融合領(lǐng)域詞典特征的診療規(guī)范命名實體識別框架
本研究在對肺癌診療規(guī)范文本進行預(yù)處理的基礎(chǔ)上,以肺癌概念體系為依據(jù)凝練出肺癌的核心概念,將核心概念作為領(lǐng)域詞典中描述肺癌術(shù)語或概念的基本大類,而后通過對肺癌相關(guān)的各種專業(yè)、權(quán)威參考資料的收集、篩選、歸納和提煉等過程,實現(xiàn)對各大類的術(shù)語或概念分支的豐富,從而完成對肺癌領(lǐng)域?qū)I(yè)詞典的構(gòu)建。研究將領(lǐng)域詞典和肺癌診療規(guī)范文本作為模型的基礎(chǔ)數(shù)據(jù),借鑒分詞工具以及合適的標(biāo)注體系,實現(xiàn)對診療規(guī)范文本語料的自動標(biāo)注,并進一步在領(lǐng)域?qū)<业闹笇?dǎo)下,基于分詞標(biāo)注結(jié)果對領(lǐng)域詞典進行修正和完善,為融合了領(lǐng)域詞典的診療規(guī)范命名實體識別研究提供數(shù)據(jù)支持。
1)字符表示:以字符級中文NER模型為基礎(chǔ),利用字符詞匯表Sc對輸入序列x={x1,x2,x3,xi,…,xn, 1≤i≤n}∈Sc中的字符進行匹配,將x中的每個字符xi映射為密集向量,其中,Lc表示字符Embedding查找表。
(1)
2)字+詞特征融合:基于詞典D,D=D1∪D2,其中D1為領(lǐng)域詞典,D2為通用詞典,將其中的單詞信息與輸入序列的字符表示相融合,并用ai,j={ci,ci+1,…,cj}表示任意輸入序列x中存在的詞組。其中,labs(xj)表示與xj相關(guān)的所有分詞標(biāo)簽,研究利用“BMESO”標(biāo)注體系對文本序列進行標(biāo)注,其中“B”“M”“E”分別代表一個詞的開頭、中間和結(jié)尾,“S”代表單獨成詞,“O”代表非實體詞。elabs(labs(xj))代表{B,E,M,S,O}五維multi-hot向量。
(2)
以圖1所示的“外周血細胞”為例,通過將每個字符在D中的所有匹配結(jié)果歸類到以每個字符在詞組中位置為標(biāo)準(zhǔn)的4個集合“BMES”中,并用4個詞邊界標(biāo)簽進行標(biāo)記,若未能在詞典中找到匹配詞使得詞集為空,那么另添加一個詞集Δ并將其中的取值定義為“None”。對于輸入序列x中的每個字符xi的集合表達用如下公式表達:
B(xi)={ai,j,?ai,j∈D,i (3) M(xi)={am,j,?am,j∈D,1≤m E(xi)={am,i,?am,i∈D,1≤m<1} S(xi)={xi,?xi∈D} Δ(xi)={None,?ap,q?D,1≤p 3)詞集權(quán)重歸一:為了提高NER模型的并行化計算效率,在對獲得的每個字符的“BMES”詞集Ζ進行維度統(tǒng)一的基礎(chǔ)上,利用基于統(tǒng)計的靜態(tài)加權(quán)的方法對詞典詞w的頻率p(w)進行統(tǒng)計并將其作為每個詞的權(quán)重,詞集Z的加權(quán)函數(shù)rz表示如下: (4) 其中,Lw表示單詞Embedding查找表。將詞集表示組合成固定維度的特征后,對詞集進行串聯(lián)并將其添加到每個字符表示中,利用每個字符相對應(yīng)的4個詞集權(quán)重,對每個字符進行表示如下: Lz(B,M,E,S)=[rz(B);rz(M);rz(E);rz(S)] (5) vc←[vc;Lz(B,M,E,S)] 文章通過構(gòu)建Fusion-Lexicon特征,將輸入序列與詞典D相匹配的結(jié)果添加到每個字符的向量表示中,序列建模層以這些詞匯增強的字符表示為輸入,利用單層BiLSTM對輸入序列中字符間的依賴關(guān)系進行建模。其中,LSTM單元運算公式如下: (6) iα=σ(w[hα-1,xα]+k) hα=oα*tanh(cα) 其中,iα、oα、fα分別為LSTM的輸入門、輸出門以及遺忘門因子,cα為當(dāng)前狀態(tài),hα為隱藏狀態(tài),σ代表為Sigmoid激活函數(shù),w和k為可訓(xùn)練參數(shù),*為元素間的乘積。前向、后向LSTM得到的隱藏狀態(tài)hα形成cα的上下文表示。序列建模層由3個上述LSTM單元串聯(lián)組合而成,第1個LSTM單元是基于字符的模型,對輸入序列中的字符進行建模。第2個LSTM以第1個LSTM單元中的字符Embedding為輸入,通過融合字符序列中的詞信息得到第3個LSTM單元,最終實現(xiàn)融合詞信息的字級別NER模型。 該層以序列建模層的結(jié)果為輸入,利用CRF對整個輸入序列中字符的標(biāo)簽進行預(yù)測: (7) βα(y′,y|x)=exp(wy′,yhj+ky′,y) yx表示序列x的所有可能存在的序列標(biāo)簽,wy,y′和ky,y′是(y′,y)標(biāo)簽對的可訓(xùn)練參數(shù),φ代表模型參數(shù)。此外,在對標(biāo)簽預(yù)測的過程中,模型使用維特比算法,對給定的輸入序列x,以條件概率最高值作為閾值對標(biāo)簽序列y*進行搜索,從而實現(xiàn)對標(biāo)簽的預(yù)測,F(xiàn)(y,x)代表特征向量,w代表權(quán)值向量。 (8) 文章通過線上、線下手段相結(jié)合的方式廣泛收集各版肺癌診療規(guī)范(2009—2022)共計103篇,原始語料以.doc或.pdf的格式存在,且收集過程中已排除標(biāo)題重復(fù)的文獻。本研究首先對肺癌診療規(guī)范文本來源進行核查,刪除內(nèi)容同源以及源于個人或非權(quán)威機構(gòu)發(fā)表的肺癌診療規(guī)范,共計17篇,保留了由中國抗癌協(xié)會、中國臨床腫瘤協(xié)會、中華醫(yī)學(xué)會、國際呼吸學(xué)會、國際腫瘤學(xué)會發(fā)布的以及國家發(fā)布的指導(dǎo)性文件,共計86篇。之后通過Python自編代碼將.doc及.pdf格式的肺癌診療規(guī)范批量轉(zhuǎn)化為.txt格式,并通過人工分別對轉(zhuǎn)化結(jié)果進行了文字校對,對轉(zhuǎn)義字符串、多余標(biāo)點符號、題錄信息、參考文獻等內(nèi)容進行了刪除以供后續(xù)研究使用。 為了實現(xiàn)文本語料的自動標(biāo)注,鑒于診療規(guī)范所具備的知識領(lǐng)域性強、術(shù)語表達規(guī)范、語言不規(guī)范現(xiàn)象較少等特點,本研究參考醫(yī)學(xué)領(lǐng)域NER相關(guān)研究中所設(shè)置的實體類別,根據(jù)Hadzic M等提出的四維通用疾病本體模型[38]、OMAHA“七巧板”醫(yī)學(xué)術(shù)語集[39]、UMLS等醫(yī)學(xué)術(shù)語體系結(jié)構(gòu)和術(shù)語分類標(biāo)準(zhǔn),根據(jù)肺癌發(fā)生發(fā)展過程、診療特點以及文本形式診療規(guī)范的行文規(guī)律,在醫(yī)學(xué)專家的指導(dǎo)下,構(gòu)建肺癌診療過程所涉及的概念體系,如圖2所示。 本研究以肺癌概念體系為依據(jù),凝練出臨床表現(xiàn)、檢查、檢驗、分期等核心概念。以核心概念為基礎(chǔ),考慮診療規(guī)范行文用詞規(guī)范性較強的特點,充分利用教科書、官方發(fā)布的標(biāo)準(zhǔn)規(guī)范、領(lǐng)域公認的專業(yè)術(shù)語表等參考資料對肺癌核心概念下的子類概念或術(shù)語進行辨析后,通過閱讀、篩選、歸類以及去重等人工操作,參考肺癌診療規(guī)范分詞標(biāo)注結(jié)果,在醫(yī)學(xué)專家的指導(dǎo)下,不斷地對領(lǐng)域詞典進行勘誤和細化,最終得到共計10個大類,72 041個詞匯的肺癌專業(yè)術(shù)語詞典,如表1所示。 表1 肺癌相關(guān)核心概念界定及其相關(guān)術(shù)語參考資料 NER過程的本質(zhì)是一種序列標(biāo)注任務(wù),為了得到能夠用于NER的訓(xùn)練語料,本研究將肺癌專業(yè)術(shù)語詞典作為自定義詞典與結(jié)巴分詞相結(jié)合,通過對預(yù)處理好的肺癌診療規(guī)范文本進行語詞匹配、注釋核心概念標(biāo)簽等分詞處理操作實現(xiàn)對語料的詞性特征構(gòu)造,并在標(biāo)注結(jié)果的基礎(chǔ)上不斷地對領(lǐng)域詞典進行補充和完善。利用Python自編程序?qū)Ψ衷~后數(shù)據(jù)進行邊界特征構(gòu)造,即利用“BMESO”標(biāo)注體系實現(xiàn)對語料中詞匯或字符的邊界界定,以“Ⅳ期小細胞肺癌,首選治療模式為全身化療?!睘槔錁?biāo)注結(jié)果如圖3所示。 圖3 標(biāo)注結(jié)果示例 為了獲得更優(yōu)的模型參數(shù),本研究以句子為單位,將經(jīng)過分詞處理后的肺癌診療規(guī)范文本按照8∶1∶1的比例隨機拆分成訓(xùn)練集、驗證集和測試集,并在融合了領(lǐng)域詞典特征的Fusion-Lexicon模型、Soft-Lexicon模型和BiLSTM-CRF模型上進行實驗,其中,各數(shù)據(jù)集中各類別的實體數(shù)量統(tǒng)計結(jié)果如表2所示。具體的,本文在Torch框架下,采用Python語言在CPU為Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz,操作系統(tǒng)為Win 10的環(huán)境下進行實驗,其他模型參數(shù)設(shè)置如表3所示。 表2 各數(shù)據(jù)集中各類實體數(shù)量 表3 實驗參數(shù)設(shè)置 基于肺癌診療規(guī)范文本,以經(jīng)典的字級別NER模型BiLSTM-CRF、Soft-Lexicon為基線模型,以融合了領(lǐng)域詞典特征的詞匯增強模型Fusion-Lexicon為實驗?zāi)P?,對肺癌診療規(guī)范進行命名實體識別。其中,采用精準(zhǔn)率(Precision)、召回率(Recall)以及調(diào)和平均值F(F-measure)對模型性能進行綜合評價。 3.4.1 模型整體識別效果分析 為了明確基線模型BiLSTM-CRF、Soft-Lexicon和實驗?zāi)P虵usion-Lexicon對肺癌診療規(guī)范命名實體的識別效果差異性,本研究對3種模型的性能進行了比較,具體結(jié)果如表4所示。從表中數(shù)據(jù)可以明確,F(xiàn)usion-Lexicon模型對肺癌診療規(guī)范文本中實體的識別效果在整體上均優(yōu)于BiLSTM-CRF和Soft-Lexicon,且Soft-Lexicon的識別效果整體上優(yōu)于BiLSTM-CRF。這一結(jié)果驗證了相較于單純的字級別模型,將字符和詞匯相融合,兼顧保留詞信息以及重視詞邊界對肺癌診療規(guī)范文本進行NER的方式具備可行性,尤其是將領(lǐng)域詞典特征引入到已經(jīng)融合了通用領(lǐng)域詞典特征和字符特征的Soft-Lexicon中,在提高肺癌診療規(guī)范文本的NER性能上更具優(yōu)越性。 表4 各模型整體識別效果對比 3.4.2 各類實體識別效果分析 在模型整體識別效果的基礎(chǔ)上,為進一步探究肺癌診療規(guī)范文本中不同實體類別的識別差異性。本文分別以P、R、F1值為評價指標(biāo),對實驗?zāi)P虵usion-Lexicon和基線模型BiLSTM-CRF、Soft-Lexicon在肺癌診療規(guī)范文本中不同命名實體類別上的識別效果進行了比較研究,結(jié)果如圖4所示。Fusion-Lexicon模型對藥物類實體的識別效果最好,F(xiàn)1值為96.43%。其次為分期、診斷/治療/預(yù)防操作或程序類實體,F(xiàn)1值分別為94.39%,94.01%。且除部位外,其他類實體識別效果也不差,F(xiàn)1值均在92%以上。這均與診療規(guī)范文本表述內(nèi)容的規(guī)范性、領(lǐng)域詞典的專業(yè)性密切相關(guān)。研究對錯誤識別中識別較好和較差的結(jié)果進行分析發(fā)現(xiàn),藥物大多被預(yù)測為物質(zhì)成分,從實體詞本身來看無誤,因為有些機體中的物質(zhì)也可以是藥物的主要成分。例如:表皮生長因子、PD-L1等。但從語義上來看,模型對該類實體的上下文語境理解稍顯不足,后期可從增加資源支持體量的角度出發(fā),通過正樣本采樣來改善此類實體的識別效果。分期大多被預(yù)測為疾病診斷,因為分期也是疾病診斷的一部分。另外,診斷/治療/預(yù)防操作或程序除被識別為該類詞的某一部分外,大多被識別為檢查、檢驗,因為從實體類型的本質(zhì)來看,檢查、檢驗、操作或程序類實體在大類上均屬于操作。因此,后續(xù)研究需要嚴格把握實體類間的范疇界限,細化詞典分類體系,進而保障生成更高質(zhì)量的標(biāo)注數(shù)據(jù)。 此外,3種模型對部位識別的效果均不佳。通過分析模型預(yù)測結(jié)果發(fā)現(xiàn),在識別錯誤的結(jié)果中,該類實體大多趨向于被識別為疾病診斷、操作、臨床表現(xiàn)類實體。一方面是因為這3類實體中的字符大多包含部位相關(guān)的詞;另一方面與肺癌領(lǐng)域詞典中部位類實體粒度較粗或?qū)嶓w數(shù)量相對較少有關(guān)。后續(xù)還需進一步對領(lǐng)域詞典中的部位類實體進行擴充和完善,進而改善該類實體識別效果欠佳的問題。 “雙輪驅(qū)動”下情報研究范式的變革,為實現(xiàn)數(shù)據(jù)知識化、知識實踐化提供了理論支持,為有效推動情報工程化和智能化發(fā)展打開了新局面。本研究從情報學(xué)領(lǐng)域面臨的如何高效實現(xiàn)數(shù)據(jù)/知識結(jié)構(gòu)化、有序化問題出發(fā),結(jié)合醫(yī)學(xué)領(lǐng)域高質(zhì)量數(shù)據(jù)資源特點及其NER特性,從少樣本NER研究方法入手并對其研究現(xiàn)狀進行梳理發(fā)現(xiàn),整體上,少樣本NER相關(guān)研究呈現(xiàn)出以模型結(jié)構(gòu)設(shè)計和數(shù)據(jù)資源優(yōu)化為研究趨勢,且在數(shù)據(jù)資源優(yōu)化方面,以數(shù)據(jù)資源為操作核心,以內(nèi)部或外部資源為優(yōu)化對象,以增加資源支持體量、優(yōu)化資源特征表示、增強語義表示能力、擴大資源提供維度為優(yōu)化方式,內(nèi)外聯(lián)動,協(xié)力提升少樣本NER性能。 本研究基于綜述發(fā)現(xiàn),以肺癌診療規(guī)范文本為例,提出了一種面向少樣本高質(zhì)量醫(yī)學(xué)知識的,融合了字符詞典、通用詞典和領(lǐng)域詞典的詞匯增強型命名實體識別框架Fusion-Lexicon。該框架相較以往研究,在實現(xiàn)路徑上有以下3方面的優(yōu)越性:①在模型結(jié)構(gòu)設(shè)計上,通過在已經(jīng)融合了字符詞典特征、通用領(lǐng)域詞典特征的字級別模型中引入專業(yè)領(lǐng)域相關(guān)的詞級別的詞匯信息和位置信息的方式改良了模型的輸入表示層,保證了NER模型在其他類似任務(wù)上可移植性,一定程度上解決通用領(lǐng)域NER模型在醫(yī)學(xué)領(lǐng)域中擴展性差的問題,并且在提高了模型對實體邊界識別效率的同時,實現(xiàn)了對語料中不同粒度信息特征的提取,更大程度上保留了文本的語義信息;②在優(yōu)化資源特征表示上,在分詞標(biāo)注手段的支持下,基于通用詞典、字符詞典以及領(lǐng)域詞典,將語料中每個字符所涉及的4個BMES詞向量進行串聯(lián)后得到Fusion-Lexicon特征,并將該特征與每個字符的Embedding進行拼接以得到模型的輸入數(shù)據(jù),盡可能地保留語料中語詞的邊界信息和語義信息,為實現(xiàn)高效的NER奠定數(shù)據(jù)基礎(chǔ);③在擴大資源提供維度上,研究在利用通用詞典、字符詞典的基礎(chǔ)上,額外引入全面、準(zhǔn)確、細化的領(lǐng)域詞典,以擴大資源維度的方式為模型訓(xùn)練提供更堅持的數(shù)據(jù)支持??偟膩碚f,該模型能夠在整體實驗數(shù)據(jù)較少的情況下,使診療規(guī)范文本命名實體識別任務(wù)的準(zhǔn)確性和高效性達到較高水平,從而促進診療規(guī)范文本的有序化和結(jié)構(gòu)化,并為后續(xù)診療規(guī)范知識圖譜的構(gòu)建奠定基礎(chǔ)。 特別的,在構(gòu)建領(lǐng)域詞典時,鑒于醫(yī)學(xué)領(lǐng)域概念和術(shù)語表達的專業(yè)性、特殊性和穩(wěn)定性以及醫(yī)學(xué)領(lǐng)域相關(guān)概念或術(shù)語詞表的通用性等特征,為了更好地發(fā)揮領(lǐng)域詞典在少樣本高質(zhì)量醫(yī)學(xué)知識NER中的作用,與以往的研究中多基于統(tǒng)計學(xué)方法通過利用通用語料或者高頻詞的方式構(gòu)建領(lǐng)域詞典不同[40-41],本研究通過人工的方式整合歸納了與肺癌相關(guān)的各種權(quán)威資料,構(gòu)建出了高質(zhì)量、類別多、體量大的肺癌專病詞典。雖然人工構(gòu)建肺癌專病詞典花費了大量的人力和物力,但這種消耗在一定程度上是一次性的。因為,在醫(yī)學(xué)領(lǐng)域內(nèi),不同疾病相關(guān)實體,尤其是檢查檢驗等大多是相同的,這就意味著在絕大多數(shù)情況下,基于病種的特殊性進行微調(diào)后的高質(zhì)量專病詞典能夠被應(yīng)用于其他疾病相關(guān)的文本NLP任務(wù)中。且通過利用領(lǐng)域詞典代替專家對語料進行標(biāo)識并將其與基于深度學(xué)習(xí)的NER方法相融合的方式,一定程度上實現(xiàn)語料自動、準(zhǔn)確、快速標(biāo)注的同時提高了對醫(yī)學(xué)數(shù)據(jù)中少樣本高質(zhì)量醫(yī)學(xué)知識資源的利用率,也在很大程度上提升了NER模型性能的同時為相關(guān)疾病的命名實體識別研究提供方法參考。因此,醫(yī)學(xué)專病領(lǐng)域詞典的構(gòu)建不但能大大減輕領(lǐng)域?qū)<以谡Z料標(biāo)注上的負擔(dān),還能經(jīng)過微調(diào)適用于不同病種的NER任務(wù)中,解決在醫(yī)學(xué)領(lǐng)域進行NER任務(wù)時的冷啟動問題,更能在很大程度上優(yōu)化命名實體識別過程中出現(xiàn)的實體邊界識別不清以及語義信息丟失的問題。 本文的局限性主要有兩個方面:第一,領(lǐng)域詞典的體量需進一步擴大且其分類體系也有待進一步細化。例如:加大部位類實體的詞量,從樣本數(shù)據(jù)量上入手提高模型對部位類實體的識別效率。例如:優(yōu)化分類體系,厘清藥物與物質(zhì)成分、分期與疾病診斷、診斷/治療/預(yù)防操作或程序與檢查、檢驗等類別之間的邊界。且通觀各類文本命名實體識別研究,原始語料的標(biāo)注質(zhì)量是決定NER效果的關(guān)鍵因素之一。同理,少樣本高質(zhì)量醫(yī)學(xué)知識的NER效果在很大程度上依賴于領(lǐng)域詞典的知識覆蓋率,為進一步提高模型對高質(zhì)量醫(yī)學(xué)知識的識別效果,后續(xù)研究將在現(xiàn)有詞典的基礎(chǔ)上,通過人工+自動相結(jié)合的方式,例如:收集、整理、歸納更多權(quán)威資料以及咨詢相關(guān)領(lǐng)域?qū)<业热斯し绞?,采用語義相似度、字詞構(gòu)詞特征學(xué)習(xí)、語義映射、遷移學(xué)習(xí)等自動方式,豐富完善領(lǐng)域詞典體量、不斷細化現(xiàn)有分類體系的同時,對詞典進行歸一化處理,為高質(zhì)量醫(yī)學(xué)知識語料的自動化標(biāo)注提供專業(yè)數(shù)據(jù)支持。第二,文章僅對以診療規(guī)范為例的高質(zhì)量醫(yī)學(xué)知識中的純文本數(shù)據(jù)進行研究,未涉及其中的圖表數(shù)據(jù)。解決高質(zhì)量醫(yī)學(xué)知識中數(shù)據(jù)的多模態(tài)問題能夠更好實現(xiàn)高質(zhì)量醫(yī)學(xué)知識的有序化和結(jié)構(gòu)化,后續(xù)研究將分別通過表格文檔重建、流程圖識別等方法實現(xiàn)高質(zhì)量醫(yī)學(xué)知識資源中圖表內(nèi)容的自動識別。2.3 序列建模層
2.4 標(biāo)簽預(yù)測層
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)來源及處理
3.2 領(lǐng)域詞典構(gòu)建
3.3 實驗過程與參數(shù)設(shè)置
3.4 實驗結(jié)果分析
4 結(jié) 語