郭宇捷, 唐珂軻, 付立軍,3, 于碧輝, 韓振橋
1(中國科學(xué)院大學(xué),北京 100049)
2(中國科學(xué)院沈陽計算技術(shù)研究所, 沈陽 110168)
3(山東大學(xué) 大數(shù)據(jù)技術(shù)與認(rèn)知智能實驗室, 濟南 250100)
電子病歷中蘊含著大量的醫(yī)學(xué)實體和概念, 記錄了大量的與患者健康狀況相關(guān)的信息, 是一個豐富的醫(yī)學(xué)知識寶庫. 基于電子病例的關(guān)系抽取作為醫(yī)學(xué)信息抽取領(lǐng)域的子任務(wù), 旨在從非結(jié)構(gòu)化的電子病歷文本中抽取兩個醫(yī)學(xué)實體之間的關(guān)系, 是構(gòu)建醫(yī)學(xué)垂直領(lǐng)域知識圖譜的關(guān)鍵步驟. 知識圖譜的基本組成是形如<頭實體, 關(guān)系類型, 尾實體>的三元組. 從電子病歷中識別醫(yī)學(xué)實體之間的語義關(guān)系, 構(gòu)建醫(yī)學(xué)領(lǐng)域知識圖譜對下游醫(yī)學(xué)任務(wù)具有重要意義.
目前對電子病歷中的關(guān)系抽取的研究主要集中在英文的電子病歷, 主要是使用關(guān)系分類方法分析給定的兩個實體的上下文, 從而判斷兩個實體間的關(guān)系所屬的類別[1–3]. 然而, 中文電子病歷中的醫(yī)學(xué)實體的分布具有高度密集的特點. 例如在圖1(a)所給出的例子中, “患者傷后出現(xiàn)頭部疼痛和鼻腔流液”這個句子記錄了患者傷后出現(xiàn)的癥狀表現(xiàn), 包含[頭部], [疼痛], [鼻腔], [流液]等醫(yī)學(xué)實體, 實體間產(chǎn)生兩組關(guān)系, 構(gòu)成了兩對醫(yī)學(xué)關(guān)系三元組, 分別為<頭部, 結(jié)構(gòu)描述, 疼痛>和<鼻腔, 結(jié)構(gòu)描述, 流液>, 其中“結(jié)構(gòu)描述”是預(yù)定義的關(guān)系類型. 從上述的例子可以看出, [頭部]和[疼痛]是一組有關(guān)系的實體對, 它們所在的上下文中分布著[鼻腔]和[流液]等醫(yī)學(xué)實體, 這些實體概念的內(nèi)容對分析[頭部]和[疼痛]之間的語義關(guān)系并沒有起到幫助作用, 當(dāng)這些無關(guān)實體的數(shù)量變多時甚至可能會給關(guān)系分類模型引入噪聲, 阻礙模型做出正確的分類決策.
圖1 中文電子病歷關(guān)系三元組實體分布示意圖
中文電子病歷文本中醫(yī)學(xué)實體密集分布的特點還會產(chǎn)生多個三元組共享一個實體的情況. 如圖1(b)所示, 實體[壓痛]和實體[反跳痛]都與實體[腹部]具有語義關(guān)系, 關(guān)系類型為“結(jié)構(gòu)描述”, 實體[腹軟]與實體[腹部]也具有語義關(guān)系, 關(guān)系類型為“結(jié)構(gòu)表現(xiàn)”. 當(dāng)一個實體參與了多個關(guān)系三元組時, 傳統(tǒng)的關(guān)系分類器容易發(fā)生混淆. 綜上所述, 中文電子病歷文本的實體高密度分布的問題, 給現(xiàn)有的關(guān)系抽取模型帶來了一定的挑戰(zhàn).
針對使用關(guān)系分類方法處理中文電子病歷文本中的高密度實體分布問題所面臨的挑戰(zhàn), 本文提出了一種基于條件提示與序列標(biāo)注的關(guān)系三元組識別方法.相較于傳統(tǒng)的將實體對以及實體對所在的文本輸入模型以求解實體對語義關(guān)系的關(guān)系分類方法, 本文提出的方法將關(guān)系抽取任務(wù)轉(zhuǎn)換成一個基于條件提示信息的序列標(biāo)注任務(wù). 該方法的核心是給定先驗條件作為提示, 建模條件提示信息與中文電子病歷文本語義的依賴關(guān)系, 并從文本中尋找多個能夠與條件提示信息相匹配的片段進行標(biāo)注, 其中條件提示信息定義為關(guān)系三元組的頭實體和關(guān)系類型詞, 被抽取的多個片段是關(guān)系三元組中的尾實體. 比如在對圖1(b)中的例子進行關(guān)系三元組抽取的過程中, 當(dāng)條件提示信息為“腹部”和“結(jié)構(gòu)表現(xiàn)”組成的術(shù)語時, 基于該術(shù)語作為先驗條件, 可抽取出片段[腹軟]. 當(dāng)條件提示信息由“腹部”和“結(jié)構(gòu)描述”組成時, 模型抽取內(nèi)容則變成[壓痛]和[反跳痛]兩個片段. 即假如一個給定的頭實體參與了多個關(guān)系三元組, 并且這些關(guān)系三元組的關(guān)系類型都是相同的, 那么模型的目標(biāo)是從文本中識別出與給定的頭實體和關(guān)系類型相關(guān)聯(lián)的全部尾實體片段, 組成若干個關(guān)系三元組. 由于條件提示信息的存在, 電子病歷文本中與條件提示信息無關(guān)聯(lián)的醫(yī)學(xué)實體將被過濾,與條件提示信息相關(guān)聯(lián)的醫(yī)學(xué)實體才能被識別.
本文的主要貢獻(xiàn)如下:
(1)組織構(gòu)建了一批中文電子病歷數(shù)據(jù)集, 在醫(yī)學(xué)領(lǐng)域?qū)<业闹笇?dǎo)下定義中文電子病歷中的實體以及實體對之間的語義關(guān)系, 并請醫(yī)學(xué)專業(yè)人員對實體和關(guān)系數(shù)據(jù)進行了人工標(biāo)注.
(2)針對中文電子病歷中實體密集分布的數(shù)據(jù)特征, 設(shè)計了一種基于條件提示與序列標(biāo)注的關(guān)系三元組識別方法, 通過建模條件提示信息與文本序列字符特征的關(guān)聯(lián), 從文本中識別出與條件提示信息相關(guān)的尾實體片段, 從而實現(xiàn)關(guān)系三元組的識別. 在中文電子病歷數(shù)據(jù)集上進行的實驗證明了該方法的有效性.
目前在醫(yī)學(xué)領(lǐng)域的關(guān)系抽取方法主要有基于規(guī)則匹配的方法, 基于特征工程的方法和基于深度學(xué)習(xí)的方法.
早期的關(guān)系抽取任務(wù)主要依靠人工分析文本特征構(gòu)建模板, 用模板在新的文本中匹配符合既定規(guī)則的關(guān)系三元組, 這要求制定規(guī)則的人員擁有豐富的醫(yī)學(xué)領(lǐng)域知識, 因此構(gòu)建人工規(guī)則的代價十分昂貴. 文獻(xiàn)[4]利用句子上下文的語法結(jié)構(gòu)信息構(gòu)建了10多個模板,從醫(yī)學(xué)文獻(xiàn)中識別蛋白質(zhì)實體以及實體之間的關(guān)系.文獻(xiàn)[5]設(shè)計了一種簡化句法的方法, 將結(jié)構(gòu)復(fù)雜的上下文句子分解為簡單句, 通過規(guī)則從簡單句中識別出具有相互作用的藥物對. 對于不同的語料而言, 由于背景內(nèi)容和語言結(jié)構(gòu)的差異, 基于規(guī)則模板的方法難以在不同的語料之間遷移, 會導(dǎo)致關(guān)系抽取的召回率較低, 因此基于模板規(guī)則匹配的方法的泛化能力較差.
醫(yī)學(xué)信息抽取任務(wù)的發(fā)展使得以特征工程為和核心的機器學(xué)習(xí)方法廣泛應(yīng)用于醫(yī)學(xué)信息抽取. 2010i2b2/VA評測任務(wù)[6]的提出吸引了眾多研究者關(guān)注電子病歷中的關(guān)系抽取任務(wù). 文獻(xiàn)[7]手工提取詞語特征、短語特征、句法特征等多種特征用于抽取化學(xué)-疾病數(shù)據(jù)集中的關(guān)系三元組. 文獻(xiàn)[8]在支持向量機(support vector machine, SVM)的基礎(chǔ)上融合句子結(jié)構(gòu)信息, 在提取電子病歷實體關(guān)系時考慮了句子結(jié)構(gòu)的相似性.相比于基于模板規(guī)則匹配的方法而言, 基于特征工程的方法具有很好的泛化能力, 能移植到不同的語料, 然而特征的選擇會極大地影響模型最終的抽取性能, 并且提取語法、句法等特征往往需要用到外部工具, 外部工具自身的誤差可能會傳遞到關(guān)系抽取模型中.
近年來, 深度學(xué)習(xí)方法在醫(yī)學(xué)關(guān)系抽取任務(wù)中得到了廣泛的應(yīng)用, 其中比較經(jīng)典的是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的模型[9,10]. 文獻(xiàn)[11]將詞嵌入向量和位置嵌入向量輸入CNN模型進行藥物相互作用的關(guān)系抽取. 文獻(xiàn)[12]利用CNN獲取句子的局部特征, 并結(jié)合最大池化抽取電子健康檔案中的實體關(guān)系事實. 文獻(xiàn)[13]利用殘余卷積塊降低了電子病歷實體關(guān)系抽取中數(shù)據(jù)噪聲帶來的影響. 文獻(xiàn)[14]提出了一種兩階段的方法提取醫(yī)學(xué)文本中的實體和關(guān)系, 其中關(guān)系抽取模塊利用CNN提取單詞、實體類型以及位置嵌入的特征. 文獻(xiàn)[15]利用層次RNN模型引入最短依賴識別藥物關(guān)系. 為了彌補RNN處理長距離文本特征能力不足的缺陷, 其變種長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)得到了應(yīng)用[16]. 文獻(xiàn)[17]通過結(jié)合雙向長短期記憶網(wǎng)絡(luò)(bidirectional long shortterm memory, Bi-LSTM)和多跳自注意力機制獲取文本的多重向量表示, 提升捕捉醫(yī)學(xué)實體之間復(fù)雜語義信息的效果. 文獻(xiàn)[18]在深度學(xué)習(xí)框架中整合最短路徑依賴和句子序列表示, 提升了關(guān)系抽取的性能. 基于深度學(xué)習(xí)的方法將文本轉(zhuǎn)換為向量表示, 不需要手工提取復(fù)雜的特征.
對于開放領(lǐng)域的實體關(guān)系抽取任務(wù), 研究者們提出了許多新范式. 文獻(xiàn)[19]將實體關(guān)系抽取任務(wù)轉(zhuǎn)換成閱讀理解任務(wù), 依據(jù)實體和關(guān)系生成不同的問題模板, 通過從上下文中抽取出能夠回答該問題的片段的方法識別文本中的實體和關(guān)系. 文獻(xiàn)[20]對重疊關(guān)系三元組問題進行了研究, 并提出了一種將文本中的主語實體映射成賓語實體的級聯(lián)標(biāo)注框架.
為了應(yīng)對中文電子病歷文本中實體高密度分布帶來的問題, 本文提出了一個基于條件提示與序列標(biāo)注的關(guān)系三元組識別方法, 旨在通過捕捉由頭實體和關(guān)系類型詞組合成的提示信息與中文電子病歷文本片段的關(guān)聯(lián), 并從文本中抽取出與條件提示信息相關(guān)聯(lián)的片段, 被抽取出的片段作為尾實體與條件提示信息中的頭實體和關(guān)系類型構(gòu)成一個有效的關(guān)系三元組. 本文提出的模型如圖2所示, 主要包括以下幾個部分: 關(guān)系類型詞編碼、電子病歷文本編碼、條件信息交互融合以及解碼輸出. 模型的輸入是電子病歷文本、三元組的關(guān)系類型詞以及三元組的頭實體的掩碼序列. 模型的輸出是基于BIESO標(biāo)注規(guī)范[21]標(biāo)注的序列, 其中, B表示尾實體片段的開頭, I表示尾實體片段的中間部分, E表示尾實體片段的結(jié)尾, 若尾實體片段為單字則標(biāo)記為S, 其余的無關(guān)字符將被標(biāo)注為O. 對于BIES標(biāo)簽, 標(biāo)簽的后面通過“-”連接尾實體所屬的類別, 如“B-描述”“I-描述”“E-描述”, 表示該尾實體為一個“描述”類型的實體. 序列標(biāo)注的結(jié)果經(jīng)過處理后得到若干條形如<頭實體, 關(guān)系類型, 尾實體>的關(guān)系三元組.
如圖2所示, 本文的模型設(shè)計了兩個輸入網(wǎng)絡(luò), 分別用于編碼關(guān)系類型詞和電子病歷文本, 編碼的token為單個中文字符. 為了使模型能夠捕獲電子病歷文本中的每一個字相對于頭實體的位置特征, 頭實體的前后位置加入了特殊字符@作為位置標(biāo)記. 在文本表示的過程中, 使用一個字向量矩陣, 將關(guān)系類型詞和電子病歷文本序列中的每個字映射成高密度的字嵌入向量.Ex是電子病歷文本序列的字嵌入向量表示, 其長度為m.Er是關(guān)系類型詞的字嵌入向量表示, 其長度為n.
圖2 基于條件提示與序列標(biāo)注的關(guān)系三元組識別模型圖
為了獲得電子病歷文本序列中每個字的特征, 將上一步獲得的文本序列字嵌入向量表示Ex利用Bi-LSTM進行特征編碼. Bi-LSTM網(wǎng)絡(luò)能夠從前向和后向兩個方向?qū)﹄娮硬v上下文序列進行編碼, 前向編碼結(jié)果和后向編碼結(jié)果經(jīng)過拼接后, 得到電子病歷文本序列的字級別特征表示向量Hx=[x1,x2,···,xm],其中xi表示第i個字符經(jīng)過Bi-LSTM編碼后輸出的隱藏層特征向量. 電子病歷文本序列的特征表示向量的編碼過程的公式如式(1)–式(3):
為了獲得關(guān)系類型詞的特征表示, 將字嵌入映射階段獲得的關(guān)系類型詞字嵌入向量表示Er利用LSTM網(wǎng)絡(luò)編碼得到特征表示Hr, 編碼關(guān)系類型詞特征表示的公式如式(4):
其中,hrj表示第j個字經(jīng)過LSTM編碼后輸出的隱藏層特征向量. 取Hr的最后一個隱藏層狀態(tài)作為關(guān)系類型詞的特征表示hrel.
為了應(yīng)對電子病歷關(guān)系三元組識別中存在的實體密集分布以及一個實體參與了多個關(guān)系三元組的情況,在本文提出的模型中設(shè)計了一個條件信息交互融合層,用于建模由頭實體+關(guān)系類型組成的條件提示信息與尾實體之間的依賴, 使得模型的輸出層對電子病歷文本序列進行標(biāo)注的時候能夠考慮先驗條件, 依據(jù)不同的先驗條件標(biāo)注不同的尾實體片段. 條件信息交互融合層主要包含兩個步驟: 1)創(chuàng)建條件提示信息; 2)條件提示信息與電子病歷文本交互.
創(chuàng)建條件提示信息需要將頭實體的特征表示和關(guān)系類型詞的特征表示進行融合. 本文利用一個頭實體掩碼序列, 從電子病歷文本序列的特征表示中獲取頭實體的特征表示. 假設(shè)在電子病歷文本序列中, 頭實體文本片段的位置跨度定義為Psub, 則頭實體掩碼序列Msub定義如下:
頭實體的特征表示hsub由 式(6), 式(7)計算得到:
其中,start和end是頭實體在文本中的起始位置和結(jié)束位置, tanh是激活函數(shù),Wsub和bsub是可訓(xùn)練的權(quán)重和偏置. 融合頭實體特征表示與關(guān)系類型詞的特征表示, 創(chuàng)建條件提示信息的方法如下:
為了從電子病歷文本中識別出與條件提示信息相關(guān)聯(lián)的尾實體片段, 讓條件提示信息與電子病歷文本產(chǎn)生交互是非常必要的, 這個過程能夠讓模型區(qū)分電子病歷文本序列中每一個中文字符token相對于條件提示信息的關(guān)聯(lián)程度, 從而使得模型能夠依據(jù)不同的條件提示信息識別不同的尾實體片段. 本文將條件提示信息的特征表示與電子病歷文本序列的每一個字符的特征表示進行拼接, 并利用Bi-LSTM網(wǎng)絡(luò)進行編碼,獲得更高級的融合條件提示信息的文本特征表示Hu=[u1,u2,···,um],ut是融合條件提示信息的字符特征表示, 其計算公式如式(9)–式(12):
在解碼過程中充分考慮標(biāo)簽之間的關(guān)聯(lián)性有利于準(zhǔn)確的識別實體的邊界, 得到最優(yōu)的標(biāo)簽序列. 本文利用條件隨機場(conditional random fields, CRF) 作為解碼輸出層[22], CRF解碼過程涉及一個轉(zhuǎn)移矩陣V和一個狀態(tài)序列Z. 轉(zhuǎn)移矩陣V用于學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,Vij表示第i個標(biāo)簽轉(zhuǎn)移到第j個標(biāo)簽的得分. 狀態(tài)序列Z=[z1,z2,···,zm]是CRF層的輸入序列, 由上一步獲得的融合條件提示信息的字符特征表示ut計算得到:
其中,zt是第t個字對應(yīng)于每一個標(biāo)簽的得分,Wu是可訓(xùn)練的模型權(quán)重參數(shù). 對于一個預(yù)測序列Y=[y1,y2,···,ym], 它的解碼得分公式定義如式(14):
從輸入序列Z解碼得到每一個可能的預(yù)測序列Y的條件概率計算如式(15):
其中,YZ是全部可能從輸入序列Z解碼得到的預(yù)測序列的集合. 模型訓(xùn)練的目標(biāo)是最大化正確標(biāo)簽序列的對數(shù)似然概率. 在解碼過程中通過維特比算法得到分?jǐn)?shù)最高的標(biāo)簽序列.
本文從某三甲醫(yī)院獲取了一批門診病歷數(shù)據(jù), 數(shù)據(jù)的形式為中文電子病歷, 主要內(nèi)容包括主訴、現(xiàn)病史、既往史、體格檢查、輔助檢查、初步診斷等. 選擇了其中的2 000篇進行關(guān)系三元組識別任務(wù)的研究.在醫(yī)學(xué)領(lǐng)域?qū)<业闹笇?dǎo)下, 定義了實體和關(guān)系的標(biāo)注規(guī)范, 并組織一批醫(yī)學(xué)專業(yè)人員對中文電子病歷中的實體和關(guān)系進行人工標(biāo)注. 對于中文電子病歷中的實體, 本文確定了11種實體類型, 并設(shè)計了一套實體類型優(yōu)先級規(guī)則, 實體對中具有較高優(yōu)先級的實體將作為頭實體, 較低優(yōu)先級的實體將作為尾實體. 依據(jù)優(yōu)先級由高到低, 這11種實體類型分別是疾病、結(jié)構(gòu)、觀察、表現(xiàn)、檢查、描述、方位、限定、治療、藥物、用法. 對于中文電子病歷中的實體對的關(guān)系, 本文將頭實體類型和尾實體類型進行拼接, 定義為該實體對的關(guān)系. 在本文的研究中, 共確定了20種粗粒度的關(guān)系類型, 部分關(guān)系三元組schemas如表1所示.
表1 部分關(guān)系三元組schemas
本文設(shè)計了一個數(shù)據(jù)預(yù)處理算法, 依據(jù)中文電子病歷文本以及對應(yīng)的實體關(guān)系標(biāo)注文件生成形如[關(guān)系類型, 文本片段, 頭實體掩碼序列, 標(biāo)注序列]的數(shù)據(jù)樣本, 具體方法如算法1.
算法1. 中文電子病歷數(shù)據(jù)預(yù)處理算法1) 利用滑動窗口方法, 將電子病歷文本切分成若干個文本片段;2) 對于每一個文本片段, 查找該片段中的實體對; 對于每一個實體對, 利用優(yōu)先級規(guī)則區(qū)分頭尾實體, 生成頭實體掩碼序列;3) 檢查該實體對能否形成有效的關(guān)系, 若有關(guān)系, 則創(chuàng)建標(biāo)注序列,其標(biāo)注的內(nèi)容是尾實體片段, 并生成數(shù)據(jù)樣本;4) 若該實體對無關(guān)系, 則將頭實體的實體類型詞和尾實體的實體類型詞進行拼接, 檢查拼接后的術(shù)語是否存在于預(yù)定義的關(guān)系集合中,若存在, 則創(chuàng)建一個全為O的標(biāo)注序列, 并生成數(shù)據(jù)樣本, 若不存在,則不生成數(shù)據(jù)樣本;5) 標(biāo)注序列合并, 若生成的數(shù)據(jù)樣本中, 某兩條數(shù)據(jù)頭實體、關(guān)系類型、文本片段均相同, 則將其標(biāo)注序列中非O的部分合并.
本文實驗使用的訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)按照8:1:1的比例進行劃分. 字向量利用隨機初始化方法生成50維的向量, Bi-LSTM編碼器的隱藏層的維度設(shè)置為128, 批處理的大小設(shè)置為64, 訓(xùn)練過程中的參數(shù)優(yōu)化算法為Adam, 學(xué)習(xí)率設(shè)置為0.001, dropout設(shè)置為0.5以防止過擬合.
在實驗中使用精確率(Precision), 召回率(Recall),F1值作為模型的評價指標(biāo).
在實驗過程中發(fā)現(xiàn)實體對沒有關(guān)系的情況比較多,為了實現(xiàn)樣本均衡, 隨機選擇一部分無關(guān)系樣本用于實驗.
為了驗證本文提出的模型的性能, 本文進行了對比實驗. 在之前的研究中關(guān)系抽取任務(wù)通常被視為關(guān)系分類任務(wù), 因此通常將CNN和RNN作為基準(zhǔn)模型.將本文模型分別與RNN模型、結(jié)合最大池化的CNN模型CNN-Max進行比較. 在構(gòu)建對比模型的實驗數(shù)據(jù)時, 對每一條文本片段插入位置標(biāo)記<e1>、</e1>、<e2>、</e2>指示兩個實體在文本片段中的起始位置和結(jié)束位置. 對比模型的輸出層使用一個全連接層將編碼特征映射成具體的關(guān)系類別. 實驗結(jié)果如表2所示.
表2 模型實驗結(jié)果對比
從實驗結(jié)果中可以發(fā)現(xiàn), 本文提出的模型在精確率、召回率和F1值上分別達(dá)到0.979 6、0.976 5和0.977 7,表現(xiàn)優(yōu)于基準(zhǔn)模型. 對比基礎(chǔ)的RNN模型, 本文模型在精確率、召回率和F1值上分別提升了18.53%、16.64%和18.7%. 對比CNN-Max模型, 本文模型在精確率、召回率和F1值上分別提升了1.12%、1.13%和1.17%. 實驗結(jié)果驗證本文模型能有效的應(yīng)用于識別中文電子病歷中的醫(yī)學(xué)關(guān)系三元組.
本文設(shè)計了一種基于條件提示與序列標(biāo)注的中文電子病歷關(guān)系三元組識別方法, 將關(guān)系抽取任務(wù)建模成從電子病歷文本中識別與條件提示信息相關(guān)的三元組尾實體片段的序列標(biāo)注任務(wù), 其中條件提示信息為頭實體和關(guān)系類型組成的先驗知識. 本文的模型聚焦于構(gòu)建條件提示信息與文本序列的關(guān)聯(lián), 過濾掉文本序列中與條件提示信息無關(guān)的實體概念. 在中文電子病歷上的實驗結(jié)果表明, 本文模型的精確率達(dá)到97.96%, 召回率達(dá)到97.65%,F1值達(dá)到97.77%, 表現(xiàn)優(yōu)于基準(zhǔn)模型, 實現(xiàn)了對中文電子病歷中的醫(yī)學(xué)關(guān)系三元組的識別.
在未來的研究工作中, 計劃將當(dāng)前工作延伸至更具挑戰(zhàn)性的場景, 如醫(yī)學(xué)文獻(xiàn)中的實體關(guān)系抽取. 為獲得更豐富的文本序列表示, 可考慮加入預(yù)訓(xùn)練語言模型. 對于模型識別無關(guān)實體的情況, 可以考慮引入句法依賴, 限制識別實體片段的結(jié)果空間.