• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的非結(jié)構(gòu)化醫(yī)學(xué)文本知識抽取

      2024-01-22 07:19:08梁成全朱長元
      計算機(jī)工程與設(shè)計 2024年1期
      關(guān)鍵詞:實(shí)體標(biāo)簽模型

      耿 飆,梁成全,魏 煒,朱長元

      (1.中國礦業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;2.蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院 健康管理學(xué)院,江蘇 蘇州 215009;3.華東療養(yǎng)院 信息科,江蘇 無錫 214065;4.杭州電子科技大學(xué) 計算機(jī)學(xué)院,浙江 杭州 310018)

      0 引 言

      目前,在糖尿病領(lǐng)域?qū)木哂星把匦畔⒌姆墙Y(jié)構(gòu)化醫(yī)學(xué)文本中抽取的研究很少,由于醫(yī)學(xué)數(shù)據(jù)的特殊性,面向非結(jié)構(gòu)化文本中進(jìn)行知識抽取是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。源自深度學(xué)習(xí)的傳統(tǒng)實(shí)體關(guān)系抽取方法往往忽略單詞之間長距離依賴和關(guān)系重疊,中文詞向量的表示過于簡單,無法解決一詞多義等問題。

      知識抽取主要包含命名實(shí)體識別和關(guān)系抽取兩個部分[1]。當(dāng)前的聯(lián)合實(shí)體和關(guān)系提取神經(jīng)模型分為參數(shù)共享和序列標(biāo)注方式[2]。相比之下,許多研究將實(shí)體和關(guān)系的聯(lián)合提取視為序列標(biāo)記問題。盡管如此,識別復(fù)雜關(guān)系仍然具有挑戰(zhàn)性,聯(lián)合提取模型的性能應(yīng)進(jìn)一步提高。此外,大多數(shù)新興的聯(lián)合提取神經(jīng)模型僅根據(jù)英語基準(zhǔn)進(jìn)行了評估,它們在其它語言或特定領(lǐng)域的有效性需要進(jìn)一步驗(yàn)證[3]。Google機(jī)器翻譯團(tuán)隊(duì)提出了包括自注意力機(jī)制和多頭注意力機(jī)制的transform結(jié)構(gòu)[4]。與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)或卷積神經(jīng)網(wǎng)絡(luò)(convo-lutional neural network,CNN)相比,多頭注意力機(jī)制具有許多吸引人的方面[5,6]。在中文命名實(shí)體識別任務(wù)中,數(shù)據(jù)集中存在大量非結(jié)構(gòu)化文本[7]。需要從多角度、多層次的角度來提取文本本身的更多特征。為此,多頭注意力機(jī)制近年來在命名實(shí)體識別任務(wù)中得到了廣泛的應(yīng)用。例如,Li等[8]使用基于自注意力機(jī)制的深度學(xué)習(xí)模型,Yin等[9]采用了一種名為ARCCNER的模型。其模型使用CNN網(wǎng)絡(luò)來學(xué)習(xí)中文激進(jìn)特征和自我注意機(jī)制來自動獲得權(quán)重。雖然字符特征得到了增強(qiáng),但激進(jìn)級別的特征很難獲得,它消耗大量成本,性能提升有限,模型未能解決 BiLSTM網(wǎng)絡(luò)中的信息遺忘問題。

      針對上述問題,提出了一種用于聯(lián)合實(shí)體和關(guān)系抽取的新型神經(jīng)模型,主要貢獻(xiàn)如下:①設(shè)計了一個新穎的序列標(biāo)注策略,可以同時表示多個候選實(shí)體和特定關(guān)系中的相應(yīng)尾部實(shí)體。同步標(biāo)注主實(shí)體以及主實(shí)體與各個實(shí)體之間的關(guān)系,直接通過標(biāo)簽的匹配及映射獲得<實(shí)體,關(guān)系,實(shí)體>的三元組數(shù)據(jù),不僅有效地提高標(biāo)簽的效率,還能夠解決重疊關(guān)系抽取的問題。②提出了一種新穎的輕量級端到端神經(jīng)模型,稱之為BERT-BiLSTM-CM-MHATT-CRF模型,該模型分別標(biāo)記特定關(guān)系中的候選頭部實(shí)體和多個尾部實(shí)體。CHE識別模塊識別候選頭部實(shí)體。MTE模塊將來自CHE的候選頭部實(shí)體和來自編碼器模塊的共享上下文表示作為聯(lián)合輸入。使用預(yù)訓(xùn)練語言表征模型(bidirectional encoder representation from transformers,BERT)獲取輸入字向量,通過雙向長短期記憶(bidirectional long short term memory,BiLSTM)深度學(xué)習(xí)捕獲時間特征和上下文相關(guān)性。同時,通過引入multi_head attention機(jī)制,在多個時間步獲取句子中每個字符的加權(quán)表示,使模型能夠更精確地聚焦于關(guān)鍵句子中的相關(guān)字或詞。采用條件隨機(jī)場(conditional random field,CRF)模型根據(jù)相鄰標(biāo)簽的相互依賴關(guān)系得到最優(yōu)的預(yù)測序列,進(jìn)而提高模型識別的準(zhǔn)確率。③為了驗(yàn)證提出的模型是有效的,在糖尿病標(biāo)注標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了充分的綜合實(shí)驗(yàn),并與最新研究中提出的一些模型進(jìn)行了對比,結(jié)果驗(yàn)證了所提模型具有優(yōu)越的性能。

      1 本文所提方法

      1.1 序列標(biāo)注策略

      傳統(tǒng)的BIESO標(biāo)注策略在面對一個以上關(guān)系類型時,只會采用就近原則來匹配,并不支持實(shí)體關(guān)系重疊的情況。本文為了在同時抽取實(shí)體及關(guān)系的基礎(chǔ)上,解決實(shí)體關(guān)系重疊問題,在只描述一個主實(shí)體(core_entity,CE)的文本中提取實(shí)體和關(guān)系,本質(zhì)上只需要提取與CE有關(guān)系實(shí)體 {X1,X2,…,Xn} 及兩個實(shí)體 {R1,R2,…,Rn} 之間的關(guān)系,其中,Xi代表與CE有關(guān)系的第i實(shí)體,Ri代表了X與CEi的關(guān)系類型。本文為了減少實(shí)體信息冗余,只抽取本體中預(yù)定義關(guān)系集中的關(guān)系。本標(biāo)注模式目的在同步標(biāo)注主實(shí)體以及主實(shí)體與各個實(shí)體之間的關(guān)系。命名實(shí)體語料庫標(biāo)注工具YEDDA用于標(biāo)注處理。

      給定一個句子X={w1,w2,…,wn} 用n個單詞,Y表示預(yù)定義的實(shí)體類型,以及R是預(yù)定義的關(guān)系類型。聯(lián)合提取任務(wù)需要識別每個實(shí)體e={wbegin,wbegin+1,…,wbegin+m} 在X,并簽署一個標(biāo)簽y∈Y到e,1≤begin≤n,m是跨度長度。此外,聯(lián)合提取任務(wù)還需要識別任意兩個實(shí)體之間的關(guān)系eh和et, 并分配一個關(guān)系r∈R形成三元組。提取的三元組可能共享相同的實(shí)體或關(guān)系;例如,對于關(guān)系r,一個eh可能對應(yīng)多個尾部實(shí)體 (et,…,et+i),i≥0。 首先,主要實(shí)體被標(biāo)記為CE標(biāo)簽。當(dāng)文本中的實(shí)體被標(biāo)記Ri則表示在Xi和CE之間有關(guān)系Ri, 詳細(xì)標(biāo)簽含義說明見表1。在候選頭部實(shí)體CHE標(biāo)記部分,使用“ B-CE”、“I-CE”和“E-CE”分別表示類型為X的實(shí)體提及的開始、內(nèi)部和結(jié)束。每次數(shù)據(jù)中的標(biāo)簽CE與相同關(guān)系Ri的完整BIE、BE或S匹配時,提取對應(yīng)于標(biāo)簽集的實(shí)體CE和Xi。 在多尾部實(shí)體MTE標(biāo)注部分,每個候選頭實(shí)體被分配一個標(biāo)注序列,其中與頭實(shí)體對應(yīng)的尾實(shí)體的位置用關(guān)系標(biāo)簽進(jìn)行標(biāo)注。“B-D_In-CE”標(biāo)簽和“E-D_In-CE”標(biāo)簽表示具有跨度位置在頭和當(dāng)前標(biāo)簽之間。“N”標(biāo)簽代表實(shí)體與實(shí)體之間無關(guān)系。如果一個頭實(shí)體有多個尾實(shí)體,在該方案中,我們只需用邊界關(guān)系標(biāo)記序列中的相應(yīng)標(biāo)記。我們將頭部沒有尾部實(shí)體的情況視為負(fù)樣本,當(dāng)前頭部實(shí)體的尾部列表都標(biāo)記為“O”。對“胰島素是緩解糖尿病發(fā)”按照本文標(biāo)注策略見表2,其中DRU是Drug簡寫,DIS是Diease簡寫,D2D表示疾病和藥品名稱間的關(guān)系。

      表2 標(biāo)注策略示例

      1.2 BERT-BiLSTM-CM-MHATT-CRF模型總體框架

      模型的總體框架如圖1所示,主要包括:輸入文本、BERT層、BiLSTM層、CHE&MTE層,multi-head-attention機(jī)制層、Tanh層、CRF層和關(guān)系抽取。在以下部分中將詳細(xì)描述。

      (1)BERT層

      圖2 BERT模型輸入表示

      (2)Bi-LSTM層

      將詞的組合表示作為輸入Xi(i=1,2,…,n), 我們使用Bi-LSTM模型作為序列編碼器來生成上下文化的詞表示。具體來說,LSTM單元由3個門結(jié)構(gòu)組成,其中輸入門控制哪些信息進(jìn)入該單元,遺忘門決定哪些信息從該單元中丟棄,輸出門決定哪些信息從該單元中產(chǎn)生。此外,單元狀態(tài)記錄了流向當(dāng)前時間的所有歷史信息。因此,上下文化的表示基于前面的文本由前向LSTM單元通過式(1)~式(6)計算

      (1)

      (2)

      (3)

      (4)

      (5)

      (6)

      (7)

      (8)

      H={h1,h2,…h(huán)n}

      (9)

      (3)CHE&MTE層

      (10)

      OCHE={O1,O2,…,On},P=OCHE*Wp+bp

      (11)

      (12)

      (13)

      (14)

      PCR=Mask*OMTE

      (15)

      Mask是根據(jù)識別出的候選頭部實(shí)體的位置生成的稀疏矩陣。如果當(dāng)前位置是候選頭部實(shí)體的開頭,則其對應(yīng)元素設(shè)置為1;否則,分配0。OMTE是來自類似于CHE模塊的BiLSTM的輸出表示序列。通過式(16),可以得到

      PCR={a1,a2,…ak}

      (16)

      其中,aj∈R2×dh(1≤j≤k) 是第j個實(shí)體的起始位置的隱藏表示,并且k是實(shí)體的數(shù)量。之后,根據(jù) MTE 標(biāo)記方案,我們計算上下文中每個候選頭部實(shí)體與多個尾部實(shí)體之間的相關(guān)性。如式(17)~式(21)所示以第j個實(shí)體為例描述計算過程

      Qj=WQaj+bQ

      (17)

      Kj=WQOi+bk

      (18)

      e(i,aj)=vTtanh(Qj+Ki)

      (19)

      (20)

      (21)

      Qj是第j個候選頭部實(shí)體的查詢向量,并且Ki是句子中第i個標(biāo)記的關(guān)鍵向量。此外,V∈Rdatt,WQ∈Rdatt×dPCR,WK∈Rdatt×do,bQ和bk是可訓(xùn)練的參數(shù)矩陣和偏差;datt,dPCR和do表示注意力計算的維度;Saj是實(shí)體下的上下文表示aj。

      (22)

      (23)

      (24)

      (25)

      (26)

      (27)

      (4)multi-head-attention機(jī)制層

      注意力機(jī)制的核心思想是在特定時間關(guān)注更有效的信息,而忽略其它不重要的信息。一個句子中任意兩個字的依賴關(guān)系可以通過全局注意力機(jī)制獲得,可以有效地捕捉到內(nèi)部結(jié)構(gòu)信息。注意力機(jī)制與BiLSTM模型的融合可以顯著強(qiáng)化重要詞的作用。注意力機(jī)制可以看作是一個查詢和一組鍵值對到輸出向量表示的映射過程。嵌入層的輸出向量矩陣E被投影到3個維度是dk的輸入矩陣中,并分別作為查詢Q、鍵K和值V饋送到注意函數(shù)。注意力函數(shù)用于查詢和鍵之間的相關(guān)性,計算值的權(quán)重以獲得混合向量表示,如式(28)所示

      (28)

      (29)

      stt=MultiHead(Q,K,V)=
      Concat(head1,…,headh)WO

      (30)

      (5)Tanh層

      在Tanh層中,multi-head-attention層的輸出st被送入一個tanh激活函數(shù),該函數(shù)的輸出用作下一個CRF層的輸入。如式(31)所示

      Zt=tanh(ht⊕stt)

      (31)

      其中,ht,stt(1≤t≤n) 分別是 BiLSTM 和自注意力層的輸出,⊕表示連接操作。

      (6)CRF層

      由于CRF被用作CHE和MTE模塊中的實(shí)體解碼器,我們使用如式(32)所示作為所提出模型的整體損失函數(shù)

      LossALL=LossCHE+LossMTE

      (32)

      LossCHE是預(yù)測的實(shí)體類型標(biāo)簽與CHE模塊的基本事實(shí)之間的差異,而LossMTE是預(yù)測的關(guān)系類型標(biāo)簽和 MTE 模塊的真實(shí)標(biāo)簽之間的距離。我們的優(yōu)化目標(biāo)是使LossALL和LossCHE盡可能小。

      根據(jù)我們的假設(shè),從CHE模塊中提取的頭部實(shí)體指導(dǎo)我們的尾部實(shí)體提取和三元組的生成,在本文中,我們采用RMSprop作為優(yōu)化器LossALL和LossCHE。 在預(yù)測過程中,我們使用維特比算法來預(yù)測準(zhǔn)確率最高的序列,作為最終實(shí)體識別的標(biāo)注結(jié)果。

      經(jīng)過上述模型進(jìn)行實(shí)體識別后,根據(jù)標(biāo)簽的特性即可同時實(shí)現(xiàn)了實(shí)體關(guān)系聯(lián)合抽取的任務(wù)。以一段含“糖尿病”實(shí)體的文本數(shù)據(jù)為例(如圖3所示),首先將主實(shí)體“糖尿病”標(biāo)記為CE。由于“消渴癥”和“糖尿病”之間存在“別名”關(guān)系,標(biāo)注“消渴癥”為“別名”(OtherName,ON),而“高血糖”和“糖尿病”之間的關(guān)系是“癥狀”,那么“高血糖”被標(biāo)記為“癥狀”(Symptoms,SYM),其它不相關(guān)的字符被標(biāo)注為標(biāo)簽O。當(dāng)匹配到主實(shí)體CE與關(guān)系ON的BIE標(biāo)簽集合時,通過標(biāo)簽匹配和映射,生成三元組<糖尿病、別名、消渴癥>;與CE和SYM的BIE集合匹配時,產(chǎn)生三元組<糖尿病,癥狀,高血糖>。在匹配下一個主實(shí)體標(biāo)簽CE之前,意味著已完成提取與前一個主實(shí)體對應(yīng)的三元組。

      圖3 標(biāo)注策略實(shí)現(xiàn)實(shí)體關(guān)系聯(lián)合抽取

      2 實(shí)驗(yàn)與結(jié)果

      2.1 數(shù)據(jù)集

      2.2 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)環(huán)境使用的硬件設(shè)備如下:處理器,Inter(R)Core(TM)i7-11700;GPU,GTX 1080Ti;內(nèi)存,64 G DDR4;顯卡,GeForce GTX 1080 Ti;硬盤,1 T+25 G SSD;操作系統(tǒng),Windows 10專業(yè)版;所采用的軟件平臺為Python 3.7.6和Tensorflow 1.15。

      2.3 基準(zhǔn)模型

      為了評估性能,將我們的模型與以下基準(zhǔn)模型進(jìn)行了比較。

      Adversarial Training[12]引入了一種正則化方法,可用于通過在訓(xùn)練數(shù)據(jù)中添加小擾動來提高聯(lián)合提取神經(jīng)網(wǎng)絡(luò)的魯棒性。

      Table-filling[13]是一種基于歷史的結(jié)構(gòu)化學(xué)習(xí)方法,它聯(lián)合提取實(shí)體和關(guān)系。

      Relation-Metric[14]引入了一種聯(lián)合提取神經(jīng)架構(gòu),該架構(gòu)利用基于重復(fù)應(yīng)用2D卷積的表結(jié)構(gòu)來匯集局部依賴和基于度量的特征。

      Multi-turn QA[15]將聯(lián)合提取任務(wù)視為多輪問答范式。該模型建立在BERT預(yù)訓(xùn)練模型之上,采用實(shí)體優(yōu)先策略,在英文和中文數(shù)據(jù)集上均取得了良好的性能。

      BTLSTM+Att[16]是一種嘗試從句法入手,通過分析句法依賴性和詞對關(guān)系提取的貢獻(xiàn)的方法。它提出了一種基于雙向樹結(jié)構(gòu)的長短期記憶神經(jīng)網(wǎng)絡(luò),以提高關(guān)系提取的性能。

      SpERT[17]是建立在BERT之上的輕量級推理模型。SpERT 將句子劃分為跨度級別的粒度,并通過跨度過濾器連接的兩個對應(yīng)分類器提取實(shí)體和關(guān)系。

      2.4 性能評估指標(biāo)

      本文實(shí)體關(guān)系抽取任務(wù)使用精度(precision,P)、召回率(recall,R)、F1值(F1)作為評價指標(biāo)來評估模型,計算方法如式(33)~式(35)所示

      (33)

      (34)

      (35)

      其中,正確肯定(true positive,TP)表示將正類預(yù)測為正類的個數(shù),錯誤肯定(false positive,F(xiàn)P)表示將負(fù)類預(yù)測為正類的個數(shù),錯誤否定(false negative,F(xiàn)N)表示將正類預(yù)測為負(fù)類的個數(shù)。如式(33)所示,P表示真正正確的數(shù)據(jù)占所有預(yù)測為正的數(shù)據(jù)比例;如式(34)所示,R表示真正正確的數(shù)據(jù)占實(shí)際為正的數(shù)據(jù)的比例;結(jié)合P和R得出F1分?jǐn)?shù),如式(35)所示,可作為模型的實(shí)際評分標(biāo)準(zhǔn)。

      2.5 參數(shù)設(shè)置

      參數(shù)優(yōu)化是深度神經(jīng)網(wǎng)絡(luò)獲得更好性能關(guān)鍵步驟,對網(wǎng)絡(luò)模型影響很大。在參數(shù)設(shè)置中,首先考慮學(xué)習(xí)率及迭代輪數(shù)對模型的影響。經(jīng)過觀察(圖4),當(dāng)學(xué)習(xí)率比1E-4小時發(fā)現(xiàn)P、R和F1值均為0,當(dāng)P、R和F1值在1E-5時,它們都達(dá)到最優(yōu)值,然后慢慢下降,因此選擇學(xué)習(xí)率為1E-5。為了選擇最優(yōu)的epoch值,固定批處理大小和學(xué)習(xí)率,將epoch從1選擇到 20進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)P、R和F1值均在18輪時,達(dá)到最優(yōu)分別為79.35%、79.33%和89.36%。隨著epoch的遞增,模型逐漸擬合并趨于穩(wěn)定,故迭代次數(shù)選取為18輪(圖5)。梯度下降算法能夠幫助模型進(jìn)行目標(biāo)函數(shù)的最大化或最小化計算。常用的梯度下降算法有ADAGRAD算法、RMSPROP算法、ADAM算法等[18]。本文進(jìn)行了梯度下降算法的對比,選擇批尺寸為128,ADAM的P值、R值和F1值比ADAGRAD和RMSPROP高,3個指標(biāo)均在70%左右,ADAM 和 RMSPROP都在96%以上,選擇ADAM算法(圖6)。進(jìn)行優(yōu)化和探索后得到了比較好的參數(shù)(表3)。

      圖4 不同學(xué)習(xí)率BERT模型結(jié)果對比

      圖5 不同迭代次數(shù)BERT模型結(jié)果對比

      圖6 不同梯度下降算法BERT模型結(jié)果對比

      表3 BERT-BiLSTM-CM-MHATT-CRF參數(shù)設(shè)置

      2.6 結(jié)果分析

      為了驗(yàn)證本文提出的模型的性能,從糖尿病標(biāo)注標(biāo)準(zhǔn)數(shù)據(jù)集中隨機(jī)選取7743個句子作為訓(xùn)練集,1935個句子作為測試集。采用交叉驗(yàn)證法,使用第2.4節(jié)中的評估指標(biāo)。

      (1)基準(zhǔn)模型比較實(shí)驗(yàn)

      表4顯示了在糖尿病數(shù)據(jù)集的比較結(jié)果。比較基線模型的實(shí)驗(yàn)結(jié)果參考了相應(yīng)的論文。我們的模型在NER以及關(guān)系提取的精度、召回率和F1方面優(yōu)于基線模型精度。值得注意的是,我們模型的精度達(dá)到94.14%,分別比新興的SpERT和Multi-QA高5.89%和5.14%。然而,Multi-turn QA和SpERT在NER召回率和F1方面優(yōu)于我們的模型。主要原因是它們都基于BERT預(yù)訓(xùn)練模型,而我們的模型是基于BERT-BiLSTM-CRF的輕量級模型,并輸入了靜態(tài)詞嵌入。從關(guān)系抽取的角度來看,我們的模型取得了更好的性能。例如,抽取精度達(dá)到82.42%,比SpERT高9.38%。關(guān)系抽取的F1值也提高到了77.55%,比SpERT提高了6.08%。由于關(guān)系抽取生成的元組是聯(lián)合模型的最終結(jié)果,關(guān)系抽取的性能可以更好地影響整體的有效性。因此,我們的模型在數(shù)據(jù)集上取得了更好的整體評估結(jié)果。

      表4 所提模型與基準(zhǔn)模型對比

      (2)消融實(shí)驗(yàn)

      進(jìn)行了消融實(shí)驗(yàn)來研究我們模型中組件的有效性。我們一次刪除了 MTE 模塊中的位置嵌入、段嵌入、標(biāo)記嵌入和實(shí)體相關(guān)注意機(jī)制。表5總結(jié)了我們的模型在糖尿病數(shù)據(jù)集上的消融結(jié)果。

      表5 消融實(shí)驗(yàn)結(jié)果

      根據(jù)表5中的實(shí)驗(yàn)結(jié)果,我們可以得出結(jié)論,位置嵌入、段嵌入和標(biāo)記嵌入對實(shí)體關(guān)系抽取的性能有顯著影響。此外,我們對注意力組件也進(jìn)行了消融實(shí)驗(yàn)。具體來說,我們替換了式(19)中實(shí)體和上下文之間的注意力計算。與預(yù)期一致,實(shí)驗(yàn)結(jié)果表明本文所提的方法對關(guān)系抽取的性能有很大影響。F1分?jǐn)?shù)從77.55%下降到70.61%,這也表明所提方法有助于發(fā)現(xiàn)特定關(guān)系中頭部實(shí)體和尾部實(shí)體之間的相關(guān)性。

      (3)重疊關(guān)系抽取分析

      關(guān)系抽取任務(wù)中不可避免的存在單實(shí)體和實(shí)體對的重疊問題,本文將所提模型與最新的NovelTagging、GraphRel和ETL-Span模型進(jìn)行了F1值對比[19-21],結(jié)果如圖7所示,觀察不同模型方法結(jié)果顯示了本文所提方法無論在單實(shí)體重疊上還是在多實(shí)體重疊上的F1值均有所提高,進(jìn)一步說明本文所設(shè)計的模型可以一定程度上解決醫(yī)學(xué)文本中經(jīng)常出現(xiàn)的關(guān)系重疊問題。

      圖7 重疊關(guān)系F1值對比

      (4)相關(guān)工作對比分析

      將提出的模型與現(xiàn)有的先進(jìn)的模型進(jìn)行了比較,結(jié)果見表6,所提出的模型取得了顯著的進(jìn)步。Yang等[22]通過合并字符和徑向線來增強(qiáng)單詞的向量表示,從而提高了中文NER模型的性能;此外,Zhang等[23]構(gòu)建了一個基于詞級特征的LSTM-CRF中文NER模型。Liu等[24]做了大部分詞序列之間的關(guān)系,以減少不正確分詞的影響,有效提高了模型的實(shí)體識別能力。Wu等[25]基于漢字特征和詞特征的結(jié)合構(gòu)建了中文NER模型(BiLSTM-CRF),有效地提取了中文的語義特征信息。Zhu等[26]豐富了語義信息通過捕獲相鄰字符和句子上下文的信息來對單詞進(jìn)行分類。雖然他們獲得了92.97%的F1分?jǐn)?shù),但它沒有考慮句子中單詞之間的長距離句法依賴關(guān)系,而是主要取決于單詞的質(zhì)量。與Tang等[27]提出的WC-GCN 模型相比,雖然考慮了句子中的單詞和字符信息,但忽略了句子中單詞之間的語義信息。我們的模型彌補(bǔ)了這一不足,有效地獲取了句子中單詞之間的語義信息,充分考慮句子中詞之間的長距離依賴關(guān)系,在不添加詞庫數(shù)據(jù)和人工設(shè)計特征的情況下獲得了94.98%的F1分?jǐn)?shù)。同時,ACNN模型(Kong等[28])可以有效地提取句子中相鄰字符的語義信息,但忽略了句子中單詞的語義信息和多義性,這會導(dǎo)致模型性能下降。

      表6 所提模型與現(xiàn)有模型對比

      3 結(jié)束語

      面向非結(jié)構(gòu)化文本數(shù)據(jù)的知識提取是自然語言處理領(lǐng)域的一項(xiàng)具有挑戰(zhàn)性的工作,尤其是對于一詞多義和具有重疊特征的提取任務(wù)。為了解決這些問題,我們提出了一種輕量級的神經(jīng)架構(gòu)模型。為了評估性能,我們在中文糖尿病數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn)。實(shí)驗(yàn)驗(yàn)證了該模型的優(yōu)良性能。這為我們提供了一種新的思維方式,即復(fù)雜模型往往不一定有更好的效果,尤其是對于代價難以預(yù)測的工業(yè)應(yīng)用。但是,巧妙的任務(wù)轉(zhuǎn)換可以使模型輕量化,同時取得良好的效果。需要指出的是,我們的模型還存在一些不足。在特定關(guān)系上下文的頭尾實(shí)體相關(guān)性計算中沒有考慮外部知識的整合。進(jìn)一步整合知識圖譜嵌入等先驗(yàn)信息是值得考慮的。此外,我們的模型仍然需要更大規(guī)模的標(biāo)記語料庫,而少樣本或零樣本設(shè)置的聯(lián)合提取值得進(jìn)一步研究。

      猜你喜歡
      實(shí)體標(biāo)簽模型
      一半模型
      重要模型『一線三等角』
      重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      3D打印中的模型分割與打包
      韩城市| 司法| 乡宁县| 重庆市| 天津市| 汤阴县| 大关县| 突泉县| 合肥市| 开鲁县| 福安市| 宁晋县| 浪卡子县| 盘锦市| 天祝| 营山县| 阆中市| 赞皇县| 家居| 隆昌县| 通化市| 淮安市| 安阳市| 陆河县| 库车县| 临沭县| 南江县| 云安县| 伊宁县| 承德市| 夏邑县| 赤壁市| 三河市| 杭锦后旗| 获嘉县| 清远市| 通江县| 金川县| 穆棱市| 屏东市| 江安县|