武小平,張 強(qiáng),趙 芳,焦 琳
(1.武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072;2.武漢大學(xué)中南醫(yī)院心血管內(nèi)科,武漢 430070)
心血管疾病具有發(fā)病因素多、高患病率、老年人占比多等特點(diǎn),而且治療康復(fù)周期長(zhǎng)。通過(guò)將心血管領(lǐng)域醫(yī)療知識(shí)與計(jì)算機(jī)優(yōu)勢(shì)相結(jié)合,構(gòu)建心血管領(lǐng)域的專病知識(shí)圖譜應(yīng)用,可在一定程度上緩解醫(yī)療資源緊張的問(wèn)題。關(guān)系抽取是構(gòu)建計(jì)算機(jī)醫(yī)療知識(shí)層的基礎(chǔ)信息處理任務(wù)之一。
隨著近幾年深度學(xué)習(xí)的發(fā)展,學(xué)者們開(kāi)始采用深度學(xué)習(xí)的方法來(lái)解決經(jīng)典關(guān)系抽取方法的精確度低的問(wèn)題,包括使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及相關(guān)門循環(huán)單元(Gated Recurrent Unit,GRU)、長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)。深度學(xué)習(xí)方法能在一定程度上緩解基于經(jīng)典特征的關(guān)系抽取模型的弊端,即對(duì)特征的選取是由模型訓(xùn)練完成,不存在人為的主觀因素介入,同時(shí)特征信息十分原始,很少有二次加工的特征信息的輸入,因此累計(jì)誤差更少,從而使得深度學(xué)習(xí)方法在很多場(chǎng)合中比經(jīng)典的基于特征工程的關(guān)系抽取方法精度都要高。文獻(xiàn)[1]將雙向變形編碼器(Bidirectional Encoder Representation from Transformers,BERT)[2]預(yù)訓(xùn)練模型應(yīng)用到關(guān)系抽取領(lǐng)域并在對(duì)應(yīng)數(shù)據(jù)集上取得了很好的結(jié)果,說(shuō)明BERT 預(yù)訓(xùn)練模型在自然語(yǔ)言處理(Natural Language Processing,NLP)中十分有成效。本文在此基礎(chǔ)上,以心血管疾病的部分中文醫(yī)療指南語(yǔ)料作為數(shù)據(jù)集,對(duì)心血管疾病領(lǐng)域的實(shí)體關(guān)系抽取做出相關(guān)研究。
本文工作主要有:
1)本文提取了心血管疾病領(lǐng)域的部分醫(yī)療指南,包括《中國(guó)高血壓防治指南2018 年修訂版》《冠心病合理用藥指南》(第二版)《穩(wěn)定性冠心病中西醫(yī)結(jié)合康復(fù)診療專家共識(shí)》等文獻(xiàn)中的語(yǔ)料,同時(shí)對(duì)這些語(yǔ)料在專業(yè)醫(yī)生的指導(dǎo)下進(jìn)行了相應(yīng)的實(shí)體類別和實(shí)體關(guān)系類別標(biāo)注,構(gòu)建了心血管疾病領(lǐng)域的關(guān)系抽取數(shù)據(jù)集。同時(shí),針對(duì)心血管類疾病的特點(diǎn),提出了“因素”這個(gè)實(shí)體類別,用以表示心血管類疾病中生活的重要習(xí)慣等特征。
2)基于雙向變形編碼器循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Encoder Representation from Transformers and Long Short Term Memory,BERT-LSTM)模型在實(shí)體關(guān)系抽取中的研究基礎(chǔ),本文針對(duì)心血管類疾病關(guān)系抽取提出了基于雙向變形編碼器卷積神經(jīng)網(wǎng)絡(luò)(Bidirectional Encoder Representation from Transformers and Convolutional Neural Network,BERT-CNN)模型,該模型通過(guò)加載BERT 預(yù)訓(xùn)練模型,在一定程度上提取語(yǔ)料中上下文的特征,再通過(guò)與CNN 模型綜合,從而更好地對(duì)關(guān)系抽取做出最后的分類預(yù)測(cè)。
3)本文基于心血管疾病醫(yī)療指南構(gòu)建的關(guān)系抽取數(shù)據(jù)集是中文的,由于中文語(yǔ)句中是基于詞的表達(dá)語(yǔ)義,原有的BERT 網(wǎng)絡(luò)模型按字掩蓋的自監(jiān)督訓(xùn)練任務(wù)不太適應(yīng)中文數(shù)據(jù)集。而基于全詞掩模的雙向變形編碼器(Bidirectional Encoder Representation from Transformers based on Whole Word Mask,BERT-WWM)[3]是通過(guò)整個(gè)詞掩蓋的自監(jiān)督訓(xùn)練任務(wù)訓(xùn)練出來(lái)的模型,因此本文將中文數(shù)據(jù)集預(yù)訓(xùn)練的BERTWWM 替換了原來(lái)的BERT 網(wǎng)絡(luò)。實(shí)驗(yàn)證明,在心血管疾病醫(yī)療指南關(guān)系抽取數(shù)據(jù)集下,基于全詞掩模的雙向變形編碼器卷積神經(jīng)網(wǎng)絡(luò)(Bidirectional Encoder Representation from Transformers and Convolutional Neural Networks based on whole word mask,BERT(wwm)-CNN)模型具有更好的評(píng)測(cè)結(jié)果。
文獻(xiàn)[4]通過(guò)語(yǔ)言學(xué)的知識(shí)編寫關(guān)系規(guī)則,從文本中匹配與規(guī)則相似度高的實(shí)例,該方法對(duì)于小規(guī)模的數(shù)據(jù)準(zhǔn)確率比較高,但是相對(duì)應(yīng)的,召回率很低,而且需要該領(lǐng)域的專家才能編寫出對(duì)應(yīng)的規(guī)則。文獻(xiàn)[5]通過(guò)使用支持向量機(jī)作為分類器,研究語(yǔ)料中的語(yǔ)法、詞匯特征與實(shí)體關(guān)系抽取之間的聯(lián)系。盡管經(jīng)典的關(guān)系抽取方法取得了一定的效果,但是特征工程的誤差會(huì)有傳播效應(yīng),對(duì)抽取的結(jié)果有著極大的影響。
隨著近幾年深度學(xué)習(xí)的發(fā)展,學(xué)者們開(kāi)始采用深度學(xué)習(xí)的方法來(lái)解決經(jīng)典關(guān)系抽取方法無(wú)法解決的問(wèn)題,比如可以減少人工因素的介入,減少人為選擇特征,從而緩解特征抽取帶來(lái)的誤差累積問(wèn)題[6]。文獻(xiàn)[7]首次提出將RNN 模型應(yīng)用于關(guān)系抽取中,該模型可以學(xué)習(xí)任意類型及長(zhǎng)短的詞語(yǔ)和句子成分表示。文獻(xiàn)[8]將語(yǔ)法樹(shù)引入到RNN 模型中,可以對(duì)目標(biāo)任務(wù)的重要短語(yǔ)顯式地提高權(quán)重,這一點(diǎn)與注意力機(jī)制[9]類似。該模型還證明了對(duì)模型的參數(shù)進(jìn)行平均以提高泛化能力。文獻(xiàn)[10]首次將CNN 引入到關(guān)系抽取中,將所有單詞轉(zhuǎn)換為詞向量后作為輸入,而不需要引入詞性標(biāo)注等,同時(shí)聯(lián)合句子級(jí)別特征并串聯(lián)起來(lái),形成最終的向量。
文獻(xiàn)[11]首次將深度學(xué)習(xí)方法應(yīng)用在醫(yī)療領(lǐng)域關(guān)系抽取中,利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)語(yǔ)義中的特征,從而減少對(duì)手動(dòng)特征工程的依賴;文獻(xiàn)[12]提出使用以LSTM 為門單元的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)抽取疾病與治療藥品之間的關(guān)系;文獻(xiàn)[13]提出基于字符的單詞表征模型特征輸入到卷積神經(jīng)網(wǎng)絡(luò)中,同時(shí)聯(lián)合LSTM 網(wǎng)絡(luò),用于提取化學(xué)物質(zhì)和疾病之間的關(guān)系,表明字符的單詞特征信息輸入能提高模型的性能。
文獻(xiàn)[2]在基于Transformer[14]網(wǎng)絡(luò)模型基礎(chǔ)上提出了BERT 網(wǎng)絡(luò)模型,認(rèn)為該模型可以作為通用的語(yǔ)言表征模型,能理解語(yǔ)義之間的關(guān)系。該模型框架在2018 年刷新了11 項(xiàng)NLP 任務(wù)。后續(xù)有研究都使用BERT 網(wǎng)絡(luò)模型進(jìn)行相關(guān)工作并取得了一定的效果[15-17]。文獻(xiàn)[1]在實(shí)體關(guān)系抽取領(lǐng)域中提出BERT-LSTM 網(wǎng)絡(luò)模型并在2019 年取得了最好的性能。盡管LSTM 網(wǎng)絡(luò)模型十分適合解決序列模型的問(wèn)題,但是在訓(xùn)練時(shí)容易出現(xiàn)梯度消失和爆炸的問(wèn)題,特別是在已經(jīng)使用BERT作為特征抽取模型的前提下,同時(shí)網(wǎng)絡(luò)也過(guò)于繁雜。
近年來(lái),實(shí)體關(guān)系抽取領(lǐng)域出現(xiàn)了許多相關(guān)的公開(kāi)數(shù)據(jù)集用于模型的訓(xùn)練與評(píng)測(cè)。然而在一些較為專業(yè)的垂直領(lǐng)域比如心血管類疾病領(lǐng)域卻很少有公開(kāi)的關(guān)系抽取數(shù)據(jù)集。在醫(yī)療領(lǐng)域,專病醫(yī)療指南匯集了眾多專家的共識(shí)和醫(yī)療經(jīng)驗(yàn),可以作為該類疾病醫(yī)療的重要參考資料。本文通過(guò)搜集心血管類疾病領(lǐng)域中一些醫(yī)療指南中的語(yǔ)料,結(jié)合心血管類疾病的醫(yī)療實(shí)踐,在專業(yè)醫(yī)生的指導(dǎo)下通過(guò)人工標(biāo)注實(shí)體類別與實(shí)體關(guān)系類型,構(gòu)建了一個(gè)心血管類疾病領(lǐng)域?qū)嶓w關(guān)系抽取數(shù)據(jù)集。
本文在確定實(shí)體類別與關(guān)系類別時(shí),首先了解關(guān)于疾病領(lǐng)域的公開(kāi)數(shù)據(jù)集的類別情況,主要借鑒了關(guān)于電子病歷的實(shí)體與關(guān)系類別[18-20]。然后結(jié)合心血管類疾病本身的特點(diǎn),對(duì)電子病歷的類別與關(guān)系做了一定的修改。實(shí)體具體如表1所示,總共6 大實(shí)體,包含疾病、治療、癥狀、藥物、因素和檢查?!耙蛩亍笔潜疚母鶕?jù)心血管類疾病的特點(diǎn)添加的。結(jié)合醫(yī)生的醫(yī)療實(shí)踐,心血管類疾病從問(wèn)診、治療到最后的康復(fù)都十分重要,特別是康復(fù)階段,尤為需要注意。
表1 實(shí)體類別Tab.1 Categories of entities
而康復(fù)階段需要注意許多生活上的習(xí)慣、飲食、體育鍛煉等方面,針對(duì)心血管領(lǐng)域的實(shí)體類別中特定添加了“因素”這一類別。實(shí)體關(guān)系類別如表2 所示,共6 大關(guān)系,因?yàn)樘砑恿恕耙蛩亍边@個(gè)實(shí)體,因此在實(shí)體關(guān)系類別里也做了擴(kuò)充。
表2 關(guān)系類別Tab.2 Categories of relations
本文提取了《中國(guó)高血壓防治指南2018 年修訂版》《冠心病合理用藥指南》(第二版)《穩(wěn)定性冠心病中西醫(yī)結(jié)合康復(fù)診療專家共識(shí)》中的語(yǔ)料,然后根據(jù)前文提到的實(shí)體類別和關(guān)系類別對(duì)提取的語(yǔ)料進(jìn)行人工標(biāo)注。該數(shù)據(jù)集中的標(biāo)簽內(nèi)容主要包含實(shí)體類別、實(shí)體關(guān)系類型、實(shí)體短語(yǔ)在語(yǔ)料中的索引。本文共搜集了4 656 條語(yǔ)料,具體關(guān)系類別分布比例如圖1 所示,可以看出Trid類別占比最大,這是由于醫(yī)療指南更多地描述用于治療疾病,但從整個(gè)類別分布來(lái)看,雖然做不到十分均衡,但是大體上相差不大。
圖1 數(shù)據(jù)集類別比例Fig.1 Ratio of different categories in dataset
文獻(xiàn)[1]提出的BERT 和LSTM 綜合的網(wǎng)絡(luò)模型用于關(guān)系提取取得了較好的效果。在這種情形下,相當(dāng)于把BERT 網(wǎng)絡(luò)作為一種詞嵌入模型提取初步的特征,然后利用LSTM 作為后續(xù)的網(wǎng)絡(luò)模型。RNN 的確十分適合序列模型,盡管LSTM 門單元和GRU 門單元在一定程度上能緩解梯度消失、梯度爆炸的問(wèn)題,但是其框架結(jié)構(gòu)復(fù)雜,訓(xùn)練模型的周期長(zhǎng)[6]。特別是在前面已經(jīng)采用了BERT模型的前提下,更顯得有些冗余。而CNN 結(jié)構(gòu)相對(duì)而言簡(jiǎn)單,訓(xùn)練更為迅速。文獻(xiàn)[10]提出用深度卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)料的特征來(lái)用作關(guān)系抽取,在SemEval-2010 Task 8中取得了很好的結(jié)果,因此本文通過(guò)將BERT 網(wǎng)絡(luò)模型作為語(yǔ)料的預(yù)訓(xùn)練模型抽取語(yǔ)料的上下文特征,然后使用CNN 網(wǎng)絡(luò)模型作為關(guān)系抽取的網(wǎng)絡(luò),即BERT-CNN 實(shí)體關(guān)系抽取網(wǎng)絡(luò)模型。BERT-CNN 網(wǎng)絡(luò)模型架構(gòu)如圖2 所示,其中:GeLU(Gaussian error Linear Unit)為激活函數(shù)高斯誤差線性單元,ReLU(Rectified Linear Unit)為激活函數(shù)整流線性單元。
整個(gè)網(wǎng)絡(luò)模型分為3步:
第一步 在語(yǔ)料輸入網(wǎng)絡(luò)首先需要進(jìn)行預(yù)處理操作,用具體的實(shí)體類別代替語(yǔ)料中的實(shí)體,然后將語(yǔ)料中的實(shí)體附加在語(yǔ)料中。例如:語(yǔ)料“兒童吸煙對(duì)動(dòng)脈硬化形成有很大促進(jìn)作用”會(huì)預(yù)處理為“因素對(duì)疾病形成有很大促進(jìn)作用SEP兒童吸煙SEP動(dòng)脈硬化”。
第二步 BERT 網(wǎng)絡(luò)預(yù)訓(xùn)練模型輸入信息由輸入語(yǔ)料轉(zhuǎn)化的三個(gè)詞嵌入相加而成。第一個(gè)是將輸入語(yǔ)料通過(guò)WordPiece[21]模型轉(zhuǎn)化為Token Embeddings 的詞向量;第二個(gè)是用于區(qū)分句子之間是否存在上下文關(guān)系的Segment Embeddings;第三個(gè)是將單詞位置通過(guò)學(xué)習(xí)出來(lái)的網(wǎng)絡(luò)模型抽取的Position Embeddings。將該輸入向量輸入到BERT 預(yù)訓(xùn)練模型中,取得BERT 網(wǎng)絡(luò)輸出的last_hidden_state 部分作為CNN網(wǎng)絡(luò)部分的輸入特征。
圖2 BERT-CNN網(wǎng)絡(luò)模型架構(gòu)Fig.2 BERT-CNN network model structure
第三步 將BERT 網(wǎng)絡(luò)之后的特征信息接入CNN 網(wǎng)絡(luò)模型。CNN 網(wǎng)絡(luò)部分首先是三個(gè)不同尺寸的卷積模塊和GeLU激活函數(shù),如式(1)所示。然后通過(guò)max_pooling 操作將特征信息降維,接著經(jīng)過(guò)線性層和隨機(jī)失活層用以緩解網(wǎng)絡(luò)的過(guò)擬合。然后通過(guò)最后一個(gè)線性層將維度降為關(guān)系類別的總數(shù)6維用于最后的分類。最后接softmax 分類器用于做最后的預(yù)測(cè),如式(2)所示:
其中:V表示網(wǎng)絡(luò)結(jié)構(gòu)中的特征向量;Vj表示向量第j個(gè)位置的權(quán)值;Si表示預(yù)測(cè)類別為i的概率;e 表示自然常數(shù);表示該元素的指數(shù);c為類別總數(shù)。
僅有該網(wǎng)絡(luò)模型還不能有效地抽取出語(yǔ)料的特征信息,因?yàn)楸M管BERT 網(wǎng)絡(luò)模型是通過(guò)開(kāi)源語(yǔ)料預(yù)訓(xùn)練過(guò)的,但是整個(gè)網(wǎng)絡(luò)模型參數(shù)并沒(méi)有針對(duì)心血管類疾病領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)進(jìn)行訓(xùn)練,本文則通過(guò)構(gòu)建的心血管類疾病領(lǐng)域的醫(yī)療指南數(shù)據(jù)集對(duì)提出的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練微調(diào),訓(xùn)練損失函數(shù)如式(3)所示:
其中:yi表示真實(shí)值表示預(yù)測(cè)值。
在BERT 網(wǎng)絡(luò)的自監(jiān)督任務(wù)中,有一個(gè)是Masked Language Model(MLM),即在網(wǎng)絡(luò)訓(xùn)練的時(shí)候隨機(jī)從輸入序列中掩蓋(mask)掉一部分單詞,然后通過(guò)上下文輸入到BERT 網(wǎng)絡(luò)中來(lái)預(yù)測(cè)該單詞。MLM 一開(kāi)始是針對(duì)英文的NLP訓(xùn)練方法,因此可以針對(duì)單詞進(jìn)行mask 而不會(huì)損失句子本身的語(yǔ)義。而應(yīng)用到中文領(lǐng)域,MLM 任務(wù)會(huì)將本身是一起的中文詞語(yǔ)分割,從而導(dǎo)致?lián)p失了中文句子本身的語(yǔ)義。Google在2019 年5 月31 發(fā)布了BERT 的更新版本,即BERT-WWM。該版本的BERT就是改變了原來(lái)MLM 任務(wù)的訓(xùn)練策略,不再是將句子中一個(gè)一個(gè)的單詞隨機(jī)掩蓋(mask),而是將詞看成是一個(gè)整體,所以掩蓋的時(shí)候會(huì)將詞一起掩蓋,從而盡量保護(hù)句子本身的語(yǔ)義不被分割。然而,Google 發(fā)布的BERTWWM并沒(méi)有針對(duì)中文版的,文獻(xiàn)[3]則基于此提出了用中文訓(xùn)練好的BERT-WWM 網(wǎng)絡(luò)模型參數(shù)。該網(wǎng)絡(luò)模型在訓(xùn)練中文的MLM 任務(wù)時(shí),不再是以字為粒度切分隨機(jī)掩蓋(mask),而是采用了哈爾濱工業(yè)大學(xué)LTP(Chinese Language Technology Platform)分詞[22]工具先對(duì)句子分詞,然后再以詞為粒度隨機(jī)掩蓋(mask),進(jìn)行自監(jiān)督訓(xùn)練。在針對(duì)心血管類疾病領(lǐng)域中文醫(yī)學(xué)指南關(guān)系抽取數(shù)據(jù)集前提下,為更好地提高中文語(yǔ)義理解,將BERT-CNN 中的BERT 網(wǎng)絡(luò)模型用BERT-WWM 模型替換,從而提高對(duì)中文語(yǔ)料特征的抽取效果。
在分類領(lǐng)域,為了精確地評(píng)測(cè)模型的性能優(yōu)劣,一般看準(zhǔn)確率(precision)與召回率(recall)。首先可以將測(cè)試集中樣本分為預(yù)測(cè)正確的陽(yáng)樣本(True Positive sample,TP)、預(yù)測(cè)錯(cuò)誤的陽(yáng)樣本(False Positive sample,F(xiàn)P)、預(yù)測(cè)錯(cuò)誤的陰樣本(False Negative sample,F(xiàn)N)、預(yù)測(cè)正確的陰樣本(True Negative sample,TN)。準(zhǔn)確率(P)和召回率(R)如式(4)、(5)所示。在比較不同模型的準(zhǔn)確率與召回率時(shí),兩個(gè)指標(biāo)各有高低的時(shí)候不好直接評(píng)判性能的優(yōu)劣,因此在關(guān)系抽取領(lǐng)域,一般比較的是F1值,如式(6)所示:
本文的實(shí)驗(yàn)數(shù)值計(jì)算得到了武漢大學(xué)超級(jí)計(jì)算中心的計(jì)算支持和幫助。本文實(shí)驗(yàn)申請(qǐng)部署的GPU 服務(wù)器配置為4 塊Nvidia Tesla V100 顯卡(16 GB 顯存),2 塊Xeon E5-2640 v4 x86_64 CPU(20 核心),128 GB DDR4 內(nèi)存,240 GB 固態(tài)硬盤,使用Centos 操作系統(tǒng),編程工具為python3.6,同時(shí)使用了開(kāi)源機(jī)器學(xué)習(xí)庫(kù)pytorch1.3.1 GPU版。
在本文的實(shí)驗(yàn)中,為了充分對(duì)比本文提出的網(wǎng)絡(luò)模型,在同一心血管類疾病醫(yī)學(xué)指南關(guān)系抽取數(shù)據(jù)集下,除了使用BERT-CNN、BERT(wwm)-CNN 模型,還選取了BERT-LSTM[1]與RNN[23]網(wǎng)絡(luò)模型作為實(shí)驗(yàn)對(duì)比。
按照算法1 對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。首先下載訓(xùn)練好的BERT和BERT-WWM模型參數(shù),然后使用訓(xùn)練對(duì)網(wǎng)路模型進(jìn)行微調(diào),按照顯存容量設(shè)置合適的batch_size。同時(shí)根據(jù)訓(xùn)練日志判斷損失函數(shù)的收斂情況,同時(shí)對(duì)隨機(jī)失活率、學(xué)習(xí)率與學(xué)習(xí)率的衰減值進(jìn)行微調(diào),直到訓(xùn)練的損失穩(wěn)定收斂。在本文實(shí)驗(yàn)中,batch_size 設(shè)置為96,隨機(jī)失活率為0.3,學(xué)習(xí)率設(shè)置為0.001,衰減率設(shè)置為0.7。在模型訓(xùn)練結(jié)束后,通過(guò)測(cè)試集對(duì)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,并計(jì)算出準(zhǔn)確率、召回率和F1值。
圖3 所示為各個(gè)網(wǎng)絡(luò)模型訓(xùn)練時(shí)的損失函數(shù)圖,可以觀察到各網(wǎng)絡(luò)模型在數(shù)據(jù)集的迭代訓(xùn)練下,最后訓(xùn)練損失都收斂了。相對(duì)而言RNN 模型收斂最快但是最終損失值卻最大,而B(niǎo)ERT(wwm)-CNN 網(wǎng)絡(luò)模型收斂后的訓(xùn)練損失值最小。圖4 所示為各網(wǎng)絡(luò)模型在測(cè)試集下的F1值隨著數(shù)據(jù)集訓(xùn)練過(guò)程的變化情況,同樣最后都收斂到穩(wěn)定的值。從圖中可以得出BERT(wwm)-CNN 取得的F1值最好。整體上看BERT 網(wǎng)絡(luò)模型比RNN 網(wǎng)絡(luò)模型效果更好一些,詳細(xì)數(shù)據(jù)如表3所示。
從表3 可以看出,BERT-LSTM 比RNN 網(wǎng)絡(luò)模型的F1值要高,說(shuō)明相比詞嵌入模型而言,BERT網(wǎng)絡(luò)預(yù)訓(xùn)練模型可以更好地抽取出語(yǔ)料之間的特征信息。BERT-CNN 比BERTLSTM 網(wǎng)絡(luò)模型測(cè)試的F1值高,說(shuō)明在該數(shù)據(jù)集中CNN 的效果更好,LSTM 因?yàn)榻Y(jié)構(gòu)更加復(fù)雜反而降低了網(wǎng)絡(luò)性能。同時(shí)由于數(shù)據(jù)量規(guī)模的原因,BERT-LSTM 在一定程度上也無(wú)法發(fā)揮出本身的性能優(yōu)勢(shì),因此在該數(shù)據(jù)集下BERT-CNN 能取得更好的結(jié)果。
圖3 不同網(wǎng)絡(luò)模型的訓(xùn)練損失函數(shù)Fig.3 Training loss functions of different network models
圖4 不同網(wǎng)絡(luò)模型在測(cè)試數(shù)據(jù)集下的F1值Fig.4 F1 values of of different network models on test dataset
表3 各網(wǎng)絡(luò)模型準(zhǔn)確率、召回率和F1值Tab.3 Precision,recall and F1 value of different network models
對(duì)比BERT-CNN 與BERT(wwm)-CNN 的F1值,因?yàn)槭侵形臄?shù)據(jù)集,采用整體分詞模型自監(jiān)督任務(wù)的BERT-WWM 預(yù)訓(xùn)練模型在實(shí)驗(yàn)中取得了更好的效果,說(shuō)明在中文自然語(yǔ)言處理中,通過(guò)對(duì)中文的分詞預(yù)處理能夠提高模型的性能。最后通過(guò)對(duì)比這4 項(xiàng)數(shù)據(jù),說(shuō)明在心血管類疾病中文醫(yī)療指南關(guān)系抽取數(shù)據(jù)集中,本文提出的BERT(wwm)-CNN 模型取得了最好的性能,F(xiàn)1值達(dá)到了0.83。
計(jì)算機(jī)應(yīng)用與其他學(xué)科的交叉研究不斷地加深,極大地促進(jìn)了各個(gè)行業(yè)的發(fā)展與進(jìn)步。通過(guò)對(duì)心血管類疾病領(lǐng)域的醫(yī)療指南做相應(yīng)的關(guān)系抽取研究,在基于BERT 網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了針對(duì)該領(lǐng)域的BERT-CNN 實(shí)體關(guān)系抽取模型,從而可以提取出更有意義的語(yǔ)義關(guān)系特征,進(jìn)一步為心血管類疾病領(lǐng)域的知識(shí)圖譜構(gòu)建、醫(yī)療自動(dòng)問(wèn)答等做出了基礎(chǔ)性的工作。
在本文提出的BERT-CNN 模型中,通過(guò)將BERT 與CNN結(jié)合的網(wǎng)絡(luò)模型結(jié)構(gòu)取得了比較好的結(jié)果,可以肯定的是BERT 的預(yù)訓(xùn)練模型有著至關(guān)重要的作用,但尚不能確定與CNN 模型的結(jié)合就是最好的模型。BERT 網(wǎng)絡(luò)基于Tansformer網(wǎng)絡(luò)模型,即完全基于Attention機(jī)制構(gòu)建起來(lái)的超大規(guī)模網(wǎng)絡(luò),可以解決序列模型帶來(lái)的長(zhǎng)期依賴問(wèn)題,但同時(shí)對(duì)語(yǔ)料本身的位置問(wèn)題上解決得有些粗略。長(zhǎng)期依賴問(wèn)題與輸入順序問(wèn)題好像魚和熊掌不可兼得,或許探索其他網(wǎng)絡(luò)模型結(jié)構(gòu)的特點(diǎn)包括殘差網(wǎng)絡(luò)模型、膠囊網(wǎng)絡(luò)等,或者在其他領(lǐng)域取得較好成績(jī)的網(wǎng)絡(luò)模型與BERT 網(wǎng)絡(luò)的結(jié)合都可以值得考慮。