摘 要:對(duì)醫(yī)學(xué)書籍等領(lǐng)域文本與患者自述等患者相關(guān)文本結(jié)構(gòu)化解析,能夠?yàn)閱栐\系統(tǒng)構(gòu)建提供結(jié)構(gòu)化資源支撐,有助于輔助醫(yī)生診斷。為此,提出一種文本結(jié)構(gòu)化解析方法。該方法利用工程方式獲取領(lǐng)域先驗(yàn)知識(shí)與訓(xùn)練數(shù)據(jù);基于BERT模型,通過掩碼語言模型與實(shí)體排序任務(wù)將醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)融入模型,獲得先驗(yàn)知識(shí)增強(qiáng)的MedReBERT模型;設(shè)計(jì)文本生成模板構(gòu)造概念標(biāo)引模型與概念關(guān)系標(biāo)引模型,實(shí)現(xiàn)概念及關(guān)系的標(biāo)引,并提出一種工程處理與算法協(xié)同學(xué)習(xí)框架。實(shí)驗(yàn)證明該方法能夠?qū)崿F(xiàn)問診系統(tǒng)文本的結(jié)構(gòu)化解析。提出的方法框架能夠建立各算法間的接口,實(shí)現(xiàn)問診系統(tǒng)文本結(jié)構(gòu)化解析相關(guān)算法的低門檻迭代應(yīng)用。
關(guān)鍵詞:先驗(yàn)知識(shí);結(jié)構(gòu)化解析;問診系統(tǒng)
中圖分類號(hào):TP182"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-024-1143-07
doi: 10.19734/j.issn.1001-3695.2024.07.0263
Research on structured parsing of medical consultation system text based on prior knowledge
Liu Yao1, Zhai Yu2, Zhou Jiahui1
(1.Information Technology Support Center, Institute of Scientific amp; Technical Information of China, Beijing 100038, China; 2. Dept. of Chinese amp; Bilingual Study, The Hong Kong Polytechnic University, Hong Kong 999077, China)
Abstract:Structured parsing of domain texts such as medical books and patient-related texts such as patients’ statements can provide structured resource support for the construction of medical consultation system, which can help assist doctors in diagnosis. Therefore, this paper proposed a method for structured parsing. The method used engineering approaches to obtain domain-specific prior knowledge and training data. Based on the BERT model, the method integrated medical prior knowledge into the model through masked language model and entity ranking tasks to obtain the MedReBERT model enhanced by the prior knowledge. The method designed the text generation template to train concept indexing and concept relationship indexing mo-dels, to realize the indexing of concepts and relationships. This paper proposed a collaborative framework that combined engineering processes with algorithmic learning. The experimental results show that the method can realize the structured parsing of the text. The proposed framework can establish interfaces between algorithms and realize the low-threshold iterative application of algorithms related to the structured parsing of text in the consultation system.
Key words:prior knowledge; structured parsing; medical consultation system
0 引言
隨著信息化進(jìn)程推進(jìn),越來越多的醫(yī)療機(jī)構(gòu)走上智慧化進(jìn)程,開通線上問診渠道,促進(jìn)醫(yī)療資源下沉。問診業(yè)務(wù)涉及的醫(yī)學(xué)知識(shí)體系龐雜,知識(shí)間關(guān)系復(fù)雜多樣,需建立一種框架機(jī)制,實(shí)現(xiàn)對(duì)書籍等醫(yī)學(xué)權(quán)威文本和患者自述、問診記錄等患者信息的結(jié)構(gòu)化解析和存儲(chǔ),實(shí)現(xiàn)領(lǐng)域知識(shí)更新迭代。對(duì)問診系統(tǒng)相關(guān)資源的結(jié)構(gòu)化解析包括概念抽取和關(guān)系抽取兩大任務(wù),實(shí)際工程中大多采用人工輔助規(guī)則方法、傳統(tǒng)機(jī)器學(xué)習(xí)算法等管線式方法抽取概念及其關(guān)系。人工輔助成本高、耗時(shí)長(zhǎng),基于規(guī)則的抽取泛化性較差;管線法涉及算法多、流程長(zhǎng),存在誤差傳播、召回率低等問題。因此,本文提出一種工程處理與算法協(xié)同學(xué)習(xí)框架,首先通過工程方法對(duì)醫(yī)學(xué)書籍、患者自述等問診領(lǐng)域的資源進(jìn)行處理與存儲(chǔ),構(gòu)建先驗(yàn)詞典、先驗(yàn)規(guī)則等獲取先驗(yàn)知識(shí)?;谙闰?yàn)知識(shí)獲取訓(xùn)練數(shù)據(jù)以訓(xùn)練概念標(biāo)引模型和概念關(guān)系標(biāo)引模型,實(shí)現(xiàn)對(duì)領(lǐng)域書籍與患者自述中概念及概念關(guān)系的標(biāo)引,對(duì)問診系統(tǒng)中文本資源的結(jié)構(gòu)化解析,如圖1所示。最后設(shè)計(jì)以接口層為重點(diǎn)的算法服務(wù)功能,將算法通過接口形式統(tǒng)一迭代維護(hù)管理,實(shí)現(xiàn)解析資源的再利用與算法迭代更新的完整閉環(huán)。
1 相關(guān)研究
對(duì)問診系統(tǒng)相關(guān)文本的結(jié)構(gòu)化解析包括概念抽取和概念關(guān)系抽取兩個(gè)方面。
領(lǐng)域概念抽取方法包括規(guī)則方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法[1]。基于規(guī)則的醫(yī)學(xué)概念抽取方法目的是匹配知識(shí)庫中的術(shù)語,如統(tǒng)一醫(yī)學(xué)語言系統(tǒng)UMLS和Meta Map[2]。規(guī)則方法需要醫(yī)學(xué)專家手動(dòng)抽取特征,成本高、耗時(shí)長(zhǎng)、回報(bào)低。之后BiLSTM-CRF等深度學(xué)習(xí)方法成為主流,陳雪松等人[3]通過Lattice LSTM融合詞匯信息和字符信息,利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文醫(yī)學(xué)命名實(shí)體識(shí)別。林致中等人[4]通過設(shè)計(jì)標(biāo)簽感知模塊、全局感知模塊和交互指導(dǎo)模塊構(gòu)建聯(lián)合信息抽取模型抽取醫(yī)患對(duì)話中的信息。
隨著BERT[5]等預(yù)訓(xùn)練模型的提出,一些研究開始基于預(yù)訓(xùn)練模型進(jìn)行概念抽取。Krishna等人[6]使用基于BERT的模型識(shí)別醫(yī)患對(duì)話中的診斷和器官異常情況,模型表現(xiàn)超過了傳統(tǒng)機(jī)器學(xué)習(xí)方法。問診系統(tǒng)中常出現(xiàn)醫(yī)學(xué)問詢對(duì)話,既有口語化日常語言,又有醫(yī)學(xué)術(shù)語,當(dāng)海量語料輸入深度神經(jīng)網(wǎng)絡(luò)時(shí),難以判斷神經(jīng)網(wǎng)絡(luò)能否學(xué)到預(yù)期知識(shí),有學(xué)者提出將先驗(yàn)知識(shí)融入到語言模型中。K-BERT[7]將知識(shí)圖譜的邊和節(jié)點(diǎn)融入到模型輸入中,提出位置編碼和可見矩陣機(jī)制,解決了句子順序擾動(dòng)和額外信息擾動(dòng)問題。韓普等人[8]在BiLSTM-CRF的基礎(chǔ)上,引入BERT模型實(shí)現(xiàn)外部醫(yī)學(xué)資源的知識(shí)遷移,實(shí)現(xiàn)中文醫(yī)學(xué)實(shí)體的抽取。趙珍珍等人[9]將字向量和與其高度關(guān)聯(lián)的詞特征進(jìn)行融合,增強(qiáng)文本局部語義信息,在嵌入層融入學(xué)習(xí)了醫(yī)療知識(shí)的MedBERT,在編碼層添加圖注意力模塊以增強(qiáng)對(duì)醫(yī)學(xué)語法的學(xué)習(xí)。陳夢(mèng)萱等人[10]通過BioBERT得到語素表示信息,通過BiLSTM獲取語素的前后序列信息,通過注意力機(jī)制增強(qiáng)關(guān)聯(lián)信息,最終基于BiLSTM-CRF實(shí)現(xiàn)生物醫(yī)學(xué)的命名實(shí)體識(shí)別。Fei等人[11]將BERT分為輸入層、詞法層和語義層,使用網(wǎng)絡(luò)表示學(xué)習(xí)獲得醫(yī)學(xué)領(lǐng)域的實(shí)體嵌入并將嵌入層融合到BERT中。羅歆然等人[12]通過雙線性注意力機(jī)制將詞匯信息融入到文本序列中的每個(gè)字符中,實(shí)驗(yàn)表明使用BERT的預(yù)訓(xùn)練嵌入層具有語義信息增強(qiáng)的效果。
概念關(guān)系抽取方法可以分為管道法和聯(lián)合法。管道法保證了實(shí)體識(shí)別和關(guān)系抽取任務(wù)的獨(dú)立性,但會(huì)受到錯(cuò)誤傳播的影響;一些聯(lián)合方法[13]通過共享參數(shù)或序列標(biāo)記一次性抽取實(shí)體和關(guān)系;較多研究者已成功使用基于BERT的模型提取醫(yī)學(xué)文本中的關(guān)系。Wei等人[14]使用Finetuned BERT和Feature CombinedBERT解決臨床關(guān)系抽取,這兩個(gè)模型的表現(xiàn)優(yōu)于基于CNN的模型。一些專用領(lǐng)域深度學(xué)習(xí)算法如PubMedBERT[15]使用來自醫(yī)學(xué)專業(yè)領(lǐng)域文獻(xiàn)的數(shù)據(jù)進(jìn)行知識(shí)增強(qiáng),其表現(xiàn)優(yōu)于同期的深度學(xué)習(xí)算法。景慎旗等人[16]構(gòu)建融入醫(yī)學(xué)領(lǐng)域知識(shí)的遠(yuǎn)程監(jiān)督醫(yī)學(xué)實(shí)體關(guān)系抽取模型,使用MedicalBERT編碼遠(yuǎn)程監(jiān)督標(biāo)注文本,提高對(duì)醫(yī)學(xué)實(shí)體語義編碼的準(zhǔn)確性。Mondal[17]將藥物嵌入與基于BioBERT的關(guān)系抽取模型相結(jié)合,該模型在Macro F1得分上優(yōu)于其他基于BERT的模型,提高了3.4%。
傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)眾包標(biāo)注數(shù)據(jù)高度依賴,為實(shí)現(xiàn)較高的模型性能,需要大量人力物力標(biāo)注樣本?,F(xiàn)有研究較多聚焦于概念抽取或關(guān)系抽取的具體算法的優(yōu)化改進(jìn),其訓(xùn)練數(shù)據(jù)大多依賴外部數(shù)據(jù)集或知識(shí)庫,較少針對(duì)研究需求構(gòu)建知識(shí)庫,從工程和算法一體化的角度獲取先驗(yàn)知識(shí)、生成訓(xùn)練語料訓(xùn)練模型,完成對(duì)概念及概念關(guān)系的抽取,實(shí)現(xiàn)工程算法協(xié)同優(yōu)化。
2 領(lǐng)域先驗(yàn)知識(shí)獲取與資源存儲(chǔ)
問診領(lǐng)域先驗(yàn)知識(shí)能夠?yàn)閱栐\系統(tǒng)概念及概念關(guān)系抽取算法研究提供語義與結(jié)構(gòu)經(jīng)驗(yàn),不僅能夠使算法模型學(xué)習(xí)領(lǐng)域內(nèi)與疾病癥狀相關(guān)的特征,實(shí)現(xiàn)對(duì)問診系統(tǒng)文本的結(jié)構(gòu)化解析,還可以為智能問診系統(tǒng)的構(gòu)建提供先驗(yàn)資源。本文在缺乏公開可用本體資源的基礎(chǔ)上,利用管線方式生成問診領(lǐng)域詞典、知識(shí)網(wǎng)絡(luò)等先驗(yàn)資源,利用領(lǐng)域先驗(yàn)詞典對(duì)數(shù)據(jù)進(jìn)行遠(yuǎn)程監(jiān)督標(biāo)注,能夠?yàn)楦拍顦?biāo)引模型提供訓(xùn)練語料;知識(shí)網(wǎng)絡(luò)中的三元組能夠?yàn)楦拍铌P(guān)系標(biāo)引模型提供訓(xùn)練語料。通過構(gòu)建問診業(yè)務(wù)資源庫模型、書籍資源庫模型,實(shí)現(xiàn)對(duì)原始資源以及解析資源的結(jié)構(gòu)化存儲(chǔ),構(gòu)建問診領(lǐng)域知識(shí)體系,為問診領(lǐng)域概念知識(shí)再利用、算法服務(wù)提供資源支撐。
2.1 資源獲取與資源庫模型構(gòu)建
資源庫模型構(gòu)建能夠使問診文本資源按照特定格式存儲(chǔ),本文選用可擴(kuò)展標(biāo)記語言(extensible markup language, XML)作為結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)格式。XML通過XML schema描述和規(guī)范XML文檔的結(jié)構(gòu),使文檔結(jié)構(gòu)更清晰。
以糖尿病領(lǐng)域?yàn)槔?,本文從中華醫(yī)學(xué)知識(shí)庫人工下載相關(guān)書籍資源,根據(jù)原文格式信息,結(jié)合正則表達(dá)式對(duì)其解析,得到初步結(jié)構(gòu)化數(shù)據(jù),將解析后的文本使用樹狀結(jié)構(gòu)保存,樹狀結(jié)構(gòu)的根目錄為權(quán)威書籍標(biāo)題,根據(jù)原文的層次結(jié)構(gòu)將各級(jí)內(nèi)容保存為節(jié)點(diǎn),并設(shè)計(jì)疾病問診書籍對(duì)應(yīng)的schema,按照其篇章結(jié)構(gòu)的層級(jí)關(guān)系進(jìn)行解析與存儲(chǔ)。除領(lǐng)域書籍資源外,問診業(yè)務(wù)還包括患者自述等和癥狀高度相關(guān)的資源,此類資源包括網(wǎng)絡(luò)爬取的患者自述文本、醫(yī)生回答文本和醫(yī)學(xué)百科的癥狀等。通過構(gòu)建問診業(yè)務(wù)資源庫模型、設(shè)計(jì)對(duì)應(yīng)的schema,實(shí)現(xiàn)患者陳述、醫(yī)患對(duì)話及解析結(jié)果等資源的存儲(chǔ)。
2.2 領(lǐng)域先驗(yàn)詞典構(gòu)建
通過工程方法抽取問診領(lǐng)域相關(guān)概念,構(gòu)建先驗(yàn)詞典,獲取先驗(yàn)知識(shí),為模型優(yōu)化、遠(yuǎn)程監(jiān)督[18]標(biāo)注訓(xùn)練數(shù)據(jù)提供所需的支撐資源。
以糖尿病領(lǐng)域?yàn)槔?,本文基于《常用臨床醫(yī)學(xué)名詞(2019年版)》《漢英診斷學(xué)大辭典》等術(shù)語資源以及尋醫(yī)問藥百科、快速問醫(yī)生百科等半結(jié)構(gòu)化資源,抽取糖尿病相關(guān)詞匯集合。首先,將上述半結(jié)構(gòu)化或高度結(jié)構(gòu)化的資源統(tǒng)一轉(zhuǎn)換成txt、csv、xml等便于計(jì)算機(jī)處理的文本格式;其次,對(duì)其中一些特殊字符進(jìn)行處理和清洗;再次,對(duì)于術(shù)語間隔不明的資源,設(shè)計(jì)正則表達(dá)式進(jìn)行規(guī)則抽??;最后,根據(jù)類別將上述詞匯去重后存入txt格式的文檔,形成詞典集合。
對(duì)于《漢英診斷學(xué)大辭典》,取其“內(nèi)科”一章,使用正則表達(dá)式提取癥狀、實(shí)驗(yàn)室檢查類概念?!冻S门R床醫(yī)學(xué)名詞》按照科室將臨床術(shù)語劃分為疾病診斷名詞、癥狀體征名詞、手術(shù)操作名詞和臨床檢查名詞四類。由于選取糖尿病作為問診領(lǐng)域的示例領(lǐng)域,選取腎內(nèi)科和內(nèi)分泌科兩科室的四類臨床術(shù)語作為權(quán)威術(shù)語集合。一些開放爬蟲獲取的醫(yī)學(xué)百科網(wǎng)站積累了大量可直接在線獲取的癥狀百科,包括相關(guān)藥品、檢查、就診科室等字段,選取癥狀、疾病、檢查、藥品、食物這五種界限較為清晰的字段進(jìn)行術(shù)語抽取。通過撰寫網(wǎng)站爬取規(guī)則,爬取百科頁面內(nèi)容,分字段入庫,通過字段信息抽取不同類別的概念術(shù)語。
由于患者陳述主要是對(duì)自身癥狀和病史等的描述,為更好地提取患者陳述中涉及的對(duì)問診有用的概念需要增設(shè)字段。參考電子病歷書寫標(biāo)準(zhǔn)及爬取語料特征,經(jīng)過與醫(yī)學(xué)專家的討論,將問診陳述中的癥狀分為一般癥狀、否認(rèn)癥狀、癥狀部位、癥狀條件、癥狀程度、既往信息等,構(gòu)造如表1所示的先驗(yàn)詞典。先驗(yàn)詞典主要來自內(nèi)分泌和糖尿病相關(guān)內(nèi)容,并對(duì)概念詞匯進(jìn)行一定程度的精簡(jiǎn)和人工添加。
利用構(gòu)建好的先驗(yàn)詞典,通過基于雙向最大匹配算法進(jìn)行遠(yuǎn)程監(jiān)督標(biāo)注語料,生成標(biāo)注數(shù)據(jù),能夠用于訓(xùn)練概念標(biāo)引模型。
2.3 知識(shí)網(wǎng)絡(luò)生成
本文利用管線方式獲取問診領(lǐng)域文本的三元組,生成概念關(guān)系網(wǎng)絡(luò),作為先驗(yàn)知識(shí),為概念關(guān)系標(biāo)引模型訓(xùn)練提供訓(xùn)練數(shù)據(jù)。
2.3.1 領(lǐng)域先驗(yàn)關(guān)系規(guī)則構(gòu)建
在醫(yī)學(xué)領(lǐng)域?qū)<覅⒖碱I(lǐng)域書籍輔助指導(dǎo)下,本文構(gòu)建了50條先驗(yàn)關(guān)系規(guī)則,并將其轉(zhuǎn)換成JSON格式作為參數(shù)。以癥狀和疾病兩個(gè)主要概念為例,其概念、關(guān)系、值域示例如表2所示。
2.3.2 先驗(yàn)關(guān)系抽取方法
本文提出關(guān)系共現(xiàn)方法,根據(jù)兩概念之間的距離區(qū)間長(zhǎng)度與構(gòu)建的先驗(yàn)關(guān)系規(guī)則抽取概念之間的先驗(yàn)關(guān)系,形成三元組。在實(shí)驗(yàn)中發(fā)現(xiàn),癥狀與疾病、藥物、病程之間的關(guān)系跨度通常不是定值,若使用定長(zhǎng)區(qū)間,概念一般會(huì)在一個(gè)區(qū)間內(nèi)發(fā)生不同程度的改變,或在當(dāng)前區(qū)間遍歷結(jié)束后,下一個(gè)區(qū)間中某個(gè)概念其實(shí)仍然是主體,因此無法檢測(cè)到此概念在下一個(gè)區(qū)間中的關(guān)系。將區(qū)間設(shè)置成大小可變的狀態(tài),針對(duì)待抽取的序列,不劃分固定的區(qū)間長(zhǎng)度,而是根據(jù)概念1(CLS1)與概念2(CLS2)的關(guān)系類別靈活劃分區(qū)間長(zhǎng)度,并將區(qū)間內(nèi)的關(guān)系根據(jù)先驗(yàn)規(guī)則進(jìn)行匹配,抽取概念間的關(guān)系,構(gòu)建三元組,本文將該方法命名為dynamic window algorithm for relation extraction(DWARE)。具體步驟如下:a)輸入待處理的文檔T,并對(duì)其進(jìn)行分句,得到句子集合{S1,S2,…,Sn}。b)對(duì)文檔中每一個(gè)句子S進(jìn)行分詞,得到分詞結(jié)果{w1,w2,…,wn}。c)對(duì)文檔中每一個(gè)句子S以及每一個(gè)單詞w,使用概念標(biāo)引模型對(duì)其進(jìn)行概念抽取,得到概念集合{c1,c2,…,cn}。
d)初始化概念1的跨度窗口C1w,概念2的跨度窗口C2w以及固定窗口Fw。
e)對(duì)于文檔T中的每一個(gè)概念c,若c=CLS1,則將其索引添加到C1w中;若c=CLS2,則將其索引添加到C2w中。初始化HEAD為CLS1。f)對(duì)于C1w中的每一個(gè)概念c,計(jì)算其與HEAD之間的關(guān)系并輸出結(jié)果。將HEAD初始化為CLS2。g)對(duì)于C2w中的每一個(gè)概念c,計(jì)算其與HEAD之間的關(guān)系并輸出。初始化HEAD。h)對(duì)于W中的每一個(gè)概念c,將其作為HEAD,然后取下一個(gè)概念c+1,計(jì)算其與HEAD之間的關(guān)系并輸出,重復(fù)此過程,直到處理完W中的所有概念。
2.3.3 問診領(lǐng)域知識(shí)網(wǎng)絡(luò)構(gòu)建
問診系統(tǒng)領(lǐng)域知識(shí)網(wǎng)絡(luò)由概念及其關(guān)系組成,概念為知識(shí)網(wǎng)絡(luò)中的節(jié)點(diǎn),概念關(guān)系為知識(shí)網(wǎng)絡(luò)中的邊。本文對(duì)概念關(guān)系的設(shè)置默認(rèn)是無向的,每一個(gè)知識(shí)網(wǎng)絡(luò)單元都可以表示成{概念實(shí)體,關(guān)系,概念實(shí)體}的三元組形式。圖2為部分三元組的JSON編碼格式,其中,“血糖升高”和“糖尿病”分別隸屬于“癥狀”和“疾病”的概念,作為“headConcept”記錄在鍵的位置,其關(guān)系由英文表示,關(guān)系后保存的是“tailConcept”即尾概念。
3 先驗(yàn)知識(shí)增強(qiáng)的文本結(jié)構(gòu)化解析模型
對(duì)問診系統(tǒng)文本的結(jié)構(gòu)化解析分為概念抽取和概念關(guān)系抽取兩大任務(wù)。對(duì)于概念抽取任務(wù),本文設(shè)計(jì)概念標(biāo)引模型,基于預(yù)訓(xùn)練語言模型通過構(gòu)造模板的方式將概念類別判斷問題轉(zhuǎn)換為完形填空概念類別生成問題,通過讓模型預(yù)測(cè)被遮罩詞實(shí)現(xiàn)對(duì)模型的微調(diào),使預(yù)訓(xùn)練任務(wù)與下游任務(wù)實(shí)現(xiàn)平滑過渡,更好地利用模型在預(yù)訓(xùn)練過程中學(xué)到的知識(shí),實(shí)現(xiàn)在小樣本條件下的概念標(biāo)引;設(shè)計(jì)概念關(guān)系標(biāo)引模型,將概念關(guān)系檢測(cè)任務(wù)轉(zhuǎn)換為文本生成任務(wù),進(jìn)行概念關(guān)系一體化抽取,縮短算法流程,防止誤差傳播的出現(xiàn)。開放領(lǐng)域數(shù)據(jù)訓(xùn)練的中文BERT模型對(duì)醫(yī)學(xué)領(lǐng)域的表征能力有限,無法較好地理解醫(yī)學(xué)領(lǐng)域知識(shí)完成下游任務(wù),本文提出先驗(yàn)知識(shí)增強(qiáng)的優(yōu)化算法,基于BERT模型將先驗(yàn)概念實(shí)體信息通過實(shí)體排序的方式融入模型中,得到先驗(yàn)知識(shí)增強(qiáng)的MedReBERT模型,增強(qiáng)算法的領(lǐng)域語言表征能力,更好地應(yīng)用于下游任務(wù)。
3.1 先驗(yàn)知識(shí)增強(qiáng)的MedReBERT
3.1.1 MedReBERT模型
BERT是一種基于Transformer的預(yù)訓(xùn)練語言模型,采用Transformer編碼器部分,通過遮罩任務(wù)得到雙向表示,基本策略是隨機(jī)使用特殊掩碼字符對(duì)句子中待預(yù)測(cè)字符遮罩,通過被遮罩詞的前后語境預(yù)測(cè)被遮罩詞,該雙向表示能更合理高效地利用語境信息,得到更好的序列表示。Transformer單個(gè)編碼器由多頭注意力子層和前饋網(wǎng)絡(luò)組成。多頭注意力可以獲取多個(gè)子空間的特征表示,該機(jī)制通過三個(gè)權(quán)重矩陣Q、K、V實(shí)現(xiàn)。如式(1)所示,詞嵌入x會(huì)分別與三個(gè)權(quán)重矩陣相乘得到q(查詢,query)、k(鍵,key)和v(值,value),通過計(jì)算Q與K的點(diǎn)積計(jì)算注意力權(quán)重,將該權(quán)重除以向量維度d的平方根,最后通過softmax函數(shù)對(duì)權(quán)重歸一化處理,這樣一組QKV權(quán)重矩陣稱為一個(gè)注意力頭,多頭注意力機(jī)制針對(duì)不同相關(guān)性計(jì)算不同注意力權(quán)重。
attention(Q,K,V)=softmaxQKT(dk)v
(1)
本文采用與BERT相同的掩碼策略,利用醫(yī)學(xué)文本基于BERT中文基礎(chǔ)模型繼續(xù)訓(xùn)練,獲得適用于醫(yī)學(xué)問診領(lǐng)域的MedReBERT模型。
3.1.2 先驗(yàn)知識(shí)增強(qiáng)的MedReBERT
為提高算法模型對(duì)問診系統(tǒng)領(lǐng)域文本理解能力,在預(yù)訓(xùn)練模型基礎(chǔ)上,增加與概念實(shí)體相關(guān)的訓(xùn)練任務(wù),使用聯(lián)合訓(xùn)練的框架,將詞典中的先驗(yàn)概念知識(shí)融入模型中[19]?;贛edReBERT,在掩碼語言模型任務(wù)的基礎(chǔ)上,增加實(shí)體排序任務(wù),利用構(gòu)建的先驗(yàn)詞典,模型隨機(jī)將訓(xùn)練語料中的概念替換為錯(cuò)誤概念,由MarginRankingLoss為模型提供正確概念信息,如式(2)所示。x1為模型預(yù)測(cè)向量與原句正確概念向量之間的相似度、x2為模型預(yù)測(cè)向量與隨機(jī)替換的錯(cuò)誤概念向量之間的相似度,使用MarginRankingLoss損失函數(shù)訓(xùn)練模型,使模型預(yù)測(cè)的向量更接近原句正確實(shí)體向量,以此提取句子中的實(shí)體信息。
loss(x1,x2)=max(0,-(x1-x2)+margin)
(2)
聯(lián)合MarginRankingLoss函數(shù)和掩碼語言模型任務(wù)中的CrossEntropyLoss函數(shù)作為損失函數(shù)進(jìn)行訓(xùn)練,見算法1,將詞典中的先驗(yàn)概念知識(shí)融入模型,獲得先驗(yàn)知識(shí)增強(qiáng)的MedReBERT模型。
算法1 聯(lián)合MarginRankingLoss與CrossEntropyLoss的損失函數(shù)計(jì)算
輸入:輸入文本標(biāo)記編碼,注意力掩碼,句子位置編碼,正確概念編碼id,錯(cuò)誤概念編碼id。
輸出:結(jié)合MLM損失和實(shí)體排序損失的總損失,實(shí)體排序任務(wù)的損失。
a)使用BERT模型進(jìn)行MLM任務(wù)的前向傳播,得到序列輸出。
b)獲取正確概念輸入id對(duì)應(yīng)的概念嵌入,并通過線性變換將其投影到與BERT輸出相同的維度。
c)通過BERT的MLM生成預(yù)測(cè)結(jié)果,并使用交叉熵?fù)p失函數(shù)計(jì)算MLM任務(wù)的損失。
d)若提供了錯(cuò)誤概念編碼id,則獲取錯(cuò)誤概念的嵌入,分別計(jì)算模型預(yù)測(cè)向量嵌入與正確概念、錯(cuò)誤概念嵌入向量的余弦相似度,并使用 MarginRankingLoss 計(jì)算損失。若沒有提供錯(cuò)誤概念編碼id,則將 margin_loss 設(shè)置為0。
e)將MLM損失和實(shí)體排名損失按權(quán)重求和,根據(jù)設(shè)定權(quán)重計(jì)算最終的總損失。
f)返回結(jié)合MLM損失和實(shí)體排名損失的總損失、實(shí)體排序任務(wù)的損失。
本文從好大夫網(wǎng)站獲取約5萬條患者陳述,對(duì)其清洗后切分段落,作為基礎(chǔ)訓(xùn)練語料,實(shí)體排序部分語料使用優(yōu)化后的概念集合。本文使用Huggingface模型庫中的BERT中文基礎(chǔ)模型,參數(shù)設(shè)置與原參數(shù)相同,設(shè)置batch_size為4,微調(diào)訓(xùn)練epoch為3。
3.2 概念標(biāo)引模型
為利用模型學(xué)習(xí)到的先驗(yàn)知識(shí),在預(yù)訓(xùn)練模型的基礎(chǔ)上,設(shè)計(jì)完形填空微調(diào)任務(wù),進(jìn)行小樣本學(xué)習(xí),實(shí)現(xiàn)對(duì)概念類別的標(biāo)引。假設(shè)原句輸入為P={S1,S2…,Sn},其中Si為原句中的長(zhǎng)短概念。對(duì)于概念Si,設(shè)計(jì)模板“P+Si,+這是前文的[MASK][MASK]”,“[MASK][MASK]”表示概念類別,通過掩碼部分獲得概念類別的標(biāo)注標(biāo)簽。通過預(yù)訓(xùn)練時(shí)的掩碼語言模型遮罩學(xué)習(xí)方式,基于設(shè)計(jì)的掩碼提示模板,將序列分類任務(wù)轉(zhuǎn)換為文本生成任務(wù),使預(yù)訓(xùn)練和微調(diào)兩任務(wù)實(shí)現(xiàn)平滑過渡,當(dāng)訓(xùn)練樣本不足時(shí),能夠充分利用預(yù)訓(xùn)練模型中學(xué)習(xí)到的知識(shí),實(shí)現(xiàn)在小樣本條件下的標(biāo)簽預(yù)測(cè)。通過構(gòu)造字符到標(biāo)簽的轉(zhuǎn)換器預(yù)測(cè)待標(biāo)引內(nèi)容的標(biāo)簽概率,對(duì)于待標(biāo)引字串對(duì)ci,其標(biāo)簽為tk(k=1,…,n)的概率如式(3)所示,其中,Prtk為掩碼標(biāo)記的預(yù)測(cè)字符映射到標(biāo)簽tk的概率,即標(biāo)簽為tk的置信度。
Pr(tk|ci)=exp(Prtk)∑nj=1exp(Prtj)
(3)
3.3 概念關(guān)系標(biāo)引模型
在預(yù)訓(xùn)練模型的基礎(chǔ)上,將關(guān)系抽取視作文本生成任務(wù),基于預(yù)訓(xùn)練掩碼機(jī)制,從關(guān)系和概念的位置出發(fā),根據(jù)遮罩位置設(shè)計(jì)三種模板,分別是“概念a,概念b,兩者的關(guān)系是[MASK][MASK]”“概念a+的[MASK][MASK]是+概念b”“符合[MASK][MASK]關(guān)系的有,概念a,概念b”。模型訓(xùn)練時(shí)將“[MASK][MASK]”部分替換為掩碼標(biāo)記,表示要預(yù)測(cè)的關(guān)系標(biāo)簽,同樣使用字符到標(biāo)簽的轉(zhuǎn)換器預(yù)測(cè)待標(biāo)引內(nèi)容的標(biāo)簽概率。通過構(gòu)建概念關(guān)系標(biāo)引模型直接對(duì)兩概念關(guān)系預(yù)測(cè),不依據(jù)概念標(biāo)注的類別,減少概念標(biāo)注錯(cuò)誤,使用先驗(yàn)規(guī)則抽取概念關(guān)系導(dǎo)致的誤差傳導(dǎo),提高關(guān)系預(yù)測(cè)的準(zhǔn)確性。
本文概念關(guān)系統(tǒng)一抽取的構(gòu)建過程如下:
a)選取問診領(lǐng)域書籍或問診系統(tǒng)患者陳述中的單篇文本D,將其劃分為長(zhǎng)句S={S1,S2,…,Sn}。
b)利用概念標(biāo)引模型和基于規(guī)則的關(guān)系檢測(cè)從語料中發(fā)現(xiàn)概念對(duì)Cpair及其之間的關(guān)系R,組成三元組(Cpair, R)并將其作為訓(xùn)練數(shù)據(jù)的支撐資源。
c)判斷先驗(yàn)概念關(guān)系的置信度,其中置信度P=P1×P2,其中,P1和P2分別是概念標(biāo)引的置信度。選擇上一步得分高于閾值的三元組數(shù)據(jù)作為關(guān)系訓(xùn)練數(shù)據(jù),保證訓(xùn)練數(shù)據(jù)的質(zhì)量。
d)利用本文構(gòu)建的概念關(guān)系標(biāo)引模型,設(shè)計(jì)模板生成任務(wù)。使用先驗(yàn)知識(shí)中的概念對(duì)和關(guān)系名稱設(shè)計(jì)模板,并在目標(biāo)數(shù)據(jù)中將模板中的關(guān)系掩碼,生成測(cè)試需要的字符。
4 工程處理與算法協(xié)同學(xué)習(xí)框架構(gòu)建
4.1 工程處理與算法協(xié)同學(xué)習(xí)框架
問診系統(tǒng)文本結(jié)構(gòu)化解析涉及醫(yī)學(xué)書籍、患者自述等先驗(yàn)知識(shí)獲取,概念標(biāo)引模型、概念關(guān)系標(biāo)引模型的訓(xùn)練、部署服務(wù)等眾多業(yè)務(wù)流程,算法迭代門檻高、周期長(zhǎng)。若建立一種框架機(jī)制,通過接口化的方式解決算法模型的語料獲取、格式轉(zhuǎn)換、訓(xùn)練和模型部署等業(yè)務(wù)流程,將會(huì)降低模型迭代成本,提高問診系統(tǒng)文本結(jié)構(gòu)化解析效率,降低算法生命周期的維護(hù)門檻和維護(hù)成本。本文將工程算法管理機(jī)制、工程資源處理手段與算法訓(xùn)練進(jìn)行融合,提出一種工程處理與算法協(xié)同學(xué)習(xí)框架,搭建算法服務(wù)平臺(tái)集中管理問診系統(tǒng)中文本結(jié)構(gòu)化解析過程中產(chǎn)生的算法模型,實(shí)現(xiàn)算法流程自動(dòng)化、語料訓(xùn)練接口化,如圖3所示,以達(dá)到工程處理與算法協(xié)同促進(jìn)、共同優(yōu)化的效果。
資源獲取平臺(tái)能夠提供爬蟲接口爬取所需要的原始語料,通過設(shè)置先驗(yàn)詞典和先驗(yàn)關(guān)系規(guī)則,利用資源加工平臺(tái)插件對(duì)原始語料進(jìn)行處理,能夠獲得先驗(yàn)知識(shí)與模型訓(xùn)練語料,平臺(tái)提供訓(xùn)練語料導(dǎo)出功能,如圖4所示。通過算法訓(xùn)練接口對(duì)模型進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型能夠?qū)崿F(xiàn)對(duì)問診系統(tǒng)文本的結(jié)構(gòu)化解析,用算法解析結(jié)果與插件解析結(jié)果對(duì)比,找到插件處理錯(cuò)誤,優(yōu)化插件工具處理結(jié)果。
問診業(yè)務(wù)面向的疾病千變?nèi)f化,在線問診數(shù)據(jù)每天都在積累,基于該框架能夠?qū)崿F(xiàn)對(duì)新增書籍、問診記錄等的結(jié)構(gòu)化解析以擴(kuò)充領(lǐng)域知識(shí)庫,提供更多結(jié)構(gòu)化資源支撐,實(shí)現(xiàn)知識(shí)存儲(chǔ)與再利用,能夠?yàn)楦拍顦?biāo)注模型和概念關(guān)系抽取模型的自訓(xùn)練[20]提供可能。
4.2 基于FastAPI的RESTful風(fēng)格HTTP服務(wù)
工程處理與算法協(xié)同學(xué)習(xí)框架基于RESTful API思想建立各個(gè)算法之間的接口,實(shí)現(xiàn)模型訓(xùn)練應(yīng)用的接口化,加強(qiáng)對(duì)算法語料標(biāo)注、算法訓(xùn)練和服務(wù)的管理,降低算法維護(hù)成本與門檻,提升算法在不同業(yè)務(wù)間的移植能力;采用B/S架構(gòu)實(shí)現(xiàn),用戶可以通過網(wǎng)頁端向服務(wù)器發(fā)送HTTP請(qǐng)求,依次進(jìn)行語料獲取、算法訓(xùn)練、領(lǐng)域知識(shí)服務(wù)等操作。
基于HTTP協(xié)議的Web在線服務(wù)是目前互聯(lián)網(wǎng)服務(wù)提供商最普遍的服務(wù)接口解決方案。HTTP協(xié)議,即超文本傳輸協(xié)議,是一種基于TCP連接的通信協(xié)議;RESTful是一種Web應(yīng)用程序的設(shè)計(jì)開發(fā)方式,它在HTTP協(xié)議的基礎(chǔ)上,通過JSON或XML等結(jié)構(gòu)化格式來進(jìn)行定義。它要求客戶端與服務(wù)器之間的交互請(qǐng)求是無狀態(tài)的;客戶端到服務(wù)器間的每個(gè)請(qǐng)求必須包含服務(wù)端所需的必要信息;服務(wù)器與客戶端之間無強(qiáng)綁定關(guān)系,若服務(wù)器出現(xiàn)故障或重啟,客戶端不會(huì)得到通知;無狀態(tài)的請(qǐng)求可用任何服務(wù)器回應(yīng);每一個(gè)URI代表一個(gè)資源,資源的表現(xiàn)形式是HTML或XML,客戶端通過請(qǐng)求操作資源的表現(xiàn)形式來操作資源。
在Python語言生態(tài)下,本文選擇基于Starlette架構(gòu)的FastAPI框架作為本文RESTful風(fēng)格服務(wù)接口的實(shí)現(xiàn)方案技術(shù)選型。FastAPI是一款開源、快速、高性能的Web框架,能夠快速構(gòu)建API。使用Java撰寫語料解析插件和算法接口請(qǐng)求插件,存儲(chǔ)原格式語料或清洗提取后的符合算法格式的語料;使用Python 3.6+撰寫算法接口,將算法訓(xùn)練過程編寫為數(shù)據(jù)接口,便于遷移學(xué)習(xí)和多次算法數(shù)據(jù)訓(xùn)練迭代,算法服務(wù)示例如圖5所示。
5 實(shí)驗(yàn)
5.1 概念標(biāo)引模型實(shí)驗(yàn)
5.1.1 數(shù)據(jù)獲取
問診系統(tǒng)患者陳述中,細(xì)粒度的概念識(shí)別不能很好地覆蓋所有概念,有些概念以短句形式出現(xiàn)。對(duì)于患者陳述文本,除了利用詞典進(jìn)行基于雙向最大匹配算法遠(yuǎn)程標(biāo)注外,還根據(jù)句中標(biāo)點(diǎn)進(jìn)行分句標(biāo)注,分句時(shí)判斷句首到句尾長(zhǎng)度。如果句長(zhǎng)小于中位數(shù)則被列入待標(biāo)注數(shù)據(jù)進(jìn)行粗粒度人工標(biāo)注概念類別,構(gòu)建了每個(gè)標(biāo)簽30個(gè)樣本的小型數(shù)據(jù)集,部分?jǐn)?shù)據(jù)如圖6所示,第一列為標(biāo)簽數(shù)字,不同數(shù)字對(duì)應(yīng)不同概念類別標(biāo)簽,第二列為待標(biāo)注概念,第三列為該概念所在句子。根據(jù)設(shè)計(jì)的概念標(biāo)引模型模板“P+Si,+這是前文的[MASK][MASK]”,可以構(gòu)造“該概念所在句子+待標(biāo)注概念,+這是前文的類別標(biāo)簽”形式的訓(xùn)練數(shù)據(jù),用于概念標(biāo)引模型訓(xùn)練。
5.1.2 實(shí)驗(yàn)與結(jié)果分析
利用基于先驗(yàn)知識(shí)增強(qiáng)的患者陳述MedReBERT模型,進(jìn)行概念標(biāo)引模型的小樣本學(xué)習(xí)。為驗(yàn)證模型的有效性,選擇兩種方式進(jìn)行對(duì)比,結(jié)果如表3所示。
對(duì)比策略1:基于基礎(chǔ)BERT模型通過softmax預(yù)測(cè)概念標(biāo)引類別。
對(duì)比策略2:基于詞匯級(jí)別的掩碼策略預(yù)訓(xùn)練模型通過softmax預(yù)測(cè)概念標(biāo)引類別。ERNIE[21]是一種面向開放領(lǐng)域的知識(shí)增強(qiáng)模型,因此將其作為對(duì)比。
在使用少樣本進(jìn)行訓(xùn)練時(shí),基礎(chǔ)BERT模型和ERNIE模型使用數(shù)字對(duì)標(biāo)簽進(jìn)行編碼,并進(jìn)一步通過softmax函數(shù)進(jìn)行預(yù)測(cè)的方法,無法有效利用標(biāo)簽中所包含的語義知識(shí)與模型中包含的領(lǐng)域知識(shí),所給出的預(yù)測(cè)結(jié)果并沒有大幅度更新與提升;本文通過在模型訓(xùn)練過程中增加與概念實(shí)體相關(guān)的聯(lián)合訓(xùn)練任務(wù),能夠有效地將概念知識(shí)融入模型中,從而使模型能夠更好地對(duì)文本中的知識(shí)建模,并將下游任務(wù)轉(zhuǎn)換為完形填空任務(wù),在樣本較少時(shí),能夠有效利用模型中的知識(shí)對(duì)概念進(jìn)行標(biāo)引。
5.2 概念關(guān)系標(biāo)引模型實(shí)驗(yàn)
5.2.1 數(shù)據(jù)獲取
利用構(gòu)建的知識(shí)網(wǎng)絡(luò),獲得基于書籍權(quán)威語料的三元組數(shù)據(jù)共4 856條,作為概念關(guān)系標(biāo)引模型訓(xùn)練數(shù)據(jù)。分別從書籍和患者陳述中隨機(jī)選擇三條數(shù)據(jù),人工標(biāo)注三元組作為測(cè)試集,如表4所示。
5.2.2 實(shí)驗(yàn)與結(jié)果分析
訓(xùn)練時(shí)選擇基于患者陳述知識(shí)增強(qiáng)的MedReBERT作為基礎(chǔ)模型,根據(jù)設(shè)計(jì)的模板進(jìn)行訓(xùn)練,batch_size為128,epoch為10。模型訓(xùn)練結(jié)束后,從三種模板中取分?jǐn)?shù)最高者作為最終結(jié)果展示,實(shí)驗(yàn)結(jié)果如表5所示,對(duì)于患者陳述的概念關(guān)系抽取效果較差,手冊(cè)書籍的概念關(guān)系抽取效果較好,這是由患者陳述這種非專業(yè)性文本的概念關(guān)聯(lián)稀疏導(dǎo)致的。
為比較先驗(yàn)知識(shí)增強(qiáng)的MedReBERT在患者陳述概念關(guān)系抽取上的表征能力,本文抽檢了10條患者自述數(shù)據(jù),對(duì)比先驗(yàn)規(guī)則+DWARE關(guān)系抽取方法及基于MedReBERT的概念關(guān)系標(biāo)引模型結(jié)果如表6所示。
先驗(yàn)規(guī)則+DWARE方法出于對(duì)先驗(yàn)規(guī)則的依賴,得到的結(jié)果普遍較差,其中一些較好的結(jié)果僅限于“疾病-癥狀(癥狀)”“類別-類別(并發(fā))”等規(guī)則設(shè)置較為明顯的三元組。此外,規(guī)則方法得到的三元組數(shù)據(jù),概念間關(guān)系跨度不大,由于概念識(shí)別精度和窗口設(shè)置的原因,有一些關(guān)系被忽略。而訓(xùn)練方式未經(jīng)過調(diào)整的MedReBERT缺乏先驗(yàn)知識(shí),對(duì)患者陳述的表征能力較弱。先驗(yàn)知識(shí)增強(qiáng)的MedReBERT能夠?qū)W習(xí)到醫(yī)學(xué)相關(guān)領(lǐng)域知識(shí),將概念關(guān)系抽取任務(wù)轉(zhuǎn)換為文本生成任務(wù),縮短算法流程,減少誤差。
6 結(jié)束語
本文首先通過工程方法構(gòu)建糖尿病領(lǐng)域的先驗(yàn)詞表,構(gòu)建先驗(yàn)規(guī)則抽取概念關(guān)系,生成問診領(lǐng)域的知識(shí)網(wǎng)絡(luò),為問診系統(tǒng)中的概念標(biāo)引模型與關(guān)系標(biāo)引模型提供先驗(yàn)知識(shí)與訓(xùn)練數(shù)據(jù)。通過設(shè)計(jì)完形填空模板的方式構(gòu)建概念標(biāo)引模型和關(guān)系標(biāo)引模型,以獲取問診系統(tǒng)相關(guān)文本的概念及其之間的關(guān)系。改進(jìn)基于中文BERT預(yù)訓(xùn)練腳本訓(xùn)練機(jī)制,將先驗(yàn)知識(shí)融入模型中,加強(qiáng)對(duì)問診系統(tǒng)的語義表征,實(shí)驗(yàn)證明融合先驗(yàn)知識(shí)、使用領(lǐng)域文本微調(diào)的訓(xùn)練方式對(duì)患者陳述的概念提取的有效性。最后本文提出一種工程處理與算法協(xié)同學(xué)習(xí)框架,建立算法輸入、訓(xùn)練、測(cè)試和迭代的RESTful API接口機(jī)制,充分利用工程數(shù)據(jù)和算法再生數(shù)據(jù),協(xié)同學(xué)習(xí)迭代算法模型,提高算法在工程操作中的便捷性與可迭代性。
本文雖提出了基于先驗(yàn)知識(shí)的概念關(guān)系聯(lián)合構(gòu)建算法,實(shí)現(xiàn)了概念關(guān)系的抽取,但是僅局限于內(nèi)分泌科的糖尿病問診記錄和相關(guān)書籍,在真正的問診系統(tǒng)中,需要信息抽取的不僅有患者陳述,還有電子病歷、病程記錄等關(guān)鍵數(shù)據(jù)。本文提出的算法對(duì)于長(zhǎng)文本連貫語義內(nèi)容的理解有一定的局限性,一些大規(guī)模預(yù)訓(xùn)練模型能夠打破輸入長(zhǎng)度限制,能夠更加適應(yīng)文本生成任務(wù),后續(xù)可以利用大規(guī)模預(yù)訓(xùn)練模型進(jìn)行概念體系構(gòu)建的研究。
參考文獻(xiàn):
[1]王思麗, 祝忠明, 劉巍, 等. 基于深度學(xué)習(xí)的領(lǐng)域本體概念自動(dòng)獲取方法研究 [J]. 情報(bào)理論與實(shí)踐, 2020, 43(3): 145-152, 144. (Wang Sili, Zhu Zhongming, Liu Wei, et al. Method of domain ontology concept automatic extraction based on deep learning [J]. Information Studies: Theory amp; Application, 2020, 43(3): 145-152, 144.)
[2]Aronson A R, Lang F M. An overview of MetaMap: historical perspective and recent advances [J]. Journal of the American Medical Informatics Association, 2010, 17(3): 229-236.
[3]陳雪松, 朱鑫海, 王浩暢. 基于PMV-LSTM的中文醫(yī)學(xué)命名實(shí)體識(shí)別 [J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(11): 3257-3263. (Chen Xuesong, Zhu Xinhai, Wang Haochang. Chinese medical named entity recognition based on PMV-LSTM [J]. Computer Engineering and Design, 2022, 43(11): 3257-3263.)
[4]林致中, 王華珍. 基于Transformer交互指導(dǎo)的醫(yī)患對(duì)話聯(lián)合信息抽取方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(8): 2315-2321. (Lin Zhizhong, Wang Huazhen. CT-JIE: collaborative Transformer for joint information extraction from patient-doctor dialogues [J]. Application Research of Computers, 2024, 41(8): 2315-2321.)
[5]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]// Proc of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2019: 4171-4186.
[6]Krishna K, Pavel A, Schloss B, et al. Extracting structured data from physician-patient conversations by predicting noteworthy utterances [M]// Shaban-Nejad A, Michalowski M, Buckeridge D L. Explainable AI in Healthcare and Medicine. Cham: Springer International Publishing, 2020: 155-169.
[7]Liu Weijie, Zhou Peng, Zhao Zhe,et al. K-BERT: enabling language representation with knowledge graph [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 2901-2908.
[8]韓普, 顧亮. 基于混合深度學(xué)習(xí)的中文醫(yī)學(xué)實(shí)體抽取研究 [J]. 圖書情報(bào)工作, 2022, 66(14): 119-127. (Han Pu, Gu Liang. Research on extraction of Chinese medical entities based on hybrid deep learning [J]. Library and Information Service, 2022, 66(14): 119-127.)
[9]趙珍珍, 董彥如, 劉靜, 等. 融合詞信息和圖注意力的醫(yī)學(xué)命名實(shí)體識(shí)別 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2024, 60(11): 147-155. (Zhao Zhenzhen, Dong Yanru, Liu Jing, et al. Medical named entity recognition incorporating word information and graph attention [J]. Computer Engineering and Applications, 2024, 60(11): 147-155.)
[10]陳夢(mèng)萱, 陳艷平, 扈應(yīng), 等. 基于詞義增強(qiáng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法 [J]. 計(jì)算機(jī)工程, 2023, 49(10): 305-312. (Chen Mengxuan, Chen Yanping, Hu Ying, et al. Biomedical named entity recognition method based on word meaning enhancement [J]. Computer Engineering, 2023, 49(10): 305-312.)
[11]Fei Hao, Ren Yafeng, Zhang Yue,et al. Enriching contextualized language model from knowledge graph for biomedical information extraction [J]. Briefings in Bioinformatics, 2021, 22(3): bbaa110.
[12]羅歆然, 李天瑞, 賈真. 基于自注意力機(jī)制與詞匯增強(qiáng)的中文醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2024, 44(2): 385-392. (Luo Xinran, Li Tianrui, Jia Zhen. Chinese medical named entity recognition based on self-attention mechanism and lexicon enhancement[J]. Journal of Computer Applications, 2024, 44(2): 385-392.)
[13]Wei Zhepei, Su Jianlin, Wang Yue,et al. A novel cascade binary tagging framework for relational triple extraction [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1476-1488.
[14]Wei Qiang, Ji Zongcheng, Si Yuqi,et al. Relation extraction from clinical narratives using pre-trained language models [C]// Proc of AMIA Annual Symposium. 2020: 1236-1245.
[15]Gu Yu, Tinn R, Cheng Hao, et al. Domain-specific language model pretraining for biomedical natural language processing [J]. ACM Trans on Computing for Healthcare, 2021, 3(1): 1-23.
[16]景慎旗, 趙又霖. 基于醫(yī)學(xué)領(lǐng)域知識(shí)和遠(yuǎn)程監(jiān)督的醫(yī)學(xué)實(shí)體關(guān)系抽取研究 [J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022, 6(6): 105-114. (Jing Shenqi, Zhao Youlin. Extracting medical entity relationships with domain-specific knowledge and distant supervision [J]. Data Analysis and Knowledge Discovery, 2022, 6(6): 105-114.)
[17]Mondal I. BERTChem-DDI: improved drug-drug interaction prediction from text using chemical structure information [C]// Proc of Knowledgeable NLP: the 1st Workshop on Integrating Structured Knowledge and Neural Networks for NLP. Stroudsburg, PA: Association for Computational Linguistics, 2020: 27-32.
[18]Smirnova A, Cudré-Mauroux P. Relation extraction using distant supervision: a survey [J]. ACM Computing Surveys, 2018, 51(5): 1-35.
[19]李冠霖. 中醫(yī)古籍單篇文本知識(shí)結(jié)構(gòu)全解析關(guān)鍵技術(shù)研究[D]. 北京: 北京大學(xué), 2021. (Li Guanlin. Research on knowledge structure parsing from Chinese medical book [D]. Beijing: Peking University, 2021.)
[20]Du Jingfei, Grave E, Gunel B, et al. Self-training improves pre-training for natural language understanding [C]// Proc of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 5408-5418.
[21]Zhang Zhengyan, Han Xu, Liu Zhiyuan,et al. ERNIE: enhanced language representation with informative entities [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 1441-1451.