韓振橋,付立軍,劉俊明,郭宇捷,唐珂軻,,梁 銳
1(中國科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)
2(中國科學(xué)院大學(xué),北京 100049)
3(山東大學(xué) 大數(shù)據(jù)技術(shù)與認(rèn)知智能實(shí)驗(yàn)室,濟(jì)南 250100)
4(中康健康科技有限公司,廣州 510620)
近年來,隨著國家對(duì)醫(yī)療健康的重視,人們對(duì)自身健康的關(guān)注度也越來越高,很多企業(yè)和研究單位都開始深入智能醫(yī)療與健康領(lǐng)域,其中包括騰訊、阿里、京東、百度以及各AI 醫(yī)療企業(yè)等,共同推動(dòng)了智能診療、醫(yī)療問答、臨床輔助決策等技術(shù)的發(fā)展.在醫(yī)學(xué)場景中,已經(jīng)可以直觀地感受到醫(yī)學(xué)文本數(shù)量明顯的增加,其中醫(yī)學(xué)文本包括醫(yī)學(xué)文獻(xiàn)、臨床檢測(cè)報(bào)告、電子病歷記錄、醫(yī)療保險(xiǎn)記錄等,這些醫(yī)學(xué)文本中包含了大量的可以挖掘利用的信息,而這些數(shù)據(jù)中大多是非結(jié)構(gòu)化或者半結(jié)構(gòu)化,如何更好地對(duì)這些數(shù)據(jù)進(jìn)行有效的分析和利用,是當(dāng)前的研究熱點(diǎn)和難點(diǎn).
術(shù)語標(biāo)準(zhǔn)化能夠幫助數(shù)據(jù)更合理的分析和利用并且提升下游任務(wù)的應(yīng)用效果.本文主要研究中文醫(yī)療文本的術(shù)語標(biāo)準(zhǔn)化.醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化是將非正式的醫(yī)學(xué)術(shù)語如“經(jīng)皮髂骨成形術(shù)”,映射到正式的醫(yī)學(xué)概念,如概念“骨盆成形術(shù)”,然后再對(duì)應(yīng)到相應(yīng)的醫(yī)學(xué)編碼上.這項(xiàng)任務(wù)在醫(yī)學(xué)領(lǐng)域非常重要,在臨床上,關(guān)于一種疾病、藥品、癥狀等都有各種不同的寫法(包含非正式、非標(biāo)準(zhǔn)的形式還有誤寫等),如果都能夠歸一到對(duì)應(yīng)的術(shù)語上來,它能夠推動(dòng)AI 技術(shù)在醫(yī)學(xué)應(yīng)用系統(tǒng)上的落地,如“CDSS (臨床決策診療系統(tǒng))”“DRGs (診斷相關(guān)分組管理系統(tǒng))”等[1].并且這項(xiàng)技術(shù)在輔助診療、公共衛(wèi)生檢測(cè)、醫(yī)療檢索等方面有巨大的作用.
在廣大研究者的積極推動(dòng)下,關(guān)于術(shù)語標(biāo)準(zhǔn)化的研究經(jīng)過了如下的幾個(gè)階段: 基于規(guī)則和字符詞典匹配的方法[2,3]、基于機(jī)器學(xué)習(xí)的方法[4]、基于深度學(xué)習(xí)的方法[5,6].早期的基于規(guī)則的方法,由于人工消耗較大且只能在特定的語料上達(dá)到滿意的效果,所以在處理比較復(fù)雜的數(shù)據(jù)時(shí)往往達(dá)不到預(yù)期.后來隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,人力構(gòu)建規(guī)則的成本消耗得到很大的緩解,相應(yīng)術(shù)語標(biāo)準(zhǔn)化的準(zhǔn)確率也獲得了極大的提升.由于深度學(xué)習(xí)方法的非線性建模能力更強(qiáng)、能夠利用語義信息等優(yōu)點(diǎn),所以在術(shù)語標(biāo)準(zhǔn)化的任務(wù)上的效果也能達(dá)到更好.隨著預(yù)訓(xùn)練模型BERT[7]的誕生,因?yàn)樗峭ㄟ^未標(biāo)注維基百科數(shù)據(jù)訓(xùn)練得到,包含了豐富的先驗(yàn)知識(shí)和語義信息,所以在術(shù)語標(biāo)準(zhǔn)化任務(wù)上利用預(yù)訓(xùn)練模型會(huì)比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)如LSTM[8]有更優(yōu)越的性能.
目前來說,在使用BERT 進(jìn)行術(shù)語標(biāo)準(zhǔn)化任務(wù)時(shí)一般會(huì)采用的方法為直接排序和先召回再排序兩種方式.后一種方式能夠相對(duì)減少排序時(shí)間的開銷,本次研究也是基于先召回再排序的思想.
本文在此基礎(chǔ)上使用多策略召回排序的思路,如圖1.在第1 階段盡可能把正確的概念召回,第2 階段使用蘊(yùn)含語義評(píng)分模型將術(shù)語原詞與候選概念進(jìn)行語義相似度排序,篩選出得分最高的概念.同時(shí),之前的中文醫(yī)療領(lǐng)域術(shù)語標(biāo)準(zhǔn)化研究都是以ICD9 或者ICD10(international classification of diseases,ICD)為標(biāo)準(zhǔn),本文首次在SNOMED CT (the systematized nomenclature of human and veterinary medicine clinical terms)標(biāo)準(zhǔn)的數(shù)據(jù)上進(jìn)行研究探索,驗(yàn)證了本方法的有效性及使用SNOMED CT 探索術(shù)語標(biāo)準(zhǔn)化的可能.該實(shí)驗(yàn)結(jié)果證明,本文提出的方法具有很強(qiáng)的實(shí)用性.
圖1 整體算法流程圖
本文主要的研究是在以中文為核心的醫(yī)療領(lǐng)域的術(shù)語標(biāo)準(zhǔn)化,對(duì)于醫(yī)學(xué)文本中的不規(guī)范的表達(dá)也就是術(shù)語原詞,經(jīng)過標(biāo)準(zhǔn)化之后映射到正確的概念編碼上來.每一個(gè)標(biāo)準(zhǔn)的概念都有一個(gè)概念編碼.有表1 不規(guī)范的表達(dá),最后經(jīng)過術(shù)語標(biāo)準(zhǔn)化算法,最終對(duì)應(yīng)到正確的SNOMED CT 編碼.
表1 術(shù)語原詞-標(biāo)準(zhǔn)概念對(duì)應(yīng)表
醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化任務(wù)的目標(biāo)是將醫(yī)學(xué)文本中抽取的非標(biāo)準(zhǔn)的醫(yī)學(xué)表達(dá)映射到正確的醫(yī)學(xué)概念編碼上,以便于直接或給下游醫(yī)學(xué)任務(wù)利用.迄今為止,已經(jīng)積累了很多關(guān)于醫(yī)療領(lǐng)域的術(shù)語標(biāo)準(zhǔn)化研究工作.
早期的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化工作主要是采用規(guī)則和機(jī)器學(xué)習(xí)的方法.文獻(xiàn)[9] 引入了一種新的基于編輯距離的方法來進(jìn)行疾病名稱標(biāo)準(zhǔn)化,在SemEval 2014 疾病名稱標(biāo)準(zhǔn)化比賽[10]中排名第二.文獻(xiàn)[11] 使用了5 種規(guī)則的NLP 技術(shù)提升生物醫(yī)學(xué)文本中的疾病名稱標(biāo)準(zhǔn)化水平,分別提升了MetaMap[12]和Peregrine 系統(tǒng)[13]的效果.文獻(xiàn)[14] 提出一種多層篩選系統(tǒng),通過定義10 種不同優(yōu)先級(jí)的規(guī)則來度量術(shù)語原詞和實(shí)體庫中概念的相似性.文獻(xiàn)[15]利用線性模型對(duì)候選術(shù)語與概念名稱之間的相似性進(jìn)行評(píng)分,并且運(yùn)用了從訓(xùn)練集學(xué)習(xí)候選實(shí)體和概念名稱的相似性的策略.文獻(xiàn)[16]在文獻(xiàn)[15]的基礎(chǔ)上采用了基于低秩矩陣近似的降維技術(shù),減少了參數(shù)量,同時(shí)提升了疾病名稱標(biāo)準(zhǔn)化在NCBI 疾病語料上的效果.
近些年來,隨著深度學(xué)習(xí)的蓬勃發(fā)展,來源于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在術(shù)語標(biāo)準(zhǔn)化任務(wù)上的表現(xiàn)不斷突破,這種不依賴于規(guī)則和人工特征的方案逐漸成為主流.基于深度學(xué)習(xí)的術(shù)語標(biāo)準(zhǔn)化任務(wù)相關(guān)研究工作有: 文獻(xiàn)[17]使用了不同語料訓(xùn)練的Word2Vec[18]語義向量表示,并且利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)提取特征,大大超越了以TF-IDF、BM25、向量相似度為基線的術(shù)語標(biāo)準(zhǔn)化水平.文獻(xiàn)[19]在文獻(xiàn)[18]的基礎(chǔ)上增加了醫(yī)療健康相關(guān)的文本訓(xùn)練獲得醫(yī)療專業(yè)的詞嵌入(word embedding),從而更好地表示醫(yī)學(xué)概念的語義特征,在數(shù)據(jù)集上獲得新的SOAT (state of the art).文獻(xiàn)[20]提出了一種疾病名稱和術(shù)式名稱結(jié)合的多任務(wù)醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化框架,利用多視角CNN提取特征,并且對(duì)兩個(gè)任務(wù)引入權(quán)重共享層,利用疾病名稱和術(shù)式名稱之間的相關(guān)性更好地進(jìn)行術(shù)語標(biāo)準(zhǔn)化.文獻(xiàn)[21]針對(duì)術(shù)語標(biāo)準(zhǔn)化任務(wù)構(gòu)建了端到端的模型結(jié)構(gòu),運(yùn)用結(jié)合attention[22]的雙向LSTM 和GRU 結(jié)構(gòu)[23]提取候選實(shí)體特征,與UMLS 系統(tǒng)中的標(biāo)準(zhǔn)詞概念特征拼接,運(yùn)用Softmax 函數(shù)進(jìn)行評(píng)分,證明了比單純使用CNN 結(jié)構(gòu)進(jìn)行術(shù)語標(biāo)準(zhǔn)化有更好的效果.文獻(xiàn)[24]考慮到標(biāo)注醫(yī)療數(shù)據(jù)需要豐富的專業(yè)知識(shí)和時(shí)間開銷,提出了一種利用共病網(wǎng)絡(luò)embedding 的疾病名稱標(biāo)準(zhǔn)化的無監(jiān)督方法,接近了經(jīng)典有監(jiān)督學(xué)習(xí)的準(zhǔn)確性.
但是以上方法都存在一個(gè)問題: 初始的詞嵌入并不能表示一詞多義,詞向量的特征包含不夠豐富,隨著預(yù)訓(xùn)練模型的提出,在術(shù)語標(biāo)準(zhǔn)化任務(wù)上有了如下的研究.
文獻(xiàn)[25]采用基于字符級(jí)ELMo 向量[26]與傳統(tǒng)的Word2Vec 詞向量拼接共同表示最終的詞向量的,以獲得包含更豐富信息的詞向量.并利用BiLSTM 提取候選實(shí)體的特征,最終結(jié)果超越了以BIGRU-attention進(jìn)行術(shù)語標(biāo)準(zhǔn)化的SOAT.文獻(xiàn)[27]將標(biāo)準(zhǔn)化任務(wù)視為一個(gè)分類問題,在3 個(gè)不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)醫(yī)學(xué)概念標(biāo)準(zhǔn)化任務(wù)的模型進(jìn)行細(xì)粒度的評(píng)估.通過BERT、ELMO、RNNs 模型進(jìn)行語義表示,分別對(duì)比在術(shù)語標(biāo)準(zhǔn)化上的效果,得出BERT 在醫(yī)學(xué)概念標(biāo)準(zhǔn)化上有更好的效果、神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)會(huì)影響術(shù)醫(yī)學(xué)概念標(biāo)準(zhǔn)化的準(zhǔn)確性等結(jié)論.文獻(xiàn)[28]比較BERT/Bio-BERT/ClinicalBERT 在生物醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化任務(wù)上的準(zhǔn)確性,結(jié)論得出對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)可以顯著提升生物醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化水平.文獻(xiàn)[29]提出了一種生成和排序的框架解決醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化問題.第一階段使用Lucene 工具生成候選對(duì)象,之后使用BERT 進(jìn)行候選實(shí)體打分.
基于規(guī)則的方法需要根據(jù)不同的場景設(shè)定不同的規(guī)則,費(fèi)時(shí)費(fèi)力同時(shí)可移植性不強(qiáng).基于機(jī)器學(xué)習(xí)的方法雖然在一定程度上緩解了人工消耗,但由于缺乏語義信息的局限性且不能考慮上下文信息,它不能在更為復(fù)雜的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化任務(wù)上表現(xiàn)得很好.深度學(xué)習(xí)在文本建模上具有強(qiáng)大的表征能力,不僅可以更好地表示詞語和文本,還可以學(xué)習(xí)到詞語的上下文關(guān)系和重要詞語的信息[30].隨著預(yù)訓(xùn)練語言模型的誕生,因?yàn)槠湓谏舷挛闹锌梢垣@得更為豐富的語義特征,且使用基于預(yù)訓(xùn)練語言模型的方法在很多自然語言處理任務(wù)上都達(dá)到了最好的水平,所以現(xiàn)在利用預(yù)訓(xùn)練模型模塊實(shí)現(xiàn)醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化任務(wù)也成為了主流.
本文的研究也是基于預(yù)訓(xùn)練模型提高醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化任務(wù)準(zhǔn)確率.由于在醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化第一階段的召回過程中單一的方法往往不能夠覆蓋大部分正確概念,為此本文提出了多策略召回的方案,極大提升了第1 階段正確概念的召回率.結(jié)合第2 階段使用RoBERTa-WWM-ext[31]進(jìn)行蘊(yùn)含語義排序,術(shù)語標(biāo)準(zhǔn)化最終的準(zhǔn)確性得到有效提高.
在基于SNOMED CT 標(biāo)注的術(shù)語標(biāo)準(zhǔn)化數(shù)據(jù)集中,設(shè)標(biāo)準(zhǔn)概念數(shù)量為m,其中概念集為C={c1,c2,···,cm}.
術(shù)語原詞為t,經(jīng)過第1 階段混合召回,將概念集縮小到G={g1,g2,···,gk},其中k<m,在第2 階段經(jīng)過精細(xì)化排序,在候選概念G中選擇一個(gè)得分最佳的概念,作為最終術(shù)語標(biāo)準(zhǔn)化的結(jié)果.兩階段實(shí)現(xiàn)術(shù)語標(biāo)準(zhǔn)化,其核心在于要在召回階段能夠盡量地把正確概念召回,召回的概念作為候選實(shí)體,這決定了后續(xù)排序階段效果的上限.在排序階段,要能夠精細(xì)化排序得出最佳的概念.
本文提出的模型,總體分為兩部分,下面會(huì)對(duì)這兩部分分別介紹.
第1 部分是多策略召回階段,多策略召回分為3 個(gè)小模塊.通過計(jì)算術(shù)語原詞與術(shù)語庫中所有概念的Jaccard 相關(guān)系數(shù),取Jaccard 相關(guān)系數(shù)最高的作為候選實(shí)體的一部分.同時(shí)也在所有的概念經(jīng)過分詞之后訓(xùn)練一個(gè)TF-IDF 模型,這樣就能獲得所有的分詞權(quán)重,之后把術(shù)語原詞作為一個(gè)query,計(jì)算query 與所有概念的相關(guān)性,取相關(guān)性最高的概念作為候選實(shí)體.同時(shí)結(jié)合歷史召回方法對(duì)候選實(shí)體進(jìn)行召回.
第2 部分是蘊(yùn)含語義排序模塊,使用了RoBERTawwm-ext 模型,計(jì)算術(shù)語原詞與候選實(shí)體的語義相似性蘊(yùn)含分?jǐn)?shù),再進(jìn)行蘊(yùn)含分?jǐn)?shù)排序,選取得分最高概念,圖2 展示了整體的模型架構(gòu)圖.
圖2 整體模型框架圖
3.2.1 候選概念多策略召回模塊
這個(gè)召回模塊主要由3 個(gè)小部分組成: 歷史召回、TF-IDF 相關(guān)性召回、Jaccard 相關(guān)系數(shù)召回模塊,下面會(huì)介紹各小部分的召回原理,圖3 展示了多策略召回的具體流程.
圖3 候選概念多策略召回
TF-IDF 召回原理: TF-IDF 是一種高效的計(jì)算特征權(quán)重的算法,其可以用來解決短文本的相似度的問題.本文將它用來作為術(shù)語原詞和概念庫中的概念相關(guān)性比較的算法,通過此算法將術(shù)語原詞匹配到部分最相關(guān)的概念.
首先要計(jì)算概念庫中特征詞的權(quán)重,將概念庫中的每個(gè)概念進(jìn)行分詞,對(duì)于概念庫中概念中的特征詞其特征權(quán)重的計(jì)算公式如式(1):
其中,N(wj)是wj在Ci中出現(xiàn)的次數(shù);m是概念庫中的概念總數(shù);M(wj)是概念庫集和中含有wi的概念數(shù).
接下來計(jì)算術(shù)語原詞與概念庫中每個(gè)概念的相關(guān)性得分,對(duì)術(shù)語原詞s進(jìn)行分詞產(chǎn)生詞語列表[v],Ci產(chǎn)生的分詞列表[w],計(jì)算s和Ci的相關(guān)性得分如式(2):
Jaccard 相關(guān)系數(shù)召回原理: Jaccard 相關(guān)系數(shù)主要計(jì)算符號(hào)度量的個(gè)體之間的相似程度.對(duì)于術(shù)語原詞s1和概念s2,要計(jì)算他們的Jaccard 相關(guān)系數(shù),可以先將s1、s2分別分為字符集合A和字符集合B.他們的Jaccard相關(guān)系數(shù)計(jì)算如式(3):
歷史召回原理: 歷史召回的算法也是采用的TF-IDF,它是對(duì)訓(xùn)練數(shù)據(jù)中的術(shù)語原詞進(jìn)行召回而不是直接對(duì)概念庫中的標(biāo)準(zhǔn)詞進(jìn)行召回,其優(yōu)勢(shì)在于能更加充分的利用訓(xùn)練集中的信息.它直接對(duì)訓(xùn)練集中所有的術(shù)語原詞進(jìn)行計(jì)算獲得特征分詞的權(quán)重,之后計(jì)算待標(biāo)準(zhǔn)化術(shù)語與訓(xùn)練集中術(shù)語原詞的相關(guān)性,最后取相關(guān)性最高的top-k個(gè)術(shù)語原詞對(duì)應(yīng)的標(biāo)準(zhǔn)概念作為候選概念集.圖4 展示了歷史召回的算法原理.
圖4 歷史召回算法流程圖
訓(xùn)練集中數(shù)據(jù)是以“術(shù)語原詞-概念”的形式出現(xiàn),所以找到最匹配的術(shù)語原詞,也就間接地找到了需要的概念,這種方法能夠在召回階段更充分利用數(shù)據(jù).
3.2.2 蘊(yùn)含語義排序模塊
候選實(shí)體排序階段,要對(duì)第1 階段召回的所有概念進(jìn)行打分排序,這樣才能選擇與術(shù)語原詞最對(duì)應(yīng)的概念作為答案.候選實(shí)體排序模塊由RoBERTa-wwmext 蘊(yùn)含語義相似性評(píng)分模塊構(gòu)成.
RoBERTa-wwm-ext 作為蘊(yùn)含分?jǐn)?shù)計(jì)算模型,主要是通過訓(xùn)練一個(gè)二分類模型,之后預(yù)測(cè)原詞和術(shù)語庫中的概念之間的蘊(yùn)含分?jǐn)?shù)(其中把預(yù)測(cè)為1 的概率作為蘊(yùn)含分?jǐn)?shù)),對(duì)術(shù)語庫中的每個(gè)概念進(jìn)行評(píng)分.RoBERTawwm-ext 是在BERT 的基礎(chǔ)上進(jìn)行的改進(jìn),以下主要介紹二者的區(qū)別.
BERT 采用預(yù)訓(xùn)練-微調(diào)的模式,問世以來在解決實(shí)體識(shí)別、文本分類、自然語言推斷等多個(gè)自然語言處理獲得了SOTA,給學(xué)術(shù)界提供了很多的參考.
BERT 的全稱是(bidirectional encoder representation from Transformers),本文中作為語義排序的基礎(chǔ)模型.在BERT 之前預(yù)訓(xùn)練語言模型有ELMo (embedding from language model)和GPT (generative pre-training),但是這兩種方法都只采用了一個(gè)預(yù)訓(xùn)練目標(biāo),而且沒有充分的利用上下文信息.BERT 采用Transformer 的encoder 作為基本組成,能夠充分結(jié)合上下文本信息進(jìn)行有效的訓(xùn)練.與早期提出的訓(xùn)練語言模型的目標(biāo)“預(yù)測(cè)下一個(gè)詞”不同的地方在于BERT在單詞級(jí)別和句子級(jí)別設(shè)置了兩個(gè)目標(biāo): 掩碼語言模型(masked language model,MLM)與預(yù)測(cè)下一句(next sentence predict,NSP)模型.其中MLM 可以理解為完型填空做法的思路,模型隨機(jī)會(huì)mask 每個(gè)句子中15%的詞,利用上下文信息來預(yù)測(cè)這些詞.MLM 具體做法是80%的詞用[mask] 替換原來的詞,10% 的詞隨機(jī)取一個(gè)詞替代mask 的詞,10%詞保持不變.預(yù)測(cè)下一句訓(xùn)練過程的具體做法是選取一些句對(duì)與,其中50%的數(shù)據(jù)是的下一句,剩余50%是從語料庫中隨機(jī)選擇,通過對(duì)句對(duì)進(jìn)行二分類訓(xùn)練來學(xué)習(xí)句子間的關(guān)系.通過這兩個(gè)目標(biāo)訓(xùn)練出的BERT 模型,具有很強(qiáng)的字詞級(jí)別的表征能力.
RoBERTa-wwm-ext 與BERT 模型的基本結(jié)構(gòu)基本相同,改進(jìn)更多的是從訓(xùn)練集和訓(xùn)練策略角度來提升,主要有以下幾點(diǎn): 首先相對(duì)于BERT 的靜態(tài)掩碼機(jī)制采取了動(dòng)態(tài)掩碼機(jī)制,在BERT 中訓(xùn)練數(shù)據(jù)時(shí),一條樣本只進(jìn)行一次隨機(jī) mask,在訓(xùn)練時(shí) mask 的位置都保持不變,動(dòng)態(tài)mask 在每次訓(xùn)練前會(huì)動(dòng)態(tài)生成一次mask,這種方法提高了模型輸入的隨機(jī)性,使模型可以學(xué)習(xí)更多的句式.另外它使用了更大的batch size 進(jìn)行訓(xùn)練,被實(shí)驗(yàn)驗(yàn)證有更好的效果.同時(shí)采用字節(jié)對(duì)編碼(BPE)進(jìn)行文本數(shù)據(jù)處理,使用了更多的數(shù)據(jù)同時(shí)進(jìn)行訓(xùn)練,且取消了NSP 任務(wù),提升了效率.且采用了WWM(全詞掩碼)策略,相較于BERT 的單字掩碼,先進(jìn)行分詞,如果有詞中的部分字符被mask,那么整個(gè)詞都將會(huì)被mask,這樣做RoBERTa-wwm-ext 能夠更好地學(xué)習(xí)詞級(jí)別的信息[31-33].
本文使用RoBERTa-wwm-ext 模型將語義間相關(guān)性判別轉(zhuǎn)化為一個(gè)二分類模型,圖5 展示了RoBERTawwm-ext 模型結(jié)構(gòu)作為語義蘊(yùn)含評(píng)分模塊.
圖5 RoBERTa-wwm-ext 語義蘊(yùn)含評(píng)分模型結(jié)構(gòu)
分別按照相應(yīng)的策略構(gòu)造<術(shù)語原詞,概念,1>和<術(shù)語原詞,非正確概念,0>的正負(fù)樣本,用此數(shù)據(jù)來訓(xùn)練蘊(yùn)含語義評(píng)分模型.將樣本輸入到模型中具體格式為“[CLS] 手足抽搦[SEP] 手足抽搐癥[SEP]”,經(jīng)過RoBERTa-wwm-ext 編碼獲得[CLS]的隱藏層狀態(tài)表示,接著輸入到全連接層,經(jīng)過Softmax 函數(shù)打分,其中[CLS]和[SEP]分別表示用于分類的令牌、分隔術(shù)語原詞和候選概念的令牌.
蘊(yùn)含語義評(píng)分模型使用Softmax 作為分類回歸函數(shù),模型采用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化,使用類別為1 的概率作為語義蘊(yùn)含分?jǐn)?shù).其中蘊(yùn)含分?jǐn)?shù)及最后預(yù)測(cè)對(duì)應(yīng)概念的計(jì)算過程如式(4)-式(5):
其中,FFNN表示前饋神經(jīng)網(wǎng)絡(luò)層,l為類別標(biāo)簽,y表示最終對(duì)應(yīng)的概念.
本文需要比較的是術(shù)語原詞和概念庫當(dāng)中概念的語義相似性,雖然使用的是二分類的方法,但是需要二分類模型評(píng)出概念相似程度的高低,涉及到排序,所以其精度要求更高,難度上比傳統(tǒng)二分類任務(wù)的0.5 作為閾值更難.所以對(duì)構(gòu)造二分類模型的訓(xùn)練樣本一定要經(jīng)過特殊處理,這樣模型才能夠更好地學(xué)習(xí)到語義的相關(guān)性.
方法1.構(gòu)造語義模型數(shù)據(jù)集方法1)構(gòu)建空的數(shù)據(jù)列表datas=[],將其作為語義模型訓(xùn)練需要的數(shù)據(jù);2)設(shè)置困難負(fù)樣本數(shù)量k,隨機(jī)負(fù)樣本數(shù)量m,正樣本數(shù)量n;
3)訓(xùn)練集術(shù)語原詞使用Jaccard 相關(guān)系數(shù)召回概念庫中得分最高的前k 個(gè)負(fù)樣本,將k 個(gè)樣本處理為<o(jì)rg,neg,0>并入datas;4)訓(xùn)練集術(shù)語原詞從概念庫<o(jì)rg,neg,0>并入datas中隨機(jī)抽取m 個(gè)負(fù)樣本,將m 個(gè)樣本處理為;5)訓(xùn)練集術(shù)語原詞重復(fù)n 條作為正樣本,將n 個(gè)樣本處理為<o(jì)rg,neg,1>并入datas;6)對(duì)datas 進(jìn)行隨機(jī)打亂;
SNOMED CT 是目前國際上認(rèn)可的且比較全面的醫(yī)學(xué)術(shù)語集,其內(nèi)容包括了臨床所需的基本信息.SNOMED CT 的概念表收錄了大量具有唯一含義并經(jīng)過邏輯定義的概念,分類編入18 個(gè)頂級(jí)概念軸(hierarchy)中,分別包括臨床發(fā)現(xiàn)、操作/介入、身體結(jié)構(gòu)等[34].
本次實(shí)驗(yàn)的數(shù)據(jù)是以SNOMED CT 為標(biāo)準(zhǔn),醫(yī)療相關(guān)人員進(jìn)行標(biāo)注,獲得“術(shù)語原詞-概念”標(biāo)注數(shù)據(jù)9 000 余條,此次標(biāo)注中選取SNOMED 術(shù)語庫中在醫(yī)學(xué)文本中常見的概念15 001 個(gè)SNOMED CT 概念作為概念標(biāo)準(zhǔn),這些數(shù)據(jù)均來自現(xiàn)實(shí)的醫(yī)學(xué)場景.按照比例6:2:2 劃分為訓(xùn)練集、開發(fā)集、測(cè)試集,數(shù)據(jù)集中的真實(shí)數(shù)據(jù)如表2.
表2 數(shù)據(jù)集中的數(shù)據(jù)形式
數(shù)據(jù)集中最長的術(shù)語原詞為“庫興氏綜合征(由于各種原因引起的腎上腺糖皮質(zhì)激素慢性分泌過多,表現(xiàn)為肥胖伴有高血壓等一系列癥狀)”,最短的術(shù)語原詞為“腿”.
4.2.1 總項(xiàng)評(píng)價(jià)指標(biāo)
對(duì)于分類任務(wù),總體的評(píng)價(jià)指標(biāo)有如下幾個(gè)標(biāo)準(zhǔn):準(zhǔn)確率、精確率、召回率、F1 值,其計(jì)算方式如式(6)-式(9):
式(6)中,TS代表被預(yù)測(cè)正確概念的樣本數(shù),N代表樣本總量,本文最終目標(biāo)使用accuracy作為評(píng)價(jià)指標(biāo).
4.2.2 分項(xiàng)評(píng)價(jià)指標(biāo)
本文是術(shù)語標(biāo)準(zhǔn)化任務(wù)作為候選概念召回和候選概念排序兩階段任務(wù)來實(shí)現(xiàn)的,所以在這兩個(gè)分項(xiàng)中也有不同的指標(biāo)來衡量他們的效果.候選概念召回階段使用召回率(recall)作為評(píng)價(jià)指標(biāo).其中recall的計(jì)算公式如式(10):
其中,Gi代表第數(shù)據(jù)集中第i個(gè)術(shù)語原詞召回來的候選概念集,Ti表示第i個(gè)術(shù)語原詞的正確答案,N為術(shù)語原詞總數(shù).
4.3.1 參數(shù)設(shè)置
本文中使用了RoBERTa-wwm-ext 作為蘊(yùn)含語義評(píng)分模型,使用了Adam 作為優(yōu)化器,實(shí)驗(yàn)采用內(nèi)存大小為11 GB,一張2080ti GPU 顯卡.Dropout rate 設(shè)置為0.1,學(xué)習(xí)率為2E-5,batch_size 為64,隱藏層維度為768,最大的句子長度為64.
4.3.2 結(jié)果分析
在第一階段召回主要做實(shí)驗(yàn)對(duì)比單召回方式,以及本文中多策略召回的效果,表3 展示了不同方法的候選概念召回率.
表3 候選概念召回率
表3 的結(jié)果來看,本文提出的召回策略具有明顯優(yōu)勢(shì).單一方法的召回都不能夠完全覆蓋正確的概念.結(jié)合多策略召回,其中每個(gè)召回方式都取前10 最高得分能夠達(dá)到0.983 的召回率,基本能夠覆蓋正確答案,所以將它作為蘊(yùn)含語義排序模型的輸入部分.在候選概念蘊(yùn)含語義排序階段,為了獲得更強(qiáng)的語義排序模型,本文采用了不同的策略構(gòu)建負(fù)樣本.在訓(xùn)練語料中引入了困難負(fù)樣本,再結(jié)合不同的訓(xùn)練樣本比例,得到當(dāng)前效果最佳的蘊(yùn)含語義模型訓(xùn)練方案.不同構(gòu)造樣本的策略效果如表4.
表4 樣本構(gòu)建對(duì)結(jié)果影響
表4 中,P代表訓(xùn)練集中的正樣本重復(fù)次數(shù),Nrandom數(shù)代表隨機(jī)負(fù)樣本數(shù)量,Nhard表代表困難負(fù)樣本數(shù)量.為了維持訓(xùn)練集正負(fù)樣本的比例,所以始終將訓(xùn)練正負(fù)樣本維持在1:1 與1:2.從蘊(yùn)含語義排序的結(jié)果來看,在一定范圍內(nèi)引入困難負(fù)樣本會(huì)顯著的提升蘊(yùn)含語義排序模型的效果并且增加正、負(fù)樣本的數(shù)量也可以提升模型的效果.為了比較不同的語義模型蘊(yùn)含排序效果的差別,本文分別在同結(jié)構(gòu)的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn).在召回策略相同、正負(fù)樣本構(gòu)造分別是(P,Nrandom,Nhard)=(20,20,20)的條件下,各語義蘊(yùn)含模型的效果如表5.
表5 部分同類型模型蘊(yùn)含語義排序效果對(duì)比
從結(jié)果來看,在使用相同的召回策略且蘊(yùn)含語義模型的正負(fù)樣本構(gòu)建策略均相同的情況下,使用RoBERTa-wwm-ext 作為蘊(yùn)含語義排序模型展現(xiàn)了它有更強(qiáng)的蘊(yùn)含語義表征能力,并且效果比同類其他模型的效果更好.這是由于其模型的訓(xùn)練方式和豐富的訓(xùn)練語料帶來的優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果也展現(xiàn)了本方法在以SNOMED CT 為標(biāo)準(zhǔn)的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化上的可行性及優(yōu)越性.
本文在解決醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化的問題上,提出了一種結(jié)合RoBERTa 與多策略召回的方法,該模型使用RoBERTa-wwm-ext 作為蘊(yùn)含語義排序模型.首次在醫(yī)療標(biāo)準(zhǔn)SNOMED CT 標(biāo)注的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了本方法的有效性,為其他從事SNOMED CT 標(biāo)準(zhǔn)進(jìn)行的術(shù)語標(biāo)準(zhǔn)化工作者提供了參考.本文將醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化分為兩個(gè)階段來執(zhí)行,第1 階段是多策略召回,第2 階段是蘊(yùn)含語義排序.在多策略召回階段,由于醫(yī)學(xué)術(shù)語的表達(dá)多樣化與口語化的特點(diǎn),往往通過一種召回方法召回候選概念效果欠佳,而本文提出的多策略的召回方法可以召回98.3%的正確候選概念.在蘊(yùn)含語義排序階段,為了構(gòu)建強(qiáng)大語義模型,本文引入了困難負(fù)樣本進(jìn)行訓(xùn)練,并且構(gòu)造不同數(shù)量的正負(fù)樣本比例確定蘊(yùn)含語義模型的訓(xùn)練方式,最終蘊(yùn)含語義排序模型的效果得到極大提升.通過對(duì)比本文模型和其他同類型模型的基于SNOMED CT 醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化效果,本文提出的模型有更高的準(zhǔn)確性,準(zhǔn)確率達(dá)87.8%.
由于醫(yī)療領(lǐng)域的術(shù)語一字之差可能完全表達(dá)的是兩個(gè)不同的概念、術(shù)語原詞與概念之間沒有交集等情況.在以后的工作中希望能夠引入外部信息,或者根據(jù)醫(yī)療數(shù)據(jù)特點(diǎn)引入特征詞典來提高醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化的水平,同時(shí)也希望對(duì)一個(gè)術(shù)語對(duì)應(yīng)多個(gè)概念或者多個(gè)術(shù)語對(duì)應(yīng)多個(gè)概念的方向去展開研究.