尤誠(chéng)誠(chéng),馮旭鵬,劉利軍,黃青松,3
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)信息化建設(shè)管理中心,云南 昆明 650500;3.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
隨著醫(yī)院影像報(bào)告管理系統(tǒng)的廣泛應(yīng)用,我國(guó)各級(jí)醫(yī)院產(chǎn)生并且保存著大量的胸部X光片及其對(duì)應(yīng)的診斷報(bào)告。胸部X光片是常規(guī)體檢的檢查項(xiàng)目之一,已經(jīng)成為胸部檢查的優(yōu)先選擇,它能快捷、清晰地對(duì)胸部的大體情況包括肺、心臟等器官進(jìn)行觀察。胸片診斷報(bào)告有著重要的應(yīng)用價(jià)值,它不僅能對(duì)可能發(fā)生的疾病提前預(yù)警,還是臨床醫(yī)生制定治療方案的重要參考依據(jù)。診斷報(bào)告核心的內(nèi)容是影像描述和診斷結(jié)論,這兩部分是輔助醫(yī)生診斷和患者治療的重要參考,也是用于診斷報(bào)告異常檢測(cè)的關(guān)鍵信息。醫(yī)生書(shū)寫(xiě)診斷報(bào)告具有相當(dāng)大的主觀性,有可能會(huì)因?yàn)榻?jīng)驗(yàn)不足或疲勞而產(chǎn)生影像描述內(nèi)容的解讀錯(cuò)誤[1],使一些疾病被漏診、誤診。另外診斷報(bào)告中影像所見(jiàn)部分描述自由,多為醫(yī)療慣例描述語(yǔ)言,復(fù)雜的影像描述內(nèi)容也可能影響醫(yī)生的鑒別診斷,得出錯(cuò)誤的診斷結(jié)論。篩選出這些異常的診斷報(bào)告,首先可以減少疾病誤診率,為臨床醫(yī)生的診斷治療提供更準(zhǔn)確有效的參考。其次,為建立規(guī)范化的醫(yī)療檢查體系和實(shí)現(xiàn)高效精準(zhǔn)的醫(yī)療服務(wù)提供了基礎(chǔ)。最后,可增強(qiáng)醫(yī)院的管理水平,監(jiān)督考察醫(yī)療工作者的技術(shù)素養(yǎng)。所以,對(duì)診斷報(bào)告進(jìn)行異常檢測(cè)方法的研究意義重大。本文以胸部X光片診斷報(bào)告為研究對(duì)象進(jìn)行診斷報(bào)告異常檢測(cè)的研究。
傳統(tǒng)的異常檢測(cè)方法都是為了找出不滿足規(guī)則和期望的樣本[2]。目前在醫(yī)療領(lǐng)域出現(xiàn)了大量的異常檢測(cè)方法用于檢測(cè)醫(yī)療保險(xiǎn)記錄、醫(yī)療處方等醫(yī)療數(shù)據(jù)。有監(jiān)督的異常檢測(cè)方法,首先通過(guò)大量高質(zhì)量的人工標(biāo)注數(shù)據(jù),利用傳統(tǒng)的分類(lèi)方法找出異常數(shù)據(jù)。Kumar等[3]用SVM的方法檢測(cè)醫(yī)療索賠數(shù)據(jù)的記錄錯(cuò)誤。Rawte等[4]結(jié)合監(jiān)督和無(wú)監(jiān)督的方法來(lái)檢測(cè)醫(yī)保欺詐。無(wú)監(jiān)督的異常檢測(cè)方法,通過(guò)計(jì)算離群點(diǎn)發(fā)現(xiàn)異常的數(shù)據(jù)樣本。崔書(shū)華等[5]通過(guò)離群點(diǎn)檢測(cè)方法對(duì)異常數(shù)據(jù)進(jìn)行分析。高永昌[6]提出一種基于異構(gòu)網(wǎng)絡(luò)社區(qū)離群點(diǎn)檢測(cè)的醫(yī)生欺詐發(fā)現(xiàn)方法。Segaert等[7]證明了穩(wěn)健回歸和離群點(diǎn)檢測(cè)是處理高維臨床數(shù)據(jù)(如omics數(shù)據(jù))的關(guān)鍵策略。丁可[8]提出一種基于狀態(tài)轉(zhuǎn)移矩陣的便攜式醫(yī)療設(shè)備通信異常數(shù)據(jù)檢測(cè)方法。Hawking等[9]基于k近鄰方法來(lái)找出醫(yī)療欺騙數(shù)據(jù)。張煥毫[10]提出了基于最近集孤立度的方法找出骨科處方數(shù)據(jù)的孤立點(diǎn)異常樣本。Yamanishi等[11]使用概率生成模型去檢測(cè)病理數(shù)據(jù)的異常。Johnson等[12]基于多階段方法檢測(cè)健康保險(xiǎn)索賠中的欺騙。另外,還可以用上下文檢測(cè)的方法來(lái)檢測(cè)2類(lèi)特征的匹配關(guān)系,找出匹配不成立的異常數(shù)據(jù)。該方法在醫(yī)療中也有應(yīng)用,Hu等[13]使用該方法在醫(yī)療記錄中識(shí)別異常用藥案例。劉少欽等[14]提出了基于擴(kuò)展主題模型的方法判斷診斷疾病與處方藥物間的異常,其提出的擴(kuò)展主題模型具有很好的參考意義,在異常處方的檢測(cè)中取得了很好的效果。目前醫(yī)療領(lǐng)域的異常檢測(cè)方法,主要針對(duì)醫(yī)療處方等疾病名稱、藥物名稱固定的結(jié)構(gòu)化數(shù)據(jù),但是針對(duì)語(yǔ)言結(jié)構(gòu)復(fù)雜、專業(yè)術(shù)語(yǔ)難以獲取的影像診斷報(bào)告的研究相對(duì)較少。
傳統(tǒng)的有監(jiān)督檢測(cè)、異常點(diǎn)檢測(cè)、上下文異常檢測(cè)等方法檢測(cè)異常診斷報(bào)告效果不佳。由于缺乏有效的標(biāo)注數(shù)據(jù),有監(jiān)督的檢測(cè)方法不適用于診斷報(bào)告。診斷報(bào)告文本描述自由,一些影像描述的癥狀或者疾病出現(xiàn)較少,但不能歸為異常,所以用于異常點(diǎn)檢測(cè)會(huì)出現(xiàn)偏差。診斷報(bào)告數(shù)據(jù)高維稀疏,因此通過(guò)傳統(tǒng)的映射函數(shù)進(jìn)行上下文的特征匹配,效果不佳。
診斷報(bào)告中的診斷結(jié)論是根據(jù)影像描述得到的,影像描述中的癥狀實(shí)體與診斷中的結(jié)論實(shí)體存在特有的語(yǔ)義信息和對(duì)應(yīng)關(guān)系。診斷報(bào)告中存在大量的專業(yè)術(shù)語(yǔ),如果不進(jìn)行實(shí)體的抽取,直接以字符或者詞語(yǔ)特征進(jìn)行訓(xùn)練,輸入特征就會(huì)失去原有的語(yǔ)義信息和對(duì)應(yīng)關(guān)系。如:影像描述中的“雙側(cè)膈肌光滑,雙肋膈角銳利”對(duì)應(yīng)結(jié)論中的“膈無(wú)異?!保殖勺址蛟~語(yǔ)就失去了原有的語(yǔ)義信息和對(duì)應(yīng)關(guān)系。通過(guò)計(jì)算這2類(lèi)實(shí)體之間的對(duì)應(yīng)關(guān)系,就可以判斷該診斷報(bào)告影像描述與診斷結(jié)論是否匹配,即可以檢測(cè)該診斷報(bào)告是否異常。本文方法的主要改進(jìn)有:(1)針對(duì)胸片診斷報(bào)告的特點(diǎn),利用加入后綴特征的雙向LSTM-CRF(Long Short-Term Memory Neural Network-Conditional Random Fields)模型,對(duì)描述癥狀實(shí)體和診斷結(jié)論實(shí)體進(jìn)行提取,提高了實(shí)體提取的效果。(2)利用領(lǐng)域知識(shí)和模板,對(duì)胸片診斷報(bào)告進(jìn)行特征的擴(kuò)展和補(bǔ)充,一定程度上緩解了特征稀疏的問(wèn)題。(3)將胸片診斷報(bào)告的異常檢測(cè),轉(zhuǎn)換為影像癥狀實(shí)體特征與診斷結(jié)論實(shí)體特征判斷能否匹配的問(wèn)題,利用LDA主題模型[15]來(lái)進(jìn)行異常檢測(cè),取得了很好的識(shí)別效果。
基于主題模型的診斷報(bào)告異常檢測(cè)方法整體框架如圖1所示,胸片診斷報(bào)告的異常檢測(cè)主要分為實(shí)體特征提取和實(shí)體特征匹配2部分。首先,利用雙向LSTM-CRF模型結(jié)合診斷報(bào)告文本數(shù)據(jù)自身的字符級(jí)特點(diǎn)(后綴特征),對(duì)診斷報(bào)告影像描述與診斷結(jié)論中的實(shí)體進(jìn)行準(zhǔn)確提取,解決診斷報(bào)告中未登錄詞過(guò)多和專業(yè)術(shù)語(yǔ)提取困難的問(wèn)題。然后,依據(jù)診斷報(bào)告自身數(shù)據(jù)的特點(diǎn)及領(lǐng)域?qū)<抑R(shí)對(duì)診斷報(bào)告中的各類(lèi)特征進(jìn)行擴(kuò)展和補(bǔ)充,緩解數(shù)據(jù)的高維稀疏問(wèn)題。最后利用LDA模型對(duì)診斷報(bào)告中癥狀實(shí)體與結(jié)論實(shí)體進(jìn)行特征匹配,確定區(qū)分正常診斷報(bào)告與異常診斷報(bào)告的閾值,對(duì)診斷報(bào)告進(jìn)行異常檢測(cè)。
Figure 1 Overall framework of the proposed method圖1 本文方法總體框架
對(duì)胸部X光片診斷報(bào)告中的癥狀實(shí)體和疾病實(shí)體進(jìn)行實(shí)體抽取時(shí),具有以下挑戰(zhàn):數(shù)據(jù)量巨大、未登錄詞過(guò)多、沒(méi)有相應(yīng)的術(shù)語(yǔ)詞典、癥狀實(shí)體較長(zhǎng)。診斷報(bào)告中的專業(yè)術(shù)語(yǔ)本身還具有很多的明顯字符級(jí)特征,如表1所示。本文根據(jù)診斷報(bào)告自身特征提出了基于LSTM-CRF模型進(jìn)行診斷報(bào)告的實(shí)體抽取。
模型中雙向LSTM[16]神經(jīng)網(wǎng)絡(luò)層可以整合上下文信息,得到序列中字符標(biāo)簽的分布矩陣。CRF[17]廣泛用于序列標(biāo)注的問(wèn)題,模型中CRF層根據(jù)雙向LSTM層輸出的標(biāo)簽概率分布,預(yù)測(cè)出最優(yōu)的序列組合。
本文以字符基本特征結(jié)合診斷報(bào)告特有的實(shí)體后綴特征,生成表示其類(lèi)型的字嵌入向量,輸入雙向LSTM-CRF序列標(biāo)注模型,對(duì)序列標(biāo)簽進(jìn)行預(yù)測(cè),最后完成對(duì)診斷報(bào)告實(shí)體的抽取。以字嵌入向量作為模型的輸入,解決了未登錄詞過(guò)多的問(wèn)題,減少分詞帶來(lái)的負(fù)面影響,并且結(jié)合癥狀實(shí)體和疾病實(shí)體的字符級(jí)特征,對(duì)診斷報(bào)告中較長(zhǎng)實(shí)體進(jìn)行識(shí)別,取得了很好的效果。
Table 1 Classification of character-level features表1 字符級(jí)特征分類(lèi)
2.3.1 主題模型
與傳統(tǒng)的LDA模型類(lèi)似,改進(jìn)后的LDA模型參數(shù)求解依然使用吉布斯采樣[18]方法,對(duì)同一個(gè)實(shí)例分為2個(gè)部分進(jìn)行采樣,兩者有著相同的求解過(guò)程。以A類(lèi)特征為例,計(jì)算實(shí)例d中A類(lèi)特征w屬于主題t的概率如式(1)所示:
(1)
標(biāo)記為主題t的所有A類(lèi)特征中,特征w的比重如式(2)所示:
(2)
實(shí)例d標(biāo)記為主題t的特征在所有特征中的比重如式(3)所示:
(3)
將診斷報(bào)告分為影像描述(A)和診斷結(jié)論(B)單獨(dú)出發(fā)進(jìn)行推斷,得到2個(gè)診斷報(bào)告的實(shí)例主題分布。用MA表示A類(lèi)特征實(shí)例的數(shù)目,MB表示B類(lèi)特征實(shí)例的數(shù)目,K表示主題數(shù)目。
影像描述類(lèi)實(shí)體特征x在該模型上的實(shí)例主題分布,推斷公式如式(4)所示:
(4)
診斷結(jié)論類(lèi)實(shí)體特征x在該模型上的實(shí)例主題分布,推斷公式如式(5)所示:
(5)
診斷報(bào)告中的影像描述、診斷結(jié)論2類(lèi)實(shí)體特征由共同的參數(shù)θ得到,因此改進(jìn)主題模型抽取到的2類(lèi)特征語(yǔ)義相似,并且2類(lèi)主題分布可以進(jìn)行關(guān)聯(lián)分析,最后得到影像描述和診斷結(jié)論之間的對(duì)應(yīng)關(guān)系。通過(guò)計(jì)算比較影像描述實(shí)體和診斷結(jié)論實(shí)體得到的實(shí)例主題分布是否匹配,就可以檢測(cè)異常診斷報(bào)告。
2.3.2 特征擴(kuò)展補(bǔ)充
胸部X光片診斷報(bào)告影像描述中的內(nèi)容較長(zhǎng),實(shí)體特征豐富,利用LDA模型可以很好地進(jìn)行主題提取。但是,一些診斷結(jié)論中的實(shí)體特征較少且稀疏,進(jìn)行主題提取面臨挑戰(zhàn)。針對(duì)診斷報(bào)告的特點(diǎn),通過(guò)以下方式緩解上述問(wèn)題。診斷報(bào)告樣本實(shí)例如表2所示。
(1)特征擴(kuò)展:診斷報(bào)告中存在較多并列描述,將這些并列實(shí)體分開(kāi)描述如“雙肺紋理增強(qiáng),紊亂”改為“雙肺紋理增強(qiáng)”和“雙肺紋理紊亂”。“心臟大小形態(tài)無(wú)異?!备臑椤靶呐K大小無(wú)異?!焙汀靶呐K形態(tài)無(wú)異常”。通過(guò)特征擴(kuò)展可以大大豐富特征信息。
(2)特征補(bǔ)充:診斷結(jié)論主要突出表征的是影像描述中的異常,主要給出異常結(jié)論,很多正常的影像描述沒(méi)有給出相應(yīng)的結(jié)論。這是造成診斷結(jié)論簡(jiǎn)短的一個(gè)主要原因。對(duì)于胸部X光片,醫(yī)院和在線醫(yī)療網(wǎng)站都有對(duì)應(yīng)的參考模板,診斷報(bào)告中的結(jié)論都有著與之相對(duì)應(yīng)的規(guī)范描述。本文依據(jù)這些模板對(duì)診斷報(bào)告中的正常結(jié)論進(jìn)行補(bǔ)充,大大緩解了診斷結(jié)論特征稀疏、主題提取困難的問(wèn)題。
(3)將診斷的性質(zhì)即陰性、陽(yáng)性加入結(jié)論部分,并與影像描述中的癥狀實(shí)體進(jìn)行匹配。
Table 2 Samples of diagnostic reports表2 診斷報(bào)告樣本實(shí)例
2.3.3 閾值計(jì)算
通過(guò)計(jì)算診斷報(bào)告中影像描述和診斷結(jié)論對(duì)應(yīng)的主題分布的相似度,按照相似度排序,進(jìn)而檢測(cè)本文方法在進(jìn)行異常檢測(cè)時(shí)的效果。本文利用不同的相似度計(jì)算方法計(jì)算主題分布相似度,θA表示影像描述的主題分布,θB表示診斷結(jié)論的主題分布。
用歐幾里得距離(EUC)計(jì)算空間中2個(gè)點(diǎn)之間的距離,如式(6)所示。
EUC(θA,θB)=|θA-θB|
(6)
用余弦公式(COS)根據(jù)2個(gè)向量的夾角來(lái)確定相似度,如式(7)所示:
(7)
皮爾遜相關(guān)性(PS):由于θA和θB各個(gè)維度上分量之和為1,可以用相關(guān)性計(jì)算相似度,如式(8)所示:
(8)
其中,μ表示主題向量各個(gè)維度的均值,σ表示方差。
因?yàn)槿狈Ω哔|(zhì)量標(biāo)注的異常數(shù)據(jù),所以不能依據(jù)相似度確定檢測(cè)異常診斷報(bào)告的閾值。本文利用診斷報(bào)告實(shí)體相對(duì)較少的優(yōu)勢(shì),對(duì)評(píng)價(jià)策略做出改進(jìn)來(lái)確定檢測(cè)異常診斷報(bào)告的閾值。首先得到診斷報(bào)告中每個(gè)影像描述實(shí)體概率最大的2個(gè)主題并進(jìn)行標(biāo)記,然后得到每個(gè)診斷結(jié)論實(shí)體概率最大的主題,最后將診斷實(shí)體依次與每個(gè)描述實(shí)體標(biāo)記的主題做匹配。如果能找到對(duì)應(yīng)的主題,則證明該診斷結(jié)論有來(lái)自影像描述的依據(jù),視為正常結(jié)論,否則視為異常結(jié)論。本文根據(jù)診斷結(jié)論與影像描述中不匹配實(shí)體的數(shù)量確定檢測(cè)異常診斷報(bào)告的閾值。
本文研究對(duì)象為胸部X光片,是最普遍的一種影像檢查,作為入院或門(mén)診的常規(guī)檢查進(jìn)行疾病篩選。對(duì)大量診斷報(bào)告進(jìn)行分析并與有關(guān)專家進(jìn)行討論了解到,影像描述中出現(xiàn)的醫(yī)療癥狀實(shí)體與診斷中的結(jié)論實(shí)體有著明顯的對(duì)應(yīng)關(guān)系,這些醫(yī)療實(shí)體大多是專有醫(yī)療用語(yǔ)和醫(yī)療共識(shí)用語(yǔ)。實(shí)驗(yàn)數(shù)據(jù)來(lái)自某三級(jí)甲等醫(yī)院,為了保證診斷報(bào)告的普遍性,選取的診斷報(bào)告考慮到了患者性別、年齡以及檢查的時(shí)間。
胸片診斷報(bào)告的實(shí)體抽取,首先需要進(jìn)行序列標(biāo)注。本文在有關(guān)專家的耐心指導(dǎo)和監(jiān)督下,對(duì)胸片診斷報(bào)告進(jìn)行標(biāo)注。由于診斷報(bào)告中的未登錄詞較多,以現(xiàn)有的分詞工具進(jìn)行分詞后輸入模型會(huì)產(chǎn)生很大的負(fù)面影響。本文以字符特征按照BIO標(biāo)準(zhǔn)進(jìn)行標(biāo)注,實(shí)體起始字標(biāo)簽為“B”,實(shí)體非起始字為“I”,非實(shí)體字為“O”。
診斷報(bào)告數(shù)據(jù)中缺乏標(biāo)注數(shù)據(jù),因此本文使用人工擾動(dòng)的方式模擬出異常的診斷報(bào)告數(shù)據(jù)。本文將一部分的診斷報(bào)告數(shù)據(jù)中的確定疾病的診斷結(jié)論,全部換為正常的結(jié)論。如“肺氣腫”,改為“肺部無(wú)異常”。通過(guò)所提的方法檢測(cè)出這些人工擾動(dòng)。數(shù)據(jù)集共有5 000份正常診斷報(bào)告和標(biāo)注人工擾動(dòng)的200份異常診斷報(bào)告。
本文對(duì)不同實(shí)驗(yàn)效果的評(píng)價(jià),采用準(zhǔn)確率P、召回率R、以及兩者的綜合考量F-measure值(F)。公式如下所示:
Table 3 Training corpus annotation表3 訓(xùn)練語(yǔ)料標(biāo)注
(9)
(10)
(11)
其中,TP為準(zhǔn)確識(shí)別出的標(biāo)注實(shí)體;FP為錯(cuò)誤識(shí)別出的非標(biāo)注實(shí)體;FN為未識(shí)別出的標(biāo)注實(shí)體。對(duì)于異常檢測(cè):TP為準(zhǔn)確識(shí)別出的異常報(bào)告;FP為錯(cuò)誤識(shí)別出的非異常報(bào)告;FN為未識(shí)別出的異常報(bào)告。
本文在實(shí)體抽取部分使用雙向LSTM模型,隱藏層單元數(shù)量為64,句子長(zhǎng)度不超過(guò)100。為防止過(guò)擬合,輸入層和隱藏層進(jìn)行dropout,值設(shè)為0.6。在主題模型部分,設(shè)置的先驗(yàn)超參數(shù)α=5.55,β=0.01。由于診斷報(bào)告屬于短文本,實(shí)體特征數(shù)量較少,本文以10為步長(zhǎng)逐漸增加進(jìn)行主題數(shù)對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)1 在本文提出的異常檢測(cè)方法中,實(shí)體提取的效果對(duì)異常檢測(cè)影響巨大。實(shí)驗(yàn)1驗(yàn)證在雙向LSTM-CRF中加入診斷報(bào)告字符級(jí)特征的實(shí)體識(shí)別方法的效果。將傳統(tǒng)的CRF模型、雙向LSTM模型、雙向LSTM-CRF模型與本文方法做對(duì)比,結(jié)果如表4所示,交叉驗(yàn)證實(shí)驗(yàn)表明,本文方法在進(jìn)行診斷報(bào)告的實(shí)體抽取時(shí)取得了更好的效果。
Table 4 Entity extraction results of diagnostic report表4 診斷報(bào)告實(shí)體抽取結(jié)果 %
由表4可知,本文方法在進(jìn)行診斷報(bào)告的實(shí)體提取時(shí)取得了最高的準(zhǔn)確率和召回率。本文方法充分考慮了診斷報(bào)告的特殊性,結(jié)合字符級(jí)特征,針對(duì)診斷報(bào)告中較長(zhǎng)專業(yè)術(shù)語(yǔ)的提取表現(xiàn)出優(yōu)越的性能。
實(shí)驗(yàn)2 將所有5 000份正常的診斷報(bào)告分成10份,采用10-fold交叉驗(yàn)證的方式對(duì)數(shù)據(jù)集進(jìn)行劃分,測(cè)試集采用其中500份正常的診斷報(bào)告和標(biāo)注的200份異常診斷報(bào)告。實(shí)驗(yàn)分別采用了詞語(yǔ)特征、實(shí)體特征和實(shí)體特征擴(kuò)展3種輸入方式,驗(yàn)證不同輸入方式進(jìn)行診斷報(bào)告異常檢測(cè)的效果。同時(shí)驗(yàn)證不同主題數(shù)K和相似度計(jì)算方法對(duì)異常檢測(cè)實(shí)驗(yàn)效果的影響。首先將不同類(lèi)型的特征在K=10,15,20下訓(xùn)練模型;然后進(jìn)行測(cè)試實(shí)驗(yàn),根據(jù)相似度由低到高進(jìn)行排序,抽取相似度較低的200份診斷報(bào)告;最后通過(guò)其中標(biāo)注出的異常診斷報(bào)告的數(shù)量進(jìn)行對(duì)比實(shí)驗(yàn)。交叉驗(yàn)證實(shí)驗(yàn)結(jié)果如表5所示。
Table 5 Experiment results with different input features and number of topics表5 不同輸入特征和主題數(shù)實(shí)驗(yàn)結(jié)果
由表5可知,(1)以實(shí)體特征擴(kuò)展后數(shù)據(jù)作為輸入,保持了診斷報(bào)告的語(yǔ)義特征和對(duì)應(yīng)關(guān)系,同時(shí)一定程度上緩解了診斷報(bào)告實(shí)體特征稀疏的問(wèn)題,取得了較好的實(shí)驗(yàn)效果。(2)在主題數(shù)K=10時(shí),不同輸入特征在各組排序數(shù)據(jù)中都取得了較好的效果。(3)利用皮爾遜相關(guān)性作為相似度計(jì)算的方法,實(shí)驗(yàn)效果較好。因此,后續(xù)的對(duì)比實(shí)驗(yàn)均以實(shí)體特征擴(kuò)展作為輸入,主題數(shù)K選擇10,相似度計(jì)算采用皮爾遜相關(guān)性。
實(shí)驗(yàn)3 為了驗(yàn)證本文方法的性能,將本文方法與傳統(tǒng)的異常檢測(cè)的方法做比較。將上下文檢測(cè)方法、異常點(diǎn)檢測(cè)方法與本文方法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)根據(jù)相似度排序抽取出的50,100,150,200份診斷報(bào)告,根據(jù)異常診斷報(bào)告的數(shù)量,對(duì)比不同方法的性能。本文方法:計(jì)算實(shí)驗(yàn)數(shù)據(jù)中所有實(shí)例主題分布相似度,并根據(jù)所有診斷報(bào)告實(shí)例相似度由低到高進(jìn)行排序。上下文檢測(cè)方法:根據(jù)診斷報(bào)告數(shù)據(jù)偏離映射函數(shù)的程度進(jìn)行排序。異常點(diǎn)檢測(cè):根據(jù)與實(shí)驗(yàn)數(shù)據(jù)集合的距離,將遠(yuǎn)離集合的診斷報(bào)告數(shù)據(jù)進(jìn)行排序。本實(shí)驗(yàn)采用10-fold交叉驗(yàn)證的方式,實(shí)驗(yàn)結(jié)果如圖2所示。
Figure 2 Experimental results comparison of different methods圖2 不同方法實(shí)驗(yàn)結(jié)果對(duì)比
由圖2可知,本文方法進(jìn)行診斷報(bào)告的異常檢測(cè),在不同的抽取數(shù)量中的檢測(cè)準(zhǔn)確率提高顯著,檢測(cè)效果明顯優(yōu)于傳統(tǒng)的異常點(diǎn)檢測(cè)、上下文檢測(cè)方法。因此,本文方法更適合缺乏高質(zhì)量標(biāo)注,數(shù)據(jù)特征稀疏的胸部X光片診斷報(bào)告。
實(shí)驗(yàn)4 由于根據(jù)實(shí)例主題分布的相似度無(wú)法準(zhǔn)確確定檢測(cè)異常診斷報(bào)告的閾值,所以本文將每一個(gè)診斷結(jié)論與影像描述中癥狀進(jìn)行關(guān)系匹配,根據(jù)不匹配的數(shù)量來(lái)確定檢測(cè)異常診斷報(bào)告的閾值。實(shí)驗(yàn)結(jié)果如表6所示。
Table 6 Experimental results on different thresholds表6 不同閾值的實(shí)驗(yàn)結(jié)果
由表6可知,當(dāng)閾值設(shè)定為2以上的時(shí)候,雖然準(zhǔn)確率有著很高的水平,但是召回率卻急劇下降。當(dāng)閾值設(shè)定在2以下時(shí),雖然召回率有所提高,但是準(zhǔn)確率出現(xiàn)了明顯的下降。最終將檢測(cè)診斷報(bào)告的閾值設(shè)置為2,取得了較好的實(shí)驗(yàn)效果。
本文提出了一種基于主題模型的胸部X光片診斷報(bào)告異常檢測(cè)方法,適用于缺乏有效標(biāo)注,數(shù)據(jù)高維稀疏,未登錄詞較多的胸部X片診斷報(bào)告異常檢測(cè)。首先,利用雙向LSTM-CRF模型結(jié)合該診斷報(bào)告文本數(shù)據(jù)自身的字符級(jí)特點(diǎn)(后綴特征),對(duì)診斷報(bào)告影像描述與診斷結(jié)論中的實(shí)體進(jìn)行準(zhǔn)確提取。然后,依據(jù)診斷報(bào)告自身數(shù)據(jù)的特點(diǎn)及領(lǐng)域?qū)<抑R(shí)對(duì)診斷報(bào)告中的各類(lèi)特征進(jìn)行有效擴(kuò)展和補(bǔ)充。最后,利用LDA模型對(duì)診斷報(bào)告中癥狀實(shí)體與結(jié)論實(shí)體進(jìn)行特征匹配,對(duì)診斷報(bào)告進(jìn)行異常檢測(cè)。本文方法對(duì)胸部X光片診斷報(bào)告進(jìn)行異常檢測(cè)取得了很好的效果,但是對(duì)于其他診斷結(jié)論較短、實(shí)體較少或者缺乏領(lǐng)域知識(shí)進(jìn)行特征擴(kuò)展的、高維稀疏的診斷報(bào)告異常檢測(cè)的準(zhǔn)確率仍有待提升。后續(xù)將圍繞存在以上問(wèn)題的診斷報(bào)告開(kāi)展進(jìn)一步的研究工作。