彭起 馮洪海
【摘 要】提出了從醫(yī)學(xué)文獻(xiàn)中提取誤診信息的算法。五千篇文獻(xiàn)訓(xùn)練集的誤診提取正確率為85.78%,500篇測(cè)試文獻(xiàn)的誤診提取精度83.11%。
【關(guān)鍵字】誤診;臨床醫(yī)學(xué);文本挖掘
中圖分類(lèi)號(hào): TP391.1文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)14-0204-001
DOI:10.19694/j.cnki.issn2095-2457.2019.14.098
0 引言
全世界50年來(lái)平均誤診率為30%,但鑒于醫(yī)療水平的限制,誤診率一直高居不下,尤其是一些疑難雜癥。因此,從文獻(xiàn)中提取誤診信息供醫(yī)生和患者參考尤其必要。馮洪海[1]等統(tǒng)計(jì)和分析了現(xiàn)階段互聯(lián)網(wǎng)醫(yī)學(xué)用戶(hù)癥狀和相應(yīng)的疾病分布情況,官兵[2]、張雪齊[3]等針對(duì)單獨(dú)的一種疾病或一類(lèi)疾病的誤診信息做出了研究。目前還沒(méi)有文獻(xiàn)對(duì)醫(yī)學(xué)誤診文獻(xiàn)做過(guò)系統(tǒng)的分析。
在做文本數(shù)據(jù)分析之前,已從權(quán)威醫(yī)學(xué)期刊獲取了大量的醫(yī)學(xué)誤診案例文獻(xiàn)。通過(guò)人工讀文獻(xiàn)的方式,從中總結(jié)出初始的誤診關(guān)鍵字、通過(guò)對(duì)關(guān)鍵字進(jìn)行分析,將關(guān)鍵字進(jìn)行分類(lèi),而后分類(lèi)建立模型。從文獻(xiàn)中獲取文本信息,從中提取出初始的疾病庫(kù),通過(guò)編程實(shí)現(xiàn)誤診信息模型并通過(guò)模型將文本中的誤診信息提取出來(lái)。
1 算法設(shè)計(jì)過(guò)程
誤診信息分兩種:一種是疾病A誤診為疾病B,因此,疾病分“誤診為”的疾病B和“被誤診”的疾病A。另一種是多個(gè)疾病互相混淆而有可能誤診。在標(biāo)題或正文中,多處出現(xiàn)疾病名稱(chēng),但未必是疾病之間誤診的信息,因此,要先由誤診關(guān)鍵字確定誤診上下文。另外,即便出現(xiàn)兩個(gè)疾病,兩個(gè)疾病之間誤診的信息有正反兩個(gè)方面,即有可能A誤診成B,也可能B誤診成A。
1.1 誤診關(guān)鍵字的獲取
誤診上下文分為標(biāo)題和正文兩種。通過(guò)比較,針對(duì)標(biāo)題的誤診關(guān)鍵字適用于正文;針對(duì)正文的誤診關(guān)鍵字不一定適用于標(biāo)題。針對(duì)標(biāo)題的“誤診…”、“誤診為…的…”等關(guān)鍵字。針對(duì)正文的誤診關(guān)鍵字“需與…相鑒別”、 “易與…混淆”等。
1.2 誤診信息上下文的提取
誤診信息上下文的預(yù)處理,借鑒文獻(xiàn)[4]中的策略。關(guān)于上下文長(zhǎng)短的確定,文獻(xiàn)[4]中設(shè)定為誤診關(guān)鍵字為誤診關(guān)鍵字所在的兩個(gè)句號(hào)段落。本文將提取單元設(shè)定為含有誤診關(guān)鍵字的一個(gè)句號(hào)的句子。
1.3 識(shí)別疾病以及提取文獻(xiàn)中的誤診信息
2 提取結(jié)果
對(duì)于訓(xùn)練集,加入更為準(zhǔn)確的關(guān)鍵字,去除“B超-疾病”和一些沒(méi)有必要存在的提取結(jié)果,如“高血壓-高血壓”等結(jié)果,將算法進(jìn)行改進(jìn),完善算法的控制邏輯。擴(kuò)充疾病庫(kù)之后,錯(cuò)誤率也明顯下降。經(jīng)上述的完善之后,疾病提取的錯(cuò)誤率降低到14.22%。
測(cè)試集中存在有當(dāng)前誤診關(guān)鍵字集合之外的關(guān)鍵字,導(dǎo)致一些誤診規(guī)律無(wú)法被提取出來(lái),目前召回率穩(wěn)定在99%,錯(cuò)誤率穩(wěn)定在16.89%。完善疾病庫(kù)、完善關(guān)鍵字集合、完善算法的提取規(guī)則將是下一步優(yōu)化的目標(biāo)。
3 結(jié)束語(yǔ)
不論是訓(xùn)練集還是測(cè)試集,錯(cuò)誤率和召回率都與誤診關(guān)鍵字列表和疾病列表的完整性有關(guān),未來(lái)要降低錯(cuò)誤率和提高召回率,需要從完善誤診關(guān)鍵字列表和研制新的疾病實(shí)體名稱(chēng)識(shí)別算法方面入手,因?yàn)橛行┘膊∶Q(chēng)是俗語(yǔ)或簡(jiǎn)化描述或在國(guó)際疾病標(biāo)準(zhǔn)術(shù)語(yǔ)中未載入。
通過(guò)在大量醫(yī)學(xué)誤診案例中總結(jié)誤診信息、提取誤診關(guān)鍵字、建立誤診模型等方式提取醫(yī)學(xué)誤診文獻(xiàn)中誤診信息。在后期的研究過(guò)程中,可對(duì)提取結(jié)果的精確度做更加準(zhǔn)確的處理。從文本中分析出的誤診為的疾病可能有若干種,這些疾病之間可能也存在誤診關(guān)系;這些疾病也存在和“誤診”病不相關(guān)的情況,后續(xù)研究可對(duì)結(jié)果做統(tǒng)計(jì)分析,完善疾病庫(kù)、關(guān)鍵字集合和算法的提取規(guī)則,總結(jié)更普遍的規(guī)律,減少醫(yī)學(xué)誤診的發(fā)生。
【參考文獻(xiàn)】
[1]馮洪海,孫元燦,李利敏,宋舒晗,黃俊輝.基于Web醫(yī)學(xué)數(shù)據(jù)的互聯(lián)網(wǎng)醫(yī)學(xué)用戶(hù)研究[J].計(jì)算機(jī)時(shí)代,2014(04):41-46.
[2]官兵,張惠箴,汪亮.胃底伴血管瘤的脾組織植入誤診為胃腸間質(zhì)瘤1例[B].臨床與實(shí)驗(yàn)病理學(xué)雜志,1001=7399(2019)05-0618-02.
[3]張奇雪,阮宏瑩,鄭永哲,張桂敏,林鵬.鼻硬結(jié)病誤診為鼻中隔囊腫1例.臨床耳鼻咽喉頭頸外科雜志[B].1001-1781.2019.06.021.
[4]劉源,馮洪海.醫(yī)療糾紛文獻(xiàn)的數(shù)據(jù)挖掘[J].電子技術(shù)與軟件工程[J].R197.3;TP311.13.