商濤 程瑤 陳祿明 鄧立宗 蔣太交
摘 要:調(diào)研全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)發(fā)布的呼吸病學(xué)名詞在電子病歷中的使用情況。通過(guò)觀察疾病、體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)及其關(guān)聯(lián)的同義詞在呼吸疾病電子病歷中的分布,發(fā)現(xiàn)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在使用頻次上高于非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),但整體而言,同一醫(yī)學(xué)概念在不同來(lái)源的病歷中表達(dá)多樣,標(biāo)準(zhǔn)化程度不高。此外,《呼吸病學(xué)名詞》收錄的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)及其同義詞對(duì)電子病歷中所使用的醫(yī)學(xué)術(shù)語(yǔ)覆蓋度偏低,需要擴(kuò)充和完善。
關(guān)鍵詞:標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ);電子病歷;術(shù)語(yǔ)覆蓋度;術(shù)語(yǔ)標(biāo)準(zhǔn)化;術(shù)語(yǔ)挖掘
中圖分類(lèi)號(hào):R4;H083? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2021.04.008
An Investigation into the Practical Use of Respiratory Disease Standard Medical Terms in Electronic Health Record//SHANG Tao,CHENG Yao,CHEN Luming,DENG Lizong,JIANG Taijiao
Abstract: The application of standard respiratory disease terms constructed by China National Committee for Terms in Sciences and Technologies was investigated in this research. The usage frequency of standard disease and symptom terms of respiratory disease is much higher than synonymous of standard terms. Overall, the standard terms could not descript practical clinical problems completely in electronic health record as of the diversity of medical concepts. Otherwise, standard terms collected by Terms of Respiratory Disease also could not cover all synonymous in electronic health record. Thus, the continuous development is necessary to expand the coverage of respiratory disease terms in real world applications.
Keywords: standard medical terms;electronic health record;coverage of medical terms;terminology standardization;terms mining
收稿日期:2021-06-15? 修回日期:2021-09-05
基金項(xiàng)目:全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)事務(wù)中心一般項(xiàng)目“醫(yī)學(xué)名詞審定中的同義詞整理與分析”(SWZX2018003),“科技名詞社會(huì)使用狀況調(diào)查”(SWZX202003);廣州實(shí)驗(yàn)室應(yīng)急攻關(guān)項(xiàng)目“新冠與其他12項(xiàng)呼吸道病原體核酸檢測(cè)技術(shù)和設(shè)備”(EKPG21-12)
引言
以臨床電子病歷為代表的真實(shí)世界數(shù)據(jù)(real world data)蘊(yùn)含了豐富的患者診療信息,若能對(duì)這些診療信息加以有效利用,將極大地推動(dòng)我國(guó)醫(yī)療健康大數(shù)據(jù)應(yīng)用的發(fā)展[1]。然而,由于不同機(jī)構(gòu)、不同醫(yī)生的用語(yǔ)習(xí)慣不同,電子病歷中的診療信息存在著用語(yǔ)不規(guī)范、不統(tǒng)一的問(wèn)題,這為醫(yī)療健康大數(shù)據(jù)的整合和利用帶來(lái)了極大的障礙[2]。為規(guī)范我國(guó)臨床醫(yī)學(xué)術(shù)語(yǔ)的使用,以國(guó)家衛(wèi)生健康委員會(huì)(簡(jiǎn)稱(chēng)“衛(wèi)健委”)、全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)(簡(jiǎn)稱(chēng)“名詞委”)為代表的國(guó)家機(jī)構(gòu)頒布了一系列標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)①,引導(dǎo)中文醫(yī)學(xué)術(shù)語(yǔ)的規(guī)范表達(dá),推動(dòng)了我國(guó)醫(yī)學(xué)術(shù)語(yǔ)的標(biāo)準(zhǔn)化進(jìn)程[3-4]。
調(diào)研已發(fā)布的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在真實(shí)世界數(shù)據(jù)中的使用情況是一項(xiàng)十分重要的工作[5]。這一工作通??梢詮膬煞矫嬲归_(kāi):一是調(diào)研真實(shí)世界數(shù)據(jù)使用標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的情況;二是調(diào)研標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)真實(shí)世界數(shù)據(jù)中所使用術(shù)語(yǔ)的覆蓋度。前者關(guān)注的是真實(shí)世界數(shù)據(jù)所使用醫(yī)學(xué)術(shù)語(yǔ)的標(biāo)準(zhǔn)化程度,后者關(guān)注的是標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)描述真實(shí)世界數(shù)據(jù)的完備程度。
國(guó)內(nèi)外學(xué)者均非常重視調(diào)研標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在真實(shí)世界數(shù)據(jù)中的使用情況。例如,來(lái)自梅奧診所的研究者[5]從電子病歷中搜集了4996個(gè)描述臨床問(wèn)題的醫(yī)學(xué)術(shù)語(yǔ),發(fā)現(xiàn)國(guó)際衛(wèi)生術(shù)語(yǔ)標(biāo)準(zhǔn)制定組織制定的臨床醫(yī)學(xué)系統(tǒng)術(shù)語(yǔ) (SNOMED-CT)能覆蓋其中92.3%的臨床問(wèn)題術(shù)語(yǔ)。來(lái)自四川大學(xué)華西醫(yī)院的研究者[6]通過(guò)對(duì)比中文人類(lèi)表型標(biāo)準(zhǔn)用語(yǔ)(CHPO)和從中文電子病歷中獲取的表型術(shù)語(yǔ),發(fā)現(xiàn)電子病歷中使用的術(shù)語(yǔ)口語(yǔ)化、隨意化現(xiàn)象嚴(yán)重,同標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)集之間存在著巨大差異。中國(guó)醫(yī)學(xué)科學(xué)院的研究者[7]系統(tǒng)匯集了衛(wèi)健委、名詞委發(fā)布的857 193個(gè)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),并統(tǒng)計(jì)了標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)實(shí)際使用于臨床指南、電子病歷中的69 865個(gè)醫(yī)學(xué)術(shù)語(yǔ)的覆蓋度,發(fā)現(xiàn)中文標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)資源對(duì)于常見(jiàn)術(shù)語(yǔ)的覆蓋度較高(74.3%),但對(duì)不常見(jiàn)術(shù)語(yǔ)的覆蓋度偏低(26.8%)。
名詞委歷來(lái)都很重視標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的審定與應(yīng)用,不僅發(fā)布了呼吸病學(xué)、老年醫(yī)學(xué)等18個(gè)專(zhuān)科的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ), 還發(fā)布了一系列專(zhuān)科醫(yī)學(xué)術(shù)語(yǔ)審定名詞與非規(guī)范名詞對(duì)照表[8]。然而,對(duì)于目前真實(shí)世界數(shù)據(jù)中對(duì)已發(fā)布的專(zhuān)科標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的使用情況和專(zhuān)科標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)真實(shí)世界數(shù)據(jù)中使用術(shù)語(yǔ)的覆蓋度尚缺少細(xì)致深入的研究。在本研究中,我們擬以名詞委2018年發(fā)布的《呼吸病學(xué)名詞》為切入點(diǎn),調(diào)研《呼吸病學(xué)名詞》中有關(guān)疾病、體征、癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在電子病歷中的使用情況,以期充實(shí)和完善我國(guó)的呼吸病學(xué)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)。
1 研究方法
1.1 研究設(shè)計(jì)
本研究的總體設(shè)計(jì)如圖1所示:首先,我們搜集并整理了名詞委《呼吸病學(xué)名詞》中疾病、體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ);隨后,我們通過(guò)匯集《呼吸病學(xué)名詞》《中文醫(yī)學(xué)主題詞表》(CMeSH,“萬(wàn)方醫(yī)學(xué)網(wǎng)”發(fā)布)、“39健康網(wǎng)”等醫(yī)學(xué)健康網(wǎng)站收錄的同義詞資源,整理了與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)存在同義關(guān)聯(lián)的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ);我們還通過(guò)術(shù)語(yǔ)挖掘的方法,從實(shí)際電子病歷語(yǔ)料中發(fā)掘了與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)存在同義關(guān)聯(lián)的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ);最后,我們根據(jù)整理獲得的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)和非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)集,對(duì)它們?cè)趯?shí)際電子病歷語(yǔ)料中的使用情況展開(kāi)調(diào)研。詳述如下。
1.2 搜集并整理《呼吸病學(xué)名詞》中疾病、體征或癥狀標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)
首先,我們搜集并整理了名詞委2018年發(fā)布的《呼吸病學(xué)名詞》中547個(gè)疾病、體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),其中,疾病類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)數(shù)目為428個(gè),體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)數(shù)目為119個(gè)。我們主要出于兩方面考慮疾病、體征或癥狀類(lèi)的術(shù)語(yǔ):首先,疾病、體征或癥狀是電子病歷中最重要的一類(lèi)診療信息;其次,我們前期積累了大量的疾病、體征或癥狀類(lèi)同義詞資源,可從中發(fā)掘出與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)具有同義關(guān)聯(lián)的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),進(jìn)而展開(kāi)更深入的分析。
1.3 搜集并整理以呼吸系統(tǒng)疾病為主要診斷的電子病歷
為評(píng)估呼吸病學(xué)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在電子病歷數(shù)據(jù)中的使用情況,我們通過(guò)“愛(ài)愛(ài)醫(yī)”和“醫(yī)脈通”網(wǎng)站的典型病例欄目搜集并整理了5383份以呼吸系統(tǒng)疾病為主要診斷的中文電子病歷?!皭?ài)愛(ài)醫(yī)”和“醫(yī)脈通”的典型病例均來(lái)自不同醫(yī)院、不同醫(yī)生的臨床記錄,其中的醫(yī)學(xué)術(shù)語(yǔ)表達(dá)具有多樣性,因此非常適合作為本文的研究語(yǔ)料。
互聯(lián)網(wǎng)電子病歷資源網(wǎng)站所發(fā)布的電子病歷數(shù)據(jù)通常包含各個(gè)疾病種類(lèi)。為了配合調(diào)研呼吸病學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)使用情況的目的,我們?cè)O(shè)計(jì)了如下規(guī)則對(duì)所獲的電子病歷數(shù)據(jù)進(jìn)行篩選。
(1)對(duì)于如“愛(ài)愛(ài)醫(yī)”和“大專(zhuān)家”等帶有疾病診斷標(biāo)簽的病歷資源,以呼吸病學(xué)名詞為種子詞,篩選診斷結(jié)果為呼吸病學(xué)相關(guān)疾病的電子病歷數(shù)據(jù)作為本研究所使用數(shù)據(jù)集的重要組成之一,共篩選出4321份電子病歷。
(2)對(duì)于“醫(yī)學(xué)慕課”和“醫(yī)脈通”等無(wú)任何標(biāo)簽的病歷資源,以呼吸病學(xué)名詞為關(guān)鍵術(shù)語(yǔ),篩選出病歷文本內(nèi)容中包含10個(gè)以上呼吸病學(xué)相關(guān)癥狀或疾病術(shù)語(yǔ)的電子病歷,共篩選出1063份電子病歷。由于這部分?jǐn)?shù)據(jù)無(wú)確定的診斷標(biāo)簽用于判斷其是否為呼吸病學(xué)相關(guān)病歷,我們采用人工的方法,確認(rèn)了這1063份電子病歷數(shù)據(jù)均為呼吸病學(xué)相關(guān)數(shù)據(jù)。
1.4 搜集并整理與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)存在同義關(guān)聯(lián)的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)
在本研究中,我們將名詞委發(fā)布的《呼吸病學(xué)名詞》中的疾病、體征或癥狀類(lèi)術(shù)語(yǔ)作為標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),將標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)應(yīng)的同義詞稱(chēng)作非標(biāo)準(zhǔn)術(shù)語(yǔ)。我們通過(guò)以下三個(gè)渠道對(duì)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的同義詞進(jìn)行了擴(kuò)充:
(1)來(lái)自《呼吸病學(xué)名詞》的同義詞資源。在名詞委發(fā)布的《呼吸病學(xué)名詞》中,除了給出標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)(如“干性咳嗽”),還會(huì)給出標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的同義詞(如“干咳”)。我們共搜集了114個(gè)疾病、體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的同義詞。
(2)來(lái)自“萬(wàn)方醫(yī)學(xué)網(wǎng)”發(fā)布的《中文醫(yī)學(xué)主題詞表》和醫(yī)學(xué)健康網(wǎng)站(“尋醫(yī)問(wèn)藥”“39健康網(wǎng)”等)的同義詞資源?!吨形尼t(yī)學(xué)主題詞表》和“39健康網(wǎng)”“99健康網(wǎng)”等醫(yī)學(xué)健康網(wǎng)站同樣收錄了大量的醫(yī)學(xué)術(shù)語(yǔ)同義詞資源。通過(guò)這一系列術(shù)語(yǔ)資源,我們?yōu)閬?lái)自《呼吸病學(xué)名詞》的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)擴(kuò)充了969個(gè)同義詞。
(3)通過(guò)運(yùn)用自動(dòng)術(shù)語(yǔ)挖掘和標(biāo)準(zhǔn)化映射技術(shù)發(fā)現(xiàn)的同義詞資源。近年來(lái),以大規(guī)模語(yǔ)料為基礎(chǔ),進(jìn)行術(shù)語(yǔ)挖掘或新詞發(fā)現(xiàn)的自然語(yǔ)言處理技術(shù)愈發(fā)成熟,以自動(dòng)短語(yǔ)挖掘方法(AutoPhrase)[9]為例,它以維基百科中的高質(zhì)量詞條為種子詞條,采用基于詞性的詞分割方法,基于統(tǒng)計(jì)語(yǔ)言模型的詞語(yǔ)片段打分模型實(shí)現(xiàn)無(wú)監(jiān)督地面向大語(yǔ)料的術(shù)語(yǔ)挖掘。通過(guò)運(yùn)用AutoPhrase并輔以人工判斷,我們從本研究整理的5383份呼吸系統(tǒng)疾病電子病歷中識(shí)別了3442條描述呼吸系統(tǒng)疾病、體征或癥狀的醫(yī)學(xué)術(shù)語(yǔ)。挖掘結(jié)果如表1所示。
更進(jìn)一步,我們運(yùn)用百度翻譯、有道翻譯、騰訊翻譯君將中文醫(yī)學(xué)術(shù)語(yǔ)翻譯成英文,再借助MetaMap[10]將英文醫(yī)學(xué)術(shù)語(yǔ)映射到統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)[11],獲取中文醫(yī)學(xué)術(shù)語(yǔ)在UMLS體系中的概念編碼。若兩個(gè)字面不同的中文醫(yī)學(xué)術(shù)語(yǔ)在UMLS體系中具有相同的概念編碼,那么它們就可判定為同義詞。例如,來(lái)自《呼吸病學(xué)名詞》中的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)“肺念珠菌病”(pulmonary candidiasis)和從病歷中挖掘得到的術(shù)語(yǔ)“念珠菌肺炎”(candida pneumonia)具有相同的UMLS概念編碼“C0153251”。通過(guò)這種方法,我們?yōu)閬?lái)自《呼吸病學(xué)名詞》的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)擴(kuò)充了522個(gè)同義詞。
除了通過(guò)UMLS對(duì)中文醫(yī)學(xué)術(shù)語(yǔ)進(jìn)行同義關(guān)聯(lián)外,我們還通過(guò)計(jì)算中文術(shù)語(yǔ)間的字形相似度和語(yǔ)義相似度[12],尋求挖掘得到的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)和標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)之間是否存在同義關(guān)系。通過(guò)這種方法,結(jié)合多輪人工確認(rèn),我們?yōu)閬?lái)自《呼吸病學(xué)名詞》的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)擴(kuò)充了273個(gè)同義詞。
最終,我們搜集并整理了與《呼吸病學(xué)名詞》中的547個(gè)疾病、體征或癥狀類(lèi)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)相關(guān)的同義詞或非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)共1878個(gè)(表2)。
2 研究結(jié)果
2.1 標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)與非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在電子病歷中的使用情況
我們首先調(diào)研了來(lái)自《呼吸病學(xué)名詞》中547個(gè)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)和1878個(gè)非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在5383份呼吸系統(tǒng)電子病歷中的頻次分布情況。從圖2A可見(jiàn),標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)和非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在本研究使用的電子病歷語(yǔ)料中分別出現(xiàn)了51 881次和26 386次。無(wú)論對(duì)于疾病類(lèi)還是體征或癥狀類(lèi)術(shù)語(yǔ)而言,標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的出現(xiàn)頻次都高于非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)。
由于我們整理的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)都是標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的同義詞,即對(duì)同一臨床概念的不同描述,因此我們還從概念層面分析了某一醫(yī)學(xué)概念在電子病歷語(yǔ)料中是否更傾向于使用標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)。我們首先篩選了242個(gè)具有同義詞且在電子病歷語(yǔ)料中出現(xiàn)10次以上的醫(yī)學(xué)概念。統(tǒng)計(jì)發(fā)現(xiàn),使用標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的概念占比為52.89% (128/242),使用非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的概念占比為47.11% (114/242) (圖2B)。
我們進(jìn)一步統(tǒng)計(jì)了同一醫(yī)學(xué)概念使用標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)占該概念總出現(xiàn)次數(shù)的比例分布,發(fā)現(xiàn)該分布呈U型,即完全使用標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)或完全使用非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的醫(yī)學(xué)概念出現(xiàn)較多(圖2C)。典型的例子是“盜汗”和“胸痛”,大部分病歷使用了標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),而不是其同義詞“寢汗”和“胸部疼痛”。而對(duì)于“干性咳嗽”和“血性痰”,大部分病歷使用的是其同義詞,如“干咳”和“痰中帶血”。從圖2C也可以看出,電子病歷中對(duì)同一醫(yī)學(xué)概念的表達(dá)是多樣的,整體而言,術(shù)語(yǔ)標(biāo)準(zhǔn)化程度不高。
2.2 標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)電子病歷中使用醫(yī)學(xué)術(shù)語(yǔ)的覆蓋度分析
為調(diào)研標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)電子病歷中使用醫(yī)學(xué)術(shù)語(yǔ)的覆蓋度,我們使用自動(dòng)術(shù)語(yǔ)挖掘并輔以人工判斷的方法,從5383份呼吸系統(tǒng)電子病歷中挖掘出3442條描述呼吸系統(tǒng)疾病、體征或癥狀的醫(yī)學(xué)術(shù)語(yǔ)。
這3442條來(lái)自電子病歷中的醫(yī)學(xué)術(shù)語(yǔ)中,有289條可被來(lái)自《呼吸病學(xué)名詞》中標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)所覆蓋,有40條可被來(lái)自《呼吸病學(xué)名詞》的同義詞所覆蓋。在其余的醫(yī)學(xué)術(shù)語(yǔ)中:有173條可利用來(lái)自CMeSH和醫(yī)學(xué)健康網(wǎng)站的同義詞資源映射到《呼吸病學(xué)名詞》收錄的標(biāo)準(zhǔn)化醫(yī)學(xué)術(shù)語(yǔ)上;進(jìn)一步,有522條通過(guò)基于UMLS標(biāo)準(zhǔn)化的方法映射到《呼吸病學(xué)名詞》收錄的標(biāo)準(zhǔn)化醫(yī)學(xué)術(shù)語(yǔ)上;此外,有273條可通過(guò)利用字形相似度和語(yǔ)義相似度相結(jié)合的術(shù)語(yǔ)映射方法映射到《呼吸病學(xué)名詞》收錄的標(biāo)準(zhǔn)化醫(yī)學(xué)術(shù)語(yǔ)上??傮w而言,《呼吸病學(xué)名詞》中的醫(yī)學(xué)概念對(duì)電子病歷中所使用的醫(yī)學(xué)術(shù)語(yǔ)的覆蓋度是37.68% (1297/3442) (表3)。
我們進(jìn)一步分析了未被《呼吸病學(xué)名詞》收錄的非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的特征。通過(guò)語(yǔ)義關(guān)聯(lián)和字形關(guān)聯(lián)算法,推薦最為接近的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)。通過(guò)對(duì)這些術(shù)語(yǔ)標(biāo)準(zhǔn)化映射的人工確認(rèn),我們發(fā)現(xiàn)這些術(shù)語(yǔ)往往是《呼吸病學(xué)名詞》收錄的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的子結(jié)點(diǎn)。如:“支氣管腺樣囊性癌”屬于“腺樣囊性癌”,“干酪樣肺炎”屬于“肺結(jié)核”等。從概念的角度來(lái)看,這些未被收錄的術(shù)語(yǔ)所表示的概念往往是《呼吸病學(xué)名詞》所收錄的術(shù)語(yǔ)概念的子概念,在臨床應(yīng)用中可進(jìn)行更為精細(xì)的描述與表征。
3 結(jié)語(yǔ)
在本研究中,我們調(diào)研了名詞委發(fā)布的呼吸病學(xué)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在電子病歷中的使用情況。盡管在呼吸疾病電子病歷中,標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的使用頻次高于非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ),但從概念層面上看,術(shù)語(yǔ)的標(biāo)準(zhǔn)化程度仍然不高,這也是當(dāng)前發(fā)展醫(yī)療健康大數(shù)據(jù)應(yīng)用面臨極大挑戰(zhàn)的重要原因之一[2]。
由于術(shù)語(yǔ)標(biāo)準(zhǔn)化程度不高,同一概念的臨床描述多種多樣,因此搜集標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的同義詞成為標(biāo)準(zhǔn)術(shù)語(yǔ)集合未來(lái)發(fā)展的要點(diǎn)之一[6]。從本文的術(shù)語(yǔ)覆蓋度研究中可以看出,如果只考慮來(lái)自《呼吸病學(xué)名詞》中的術(shù)語(yǔ),它在呼吸疾病電子病歷中所使用的術(shù)語(yǔ)的覆蓋度僅為9.56% (329/3442); 但當(dāng)通過(guò)利用現(xiàn)有中英文術(shù)語(yǔ)資源、術(shù)語(yǔ)挖掘和標(biāo)準(zhǔn)化映射方法擴(kuò)充同義詞后,在呼吸疾病電子病歷中所使用的術(shù)語(yǔ)的覆蓋度可達(dá)37.68% (1297/3442)。由此可見(jiàn),在臨床應(yīng)用中,同一概念下醫(yī)學(xué)術(shù)語(yǔ)的使用具有多樣性,在使用過(guò)程中不僅有標(biāo)準(zhǔn)術(shù)語(yǔ)集合所收錄的表達(dá)形式,同時(shí)也存在各種符合臨床使用習(xí)慣的同義詞表述形式。此外,在臨床實(shí)踐中,存在傾向于使用非標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)的概念,其占比為47.11% (114/242)。這說(shuō)明部分標(biāo)準(zhǔn)術(shù)語(yǔ)集合所收錄的術(shù)語(yǔ)由于表述方式較復(fù)雜,或者不符合漢語(yǔ)、口語(yǔ)習(xí)慣等各種因素,臨床使用頻次較低。以上這些結(jié)果提示我們?cè)谖磥?lái)的術(shù)語(yǔ)審定工作中,需要更充分地考慮不同渠道尤其是來(lái)自臨床實(shí)踐的同義詞資源,以提升標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)對(duì)臨床實(shí)踐的覆蓋度[7]。與此同時(shí),標(biāo)準(zhǔn)術(shù)語(yǔ)所收錄的內(nèi)容需要更為貼近臨床實(shí)踐及中文醫(yī)學(xué)使用場(chǎng)景下的語(yǔ)言習(xí)慣,盡可能提升標(biāo)準(zhǔn)術(shù)語(yǔ)對(duì)臨床應(yīng)用術(shù)語(yǔ)的收錄水平,為統(tǒng)一臨床術(shù)語(yǔ)的使用提供可能。
從本研究對(duì)未被收錄的呼吸病學(xué)相關(guān)概念的分析情況來(lái)看,未被收錄的這些概念多為已收錄術(shù)語(yǔ)概念的子概念,用于表述更為精細(xì)的臨床實(shí)體和信息。因此在中文標(biāo)準(zhǔn)化術(shù)語(yǔ)的制定過(guò)程中,除需要更充分考慮臨床習(xí)慣用語(yǔ)的同時(shí),也需要考慮收錄更為精細(xì)的臨床概念相關(guān)術(shù)語(yǔ),并在此基礎(chǔ)之上構(gòu)建起更為系統(tǒng)的概念間的從屬、修飾關(guān)系,使得標(biāo)準(zhǔn)術(shù)語(yǔ)系統(tǒng)對(duì)臨床應(yīng)用場(chǎng)景形成更為全面的覆蓋,從而促進(jìn)臨床實(shí)踐中術(shù)語(yǔ)的標(biāo)準(zhǔn)化。
本研究的一個(gè)不足之處是我們只考慮了呼吸病學(xué)疾病、體征或癥狀類(lèi)術(shù)語(yǔ),而未對(duì)手術(shù)、藥物等術(shù)語(yǔ)進(jìn)行同樣系統(tǒng)而全面的調(diào)研,我們期望在未來(lái)的工作中彌補(bǔ)這一不足。同時(shí),盡管本研究針對(duì)的是呼吸病學(xué)術(shù)語(yǔ),但調(diào)研所使用的方法同樣適用于其他專(zhuān)科疾病術(shù)語(yǔ)。我們也期望在未來(lái)的工作中能進(jìn)一步調(diào)研名詞委發(fā)布的其他專(zhuān)科標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)在真實(shí)世界數(shù)據(jù)中的使用情況,為推動(dòng)我國(guó)的醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化事業(yè)做出貢獻(xiàn)。
注釋
① 本文將全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)審定、公布的醫(yī)學(xué)類(lèi)規(guī)范名詞與其他國(guó)家機(jī)構(gòu)作為標(biāo)準(zhǔn)發(fā)布的醫(yī)學(xué)術(shù)語(yǔ),統(tǒng)稱(chēng)為“標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)”。
參考文獻(xiàn)
[1] 宋揚(yáng), 賈王平, 韓珂,等. 健康醫(yī)療大數(shù)據(jù)的應(yīng)用及其挑戰(zhàn)[J]. 中國(guó)慢性病預(yù)防與控制,2021,29(3):220-223.
[2] 張世紅, 史森, 楊小冉. 健康醫(yī)療大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)及策略探討[J]. 中國(guó)衛(wèi)生信息管理雜志, 2018, 15(6):629-632,658.
[3] 魏星. 全國(guó)科技名詞委公布與預(yù)公布名詞[J]. 中國(guó)科技術(shù)語(yǔ), 2018,20(4):50.
[4] 楊威. 我國(guó)醫(yī)學(xué)名詞現(xiàn)狀及發(fā)展分析[J]. 中國(guó)衛(wèi)生標(biāo)準(zhǔn)管理, 2018, 9(1):1-4.
[5] Evaluation of the content coverage of SNOMED CT: ability of SNOMED clinical terms to represent clinical problem lists[J]. Mayo Clinic Proceedings, 2006, 81(6):741-748.
[6] 張睿,陳薇,楊豪,等.醫(yī)學(xué)術(shù)語(yǔ)集的中文同義詞富集方案[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2021,30(2):25-32.
[7] 程瑤,蔣太交,鄧立宗,等. 中文標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)集對(duì)實(shí)際應(yīng)用覆蓋度研究[J]. 中國(guó)衛(wèi)生信息管理雜志, 2020, 17(5):55-59,90.
[8] 全國(guó)科技名詞審定委員會(huì). 審定名詞與非規(guī)范名詞對(duì)照(心血管病學(xué))[J]. 中國(guó)綜合臨床, 2000, 16(2):108,111,128.
[9] SHANG Jingbo, LIU Jialu, JIANG Meng, et al. Automated Phrase Mining from Massive Text Corpora[J]. IEEE Transactions on Knowledge & Data Engineering, 2018.
[10] DEMNER-FUSHMAN D, ROGERS W J, ARONSON A R. MetaMap Lite: an evaluation of a new Java implementation of MetaMap[J]. Journal of the American Medical Informatics Association Jamia, 2017(4):841.
[11] BODENREIDER O.The Unified Medical Language System(UMLS):integrating biomedical terminology[J].Nucleic Acids Research,2004(suppl_1):267-270.
[12] 張晨童,張佳影,張知行,等. 融合常用語(yǔ)的大規(guī)模疾病術(shù)語(yǔ)圖譜構(gòu)建[J]. 計(jì)算機(jī)研究與發(fā)展, 2020, 57(11):219-229.
作者簡(jiǎn)介:商濤(1979—),男,博士,2011年畢業(yè)于中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所/北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院細(xì)胞生物學(xué)專(zhuān)業(yè),主要研究方向?yàn)獒t(yī)學(xué)術(shù)語(yǔ)審定、醫(yī)學(xué)數(shù)據(jù)規(guī)范化、國(guó)際疾病分類(lèi)本地化。在醫(yī)學(xué)術(shù)語(yǔ)規(guī)范化方面進(jìn)行了深入的研究。此外,在規(guī)范化醫(yī)學(xué)術(shù)語(yǔ)與醫(yī)學(xué)信息學(xué)的交叉融合進(jìn)行了研究。2013年7月在德國(guó)科隆大學(xué)進(jìn)行學(xué)術(shù)交流活動(dòng),現(xiàn)任全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)事務(wù)中心醫(yī)學(xué)專(zhuān)項(xiàng)辦公室主管,主持全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)事務(wù)中心基金項(xiàng)目2項(xiàng)。通信方式:shangt@cnterm.cn。
通訊作者:蔣太交 (1970—),男,博士,中國(guó)醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院長(zhǎng)聘教授、博士生導(dǎo)師,國(guó)家杰出青年基金獲得者。多年從事生物信息學(xué)、醫(yī)學(xué)信息學(xué)領(lǐng)域的研究。課題組經(jīng)過(guò)多年積累,發(fā)表多篇關(guān)于生物醫(yī)學(xué)大數(shù)據(jù)處理的研究論文。同時(shí)在醫(yī)學(xué)文本自然語(yǔ)言處理、疾病表型、醫(yī)學(xué)本體、知識(shí)圖譜方面進(jìn)行了非常深入的研究。此外,在解決重大疾病科學(xué)問(wèn)題中對(duì)生物信息學(xué)、醫(yī)學(xué)信息學(xué)等進(jìn)行多學(xué)科、多方法的交叉融合也是課題組重要的研究方向。通信方式:taijiao@ibms.pumc.edu.cn。