陳召霞 黃雪群 雷永健 劉道文 季東 劉雯姍 沈恩璐 渠田田 馮鐵男
[摘要]?目的?設(shè)計一種更有效的方法提升臨床數(shù)據(jù)中非結(jié)構(gòu)數(shù)據(jù)的提取率以供臨床應用。方法?基于真實的病案數(shù)據(jù),設(shè)計病案數(shù)據(jù)模塊化解析法結(jié)合混合算法抽取指標集結(jié)果,通過人工與自動化校驗相結(jié)合的方法驗證抽取結(jié)果。結(jié)果?該方法已在專病庫數(shù)據(jù)平臺實現(xiàn),10份患者病案的指標集一致率(召回率)為99%,填充率為91.8%。結(jié)論?該方法提升了非結(jié)構(gòu)化病案數(shù)據(jù)提取率和一致率,相較純算法效果明顯。
[關(guān)鍵詞]?臨床病案數(shù)據(jù)模塊化;構(gòu)建語義標簽確定模型;語料庫;填充率
[中圖分類號]?N37????[文獻標識碼]?A????[DOI]?10.3969/j.issn.1673-9701.2024.17.021
病程記錄、手術(shù)記錄等非結(jié)構(gòu)化數(shù)據(jù)中包含大量診療信息,但這些數(shù)據(jù)無法直接用于研究分析,需要進行數(shù)據(jù)清洗和提取才能使用[1]。但準確、全面提取這些信息費時費力,即使引入算法仍然很難達到研究所需數(shù)據(jù)標準[2]。如何高效高質(zhì)從非結(jié)構(gòu)化數(shù)據(jù)中提取符合研究標準的數(shù)據(jù)是提升臨床研究效率的關(guān)鍵技術(shù)[3]。本研究參考現(xiàn)有的臨床數(shù)據(jù)采集協(xié)調(diào)標準(clinical?data?acquisition?standards?harmonization,CDASH)模塊定義,結(jié)合臨床病案數(shù)據(jù)分布規(guī)律,提出了一種將臨床病案數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的方法?,F(xiàn)以宮頸癌病案為研究對象,進行策略驗證和效用評估,為非結(jié)構(gòu)病案中的數(shù)據(jù)抽取提供參考。
1??資料與方法
1.1??非結(jié)構(gòu)臨床數(shù)據(jù)解析現(xiàn)況分析
目前主流非結(jié)構(gòu)臨床數(shù)據(jù)提取方法是將以自然語言方式記錄的醫(yī)療文檔按照醫(yī)學術(shù)語的要求進行系統(tǒng)分析,最終以關(guān)系型(或者面向?qū)ο蟮模┙Y(jié)構(gòu)將這些語義數(shù)據(jù)輸入到數(shù)據(jù)庫中[4]。目前已有大量語義分析大模型(如Convolutional?Neural?Network,Binary?Neural?Networks等),但都很難直接用于醫(yī)療數(shù)據(jù)解析[5]。主要原因在于醫(yī)療文字描述有很強的特異性,常規(guī)的語義分析大模型缺少病案文本訓練,對醫(yī)療文檔的提取率和一致率都非常低。為進一步發(fā)揮算法,則需要醫(yī)療專業(yè)人員對數(shù)據(jù)進行預處理,并進一步構(gòu)建符合疾病特性的“語料庫”,參考標準臨床研究體系,形成專業(yè)性更強的數(shù)據(jù)治理流程[6]。
1.2??非結(jié)構(gòu)臨床數(shù)據(jù)解析方案
為解決數(shù)據(jù)提取率和一致率低的問題,本方法設(shè)計了一種提升數(shù)據(jù)提取率的策略:參考CDASH標準模塊對現(xiàn)有病案數(shù)據(jù)進行模塊化標記,即模塊化病案解析法,先按照CDASH標準模塊標注數(shù)據(jù)在病案中對應的模塊,再對每個模塊中的樣本病案信息進行標注,構(gòu)建語義標簽確定模型,從而提升數(shù)據(jù)提取率。CDASH是臨床數(shù)據(jù)交換標準協(xié)會(Clinical?Data?Interchange?Standards?Consortium,CDISC)建立的標準之一,定義了臨床試驗數(shù)據(jù)采集的基本標準,用于簡化并規(guī)范臨床研究中的數(shù)據(jù)采集過程。具體流程見圖1。
非結(jié)構(gòu)臨床數(shù)據(jù)解析方案共分為4步。第1步,根據(jù)近5年相關(guān)臨床研究的文獻、指南、專家共識等確定指標集;第2步,醫(yī)療團隊和技術(shù)團隊共同參與,進行病案解析和采集數(shù)據(jù)。即醫(yī)學團隊開啟樣本病案模塊和語義標注,構(gòu)建語義標簽確定模型。技術(shù)團隊同步采集數(shù)據(jù),制定數(shù)據(jù)清洗規(guī)則;第3步,技術(shù)團隊批量結(jié)構(gòu)化病案、清洗數(shù)據(jù),結(jié)合混合算法抽取指標集結(jié)果;第4步,自動化校驗工具驗證抽取結(jié)果的準確率(一致率=指標自動填充結(jié)果與人工抽取結(jié)果一致的數(shù)量/人工抽取總數(shù),填充率=指標自動填充數(shù)量/人工抽取數(shù)量),人工抽檢驗證召回率和填充率。根據(jù)每次的抽檢結(jié)果回溯問題,直至數(shù)據(jù)質(zhì)量合格(應填指標填充率>80%,一致率為100%)后結(jié)束評估。人工質(zhì)控方法:①對照組抽樣:人工隨機抽取10份樣本,統(tǒng)計抽取結(jié)果;②實驗組抽樣:從數(shù)據(jù)庫導出同樣10份樣本數(shù)據(jù);③質(zhì)控合格標準:實驗組結(jié)果與對照組結(jié)果一致率(召回率)達100%(偏差≤–5%,偏差僅適用于自然語言類描述性指標集結(jié)果),應填指標填充率≥80%。
2??結(jié)果
2.1??CDASH模塊和臨床數(shù)據(jù)模塊的映射關(guān)系
以CDASH為基礎(chǔ)構(gòu)建臨床病案數(shù)據(jù)模塊,探索指標集在病案中的分布規(guī)律,建立指標集和CDASH域之間的映射關(guān)系,見表1。
2.2??梳理語料庫和語義結(jié)構(gòu)樹
映射關(guān)系建立后,需要進一步對非結(jié)構(gòu)化文本數(shù)據(jù)進行解析,構(gòu)建病種語料庫,為統(tǒng)計語言學模型做語言加工準備,用來提高程序解讀病案中相關(guān)詞匯和語義的能力,為后續(xù)數(shù)據(jù)提取做準備。首先,在基于領(lǐng)域本體的語義分類框架基礎(chǔ)上,對病案語料進行深層次語義加工,建立語義結(jié)構(gòu)樹,見圖2。其次,根據(jù)病種特征總結(jié)術(shù)語和常見句式,標記語義標簽。最終,確定病種代表性敘述、文本斷句標志等特征,從而發(fā)現(xiàn)可能的規(guī)律構(gòu)造等價抽取規(guī)則。語料庫不能直接套用模板,因為病案的主體內(nèi)容一般采用自然語言記錄,不同詞可表達相同意思,同一個詞在不同領(lǐng)域也會有不同意思[7]。每個專科和每種疾病有共性,又具有不同的特性,每個課題組的研究方向也相對獨立,對數(shù)據(jù)收集也各有其特殊要求[8]。直接套用模板只會降低匹配度,因此需要結(jié)合病種特征和所屬醫(yī)院真實病案進行分析標記,才能構(gòu)建出匹配項目需求的語料庫。
語義歸納結(jié)果直接影響語義映射效果,從而影響數(shù)據(jù)填充率和一致率。以宮頸癌病種為例,病案中術(shù)語會出現(xiàn)簡稱、全稱或醫(yī)療行業(yè)通用描述,也可能是僅在該院內(nèi)使用的簡稱。因此術(shù)語、句式等的歸納一定要詳盡規(guī)范。
2.3??優(yōu)化數(shù)據(jù)提取結(jié)果
以宮頸癌病種為例,運用純算法提取數(shù)據(jù)時,提取率不足50%,經(jīng)過策略優(yōu)化之后,提取率超過了90%。這是因為純算法只適用于部分結(jié)構(gòu)化病案的數(shù)據(jù)提取,病案中涉及診療細節(jié)的主體內(nèi)容大都以自然語言方式記錄,很難做到基于統(tǒng)一、嚴格的表格形式來結(jié)構(gòu)化[9]。其次中文語義復雜和個人表達習慣不同等因素,造成機器抓取數(shù)據(jù)的精準率不高,這就需要更多人工參與病案解析去輔助構(gòu)建病案文本語義模型[4]。
2.4??結(jié)果分析與驗證
人工抽取10份樣本做全量質(zhì)控,每個樣本397個指標,理論抽取總數(shù)3970個,實際抽取1537個。首次人工質(zhì)控結(jié)果:數(shù)據(jù)庫導出1251個結(jié)果,抽取率為81.3%,一致率為97.7%(小部分數(shù)據(jù)識別不全)。第2次人工質(zhì)控結(jié)果:經(jīng)過對首次抽取結(jié)果的分析和方案修改,此次導出1401個結(jié)果,抽取率為91.1%,一致率為99.0%。第3次人工質(zhì)控結(jié)果:針對第2次出現(xiàn)的問題修改方案,此次導出1411個結(jié)果,抽取率為91.8%,一致率為99.0%。由于部分指標提取結(jié)果識別不全或是無法直接提取,導致填充率略低于人工提取率。
3次質(zhì)控結(jié)果表明:每次方案調(diào)整,填充率都不斷接近人工提取率。首次質(zhì)控是為了驗證指標集填充是否完全覆蓋人工錄入的指標集范圍,填充結(jié)果是否與源數(shù)據(jù)一致,以及分析填充不全和填充錯誤的原因;第2次質(zhì)控是為了驗證修改方案是否可行以及是否還有其他問題;第3次質(zhì)控是對第2次質(zhì)控的查漏補缺,防止遺漏可填充指標集,或指標集填充結(jié)果不全。一般經(jīng)過3輪人工抽樣質(zhì)控基本可以判定自動填充結(jié)果是否趨于穩(wěn)定。若首輪質(zhì)控不嚴謹,或第2輪方案調(diào)整不合理,則第3輪數(shù)據(jù)質(zhì)量依然難以合格,就需要進行第4輪或多輪人工抽樣質(zhì)控,直至數(shù)據(jù)質(zhì)量達標。建議根據(jù)填充實際情況制定質(zhì)控方案,防止方案偏離導致無效質(zhì)控。
3??討論
本研究方法已達到質(zhì)控合格標準,一致率為99.0%,填充率為91.8%。而未進行病案解析之前,自動填充率不足50.0%,一致率不足70.0%。在采用了模塊化病案解析法與混合算法相結(jié)合的數(shù)據(jù)抽取方法后,實現(xiàn)了從結(jié)構(gòu)化和非結(jié)構(gòu)化病案文本中抽取符合科研需求的數(shù)據(jù),與純算法比對效果較好。此結(jié)論已在22家醫(yī)院45個專病項目的數(shù)據(jù)質(zhì)量調(diào)研中被證實。調(diào)研結(jié)果表明,開展過病案解析的項目數(shù)據(jù)質(zhì)量遠高于未進行病案解析或病案解析不充分的項目。45個項目中10個項目分別做了不同程度的病案解析,其數(shù)據(jù)質(zhì)量與病案解析程度呈一致性[10]。
基于CDASH標準的模塊化病案解析法,是根據(jù)每個病種的獨特性對其進行量身定制的數(shù)據(jù)預處理方法,能更好地輔助數(shù)據(jù)解析、清洗過程[11]。該方法要求團隊人員需具備專業(yè)醫(yī)學背景和數(shù)據(jù)處理技術(shù),目前大多數(shù)技術(shù)團隊在數(shù)據(jù)解析過程中缺乏深層次的病案文本標記和臨床醫(yī)學專業(yè)人員,也無專業(yè)醫(yī)學指導,這是該方法在實操中比較常見的的局限性。其次大多數(shù)團隊純靠算法進行提取,對自然語言類病案無法精準匹配指標集及有效質(zhì)控,從而導致填充率和一致率普遍偏低的現(xiàn)象。該方法強調(diào)了質(zhì)控的必要性和重要性,尤其需要注意人工質(zhì)控的方案調(diào)整[12]。因此,本方法對結(jié)構(gòu)化病案采用算法提取,對不能提取的部分結(jié)構(gòu)化病案和非結(jié)構(gòu)化病案使用模塊化病案解析法輔助混合算法進行提取。
語料庫無論在基于規(guī)則的數(shù)據(jù)抽取還是構(gòu)建模型等機器學習方法中都不可或缺[13]。目前可用的標準化病案語料非常稀缺,這是目前非結(jié)構(gòu)化病案數(shù)據(jù)不能被有效利用的關(guān)鍵因素。不管是作為主要使用者的醫(yī)院,還是創(chuàng)建語料庫的團隊,雙方均缺乏專業(yè)人員和資源構(gòu)建豐富、全面的語料庫。新醫(yī)科建設(shè)倡導進行交叉學科研究,“醫(yī)+工”甚至“醫(yī)+文”交叉成為創(chuàng)建病案語料庫的新型模式,通過技能互補,構(gòu)建高質(zhì)量病案語料庫[14]。
綜上所述,在方法實施中發(fā)現(xiàn)病案數(shù)據(jù)模塊化標記可以為數(shù)據(jù)遷移、病案管理、疾病預測模型等提供參考。病案數(shù)據(jù)模塊化標記參照CDASH標準,可以為將來數(shù)據(jù)遷移做準備[15]。模塊化文本標記明確了病案管理和病案結(jié)構(gòu)化的需求,既可以為臨床制定結(jié)構(gòu)化病案提供指導,又可以為技術(shù)人員設(shè)計結(jié)構(gòu)化模板提供參考,同時輔助病案管理[16]。另外語料庫還可以輔助建立疾病預測模型,達到輔助診斷的效果[17]。
利益沖突:所有作者均聲明不存在利益沖突。
[參考文獻]
[1] 包小源,?黃婉晶,?張凱,?等.?非結(jié)構(gòu)化電子病歷中信息抽取的定制化方法[J].?北京大學學報:?醫(yī)學版,?2018,?50(2):?8.
[2] 謝維佳,?王映濤.?電子病歷系統(tǒng)中檢驗數(shù)據(jù)信息抽取研究[J].?中國數(shù)字醫(yī)學,?2015,?10(3):?3.
[3] N?V?OL?A,?ZWEIGENBAUM?P.?Clinical?natural?language?processing?in?2015:?Leveraging?the?variety?of?texts?of?clinical?interest[J].?Yearbook?Med?Inform,?2016,?25(1):?234–239.
[4] 韋玉芳,?施維,?尚于娟,?等.?基于電子病歷數(shù)據(jù)的臨床表型提取及其應用進展[J].?醫(yī)學信息學雜志,?2017,?38(8):?5.
[5] 王辰,?李明,?馬金剛.?電子病歷關(guān)系抽取綜述[J].?計算機工程與應用,?2023,?59?(16):?63–73.
[6] 李憶昕,?張穎,?王鈺瑩,?等.?電子病歷歷史數(shù)據(jù)的提取及在醫(yī)學臨床教學中的應用[J].?中國信息技術(shù)教育,?2019(15):?3.
[7] 王燦輝,?張敏,?馬少平.?自然語言處理在信息檢索中的應用綜述[J].?中文信息學報,?2007,?21(2):?11.
[8] 李慧杰,?張晴晴,?劉瑞紅,?等.?大數(shù)據(jù)背景下臨床專病數(shù)據(jù)庫建設(shè)實踐與思考[J].?中國衛(wèi)生事業(yè)管理,?2020,?37(8):?4.
[9] 杜晉華,?尹浩,?馮嵩.?中文電子病歷命名實體識別的研究與進展[J].?電子學報,?2022,?50(12):?3030–3053.
[10] 牛承志,?駱鑫,?趙丹.?臨床科研數(shù)據(jù)抽取研究[J].?醫(yī)學信息學雜志,?2020,?41(7):?25–28.
[11] 印冠錦,?張夢陽,?吳惠庶,?等.?真實世界數(shù)據(jù)相關(guān)標準體系研究與應用進展[J].?醫(yī)學信息學雜志,?2022,?43(6):?30–35.
[12] 崔博文,?金濤,?王建民.?自由文本電子病歷信息抽取綜述[J].?計算機應用,?2021,?41(4):?1055–1063.
[13] 楊錦鋒,?關(guān)毅,?何彬,?等.?中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J].?軟件學報,?2016,?27(11):?2725–2746.
[14] 冷冰.?近二十年國內(nèi)醫(yī)藥英語相關(guān)語料庫建設(shè)回顧與展望[J].?現(xiàn)代英語,?2023(3):?4.
[15] 杜賓,?王明文.?跨平臺數(shù)據(jù)遷移的研究和實現(xiàn)[J].?計算機與現(xiàn)代化,?2001(6):?6.
[16] 羅輝,?薛萬國,?喬屾.?大數(shù)據(jù)環(huán)境下醫(yī)院科研專病數(shù)據(jù)庫建設(shè)[J].?解放軍醫(yī)學院學報,?2019,?40(8):?6.
[17] WENBO?D,?SHILIANG?S?U?N,?MINZHI?Y?I?N.?Research?and?development?of?medical?knowledge?graph?reasoning[J].?J?Front?Comput?Sci?Technol,?2022,?16(6):?1193.
(收稿日期:2023–12–11)
(修回日期:2024–04–16)