榮雯雯,汪 剛,朱其立
1. 上海市胸科醫(yī)院,上海交通大學(xué)附屬胸科醫(yī)院統(tǒng)計(jì)中心,上海 200030;2. 上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240
在當(dāng)下的大數(shù)據(jù)時(shí)代,數(shù)據(jù)可通過挖掘來實(shí)現(xiàn)其自身的價(jià)值[1]。作為臨床診療活動(dòng)的重要場(chǎng)所,醫(yī)院應(yīng)當(dāng)充分利用其院內(nèi)海量的醫(yī)療數(shù)據(jù),供醫(yī)師開展相關(guān)臨床研究,挖掘出深層次的規(guī)律[2]。有報(bào)道[3]顯示,加強(qiáng)與重視醫(yī)院的臨床研究的開展,不僅可以推動(dòng)臨床上新技術(shù)的發(fā)展,還能夠提高診療水平。目前,絕大多數(shù)醫(yī)師收集科研數(shù)據(jù)仍需要從病案室借閱病歷,再通過手工記錄加以整理;即使部分醫(yī)院已實(shí)現(xiàn)了電子病歷無紙化,即將病案首頁(yè)中的結(jié)構(gòu)化數(shù)據(jù)整理成數(shù)據(jù)庫(kù),但對(duì)于電子病歷文本中的大量非結(jié)構(gòu)化數(shù)據(jù)的使用,仍需要醫(yī)師通過手動(dòng)來查找。一方面,手工查找費(fèi)時(shí)費(fèi)力,效率較低[4];另一方面,通過該種方式使用如此海量的醫(yī)療數(shù)據(jù),或?qū)⒔o臨床研究造成極大的信息資源浪費(fèi)。因此,如何通過人工智能(artificial intelligence,AI)實(shí)現(xiàn)對(duì)電子病歷文本信息的有效利用,以輔助臨床醫(yī)師挖掘醫(yī)學(xué)規(guī)律、提高臨床診療水平成為了當(dāng)下的研究熱點(diǎn)[5]?;诖?,本研究以某三甲??漆t(yī)院為例,通過采用AI 技術(shù)將電子病歷文本信息結(jié)構(gòu)化形成數(shù)據(jù)庫(kù),以期為臨床研究的順利開展提供價(jià)值支撐。
為進(jìn)一步提升某三甲??漆t(yī)院臨床研究的廣度和深度,在保障數(shù)據(jù)安全、準(zhǔn)確及完整的前提下,收集2007年10 月—2019 年9 月于該三甲??漆t(yī)院就診患者的全部電子病歷文本信息。
1.2.1 專病數(shù)據(jù)庫(kù)的系統(tǒng)設(shè)計(jì) 采用基于容器技術(shù)的分布式架構(gòu)(Kubernetes,K8s)實(shí)現(xiàn)對(duì)專病數(shù)據(jù)庫(kù)的建設(shè)。該平臺(tái)能夠采集醫(yī)院現(xiàn)有的業(yè)務(wù)應(yīng)用系統(tǒng)[如醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實(shí)驗(yàn)室信息系統(tǒng)(laboratory information system,LIS)、放射信息系統(tǒng)(radiology information system,RIS)、電子病歷系統(tǒng)(electronic medical record,EMR)等]的臨床數(shù)據(jù),從而實(shí)現(xiàn)患者從門診、急診、住院及隨訪等的就診、住院及預(yù)后信息的集成。其臨床數(shù)據(jù)采集范圍包括出院小結(jié)、病案首頁(yè)、手術(shù)記錄、檢查檢驗(yàn)報(bào)告、病程記錄等。通過自然語(yǔ)言處理、知識(shí)圖譜、機(jī)器學(xué)習(xí)等AI 引擎實(shí)現(xiàn)各類醫(yī)學(xué)文本數(shù)據(jù)的結(jié)構(gòu)化、標(biāo)準(zhǔn)化和歸一化等處理。該專病數(shù)據(jù)庫(kù)的設(shè)計(jì)將為臨床研究提供專病概覽、智能科研檢索、隊(duì)列發(fā)現(xiàn)、科研統(tǒng)計(jì)分析等功能模塊。其系統(tǒng)設(shè)計(jì)見 圖1。
圖1 專病數(shù)據(jù)庫(kù)的系統(tǒng)設(shè)計(jì)流程圖Fig 1 System design flowchart of specialized disease database
1.2.2 專病數(shù)據(jù)庫(kù)實(shí)現(xiàn)的關(guān)鍵技術(shù)
(1)復(fù)制技術(shù)和變更捕獲技術(shù) 在專病數(shù)據(jù)庫(kù)的建設(shè)過程中,需采用數(shù)據(jù)庫(kù)復(fù)制技術(shù)和變更數(shù)據(jù)捕獲(change data capture,CDC)技術(shù)建立實(shí)時(shí)復(fù)制庫(kù),在復(fù)制庫(kù)中進(jìn)行實(shí)時(shí)數(shù)據(jù)集成。數(shù)據(jù)庫(kù)復(fù)制的方式包括2 種,即關(guān)系型數(shù)據(jù)庫(kù)SQL Server(structured query language server )利用發(fā)布訂閱的方式進(jìn)行復(fù)制,以及Oracle GoldenGate[6]數(shù)據(jù)復(fù)制技術(shù)。在復(fù)制數(shù)據(jù)庫(kù)的同時(shí),采用CDC 技術(shù)對(duì)日志文件(任何操作都會(huì)寫進(jìn)其中)中發(fā)生變更的數(shù)據(jù)進(jìn)行實(shí)時(shí)捕獲,如增、刪、改等操作。該技術(shù)會(huì)把更改應(yīng)用到數(shù)據(jù)文件中,同時(shí)將符合要求的數(shù)據(jù)標(biāo)記為需要添加跟蹤的項(xiàng)。數(shù)據(jù)實(shí)時(shí)集成的技術(shù)架構(gòu)見圖2。
圖2 數(shù)據(jù)實(shí)時(shí)集成的技術(shù)架構(gòu)圖Fig 2 Technical architecture diagram of real-time data integration
(2)醫(yī)學(xué)自然語(yǔ)言處理 基于醫(yī)院的海量病歷文書,使用無監(jiān)督學(xué)習(xí)、監(jiān)督式學(xué)習(xí)、主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)等機(jī)器學(xué)習(xí)方法建立一整套針對(duì)中文醫(yī)學(xué)文本的分層式自然語(yǔ)言處理(natural language processing,NLP)系統(tǒng),對(duì)醫(yī)學(xué)文本進(jìn)行信息抽取、結(jié)構(gòu)化轉(zhuǎn)換以及標(biāo)準(zhǔn)化處理,包括醫(yī)學(xué)文本分詞、醫(yī)學(xué)詞性標(biāo)記、醫(yī)學(xué)命名實(shí)體識(shí)別、實(shí)體標(biāo)準(zhǔn)化和實(shí)體關(guān)系抽取、醫(yī)學(xué)文本語(yǔ)義依存分析等環(huán)節(jié)。① 醫(yī)學(xué)文本分詞:對(duì)電子病歷文本采用IKAnalyzer 開源分詞工具[7],按照正向最大匹配法將文本中的字符串與充分大的機(jī)器詞典的詞條進(jìn)行匹配。若在詞典中找到某一長(zhǎng)度的字符串,則匹配成功。②醫(yī)學(xué)詞性標(biāo)記:采用基于規(guī)則的標(biāo)注方法[8],對(duì)電子病歷文本中的每個(gè)詞的詞性加以標(biāo)注。③醫(yī)學(xué)命名實(shí)體識(shí)別:醫(yī)學(xué)領(lǐng)域中的命名實(shí)體包括疾病名稱、藥物名稱、檢查項(xiàng)目名稱、手術(shù)操作名稱、癥狀、器官部位等,采用融合注意機(jī)制(Attention)的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)[9]設(shè)計(jì)的主動(dòng)型深度學(xué)習(xí)對(duì)醫(yī)學(xué)命名實(shí)體進(jìn)行識(shí)別,平均精度可超過97%。④實(shí)體標(biāo)準(zhǔn)化和實(shí)體關(guān)系抽?。翰捎脵C(jī)器學(xué)習(xí)法實(shí)現(xiàn)對(duì)實(shí)體標(biāo)準(zhǔn)化和實(shí)體關(guān)系的抽取。⑤醫(yī)學(xué)文本語(yǔ)義依存分析:包括確信度分類、時(shí)序解析、關(guān)聯(lián)抽取、語(yǔ)義樹構(gòu)建的整套流程,針對(duì)各種內(nèi)容和類型的醫(yī)學(xué)文本的行文方式建立語(yǔ)言學(xué)模型,并以結(jié)構(gòu)學(xué)習(xí)的形式完成端對(duì)端的解析,信息抽取覆蓋度占文本內(nèi)包含可提取信息的96%以上。
(3)數(shù)據(jù)質(zhì)量評(píng)估 專病數(shù)據(jù)庫(kù)建成后,定期進(jìn)行數(shù)據(jù)完整性和準(zhǔn)確性評(píng)估,即根據(jù)不同病種的實(shí)際特點(diǎn),采用標(biāo)準(zhǔn)化AI 自動(dòng)糾錯(cuò)功能,將糾錯(cuò)后數(shù)據(jù)與原數(shù)據(jù)進(jìn)行對(duì)比查詢,追溯到前端系統(tǒng),以提高數(shù)據(jù)錄入的準(zhǔn)確性;同時(shí),還需從專病數(shù)據(jù)庫(kù)中隨機(jī)抽調(diào)數(shù)據(jù),與目前的病案首頁(yè)系統(tǒng)中的數(shù)據(jù)進(jìn)行比對(duì),以確保數(shù)據(jù)的準(zhǔn) 確性。
當(dāng)前,本研究已完成肺癌、食管癌、縱隔腫瘤3 個(gè)專病全量數(shù)據(jù)庫(kù)的建設(shè),包含2007—2019 年肺癌就診患者71 263 例、食管癌就診患者5 883 例、縱隔腫瘤就診患者5 438 例,住院文書記錄結(jié)構(gòu)化數(shù)量253 000 條,形成3 個(gè)專病相關(guān)變量集,即肺癌包含485 個(gè)變量、食管癌559 個(gè)變量、縱隔腫瘤481 個(gè)變量,自動(dòng)填充率為40%~56%。與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,該專病數(shù)據(jù)庫(kù)存在如下優(yōu)勢(shì):①實(shí)現(xiàn)了臨床文本信息的后結(jié)構(gòu)化,擴(kuò)大了檢索范圍即支持全文本檢索,解決了臨床研究中數(shù)據(jù)采集范圍受限的問題。②不僅支持按照已設(shè)定的變量進(jìn)行數(shù)據(jù)檢索,還支持關(guān)鍵字模糊檢索,從而縮短了檢索周期,提升了臨床研究中數(shù)據(jù)檢索的效率。③解決了數(shù)據(jù)沉淀不足導(dǎo)致無法直接使用的問題,滿足了臨床醫(yī)生的科研需求。具體應(yīng)用實(shí)例見 圖3 ~圖5。
截至2019 年底,申請(qǐng)使用該數(shù)據(jù)庫(kù)的前3 個(gè)科室分別為呼吸科、放療科及腫瘤外科,申請(qǐng)次數(shù)分別為9、4和2 次;已有多位臨床醫(yī)師利用專病數(shù)據(jù)庫(kù)中預(yù)處理后的數(shù)據(jù)構(gòu)建臨床事件的預(yù)測(cè)模型,并采用機(jī)器學(xué)習(xí)的方式對(duì)疾病的發(fā)生及發(fā)展等影響因素進(jìn)行多因素分析;同時(shí),也有部分臨床醫(yī)師采用數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行臨床隊(duì)列研究。目前,已有臨床醫(yī)師利用專病數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行胸腔鏡肺手術(shù)轉(zhuǎn)開胸的危險(xiǎn)因素及影響的研究,并成功發(fā)表文章。
圖3 專病數(shù)據(jù)庫(kù)變量選擇的界面Fig 3 Interface of variable selection of specialized disease database
圖4 病理報(bào)告中關(guān)鍵詞的檢索結(jié)果Fig 4 Retrieval results of key words in pathological reports
圖5 檢索結(jié)果溯源、定位顯示的界面Fig 5 Interface for tracing and displaying of search results
本研究就病歷文本信息進(jìn)行二次利用,構(gòu)建專病數(shù)據(jù)庫(kù)。與建設(shè)前相比,該數(shù)據(jù)庫(kù)存在如下優(yōu)勢(shì):①支持全文本數(shù)據(jù)檢索及關(guān)鍵字模糊匹配檢索,極大地縮短了檢索周期,減輕了臨床醫(yī)師數(shù)據(jù)整理的負(fù)擔(dān)。②檢出的數(shù)據(jù)可直接用于基本的統(tǒng)計(jì)描述功能如性別比、年齡構(gòu)成等,從而為臨床研究提供了病歷篩選和數(shù)據(jù)分析的模型支持,滿足科研需求。③隨著院外隨訪數(shù)據(jù)與該數(shù)據(jù)庫(kù)的成功對(duì)接,可直接使用預(yù)處理后的海量原始數(shù)據(jù)進(jìn)行臨床隊(duì)列研究訓(xùn)練,實(shí)現(xiàn)對(duì)研究對(duì)象的全面分析,獲得更充分的研究結(jié)果。
然而,在專病數(shù)據(jù)庫(kù)的建設(shè)過程中也遇到一些困難:①針對(duì)同一種特征描述,醫(yī)師有多種寫法。例如,對(duì)于陰性癥狀的描述,則有“否認(rèn)某癥狀”“無某癥狀”“某癥狀(-)”“未觸及某癥狀”等。需向NLP 系統(tǒng)提供更高的提取精度、歸一化術(shù)語(yǔ)表達(dá),實(shí)現(xiàn)醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化。②提取變量時(shí)存在部分字段缺失。需通過缺失值填補(bǔ)形成智能化數(shù)據(jù)庫(kù),以提高數(shù)據(jù)完整性。③在建成初期,數(shù)據(jù)庫(kù)系統(tǒng)不穩(wěn)定導(dǎo)致數(shù)據(jù)調(diào)取時(shí)間延遲等。需及時(shí)向技術(shù)人員進(jìn)行反饋并加以維護(hù),同時(shí)需提高技術(shù)人員工作的嚴(yán)謹(jǐn)性。此外,該數(shù)據(jù)庫(kù)也存在一些不足,如在數(shù)據(jù)抽取的方法上,未來可采用準(zhǔn)確率更高的方法,即考慮結(jié)合深度學(xué)習(xí)相關(guān)的算法模型等,更加充分地利用數(shù)據(jù)本身的特征實(shí)現(xiàn)信息化抽取。綜上,專病數(shù)據(jù)庫(kù)的建設(shè)是一個(gè)不斷探索的過程,需逐步積累經(jīng)驗(yàn)、學(xué)習(xí)新的信息化技術(shù),未來或?qū)榕R床研究提供有力的價(jià)值支撐。
參·考·文·獻(xiàn)
[1] 劉利釗, 洪江水, 劉莉莉, 等. 面向大數(shù)據(jù)圖像處理的尺度空間挖掘算法及應(yīng)用[J]. 上海交通大學(xué)學(xué)報(bào), 2015, 49(11): 1731-1735.
[2] 王忠慶, 邵尉, 彭程, 等. 醫(yī)療大數(shù)據(jù)時(shí)代對(duì)醫(yī)院統(tǒng)計(jì)工作的新思考[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2015, 32(3): 542-543.
[3] 王藜篥. 加強(qiáng)醫(yī)院科研發(fā)展與管理對(duì)提升醫(yī)院核心競(jìng)爭(zhēng)力的影響[J]. 中國(guó)衛(wèi)生產(chǎn)業(yè), 2017, 14(16): 126-127.
[4] 甘霖. 基于云計(jì)算的電子病歷全文檢索系統(tǒng)[J]. 中國(guó)數(shù)字醫(yī)學(xué), 2016, 11(12): 41-43.
[5] 彭紅波, 韓晟, 王婷婷. 基于Solr的電子病歷全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)醫(yī)療設(shè)備, 2019, 34(3): 102-105.
[6] 宓正宇. 基于Goldengate 的數(shù)據(jù)庫(kù)異地災(zāi)備實(shí)現(xiàn)[J]. 電信科學(xué), 2018, 34(4): 136-143.
[7] 柴潔. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實(shí)現(xiàn)[J]. 城市勘測(cè), 2014(6): 45-50.
[8] 彭濤, 戴耀康, 朱楓彤, 等. 一種基于規(guī)則的無監(jiān)督詞性標(biāo)注方法[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2015, 53(5): 956-962.
[9] 劉飛龍, 郝文寧, 陳剛, 等. 基于雙線性函數(shù)注意力Bi-LSTM 模型的機(jī)器閱讀理解[J]. 計(jì)算機(jī)科學(xué), 2017, 44(S1): 92-96, 122.