陳韻,王潔琳
(四川大學華西第二醫(yī)院,四川 成都 610066)
一個患者對應一份真實可靠又完整全面的醫(yī)療記錄,是醫(yī)療信息管理的一種理想狀態(tài)。這份醫(yī)療記錄在主數(shù)據(jù)管理(Master Data Management ,簡稱MDM)中被稱為單一最佳記錄(Single Best Record,簡稱SBR)或者金質記錄(Golden Record)。新生兒患者的SBR 不僅應該包含新生兒科、兒科,以及將來成年后的相關醫(yī)療數(shù)據(jù),而且應該包含其在產(chǎn)科出生時的記錄,甚至應該包含母親整個妊娠過程的數(shù)據(jù)的關聯(lián)。
但現(xiàn)實中,新生兒患者存在多次建卡并在HIS 中擁有多個患者標識號,每個患者標識號對應的醫(yī)療記錄都不是SBR。首先新生兒在產(chǎn)科出生時醫(yī)院會自動新建一個患者標識號,這個標識號與母親生產(chǎn)就診時相關聯(lián)。新生兒患者從產(chǎn)科出院再就診時,尤其是急診就診或急診入院,可能會再辦理一張新的就診卡,生成新的患者標識號,這個標識號與其在產(chǎn)科時的標識號無法直接關聯(lián)匹配。新生兒辦理出生證后,可能會以出生證號又再辦理一個患者標識號來就診;新生兒辦理戶口后,還可能會以身份證號再辦理一個患者標識號來就診。主動找醫(yī)院合并標識號的患兒數(shù)量占比非常小,大多數(shù)患兒直接使用新的標識號就診,舊的標識號可能不會再被使用。新生兒患者每次就診的醫(yī)療記錄被不同的患者標識號分割成多組檔案,給臨床查閱帶來困難,還可能造成數(shù)據(jù)統(tǒng)計分析失實。新生兒在兒科的就診數(shù)據(jù)也失去了與母親整個孕期數(shù)據(jù)的珍貴聯(lián)系,導致研究母親懷孕生產(chǎn)情況和新生兒病情、生長發(fā)育的多個科研項目因為提取不到關聯(lián)數(shù)據(jù)而難以進行。綜上所述,醫(yī)院迫切需要一個可以自動或者半自動合并新生兒患者標識號的平臺或模塊來解決上述問題。
企業(yè)級患者主索引(Enterprise Master Patient Index,EMPI),將來自多個系統(tǒng)或多個業(yè)務版本的患者標識進行關聯(lián),實現(xiàn)同一患者醫(yī)療信息的統(tǒng)一,最終保證一位患者只有一個全局唯一標識號(Global Patient Identifier,GUID)。每個患者GUID 對應唯一份最真實最可靠最全面的患者信息記錄,既SBR。EMPI 不僅可以解決患者在同個系統(tǒng)中存在多個標識號的關聯(lián)問題,而且可以整合同一患者在不同的院內(nèi)系統(tǒng)中的不同體系的患者標識號。根據(jù)中國醫(yī)院協(xié)會信息專業(yè)委員會在2019—2020年度對1 017 家醫(yī)院的EMPI 的建立和使用情況的調(diào)查與分析,建立了EMPI 和GUID 的醫(yī)院比例達到75.81%。傳統(tǒng)的EMPI 雖然能較好地處理成人患者和年齡較大的患兒的身份信息匹配,但是在新生兒患者身上卻無法使用。
傳統(tǒng)EMPI 一般使用證件號、姓名、性別、出生日期、電話號碼等,交叉匹配計算每兩個標識號的信息相似度值,再同閾值比較判斷兩個及兩個以上的患者標識是否屬于同一患者。兩個患者標識對應兩組信息x,x的加權相似度的計算公式如下:
指第個信息項,α指第個信息項對應的權重,Sim(x,x)指x,x中的第個信息項的相似度,相等時相似度為1,不等或者其一為空時相似度為0,對相似度加權求和就是x,x的整體相似度。
以國內(nèi)某著名醫(yī)療信息系統(tǒng)廠商提供的EMPI 為例,所用到的信息項權重如表1所示。
表1 傳統(tǒng)EMPI 所用關鍵信息項
當任意兩組患者信息相似度的達到相似推薦閾值(大于30%)時,說明對應的兩個患者標識可能屬于同一患者,推薦進行人工合并。
但是新生兒作為全新生命個體,短短幾個月時間從無身份編號到擁有出生證號、身份證號,其就診名字也可能從某某之嬰變成正式姓名。此外,婚姻對于新生兒來說是無效信息項,而證件號和姓名分別屬于靜態(tài)業(yè)務標識和靜態(tài)人口學特征,在相似度算法中的權重非常大。同一新生兒不同患者標識對應的信息相似度很難達到合理的閾值,往往無法匹配出完整的結果;降低閾值又會匹配出過多不準確的結果,給信息合并帶來干擾。因此,傳統(tǒng)的交叉匹配計算加權相似度的策略不適用于新生兒患者,EMPI 信息項需要針對新生兒重新設計和優(yōu)化。
綜合考慮了信息項的類型劃分、易獲取性和歷史數(shù)據(jù)的完整度,本文整理出新生兒EMPI 可以用到的信息項如表2所示。
表2 新生兒EMPI 所用關鍵信息項
表2中13 個信息項包含靜態(tài)人口學特征4 個,動態(tài)人口學特征5 個,以及靜態(tài)其他特征3 個。權重大小分配大致符合靜態(tài)人口學特征>=動態(tài)人口學特征>=靜態(tài)其他特征規(guī)律。其中,聯(lián)系人姓名1 是患兒母親(生母)的姓名,聯(lián)系人姓名2 是聯(lián)系人中不確定是否為母親的聯(lián)系人姓名,將它們區(qū)分開是為了給母親姓名更高的權重。此外,4 個電話綜合看作同一個信息項,兩組患者信息中所有電話交叉比較,兩組中任有一對電話相同這個信息項的相似度就是1,占整體相似度的10%;若完全沒有電話相同,這個信息項的相似度就是0。
這些信息項都非常容易獲得,不論是將來患兒再次就診時由家屬提供,還是從歷史數(shù)據(jù)中提取都可行。患者姓名、性別、出生日期、聯(lián)系人姓名、電話、現(xiàn)住址作為患者注冊時必填的基本項目,其歷史數(shù)據(jù)和未來錄入的數(shù)據(jù)都有一定的數(shù)據(jù)質量保證。產(chǎn)科新生兒可以通過分娩登記表關聯(lián)到母親作為聯(lián)系人姓名1。從2019年開始,我院逐步提升未成年患者信息表中保存母親的患者標識號的比例,通過母親的患者標識號也可以準確地獲得母親姓名。此外,孕周、分娩方式和多胎情況作為嬰兒出生時產(chǎn)生的關鍵信息,大多數(shù)患兒家屬能夠快速提供,可以考慮納入注冊基本信息由家屬填寫或選擇。歷史數(shù)據(jù)中的孕周、分娩方式和多胎情況可以從分娩登記表和電子病歷個人史、現(xiàn)病史中進行提取和整理。
本文選取了2019年至2021年在我院產(chǎn)科出生的所有嬰兒患者的信息63 043 條設為集合、我院產(chǎn)科出生后去了新生兒科但是患者標識改變了的患者的信息11 891 條設為集合(新生兒科電子病歷上個人史中包含患者出生醫(yī)院,以此篩選我院產(chǎn)科出生的患者),使用Kettle 工具從電子病歷和病案系統(tǒng)中提取這些患者標識對應的含上述13 個信息項的原始內(nèi)容,導入中間庫Oracle 進行后續(xù)處理。采用電子病歷和病案系統(tǒng)為數(shù)據(jù)源的原因是:病案系統(tǒng)會在患者出院后對電子病歷進行遷出和歸檔,歸檔后電子病歷中的數(shù)據(jù)不再發(fā)生變化,相當于關鍵信息項的一個信息快照。電子病歷數(shù)據(jù)示例如表3、表4所示。
表3 產(chǎn)科電子病歷數(shù)據(jù)示例
聯(lián)系人2陳**出生日期2019/01/26現(xiàn)住址電話183********戶口電話183********工作電話-聯(lián)系人電話183********現(xiàn)住址四川省成都市******孕周27分娩方式順產(chǎn)
表4 新生兒科電子病歷數(shù)據(jù)示例
觀察表3表4,會發(fā)現(xiàn)產(chǎn)科、新生兒科電子病歷的原始內(nèi)容無法直接進行匹配,需要先進行處理才能成標準的13個信息項才可以使用。處理的過程包括數(shù)據(jù)解析、數(shù)據(jù)清洗、整合與去重、統(tǒng)一值域等。
數(shù)據(jù)解析:產(chǎn)科電子病歷數(shù)據(jù)與目標數(shù)據(jù)結構基本一樣,但是新生兒科電子病歷數(shù)據(jù)需要從個人史和現(xiàn)病史中拆分出孕周和分娩方式。本文用到的文字解析方法是關鍵詞劃分,比如再個人史中通過截取“孕周”和第N 個“周”之間的字符,然后通過正則表達式判斷需要的部分,刪除不需要的部分,來得出最終的孕周數(shù)字“27”。對于更復雜的情況,可以借助NLP 工具來進行處理。
數(shù)據(jù)清洗:數(shù)據(jù)清洗的過程可能不止一次,依據(jù)數(shù)據(jù)的情況而定。比如人名、電話、地址中也存在無效字符、多余空格等問題,這些可以使用SQL 查詢腳本進行去除與置空。
整合與去重:每個新生兒的產(chǎn)科出生病歷只有一份,但是一些新生兒可能會有多次新生兒科的就診。對于同個院內(nèi)患者標識的新生兒病歷數(shù)據(jù)只需要整理出一份最全的目標信息項即可。
統(tǒng)一值域:已表3表4為例,新生兒科記錄分娩方式為經(jīng)陰道分娩,但是在產(chǎn)科記錄的是順產(chǎn),其實是同種分娩方式的不同表達。兩組數(shù)據(jù)的分娩方式需要先轉換成同一個標準值域才能進行匹配。
數(shù)據(jù)處理完畢后,本實驗使用上文提到的相似度計算公式計算每一條記錄的相似度值Sim(,),其中∈,∈。接下來設置閾值,在不同閾值下匹配出結果,結果會存在下述兩類錯誤。
第一類錯誤概率:在集合中沒有匹配到對應的,即我院產(chǎn)科出生的新生兒科患者匹配不到其在產(chǎn)科創(chuàng)建的患者信息的概率。
第二類錯誤概率:在集合中匹配到的實際上不是同一人的概率,即匹配結果錯誤的概率。
實驗采用5%的間隔逐步升高閾值,匹配出結果,計算出第一類錯誤,然后按照1%的比例隨機抽取匹配結果,通過人工核對嬰兒電子病歷信息、嬰兒腳掌印等方式去判斷匹配結果是否正確,計算出第二類錯誤的概率。然后根據(jù)不同閾值所對應的第一類錯誤概率和第二類錯誤概率繪出模型效果評價圖如圖1所示。
圖1 模型效果評價
觀察圖片得知第一類錯誤與第二類錯誤此消彼長,當閾值在45%時,兩者相較達到平衡,此時第一類錯誤和第二類錯誤分別為4.07%和3.03%,滿足大多數(shù)統(tǒng)計分析的顯著性要求。此結果可以運用在科研分析平臺中,對歷史數(shù)據(jù)進行有效整合,提高醫(yī)療健康檔案的連續(xù)性和完整性。
表5 非單胎新生兒的區(qū)分信息項
對于雙胞胎,三胞胎和高序多胎的同性別新生兒患者而言,只依據(jù)1 至10 的信息項無法區(qū)分出生順序,而出生序號在新生兒科的記錄中缺失較為嚴重或者難以提取。出生體重和出生體長可以較為容易地從產(chǎn)科分娩登記表、新生兒科電子病歷中獲取,完整度優(yōu)于只有產(chǎn)科才會詳細記錄的出身序號,所以可以利用這兩項靜態(tài)數(shù)值信息項用于非單胎新生兒的二次匹配,以此區(qū)分患兒個體。對于無法判斷出生序號的多胎新生兒科患者,可以先完成第一步匹配,標準化出生體重和出生體長后再計算歐式距離,歐式距離越小說明更有可能是同一個人。
本文針對新生兒患者身份信息在傳統(tǒng)EMPI 平臺中無法有效整合的弊端,給出了新生兒患者主索引的構建方案。通過重構新生兒EMPI 平臺用于計算相似度的信息項和權重值來計算新生兒患者之間的相似度,對于達到相似度閾值的患兒進行合并。利用出生體重和身長,進行二次相似度匹配,區(qū)分出非單胎患兒的不同個體。讓新生兒患者在不同科室、不同階段、不同業(yè)務中的臨床數(shù)據(jù)構成一份連續(xù)完整的醫(yī)療健康檔案,為母嬰臨床數(shù)據(jù)的區(qū)域共享與醫(yī)學研究打下堅實的數(shù)據(jù)基礎。