孫 靜 鄧文萍 毛樹松
(湖北中醫(yī)藥大學信息工程學院 武漢430065)
?
中醫(yī)診斷信息數據元提取研究*
孫 靜 鄧文萍 毛樹松
(湖北中醫(yī)藥大學信息工程學院 武漢430065)
介紹中醫(yī)診斷信息數據元的概念,從識別對象類、構建診斷信息模型、提取數據元、提取結果4方面闡述中醫(yī)診斷信息數據元提取過程,本研究數據元提取兼顧中醫(yī)診斷理論與臨床應用,開展數據元試點應用研究是下一步的工作重點。
中醫(yī);診斷信息;數據元;提取
當前中醫(yī)院信息化建設已經步入由醫(yī)院管理轉向以數據共享利用為目標的快速發(fā)展時期,對中醫(yī)藥信息標準的需求越來越大,特別是有關中醫(yī)電子病歷規(guī)范和標準的需求。數據標準化是研究、制定和推廣應用統(tǒng)一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程,是信息系統(tǒng)建設的一項至關重要的基礎性工作,同時也是未來醫(yī)療大數據融合的基礎。但長期以來,我國醫(yī)療衛(wèi)生信息化建設缺乏整體規(guī)劃,在國家層面上沒有很好地開展醫(yī)療衛(wèi)生數據標準定義與規(guī)范,導致醫(yī)療衛(wèi)生信息系統(tǒng)之間的數據交換、共享成為難點,造成資源的極大浪費。2011年原衛(wèi)生部頒布了《衛(wèi)生信息數據元目錄》和《衛(wèi)生信息數據元值域代碼》等34項數據元標準,其中中醫(yī)數據元僅5項。這樣在以居民電子健康檔案為核心的區(qū)域衛(wèi)生信息化建設中,將造成中醫(yī)藥內容缺失,對中醫(yī)藥信息化工作形成倒逼機制[1],因此,研制中醫(yī)藥信息數據元具有十分重要的意義。
數據元是由一個屬性集合規(guī)定其定義、標識、表示和允許值的數據單元[2],是在特定語義環(huán)境中不可再分的最小數據單元[3]。中醫(yī)是一門信息醫(yī)學,在醫(yī)生與患者直接交互的過程中,實現了在中醫(yī)基礎理論和概念框架下診療信息的產生和記錄[4]。中醫(yī)診斷信息是在中醫(yī)診斷這一醫(yī)療活動的語義環(huán)境下所產生的信息,包括獲取(四診)和經過處理、整合(四診合參、辨證)的信息。中醫(yī)診斷信息數據元是在中醫(yī)診斷醫(yī)療活動過程中,傳遞診斷信息的不可再分的最小數據單元,由對象類、特性、表示組成。對象類是指中醫(yī)診斷活動過程中的抽象概念或事物的集合,如接受中醫(yī)治療的患者;特征是指對象類所有個體所共有的某種性質,類似于“實體-關系”模型中實體的屬性,例如描述診斷這一抽象概念的時間、方法、結果等;表示是指值域、數據類型的組合,必要時還包括度量單位或字符集,例如診斷時間的表示可以是日期、數據類型是Date型。一個對象類可以有多個特征,一個對象類與一個特征組成一個數據元概念,一個數據元概念可以有多種表示方式,一個數據元概念和一個表示組成一個數據元。例如診斷時間這個數據元概念,其表示可以為日期也可以為日期時間,因此,診斷時間(D)和診斷時間(D/T)是兩個數據元。中醫(yī)診斷信息數據元規(guī)范了數據層面的數據,便于信息系統(tǒng)在屬性層面實現中醫(yī)診斷信息的共享和交換,為中醫(yī)臨床數據集成奠定基礎。
根據國家中醫(yī)藥管理局于2010年發(fā)布的《中醫(yī)病歷書寫基本規(guī)范》[5]可知,含有診斷信息的主要內容有主訴(癥狀/體征)、體格檢查、現病史、既往史、醫(yī)學檢驗、中醫(yī)四診、診斷。參考鄧鐵濤等編寫的《中醫(yī)診斷學》教材[6](以下簡稱診斷教材),中醫(yī)診斷信息主要包含中醫(yī)診斷方法(四診、辨證)、診斷結果(癥、病、證)兩方面及其拓展信息。在上述分析的指導下,選取8家三級甲等中醫(yī)院,搜集整理電子病歷系統(tǒng)中的門(急)診病歷、急診留觀病歷、入院記錄、首次病程記錄、日常病程記錄、上級查房記錄等文檔模板,確定描述診斷信息的文檔段。進一步分析文檔段,得出現階段中醫(yī)診斷信息數據元研究所覆蓋的范圍和深度。
4.1 識別對象類
一次完整的臨床過程均可客觀地切割為“臨床所見的獲取、依據臨床所見進行診斷、依據診斷進行處理”3大環(huán)節(jié)[7],“臨床所見的獲取”即臨床信息采集,“依據臨床所見進行診斷”即病證判斷。在此基礎上將中醫(yī)診斷活動分為臨床信息采集和診斷兩個子活動,其活動場景是在診室或病房中,患者向醫(yī)生講述就醫(yī)原因(患者自覺身體異常)以及醫(yī)生通過望、聞、問、切與患者交互過程中記錄患者身體異常相關信息(包括主訴、現病史、刻下癥、既往史、過敏史、個人史、婚育史、家族史、體格檢查、專科檢查、輔助檢查等文檔段信息)的過程。診斷是醫(yī)生根據中醫(yī)學的基本理論,診察病情、判斷疾病、辨別證侯(中醫(yī)辨病辨證分析、入院中醫(yī)診斷、中醫(yī)確定診斷等文檔段信息)的過程。采用面向對象的分析方法,建立患者就診的用例圖,見圖1。
圖1 患者就診用例圖
HL7 RIM核心類分別是:實體——物理意義上的人和物;活動——醫(yī)療行為的概括;參與——定義角色與活動之間的關系;角色——實體在參與醫(yī)療行為過程中所扮演的各種角色;活動關聯——醫(yī)療行為之間語義關系;角色關聯——描述參與衛(wèi)生行為的各個角色之間的關系[8]。根據患者就診用例圖,識別該過程對象類有:活動——四診、辨證及其子類;角色——患者、醫(yī)生;活動關聯——組成,例如望診是四診這個活動的組成部分;參與——診斷,醫(yī)生通過診斷與四診產生聯系。
4.2 構建診斷信息模型
4.2.1 子類及其相關屬性 進一步分析對象類,獲得子類及其相關屬性。下面以四診這個類作為例子進行詳細說明?;顒宇愃脑\可以進一步分為望診、聞診、問診、切診,望、聞、問、切是四診的方法。望診可作為四診的子類,望診根據望的對象可進一步劃分為望全身、望局部、望排出物、望舌、望小兒指紋等。中醫(yī)電子病歷刻下癥文檔段由進一步細化的全身癥狀、四肢癥狀等組成,在此基礎上結合中醫(yī)診斷教材可將望局部進一步劃分為望頭、望面、望五官、望軀體、望四肢、望二陰、望皮膚等。四肢癥狀是望四肢的直接結果,因此望四肢下不再繼續(xù)劃分子類。通過以上分析可知,四診其子類可以劃分為4級子類程度,即四診(1級)——
望診(2級)——望局部(3級)——望四肢(4級),其對應的屬性為方法、分類。依次類推,獲得四診、辨證、診斷的子類及其相關屬性。
4.2.2 癥狀信息 四診子類劃分最終的結果到癥狀。在中醫(yī)電子病歷中常出現“無腹脹,無惡心”,“反復乏力”,“雙下肢癱瘓6月余”等這樣的表述,可見在實際使用過程中電子病歷將“腹脹、惡心、乏力、雙下肢癱瘓”等作為一個對象類,其特征可抽象為有無、頻次、持續(xù)時間。同時,相關文獻[9]也論證了癥狀是一個實體概念(即對象類),而非屬性概念這一觀點。在將一個具體的癥狀作為一個對象的思想指導下,進一步分析整理8家中醫(yī)院5年電子病歷系統(tǒng)中癥狀相關信息,可將癥狀特征抽象為有無標志、發(fā)作緩急、程度、持續(xù)情況、發(fā)作情況、發(fā)生因素、加重因素、緩解因素等。
4.2.3 診斷信息模型 根據上述分析,確定對象類體系,得出診斷信息模型,見圖2。
圖2 診斷信息模型
4.3 提取數據元
4.3.1 抽取診斷信息中的數據項作為數據元 根據診斷信息模型,抽取診斷信息中的數據項作為數據元。例如,診斷這一對象類,其特征相當于“實體-關系”模型中的實體的屬性即對象類的特征,根據圖2可知方法是其屬性,因此診斷方法是一個數據元概念。望、聞、問、切是中醫(yī)診察疾病的基本方法,中醫(yī)診斷教材中四診已經成為專有名詞,關于中醫(yī)的診斷方法都是圍繞著四診展開,望、聞、問、切作為中醫(yī)診斷方法已經成為中醫(yī)藥行業(yè)共識,采用代碼表示診斷方法這一數據元概念更有利于計算機處理,因此抽取診斷方法代碼這一數據項作為數據元。
4.3.2 癥狀及其對應特征的抽取 從上述分析可知一個具體的癥狀就是一個對象類。癥狀之間存在著多種復雜的邏輯關系,沒有形成癥狀關系體系,因此本研究在確定癥狀對象類時采用理論與實際結合的辦法。搜集整理8家中醫(yī)院5年電子病歷系統(tǒng)中出現的癥狀,與全國科學技術名詞審定委員會審定公布的《中醫(yī)藥學名詞》2004版中出現的癥狀進行對比,凡是表述一致的癥狀作為本次研究的癥狀對象類。每一個癥狀與其對應的特征構成數據元概念,例如有無失神、失神發(fā)生因素、失神加重因素、失神緩解因素、失神程度、失神特征、失神頻次、失神發(fā)作緩急、失神持續(xù)時間9個數據元概念。征求專家意見,考慮到癥狀相關特征未能達成共識,因此將癥狀特征抽象為有無和情況,采用標志來表示有無癥狀這個數據元概念,采用描述來表示癥狀情況,例如失神標志、失神情況(描述)兩個數據元。同時,考慮到提取的癥狀是中醫(yī)學基本名詞,覆蓋面暫不能滿足實際使用需求,因此將癥狀發(fā)作緩急代碼、癥狀程度代碼、癥狀持續(xù)情況代碼、癥狀發(fā)作情況代碼、癥狀發(fā)生因素代碼、癥狀加重因素代碼、癥狀緩解因素代碼8個數據元作為癥狀共性數據元。
4.4 提取結果
最終提取待規(guī)范化的數據元507個。參照原衛(wèi)生部于2011年發(fā)布的標準《WS 363.1-2011 衛(wèi)生信息數據元目錄總則》,設置數據元屬性并將數據元分為主訴與癥狀、醫(yī)學診斷兩類。數據元屬性取值與現有國家標準或行業(yè)標準保持一致,例如屬性數據元名稱應體現對象類、特性和表示,若有標準對對象類有明確的定義則數據元名稱中應采用標準所規(guī)定的詞匯,同時數據元定義應體現標準中對對象類的定義。數據元值域范圍的確定也以標準確定的范圍為主。最終確定主訴與癥狀類數據元失神標志、失神情況等467項,醫(yī)學診斷類數據元中醫(yī)診法分類代碼、中醫(yī)望診分類代碼等40項。
本研究從中醫(yī)臨床診斷業(yè)務活動出發(fā),分析了診斷信息對象類,在診斷教材的指導下分析對象類的子類及相關屬性,同時將8家中醫(yī)院5年電子病歷系統(tǒng)數據作為子類劃分粒度的依據。該研究采用臨床數據作為數據元來源,兼顧了中醫(yī)診斷理論與臨床實際應用,然而其覆蓋面以及抽象程度還有待檢驗。數據元是數據標準的一種,正如大多數標準一樣,需要在更大的范圍內達成共識并實施才能發(fā)揮數據元的作用,實現信息資源的共享與交換。為了檢驗中醫(yī)診斷信息數據元的適用性,爭取中醫(yī)藥行業(yè)共識,下一步的工作重點是開展數據元試點應用研究。
1 夏姍姍.“中醫(yī)藥信息數據元”明年出臺[N].北京商報,2013-12-18(D02).
2 李海燕.中醫(yī)臨床信息標準體系框架與體系表的構建研究[D].北京:中國中醫(yī)科學院,2012.
3 全國信息技術標準化技術委員.信息技術元數據注冊系統(tǒng)(MDR) 第3部分:注冊系統(tǒng)元模型與基本屬性[M].北京:中國標準出版社,2009.
4 肖年,周曉軍,張海燕.婦幼保健信息系統(tǒng)數據元的提取和標準化方法概述[J].中國衛(wèi)生統(tǒng)計,2007,24(5):527-528.
5 國家中醫(yī)藥管理局.中醫(yī)病歷書寫基本規(guī)范(國中醫(yī)藥醫(yī)政發(fā)〔2010〕29號)[N].中國中醫(yī)藥報,2010-06-30(003).
6 鄧鐵濤,楊維益,季紹良,等.中醫(yī)診斷學[M].上海:上??茖W技術出版社,2000.
7 崔利宏,崔麗霞,王國斌,等.關于病、證、癥規(guī)范化研究的思考[J].中醫(yī)學報,2013,28(10):1550-1551.
8 Dolin RH, Alschuler L. Approaching Semantic Interoperability in Health Level Seven[J]. Journal of the American Medical Informatics Association, 2011,18(1):99-103.
9 張啟明,劉保延,王永炎.中醫(yī)癥狀學研究[M].北京:中醫(yī)古籍出版社,2013.
Research of Extracting Data Elements of Traditional Chinese Medicine Diagnostic Information
SUNJing,
DENGWen-ping,MAOShu-song,InformationEngineeringCollege,HubeiUniversityofChineseMedicine,Wuhan430065,China
The paper introduces the concept of data elements of Traditional Chinese Medicine (TCM) diagnostic information, elaborates its extraction process from 4 aspects: object class recognition, diagnosis information model construction, data element extraction, extraction results. This study takes theory and practical application of TCM diagnosis into consideration, conducting pilot applied research of data elements is the next priority.
Traditional Chinese Medicine (TCM); Diagnostic information; Data element; Extraction
2014-09-15
孫靜,在讀碩士研究生,發(fā)表論文2篇;通訊作者:鄧文萍。
國家中醫(yī)藥管理局中醫(yī)藥信息化項目“中醫(yī)藥信息數據元標準研制”(項目編號:2012-0001)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.014