季金鑫,姜麗紅,蔡鴻明
(上海交通大學(xué) 軟件學(xué)院,上海 200240)
基于聚類的個(gè)人健康檔案補(bǔ)全方法的研究與實(shí)現(xiàn)
季金鑫,姜麗紅,蔡鴻明
(上海交通大學(xué) 軟件學(xué)院,上海 200240)
診療記錄對(duì)病人和醫(yī)生而言都是十分有用的,但是由于同一個(gè)病人在不同的時(shí)間會(huì)以不同的識(shí)別信息在醫(yī)院進(jìn)行治療,那么這個(gè)病人的診療信息就會(huì)分布在不同的記錄中,這樣使得醫(yī)生無法判斷這些診療記錄是否來自同一個(gè)病人.為了解決這個(gè)問題,提出了個(gè)人健康檔案補(bǔ)全的方法, 利用數(shù)值聚類、特征分析、實(shí)例類別匹配和診療記錄補(bǔ)全的方法來識(shí)別相同病人的不同診療記錄,繼而實(shí)現(xiàn)個(gè)人健康檔案的補(bǔ)全.最后,通過在某個(gè)醫(yī)院特定的數(shù)據(jù)庫對(duì)文中提出的方法進(jìn)行試驗(yàn)來驗(yàn)證方法的可用性.
診療記錄;個(gè)人健康檔案補(bǔ)全;數(shù)值聚類;特征分析;實(shí)例類別匹配;記錄補(bǔ)全
醫(yī)療數(shù)據(jù)可以較有效地描述診療過程的業(yè)務(wù)邏輯,但是,目前缺乏較好的方法對(duì)醫(yī)療數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行分析.比如,同一個(gè)病人在不同的時(shí)間段進(jìn)入不同的醫(yī)療機(jī)構(gòu)進(jìn)行治療,這個(gè)病人的診療記錄就會(huì)分布在不同的數(shù)據(jù)庫中,即使同一個(gè)病人在不同的時(shí)間段在同一個(gè)醫(yī)療機(jī)構(gòu)進(jìn)行治療,病人的治療記錄也會(huì)分布在不同的科室或醫(yī)院信息系統(tǒng)中,導(dǎo)致病人的歷史診療信息不完整和個(gè)人健康檔案數(shù)據(jù)更新不及時(shí)等問題.
針對(duì)這一問題,國內(nèi)外很多學(xué)者都提出了一些方案來解決.文獻(xiàn)[1]基于局部CON模型的記錄匹配方法,利用關(guān)聯(lián)規(guī)則挖掘和標(biāo)準(zhǔn)的tableau來匹配分布式數(shù)據(jù)庫中的記錄,識(shí)別相同身份人的記錄. 文獻(xiàn)[2]通過對(duì)數(shù)據(jù)庫中不一致數(shù)據(jù)的修復(fù)以及用概率來表示記錄上的屬性值從而識(shí)別數(shù)據(jù)庫中的相似重復(fù)記錄.
本文旨在解決病人的歷史診療信息不完整和個(gè)人健康檔案數(shù)據(jù)更新不及時(shí)的問題,涉及數(shù)值聚類、對(duì)象匹配等方面的內(nèi)容.
目前數(shù)值聚類方法被廣泛應(yīng)用于各種數(shù)據(jù)挖掘和數(shù)據(jù)分析. 文獻(xiàn)[3]通過最小化不可連接性來進(jìn)行數(shù)值聚類,使用MinDisconnect算法通過不斷減小不可連接性來合并聚類. 文獻(xiàn)[4]提出了通過計(jì)算基于上下文的數(shù)值之間的距離來對(duì)數(shù)值進(jìn)行聚類的方法,即采用DILCA(distance learning for categorical attributes)方法來計(jì)算任意兩個(gè)數(shù)值之間的距離.
為了實(shí)現(xiàn)對(duì)象與對(duì)象之間的匹配,不少學(xué)者做了巨大的努力,當(dāng)然,對(duì)于對(duì)象匹配,最常用的就是相似度計(jì)算方法.文獻(xiàn)[5]基于描述性特征,不依賴于模型的實(shí)例來對(duì)相似度進(jìn)行度量,將實(shí)例匹配問題轉(zhuǎn)化為二元分類問題來進(jìn)行實(shí)例的匹配.文獻(xiàn)[6]針對(duì)圖像的匹配,提出了一個(gè)圖像描述符的方法,利用這個(gè)圖像描述符來比較相似的圖像.
但是,上述方法均沒有考慮數(shù)據(jù)缺省的情況,并且在上述的方法中只是識(shí)別相同實(shí)體的記錄,并沒有對(duì)這些記錄進(jìn)行融合. 因此,本文在考慮數(shù)據(jù)缺省的情況下提出了個(gè)人健康檔案補(bǔ)全方法,基于數(shù)據(jù)庫中病人的基本信息以及診療記錄,對(duì)相同病人的診療記錄進(jìn)行融合.使用數(shù)值聚類和對(duì)實(shí)例類別匹配的方法來識(shí)別不同記錄中的相同病人,針對(duì)特定醫(yī)院的數(shù)據(jù)類型進(jìn)行個(gè)人健康檔案的補(bǔ)全,補(bǔ)全后實(shí)現(xiàn)了病人的診療記錄的融合,可為今后的個(gè)性化治療等提供幫助.
針對(duì)目前的業(yè)務(wù)需求,專門針對(duì)醫(yī)院數(shù)據(jù)庫中病人信息表設(shè)計(jì)了個(gè)人健康檔案補(bǔ)全方法.針對(duì)醫(yī)院數(shù)據(jù)庫中有關(guān)病人信息的數(shù)據(jù)庫表,個(gè)人健康檔案補(bǔ)全的方法分為4步,如圖1所示. 具體步驟如下:
(1) 第一階段為數(shù)值聚類.即通過分析數(shù)據(jù)庫中的病人的基本信息以及診療等信息,提取病人的姓名、年齡、性別、身份證號(hào)和疾病特征,使用改進(jìn)后的K-Means聚類算法將具有類似特征值的診療記錄歸為一類.
圖1 個(gè)人健康檔案補(bǔ)全框架Fig.1 Personal health records completion framework
(2) 第二階段為聚類特征分析.即對(duì)于每個(gè)類別,使用文檔頻度的方法分析類別的特征,得出每一個(gè)類別所具有的共同特征,比如一些治療方案等.
(3) 第三階段為實(shí)例類別匹配.即根據(jù)第一階段得到的聚類分析的結(jié)果,對(duì)于每一個(gè)新的診療記錄,提取其姓名、年齡、性別、身份證號(hào)和疾病特征,然后利用相似度計(jì)算的方法,將這個(gè)新的診療記錄匹配到某一個(gè)類別中.
(4) 第四階段為診療記錄的補(bǔ)全.即在判定了一條新的診療記錄屬于某一個(gè)類別之后,將這個(gè)類別所擁有的共同特征賦予這條診療記錄,比如一些通用的治療方案可以賦予這個(gè)診療記錄對(duì)應(yīng)的病人,同時(shí),判斷記錄是否屬于同一病人.此時(shí)有兩種情況:第一種情況,若存在身份證號(hào),相同的身份證號(hào)對(duì)應(yīng)的一定是相同的病人;第二種情況,若身份證號(hào)信息缺省,則判斷對(duì)于相同姓名和相同性別的記錄,若在同一個(gè)聚類中,具有相同的群特征,則可以初步判定這些病人是同一個(gè)病人.此時(shí)可以進(jìn)行相同病人診療記錄的補(bǔ)全.由于每一條診療記錄被賦予了群特征,這樣對(duì)于醫(yī)生而言,就多了一些可供參考的治療方案,可以讓醫(yī)生知道之前類似的病癥有哪些成功治療的案例,醫(yī)生就可以參照這些治療方案對(duì)病人進(jìn)行更加有效的治療.
2.1 數(shù)值聚類方法
通過分析數(shù)據(jù)庫中數(shù)據(jù)記錄的特點(diǎn),找出關(guān)鍵屬性值,利用關(guān)鍵屬性值定義“距離”來衡量兩個(gè)記錄間的接近程度或相似程度,把比較接近的或類似的歸為一類,而把不怎么接近或不怎么類似的分在不同的類別中.利用改進(jìn)的K-Means算法實(shí)現(xiàn)數(shù)據(jù)庫中記錄的數(shù)值聚類.
(1) 第一步:特征提取.利用特征提取的方法對(duì)病人進(jìn)行聚類,提取病人的姓名、年齡、性別、身份證號(hào)和疾病這些屬性,用這5種特征來代表一個(gè)病人,即S代表一個(gè)病人,S(name, age,gender, ID, disease)即代表病人的一條記錄,現(xiàn)有數(shù)據(jù)集S={S1,S2, …,Sn},代表了n個(gè)病人,每個(gè)病人包含5個(gè)屬性,即姓名、年齡、性別、身份證號(hào)和疾病.
(2) 第二步:利用多維坐標(biāo)系表示診療記錄.建立空間多維坐標(biāo)系,共5個(gè)維度,分別代表5個(gè)關(guān)鍵屬性,即姓名、年齡、性別、身份證號(hào)和疾病.年齡按0~100排列;性別用0和1表示,0表示男性,1表示女性;身份證號(hào)取前6位表示;疾病按照類別排列,用數(shù)據(jù)0~200表示,相似的疾病放到相鄰的坐標(biāo)位置,其值越接近,例如腰椎間盤突出和腰椎病就是類似的病,可以放到相鄰的坐標(biāo)位置.
(3) 第三步:數(shù)據(jù)記錄之間“距離”的定義.由第一步得到的每條記錄有5個(gè)屬性,給每個(gè)屬性分配一定比例的權(quán)重,姓名屬性權(quán)重(w1)為0.2,年齡屬性權(quán)重(w2)為0.1,性別屬性權(quán)重(w3)為0.1,身份證號(hào)屬性權(quán)重(w4)為0.5,疾病權(quán)重(w5)為0.1,權(quán)重相加為1.每一條記錄表示為空間坐標(biāo)軸上的一個(gè)點(diǎn)S(A,B,C,D,E),其中,屬性A,B,C,D,E分別表示姓名、年齡、性別、身份證號(hào)和疾病,D(Si,Sj)表示兩條記錄Si和Sj在空間坐標(biāo)系中的距離,計(jì)算式如下.
D(Si, Sj)=|Ai-Aj|*w1+|Bi-Bj|*w2/100+|Ci-Cj|*w3+|Di-Dj|*w4+|Ei-Ej|*w5/200
(1)
其中:|Ai-Aj|表示姓名屬性之間的距離,若姓名相同,則距離為0,否則距離為1;|Bi-Bj|表示年齡屬性之間的距離,即為年齡的差值,這里要進(jìn)行歸一化處理;|Ci-Cj|表示性別屬性之間的距離,性別相同則距離為0,否則距離為1;|Di-Dj|表示身份證號(hào)屬性之間的距離,該距離用編輯距離表示,取身份證號(hào)前6位,這里身份證號(hào)前6位的編輯距離即為身份證號(hào)屬性之間的距離;|Ei-Ej|表示疾病屬性之間的距離,即為疾病數(shù)據(jù)對(duì)應(yīng)的差值,同樣,這里要進(jìn)行歸一化處理.因?yàn)樯矸葑C號(hào)信息是缺省信息,不一定所有的記錄都會(huì)提供這一信息,所以若兩條記錄的身份證號(hào)信息均不存在,此時(shí)身份證號(hào)屬性權(quán)重w4變?yōu)?,重新分配屬性權(quán)重,即姓名屬性權(quán)重(w1)為0.3,年齡屬性權(quán)重(w2)為0.2,性別屬性權(quán)重(w3)為0.3,疾病屬性權(quán)重(w5)為0.2,距離仍按式(1)計(jì)算.
(4) 第四步:利用改進(jìn)后的K-Means算法進(jìn)行聚類.傳統(tǒng)的K-Means算法簡單、快速,并且可以處理大規(guī)模的數(shù)據(jù),但是K-Means算法的第一步是隨機(jī)選擇K個(gè)對(duì)象作為聚類中心,這樣就容易得到局部最優(yōu)解,并且這個(gè)局部的最優(yōu)解完全依賴于初始聚類中心的選擇.同時(shí),對(duì)于不同初始聚類中心的選擇會(huì)得到不同的聚類結(jié)果,算法比較不穩(wěn)定.所以這里對(duì)K-Means算法稍作改進(jìn),假設(shè)聚類的個(gè)數(shù)為K個(gè),改進(jìn)后的K-Means算法偽代碼如下所述.
Input:
All records with property values of name, age, gender, ID and disease
Output:
Kclusters and records in each cluster
Find two records with the longest distance
The number of clusterm=2
Make the two records be the cluster center ofmclusters
WhileK>m
Find one record has the longest distance to themcluster centers
m++
Make the record be center of new cluster
While the clusters are changing
Make each record belong to its nearest cluster center
Change the cluster centers
returnKclusters and records in each cluster
改進(jìn)的K-Means算法改變了傳統(tǒng)K-Means算法對(duì)初始聚類中心的選擇,不是隨機(jī)選取K個(gè)對(duì)象作為聚類中心,而是首先選擇兩個(gè)距離最遠(yuǎn)的對(duì)象作為初始的兩個(gè)聚類中心,接著找到第3個(gè)距離這兩個(gè)對(duì)象最遠(yuǎn)的對(duì)象作為第3個(gè)聚類中心,依此類推,直到找到K個(gè)聚類中心為止.這樣的初始聚類中心的選擇可以最大程度地保證聚類中心分配的合理性,得到整體最優(yōu)解.
2.2 特征分析方法
對(duì)于每一個(gè)聚類的特征分析方法的實(shí)現(xiàn),利用文檔頻度的方法統(tǒng)計(jì)治療方案,得出Top 3的治療方案作為聚類的共同特征.
文檔頻度(document frequency, DF)方法[7]是用來統(tǒng)計(jì)一個(gè)特征詞在一個(gè)類別中出現(xiàn)次數(shù)的方法,該方法的實(shí)現(xiàn)簡單且算法復(fù)雜度低,所以選用此方法來進(jìn)行特征分析.數(shù)據(jù)庫表中每種治療方案均為字符串表示,比如“人工關(guān)節(jié)置換”“長期青霉素注射”等,然后利用文檔頻度統(tǒng)計(jì)的方法,列出每一個(gè)聚類中出現(xiàn)的所有治療方案,對(duì)這些治療方案進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)每種治療方案出現(xiàn)的次數(shù),見式(2)所示.
C=(〈TERM1,DF1〉,〈TERM2,DF2〉,…, 〈TERMi, DFi〉,…,〈TERMn, DFn〉)
(2)
其中:C為統(tǒng)計(jì)的集合;〈TERMi, DFi〉為第i個(gè)治療方案字符串;DFi為第i個(gè)治療方案出現(xiàn)的次數(shù). 現(xiàn)根據(jù)DFi的大小進(jìn)行排列,找出前3個(gè)DFi值最大的TERMi,這3個(gè)TERM即為找到的Top 3的治療方案,可以將其作為每一個(gè)聚類的共同特征.
2.3 實(shí)例類別匹配方法
實(shí)例類別匹配利用數(shù)值聚類的結(jié)果,將一個(gè)新的記錄匹配到某一個(gè)類別中.
(1) 第一步:一個(gè)新加進(jìn)來的數(shù)據(jù)庫記錄,包括了病人的基本信息以及診療信息,同樣地,抽取病人的姓名、年齡、性別、身份證號(hào)和疾病信息,形成一個(gè)新的記錄.
(2) 第二步:新記錄類別確定.利用式(1)計(jì)算這個(gè)新記錄與各個(gè)聚類中心的距離,將該記錄分配到與其距離最小的聚類中.
2.4 診療記錄補(bǔ)全方法
診療記錄補(bǔ)全階段則利用實(shí)例類別匹配結(jié)果,判斷同名病人是否為同一個(gè)人來補(bǔ)全診療記錄.這里利用新生成關(guān)聯(lián)表的方法來進(jìn)行同一個(gè)病人的不同診療記錄的融合.這里給出如下兩個(gè)定義.
定義1 對(duì)于每一組相同病人的不同診療記錄,在不同記錄中時(shí)間屬性值最早的那條記錄定義為主記錄,這條記錄的主鍵定義為主主鍵.
定義2 對(duì)于每一組相同病人的不同診療記錄,除了時(shí)間屬性值最早的那條記錄,其余記錄均稱為從屬記錄,這些記錄的主鍵均定義為從屬主鍵.
(1) 第一步:找出相同病人的不同診療記錄.首先找出所有同名病人的診療記錄,對(duì)于這些同名的病人,若是屬于同一個(gè)類別中,則可以將其認(rèn)為是相同的病人;若不屬于同一個(gè)類別中,則認(rèn)為是不同的病人.
(2) 第二步:相同病人診療記錄的融合.對(duì)于在上一步中找到的相同病人的診療記錄,對(duì)于同一個(gè)病人,取出其所有的診療記錄,找到其中的主記錄和從屬記錄、主主鍵和從屬主鍵,建立主主鍵和從屬主鍵之間的關(guān)聯(lián)表.
3.1 案例分析
通過分析某醫(yī)院的真實(shí)診療數(shù)據(jù),對(duì)本文提出的個(gè)人健康檔案補(bǔ)全方法進(jìn)行了驗(yàn)證.
(1)首先分析數(shù)據(jù)庫中的每一張表的含義以及表中每一個(gè)屬性的含義,得出關(guān)于病人信息方面的表有兩張,分別是病人的基本信息表和病人的診療信息表.在此數(shù)據(jù)庫中體現(xiàn)為兩個(gè)表,分別是dbo.ab表(病人基本信息表)和dbo.cb表(病人診療信息表),如圖2和3所示.
(2) 結(jié)合本文所提出的數(shù)值聚類的方法,建立空間多維坐標(biāo)系,接著利用改進(jìn)的K-Means算法對(duì)數(shù)據(jù)庫中500條記錄進(jìn)行聚類,最終聚類的結(jié)果為4個(gè)類別.這里用傳統(tǒng)的K-Means算法和改進(jìn)后的K-Means算法進(jìn)行聚類結(jié)果的比較.
傳統(tǒng)的K-Means算法首先選取前4條記錄作為初始聚類中心,經(jīng)過多次迭代,得到4個(gè)聚類和每個(gè)聚類中的記錄.
圖2 dbo.ab表Fig.2 Table of dbo.ab
圖3 dbo.cb表Fig.3 Table of dbo.cb
改進(jìn)后的K-Means算法首先選取距離分別最遠(yuǎn)的4條記錄作為初始聚類中心,這4個(gè)初始聚類中心分別為:S1(姓名:**,年齡:12,性別:男,身份證號(hào):**,疾病:骨折),S2(姓名:**,年齡:35,性別:女,身份證號(hào):**,疾?。貉趽p),S3(姓名:**,年齡:58,性別:男,身份證號(hào):**,疾?。簭?qiáng)直性脊柱炎),S4(姓名:**,年齡:74,性別:女,身份證號(hào):**,疾?。汗琴|(zhì)疏松).經(jīng)過多次迭代,得到4個(gè)聚類和每個(gè)聚類中的記錄.
兩種算法的結(jié)果比較如表1所示.
表1 兩種算法結(jié)果比較
由表1可以看出,兩種算法的迭代次數(shù)都比較多,但是改進(jìn)后的K-Means聚類算法明顯提高了聚類的準(zhǔn)確率.
(3) 對(duì)于聚類得到的4個(gè)類別,分析類別特征利用上述的文檔頻度的方法得出每個(gè)類別的Top 3治療方案:類別1(Top 1:手術(shù),Top 2:儀器固定,Top 3:長期青霉素注射),類別2(Top 1:手術(shù),Top 2:射頻靶點(diǎn)熱凝術(shù),Top 3:牽引),類別3(Top 1:人工關(guān)節(jié)置換,Top 2:打石膏,Top 3:中醫(yī)刺穴療法),類別4(Top 1:運(yùn)動(dòng)療法,Top 2:中醫(yī)刺穴療法,Top 3:手術(shù)).
(4) 通過之前的聚類和得到的聚類結(jié)果,對(duì)于新加入數(shù)據(jù)庫的診療記錄,可以利用式(1)計(jì)算該新診療記錄屬于哪一個(gè)聚類,并賦予其相應(yīng)聚類的共同特征.
(5) 最后,進(jìn)行診療記錄補(bǔ)全方法的實(shí)現(xiàn).找出所有診療記錄中的同名病人,發(fā)現(xiàn)有17組同名病人,如圖4所示.
圖4 同名病人分組結(jié)果Fig.4 Grouping result of patients with the same name
在這17組同名病人中,有16組均是兩條相同姓名的記錄,有1組是3條相同姓名的記錄,將這17組中的姓名進(jìn)行標(biāo)號(hào),姓名從A到Q依次排列,共有17組相同姓名的記錄,其中A與A是相同的姓名,B與B是相同的姓名,依此類推.同時(shí),發(fā)現(xiàn)這17組記錄中,并不是所有的記錄均提供身份證號(hào)信息,因身份證號(hào)信息缺省,無法直接利用身份證號(hào)信息識(shí)別相同的病人,所以利用上述提出的診療信息補(bǔ)全方法進(jìn)行識(shí)別相同病人并補(bǔ)全診療信息.找出這17組記錄所屬的聚類,發(fā)現(xiàn)記錄A、F、O均屬于聚類1,記錄C、H、J、M、P、Q均屬于聚類2,記錄D、E、G、I、L均屬于聚類3,記錄K、N均屬于聚類4.同屬于一個(gè)聚類,并且姓名相同,可以認(rèn)為這是同一個(gè)人,所以聚類1中的A、F、O分別對(duì)應(yīng)的是同一個(gè)人,即兩條姓名為A的記錄為同一個(gè)人的記錄,兩條姓名為F的記錄為同一個(gè)人的記錄,兩條姓名為O的記錄為同一個(gè)人的記錄,其余3個(gè)聚類中的記錄同理可得.但是還有一個(gè)相同姓名的兩條記錄,即為姓名B,其中一條記錄在聚類3中,一條記錄在聚類4中,不在同一個(gè)聚類中,這樣可以認(rèn)為這兩條記錄對(duì)應(yīng)的不是同一個(gè)人,并且通過驗(yàn)證姓名B的兩條診療記錄的其他信息發(fā)現(xiàn),這兩條診療記錄對(duì)應(yīng)的確實(shí)不是同一個(gè)人,說明本文的識(shí)別方法是有效的.接著利用關(guān)聯(lián)表將對(duì)應(yīng)的同一個(gè)人的記錄進(jìn)行融合,即實(shí)現(xiàn)相同病人診療記錄的補(bǔ)全.
針對(duì)查準(zhǔn)率和查全率兩項(xiàng)評(píng)價(jià)指標(biāo),分別用本文方法、代碼集遷移[8]以及PRAWN[9]方法進(jìn)行試驗(yàn),比較結(jié)果如表2所示.
表2 試驗(yàn)結(jié)果對(duì)比
由表2可以看出,本文提出的方法在查全率和查準(zhǔn)率指標(biāo)上都要高于另外兩種方法,說明本文方法比較好.
3.2 對(duì)比與討論
有不少學(xué)者針對(duì)識(shí)別和集成不同數(shù)據(jù)源的數(shù)據(jù)做了很多努力. 文獻(xiàn)[8]提出了一個(gè)代碼集遷移的方法來融合某一個(gè)患者的所有歷史診療記錄.文獻(xiàn)[9]提出了一個(gè)叫PRAWN的方法可以集成不同時(shí)間維度的數(shù)據(jù),可以解決數(shù)據(jù)之間的沖突問題. 本文方法與上述兩種方法之間的比較如表3所示.
表3 幾種方法的比較
由表3可以發(fā)現(xiàn),本文方法具有高可用性、較高查準(zhǔn)率與查全率等優(yōu)點(diǎn).
本文針對(duì)相同病人在不同的診療機(jī)構(gòu)會(huì)形成多條診療記錄,這些同一個(gè)病人的診療記錄難以融合而導(dǎo)致病人的個(gè)人健康檔案信息不完全的問題,在部分診療數(shù)據(jù)缺省的情況下提出了個(gè)人健康檔案補(bǔ)全方法,利用數(shù)值聚類、特征分析和診療記錄補(bǔ)全等方法,實(shí)現(xiàn)了對(duì)相同病人不同診療記錄的識(shí)別與融合,繼而實(shí)現(xiàn)了病人個(gè)人健康檔案的補(bǔ)全.
下一步的研究將考慮如何在復(fù)雜數(shù)據(jù)環(huán)境下增強(qiáng)算法的容錯(cuò)性,重點(diǎn)研究數(shù)據(jù)缺失或數(shù)據(jù)有誤的情況下,如何進(jìn)行相同病人識(shí)別和診療記錄補(bǔ)全問題.
[1] 李嬌,劉全,傅啟明,等.分布式數(shù)據(jù)庫中基于局部CON模型的記錄匹配方法[J].通信學(xué)報(bào), 2011, 32(7): 196-202.
[2] 沈忱,曾衛(wèi)明,吳愛華.融合修復(fù)代價(jià)的不一致關(guān)系數(shù)據(jù)中相似重復(fù)記錄識(shí)別[J].現(xiàn)代計(jì)算機(jī)(普及版), 2015(6): 3-9.
[3] LEE J S, OLAFSSON S. Data clustering by minimizing disconnectivity[J]. Information Science, 2011, 181(4): 732-746.
[4] IENCO D,PENSA R G,MEO R. From context to distance: Learning dissimilarity for categorical data clustering[J]. ACM Transactions on Knowledge Discovery from Data, 2012, 6(1): 1-25.
[5] RONG S, NIU X, XIANG E W, et al. A machine learning app-roach for instance matching based on similarity metrics[C] //The Semantic Web-ISWC 2012. 2012: 460-475
[6] NOWAK T, NAJGEBAUER P, RYGAL J,et al. A novel graph-based descriptor for object matching[C] //Artificial Intelligence and Soft Computing. 2013: 602-612.
[7] 龔靜,曾建一.文本聚類中的特征選擇方法[J].吉首大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, 29(2): 39-41.
[8] MCGLOTHLIN J P,KHAN L. Managing evolving code sets and integration of multiple data sources in health care analytics[C] // Proceedings of the 2013 International Workshop on Data Management and Analytics for Healthcare. 2013: 9-14.
[9] ALEXE B, ROTH M, TAN W C. Preference-aware integration of temporal data[C] //Proceedings of the VLDB Endowment. 2014: 365-376.
Research and Implementation of Personal Health Records Completion Method Based on Clustering
JIJin-xin,JIANGLi-hong,CAIHong-ming
(School of Software, Shanghai Jiao Tong University, Shanghai 200240, China)
Medical records are useful to both patients and doctors. However, the same patient may go to hospital for treatment at different times with different identification information and the patient’s medical information will be distributed in different records. So doctors can not determine whether the medical records are from the same patient. In order to solve this problem, a novel personal health records completion method is proposed. Numerical clustering, feature analyzing, instance matching and medical records fusion methods are used to identify different records of the same patient and realize the completion of personal health records. Finally, an experiment is taken in the database of a specific hospital to verify the usability of the proposed method.
medical records; personal health records completion; numerical clustering; feature analyz-ing; instance matching; records fusion
2015-11-27
國家自然科學(xué)基金資助項(xiàng)目(71171132,61373030);上海市自然科學(xué)基金資助項(xiàng)目(13ZR1419800)
季金鑫(1991—),男,江蘇啟東人,碩士研究生,研究方向?yàn)閿?shù)據(jù)分析. E-mail: jijinxin@sjtu.edu.cn 蔡鴻明(聯(lián)系人),男,副教授,E-mail: hmcai@sjtu.edu.cn
TP 391
A