張寧
(石家莊市第五醫(yī)院, 河北,石家莊 050000)
隨著醫(yī)療衛(wèi)生事業(yè)的蓬勃發(fā)展,海量的醫(yī)院檔案數(shù)據(jù)也被記錄和積累下來,如何有效地對這些海量數(shù)據(jù)進行分類對于充分發(fā)揮檔案資源以史鑒今的作用至關(guān)重要。而現(xiàn)有的醫(yī)院檔案數(shù)據(jù)分類方法主要為人工分類[1]以及傳統(tǒng)的數(shù)據(jù)庫技術(shù)[2]。前者過于依賴人工經(jīng)驗并且耗時耗力;后者雖然可以滿意一般數(shù)據(jù)規(guī)模下的檔案分類,但是也難以適應突發(fā)公共衛(wèi)生事件中醫(yī)療救治定點醫(yī)院的檔案管理[3]。
王紅等[4]利用注意力機制與雙向門控循環(huán)單元方法提取民航突發(fā)事件領(lǐng)域本體的關(guān)系,為獲取民航本體關(guān)系提供了新的方法。何喜軍等[5]提出基于語義相似聚類的技術(shù)需求分級方法,并在新能源領(lǐng)域得到了應用和推廣。TANG等[6]利用貝葉斯方法框架為每一個類別選擇確定的特征,并在多個真實的數(shù)據(jù)集中驗證了所提的文本分類方法的有效性。陳果等[7]提出融合領(lǐng)域元知識實體關(guān)系分類,并以心血管數(shù)據(jù)為例進行仿真實驗。近期,白亦霆[8]設(shè)計了一種醫(yī)院檔案信息化管理系統(tǒng)解決了傳統(tǒng)的檔案管理系統(tǒng)中缺少有效的管理數(shù)據(jù)庫問題。
本文利用改進的LDA模型結(jié)合GMM算法對醫(yī)院文檔數(shù)據(jù)進行特征提取和聚類,實現(xiàn)醫(yī)院檔案數(shù)據(jù)的準確和智能分類。主要貢獻如下。
(1) 加權(quán)的LDA模型(WLDA)不但可以提取文檔數(shù)據(jù)的特征,而且可以消除多種主題內(nèi)相關(guān)度詞語之間的影響。
(2) 將提取的特征作為GMM模型的輸入并依關(guān)聯(lián)性的大小進行聚類,用已有的檔案數(shù)據(jù)訓練Naive Bayes模型,實現(xiàn)檔案數(shù)據(jù)的智能分類。
(3) 快速有效地應用現(xiàn)有檔案資料指導醫(yī)療救治、院感防控等工作的開展,充分發(fā)揮檔案資源的參考作用。
LDA模型是在PLSA模型基礎(chǔ)上改進得到的,其主要結(jié)構(gòu)如圖1所示。
圖1中,α和β分別表示文檔和詞語的超參數(shù),z和w為主題和詞語級的參數(shù)。LDA模型的聯(lián)合概率可表示為
p(θ,z,w,φ|α,β)=Πp(θ|α)p(zn|θ)p(φ|β)p(wn|θ)
(1)
經(jīng)過N次循環(huán)之后,整個語料N的生成概率為
p(N|α,β)=Πp(wn|α,β)
(2)
圖1 LDA模型流程圖
醫(yī)院檔案數(shù)據(jù)中主題內(nèi)部之間的相關(guān)性較高,主題間相關(guān)性和詞語相關(guān)性如下:
(3)
其中,w為詞語,sim為詞語之間的相似性,得到主題權(quán)重w′:
w′=2δ(S-S′)
(4)
其中,S′是S的均值,δ為平衡參數(shù),用于調(diào)節(jié)S′和S對w′大小影響的程度。圖2給出了當δ=1時,w′、S′以及S間的關(guān)系。
圖2 權(quán)重w′、S′以及S之間的關(guān)系
GMM算法假設(shè)類別標簽服從多項分布,并對給定的標簽樣本滿足多值高斯分布:
(xi|zi=j)~N(μj,Σj)
(5)
進而得到聯(lián)合分布:
P(xi,zi)=P(xi|zi)P(zi)
(6)
假設(shè)Naive Bayes模型的后驗概率為P(y,x),由貝葉斯公式可知:
(7)
其中,x=x1,x2…為聯(lián)合事件。
此算法的具體步驟介紹如下。
離線建模:
(1) 將原始檔案數(shù)據(jù)輸入到LWDA模型中;
(2) 利用GMM模型對LWDA提取的特征依相關(guān)性進行聚類;
圖3 基于所提方法的醫(yī)院檔案數(shù)據(jù)智能分類框架
(3)將測試樣本的聚類結(jié)果保存。
在線分類:
(1) 將新采集的醫(yī)院檔案數(shù)據(jù)按照離線步驟1~2進行依特征的聚類;
(2) 計算相應的樣本概率P(xi,zi);
(3) 將樣本概率作為Naive Bayes模型的輸入,并計算得到相應的分類結(jié)果。
利用石家莊市第五醫(yī)院的真實檔案數(shù)據(jù)進行實驗,由于涉及病人的隱私,文檔數(shù)據(jù)用編號表示。該訓練集有8 425個檔案文檔,測試集6 896個檔案文檔,共包含16種文本數(shù)據(jù)。
本文只選擇其中的8種類別(C1~C8)進行聚類,如表1所示。
表1 8類檔案數(shù)據(jù)
通過準確率、F1值、召回率等來刻畫所提的WLDA+GMM模型在醫(yī)院數(shù)據(jù)聚類方面的可靠性。首先利用WLDA對檔案數(shù)據(jù)進行特征提取,得到與文本數(shù)據(jù)對應的維度為16的文檔特征向量,并利用GMM模型對這些特征進行聚類。由表1可知,所選擇的8種檔案數(shù)據(jù)具有類別不平衡性,所以加權(quán)平均的定量指標更能體現(xiàn)算法的聚類性能,具體實驗結(jié)果如表2所示。
表2 不同聚類算法的F1值比較
從表2中可以看出,由于本文所提的WLDA+GMM算法考慮了不同特征之間的關(guān)聯(lián)性并以概率的形式進行聚類準則,所以比傳統(tǒng)的LDA+k-means取得了更好的聚類效果。WLDA+GMM在表2中的四種評價指標上都比LDA+k-means方法有一定程度上的提升(最低10%,最高16%),說明本文方法能夠更好地對醫(yī)院文檔數(shù)據(jù)進行聚類。
為了驗證所提算法的醫(yī)院檔案數(shù)據(jù)分類精度,選擇其中的5種類別(C1~C5)共2 969個樣本進行仿真實驗,將所提取的特征作為輸入來訓練Naive Bayes模型,并以SVM作為對比算法,2種方法的分類結(jié)果分別如表3和表4所示。
表3 SVM模型分類結(jié)果
表4 Naive Bayes模型分類結(jié)果
由表3可知,SVM算法的宏平均、微平均和加權(quán)平均為90%,并且最高的指標為95%(C5的召回率和C3的F1),最低的定量指標只有82%(C5的精度),說明SVM模型在測試集中總體表現(xiàn)較差。由表4可知,所提方法取得了較好的分類結(jié)果,基本可以替代基于人工的醫(yī)院檔案分類。
為了更加直觀地展示所提方法的分類優(yōu)勢,以F1指標為例來進行說明,結(jié)果如圖4所示。從圖4中可以看出,所提方法的分類精度在5個類別上的F1值都高于SVM,并且最高的F1值已經(jīng)達到100%。
圖4 2種方法在5種類別上的F1值
本文提出一種新的醫(yī)院檔案數(shù)據(jù)的智能分類方法,可以進行檔案數(shù)據(jù)的智能分類,并在石家莊市第五醫(yī)院的檔案數(shù)據(jù)集中驗證了本文方法的有效性。但是針對醫(yī)院豐富圖片和聲音數(shù)據(jù)檔案還未有涉及,這將是未來研究的重點方向之一。