鄭 健
(哈爾濱醫(yī)科大學附屬第一醫(yī)院 信息中心,哈爾濱 150000)
基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)的設計
鄭 健
(哈爾濱醫(yī)科大學附屬第一醫(yī)院 信息中心,哈爾濱 150000)
為了提高醫(yī)療技術水平,加快醫(yī)務人員對醫(yī)療信息數(shù)據的分析,使醫(yī)療信息數(shù)據運行更加順暢,減少數(shù)據存儲所占空間,需要對醫(yī)療信息數(shù)據存儲系統(tǒng)進行設計;當前的醫(yī)療信息數(shù)據存儲系統(tǒng)對醫(yī)療信息數(shù)據進行存儲時,利用FPGA構建系統(tǒng)硬件,以硬件為基礎將醫(yī)療信息數(shù)據存儲,但在存儲過程中,沒有將冗余數(shù)據清除,導致存儲空間易滿,容量變小,存在正常醫(yī)療信息數(shù)據無處安放的問題;為此,提出一種基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法;該方法首先對醫(yī)療信息數(shù)據的來源進行統(tǒng)計,根據數(shù)據來源實現(xiàn)醫(yī)療數(shù)據的硬件構造,然后利用醫(yī)療信息數(shù)據中特征相似數(shù)據間的中介點實現(xiàn)數(shù)據聚類,完成對醫(yī)療信息數(shù)據的聚類存儲,最后采用高斯混合模型對冗余醫(yī)療數(shù)據進行特征分析,以分析結果為基礎,利用分數(shù)階Fourier變換對冗余醫(yī)療信息數(shù)據進行刪除操作,由此完成了基于模糊處理的醫(yī)療信息數(shù)據存儲;實驗結果證明,所提方法增加數(shù)據存儲空間容量,減少對冗余數(shù)據的存儲,加快醫(yī)療信息數(shù)據的存儲速度,提高數(shù)據存儲精度,為該領域研究發(fā)展提供強有力的依據。
模糊處理;醫(yī)療信息數(shù)據;存儲系統(tǒng)設計
目前,隨著互聯(lián)網水平和科學技術的發(fā)展,醫(yī)療信息數(shù)據在醫(yī)療屆的應用范圍廣泛,例如對醫(yī)院門診、骨科、內科、眼科等部門都有良好的輔助作用[1]。醫(yī)療信息數(shù)據不僅從側面提高醫(yī)院醫(yī)療水平,而且便于醫(yī)務人員從中發(fā)現(xiàn)醫(yī)療方面的不足和漏洞,并及時改正。隨著當前醫(yī)療信息數(shù)據逐漸增加,醫(yī)療信息數(shù)據的存儲受到了社會各界的高度重視和廣泛研究[2-3]。因為醫(yī)療信息數(shù)據具有復雜性較強、靈活度較高、數(shù)量較大,讀取時間較長等特性,所以需要對其存儲系統(tǒng)進行設計[4]。大多數(shù)的數(shù)據存儲系統(tǒng)對醫(yī)療信息數(shù)據進行存儲時,無法對其進行低損耗、低誤差、高精度、高效率地存儲,導致醫(yī)療信息數(shù)據存儲過程中,經常出現(xiàn)惡意數(shù)據泛濫、醫(yī)療數(shù)據來路不明、存儲用時較長的問題[5]。在這種情況下,如何提高醫(yī)療信息數(shù)據存儲速度,增加數(shù)據存儲的穩(wěn)定性成為了當前急需解決的問題?;谀:幚淼尼t(yī)療信息數(shù)據存儲系統(tǒng)設計方法,對醫(yī)療信息數(shù)據進行安全可靠地存儲,是解決上述問題的有效途徑[6]。此問題受到了醫(yī)療數(shù)據存儲系統(tǒng)研究人員的鉆研,同時也研究出了很多優(yōu)秀的方法[7]。
文獻[8]提出了一種基于FPGA的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法。該方法首先利用Hadoop平臺,將醫(yī)療信息數(shù)據分割成大小相同的數(shù)據塊,然后通過多副本的形式將數(shù)據塊分布存儲在不同存儲系統(tǒng)位置,最后采用FPGA實現(xiàn)數(shù)據存儲系統(tǒng)更好的容錯機制,從而完成醫(yī)療信息數(shù)據持久化存儲。該方法下的醫(yī)療信息數(shù)據存儲更為持久,但是存在存儲時間較長的問題。文獻[9]提出了一種基于CC2530的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法。該方法首先利用數(shù)據采集模塊對醫(yī)療信息數(shù)據進行大規(guī)模的采集,然后將采集的數(shù)據經過濾波放大后,采用CC2530單機片實現(xiàn)數(shù)據傳輸,最后依據MicroSD卡的植入完成對醫(yī)療信息數(shù)據的存儲。該方法雖然用時較短,但是存在存儲效率偏差大的問題。文獻[10]提出了一種基于C51的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法。該方法首先利用FPGA作為存儲系統(tǒng)的控制芯片,然后以數(shù)據存儲芯片NANDFlash作為醫(yī)療信息數(shù)據的存儲媒介,采用A/D芯片對各種醫(yī)療信息數(shù)據進行轉換,最后將所有被轉換的醫(yī)療信息數(shù)據統(tǒng)一存儲至數(shù)據庫中。該方法下的數(shù)據存儲精度較高,但是過程過于繁瑣。
針對上述產生的問題,提出一種基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法。該方法首先對醫(yī)療信息數(shù)據的來源做出了分析,以分析的結果為依據對醫(yī)療信息數(shù)據存儲系統(tǒng)的硬件進行構造,然后以硬件構造為基礎,利用MPI對醫(yī)療信息數(shù)據進行聚類,聚類過程中采用相似數(shù)據間的中介點將相似數(shù)據連接,從而實現(xiàn)數(shù)據的聚類存儲,最后依據對冗余醫(yī)療信息數(shù)據特征的分析,將冗余醫(yī)療信息數(shù)據刪除,實現(xiàn)了醫(yī)療信息數(shù)據的有序存儲,完成本文所提方法下的數(shù)據存儲系統(tǒng)設計。仿真實驗證明,所提方法可以低成本、高精度地對醫(yī)療信息數(shù)據進行存儲。
1.1 醫(yī)療信息數(shù)據存儲系統(tǒng)設計
由于醫(yī)療信息數(shù)據中本身存在惡意數(shù)據,而在醫(yī)療信息數(shù)據存儲過程中,惡意數(shù)據的來源很模糊,所以需要利用醫(yī)療信息數(shù)據來源模塊對其進行具體化的分類,分類操作有利于醫(yī)療信息數(shù)據的高效存儲。圖1為醫(yī)療信息數(shù)據來源結構示意圖。
圖1 醫(yī)療信息數(shù)據來源結構
通過圖1可以看出,醫(yī)療信息數(shù)據來源大致分為六塊:骨科信息數(shù)據、眼科信息數(shù)據、口腔科信息數(shù)據、內科信息數(shù)據、外科信息數(shù)據及其他醫(yī)療信息數(shù)據。當醫(yī)療信息數(shù)據進行存儲時,如果出現(xiàn)惡意數(shù)據,醫(yī)務人員通過數(shù)據來源模塊可以清晰地分辨出惡意數(shù)據來源,并及時做出處理。圖2是醫(yī)療信息數(shù)據存儲系統(tǒng)的構造。
圖2 醫(yī)療信息數(shù)據存儲系統(tǒng)設計
圖2中醫(yī)療信息數(shù)據存儲系統(tǒng)分為醫(yī)療信息數(shù)據聚類存儲和醫(yī)療冗余信息數(shù)據查詢,也就是按照冗余信息數(shù)據的特征辨別冗余數(shù)據存在,如若發(fā)現(xiàn)冗余數(shù)據便對其進行刪除操作,有利于節(jié)省醫(yī)療信息數(shù)據存儲系統(tǒng)的存儲空間。
1.2 醫(yī)療信息數(shù)據聚類存儲
以2.1中的各項信息數(shù)據為基礎,利用MPI對醫(yī)療信息數(shù)據進行聚類存儲,聚類存儲過程中依據醫(yī)療信息數(shù)據中特征相似數(shù)據間的中介點實現(xiàn)數(shù)據聚類,由此完成對醫(yī)療信息數(shù)據的聚類存儲。
假設,醫(yī)療信息數(shù)據網是M={E,K},式中,E代表醫(yī)療信息數(shù)據節(jié)點集合,K代表數(shù)據節(jié)點之間邊的集合。醫(yī)療信息數(shù)據節(jié)點代表數(shù)據存儲系統(tǒng)中的元素,數(shù)據節(jié)點之間的邊代表元素間的聯(lián)系。若將整個醫(yī)療信息數(shù)據庫當作由若干個社團構成,也就是由若干個特征相同的數(shù)據類構成,則社團內部的數(shù)據節(jié)點連接的比較緊湊,社團之間數(shù)據節(jié)點的連接較為稀疏。
假設x和y分別代表醫(yī)療信息數(shù)據網M中的兩個頂點,βx代表頂點的結構,F(xiàn)是E中的一個子集,且該子集不為空,α和δ分別代表醫(yī)療信息數(shù)據中的聚類對象,O代表滿足α和δ聚類的條件。則醫(yī)療信息數(shù)據網M中的頂點結構相似度為:
(1)
其中,κ(x,y)代表頂點x和頂點y間的相似度。如果醫(yī)療信息數(shù)據節(jié)點與該數(shù)據鄰居的頂點結構相似,則得到兩者的關系式為:
(2)
其中,Gα(x)代表與頂點x相似度大于等于α的鄰居數(shù)據集合。假設一個醫(yī)療信息數(shù)據節(jié)點有很多相似度大于等于α的鄰居數(shù)據節(jié)點,則該數(shù)據節(jié)點是社團核心節(jié)點,則核心節(jié)點的表達方式為:
(3)
其中,COREα,δ(x)代表醫(yī)療信息數(shù)據節(jié)點是數(shù)據對象α和δ核心節(jié)點的值。通過核心節(jié)點值對醫(yī)療信息數(shù)據進行聚類,聚類過程中利用特征相似數(shù)據間的中介點實現(xiàn)數(shù)據聚類,其公式可表示為:
HUBα,δ(x)?
(4)
其中,HUBα,δ(x)代表醫(yī)療信息數(shù)據中特征相似數(shù)據間的中介點值,式中,x不屬于任何團體,假設E中的醫(yī)療信息數(shù)據節(jié)點至少分布在兩個或者兩個以上的團體時,HUBα,δ(x)可以當做醫(yī)療信息數(shù)據聚類的中介點,本文不對醫(yī)療信息數(shù)據節(jié)點分布在兩個以下團體的情況做研究。由該中介點完成對醫(yī)療信息數(shù)據的聚類,將聚類后的數(shù)據有序的存儲至醫(yī)療信息數(shù)據庫中。
1.3 冗余醫(yī)療信息數(shù)據的查詢與刪除
要完成冗余醫(yī)療信息數(shù)據刪除,首先要對其進行查詢,冗余信息數(shù)據的特征分析可以使查詢效果更佳。本文利用高斯混合模型對冗余醫(yī)療數(shù)據進行特征分析,具體過程如下。
假設,將冗余醫(yī)療信息數(shù)據特征區(qū)間定義為:
lg(i,j,f)={D(i,j)/(216/f)}
(5)
其中,i代表冗余醫(yī)療信息數(shù)據特征數(shù)目,j代表冗余醫(yī)療信息數(shù)據特征區(qū)間數(shù)目,f代表對冗余醫(yī)療信息數(shù)據進行查詢時的控制參數(shù),單位為h,實驗證明當此參數(shù)控制在0.07~0.08時,數(shù)據存儲效率最高。D代表刪除冗余醫(yī)療數(shù)據中一常數(shù)單位。
為了使冗余數(shù)據查詢結果更清晰,根據冗余醫(yī)療信息數(shù)據的特征區(qū)間,對冗余醫(yī)療信息數(shù)據特征集進行計算:
lgvv(i,j)=lgv(i,j)*sσf
(6)
其中,lgvv代表冗余醫(yī)療信息數(shù)據特征集閾值,lgv代表冗余醫(yī)療信息數(shù)據特征子集,s代表基于模糊處理存儲的濾波函數(shù),sσf代表冗余醫(yī)療信息數(shù)據的特征核,由上式得到冗余醫(yī)療信息數(shù)據的特征配置為:
pi(f)=qi(f)+ki(f)
(7)
其中,p代表冗余醫(yī)療信息數(shù)據的特征配置,q代表冗余數(shù)據查詢質量,k代表冗余醫(yī)療信息數(shù)據的特征配置系數(shù),以冗余醫(yī)療信息數(shù)據特征配置為基礎,假設冗余數(shù)據刪除過程中,刪除干擾值z(f)為0時,則以此配置為中心,得到冗余數(shù)據特征的展開結果:
(8)
其中,a代表冗余數(shù)據特征的展開值,由式(8)可知冗余醫(yī)療信息數(shù)據特征展開結果為驗證醫(yī)療信息數(shù)據庫內的醫(yī)療信息數(shù)據,是否為冗余數(shù)據的驗證指標,通過對醫(yī)療信息數(shù)據特征展開結果的壓縮處理,獲得冗余數(shù)據壓縮特征編碼。為了避免習慣性對冗余醫(yī)療信息數(shù)據刪除的影響,對該特征編碼進行量化分解,其計算方式為:
(9)
其中,Rn代表數(shù)據特征編碼量化分解值,利用量化分解的結果完成對冗余醫(yī)療信息數(shù)據的分析,當Rn≥1時,則正在進行驗證的醫(yī)療信息數(shù)據為冗余數(shù)據,直接刪除;當Rn<1時,則正在進行驗證的醫(yī)療信息數(shù)據不是冗余數(shù)據,可直接進行存儲,由冗余醫(yī)療信息數(shù)據的特征分析過程完成冗余數(shù)據的查詢。
以上述結果為依據,采用分數(shù)階Fourier變換對冗余醫(yī)療信息數(shù)據進行刪除操作。具體過程如下。
設置冗余醫(yī)療信息數(shù)據的訓練樣本集S=[S1,S2,…,Si,…,SC]Y,在基于模糊處理的醫(yī)療信息數(shù)據存儲環(huán)境中,為了保障醫(yī)療信息數(shù)據正常存儲的可靠性,必須得到存儲系統(tǒng)中冗余醫(yī)療信息數(shù)據流的離散分數(shù)階Fourier逆變換值,該值的表示方式為:
b=N-φ×S
(10)
(11)
其中,ι代表醫(yī)院客戶端點的醫(yī)療信息數(shù)據寬帶,η代表冗余醫(yī)療信息數(shù)據重構時延,以上述結果為依據,利用分數(shù)階Fourier變換法得到冗余醫(yī)療信息數(shù)據流刪除函數(shù):
Uk=[uk1,uk2,…,ukj,…uki]
(12)
其中,Uk代表冗余醫(yī)療信息數(shù)據流刪除函數(shù),u代表冗余醫(yī)療信息數(shù)據流刪除函數(shù)中的函數(shù)子集,綜上分析,采用3階累積量切片,將醫(yī)療信息數(shù)據劃分為若干個塊,根據冗余醫(yī)療信息數(shù)據特征的分析,對每個數(shù)據塊中的冗余數(shù)據進行徹底刪除。
為了證明基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法的可實踐性,需要進行一次仿真實驗。在Linux的環(huán)境下搭建醫(yī)療信息數(shù)據存儲實驗仿真平臺。實驗數(shù)據取自于北京解放軍醫(yī)院總部的醫(yī)療信息數(shù)據存儲系統(tǒng),利用本文所提方法對實驗數(shù)據進行存儲,由此觀察其整體有效性。表1為在數(shù)量相同的醫(yī)療信息數(shù)據下,文獻[8]所提方法、文獻[9]所提方法和文獻[10]所提方法與本文所提方法,醫(yī)療信息數(shù)據存儲時間(s)的對比。
表1 不同方法下數(shù)據存儲時間的對比
通過對表1的分析,文獻[8]、文獻[9]、文獻[10]所提方法與本文所提方法,在醫(yī)療信息數(shù)據量相同的情況下,本文所提方法存儲所用時間遠遠低于文獻所提方法,相比較之下,文獻[10]所提方法與本文所提方法存儲時間相差最大,這主要是因為利用本文方法進行數(shù)據存儲時,對冗余醫(yī)療信息數(shù)據進行了刪除操作,節(jié)省了存儲時間,提高了存儲精度,證明了本文所提方法的可行性較強。表2是文獻[8]所提方法與本文所提方法,冗余醫(yī)療信息數(shù)據刪除時間(s)的對比。
分析表2可知,本文所提方法在冗余醫(yī)療信息數(shù)據刪除方面明顯優(yōu)于文獻[8]所提方法,冗余醫(yī)療信息數(shù)據的刪除,直接影響到數(shù)據的存儲效率和時間,刪除的越快,表示存儲系統(tǒng)的整體性能越好,本文所提方法在刪除冗余醫(yī)療信息數(shù)據時,先利用高斯混合模型對冗余數(shù)據特征進行了透徹的分析,然后采用分數(shù)階Fourier變換對冗余醫(yī)療信息數(shù)據進行刪除,此步驟加快了數(shù)據存儲速度。圖3為冗余醫(yī)療信息數(shù)據查詢的控制參數(shù)f取值范圍對數(shù)據存儲效率(%)的影響。
表2 不同方法下冗余醫(yī)療信息數(shù)據刪除時間對比
圖3 冗余數(shù)據查詢的控制參數(shù)對存儲效率的影響
從圖3中可以看出,冗余醫(yī)療信息數(shù)據查詢的控制參數(shù)f取值范圍對醫(yī)療信息數(shù)據的存儲效率有很大影響,當冗余數(shù)據查詢控制參數(shù)在0.05~0.06時,醫(yī)療信息數(shù)據存儲效率曲線雖然比較平穩(wěn),但存儲效率并不高,在80%以下,與之相比當冗余數(shù)據查詢控制參數(shù)在0.07~0.08時,數(shù)據存儲效率明顯升高,基本處于97%~98%,該數(shù)據進一步證明了本文所提方法具有良好的可行性和可靠性。圖4是文獻[8]、文獻[9]、文獻[10]所提方法與本文所提方法數(shù)據聚類時間(s)對比。
圖4 不同方法下數(shù)據聚類時間對比
由圖4可知,文獻[8]、文獻[9]、文獻[10]所提方法與本文所提方法在數(shù)據聚類時間上,都是隨著數(shù)據量的增加而持續(xù)增長的,在相同數(shù)據量聚類時,本文所提方法所用時間明顯較短,因為基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法中,利用了MPI對醫(yī)療信息數(shù)據進行聚類存儲,節(jié)省了數(shù)據聚類時間,提高了醫(yī)療信息數(shù)據存儲精度,為數(shù)據存儲領域的后續(xù)發(fā)展指明了方向。
仿真實驗證明,所提方法可以安全可靠地對醫(yī)療信息數(shù)據進行存儲,減少了醫(yī)療信息數(shù)據存儲時間,提高了醫(yī)務人員對醫(yī)療信息數(shù)據漏洞的分析能力,降低冗余數(shù)據對醫(yī)療信息數(shù)據存儲系統(tǒng)的干擾,為醫(yī)療界的發(fā)展提供可靠依據,對數(shù)據存儲系統(tǒng)設計領域有重要的借鑒意義。
采用當前方法對醫(yī)療信息數(shù)據進行存儲時,無法對其進行高精度、低誤差、穩(wěn)定可靠地存儲,存在數(shù)據存儲空間易滿,存儲系統(tǒng)運行有延遲,數(shù)據存儲效率低等問題。本文提出一種基于模糊處理的醫(yī)療信息數(shù)據存儲系統(tǒng)設計方法。并通過實驗仿真證明,所提方法可以高效率地對醫(yī)療信息數(shù)據進行存儲,可行性較強,對醫(yī)務人員醫(yī)術的提高起到了輔助作用,為該領域的深造鉆研提供支撐,成為該領域發(fā)展的重要旗幟。
[1]張 琳,譚 軍,白明澤.基于MongoDB的蛋白質組學大數(shù)據存儲系統(tǒng)設計[J].計算機應用,2016,36(S1):232-236.
[2]陳亭玉,錢 慧.嵌入無損編碼的海量視頻數(shù)據存儲系統(tǒng)設計[J].電視技術,2016,40(4):52-55.
[3]姜 德,馬游春,王悅凱,等.高速數(shù)據同步存儲系統(tǒng)設計[J].電子器件,2016,39(6):1421-1424.
[4]姜學東,孫海民.大數(shù)據存儲中的優(yōu)化架構結構的設計與實現(xiàn)[J].現(xiàn)代電子技術,2016,39(24):66-70.
[5]王善明,嚴迎建,郭朋飛,等.基于國產SOC的數(shù)據加密存儲系統(tǒng)設計[J].電子技術應用,2015,41(11):34-37.
[6]任瑩暉,紀會敏,杜 勇,等.切削刀具綜合管理系統(tǒng)的數(shù)據采集和存儲設計研究[J].計算機應用研究,2016,33(10):3031-3035.
[7]劉博偉,黃瑞章.基于HBase的金融時序數(shù)據存儲系統(tǒng)[J].中國科技論文,2016,11(20):2387-2392.
[8]雷德龍,郭殿升,陳崇成,等.基于MongoDB的矢量空間數(shù)據云存儲與處理系統(tǒng)[J].地球信息科學學報,2014,16(4):507-516.
[9]李金猛.基于FPGA的數(shù)據采集存儲系統(tǒng)的設計與實現(xiàn)[J].電子設計工程,2016,24(13):85-87.
[10]胡曉峰,張亮紅,劉文怡,等.VC多線程流水線在數(shù)據存儲系統(tǒng)中的設計與實現(xiàn)[J].電子器件,2016,39(4):964-967.
Based on Fuzzy Processing of Medical Information Data Storage System Design
Zheng Jian
(First Affiliated Hospital of Harbin Medical University Information Centre,Harbin 150000,China)
In order to improve the level of medical technology, speed up the medical staff of medical information data analysis, the medical information data run more smoothly, reduce the data storage of space, need for medical information data storage system design. The current medical information data storage system of medical information data for storage, use FPGA to build the system hardware, on the basis of the hardware to medical information data storage, but in the process of storage, there is no clear the redundant data, leading to storage space is full, smaller capacity, has the problem of the normal medical information data is placed. For this, put forward a kind of medical information data storage system based on fuzzy processing design method. This method first source of health information data statistics, according to the data source to realize the hardware structure of medical data, then use mediation between the characteristics of medical information data in the similar data points for data clustering, clustering of medical information data storage, and finally by using the gaussian mixture model to analyzing characteristics of medical data redundancy, on the basis of the analysis results, using fractional Fourier transform to delete redundant medical information data, thus complete the medical information data storage based on fuzzy processing. The experimental results show that the proposed method increases the data storage capacity, reduces the redundant data storage, to speed up the medical information data storage, improved the precision of data storage, the research in the field development provides a strong basis.
blurred; medical information data; storage system design;
2017-04-11;
2017-04-21。
鄭 健(1988-),男,黑龍江哈爾濱人,初級工程師,主要從事網絡安全方向的研究。
1671-4598(2017)07-0298-04
10.16526/j.cnki.11-4762/tp.2017.07.074
TP333
A