谷麗霞,劉欣芃
(1.上海市第六人民醫(yī)院,上海 201303;2.鄭州大學(xué)西亞斯學(xué)院,河南新鄭 451150)
第四次工業(yè)革命的到來(lái)使得互聯(lián)網(wǎng)中的數(shù)據(jù)量呈現(xiàn)出井噴式的增長(zhǎng)。醫(yī)療財(cái)務(wù)分析領(lǐng)域同樣面臨著數(shù)據(jù)快速增長(zhǎng)帶來(lái)的各項(xiàng)挑戰(zhàn),數(shù)據(jù)量的增長(zhǎng)需要更先進(jìn)、高效的數(shù)據(jù)處理技術(shù)支持[1-5]??焖偻瓿珊A繑?shù)據(jù)的識(shí)別與處理,可以有效提取數(shù)據(jù)中的有用信息進(jìn)行輔助判別,不但能夠提升醫(yī)院財(cái)務(wù)系統(tǒng)運(yùn)轉(zhuǎn)效率,還能為戰(zhàn)略決策提供有效的數(shù)據(jù)參考[6-8]。
近年來(lái),計(jì)算機(jī)的運(yùn)算能力得到了大幅提高。傳統(tǒng)的機(jī)器學(xué)習(xí)算法在計(jì)算效率上的優(yōu)勢(shì)已隨著計(jì)算量的增長(zhǎng)而變得越來(lái)越小,深度學(xué)習(xí)網(wǎng)絡(luò)憑借其更優(yōu)秀的算法性能在工業(yè)界有了更廣泛的應(yīng)用,眾多學(xué)者開始研究深度學(xué)習(xí)理論在醫(yī)療數(shù)據(jù)處理中的各項(xiàng)問題。對(duì)于醫(yī)療財(cái)務(wù)數(shù)據(jù)的處理,通常面臨著數(shù)據(jù)結(jié)構(gòu)化程度低、特征維度大、數(shù)據(jù)缺失等問題。因此,深度學(xué)習(xí)算法較難直接找到契合的應(yīng)用場(chǎng)景。為了提升醫(yī)療數(shù)據(jù)的分析效率,該文建立了一個(gè)智能化的醫(yī)療數(shù)據(jù)處理與識(shí)別系統(tǒng)。文中對(duì)于深度置信網(wǎng)絡(luò)進(jìn)行研究,將其與自編碼網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)快捷化的數(shù)據(jù)特征識(shí)別,并以某醫(yī)院的相關(guān)財(cái)務(wù)數(shù)據(jù)集為例,對(duì)系統(tǒng)的數(shù)據(jù)分析能力進(jìn)行了測(cè)試和分析。
數(shù)據(jù)量的增長(zhǎng)使得傳統(tǒng)的機(jī)器學(xué)習(xí)算法無(wú)法充分挖掘出數(shù)據(jù)內(nèi)的隱藏價(jià)值。深度學(xué)習(xí)并不是一項(xiàng)新興的技術(shù),但是長(zhǎng)期以來(lái),由于其結(jié)構(gòu)復(fù)雜,運(yùn)算時(shí)間長(zhǎng),無(wú)法滿足應(yīng)用需求。近年來(lái),隨著計(jì)算機(jī)運(yùn)算性能的提升,深度神經(jīng)網(wǎng)絡(luò)得以在工業(yè)界應(yīng)用。深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是一種多層次的有監(jiān)督網(wǎng)絡(luò),區(qū)別于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),其引入了多個(gè)受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)。RBM 的基本結(jié)構(gòu)如圖1 所示[9-14]。
在DBN 中,其隱藏層多為RBM、DBN,隱藏層的連接方式較為靈活,可以是全連接的也可以是無(wú)連接的。DBN 通過(guò)堆疊多個(gè)RBM 來(lái)提升網(wǎng)絡(luò)的分類性能,對(duì)當(dāng)前層訓(xùn)練完畢以后,用當(dāng)前層的輸出作為下一層的RBM 輸入,最終通過(guò)誤差的反向傳播來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)[15-16]。
DBN 基于能量模型,對(duì)于包含m個(gè)隱藏單元的DBN,定義其狀態(tài)為h,可見層的能量為v。此時(shí)RBM 的能量函數(shù)如式(1)所示。
在式(1)中,i代表可見單元,j代表隱藏單元,ai、bj分別是可見單元與隱藏單元的偏置,Wij是可見層到隱藏層的連接權(quán)重矩陣。通過(guò)相關(guān)參數(shù),基于式(1)模型的初始化可以得到核心函數(shù),如式(2)所示。
Z(θ)是P(v,h|θ)的歸一化算子。然后計(jì)算兩層間的概率因子,如式(3)所示。
利用式(3)可以得到隱藏層中第j個(gè)單元的激活概率,如式(4)所示。
在RBM 訓(xùn)練中,需要確定的最終參數(shù)是E(v,h|θ)中的θ,文中通過(guò)Gibbs 抽樣,得到RBM 的近似分布,然后獲得E(v,h|θ)梯度的近似值。
對(duì)于傳統(tǒng)的淺層神經(jīng)網(wǎng)絡(luò),通常需要人為地定義、標(biāo)注輸入數(shù)據(jù)的特征作為網(wǎng)絡(luò)訓(xùn)練的輸入向量。該種定義方法涉及大量的數(shù)據(jù)處理,工作量極大。此外,對(duì)于算法使用者的專業(yè)水平要求較高且效率低下,而所提取的特征數(shù)量也不夠,無(wú)法滿足深度學(xué)習(xí)網(wǎng)絡(luò)的要求。因此,該文引入了自編碼器(Autoencoder)網(wǎng)絡(luò)作為特征提取方法。該網(wǎng)絡(luò)的特征提取流程如圖2 所示。
圖2 Autoencoder方法流程
Autoencoder 可以看作是一個(gè)無(wú)監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò),它將輸入的數(shù)據(jù)(Input)進(jìn)行編碼(Encoder),然后把編碼的結(jié)果解碼(Decoder)后獲得最終的輸出(Output)。隨 后,根 據(jù)Input 與Output 間 的 誤 差(Error)不斷調(diào)整編碼、解碼參數(shù)獲得期望的輸出。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 Autoencoder網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于m維的輸入變量X與n維的輸出變量Y,定義激活函數(shù)f與g,如式(5)所示。
其中,w與p分別是輸入層到隱藏層的權(quán)重矩陣和偏置矩陣,wˉ與q分別是隱藏層到輸出層的權(quán)重矩陣和偏置矩陣。文中使用的激活函數(shù)sf和sg均是Sigmoid 函數(shù),理想狀態(tài)下,輸出層Y應(yīng)是輸入層X數(shù)據(jù)的復(fù)現(xiàn),因此w有如式(6)所示的關(guān)系:
為了降低輸入與輸出間的誤差,需要定義誤差距離W(x,y),當(dāng)使用Sigmoid 函數(shù)時(shí),W(x,y)的定義方法如下。
根據(jù)W(x,y),可以進(jìn)一步定義自編碼過(guò)程中的損失函數(shù)。若訓(xùn)練集的數(shù)據(jù)形式如式(8)所示:
則其損失函數(shù)如式(9)所示。
該文在自組織網(wǎng)絡(luò)訓(xùn)練時(shí),采用梯度下降算法生成的自組織網(wǎng)絡(luò)的隱藏層,即可作為深度神經(jīng)網(wǎng)絡(luò)輸入的特征向量。
結(jié)合DBN 網(wǎng)絡(luò)與和Autoencoder 自編碼網(wǎng)絡(luò),文中構(gòu)建了圖4 所示的系統(tǒng)算法流程圖。
從圖4 可以看出,該算法系統(tǒng),首先,需要對(duì)所需的相關(guān)醫(yī)療數(shù)據(jù)進(jìn)行預(yù)處理;然后,使用Autoencoder算法自動(dòng)化提取數(shù)據(jù)中的相關(guān)特征,利用提取的特征進(jìn)行DBN 網(wǎng)絡(luò)訓(xùn)練;最終,對(duì)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行性能測(cè)試。
圖4 系統(tǒng)算法流程圖
該文結(jié)合深度置信網(wǎng)絡(luò)與自編碼網(wǎng)絡(luò)構(gòu)成了一個(gè)深度學(xué)習(xí)系統(tǒng),并將其應(yīng)用在醫(yī)療財(cái)務(wù)數(shù)據(jù)的智能分析上。為了評(píng)估系統(tǒng)在數(shù)據(jù)分析上的性能,文中基于某大型醫(yī)院的財(cái)務(wù)數(shù)據(jù)集進(jìn)行了測(cè)試實(shí)驗(yàn),該數(shù)據(jù)集包含了醫(yī)院一段時(shí)期內(nèi)的148 500 條財(cái)務(wù)數(shù)據(jù),通過(guò)分析每段單位時(shí)間內(nèi)財(cái)務(wù)數(shù)據(jù),實(shí)現(xiàn)對(duì)醫(yī)院運(yùn)轉(zhuǎn)情況的評(píng)估標(biāo)注,評(píng)估結(jié)果為運(yùn)轉(zhuǎn)健康、運(yùn)轉(zhuǎn)不利兩種。文中評(píng)估結(jié)果的判斷依據(jù)為醫(yī)院的財(cái)務(wù)周報(bào)數(shù)據(jù)集,并使用這兩個(gè)結(jié)果作為系統(tǒng)的輸出結(jié)果。
在將數(shù)據(jù)輸入到算法模型前,由于該數(shù)據(jù)集中存在著非格式化數(shù)據(jù)與數(shù)據(jù)缺失的現(xiàn)象,因此需要先進(jìn)行數(shù)據(jù)的預(yù)處理。將預(yù)處理后的數(shù)據(jù)輸入到Autoencoder 網(wǎng)絡(luò)中,提取出17 個(gè)相關(guān)特征,具體的特征類目如表1 所示。
表1 模型輸入特征
在表1中,包含了可以反應(yīng)醫(yī)院財(cái)務(wù)狀況的17個(gè)財(cái)務(wù)指標(biāo),這些指標(biāo)覆蓋了醫(yī)院的運(yùn)營(yíng)成本、盈利狀態(tài)以及未來(lái)的發(fā)展預(yù)期等多個(gè)方面。
在仿真前,首先需要確定深度置信網(wǎng)絡(luò)的相關(guān)參數(shù)。對(duì)于深度置信網(wǎng)絡(luò),重要的參數(shù)有輸入層、輸出層的節(jié)點(diǎn)數(shù)、隱藏層的節(jié)點(diǎn)數(shù)。其中,輸入層的節(jié)點(diǎn)數(shù)與特征數(shù)相關(guān),輸出層的節(jié)點(diǎn)數(shù)與網(wǎng)絡(luò)輸出向量的維度有關(guān)。而隱藏層層數(shù)以及每層的節(jié)點(diǎn)數(shù)對(duì)網(wǎng)絡(luò)性能有著重要的影響。若層數(shù)與節(jié)點(diǎn)數(shù)較少,網(wǎng)絡(luò)深度不足,則會(huì)影響網(wǎng)絡(luò)的數(shù)據(jù)分析能力;若層數(shù)與節(jié)點(diǎn)數(shù)過(guò)多,網(wǎng)絡(luò)在訓(xùn)練過(guò)程中則產(chǎn)生過(guò)擬合現(xiàn)象,從而影響網(wǎng)絡(luò)在測(cè)試集上的泛化性能。該文通過(guò)逐層實(shí)驗(yàn)的方法,確定網(wǎng)絡(luò)隱藏層層數(shù)與每層隱藏層的節(jié)點(diǎn)數(shù)。
表2、表3 與圖5 給出了隱藏層層數(shù)、隱藏層節(jié)點(diǎn)數(shù)變化對(duì)模型精度的影響。表2 的第1 列與第2 列對(duì)應(yīng)了第一次實(shí)驗(yàn),第一次實(shí)驗(yàn)只有一個(gè)隱藏層。可以看出,當(dāng)節(jié)點(diǎn)數(shù)為22 時(shí),網(wǎng)絡(luò)可達(dá)到最優(yōu)的精度63.4 %。其次,將第一個(gè)隱藏層的節(jié)點(diǎn)數(shù)設(shè)置為22,進(jìn)行第二次實(shí)驗(yàn)。表2 的第3 列與第4 列對(duì)應(yīng)了第二次實(shí)驗(yàn)的結(jié)果,第二次實(shí)驗(yàn)中,第二個(gè)隱藏層節(jié)點(diǎn)數(shù)的變化范圍為6~14??梢钥闯?,當(dāng)節(jié)點(diǎn)數(shù)為10時(shí),網(wǎng)絡(luò)可以達(dá)到最優(yōu)的精度75.5 %。同樣的方法可以確定第3 層與第4 隱藏層的節(jié)點(diǎn)數(shù)。當(dāng)由第3隱藏層增加為第4 隱藏層時(shí),網(wǎng)絡(luò)的最佳性能由80.0 %降低到78.7 %,這是由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性造成了訓(xùn)練過(guò)程中產(chǎn)生過(guò)擬合現(xiàn)象。
表2 第1隱藏層和第2隱藏層節(jié)點(diǎn)數(shù)的影響
表3 第3隱藏層和第4隱藏層節(jié)點(diǎn)數(shù)的影響
圖5 隱藏層層數(shù)和隱藏層節(jié)點(diǎn)數(shù)變化對(duì)準(zhǔn)確率的影響
結(jié)合實(shí)驗(yàn)的數(shù)據(jù),最終可以確定網(wǎng)絡(luò)的參數(shù),如表4 所示。
表4 網(wǎng)絡(luò)參數(shù)
根據(jù)表4 中的參數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,然后使用上文中處理后的相關(guān)數(shù)據(jù)進(jìn)行算法性能測(cè)試。為了評(píng)估文中的DBN 與Autoencoder 方法組合后的算法系統(tǒng)性能,進(jìn)行了對(duì)比實(shí)驗(yàn)。具體結(jié)果如表5所示。
表5 網(wǎng)絡(luò)參數(shù)
表5 對(duì)比了該文中深度學(xué)習(xí)算法與一些淺層機(jī)器學(xué)習(xí)算法的實(shí)驗(yàn)結(jié)果??梢钥闯?,相較于淺層的機(jī)器學(xué)習(xí)算法,文中算法的AUC 與Accuracy 分別可達(dá)到0.81 與80.0%,而淺層機(jī)器學(xué)習(xí)中,性能最好的Random Forest 的AUC 和Accuracy 分別只能達(dá)到0.71和74.3%,在AUC上,該文算法提升了0.1,在Accuracy上,提升了5.7%,兩個(gè)指標(biāo)均有較明顯的提升。
智能化的醫(yī)療數(shù)據(jù)處理系統(tǒng)對(duì)于醫(yī)療大數(shù)據(jù)分析具有重要意義,該文結(jié)合深度學(xué)習(xí)理論中的深度置信網(wǎng)絡(luò)進(jìn)行了相關(guān)研究。通過(guò)引入自編碼網(wǎng)絡(luò),實(shí)現(xiàn)了從大規(guī)模醫(yī)療財(cái)務(wù)數(shù)據(jù)中自動(dòng)化的提取特征信息,提升了財(cái)務(wù)工作的效率。通過(guò)對(duì)比實(shí)驗(yàn)證明,在醫(yī)療財(cái)務(wù)數(shù)據(jù)集的分析上,深度學(xué)習(xí)算法的各項(xiàng)指標(biāo)均有明顯提升。而淺層機(jī)器學(xué)習(xí)算法的計(jì)算效率優(yōu)勢(shì)將隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展越來(lái)越小,深度學(xué)習(xí)算法在數(shù)據(jù)分析領(lǐng)域?qū)?huì)有更廣闊的應(yīng)用前景。