白賀伊
(西安廣播電視大學(xué),陜西西安 710002)
隨著我國醫(yī)療衛(wèi)生事業(yè)的不斷發(fā)展,越來越多的醫(yī)療健康數(shù)據(jù)被存儲在數(shù)據(jù)庫中。這些數(shù)據(jù)具有規(guī)模大、增長迅速、結(jié)構(gòu)復(fù)雜等特點[1-3]。目前,我國對醫(yī)療健康大數(shù)據(jù)的挖掘與應(yīng)用正處于起步階段,醫(yī)療數(shù)據(jù)的深度挖掘與分析關(guān)系到全民健康的發(fā)展,如何利用人工智能技術(shù)對龐大的醫(yī)療數(shù)據(jù)進行智能化分析,挖掘其中有效信息,從而更好地服務(wù)于醫(yī)護人員與廣大人民群眾,是目前醫(yī)療事業(yè)發(fā)展與數(shù)據(jù)應(yīng)用面臨的重要挑戰(zhàn)[4]。
針對上述所提到的問題,該文基于人工智能深度學(xué)習(xí)領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),提出了一種適用于對醫(yī)療健康大數(shù)據(jù)進行智能化分析的方法。該方法通過詞向量訓(xùn)練、CNN特征學(xué)習(xí)以及疾病風(fēng)險評估等步驟,完成對各種疾病的風(fēng)險評估,能夠利用不同疾病的訓(xùn)練數(shù)據(jù)集得到與之匹配的分析模型。實驗結(jié)果表明,該文提出的方法以及建立的模型能夠?qū)崿F(xiàn)對不同數(shù)據(jù)集、不同疾病的智能化分析,能更好地適用于常見疾病的風(fēng)險評估,具有較高實用性與可靠性。隨著日益增加的醫(yī)療健康大數(shù)據(jù)處理與分析的需求,該文所提方法具有應(yīng)用價值,對其進一步的發(fā)展與完善也將更有意義。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種建立在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)上,包含卷積結(jié)構(gòu)的深度學(xué)習(xí)算法[5]。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了特征學(xué)習(xí)部分,利用空間相對關(guān)系減少參數(shù)數(shù)目以此提高算法的訓(xùn)練性能。具體實現(xiàn)方式就是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接層前面增加部分連接的卷積層。卷積神經(jīng)網(wǎng)絡(luò)解決了人工智能領(lǐng)域中的一個重要問題就是將復(fù)雜問題簡化,最大程度減少參數(shù)數(shù)量,進而大幅提升算法表現(xiàn)性能。
典型的卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層(C)、池化層(S)以及全連接層(F)所組成。其結(jié)構(gòu)如圖1所示[6-8]。
圖1 典型卷積神經(jīng)網(wǎng)絡(luò)
其中,卷積層負(fù)責(zé)提取輸入數(shù)據(jù)的特征;池化層負(fù)責(zé)對數(shù)據(jù)進行降維;全連接層則實現(xiàn)最終處理結(jié)果的輸出。通常在實際使用中,CNN 中包含有若干卷積層與池化層,且采用相互交替的形式進行設(shè)計,即卷積層后面連接著池化層,池化層后面又連著卷積層,上述交替循環(huán)的結(jié)構(gòu)以池化層結(jié)尾,最后再連接至全連接層結(jié)束整個網(wǎng)絡(luò)。卷積層與池化層的堆疊次數(shù)越多,CNN 所提取出的特征就越復(fù)雜、表達能力就越強,分類效果越明顯[9],進而使得利用其所實現(xiàn)的功能和效果就越好。
1)卷積層
卷積層又稱之為特征提取層,是卷積神經(jīng)網(wǎng)絡(luò)CNN 架構(gòu)中最為關(guān)鍵的一部分,同時也是區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)最為顯著的特征[10]。該層包括多個卷積核濾波器,各卷積核與輸入數(shù)據(jù)或特征圖進行卷積運算來實現(xiàn)特征提取的功能。為了降低神經(jīng)網(wǎng)絡(luò)的過擬合,卷積層通常采用局部連接的方式。即每個神經(jīng)元只需連接附近的局部區(qū)域,而不需要與特征圖中的所有特征點進行連接。同時,為盡可能減少網(wǎng)絡(luò)運行參數(shù)。在卷積運算中,使每個卷積核濾波器的參數(shù)實現(xiàn)共享,可使最后得到的結(jié)果泛化能力更強。
卷積過程如圖2所示。其中,輸入的是大小為5×5的數(shù)據(jù)信息,卷積濾波器的大小為3×3,步長為1,對應(yīng)的卷積表達式[11]如式(1)所示。
圖2 卷積運算過程
其中,yj表示第j個輸出特征圖,(f)代表所用到的激活函數(shù),*代表卷積操作,pi為需要進行卷積的第i個特征圖,wij為當(dāng)前卷積核所對應(yīng)的權(quán)值,bj為當(dāng)前輸出特征圖的偏置。
2)池化層
池化層也稱為下采樣層,該層主要是用來對前面卷積層所得到的高維特征進行降維處理,從而大幅減少網(wǎng)絡(luò)的參數(shù)數(shù)量,有效提高神經(jīng)網(wǎng)絡(luò)的運行速度以及避免數(shù)據(jù)間過擬合的情況發(fā)生。目前,常用的池化方法為最大池化(max-pooling)和平均池化(mean-pooling)[12-14]。
兩種池化方式對應(yīng)的過程如圖3 所示。在該示意圖中,所需池化的數(shù)據(jù)大小假設(shè)為4×4,池化核為2×2,步長通常與池化核的長或?qū)捪嗤?,設(shè)置為2,最后所得到兩種分別由最大值與平均值所組成2×2 的池化結(jié)果。綜合考慮兩種方式的優(yōu)缺點,該文的仿真實驗將采用最大池化的方法對數(shù)據(jù)進行處理。
圖3 池化過程示意圖
3)全連接層
輸入的數(shù)據(jù)經(jīng)過多重卷積層與池化層之后,提取出表達能力強且十分抽象的特征表示[15]。全連接層作為整個卷積神經(jīng)網(wǎng)絡(luò)的最后一層,其最重要的功能就是將提取到的特征按照一定規(guī)則進行整合,同時映射到樣本標(biāo)記空間,形成相應(yīng)的一維向量,最后經(jīng)過層內(nèi)激活函數(shù)進行輸出。
1)詞向量及文本表示
利用卷積神經(jīng)網(wǎng)絡(luò)算法對醫(yī)療健康數(shù)據(jù)進行處理時,首先需要將文本數(shù)據(jù)中包括的各詞利用詞向量方法進行數(shù)字化處理。
詞向量法可以簡單理解為通過建立詞表將文本數(shù)據(jù)中各詞與詞表中向量一一對應(yīng)的方法[16]。如圖4所示,n個詞60 維的詞向量,這些詞向量組合成為一個詞表矩陣。
圖4 詞向量法示意圖
目前,詞向量法大體可以分為離散表示法和分布式表示法兩類。其中,離散表示法是一種基于規(guī)則或者統(tǒng)計的簡單方法,將每個詞表示為一個長向量,并且該向量中有且只有一個維度的值為1,其余值則全部為0。該方法的缺點在于所建立的詞表矩陣規(guī)模一般較大,而且不能較好地表示各詞之間的相對關(guān)系,因此不滿足該文研究的要求。分布式表示法則是通過訓(xùn)練將各詞表示為一個定長的連續(xù)稠密向量,圖5 所示為利用分布式表示法所建立的詞表以及“頭疼”“頭暈”等詞所對應(yīng)的詞向量表示。相較于離散表示法,該方法能夠較優(yōu)地表示文本數(shù)據(jù)各詞之間的相似關(guān)系,同時在有限維度下可以包含更多的信息。為此文中使用分布式表示法,對醫(yī)療數(shù)據(jù)中各詞進行數(shù)字化處理。
圖5 分布式表示法示意圖
2)CNN 設(shè)計及詞向量訓(xùn)練
該文所設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)共5 層:卷積層1、池化層1、卷積層2、池化層2、全連接層,用來進行醫(yī)療健康數(shù)據(jù)的詞向量訓(xùn)練及最后的疾病風(fēng)險評估。
進行詞向量訓(xùn)練時,要求訓(xùn)練的醫(yī)療文本數(shù)據(jù)語料的純度越高越好,即訓(xùn)練數(shù)據(jù)應(yīng)具有較強的專業(yè)性。該文用從某三甲醫(yī)院數(shù)據(jù)庫中提取的近10 年來所有臨床記錄作為詞向量訓(xùn)練的原始數(shù)據(jù)。在訓(xùn)練過程中,CNN 所有相關(guān)參數(shù)定義為集合φ,φ中參數(shù)首先全部隨機初始化,然后利用梯度下降法對參數(shù)進行更新,直到最終參數(shù)使得所對應(yīng)的對數(shù)似然函數(shù)值達到最大為止,所用到的公式如式(2)所示。
式中,A為訓(xùn)練樣本數(shù)據(jù)集,class 為訓(xùn)練樣本數(shù)據(jù)的正確分類,若用γ代表學(xué)習(xí)率,則梯度下降法更新參數(shù)的公式如式(3)所示。
該文基于卷積神經(jīng)網(wǎng)絡(luò)所建立的健康大數(shù)據(jù)智能分析模型如圖6 所示。
圖6 健康大數(shù)據(jù)分析模型
在該模型里,數(shù)據(jù)庫中保存著醫(yī)院進行診治的所有醫(yī)療數(shù)據(jù)。其中,包括患者的自述病情、醫(yī)生的問診、體格檢查、各項化驗檢查結(jié)果、服用藥品、治療方案以及最終的診斷結(jié)果等。該模型利用數(shù)據(jù)庫中的歷史醫(yī)療文本數(shù)據(jù)不斷進行自學(xué)習(xí)與優(yōu)化,最終得到的訓(xùn)練模型用來實現(xiàn)對新傳入健康數(shù)據(jù)的智能分析以及疾病的風(fēng)險評估。
模型主要由詞向量訓(xùn)練、CNN 特征學(xué)習(xí)以及疾病風(fēng)險評估3 個模塊所組成。詞向量訓(xùn)練模塊負(fù)責(zé)將數(shù)據(jù)庫中的專業(yè)醫(yī)療歷史數(shù)據(jù)進行預(yù)處理,并用處理后的數(shù)據(jù)作為語料進行文本數(shù)據(jù)的數(shù)字化表示及詞向量的訓(xùn)練;CNN 特征學(xué)習(xí)模塊負(fù)責(zé)將訓(xùn)練后的詞向量輸入到CNN 中,進行分析模型的學(xué)習(xí)與訓(xùn)練,最后得到效果最優(yōu)的健康大數(shù)據(jù)分析模型;疾病風(fēng)險評估模塊則是利用訓(xùn)練好的模型對新輸入數(shù)據(jù)進行健康評估,并輸出最終結(jié)果。
為了驗證該文所提方法在醫(yī)療健康大數(shù)據(jù)分析中的有效性,與國內(nèi)某三甲醫(yī)院合作,從其中心數(shù)據(jù)庫中選取了近十年該醫(yī)院冠心病、肺部感染、腦梗死以及高血壓等4 種常見慢性疾病的醫(yī)療數(shù)據(jù),組成以下4 種樣本數(shù)據(jù)集。
A1:該數(shù)據(jù)集中包含1 457 名患者就診記錄、主述病情、生命體征等醫(yī)療數(shù)據(jù),其中984 個冠心病患者數(shù)據(jù),473 個非冠心病患者數(shù)據(jù)。隨機挑選85%作為模型訓(xùn)練數(shù)據(jù),剩下數(shù)據(jù)用來測試。
A2:該數(shù)據(jù)集中包含2 083 名患者問診記錄、主述病情等醫(yī)療數(shù)據(jù),其中1 128 個肺部感染患者數(shù)據(jù),955 個非肺部感染患者數(shù)據(jù)。隨機挑選85%作為模型訓(xùn)練數(shù)據(jù),剩下數(shù)據(jù)用來測試。
A3:該數(shù)據(jù)集中包含1 074 名患者就診記錄、治療方案、化驗結(jié)果等醫(yī)療數(shù)據(jù),其中537 個腦梗死患者數(shù)據(jù),537 個非腦梗死患者數(shù)據(jù)。隨機挑選85%作為模型訓(xùn)練數(shù)據(jù),剩下數(shù)據(jù)用來測試。
A4:該數(shù)據(jù)集中包含1 074 名患者就診記錄、化驗結(jié)果等醫(yī)療數(shù)據(jù),其中537 個腦梗死患者數(shù)據(jù),537 個高血壓患者數(shù)據(jù)。隨機挑選85 %作為模型訓(xùn)練數(shù)據(jù),剩下數(shù)據(jù)用來測試。該數(shù)據(jù)集為腦梗死與高血壓的對比數(shù)據(jù)集,這樣設(shè)置的原因在于兩者具有相似的發(fā)病癥狀,且大部分腦梗死患者同時伴有高血壓,極大增加了疾病風(fēng)險評估難度。
進行實驗時,首先需要確定CNN 訓(xùn)練卷積滑動窗口的大小,為此,設(shè)置窗口大小為2~8,以步長2 進行滑動,分析討論窗口大小對準(zhǔn)確率、召回率等風(fēng)險評估指標(biāo)的影響,數(shù)據(jù)集使用A1與A2集。實驗結(jié)果如圖7 所示。
圖7 滑動窗口對評估指標(biāo)的影響
由圖7 可以看出,當(dāng)窗口大小設(shè)置為6 時,兩個數(shù)據(jù)集對應(yīng)的各項風(fēng)險評估指標(biāo)均較優(yōu)于其他窗口設(shè)置。因此,后面的實驗也將CNN 滑動窗口大小設(shè)置為6。
利用選定的滑動窗口大小與數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù),建立基于卷積神經(jīng)網(wǎng)絡(luò)的健康大數(shù)據(jù)智能分析模型,并用剩余數(shù)據(jù)作為測試數(shù)據(jù),各數(shù)據(jù)集對應(yīng)的各項疾病風(fēng)險評估指標(biāo)結(jié)果,如表1 所示。
表1 疾病風(fēng)險評估結(jié)果
分析表1 可知,該文所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的健康大數(shù)據(jù)智能分析方法,適用于對多種常見疾病的風(fēng)險評估。對A1、A2 與A3 數(shù)據(jù)集的測試實驗中,準(zhǔn)確率、召回率以及精確度三項評估結(jié)果均可達到90 %以上。同時也可以看出,使用A4對比數(shù)據(jù)集進行的疾病風(fēng)險評估結(jié)果雖略低于其他數(shù)據(jù)集,但是也可以達到較高的水平。綜上所述,各數(shù)據(jù)集的實驗結(jié)果充分驗證了所提方法的有效性、可靠性及通用性。同時也說明,該方法在分析相關(guān)聯(lián)疾病中已取得較優(yōu)的效果,但仍有一定的進步空間。
該文通過介紹卷積神經(jīng)網(wǎng)絡(luò)CNN 基本理論[7-18],提出了一種醫(yī)療健康大數(shù)據(jù)智能分析方法。該方法將CNN 文本分析技術(shù)運用于疾病風(fēng)險評估中,且不同的疾病特征提取使用相同的方法,保證了所提方法的通用性。不同數(shù)據(jù)集的實驗結(jié)果說明,該文的方法能夠較優(yōu)地適用于常見疾病的風(fēng)險評估,具有較高的可靠性。同時,該方法在進一步研究與分析關(guān)聯(lián)疾病中仍有較大的提升空間。