王惠清,李忠玉,袁紅
(1.西南醫(yī)科大學(xué)醫(yī)學(xué)信息與工程學(xué)院,瀘州646000;2.成都師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,成都611130)
隨著人們生活水平的提高,健康成為人們關(guān)注的熱點(diǎn),由于不健康的飲食習(xí)慣和生活方式導(dǎo)致的慢性病患者的數(shù)量正在增加,慢性病需要持續(xù)治療并可能導(dǎo)致其他疾病。人們應(yīng)該認(rèn)識(shí)到慢性疾病帶來(lái)的風(fēng)險(xiǎn),需要終生通過(guò)醫(yī)療保健和疾病預(yù)防進(jìn)行護(hù)理。作為智能社會(huì)的核心要素,人工智能(AI)的發(fā)展對(duì)于醫(yī)療事業(yè)起到促進(jìn)作用,近年來(lái),人們對(duì)人工智能的興趣日益濃厚,對(duì)深度學(xué)習(xí)的研究也在積極進(jìn)行中,深度學(xué)習(xí)可以根據(jù)訓(xùn)練得到的數(shù)據(jù)分析預(yù)測(cè)未知數(shù)據(jù)的類別,CNN 是一種被廣泛應(yīng)用的深度學(xué)習(xí)技術(shù),不僅用于圖像分析和語(yǔ)音識(shí)別,還可用于比較復(fù)雜的非線性模型,深度學(xué)習(xí)是近來(lái)備受關(guān)注的一種AI 技術(shù),其在實(shí)際中可以用于通過(guò)學(xué)習(xí)數(shù)據(jù)集并對(duì)相似數(shù)據(jù)進(jìn)行聚類或分類,此外,深度學(xué)習(xí)技術(shù)可以從各種非結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)從而建立模型。例如,可以通過(guò)基于CNN的相關(guān)對(duì)象來(lái)分析非結(jié)構(gòu)化數(shù)據(jù),病歷數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù)。CNN 由單層、多層、集成層以及完全連接的層組成,可用于實(shí)現(xiàn)非線性圖像識(shí)別的模型、語(yǔ)音識(shí)別等。Swapna 等人[2]利用CNN 實(shí)現(xiàn)糖尿病自動(dòng)檢測(cè),其使用心率變異性數(shù)據(jù)獲取心率信號(hào),使用CNN-LSTM組合網(wǎng)絡(luò)進(jìn)行自動(dòng)異常檢測(cè)和完全連接的結(jié)構(gòu),可實(shí)現(xiàn)自動(dòng)檢測(cè)和準(zhǔn)確診斷糖尿病。
圖1 顯示了基于深度學(xué)習(xí)的健康信息系統(tǒng)。該系統(tǒng)是基于CNN 的腦腫瘤分類系統(tǒng),該系統(tǒng)從MR 圖像中提取的腫瘤區(qū)域進(jìn)而分類,這樣可以有效的訓(xùn)練系統(tǒng),同時(shí)解決MRI 對(duì)腦腫瘤分類時(shí)數(shù)據(jù)不足的問(wèn)題,此外,CNN 模型使用了增強(qiáng)的數(shù)據(jù),這些數(shù)據(jù)可以進(jìn)行微調(diào),從而有效地對(duì)腦瘤狀態(tài)進(jìn)行分類。LIU 等人[6]開(kāi)發(fā)了一種多視圖多尺度CNN 對(duì)肺結(jié)節(jié)類型進(jìn)行分類的系統(tǒng),通過(guò)采集肺結(jié)節(jié)歸一化數(shù)據(jù)樣本,估計(jì)每個(gè)結(jié)節(jié)的估計(jì)半徑數(shù)據(jù),對(duì)結(jié)節(jié)采集圖像進(jìn)行預(yù)處理,如基于采樣的強(qiáng)度分析等。在對(duì)CNN 模型進(jìn)行學(xué)習(xí)后,利用最大池的方法對(duì)多視圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了分析。因此即使是復(fù)雜的陰影和非結(jié)節(jié)型也可以進(jìn)行分類。這使得治療肺部疾病成為可能,在未來(lái),必須能夠?qū)^細(xì)的結(jié)核進(jìn)行分類,這需要先進(jìn)的技術(shù)來(lái)自動(dòng)標(biāo)識(shí)結(jié)核的類型、位置和大小,以便于識(shí)別信息。
圖1 基于CNN的健康信息系統(tǒng)
基于CNN 的健康知識(shí)模型利用隱含層中影響因素的相關(guān)系數(shù)結(jié)果來(lái)分析風(fēng)險(xiǎn)因子,影響因素的相關(guān)關(guān)系可分為積極因素和消極因素,使用CNN 模型對(duì)危險(xiǎn)因素進(jìn)行細(xì)分,通過(guò)提取影響因子與模型的相關(guān)性,可以發(fā)現(xiàn)未被發(fā)現(xiàn)的有意義的規(guī)則。模型結(jié)構(gòu)采用全連通網(wǎng)絡(luò)和包含CNN 的雙層結(jié)構(gòu)隱含層,單層對(duì)僅由與和或運(yùn)算組成的數(shù)據(jù)進(jìn)行分類。相比之下,多層分類有更多的優(yōu)勢(shì)。因?yàn)槎鄬臃诸惪梢詧?zhí)行與、或和異或操作。這使得通過(guò)將影響因子細(xì)分為肥胖、高血壓和糖尿病來(lái)獲得有關(guān)保健和預(yù)防的知識(shí)成為可能。圖2 中,通過(guò)對(duì)多變量因素分析,可以提取20 個(gè)影響因素作為輸入,在第一個(gè)隱層中,根據(jù)顯著性水平0.1 對(duì)影響因素進(jìn)行分離,結(jié)果剔除了12 個(gè)滿足顯著性水平的因子。在第二個(gè)隱層中,通過(guò)皮爾遜相關(guān)系數(shù)發(fā)現(xiàn)相關(guān)關(guān)系,提取影響因素的特征和相關(guān)系數(shù),發(fā)現(xiàn)未被發(fā)現(xiàn)的隱藏規(guī)則,這些規(guī)則是為了利用影響因素尋找健康知識(shí)。這些影響因素分為積極和消極因素,最后將其細(xì)分為肥胖、高血壓和糖尿病等,從而確定其影響因素,并對(duì)其標(biāo)識(shí),從而獲得適當(dāng)?shù)慕】当=≈R(shí)。通過(guò)對(duì)具有相似特征的影響因素進(jìn)行分類,提高了對(duì)影響因素和非影響因素的分析效率。圖3 為影響因素的知識(shí)挖掘算法,通過(guò)知識(shí)發(fā)現(xiàn)得出隱藏規(guī)則。輸入層是影響因素,輸出層是發(fā)掘的潛在規(guī)則。IfactorCK表示k個(gè)大小的影響因素的候選集合,IfactorLK表示一組頻繁的影響因素。此外,IfactorT 構(gòu)成了影響因素組合效益。
圖2 CNN模型的相關(guān)影響因素
在眾多影響因素中找到滿足最小支持度的隱藏規(guī)則,發(fā)現(xiàn)影響人體健康的主要因素及其規(guī)律,最后建立健康知識(shí)模型,其代碼如下:
Input:Influencing-factors
Output:Hidden rules
IfactorCk=Candidates Influencing-factors of size k
IfactorLk=Frequent Influencing-factors of size k
min_supp←0.5(tentative)
IfactorL1={Frequent items}
for k ←l to infinite do begin if
(IfactorLk=?)
break;
IfactorCk+1=candidates generated from IfactorLk
for each transaction IfactorTin database do begin
increment the count of all candidates in IfactorCk+1, that are
contain in IfactorT
IfactorLk+1=candidates in IfactorCk+1with min_supp
end
end
return UkIfactorLk
基于CNN 的健康知識(shí)發(fā)現(xiàn)模型的建立,可以較科學(xué)地發(fā)現(xiàn)影響人們身體健康的危險(xiǎn)影響因素,尤其是對(duì)于慢性病的影響因素,為后期的醫(yī)療保健提供了有利的醫(yī)學(xué)依據(jù)。模型的性能及知識(shí)發(fā)現(xiàn)的精確度需要通過(guò)相應(yīng)的評(píng)價(jià)體系來(lái)評(píng)估??梢酝ㄟ^(guò)對(duì)模型中隱藏層的數(shù)量評(píng)估,評(píng)估單層、多層的模型性能的優(yōu)劣,根據(jù)影響因素的知識(shí)挖掘是否被應(yīng)用,可以對(duì)錯(cuò)誤率進(jìn)行評(píng)估。因此用戶可以通過(guò)識(shí)別健康的積極因素和消極的因素來(lái)發(fā)現(xiàn)關(guān)于健康和預(yù)防的知識(shí),同時(shí)可以根據(jù)影響因素的狀態(tài)衍生出健康知識(shí),提供個(gè)性化的醫(yī)療服務(wù)。在醫(yī)療大數(shù)據(jù)領(lǐng)域,需要謹(jǐn)慎地將相關(guān)性得出的結(jié)果運(yùn)用到實(shí)際的決策中。本文提出的一種基于影響因素的知識(shí)發(fā)現(xiàn)的CNN 健康模型,提出的方法通過(guò)IoT 設(shè)備收集健康狀況和生活方式模式的記錄,以及關(guān)于慢性病的信息。對(duì)于健康狀況和生活方式的數(shù)據(jù),使用了韓國(guó)國(guó)民健康與營(yíng)養(yǎng)調(diào)查提供的原始數(shù)據(jù)。對(duì)于CNN 結(jié)構(gòu),使用完全連通的網(wǎng)絡(luò)結(jié)構(gòu)和兩個(gè)隱藏層結(jié)構(gòu)。全連通網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算量大,占用內(nèi)存大,隨著層數(shù)的增加,復(fù)雜性增加,容易出現(xiàn)過(guò)擬合,在第一層的隱層中,對(duì)輸入的多元數(shù)據(jù)分析,提取出必要的影響因素。通過(guò)提取滿足0.1 顯著性水平的影響因素,提高了分析的準(zhǔn)確性,減少了計(jì)算量和內(nèi)存使用量,可以發(fā)現(xiàn)共同的影響因素。在第二隱含層中,識(shí)別個(gè)體影響因素與共同影響因素之間的相關(guān)關(guān)系,通過(guò)這個(gè)過(guò)程,發(fā)現(xiàn)了影響因素之間的正、負(fù)相關(guān)關(guān)系。此外,還可以根據(jù)影響因素的相關(guān)性,發(fā)現(xiàn)未通過(guò)分類發(fā)現(xiàn)的隱藏的關(guān)聯(lián)規(guī)則,這為進(jìn)一步細(xì)分肥胖、高血壓和糖尿病的影響因素提供了知識(shí)。隨著層數(shù)的增加、精度提高,內(nèi)存的容量和計(jì)算速度也需要提高。因此,應(yīng)根據(jù)數(shù)據(jù)分析的目的使用一些高性能的層。