左星光,范 靜
(1.上海第二工業(yè)大學(xué) 工學(xué)部,上海 201209;2.上海第二工業(yè)大學(xué) 文理學(xué)部,上海 201209)
隨著計(jì)算機(jī)科學(xué)與醫(yī)學(xué)的融合發(fā)展,基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型的疾病預(yù)測已成為臨床醫(yī)學(xué)診療的重要輔助手段,這也包括了對糖尿病的預(yù)測研究。由于糖尿病受到很多因素的影響,包括患者的遺傳、生活方式、環(huán)境等,還可能引發(fā)心臟病、腦血管疾病等并發(fā)癥。因此,急需建立高準(zhǔn)確率的糖尿病預(yù)測模型,對普通人的糖尿病發(fā)病概率進(jìn)行預(yù)測,以確定高危人群范圍,從而有效地控制糖尿病的發(fā)病率。
目前,已有多篇文獻(xiàn)利用神經(jīng)網(wǎng)絡(luò)對糖尿病進(jìn)行預(yù)測研究。文獻(xiàn)[5]使用SPSS 軟件分析人工神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)量,得出人工神經(jīng)網(wǎng)絡(luò)用于糖尿病預(yù)測是有實(shí)際意義的,并比較了人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)模型和集成學(xué)習(xí)AdaBoost 在糖尿病預(yù)測中的性能,結(jié)果顯示,人工神經(jīng)網(wǎng)絡(luò)的性能最佳。文獻(xiàn)[6]構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型,得到83%的糖尿病預(yù)測準(zhǔn)確率。文獻(xiàn)[7]使用Stacking 方法集成了邏輯回歸、隨機(jī)森林、支持向量機(jī)、極端梯度提升4 種算法建立了糖尿病預(yù)測模型,取得了85%的預(yù)測準(zhǔn)確率。文獻(xiàn)[8]提出了一種新的基于迭代提升欠采樣的集成分類方法,通過從多數(shù)類樣本中進(jìn)行欠采樣,形成弱分類器,最后用加權(quán)組合方式將弱分類器組合成一個(gè)強(qiáng)分類器。通過該采樣方法,在西醫(yī)和中醫(yī)兩種多標(biāo)簽數(shù)據(jù)集上,準(zhǔn)確率分別提升了6.30%和12.43%。文獻(xiàn)[9]基于網(wǎng)格搜索和交叉驗(yàn)證的支持向量機(jī)算法建立了糖尿病并發(fā)癥預(yù)測模型,結(jié)合網(wǎng)格搜索算法在指定區(qū)間搜索最佳懲罰因子和徑向基核函數(shù)的方差,將糖尿病并發(fā)癥的預(yù)測準(zhǔn)確率提高到92%。文獻(xiàn)[10]對比了卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)、決策樹模型和基于XGBoost 的梯度下降樹模型在糖尿病預(yù)測中的性能,使用的數(shù)據(jù)集為某醫(yī)院的糖尿病患者臨床檢查數(shù)據(jù)及其診斷結(jié)果。結(jié)果顯示,全連接神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率最高,達(dá)到了78.10%。
然而由于疾病本身的復(fù)雜性以及不同患者的身體指標(biāo)存在差異,致使疾病預(yù)測準(zhǔn)確率仍需提高,疾病預(yù)測方法仍需完善。本文構(gòu)建了深度殘差網(wǎng)絡(luò)模型,解構(gòu)了殘差塊的結(jié)構(gòu),比較了不同的激活函數(shù)和優(yōu)化算法對模型性能的影響,進(jìn)而,針對UCI 糖尿病數(shù)據(jù)進(jìn)行了預(yù)測,并與多個(gè)糖尿病預(yù)測模型進(jìn)行了對比分析,最后,總結(jié)了深度殘差網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)。
深度殘差網(wǎng)絡(luò)模型是基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦工作原理,從而實(shí)現(xiàn)類人工智能的機(jī)器學(xué)習(xí)技術(shù),支持處理圖像、文本、語音以及序列多種類型的數(shù)據(jù),可以實(shí)現(xiàn)分類、回歸和預(yù)測等。神經(jīng)網(wǎng)絡(luò)模型發(fā)展自美國神經(jīng)物理學(xué)家Frank Rosenblatt 提出的感知機(jī)模型。經(jīng)過學(xué)者們不斷地研究,神經(jīng)網(wǎng)絡(luò)得到了長足的發(fā)展:在架構(gòu)方面,從單層網(wǎng)絡(luò)演變?yōu)槎鄬泳W(wǎng)絡(luò)、從無法解決異或問題到能解決幾乎任何復(fù)雜問題;在神經(jīng)元激活方面,由最初的閾值比較發(fā)展為多種激活函數(shù);在模型優(yōu)化方面,隨機(jī)梯度下降(簡記為SGD)、Adam 等一系列優(yōu)化算法被應(yīng)用到神經(jīng)網(wǎng)絡(luò)模型中以更新模型中的參數(shù)。
20 世紀(jì)90 年代,美國電話電報(bào)公司的神經(jīng)網(wǎng)絡(luò)研究小組開發(fā)了一個(gè)用于讀取支票的卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[12]使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 挑戰(zhàn)賽上大放異彩。自此卷積神經(jīng)網(wǎng)絡(luò)的理論與應(yīng)用得到飛速發(fā)展。隨著對神經(jīng)網(wǎng)絡(luò)模型研究的深入,研究人員發(fā)現(xiàn)網(wǎng)絡(luò)層數(shù)越深,模型的性能反而“退化”,同時(shí)還出現(xiàn)了參數(shù)量陡增、梯度彌散或梯度爆炸等一系列問題。為改善缺陷、提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,文獻(xiàn)[13]設(shè)計(jì)了深度殘差網(wǎng)絡(luò)(簡記為DRN),該模型提出在各層之間引入恒等映射,通過恒等映射擬合殘差函數(shù)。這一改進(jìn)能加快網(wǎng)絡(luò)的訓(xùn)練速度,緩解梯度彌散或梯度爆炸問題,并且可通過增加網(wǎng)絡(luò)深度來提高準(zhǔn)確率,而不會(huì)出現(xiàn)“退化”問題。殘差網(wǎng)絡(luò)的出現(xiàn)使訓(xùn)練深層次的神經(jīng)網(wǎng)絡(luò)模型成為可能。
下面將從模型的原理、殘差塊的構(gòu)造、模型激活函數(shù)和優(yōu)化算法的選擇等四方面來詳細(xì)介紹深度殘差網(wǎng)絡(luò)模型。
卷積神經(jīng)網(wǎng)絡(luò)可以看成卷積層的堆疊,幾個(gè)卷積層堆疊在一起被稱為卷積塊。輸入數(shù)據(jù)經(jīng)過卷積塊之后會(huì)產(chǎn)生新的數(shù)據(jù),即在輸入和輸出之間存在映射關(guān)系。在深度殘差網(wǎng)絡(luò)中,這個(gè)映射關(guān)系稱為underlying mappings,記作(),表示模型輸入。圖1 是一個(gè)典型的殘差塊結(jié)構(gòu)。通過添加額外的恒等快捷連接,即()=,來自上層的輸出可直接添加到當(dāng)前堆疊塊的輸出中,并且不用增加額外的參數(shù)。
圖1 殘差塊結(jié)構(gòu)
假設(shè)多個(gè)非線性層可以漸近逼近一個(gè)復(fù)雜函數(shù),這等價(jià)于多個(gè)非線性層可以漸近逼近一個(gè)殘差函數(shù)()=()-。因此,第個(gè)殘差塊執(zhí)行以下計(jì)算:
式 中:x,y是 第個(gè) 殘 差 塊 的 輸 入、輸 出 數(shù) 據(jù);W ={W |1 ≤≤}是與第個(gè)殘差塊相關(guān)的權(quán)重,是殘差塊中的層數(shù);是待學(xué)習(xí)的殘差函數(shù);函數(shù)()為恒等映射:()=;為激活函數(shù),表示數(shù)據(jù)相加之后要進(jìn)行的操作。
圖2 是本文構(gòu)建的深度殘差網(wǎng)絡(luò)。
圖2 DRN 結(jié)構(gòu)
當(dāng)也是一個(gè)恒等映射,即x=y,利用遞推逐項(xiàng)合并,得到第層的輸入為:
假設(shè)損失函數(shù)為,根據(jù)反向傳播的鏈?zhǔn)角髮?dǎo)法則有:
為分析模型性能,本文采用準(zhǔn)確率、精度、召回值、值和平均準(zhǔn)確率等5 種指標(biāo)。準(zhǔn)確率和平均準(zhǔn)確率將被作為主要評估指標(biāo)。平均準(zhǔn)確率為次實(shí)驗(yàn)得到的準(zhǔn)確率的平均值。準(zhǔn)確率定義為預(yù)測正確的結(jié)果占總樣本的百分比,計(jì)算公式為:
式中:TP 表示實(shí)際是正類的樣本數(shù);FP 表示被模型誤判為正類的樣本數(shù);TN 表示實(shí)際為負(fù)類的樣本數(shù);FN 表示被模型誤判為負(fù)類的樣本數(shù)。精度定義為被預(yù)測為正類的樣本中實(shí)際為正類的樣本數(shù),計(jì)算公式為:
召回值定義為實(shí)際為正類的樣本中被預(yù)測為正類的比例,計(jì)算公式為:
值定義為精度和召回值的調(diào)和平均數(shù),計(jì)算公式為:
由于本文利用深度殘差網(wǎng)絡(luò)對糖尿病進(jìn)行預(yù)測,而糖尿病數(shù)據(jù)集不同于圖像數(shù)據(jù),數(shù)據(jù)集中各個(gè)特征代表不同的含義,無法應(yīng)用卷積運(yùn)算。因此用全連接層替換原來的卷積層。文獻(xiàn)[13]證明,在殘差塊中執(zhí)行全連接層的操作是可行的。
同時(shí),在殘差塊中加入了批量標(biāo)準(zhǔn)化層(Batch Normalization)。引入批量標(biāo)準(zhǔn)化,可以降低樣本間值域的差異,使得模型中大部分?jǐn)?shù)據(jù)處在非飽和區(qū)域,保證梯度反向傳播的有效性;還可以減少模型參數(shù)及其初始值對梯度的影響,從而加快網(wǎng)絡(luò)的收斂速度。批量標(biāo)準(zhǔn)化也可被看作是一種正則化手段,可使模型減少對Dropout 層的使用。
在批量標(biāo)準(zhǔn)化的計(jì)算過程中,假設(shè)輸入數(shù)據(jù)為,將其分為大小為的小批數(shù)據(jù),每小批數(shù)據(jù)稱為一個(gè)batch。對于batch 中的每個(gè)樣例,批量標(biāo)準(zhǔn)化的計(jì)算公式為:
值得注意的是,殘差塊中各層的排列順序?qū)δP托阅軙?huì)產(chǎn)生一定影響,不合理的排列順序可能會(huì)導(dǎo)致模型性能的下降。在模型具有相同參數(shù)量、學(xué)習(xí)率、學(xué)習(xí)輪數(shù)的基礎(chǔ)上,比較了基于圖3 和圖4 兩種殘差塊的模型性能。殘差塊Ⅰ中的BN 層和Dropout 層的位置被排在兩個(gè)全連接層之后,殘差塊Ⅱ正好相反。
圖3 殘差塊Ⅰ
圖4 殘差塊Ⅱ
經(jīng)過5 次訓(xùn)練后,得出表1 中所列結(jié)果。易知,無Dropout 時(shí),基于殘差塊Ⅰ構(gòu)建的深度殘差網(wǎng)絡(luò)在5 次訓(xùn)練中準(zhǔn)確率、召回值、值、平均準(zhǔn)確率均高于殘差塊Ⅱ,分別提高了4.55%,18.03%,10.29%,3.53%。
值得注意的是,Dropout 層相當(dāng)于給快捷連接添加了一個(gè)縮放。在本文設(shè)計(jì)的深度殘差網(wǎng)絡(luò)模型中,Dropout 的參數(shù)設(shè)置為0.5,即把上層傳遞過來的參數(shù)丟棄50%。從表1 的數(shù)據(jù)可看出,有Dropout 時(shí),殘差塊Ⅰ的平均準(zhǔn)確率仍高于殘差塊Ⅱ2.36%。綜上,殘差塊Ⅰ的性能優(yōu)于殘差塊Ⅱ的性能,殘差塊Ⅰ中無Dropout 的性能優(yōu)于有Dropout。因此本文采用殘差塊Ⅰ的結(jié)構(gòu),并去除了Dropout 層。
表1 基于殘差塊Ⅰ和殘差塊Ⅱ的模型性能對比 %
激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中對數(shù)據(jù)進(jìn)行計(jì)算的非線性函數(shù),通過這個(gè)非線性函數(shù)模擬神經(jīng)元處理過程。本文針對3 種常用激活函數(shù):ReLU、Sigmoid 和Tanh,在模型具有相同的參數(shù)量、訓(xùn)練輪數(shù)、批次數(shù)量的情況下,對比了它們對模型性能的影響,結(jié)果見表2。
表2 三種激活函數(shù)的性能 %
根據(jù)表2 數(shù)據(jù),容易得到Tanh 的性能最佳。原因在于Tanh 是以零為中心的函數(shù),其表達(dá)式為:
輸出值在[-1,1]之間,這使得經(jīng)Tanh函數(shù)運(yùn)算后不會(huì)出現(xiàn)zigzag 現(xiàn)象。Tanh 還具有放大特征之間差異性的特點(diǎn),能夠提高模型預(yù)測性能。Sigmoid函數(shù)的表達(dá)式為:
其函數(shù)值全為正數(shù),輸出值在[0,1]之間,數(shù)據(jù)流經(jīng)激活層后進(jìn)行反向傳播時(shí)會(huì)出現(xiàn)參數(shù)同號的問題,容易造成優(yōu)化路徑出現(xiàn)zigzag 現(xiàn)象,減緩了模型的收斂速度。ReLU 函數(shù)的表達(dá)式為()=max(0,),其優(yōu)點(diǎn)是解決了在>0 方向的梯度消失問題,運(yùn)算時(shí)只需判斷參數(shù)是否大于0,加快了模型收斂速度。但ReLU 也不是以零為中心的,并且在參數(shù)小于0 時(shí)輸出為0,從而可能會(huì)導(dǎo)致網(wǎng)絡(luò)中某些神經(jīng)元永遠(yuǎn)不會(huì)被激活。因此,根據(jù)對比結(jié)果,本文選用Tanh 作為模型的激活函數(shù)。
本文對比了常用的4 種神經(jīng)網(wǎng)絡(luò)模型優(yōu)化算法:隨機(jī)梯度下降(SGD)、自適應(yīng)矩估計(jì)(Adam)、Adagrad 和Adadelta。
SGD 的求解思路是根據(jù)每一個(gè)樣本x和標(biāo)簽y,得到更新參數(shù):
由于SGD 會(huì)對每個(gè)樣本計(jì)算梯度,導(dǎo)致算法會(huì)受到噪聲數(shù)據(jù)的影響,即并不是每次迭代都朝著整體最優(yōu)化方向,但算法優(yōu)化方向是朝著全局最優(yōu)解的,且最終結(jié)果也往往在全局最優(yōu)解附近。Adagrad 的優(yōu)化策略是讓學(xué)習(xí)率適應(yīng)參數(shù),即對于少數(shù)的特征賦予其較大的學(xué)習(xí)率;對于多數(shù)的特征賦予其較小的學(xué)習(xí)率。其缺點(diǎn)是由于不斷地累加梯度的平方,導(dǎo)致學(xué)習(xí)率可能會(huì)變得無限小。Adadelta 算法是Adagrad 算法的擴(kuò)展,通過添加一個(gè)特定大小的歷史梯度計(jì)算窗口,來處理Adagrad 學(xué)習(xí)率持續(xù)變小的問題。Adam 對參數(shù)計(jì)算自適應(yīng)學(xué)習(xí)率,同時(shí)還保存了一個(gè)歷史梯度的指數(shù)衰減均值m,Adam 可自動(dòng)更新m來抵消由于不恰當(dāng)?shù)某跏蓟瘞淼钠?。使用不同?yōu)化算法的模型性能見表3。
表3 使用不同優(yōu)化算法時(shí)的模型性能 %
表3 的性能分析表明:優(yōu)化算法Adam 的預(yù)測準(zhǔn)確率高于其余優(yōu)化算法0.65%~9.09%。因此,本文構(gòu)建的深度殘差網(wǎng)絡(luò)選用Adam 作為優(yōu)化算法。
本文采用UCI 機(jī)器學(xué)習(xí)庫的公開糖尿病數(shù)據(jù)集,原數(shù)據(jù)集中共有768 條樣本數(shù)據(jù)和9 個(gè)屬性字段。其中,確診為糖尿病的樣本數(shù)為500 個(gè),未確診為糖尿病的樣本數(shù)為268 個(gè)。樣本類別呈現(xiàn)不對稱狀態(tài)。表4 統(tǒng)計(jì)了數(shù)據(jù)集中屬性列的均值、方差、最小值、四分位數(shù)及最大值。根據(jù)表4 中的數(shù)據(jù)發(fā)現(xiàn),葡萄糖、血壓、皮膚厚度、胰島素、BMI 屬性中的最小值均為0,顯然這是錯(cuò)誤數(shù)據(jù),需要對其進(jìn)行處理,這是因?yàn)閿?shù)據(jù)集中的噪聲數(shù)據(jù)會(huì)導(dǎo)致模型性能降低,嚴(yán)重時(shí)可使模型無法收斂。將上述5 個(gè)特征按是否確診糖尿病進(jìn)行分類,對未確診糖尿病且存在異常值的樣本使用該類別所有樣本的中位數(shù)填充,對確診糖尿病且存在異常值的樣本也進(jìn)行同樣處理,于是,得到一個(gè)原始數(shù)據(jù)集。
表4 數(shù)據(jù)集各屬性統(tǒng)計(jì)值
同時(shí),由于原數(shù)據(jù)集中確診糖尿病樣本數(shù)是未確診的兩倍,從確診樣本隨機(jī)選取268 個(gè)樣本,這樣,便得到一個(gè)樣本均衡數(shù)據(jù)集,其中的確診糖尿病的樣本數(shù)和未確診糖尿病的樣本數(shù)均為268 個(gè)。
為選取最優(yōu)特征,提高模型預(yù)測準(zhǔn)確率,本文使用梯度提升樹算法對原數(shù)據(jù)集中的特征計(jì)算其重要性得分。梯度提升樹的基本思想是生成多個(gè)決策樹,每個(gè)決策樹用來擬合之前累加模型損失函數(shù)的負(fù)梯度,使累加模型的損失在負(fù)梯度方向減少,直到生成一個(gè)強(qiáng)學(xué)習(xí)器。梯度提升樹模型表示為
式中:為決策樹的數(shù)量;θ是第個(gè)決策樹的參數(shù);h(;θ)表示第個(gè)決策樹。使用前向分布算法,第步提升樹模型更新為:
更新過程中,θ要使得第步提升樹f()累加到的損失函數(shù)最小化,即:
通過這個(gè)思想計(jì)算每個(gè)特征在分類時(shí)所占的比重,以此得出每個(gè)特征的重要性程度。表5 只截取了得分最高的前4 個(gè)特征,其余特征的重要性得分均在0.1以下。
表5 特征重要性得分
為檢驗(yàn)深度殘差網(wǎng)絡(luò)用于糖尿病預(yù)測的可靠性,比較了具有相同數(shù)量的參數(shù)、深度、寬度和計(jì)算成本的普通神經(jīng)網(wǎng)絡(luò)與深度殘差網(wǎng)絡(luò)。在分別進(jìn)行了5 次訓(xùn)練后,圖5 中數(shù)據(jù)顯示,深度殘差網(wǎng)絡(luò)的性能明顯高于無殘差結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。具體地,深度殘差網(wǎng)絡(luò)比無殘差結(jié)構(gòu)的準(zhǔn)確率提高了2.6%,精度提高了6.55%,值提高了2.73%,平均準(zhǔn)確率提高了2.59%。實(shí)驗(yàn)結(jié)果證明了深度殘差網(wǎng)絡(luò)可用于糖尿病預(yù)測且具有良好性能。
圖5 有/無殘差的模型性能比較
對于原始非均衡數(shù)據(jù)集,對深度殘差網(wǎng)絡(luò)與隨機(jī)森林模型、樸素貝葉斯模型、決策樹模型、支持向量機(jī)模型、邏輯回歸模型在準(zhǔn)確率、精度、召回值、值和平均準(zhǔn)確率上進(jìn)行對比分析。其中,深度殘差網(wǎng)絡(luò)模型的最優(yōu)參數(shù)為:優(yōu)化算法Adam、損失函數(shù)Binary_corssentropy、驗(yàn)證集比例為訓(xùn)練數(shù)據(jù)的30%、激活函數(shù)Tanh、Epochs 為100。支持向量機(jī)模型的最優(yōu)參數(shù)有:懲罰參數(shù)為10、核函數(shù)為RBF;而決策樹算法中的3 個(gè)主要參數(shù)的最優(yōu)參數(shù)選值為:max_depth=9,min_impurity_split=0.27,min_samples_leaf=9。
采用上述參數(shù)后,利用此6 種預(yù)測模型對原始數(shù)據(jù)集均進(jìn)行了10 次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。數(shù)據(jù)顯示,深度殘差網(wǎng)絡(luò)模型獲得最高準(zhǔn)確率為89.61%,值最高為85.19%,模型預(yù)測性能較樸素貝葉斯算法提高了近12%。相比于隨機(jī)森林算法,準(zhǔn)確率提升了1.95%,精度提升了9.65%。綜合來看,深度殘差網(wǎng)絡(luò)的平均預(yù)測準(zhǔn)確率高于其他5 種機(jī)器學(xué)習(xí)算法的平均準(zhǔn)確率。另外,在10 次訓(xùn)練任務(wù)中,深度殘差網(wǎng)絡(luò)模型的預(yù)測準(zhǔn)確率沒有出現(xiàn)大幅波動(dòng),說明在使用原數(shù)據(jù)集進(jìn)行糖尿病預(yù)測時(shí),深度殘差網(wǎng)絡(luò)優(yōu)于5 種經(jīng)優(yōu)化的機(jī)器學(xué)習(xí)算法。
表6 原始數(shù)據(jù)集6 種預(yù)測模型的性能 %
采用3.2 節(jié)中各算法的最優(yōu)參數(shù),對樣本均衡數(shù)據(jù)集進(jìn)行了10 次實(shí)驗(yàn),各模型性能數(shù)據(jù)如表7 所示。
表7 樣本均衡數(shù)據(jù)集6 種預(yù)測模型的性能 %
表7 的結(jié)果顯示:深度殘差網(wǎng)絡(luò)模型獲得最高準(zhǔn)確率為91.35%,值最高為92.31%,預(yù)測性能較原始數(shù)據(jù)集的結(jié)果分別提高了1.74%,7.12%。同時(shí),其余5 種模型性能評估指標(biāo)較原始數(shù)據(jù)集的結(jié)果均穩(wěn)中有升。但總的來看,深度殘差網(wǎng)絡(luò)的平均預(yù)測準(zhǔn)確率還是高于其他5 種機(jī)器學(xué)習(xí)算法的平均準(zhǔn)確率。
值得一提的是,使用樣本均衡數(shù)據(jù)集時(shí),深度殘差網(wǎng)絡(luò)模型的預(yù)測性能出現(xiàn)略微下降,平均準(zhǔn)確率下降了1.24%。這是由于樣本數(shù)量較少,模型無法學(xué)習(xí)到整體的數(shù)據(jù)特征,模型參數(shù)無法得到有效更新,致使模型預(yù)測性能出現(xiàn)下降。
本文構(gòu)建了深度殘差網(wǎng)絡(luò)模型,并基于UCI 糖尿病數(shù)據(jù)集,將深度殘差網(wǎng)絡(luò)與支持向量機(jī)算法、決策樹算法、隨機(jī)森林、樸素貝葉斯、邏輯回歸等模型進(jìn)行了預(yù)測性能對比分析。結(jié)果表明,深度殘差網(wǎng)絡(luò)模型對原始數(shù)據(jù)集及構(gòu)造的樣本均衡數(shù)據(jù)集的預(yù)測性能都是最優(yōu)的。但在減少樣本量后,深度殘差網(wǎng)絡(luò)模型的性能出現(xiàn)下降,同時(shí)網(wǎng)絡(luò)訓(xùn)練過程中損失值出現(xiàn)波動(dòng)。實(shí)驗(yàn)結(jié)果表明,盡管使用深度殘差網(wǎng)絡(luò)可以解決神經(jīng)網(wǎng)絡(luò)退化問題,加快網(wǎng)絡(luò)收斂速度,但是模型仍需要大量的樣本輸入,以獲得更高的精確率。