桑祎瑩,黃仕鑫,易靜,曾慶,羅亞玲
糖尿病性周圍神經(jīng)病變(diabetic peripheral neuropathy,DPN)是臨床常見的糖尿病并發(fā)癥之一,患病率達50%~80%,嚴重影響患者的生活質量[1-3]。其發(fā)病機制目前尚未完全明了,主要認為與代謝機制異常、微血管病變、神經(jīng)生長因子缺乏、免疫缺陷等有關[1]。如何早期、準確地診斷DPN仍是該領域中的熱點難點之一[4-6]。近些年數(shù)據(jù)挖掘技術廣泛應用于醫(yī)學領域,在疾病診斷、預后判斷、風險評估等方面具有良好的應用價值[7-9]。與適合處理小樣本數(shù)據(jù)的決策樹和貝葉斯網(wǎng)絡及對數(shù)據(jù)樣本有各種假設條件的傳統(tǒng)統(tǒng)計方法相比,隨機森林(RF)和誤差反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡可以高效地處理大規(guī)模復雜無規(guī)律的醫(yī)學數(shù)據(jù)。隨機森林和BP神經(jīng)網(wǎng)絡是分類領域中的兩種重要方法,本研究旨在通過建立隨機森林和BP神經(jīng)網(wǎng)絡在DPN中的個體風險分類模型,為診斷DPN提供一種有價值的計算機輔助方法。
1.1 一般資料
1.1.1 資料來源 選擇2016年1-12月重慶醫(yī)科大學附屬第二醫(yī)院內(nèi)分泌科確診為DPN的全部患者(n=2199)以及采用簡單隨機抽樣抽取的非DPN的體檢對象(n=2610)。資料不包括所有對象的個人基本信息,只分析了所有對象的臨床檢驗指標。
1.1.2 入選標準及排除標準 病例組入選標準:①2型糖尿病患者;②診斷糖尿病時或診斷后出現(xiàn)神經(jīng)病變;③符合糖尿病性周圍神經(jīng)病診斷標準;④有臨床癥狀(疼痛、麻木、感覺異常等)者,5項檢查(踝反射、針刺痛覺、振動覺、壓力覺、溫度覺)中任一項異常;無臨床癥狀者,5項檢查中任2項異常[10]。對照組入選標準:①無糖尿病病史;②無神經(jīng)疾病病史;③神經(jīng)系統(tǒng)檢查無陽性體征;④本次體檢中未發(fā)現(xiàn)有高血糖、高血壓、高血脂。采用簡單隨機抽樣抽取符合以上4個入選標準的體檢對象作為對照組,它與DPN組有良好的區(qū)分。排除標準:其他病因引起的神經(jīng)病變,如頸腰椎病變;藥物引起的神經(jīng)毒性作用;腎功能不全產(chǎn)生的代謝毒物對神經(jīng)的損傷[10]。
1.2 研究方法
1.2.1 數(shù)據(jù)預處理 本研究涉及的86個指標均來自4809例觀察對象的臨床檢驗指標,包括血糖指標、血脂指標、肝功能指標、腎功能指標、凝血功能指標、炎癥指標、酸堿平衡度等。因在當前環(huán)境下已失去可利用價值[11],缺失率>40%的臨床檢驗指標未納入本研究。這些指標包括:天冬氨酸轉氨酶/丙氨酸轉氨酶(AST/ALT)、肌酸激酶同工酶(CKMB)、谷氨酸脫羧酶抗體、胰島素自身抗體、內(nèi)生肌酐清除率、胰島素、C-肽、尿微量白蛋白/尿肌酐、C反應蛋白、前白蛋白、血清游離T3、血清游離T4、血清促甲狀腺激素、游離脂肪酸、細菌、脂蛋白a、白細胞、管型計數(shù)、尿結晶檢查、上皮細胞計數(shù)、小圓上皮細胞、黏液絲、總膽汁酸、淀粉酶、膽堿酯酶、5'-核苷酸酶、大血小板比率、乳酸、陰離子間隙、梅毒螺旋體抗體測定、淋球菌涂片檢查、幽門螺桿菌、HIV抗體篩查試驗、丙肝病毒抗體共計34個。對于缺失率<40%的52個檢驗指標全部納入模型,并采用k-Means的方法進行缺失值填補。對于個別檢驗指標的測量值出現(xiàn)與其平均值的偏差超過兩倍標準差的異常情況,則刪除該異常值。本研究刪除了樣本中6例異常值,其中總樣本為4809例,占總樣本的0.12%,因此并不影響整體數(shù)據(jù)的分布。預處理后的數(shù)據(jù)不僅可以保持原始數(shù)據(jù)的完整性,而且可以提高數(shù)據(jù)挖掘的質量,降低數(shù)據(jù)挖掘所需要的時間。
1.2.2 觀察指標 兩組對象的觀察指標包括超敏C反應蛋白、糖化血紅蛋白、白細胞計數(shù)、尿比重、紅細胞計數(shù)、pH、低密度脂蛋白、甘油三酯、高密度脂蛋白、總膽固醇、葡萄糖、部分凝血活酶時間、凝血酶時間、凝血酶原時間、間接膽紅素、直接膽紅素、總膽紅素、γ谷氨酰轉肽酶、白蛋白、丙氨酸氨基轉移酶、堿性磷酸酶、總蛋白、天門冬氨酸、尿素、尿酸、單核細胞百分比、單核細胞計數(shù)、血細胞比容、紅細胞分布寬度、紅細胞分布寬度標準差、淋巴細胞百分比、淋巴細胞計數(shù)、平均紅細胞體積、平均血紅蛋白含量、平均血紅蛋白濃度、嗜堿粒細胞百分比、嗜堿粒細胞計數(shù)、嗜酸粒細胞百分比、嗜酸粒細胞計數(shù)、血紅蛋白測定、血小板壓積、血小板分布寬度、平均血小板體積、血小板計數(shù)、中性粒細胞百分比、中性粒細胞計數(shù)、二氧化碳結合率、鈣、鉀、氯、鈉、肌酐等共計52項。
1.2.3 隨機森林與BP神經(jīng)網(wǎng)絡模型的構建 采用R軟件來實現(xiàn),分別采用約登指數(shù)和ROC曲線下面積來評價模型的真實性和判別分析效果。通過比較兩種診斷模型的評價指標,選擇最優(yōu)分類模型。
1.2.4 隨機森林 隨機森林是一種包含多個決策樹的分類器,它通過自助法(bootstrap)重采樣技術,從原始訓練樣本N中有放回地重復隨機抽取k(k<N)個樣本生成新的訓練集樣本集合,然后根據(jù)自助樣本集生成k個決策樹組成的隨機森林[12],采用多數(shù)投票法對測試樣本進行決策分類。這些隨機決策樹相互間獨立,且在樹的生長過程中和訓練樣本的選擇上均引用隨機的方法以降低樹結構分類器較高的方差[13]。
1.2.5 BP神經(jīng)網(wǎng)絡 BP神經(jīng)網(wǎng)絡模型是多層前饋神經(jīng)網(wǎng)絡,該模型由輸入層、輸出層、隱含層組成。BP網(wǎng)絡的學習過程包括正向傳播過程(the forward phase)和反向傳播過程(the backward phase)兩部分。當給定網(wǎng)絡一個輸入模式X時,它在相應的權值、閾值和激活函數(shù)的作用下傳遞到輸出層,產(chǎn)生一個輸出模式O,稱為正向傳播,如果輸出響應與期望輸出模式有誤差,不滿足要求,則將誤差反向傳播。在誤差返回過程中,網(wǎng)絡修正各層的權值和閾值,直到誤差信號最小,稱為反向傳播。即當傳遞信號的誤差達到允許精度時規(guī)定網(wǎng)絡訓練完成[14-15]。
1.2.6 模型的參數(shù)評價 選用約登指數(shù)和曲線下面積來評價模型的真實性和判別分析效果。約登指數(shù)表示模型發(fā)現(xiàn)真正患者與非患者的總能力,取值范圍為(–1,+1)之間,其值越接近于+1,其真實性越高,計算公式=靈敏度+特異度–1;ROC曲線下面積用于二分類判別模型的分析與評價,取值范圍為(0.5,1),曲線下面積越接近于1,其診斷價值越高。
2.1 隨機森林模型 有放回地重復隨機抽取全部樣本的70%作為訓練樣本,并利用訓練樣本生成對應的隨機森林模型。隨機森林分類器需要設置兩個重要參數(shù):樹節(jié)點預選的變量個數(shù)(mtry)、隨機森林中樹的個數(shù)(ntree)。對于樹節(jié)點預選的最優(yōu)變量個數(shù),采用逐一增加變量的方法從52個臨床觀察指標變量中挑選出模型誤判率最低的決策樹節(jié)點變量個數(shù)。對于隨機森林中決策樹的個數(shù),當決策樹數(shù)量>400后,模型誤差趨于穩(wěn)定。因此,本研究構建了決策樹節(jié)點處變量個數(shù)為9,決策樹數(shù)量為400的隨機森林模型。測試判別:利用訓練樣本生成的隨機森林模型對測試樣本采用投票的方式,得到?jīng)Q策樹中輸出最多的類別作為測試樣本所屬類別,即判定了是否患有DPN。
2.2 隨機森林模型結果 使用訓練樣本數(shù)據(jù)訓練模型,測試樣本數(shù)據(jù)評估模型的預測分類能力。其中,訓練樣本3368例,測試樣本1441例,對數(shù)據(jù)分類的正確率分別達到100.00%、99.93%,模型的診斷參數(shù)約登指數(shù)分別為100.00%、99.85%,ROC曲線下面積分別為1.0000、0.9994。說明所構建的隨機森林模型效果很好(表1)。
表1 隨機森林模型分析結果及參數(shù)評價Tab.1 Random forest analysis and parameter evaluation
2.3 BP神經(jīng)網(wǎng)絡模型
2.3.1 數(shù)據(jù)歸一化 將樣本值歸一到[–1,1]之間,目的是提高網(wǎng)絡訓練速度,本文使用標準化方法如下:Xk=(Xk-Xmean)/Xvar,Xmean為數(shù)據(jù)序列的均值,Xvar為數(shù)據(jù)的方差。
2.3.2 神經(jīng)網(wǎng)絡拓撲結構的確定 該網(wǎng)絡包括輸入層、2個隱含層和輸出層,其中輸入層包含52個節(jié)點,2個隱含層各包含26個節(jié)點,輸出層節(jié)點數(shù)為1。BP神經(jīng)網(wǎng)絡采用Sigmoid函數(shù)作為激活函數(shù),并且采用梯度下降法調(diào)整網(wǎng)絡權值。對于分類問題,輸出節(jié)點給出的是預測類別的概率值。
2.3.3 測試判別 有放回地重復隨機抽取全部樣本的70%作為訓練樣本,利用訓練樣本生成BP神經(jīng)網(wǎng)絡模型,如果輸出概率值≤0.5,為未患DPN,輸出概率值>0.5,為患有DPN。
2.4 BP神經(jīng)網(wǎng)絡模型結果 訓練樣本3368例,測試樣本1441例,對數(shù)據(jù)分類的正確率分別達到100.00%、99.58%,模型的診斷參數(shù)約登指數(shù)分別為100.00%、99.14%,ROC曲線下面積分別為1.0000、0.9959。說明所構建的BP神經(jīng)網(wǎng)絡模型效果很好(表2)。
表2 BP神經(jīng)網(wǎng)絡模型分析結果及參數(shù)評價Tab.2 BP neural network analysis and parameter evaluation
為揭示各種錯綜復雜的生命現(xiàn)象發(fā)生發(fā)展的規(guī)律,當前的臨床醫(yī)學與預防醫(yī)學開展了大量研究并取得了豐富的數(shù)據(jù)[8]。如何應用這些數(shù)據(jù)建立合理的數(shù)學模型并對疾病進行準確地判別分類,為臨床診斷提供一定幫助,成為目前醫(yī)學工作者的重要工作之一。
與傳統(tǒng)的統(tǒng)計方法對數(shù)據(jù)分布和類型的要求相比,BP神經(jīng)網(wǎng)絡不需要考慮自變量是否滿足正態(tài)性及變量間獨立等條件,同時BP神經(jīng)網(wǎng)絡具有很強的非線性映射能力,能應對復雜的大規(guī)模數(shù)據(jù)及無先驗知識的資料[15],因此解決了本研究中DPN早期各項實驗室指標與診斷結果之間的非線性關系。其中訓練樣本的正確率為100%,測試樣本的正確率為99.58%,ROC曲線下面積分別為1.0000和0.9959,判別分類效果很好。但BP神經(jīng)網(wǎng)絡在實際應用中存在一些局限性和不足:①構建BP神經(jīng)網(wǎng)絡模型時,拓撲結構的確定,如果隱含層神經(jīng)元數(shù)目過少,建立的模型過于簡單,對于數(shù)據(jù)的內(nèi)在規(guī)律提取不足;如果神經(jīng)元數(shù)目過多,則建立的網(wǎng)絡結構過于復雜,導致過度擬合[8];②關于模型具體危險因素的權重值,如權重系數(shù)的假設檢驗,計算權重系數(shù)的可信區(qū)間,單層神經(jīng)網(wǎng)絡的權重系數(shù)具有一定的醫(yī)學可解釋性,但對于多層神經(jīng)網(wǎng)絡的權重系數(shù),很難給出其具體意義[14,16];③設計多層BP神經(jīng)網(wǎng)絡,由于BP算法本質上為梯度下降法,而它所要優(yōu)化的目標函數(shù)又非常復雜,這使得BP算法的學習速度很慢;④通過單一方法構建的分類器,在準確率上存在缺陷,精度無法保證正常使用,并且容易出現(xiàn)過度擬合的現(xiàn)象[17]。
隨機森林作為一種以決策樹為基分類器的集成分類器,不僅訓練速度快而且容易實現(xiàn),模型的穩(wěn)健性較高,可以高效地處理大數(shù)據(jù)集[18-19]。隨機森林的一個重要應用就是對數(shù)據(jù)進行判別分類研究[12]。與BP神經(jīng)網(wǎng)絡模型相比,其優(yōu)點為:①由于隨機森林的抽樣特性,各個決策樹之間相互獨立,因此隨機森林不會受到異常值和噪聲的影響而出現(xiàn)過度擬合的情況[20];②許多研究表明,組合分類器比單一分類器的分類效果要好;③與BP神經(jīng)網(wǎng)絡設置多層隱含層時的權重系數(shù)是否有真實意義相比,隨機森林不僅可以自動辨識最重要的輸入變量,而且還能同時處理連續(xù)型變量和分類變量。本研究對納入的DPN早期各項實驗室指標進行分析,在隨機森林模型自動辨識相關變量的情況下,避免了單獨觀察某一個指標的片面性和主觀性。其中訓練樣本的正確率為100.00%,測試樣本的正確率為99.93%,ROC曲線下面積分別為1.0000和0.9994,判別分類效果很好。但隨機森林在實際應用中還存在一些局限性和不足:①隨機森林模型沒有剪枝過程,對某些數(shù)據(jù)集可能會形成過度擬合的現(xiàn)象[17];②當無差異變量數(shù)量增加時,隨機森林的判別能力在一定程度上會減弱[21]。
DPN具有起病緩慢、隱匿性強、癥狀逐漸加重、不易逆轉的特點,已經(jīng)成為目前尚無法治愈的一種高發(fā)病,其早期診斷具有重要意義[22-23]。因此,本文采用隨機森林和BP神經(jīng)網(wǎng)絡對是否患有DPN進行數(shù)據(jù)分類建模,其中,隨機森林和BP神經(jīng)網(wǎng)絡模型測試樣本對數(shù)據(jù)分類的正確率分別為99.93%、99.58%,約登指數(shù)分別為99.85%、99.14%,ROC曲線下面積分別為0.9994、0.9959,95%CI分別為0.9961~1.0000、0.9910~0.9985,兩種分類器在分類效果上差異無統(tǒng)計學意義(P=0.08),隨機森林與BP神經(jīng)網(wǎng)絡在DPN患病的判別分類中準確性均很高,說明這兩種模型在DPN個體風險研究的分類結果上都有很好的適用性。但是基于BP神經(jīng)網(wǎng)絡和隨機森林方法學上的特點,隨機森林模型在實際應用中操作更簡便,結果更容易實現(xiàn),實現(xiàn)的分類結果更能體現(xiàn)出問題的真實意義。因此隨機森林模型在判別DPN患病風險研究中具有更高的實用性。但當前研究并未對DPN進行細分,如感覺神經(jīng)病變、運動神經(jīng)病變等,無法探究DPN各個類型的特異性。同時DPN的影響因素繁多,利用智能方法進行決策仍存在很大的挑戰(zhàn),因此,下一步將使用更大、更全面的樣本集對本文中的模型進行驗證和改進,從而建立更加完善的分類模型。