• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RF_AdaBoost模型的血液種屬鑒別算法

      2020-01-16 01:02:08魏曼曼路皓翔楊輝華
      關(guān)鍵詞:種屬曼光譜數(shù)目

      魏曼曼, 路皓翔, 楊輝華,3

      (1. 桂林電子科技大學(xué)計算機與信息安全學(xué)院, 2. 電子工程與自動化學(xué)院, 桂林 541004;3. 北京郵電大學(xué)自動化學(xué)院, 北京 100876)

      拉曼光譜分析技術(shù)屬于光譜分析技術(shù)中的一種, 具有豐富的分子結(jié)構(gòu)信息, 且對檢測樣本無污染、 檢測速度快[1], 因此在高聚物、 珠寶鑒別、 藥物鑒別、 食品檢測以及石油化工等領(lǐng)域中的應(yīng)用極為廣泛[2,3]. 近年來, 血液種屬鑒別在珍稀動物保護(hù)、 海關(guān)以及刑偵等方面起到重要作用[4], 然而, 當(dāng)前尚無快速、 準(zhǔn)確、 可靠性強的血液種屬鑒別方法, 導(dǎo)致在實際應(yīng)用中極為不便.

      拉曼光譜反映了物質(zhì)內(nèi)部分子的極化度[5], 不同物質(zhì)的拉曼光譜信息不同, 如水分的拉曼光譜比較弱而血液中其它成分的拉曼光譜則較強, 基于拉曼光譜的這一特點, 研究人員越來越重視拉曼光譜分析技術(shù)在血液種屬鑒別方面的應(yīng)用研究. 如Kelly等[6]將統(tǒng)計學(xué)分析方法如慢特征分析、 主成分分析和交叉驗證法應(yīng)用于人、 犬和貓3個物種的分類研究, 通過對采集到的拉曼光譜進(jìn)行分析并提取主成分, 實現(xiàn)了這3個物種的有效分離. McLaughlin等[7]將二元偏最小二乘判別模型應(yīng)用于人、 貓和狗等12個種屬血液樣本的鑒別. Mistek等[8]采集了人、 貓和犬血跡的傅里葉變換紅外光譜樣本數(shù)據(jù), 將其用于建立偏最小二乘判別模型并實現(xiàn)3個物種的分類. Fujihara等[9]建立主成分分析模型, 將便攜式拉曼光譜儀采集的人類和非人類血液樣本的拉曼光譜進(jìn)行有效區(qū)分, 該模型在血液于室溫下保存90 d的情況下仍然適用. 陳秀麗等[10]利用激光鑷子拉曼光譜技術(shù)采集正常細(xì)胞和地貧紅細(xì)胞的光譜數(shù)據(jù), 并結(jié)合主成分分析和反向傳播算法實現(xiàn)了細(xì)胞鑒別. 潘建基等[11]以血清的顯微共聚焦拉曼光譜數(shù)據(jù)為研究對象, 結(jié)合主成分分析和判別分析法實現(xiàn)了鼻咽癌的早期診斷, 但對鼻咽癌組血清的檢測靈敏度僅為89.7%. 白鵬利等[12]獲取了人與動物血液拉曼光譜數(shù)據(jù), 利用杠桿值和殘差值剔除異常數(shù)據(jù), 并結(jié)合主成分分析法進(jìn)行檢測研究. 鄭祥權(quán)等[13]以小波去噪和基線校正對人血和比格犬血的拉曼光譜進(jìn)行預(yù)處理, 并結(jié)合主成分分析法構(gòu)建了線性判別模型. 文獻(xiàn)[6~9]均采用干燥后的血液樣品進(jìn)行實驗, 無法適應(yīng)海關(guān)進(jìn)出口血液鑒定等場景的需求; 文獻(xiàn)[10,11]分別采用俘獲的單個紅細(xì)胞和晾干后的血清樣品進(jìn)行血液分析, 會對樣本造成破壞; 文獻(xiàn)[12,13]雖然在樣本制備時采用了無損的方式, 且對人類和非人類血液種屬識別準(zhǔn)確度分別達(dá)到95%和90%, 但檢測性能仍有待提高.

      近年來, 隨著人工智能的興起, 機器學(xué)習(xí)技術(shù)在石油化工、 藥品鑒別等行業(yè)備受關(guān)注[14,15], 作為機器學(xué)習(xí)的一個分支, 集成學(xué)習(xí)更是憑借分類準(zhǔn)確度高、 可靠性強等優(yōu)點逐漸應(yīng)用到眾多領(lǐng)域并占據(jù)越來越重要的地位[16,17], 其中隨機森林(RF)及Adaptive Boosting Algorithm(AdaBoost)算法是集成學(xué)習(xí)領(lǐng)域的杰出代表. 本文采用泛化性能強、 分類準(zhǔn)確度高的RF算法作為AdaBoost的弱分類器, 通過弱分類器判別準(zhǔn)確度確定權(quán)重從而組合為強分類器. 為了驗證該方法的性能, 以人和動物血液的拉曼光譜數(shù)據(jù)為實例, 并與支持向量機(SVM)、 極限學(xué)習(xí)機(ELM)、 核極限學(xué)習(xí)機(KELM)、 堆棧自編碼網(wǎng)絡(luò)(SAE)、 反向傳播網(wǎng)絡(luò)(BP)、 主成分分析-線性判別法(PCA-LDA)、 偏最小二乘判別分析(PLS-DA)和RF算法進(jìn)行對比, 從分類準(zhǔn)確度、 模型運行時間和穩(wěn)定性3個方面驗證了該方法的有效性.

      1 RF_AdaBoost模型

      RF算法由Leo Breiman等[18]于2001年提出, 具有穩(wěn)定性強、 分類準(zhǔn)確度高的優(yōu)點, 其訓(xùn)練集在Bootstrap重采樣的過程下隨機產(chǎn)生, 且內(nèi)部決策樹選取屬性時也是隨機的. Freund等[19]對Boosting算法進(jìn)行改良, 使算法能夠自適應(yīng)調(diào)整樣本權(quán)重和弱分類器級聯(lián)權(quán)重, 形成性能優(yōu)良的AdaBoost算法. 該算法采用加權(quán)樣本訓(xùn)練下一個弱分類器, 同時根據(jù)每次迭代中的預(yù)測誤差調(diào)整弱分類器權(quán)重, 從而將弱分類器按照權(quán)重整合成符合實際需求的強分類器. 本文結(jié)合RF較強的分類預(yù)測準(zhǔn)確度及AdaBoost算法自適應(yīng)調(diào)整數(shù)據(jù)分布的優(yōu)點, 將RF作為AdaBoost算法的弱分類器, 旨在提高算法分類準(zhǔn)確率及抗噪聲能力, 模型具體框架如圖1所示.

      Fig.1 Framework of RF_AdaBoost model

      該模型進(jìn)行血液種屬鑒別的過程主要分為2個階段: RF弱分類器訓(xùn)練階段和強分類器樣本類別決策階段. 模型對樣本進(jìn)行分類預(yù)測的詳細(xì)流程如下:

      初始化. 對RF_AdaBoost模型中RF弱分類器的數(shù)目及單個RF中決策樹的數(shù)目進(jìn)行初始化, 并初始化樣本權(quán)重u1,i:

      (1)

      式中:m為訓(xùn)練集包含的樣本數(shù)目.

      弱分類器訓(xùn)練. 根據(jù)RF投票決策策略, 第t個分類器的分類結(jié)果Gt(x)為

      (2)

      預(yù)測誤差計算. 為使預(yù)測結(jié)果更準(zhǔn)確, 應(yīng)根據(jù)RF弱分類器的預(yù)測誤差率對樣本權(quán)重進(jìn)行調(diào)整, 使上一輪誤分類樣本在下一輪迭代中所占比重更大, 因此, 計算第t個RF弱分類器對于序列Gt(x)的預(yù)測誤差率et:

      (3)

      式中:ut,i表示第t個RF弱分類器的樣本權(quán)重;I為單位向量;y為期望分類結(jié)果. 預(yù)測誤差率越小表示弱分類器對樣本的預(yù)測結(jié)果越準(zhǔn)確.

      弱分類器組合. 根據(jù)在模型中作用越大的弱分類器預(yù)測誤差應(yīng)越小的原則, 計算第t個RF弱分類器的權(quán)重λt:

      (4)

      式中:et為第t個RF弱分類器的預(yù)測誤差率.

      樣本權(quán)重調(diào)整. 為使下一輪迭代中RF弱分類器能夠正確區(qū)分誤分類樣本, 應(yīng)對樣本權(quán)重進(jìn)行更新, 放大誤分類樣本權(quán)重并縮小正確分類樣本權(quán)重. 假設(shè)前t-1輪迭代所產(chǎn)生的分類器ft-1(x)已知, 即

      ft-1(x)=ft-2(x)+λt-1Gt-1(x)=λ1G1(x)+…+λt-1Gt-1(x)

      (5)

      則模型的損失函數(shù)在當(dāng)前樣本權(quán)重下應(yīng)最小:

      (6)

      (7)

      強分類函數(shù)集成. 訓(xùn)練T輪后得到T組弱分類函數(shù)Gt(x), 由Gt(x)組合得到強分類函數(shù)f(x):

      (8)

      式中:λt為第t輪訓(xùn)練時的弱分類器權(quán)重. 強分類函數(shù)f(x)經(jīng)二值化后得到最終用于血液種屬鑒別的強分類器h(x):

      (9)

      2 實驗部分

      2.1 材 料

      實驗用血液樣本共計1033例, 其中535例人類血液樣本由廣西桂林市某醫(yī)院提供, 498例動物血液樣本由廣西桂林市某研究中心提供.

      2.2 樣品的制備

      所有血液樣本不進(jìn)行任何前處理, 均置于EDTA抗凝管中. 用移液槍移取少量抗凝管中的血液樣本, 滴至清洗并干燥后的鍍鋁載玻片上, 進(jìn)行拉曼光譜測量. 載玻片采用體積分?jǐn)?shù)為75%的乙醇清洗, 以防止干擾拉曼信號并避免樣品間的交叉污染.

      2.3 光譜采集及預(yù)處理

      Fig.2 Raman spectroscopy of blood

      2.3.1 光譜采集 采用Finder Vista激光共聚焦顯微拉曼光譜儀(北京卓立漢光儀器有限公司)對血液樣本進(jìn)行測量, 激發(fā)波長設(shè)置為785 nm, 積分時間為10 s. 將200~2000 cm-1的拉曼位移范圍等間隔劃分為1778個特征波長點, 測量每點對應(yīng)的拉曼強度值, 進(jìn)而得到其拉曼光譜曲線. 每例樣本采集5條光譜, 取其平均光譜作為該樣本的光譜曲線. 實驗時將人類血液光譜標(biāo)記為正類樣本, 非人類血液光譜標(biāo)記為負(fù)類樣本, 樣品的光譜信息如圖2所示. 由圖2可見, 血液拉曼光譜在417, 754, 1003, 1226, 1547和1620 cm-1處均有明顯出峰. 血液樣本中核酸和蛋白質(zhì)組成成分的多樣性以及含量差異導(dǎo)致不同拉曼位移處的光譜相對強度不同, 位于754 cm-1處譜峰的形成是由于核酸結(jié)構(gòu)的差異性所致, 而位于417, 1003, 1226, 1547和1620 cm-1處的拉曼譜峰是由蛋白質(zhì)中物質(zhì)含量的多樣性造成的. 這證明血液拉曼光譜中含有豐富的遺傳信息, 并且對血液中分子組成、 結(jié)構(gòu)、 含量等信息分析具有重要的參考價值, 可用于提高血液種屬判別的準(zhǔn)確度.

      采用如圖2所示的血液拉曼光譜數(shù)據(jù)集, 對RF_AdaBoost模型從分類準(zhǔn)確度、 模型穩(wěn)定性及算法運行時間3個方面進(jìn)行性能評估. 在實驗所用數(shù)據(jù)集中, 正、 負(fù)類樣本數(shù)目之比約為1∶1, 為使數(shù)據(jù)分布保持一致, 避免引入額外的偏差影響實驗結(jié)果, 采用1∶1的比例隨機選取正、 負(fù)類樣本構(gòu)造訓(xùn)練集. 如訓(xùn)練集所含樣本數(shù)目為100時, 應(yīng)隨機選取正樣本、 負(fù)樣本各50例, 其中正樣本占比為50/535≈0.093, 負(fù)樣本占比為50/498≈0.100, 因此隨機選取正樣本總數(shù)的9.3%以及負(fù)樣本總數(shù)的10%構(gòu)成訓(xùn)練集, 剩余樣本構(gòu)成測試集. 具體劃分情況如表1所示, 按此方式構(gòu)建出9種不同規(guī)模的訓(xùn)練集進(jìn)行實驗, 以驗證RF_AdaBoost模型在不同規(guī)模訓(xùn)練集下的性能.

      Table 1 Distribution of positive and negative samples in the training sets

      Fig.3 Raman spectroscopy of blood after pretreatment

      2.3.2 光譜預(yù)處理 在樣品拉曼光譜獲取過程中, 由于外界環(huán)境變化、 激光功率波動等原因, 導(dǎo)致光譜數(shù)據(jù)中包含大量無關(guān)信息和噪聲. 為減少無關(guān)信息對鑒別模型的影響, 提高模型的預(yù)測能力, 需要對實驗所用相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理. 本實驗采用Savitzky-Golay(S-G)平滑法和求導(dǎo)數(shù)2種方法對實驗樣品的拉曼光譜數(shù)據(jù)進(jìn)行預(yù)處理. 首先, 采用S-G 5點平滑法消去樣品光譜數(shù)據(jù)中噪聲對分析模型建立的影響, 較好地保留光譜的原始信息; 然后, 對平滑處理后的樣品光譜數(shù)據(jù)求一階導(dǎo)數(shù), 移除背景成分使拉曼特征峰更加顯著. 預(yù)處理之后的樣品拉曼光譜如圖3所示.

      2.4 相關(guān)參數(shù)設(shè)置

      2.4.1 決策樹的數(shù)目 RF_AdaBoost血液種屬鑒別模型采用RF作為弱分類器, 而RF本身就是多棵決策樹集成在一起的, 決策樹的數(shù)目會對RF的性能產(chǎn)生一定影響. 為保證模型整體性能達(dá)到最優(yōu), 首先需要確定單個弱分類器中決策樹的數(shù)目. 按照表1所示方式隨機選取訓(xùn)練集樣本, 在不同樣本規(guī)模下驗證了決策樹的數(shù)目與血液種屬鑒別準(zhǔn)確度的關(guān)系, 具體關(guān)系如圖4所示. 可見, 當(dāng)訓(xùn)練集規(guī)模不同時, 使RF分類準(zhǔn)確度達(dá)到峰值的決策樹數(shù)目不盡相同, 但都分布在100~200之間. 根據(jù)實際情況為不同規(guī)模的訓(xùn)練集選擇不同的決策樹數(shù)目, 當(dāng)訓(xùn)練集規(guī)模為200, 300, 600, 700和800時, 單個RF弱分類器的決策樹數(shù)目設(shè)為100; 當(dāng)訓(xùn)練集數(shù)目為500和900時, 決策樹數(shù)目設(shè)為150; 當(dāng)訓(xùn)練集規(guī)模為100和400時, 決策樹數(shù)目設(shè)為200.

      Fig.4 Relationship between the number of decision trees and the classification accuracy of RF

      Fig.5 Relationship between the number of weak classifiers and the classification accuracy of model

      2.4.2 弱分類器的數(shù)目 RF_AdaBoost模型對人類和非人類血液種屬鑒別過程中, 弱分類器數(shù)目對模型預(yù)測能力及泛化性能等也會產(chǎn)生一定影響, 過多的弱分類器數(shù)目會增加模型的時間復(fù)雜度, 甚至?xí)档湍P偷念A(yù)測準(zhǔn)確度, 故RF_AdaBoost模型在進(jìn)行血液種屬鑒別時需要選取合適的弱分類器數(shù)目. 按照表1所示數(shù)據(jù)集的劃分情況進(jìn)行鑒別實驗, 結(jié)果如圖5所示. 可見, 弱分類器數(shù)目在8~18之間時模型分類準(zhǔn)確度達(dá)到最高, 在不同訓(xùn)練集規(guī)模下使分類準(zhǔn)確度達(dá)到峰值的弱分類器數(shù)目不同, 綜合考慮模型的運行時間, 建立RF_AdaBoost血液種屬鑒別模型時對各個樣本規(guī)模下的弱分類器數(shù)目分層次設(shè)置. 當(dāng)訓(xùn)練集數(shù)目為100時, 模型中弱分類器的數(shù)目設(shè)為18; 當(dāng)訓(xùn)練集數(shù)目為200~400時, 弱分類器數(shù)目設(shè)為12; 當(dāng)訓(xùn)練集數(shù)目為500~900時, 弱分類器數(shù)目設(shè)為8.

      2.5 鑒別模型的建立

      實驗中RF算法選用Randomforest-matlab工具箱(https://code.google.com/p/randomforst-matlab/), 采用MATLAB R2014a為編程軟件, 運行在Intel(R) Core(TM) i5-6500 CPU@3.20GHz 3.19 GHz環(huán)境下. 實驗所用RF_AdaBoost模型主要分為實驗數(shù)據(jù)預(yù)處理、 弱分類訓(xùn)練及級聯(lián)、 強分類器預(yù)測輸出3個階段.

      2.5.1 光譜數(shù)據(jù)預(yù)處理 為除去拉曼光譜數(shù)據(jù)中夾雜的噪聲, 提高數(shù)據(jù)集的信噪比, 首先對實驗數(shù)據(jù)進(jìn)行預(yù)處理. 依次采用S-G 5點平滑法和一階導(dǎo)數(shù)法處理樣品的光譜數(shù)據(jù), 使拉曼峰值更顯著, 同時增強模型抗干擾能力并提高預(yù)測性能.

      2.5.2 弱分類器訓(xùn)練 弱分類器初始化, 根據(jù)2.4節(jié)相關(guān)參數(shù)設(shè)置中的討論結(jié)果對單個RF弱分類器中的決策樹數(shù)目以及模型中的弱分類器個數(shù)進(jìn)行設(shè)置, 樣本初始權(quán)重1/m, 其中m為訓(xùn)練集樣本個數(shù), 并在迭代過程中不斷自動調(diào)整樣本權(quán)重和各弱分類器權(quán)重.

      2.5.3 強分類器預(yù)測輸出 將各訓(xùn)練集規(guī)模下的全部弱分類器根據(jù)權(quán)重線性整合為強分類器, 輸入測試集得到RF_AdaBoost模型預(yù)測結(jié)果.

      2.5.4 對比實驗 采用RF, SVM, ELM, KELM, SAE, BP, PCA-LDA以及PLS-DA模型進(jìn)行對比實驗, 其中每種訓(xùn)練集規(guī)模下RF模型所含決策樹的數(shù)目與RF_AdaBoost模型中單個弱分類器所含的決策樹數(shù)目相同; SVM選用線性核函數(shù), 參數(shù)c=1, gamma=0.3; ELM和KELM的網(wǎng)絡(luò)結(jié)構(gòu)均設(shè)置為1778-train*0.4-2(train為訓(xùn)練集樣本個數(shù)), KELM選用RBF核函數(shù); SAE和BP網(wǎng)絡(luò)均設(shè)置為1778-400-200-2, 迭代次數(shù)為100, 學(xué)習(xí)率為0.01, 激活函數(shù)選用sigmoid.

      3 結(jié)果與討論

      按照表1所示隨機抽取血液拉曼光譜數(shù)據(jù)組成訓(xùn)練集, 其余樣本組成測試集, 同時選取RF, ELM, KELM, SAE, BP, PCA-LDA以及PLS-DA進(jìn)行對比實驗. 每個比例的對比實驗分別進(jìn)行10次, 每次實驗時均需按照表1中數(shù)據(jù)集的構(gòu)成情況重新將數(shù)據(jù)隨機分配為訓(xùn)練集和測試集, 取10次測試的平均值作為最終結(jié)果, 并根據(jù)分類準(zhǔn)確度、 模型穩(wěn)定性以及運行時間3個指標(biāo)對模型的鑒別能力進(jìn)行評估.

      3.1 血液光譜特征分析

      Fig.6 Raman representative spectroscopy of human and non-human blood

      人類和非人類血液的代表性拉曼光譜如圖6所示. 可見, 人類和非人類的血液拉曼光譜譜峰大致相同, 但譜峰的相對強度有明顯差異. 在2條代表性拉曼光譜中, 拉曼位移在240~1220 cm-1范圍內(nèi)時, 人類血液光譜強度小于非人類血液; 而在1220~1670 cm-1范圍內(nèi), 人類血液拉曼光譜強度明顯超過非人類血液. 此外, 在330~450 cm-1和1220~1670 cm-1范圍內(nèi), 人類血液拉曼譜峰更明顯且更易于識別. 這表明人類和非人類遺傳物質(zhì)不同, 因此所包含的生物化學(xué)信息具有特異性, 不同核酸堿基和蛋白質(zhì)中氨基酸的構(gòu)成具有多樣性, 表現(xiàn)在拉曼光譜中即為譜峰強度的差異, 這為血液種屬鑒別提供了條件.

      3.2 分類準(zhǔn)確度

      分類準(zhǔn)確度是檢驗?zāi)P托阅艿年P(guān)鍵指標(biāo). 采用表1所示的樣本集合構(gòu)建方式選取訓(xùn)練集和測試集, 得到各模型在10次實驗下對于測試集的平均分類準(zhǔn)確度如表2所示. 可見, 在每種規(guī)模的訓(xùn)練集下, RF_AdaBoost模型的分類準(zhǔn)確度均保持在98%以上, 與其它模型相比有顯著提高; 模型分類準(zhǔn)確度隨著樣本規(guī)模的增大而提高, 當(dāng)訓(xùn)練集包含600~900個訓(xùn)練樣本時, 分類準(zhǔn)確度達(dá)到100%, 表明該模型在此訓(xùn)練集規(guī)模下可以準(zhǔn)確實現(xiàn)血液種屬鑒別. 這是由于該模型較好地結(jié)合了RF的隨機性和AdaBoost的自適應(yīng)性, 抗噪聲能力得到有效增強, 使得非線性建模能力更優(yōu).

      Table 2 Test sets classification accuracy of each model under different training set scales

      隨著訓(xùn)練集中樣本數(shù)量的增加, RF, SVM, ELM, KELM和PLS-DA的分類準(zhǔn)確度均呈上升趨勢, SVM的準(zhǔn)確度僅次于RF_AdaBoost模型, 表明其解決了高維空間的分類問題, 可用于鑒別血液種屬, 但與RF_AdaBoost模型相比鑒別能力較弱. RF的分類準(zhǔn)確度次之, 這是因為重采樣技術(shù)和決策樹集成方式中的隨機特性提高了模型性能. PLS-DA的分類準(zhǔn)確度較高, 表明觀測變量和預(yù)測變量投影到新空間后, 建立的模型能夠較好地預(yù)測血液種屬, 模型受訓(xùn)練集規(guī)模的影響較小, 準(zhǔn)確度約為94%. 此外, 在血液種屬鑒別實驗中KELM和ELM也保持了較高的分類準(zhǔn)確度, 但KELM稍差于ELM, 表明核函數(shù)的加入并未起到改善模型性能的作用. PCA-LDA首先提取出了6個主成分, 進(jìn)而通過線性判別法對數(shù)據(jù)進(jìn)行分類, 但得到的預(yù)測結(jié)果較差, 表明此時的PCA未能提高建模質(zhì)量, 反而損失了部分?jǐn)?shù)據(jù)信息. SAE和BP在不同規(guī)模訓(xùn)練集下得到的分類準(zhǔn)確度均較低, 表明其非線性建模能力弱, 預(yù)測效果較差, 在血液種屬鑒別場景下這2種模型預(yù)測結(jié)果的可靠性較差.

      Fig.7 Standard deviation of prediction accuracy of each model

      3.3 模型的穩(wěn)定性

      模型的穩(wěn)定性決定其實際應(yīng)用的可靠性與泛化性能. 對于建立的RF_AdaBoost血液種屬鑒別模型, 采用10次重復(fù)實驗的預(yù)測標(biāo)準(zhǔn)偏差作為模型穩(wěn)定性的衡量標(biāo)準(zhǔn), 各模型在不同規(guī)模訓(xùn)練集下的預(yù)測標(biāo)準(zhǔn)偏差如圖7所示. 可見, RF_AdaBoost模型穩(wěn)定性最優(yōu), 在任意規(guī)模訓(xùn)練集下均表現(xiàn)出最低的預(yù)測標(biāo)準(zhǔn)偏差, 表明與其它模型相比RF_AdaBoost模型用于血液種屬鑒別時效果是最穩(wěn)定. RF, SVM和PLS-DA的穩(wěn)定性優(yōu)于ELM, KELM, SAE以及BP模型, 表明這3種模型魯棒性較好, 但與RF_AdaBoost相比效果較差. SVM的表現(xiàn)僅次于RF_AdaBoost模型, 而PCA-LDA, SAE, ELM, KELM及BP模型的穩(wěn)定性最差.

      3.4 模型運行時間

      模型運行時間可用于衡量模型的預(yù)測效率, 實驗所得結(jié)果如表3所示. 可見, RF_AdaBoost模型運行時間較長, 這是由于除了受到訓(xùn)練集樣本數(shù)目的影響外, 其構(gòu)建時集成了多個RF弱分類器, 且受不同規(guī)模的訓(xùn)練集下單個RF弱分類器中決策樹棵數(shù)的影響較大.

      Table 3 Training time of each model under different training set scales

      隨著訓(xùn)練集樣本的增加, SVM, ELM, KELM, SAE, BP以及PLS-DA模型的單次運行時間均逐漸延長. SVM和以決策樹為基礎(chǔ)的RF模型運行速度較快, 因為其包含的可調(diào)參數(shù)較少且模型簡潔. 而ELM和KELM運行速度較快, 是因為其模型結(jié)構(gòu)由輸入層、 隱含層和輸出層組成, 分別采用隨機設(shè)定和解方程組即可確定前兩者的連接權(quán)值以及隱含層的閾值、 后兩者的連接權(quán)值等重要參數(shù), 解決方式簡便易行, 無需大量時間即可完成運算. PLS-DA模型向新空間投影后用于解釋樣本的觀測數(shù)目少, 因此能較為快速的得出實驗結(jié)果. 同樣的, PCA-LDA對數(shù)據(jù)降維后再進(jìn)行分類, 降低了算法的計算開銷, 因此運行時間較短. SAE和BP的運行時間與其它模型相比較長, 因為這兩種模型在實驗中均為包含兩層隱含層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 且需要對各節(jié)點參數(shù)層層傳播及訓(xùn)練.

      4 結(jié) 論

      以RF作為AdaBoost的弱分類器, 提出了一種同時具備RF的隨機性和AdaBoost的自適應(yīng)性的血液種屬鑒別方法, 旨在提高模型預(yù)測能力及抗噪聲性能. 為擴充實驗內(nèi)容, 在一定程度上反映所建立模型的科學(xué)性和普適性, 采用構(gòu)造不同規(guī)模訓(xùn)練集進(jìn)行實驗的形式對模型性能進(jìn)行評估. 實驗結(jié)果表明, 在訓(xùn)練集中樣本數(shù)目為600~900時, 準(zhǔn)確度達(dá)到100%, 且不論訓(xùn)練集規(guī)模如何, 預(yù)測標(biāo)準(zhǔn)偏差一直保持趨近于0. RF_AdaBoost模型具有分類準(zhǔn)確度高、 穩(wěn)定性好的優(yōu)點, 可用于人類和非人類的血液種屬鑒別.

      猜你喜歡
      種屬曼光譜數(shù)目
      有機物“同分異構(gòu)體”數(shù)目的判斷方法
      石斛堿在體外肝微粒體代謝的種屬差異研究
      平衡透析法考察豆腐果苷血漿蛋白結(jié)合率:種屬差異研究
      厚樸提取物HK-1在5個種屬肝微粒體中的代謝
      中成藥(2016年4期)2016-05-17 06:07:30
      《哲對寧諾爾》方劑數(shù)目統(tǒng)計研究
      牧場里的馬
      基于深層神經(jīng)網(wǎng)絡(luò)(DNN)的漢語方言種屬語音識別
      BMSCs分化為NCs的拉曼光譜研究
      便攜式薄層色譜-拉曼光譜聯(lián)用儀重大專項獲批
      苯的激光拉曼光譜研究
      物理與工程(2013年1期)2013-03-11 16:03:39
      永福县| 陇川县| 京山县| 宝鸡市| 金平| 晴隆县| 漠河县| 科技| 宜昌市| 惠安县| 千阳县| 宜兰县| 北碚区| 金塔县| 定日县| 涪陵区| 白朗县| 齐齐哈尔市| 龙泉市| 松溪县| 曲麻莱县| 和顺县| 邯郸县| 中宁县| 彭阳县| 若尔盖县| 隆尧县| 铁岭市| 米易县| 融水| 温州市| 甘谷县| 正定县| 同江市| 宁强县| 布尔津县| 鄂温| 丽水市| 尼木县| 韶山市| 卢氏县|