• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多次交叉驗證對PLSDA模型的影響研究*

      2017-03-09 08:18:00哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室150081
      中國衛(wèi)生統(tǒng)計 2017年1期
      關鍵詞:模擬實驗交叉分組

      哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

      曲思楊 張秋菊 王文佶 謝 彪 孫 琳 高 兵 劉美娜△

      多次交叉驗證對PLSDA模型的影響研究*

      哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

      曲思楊 張秋菊 王文佶 謝 彪 孫 琳 高 兵 劉美娜△

      目的 比較一次交叉驗證和多次交叉驗證對PLSDA最優(yōu)模型的影響,探討在個體正確分組和少數個體錯分時,多次交叉驗證對PLSDA最優(yōu)模型穩(wěn)定性的影響。方法 打亂數據集中個體順序進行多次交叉驗證,通過一次交叉驗證和多次交叉驗證的方法對模擬數據和真實數據進行分析,使用成分數和MSEP等參數值來評價模型變異性和穩(wěn)定性。結果 模擬數據結果,僅進行1次交叉驗證結果成分數為3,MSEP值為0.3792;在不打亂數據標簽時,5000次交叉驗證結果中,成分數范圍是2~6,MSEP值的范圍0.2569~0.5794;打亂5%的標簽時,5000次交叉驗證結果中,成分數范圍是1~8,MSEP值的范圍0.2061~0.6463;真實數據結果,進行1次交叉驗證結果成分數為4,MSEP值為0.1376;10000次交叉驗證成分數范圍是4~10,MSEP范圍是0.0802~0.3761。結論 一次交叉驗證結果不穩(wěn)定,在應用PLSDA建模時,多次交叉驗證在少量個體錯分時能夠獲得穩(wěn)定模型,建議使用多次交叉驗證確保PLSDA模型穩(wěn)定性。

      交叉驗證 PLSDA 高維數據

      偏最小二乘判別分析(partial least squares discriminant analysis,PLSDA)在高維數據中應用廣泛,成為標準的高維數據分析方法,通過所建的模型對新的個體進行分類預測,模型的優(yōu)度影響預測的準確性[1-2]。評價模型預測能力的可靠方法是應用外部數據驗證,但對于小樣本的高維數據由于樣本量的限制無法進行外部數據驗證,因此采用交叉驗證的方法來評價PLSDA模型[3-5]。在進行交叉驗證的過程中常規(guī)方法是只進行一次交叉驗證評價PLSDA模型[6],但有研究證明對于同一組數據,當交叉驗證中訓練集和測試集的個體組成發(fā)生變化時,PLSDA模型也隨之發(fā)生變化,一次交叉驗證結果存在偶然[7]。本研究利用改進的交叉驗證方法,打亂個體分組進行多次交叉驗證并應用于PLSDA,避免一次交叉驗證結果帶來的偶然性,使PLSDA模型更加穩(wěn)定。本文使用成分數和預測均方誤差評價PLSDA模型。成分數表示PLSDA模型中主成分個數,說明模型的復雜程度。預測均方誤差(mean squared error of prediction,MSEP)可評價模型的預測能力,MSEP值越小,模型的預測值與真實值相差越小,說明模型預測能力越好。

      方法介紹

      1.一次交叉驗證

      通過PLSDA方法建模后,評價模型時通常僅進行一次交叉驗證[8]。以7折交叉驗證為例:將整個數據集分成7個子集,其中6份為訓練集,1份為測試集,使用訓練集建立不同主成分數的模型,然后通過所建模型對相應測試集中的個體進行預測,重復此過程,直到每個個體在測試集中僅出現一次,最終將錯誤率最低的模型作為最優(yōu)模型。

      但是,只進行一次交叉驗證而確定的最優(yōu)模型存在偶然性,結果并不穩(wěn)定。如圖1(a)所示,在子集的生成過程中,從數據集中每隔6個個體抽取1個個體放入子集中。第一個子集中由1、8、15、…個體組成,第二個子集中由2、9、16、…個體組成,以此類推。根據每個子集構成的方式,當打亂數據集中個體順序時,每個子集的組成也發(fā)生改變(圖1b)。若用打亂個體分組后的子集重新擬合模型,所得最優(yōu)模型成分數以及模型參數如MSEP(預測均方誤差)等均會發(fā)生變化,最優(yōu)模型因打亂數據集中個體順序而發(fā)生改變[9]。

      圖1 原始數據的交叉驗證法個體組成(a)和 打亂數據集順序的交叉驗證法個體組成(b)

      2.多次交叉驗證

      如果多次打亂個體分組,進行多次交叉驗證,就可得到多個最優(yōu)模型,而出現頻率最高的模型即可作為最優(yōu)模型。仍以7折交叉驗證為例:首先,根據上文中的方法將數據分為7份,進行一次交叉驗證;然后,打亂數據集中個體順序重新擬合模型進行交叉驗證;不斷打亂數據集中個體順序,進行多次交叉驗證,直至交叉驗證結果參數范圍趨于穩(wěn)定。基于以上所述可以得到多次交叉驗證模擬實驗結果,見圖2~3,最優(yōu)模型應為成分數為4且對應MSEP值最穩(wěn)定的模型。

      圖2 多次交叉驗證后主成分數分布圖

      圖3 多次交叉驗證后MSEP值分布圖

      本研究通過模擬數據和實際數據,比較一次交叉驗證和多次交叉驗證結果,實現對于同一組數據,進行多次交叉驗證可以得到最穩(wěn)定且最優(yōu)預測模型。

      結 果

      1.模擬實驗結果

      模擬數據:模擬產生變量數均為10、樣本量均為20的A、B兩組數據,A、B兩組中任意兩變量間的相關系數設為ρ=0.5,且兩數據集中各變量取值不同。另模擬產生樣本量為40、變量數為400的C組數據,服從N(2,1)的正態(tài)分布,并將C組數據與A、B兩組差異變量數據合并為模擬數據集(如圖4所示)。為了模擬在收集的病例組和對照組數據分組有誤的情況,在合并數據后打亂不同比例(d%=0、5)的數據標簽,共產生2組不同的模擬數據。

      圖4 模擬實驗數據結構示意圖

      模擬方法:將以上2組模擬數據擬合PLSDA模型,交叉驗證時分別進行1次和多次交叉驗證,觀察不同交叉驗證結果的成分數和MSEP值等參數。

      由表1可知:隨著交叉驗證次數增加,在模擬實驗次數為5000時,MSEP值范圍增大并趨于穩(wěn)定,因此本研究模擬實驗均使用5000次交叉驗證。模擬實驗結果:對模擬數據進行5000次交叉驗證,可以得到5000個最優(yōu)模型。由表2可知:①僅進行1次交叉驗證結果成分數為3,MSEP值為0.3792;②在不打亂數據標簽時,5000次交叉驗證結果中,成分數范圍是2~6,MSEP值的范圍0.2569~0.5794;③打亂5%的分組標簽后,最大成分數由6增加到8,MSEP值的范圍擴大為0.2061~0.6463;由表3可知:隨著打亂標簽的比例增大,MSEP值范圍增大。

      表1 不同交叉驗證次數的成分數和MSEP范圍比較

      表2 打亂不同比率標簽1次和5000次交叉驗證結果

      表3 打亂不同比率標簽進行多次交叉驗證的結果比較

      2.實際數據驗證

      數據來源:本研究中使用真實數據,病例組為患有過敏性紫癜兒童患者57例,對照組是來自同一醫(yī)院就診的非過敏兒童患者57例,收集研究對象抗凝血血漿,經過UPLC-TOF/MS聯(lián)用儀器檢測分析獲得代謝組學檢測數據,經數據預處理后獲得824個變量。以此數據為實例驗證數據集。

      對以上代謝組學數據使用PLSDA方法建模,交叉驗證時進行1次和多次交叉驗證,根據表4可以確定10000次交叉驗證情況結果穩(wěn)定,因此對于實際數據分析選擇10000次交叉驗證,比較1次和10000次交叉驗證結果的成分數和MSEP值等參數。結果如表5所示,進行1次交叉驗證結果成分數為4,MSEP值為0.1376;10000次交叉驗證成分數范圍是4~10,成分數6出現次數最多;MSEP范圍是0.0802~0.3761,且出現次數最多的值是0.2104。將10000次交叉驗證結果中參數頻數最大的模型即成分數是6、MSEP值是0.2104的模型作為最優(yōu)模型,可提高最優(yōu)模型的穩(wěn)定性。

      表4 不同交叉驗證次數的成分數和MSEP范圍比較

      表5 1次交叉驗證和5000次交叉驗證模型參數比較

      討 論

      交叉驗證是評價PLSDA模型的主要方法,通常情況下交叉驗證僅進行1次[10],但由于交叉驗證時數據集中的個體被隨機分為訓練集和測試集,就同一組數據若打亂個體分組進行2次交叉驗證時會得到不同的結果,1次交叉驗證存在偶然性[11]。本研究將多次交叉驗證法應用于PLSDA中,使模型參數在一個范圍內趨于穩(wěn)定,將參數出現次數最多的模型作為最優(yōu)模型,為后續(xù)模型預測提供可靠依據[12]。

      多次交叉驗證本質上是由多個1次交叉驗證組成,根據模擬實驗結果,5000次交叉驗證得到的5000個最優(yōu)模型的成分數和MSEP值存在較大差異,因此其中1次交叉驗證結果不具有代表性,不能將5000次交叉驗證中的任意1次結果作為最終結果,1次交叉驗證得到的最優(yōu)模型不穩(wěn)定。進行多次交叉驗證能夠使多個模型的成分數和MSEP值等參數在某一范圍內穩(wěn)定。穩(wěn)定的參數范圍讓所有可能的最優(yōu)模型包含在多次交叉驗證的多個模型中,將成分數和MSEP值頻數最大的模型作為最優(yōu)模型,此模型是多次交叉驗證得到的多個模型中出現次數最多也是最穩(wěn)定的模型。本研究中兒童過敏性紫癜診斷的金標準是進行腎穿活檢,大部分家長考慮到腎穿對兒童腎臟的傷害不愿意配合,臨床醫(yī)生僅依靠臨床體征和生化指標來診斷,這種情況下會出現少數個體分組有誤。此時,多次交叉驗證結果參數值變異增大,在打亂一定比例的分組標簽的情況下,改變部分個體分組模擬個體錯分,進行多次交叉驗證可以確定最優(yōu)模型。

      研究表明在高維數據中,5%的個體出現分組有誤時,多次交叉驗證仍然可以得到穩(wěn)定可靠的模型,更多的個體出現錯分時多次交叉驗證能否得到穩(wěn)定的模型有待進一步研究。

      [1]蔣紅衛(wèi),夏結來,李園,等.偏最小二乘判別分析在基因微陣列分型中的應用.中國衛(wèi)生統(tǒng)計,2007,24(4):372-374.

      [2]蔣紅衛(wèi),夏結來,張春霞,等.核偏最小二乘回歸及其在醫(yī)學中的應用.中國衛(wèi)生統(tǒng)計,2007,24(3):239-242.

      [3]Anderssen E,Dyrstad K,Westad F,et al.Reducing over-optimism in variable selection by cross-model validation.Chemometrics and intelligent laboratory systems,2006,84(1):69-74.

      [4]Schaffer C.Selecting a classification method by cross-validation.Mach Learn,1993,13(1):135-143.

      [5]Dai Q.A competitive ensemble pruning approach based on cross-validation technique.Knowl Based Syst,2013,37(2):394-414.

      [6]Westerhuis JA,Hoefsloot HCJ,Smit S,et al.Assessment of PLSDA cross validation.Metabolomics,2008,4(1):81-89.

      [7]Triba MN,Le Moyec L,Amathieu R,et al.PLS/OPLS models in metabolomics:the impact of permutation of dataset rows on the K-fold cross-validation quality parameters.Mol Biosyst,2015,11(1):13-19.

      [8]Barker M,Rayens W.Partial least squares for discrimination.J Chemom,2003,17(3):166-173.

      [9]Stone M.Cross-validatory choice and assessment of statistical predictions.Journal of the royal statistical society.Series B(Methodological),1974,36(2):111-147.

      [10]Szymańska,Saccenti E,Smilde AK,et al.Double-check:validation of diagnostic statistics for PLS-DA models in metabolomics studies.Metabolomics,2012,8(1):3-16.

      [11]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection.Appears in the International Joint Conference on Artificial Intellignece(IJCAI),1995.

      [12]Hall P,Racine J,Li Q.Cross-validation and the estimation of conditional probability densities.J Am Stat Assoc,2004,9(2):115-126.

      (責任編輯:郭海強)

      Research of the Effect of Multiple Cross-validation on PLSDA Model

      Qu Siyang,Zhang Qiuju,Wang Wenji,et al.

      (DepartmentofBiostatistics,HarbinMedicalUniversity(150081),Harbin)

      Objective To compare the effect of one cross-validation and multiple cross-validations on PLSDA optimal model and discuss the effect of multiple cross-validations on stability of the optimal model when a few individuals are wrong grouped and when all individuals are right grouped,respectively. Methods The order of individuals in one dataset was disorganized to perform multiple cross-validations.Simulative data and real data were analyzed using one cross-validation and multiple cross-validations.The variation and stability of the models were tested using parameters like principal component number and MSEP. Results For simulative data,the principal component number of one cross-validation is 3 and MSEP is 0.3792;for result of 5000 cross-validations when the data is not disordered,the range of principal component number is 2~6 and the range of MSEP is 0.2569~0.5794;for result of 5000 cross-validations when the data is 5% disordered,the range of principal component number is 1~8 and the range of MSEP is 0.2061~0.6463;for result of 10000 times cross-validation of real data,the range of principal component number is 4~10 and the range of MSEP is 0.0802~0.3761.Conclusion PLSDA models built by one cross-validation are not stable whereas multiple cross-validations can help build PLSDA models more stably when a few individuals are wrong grouped.So multiple cross-validation is recommended to ensure the stability of PLSDA model.

      Cross validation;PLSDA;High dimensional data

      黑龍江省自然基金重點項目(ZD201314);國家自然基金(81502889)

      △通信作者:劉美娜,E-mail:liumeina369@163.com

      猜你喜歡
      模擬實驗交叉分組
      斷塊油藏注采耦合物理模擬實驗
      “六法”巧解分式方程
      分組搭配
      怎么分組
      分組
      輸氣管道砂沖蝕的模擬實驗
      連一連
      基于Fast-ICA的Wigner-Ville分布交叉項消除方法
      計算機工程(2015年8期)2015-07-03 12:19:54
      射孔井水力壓裂模擬實驗相似準則推導
      彈道修正模擬實驗裝置的研究
      喜德县| 余庆县| 遂昌县| 阜宁县| 开化县| 泗水县| 突泉县| 稻城县| 通州市| 民乐县| 政和县| 星子县| 富锦市| 辽阳县| 道真| 水城县| 漳浦县| 侯马市| 塔城市| 奉节县| 常州市| 阿巴嘎旗| 三亚市| 东台市| 交城县| 平塘县| 慈溪市| 陇西县| 远安县| 衢州市| 永昌县| 抚州市| 罗城| 岱山县| 龙南县| 长沙市| 常熟市| 永泰县| 平山县| 安义县| 渝中区|