何 毅,馬雙寶,孫 彪
基于隨機(jī)森林的生物活性預(yù)測研究
何 毅,馬雙寶*,孫 彪
(武漢紡織大學(xué) 機(jī)械工程與自動化學(xué)院,湖北 武漢 430200)
針對生物活性的檢測速度慢且需耗費大量人力物力的問題,本文提出了基于隨機(jī)森林的ERα生物活性預(yù)測模型。首先,對生物活性數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,使用3σ準(zhǔn)則去除異常值。其次,利用隨機(jī)森林重要變量重要度篩選出前20個對生物活性影響大的變量。隨后,基于隨機(jī)森林對篩選出的變量進(jìn)行ERα生物活性預(yù)測。結(jié)果表明,所建立的模型的均方誤差為0.017,具有良好的預(yù)測性能。
抗乳腺癌藥物;生物活性;3σ準(zhǔn)則;隨機(jī)森林
乳腺癌是女性最常見的惡行腫瘤,其發(fā)病率與死亡率在女性癌癥中均位居第一[1]。在對基因缺失小鼠的實驗結(jié)果表明,確實在乳腺發(fā)育過程中扮演了重要的角色。目前,抗激素治療常用于表達(dá)的乳腺癌患者,其通過調(diào)節(jié)雌激素受體活性來控制體內(nèi)雌激素水平。因此,被認(rèn)為是治療乳腺癌的重要靶標(biāo),能夠拮抗活性的化合物可能是治療乳腺癌的候選藥物。
如今在藥物數(shù)量劇增的情況下,最經(jīng)濟(jì)合理的研究方式是利用計算機(jī)輔助的人工智能算法對藥物活性進(jìn)行預(yù)測分析[2]。譚露露[7]提出一種基于注意力機(jī)制的多特性融合方案,并結(jié)合邊注意的圖卷積網(wǎng)絡(luò),對不同種類的生物活性進(jìn)行預(yù)測,但由于模型結(jié)構(gòu)復(fù)雜,導(dǎo)致預(yù)測結(jié)果存在一定的過擬合問題。謝良旭[8]通過平均法、堆疊法融合淺層神經(jīng)網(wǎng)絡(luò)的模型融合方法來對藥物分子進(jìn)行預(yù)測。許美賢[9]提出一種基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的生物活性預(yù)測模型,結(jié)果表明,所建立模型的預(yù)測準(zhǔn)確度相較于優(yōu)化前有所提升,但預(yù)測精度較低。綜上所述,由于影響生物活性的特征因素較為繁雜,導(dǎo)致現(xiàn)有生物活性預(yù)測算法存在模型復(fù)雜、精度較低、泛化性能差等問題,針對這些問題,本文提出基于隨機(jī)森林的生物活性預(yù)測模型,首先通過隨機(jī)森林算法提取與生物活性相關(guān)性較高的特征因子,減少冗余因子,其次采用篩選后的高相關(guān)性樣本數(shù)據(jù)對模型進(jìn)行訓(xùn)練,進(jìn)一步在保證檢測精度的同時降低模型復(fù)雜度,使得模型具有良好的泛化性能。
隨機(jī)森林對噪聲和異常值不敏感,容忍度較高,能夠在不需要降維條件下處理具有高維特征的輸入樣本,同時隨機(jī)森林可以評估各個特征在分類問題上的重要性,具有良好的可擴(kuò)展性和并行性。
將對每一個特征重要性進(jìn)行歸一化處理以此來保證所有的特征處于同一量綱,歸一化處理的公式如式(3)所示:
通過算法將數(shù)據(jù)處理好的362個變量進(jìn)行貢獻(xiàn)度排名,選出排名靠前的前20個變量作為模型的特征變量。貢獻(xiàn)度排名情況如圖1所示。
根據(jù)隨機(jī)森林得出的變量貢獻(xiàn)度排名可知不同變量對化合物的影響程度不同。為了確保研究的準(zhǔn)確性,應(yīng)該剔除不重要的變量和保留排名靠前的變量,從而保證所選取變量與因變量之間的相關(guān)性。同時可根據(jù)所提取的特征變量之間的距離相關(guān)系數(shù)來判斷變量之間的相關(guān)程度,計算結(jié)果表明,20個變量之間相關(guān)性較低,獨立性較好,從而不存在變量之間相互干擾的情況,保證了研究的客觀性,為后續(xù)研究做好重要基礎(chǔ)。
本文采用加拿大阿爾伯塔大學(xué)藥物分子數(shù)據(jù)庫中1974種化合物對的生物活性進(jìn)行研究。但獲取到的數(shù)據(jù)多而凌亂,無法開展研究,因此需要對數(shù)據(jù)進(jìn)行處理,使其變成需要的樣本數(shù)據(jù)。處理過程分為下四個步驟:
(1)如果一位點只含有少部分?jǐn)?shù)據(jù),大部分?jǐn)?shù)據(jù)是殘缺的,對于這種數(shù)據(jù),應(yīng)該舍棄;
(2)由第一步可得,在729個樣本中只有小部分?jǐn)?shù)據(jù)保留,而大部分殘缺的數(shù)據(jù)將刪除;
(3)被刪去的那些數(shù)據(jù),將用其前后兩個小時數(shù)據(jù)的平均值代替;
(4)根據(jù)拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)篩選出異常值,然后去除。
拉依達(dá)準(zhǔn)則又稱為3σ準(zhǔn)則,其基本原理是先假設(shè)一組數(shù)據(jù)只有隨機(jī)誤差,在此基礎(chǔ)上,對它進(jìn)行計算處理來得到其標(biāo)準(zhǔn)偏差,再按照一定的概率確定一個范圍,在這個范圍內(nèi)的誤差屬于隨機(jī)誤差,不在此范圍之內(nèi)的數(shù)據(jù)就不屬于隨機(jī)誤差,將在隨機(jī)誤差范圍內(nèi)的數(shù)據(jù)留下,將不在隨機(jī)誤差范圍內(nèi)的數(shù)據(jù)刪除掉。
在正態(tài)分布里面,σ表示的標(biāo)準(zhǔn)差,μ表示均值,x=μ是圖像的對稱軸。3σ準(zhǔn)則為:
數(shù)值分布在(μ-σ,μ+σ)的概率是0.6826;數(shù)值分布在(μ-2σ,μ+2σ)的概率是0.9544;數(shù)值分布在(μ-3σ,μ+3σ)的概率是0.9974。Y的取值有99.94%集中在(μ-3σ,μ+3σ)范圍內(nèi),不在(μ-3σ,μ+3σ)區(qū)間內(nèi)的可能性小于0.03%。
整個模型的建立分為以下步驟:首先讀取20個主要指標(biāo)作為輸入,1974個化合物作為輸入,再對樣本數(shù)據(jù)進(jìn)行劃分,80%作為測試集,20%作為訓(xùn)練集。然后采用Min-max標(biāo)準(zhǔn)化的方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,調(diào)整隨機(jī)森林回歸模型內(nèi)置參數(shù)對訓(xùn)練集進(jìn)行訓(xùn)練,得出基本模型。再用訓(xùn)練得出的模型對測試集的特征進(jìn)行預(yù)測,得出生物活性的預(yù)測值,再將得出的生物活性預(yù)測值與原數(shù)據(jù)表中相對應(yīng)的進(jìn)行相減,得出兩者差值平均值的絕對值,以及預(yù)測的準(zhǔn)確率。最后,對訓(xùn)練的模型進(jìn)行評估,得出隨機(jī)森林回歸算法的默認(rèn)評估值。
Nestimators指定了弱分類器的個數(shù),雖然設(shè)置的值越大,模型的準(zhǔn)確度越高,但模型的訓(xùn)練時間也就越長。經(jīng)過多次參數(shù)的調(diào)整,最終將指定值定為120時訓(xùn)練的效果最好。當(dāng)random_state為0時,每次構(gòu)建的模型不同;當(dāng)random_state為3時,每次生成的數(shù)據(jù)集不一樣;當(dāng)random_state為42時,每次拆分出的訓(xùn)練集和測試集是不同的,對于本次模型的訓(xùn)練,偏向于設(shè)置為42,這是反復(fù)訓(xùn)練不同的測試集和訓(xùn)練集得出最好的結(jié)果。
模型預(yù)測完成后,將預(yù)測的生物活性預(yù)測值PIC50輸出到表格中,與原表中相對應(yīng)的生物活性實際值進(jìn)行比較,如表1所示。
表1 部分預(yù)測值與真實值比較
均方誤差即實際值與預(yù)測值差的平方和的平均值,即均方誤差EMS為:
本文首先通過數(shù)據(jù)清洗,篩選出異常值,使得樣本更加合理。其次利用隨機(jī)森林將影響生物活性貢獻(xiàn)度排名前20的變量作為模型的特征變量,使得模型特征提取的效果更好,其次通過比較預(yù)測值和實際值,并對差值做散點圖,得到模型的均方誤差為0.017,說明模型具有很好的預(yù)測精度。由于本文使用的數(shù)據(jù)集偏小,預(yù)測結(jié)果不具有一定的泛化性,后面將采用更大的數(shù)據(jù)集,并優(yōu)化算法,將其擴(kuò)展到其他生物活性預(yù)測任務(wù)上。
[1] Pecero ML, Salvador-Bofill J, Molina-Pinelo S. Long non-coding RNAs as monitoring tools and the ERα peutic targets in breast cancer[J]. Cell Oncol, 2019, 42(1):1-12.
[2] 蘇敏儀, 劉慧思, 林海霞, 等. 應(yīng)用機(jī)器學(xué)習(xí)方法構(gòu)建藥物分子解離速率常數(shù)的預(yù)測模型[J]. 物理化學(xué)學(xué)報, 2020, 36(1): 179-187.
[3] Ding JJ, Xu Z, Zhang YY, et al. Exosome-mediated miR-222 transferring: an insight intoNF-κB-mediated breast cancer metastasis[J]. Exp Cell Res, 2018, 369(1): 129-138.
[4] 湯井田, 曹揚, 肖嘉瑩, 等. 基于粒子群優(yōu)化支持向量機(jī)的瑞芬太尼血藥濃度預(yù)測模型[J]. 中國藥學(xué)雜志, 2013, 48(16): 1394-1399.
[5] 劉雅琴, 王成, 章魯. 基于神經(jīng)網(wǎng)絡(luò)的乳腺癌生存預(yù)測模型[J]. 中國生物醫(yī)學(xué)工報, 2009, 28(2): 221-227.
[6] 袁仙琴. 基于基因表達(dá)數(shù)據(jù)的化合物肝毒性SVM預(yù)測模型研究[D]. 鎮(zhèn)江: 江蘇大學(xué), 2018.
[7] 譚露露, 張鑫鑫, 周銀座. 多特性融合圖卷積方法的分子生物活性預(yù)測[J]. 電子科技大學(xué)學(xué)報, 2021, 50(06): 921-929.
[8] 謝良旭, 李峰, 謝建平, 等. 基于融合神經(jīng)網(wǎng)絡(luò)模型的藥物分子性質(zhì)預(yù)測[J]. 計算機(jī)科學(xué), 2021, 48(09): 251- 256.
[9] 許美賢, 鄭琰, 李炎舉. 基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM的抗乳腺癌藥物性質(zhì)預(yù)測[J/OL]. 南京信息工程大學(xué)學(xué)報(自然科學(xué)版), https://kns.cnki.net/kcms /detail/ 32.1801.N.20220117.1819.002.html.
Prediction of Bioactivity of ERα based on Random Forest
HE Yi, MA Shuang-bao, SUN Biao
(School of Mechanical Engineering and Automation, Wuhan Textile University, Wuhan Hubei 430200, China)
Aiming at the problem that the detection speed of ERα bioactivity is slow and requires a lot of manpower and material resources, this paper proposed a prediction model of ERα bioactivity based on random forest. First, the ERα bioactivity dataset was cleaned and outliers were removed using the 3σ criterion. Secondly, the importance of random forest important variables was used to screen out the top 20 variables with great influence on biological activity. Then, ERα bioactivity of selected variables was predicted based on random forest. The results show that the mean-square error of the model is 0.017, and it has good prediction performance.
anti breast cancer drugs; biological activity; 3σ criteria; random forest
TP311
A
2095-414X(2022)04-0054-03
通訊作者:馬雙寶(1979-),男,副教授,博士,研究方向:微弱信息檢測與電力控制系統(tǒng)設(shè)計.