• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于序列的蛋白質(zhì)功能分類系統(tǒng)的研究與設計

      2016-12-31 00:00:00譚生龍
      科技創(chuàng)新與應用 2016年27期

      摘 要:在生物序列快速增長的大環(huán)境下,對新產(chǎn)生的未知功能序列進行快速功能注釋是一項有挑戰(zhàn)性的任務,文本以蛋白質(zhì)序列為研究對象,描述了使用機器學習方法對未知功能的蛋白質(zhì)序列進行功能分類的一般方法。

      關鍵詞:蛋白質(zhì)序列;特征提?。还δ芊诸?/p>

      1 概述

      蛋白質(zhì)是一切生命活動的載體,對蛋白質(zhì)序列進行功能預測是研究蛋白質(zhì)功能的重要途徑。隨著越來越多的生物物種被測序,生物數(shù)據(jù)庫中的未知功能序列正在快速增加,僅通過實驗手段來驗證未知序列的功能顯然已經(jīng)不能滿足要求。因此,借助計算技術(shù)對未知功能生物序列進行功能預測已變成一種可行途徑。文章以蛋白質(zhì)序列為例,描述了基于序列的蛋白質(zhì)功能分類系統(tǒng)的設計流程。

      2 基于蛋白質(zhì)序列的功能分類算法的分析

      測序技術(shù)的快速發(fā)展產(chǎn)生了大量未知功能的序列;其中,蛋白質(zhì)序列占很大比重,對這些序列進行功能注釋是一項繁瑣的大工程。在生物領域,一般認為在序列上相似的蛋白質(zhì)在功能上也具有相似性。因此,我們希望通過對已知功能的蛋白質(zhì)序列進行建模,用該模型來對未知功能的序列進行功能分類,其功能分類框架如圖1所示。

      2.1 構(gòu)建正負樣本訓練集

      為了構(gòu)建基于機器學習的功能分類模型,獲取高質(zhì)量的正樣本和負樣本序列訓練集非常重要。正樣本序列是指已確認其具有某項功能的蛋白質(zhì)序列,獲取途徑可以從已發(fā)表的文獻或者相關蛋白質(zhì)功能數(shù)據(jù)庫中獲取,也可以從模式生物蛋白質(zhì)序列的注釋信息中提取。負樣本序列指不具有相關功能的一般序列。負樣本序列的選擇可以來源于基因組中的其它隨機序列,它不能與正樣本集中的序列有交集,且負樣本序列和正樣本序列在數(shù)量上應該保存相當。

      2.2 剔除訓練集中的重復序列

      為了提高機器學習模型的分類性能,訓練集中序列之間的相似性應該比較低,即正負樣本訓練集中的序列相似性應該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評價序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓練集中的相似序列(冗余序列)。

      2.3 從蛋白質(zhì)序列中提取特征向量

      訓練集中的蛋白質(zhì)序列是由字母表∑中的20個字符生成的字符長串,每個字符代表20種基本氨基酸之一,即∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機器學習算法僅能處理特征向量;因此,將訓練集中的每條序列轉(zhuǎn)化為一個特征向量是必經(jīng)步驟。設計高效的特征提取方案將蛋白質(zhì)序列轉(zhuǎn)化成特征向量是獲得高性能分類模型的關鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實現(xiàn)將蛋白質(zhì)序列轉(zhuǎn)化為特征向量。

      2.4 確定訓練集中特征向量的類標號

      將訓練集中的序列轉(zhuǎn)換為特征向量后,需要將正負樣本的特征向量加上類標號,正樣本特征向量一般加上類標號+1,負樣本的特征向量加上-1,這樣就可以將正負樣本特征向量集合并為一個輸入文件,方便輸入到機器學習分類模型中。

      2.5 選擇機器學習方法構(gòu)建分類模型

      在生物信息學領域沒有通用的機器學習算法,比較常用的算法包括支持向量機算法(Support Vector Machine)、隨機森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機器學習算法[3]。不同的生物信息學應用場景、不同的特征提取方法和不同的機器學習算法的組合可能會產(chǎn)生性能顯著不同的分類器。通過比較不同的特征提取方式和機器學習算法,并通過性能評價指標來選擇分類性能高的機器學習算法。

      2.6 通過交叉檢驗來評價機器學習算法的性能

      評價機器學習算法的性能指標包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準確度(Precision, Pr)、馬修相關系數(shù)(Mathew's correlation coefficient,MCC)等,具體的計算公式可文獻參考[3,4],通過交叉檢驗來計算不同分類算法的性能指標值,根據(jù)這些指標值來比較不同分類算法的性能;常用的交叉檢驗方法包括5倍交叉檢驗、10倍交叉檢驗和留一法交叉檢驗。

      2.7 機器學習算法的最優(yōu)參數(shù)

      在使用機器學習算法對蛋白質(zhì)序列進行功能分類的應用中,不同的算法可能有不同的參數(shù)組合,將參數(shù)調(diào)節(jié)到最優(yōu)狀態(tài)可以獲得分類器的最佳性能。交叉檢驗是衡量機器學習算法選擇及最優(yōu)參數(shù)配置的手段。例如,使用支持向量機并選擇徑向基核函數(shù)來對蛋白質(zhì)序列構(gòu)建分類模型時,可以使用網(wǎng)格搜索法來搜索支持向量機算法的核函數(shù)因子γ和懲罰系數(shù)C這兩個參數(shù)的最佳值,并通過交叉檢驗計算每種參數(shù)下的性能指標,尋找最優(yōu)參數(shù)組合,并在此參數(shù)下訓練出性能最優(yōu)的機器學習模型。

      2.8 對未知功能序列進行功能預測

      在應用預測模型對未知功能的蛋白質(zhì)序列進行分類時,首先,應該將該序列轉(zhuǎn)化為特征向量,轉(zhuǎn)化方法應該與構(gòu)建模型的特征提取方法相同,將蛋白質(zhì)序列轉(zhuǎn)化成特征向量后輸入到前面步驟所構(gòu)建的機器學習模型中,其輸出結(jié)果為表示特定功能的類標號,根據(jù)輸出的類標號即可判定未知功能序列是否屬于指定的功能類別。

      3 結(jié)束語

      文章描述了應用機器學習方法對蛋白質(zhì)序列進行功能分類的一般流程,通過選擇合適的特征提取方法和機器學習算法,并通過交叉檢驗選擇最佳的模型參數(shù),可構(gòu)建一個分類性能佳的分類器,可實現(xiàn)對未知功能蛋白質(zhì)序列進行快速功能分類。

      參考文獻

      [1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

      [2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

      [3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

      [4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

      茶陵县| 延津县| 嵊泗县| 义乌市| 灌云县| 如东县| 汝城县| 资兴市| 六枝特区| 潍坊市| 嘉义县| 平泉县| 南靖县| 道真| 临泉县| 和顺县| 延长县| 五峰| 天柱县| 邢台县| 酉阳| 绥德县| 邓州市| 沈丘县| 贵溪市| 稷山县| 绥江县| 成安县| 云安县| 抚州市| 长子县| 德昌县| 乌拉特后旗| 安达市| 海南省| 万载县| 富川| 寿宁县| 班玛县| 塔河县| 磴口县|