李 詠 周 瑋 代志軍 陳 淵 王志明 袁哲明
(湖南農(nóng)業(yè)大學(xué),湖南省作物種質(zhì)創(chuàng)新與資源利用重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙410128;湖南農(nóng)業(yè)大學(xué),湖南省植物病蟲害生物學(xué)及防控重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙410128)
多肽正確折疊成蛋白質(zhì)才能發(fā)揮生物活性,錯(cuò)誤的折疊不僅使蛋白質(zhì)失活,且可導(dǎo)致瘋牛病、阿爾茨海默病等.1折疊速率預(yù)測(cè)對(duì)闡明蛋白質(zhì)折疊機(jī)理意義重大,在酶工程、蛋白質(zhì)工程等領(lǐng)域應(yīng)用前景廣泛.質(zhì)譜、核磁共振等傳統(tǒng)實(shí)驗(yàn)測(cè)定折疊速率的方法耗時(shí)費(fèi)力,2機(jī)器學(xué)習(xí)從已有數(shù)據(jù)出發(fā),通過建立蛋白質(zhì)折疊速率與諸因子之間的回歸模型,可實(shí)現(xiàn)折疊速率的快速預(yù)測(cè)并解析諸因子的影響大小,幫助認(rèn)識(shí)折疊過程.
蛋白質(zhì)按折疊類型分為二態(tài)、多態(tài)和混態(tài)三種,按結(jié)構(gòu)類型分為全α、全β、混合型三種.目前已知折疊速率的蛋白質(zhì)數(shù)量較少,按類型進(jìn)一步細(xì)分后樣本容量偏小,建模時(shí)易出現(xiàn)過擬合、預(yù)測(cè)精度虛高;且待測(cè)蛋白質(zhì)折疊類型或結(jié)構(gòu)類型未知時(shí),應(yīng)用受限.故本文選擇統(tǒng)一建模,不按類細(xì)分樣本.
折疊速率預(yù)測(cè)的第一個(gè)關(guān)鍵是回歸模型選擇.由于蛋白質(zhì)折疊是一個(gè)復(fù)雜的過程,且目前已知折疊速率的蛋白質(zhì)數(shù)量較少,故本文選擇基于結(jié)構(gòu)風(fēng)險(xiǎn)最小、非線性、適于小樣本的支持向量回歸(SVR)為基本建模工具.
折疊速率預(yù)測(cè)的第二個(gè)關(guān)鍵是蛋白質(zhì)表征,包括三級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)和一級(jí)結(jié)構(gòu)表征描述符三類.三級(jí)結(jié)構(gòu)表征的描述符如接觸序CO、總接觸序ACO和有效接觸序ECO等,3-8由于多數(shù)蛋白質(zhì)三級(jí)結(jié)構(gòu)尚未測(cè)定,應(yīng)用受限.二級(jí)結(jié)構(gòu)描述符如二級(jí)結(jié)構(gòu)含量SSC、有效長(zhǎng)度Leff等,9,10多從一級(jí)結(jié)構(gòu)間接預(yù)測(cè)而得,描述符本身具有預(yù)測(cè)誤差,再次代入非線性SVR模型存在誤差放大風(fēng)險(xiǎn),預(yù)測(cè)精度偏低.一級(jí)結(jié)構(gòu)(氨基酸序列)描述符如CI、RSA、pse-ACC等,11-15多基于序列組分特征或以殘基某幾種物理化學(xué)性質(zhì)直接算得,計(jì)算簡(jiǎn)便,更具推廣應(yīng)用價(jià)值;但存在組分特征未充分考慮序列的上下文關(guān)聯(lián)、殘基性質(zhì)選擇多依賴經(jīng)驗(yàn)(與折疊速率相關(guān)的殘基性質(zhì)不全、無(wú)關(guān)或冗余均會(huì)導(dǎo)致預(yù)測(cè)精度下降)、對(duì)不等長(zhǎng)肽處理困難等弊端.
折疊速率預(yù)測(cè)的第三個(gè)關(guān)鍵是特征(描述符)篩選.特征篩選可去除無(wú)關(guān)與冗余描述符,但這種篩選過程同樣應(yīng)該是非線性的.本實(shí)驗(yàn)室16,17前期基于支持向量機(jī)(SVM)發(fā)展了高維特征選擇新方法二元矩陣重排過濾器(BMSF)與低維特征選擇新方法多輪末尾淘汰(WDEM).
綜上,本文僅基于氨基酸序列,提取多種組分特征與關(guān)聯(lián)特征,經(jīng)改進(jìn)BMSF與多輪末尾淘汰非線性篩選,建立了折疊速率與保留描述符的SVR回歸模型,進(jìn)一步以SVR非線性解釋體系分析了各保留描述符對(duì)折疊速率的影響.
115個(gè)蛋白質(zhì)ID與對(duì)應(yīng)的折疊速率值1,2,14,18見表1,氨基酸序列取自PDB數(shù)據(jù)庫(kù)(http://www.rcsb.org/pdb),折疊速率值以實(shí)驗(yàn)值的自然對(duì)數(shù)lnkf表示,kf的單位為s-1.
一條氨基酸序列可由其組分特征、上下文關(guān)聯(lián)特征與長(zhǎng)度來特異性地表征.
2.2.1 天然氨基酸單殘基尺度組分特征
對(duì)長(zhǎng)度為L(zhǎng)的氨基酸序列,組分尺度為R,R個(gè)氨基酸殘基組成的串α1α2…αR可交疊出現(xiàn)頻次為f(α1α2…αR),其中αi,i=1,2,…R,代表20種天然氨基酸的一種,則α1α2…αR串在序列中出現(xiàn)概率為:
隨尺度變大,特征維數(shù)增加迅猛(如R=3,特征有8000維);而序列長(zhǎng)度有限,特征矩陣將相當(dāng)稀疏,對(duì)建模預(yù)測(cè)不利.故本文此處基于20種天然氨基酸僅提取單殘基尺度R=1的組分特征,其R=2時(shí)的二聯(lián)體組分特征將在下文k-space特征中k=0時(shí)涵蓋.每條序列可得20維特征.
2.2.2 重分類氨基酸多尺度組分特征
氨基酸重分類可降低特征維數(shù),凸顯殘基某種性質(zhì)的作用.20種天然氨基酸按支鏈官能團(tuán)可分成8類(表2).取R=1-3,每條序列按式(1)可得8+64+512=584維多尺度組分特征.
2.2.3k-space特征
上述兩種組分特征僅考慮了3個(gè)以內(nèi)殘基相鄰的情形,而蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)與穩(wěn)定性和殘基的遠(yuǎn)距離接觸有關(guān),19且可由k-space一定程度表征.20種天然氨基酸相隔k個(gè)殘基的成對(duì)殘基在序列中出現(xiàn)概率(C)為:
表1 115個(gè)蛋白質(zhì)樣品信息列表1,2,14,18Table 1 Information of 115 protein samples1,2,14,18
式中,k為space間隔,i和j為20種天然氨基酸中的一種,L為序列長(zhǎng)度.n位置殘基為i,n+k位置殘基為j時(shí)Si,j(n,n+k)=1,否則為0.k-space既包含尺度為2的組分特征,又包含一定程度的上下文關(guān)聯(lián)特征.取k=0-10,每條序列可得400×11=4400維k-space特征.
表2 20種天然氨基酸分類Table 2 Classification of 20 natural amino acids
2.2.4 地統(tǒng)計(jì)學(xué)關(guān)聯(lián)(GSA)特征
k-space僅考慮了成對(duì)殘基間的上下文關(guān)聯(lián).本文收集了20種天然氨基酸的544種物理化學(xué)性質(zhì)(命名為PBF544),其中531種性質(zhì)來自AAindex數(shù)據(jù)庫(kù),2013種性質(zhì)引自文獻(xiàn).15,21,22因不同性質(zhì)值差異較大,每種性質(zhì)按20種氨基酸的最大最小值規(guī)格化到0-1之間.
地統(tǒng)計(jì)學(xué)基于區(qū)域化變量理論,引入半變異函數(shù)研究空間分布的結(jié)構(gòu)性和隨機(jī)性,可用于表征蛋白質(zhì)中全部殘基某種物理化學(xué)性質(zhì)間的關(guān)聯(lián)且不受序列是否等長(zhǎng)的限制.對(duì)長(zhǎng)度為L(zhǎng)的給定蛋白質(zhì)序列,對(duì)應(yīng)某一物理化學(xué)性質(zhì)按PBF544可轉(zhuǎn)換為數(shù)值系列z(xi),i=1,2,…L,其半變異函數(shù)值r(h)為:
其中,h為間隔距離,N(h)為距離為h的數(shù)據(jù)對(duì)(xi,xi+h)的個(gè)數(shù),z(xi)和z(xi+h)分別為點(diǎn)xi和點(diǎn)xi+h處殘基的物理化學(xué)性質(zhì)值.
若數(shù)據(jù)集最短序列長(zhǎng)度為L(zhǎng)min,規(guī)定max(h)=INT(Lmin/2).本文數(shù)據(jù)集最短序列長(zhǎng)度為16,h取1-8.則每條序列可得544×8=4352維地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征.
2.2.5 長(zhǎng)度特征
前述組分特征等在計(jì)算概率時(shí)扣除了序列長(zhǎng)度的影響,但多態(tài)折疊蛋白的折疊速率與序列長(zhǎng)度負(fù)相關(guān)顯著,19故本文以lnL表征序列長(zhǎng)度特征.
綜上,每條序列特征維數(shù)合計(jì)為20+584+4400+4352+1=9357.可以想象,其中必定存在大量與折疊速率無(wú)關(guān)或冗余的特征,需進(jìn)行特征篩選.
2.3.1 高維特征粗篩
BMSF算法簡(jiǎn)述如下:設(shè)單因變量原始訓(xùn)練集形為(y,x),有n個(gè)樣本,m個(gè)特征.每個(gè)特征有1(選取)和0(不選取)兩種情形.產(chǎn)生一個(gè)元素為1或0的K×m隨機(jī)矩陣,限定每列1與0的個(gè)數(shù)相同,本文取K=500.從隨機(jī)矩陣的每行選取值為1的矩陣元素并找出原始訓(xùn)練集中對(duì)應(yīng)特征,以SVR經(jīng)10折交叉測(cè)試獲得K個(gè)MSE值.K個(gè)MSE(因變量)與K×m隨機(jī)矩陣(自變量)組成新訓(xùn)練集并訓(xùn)練建模,隨機(jī)矩陣的某列元素0、1互換后(其它列不變)為測(cè)試集,預(yù)測(cè)得K個(gè)MSE0與K個(gè)MSE1,若則剔除相應(yīng)特征;遍歷m次,得第一輪保留特征.重復(fù)上述過程,經(jīng)多輪篩選至沒有特征可剔除為止.16,17
因BMSF中間矩陣是隨機(jī)生成的,不同次執(zhí)行所得最優(yōu)特征子集可能不同,本文對(duì)此進(jìn)行改進(jìn):重復(fù)執(zhí)行BMSF 50次,得到50套最優(yōu)子集.合并出現(xiàn)頻次大于等于某個(gè)定值的特征產(chǎn)生頻次子集,根據(jù)10折交叉測(cè)試結(jié)果,得到更為可信的高頻特征子集.
2.3.2 多輪末尾淘汰精細(xì)篩選
WDEM算法簡(jiǎn)述如下:對(duì)數(shù)據(jù)矩陣(yi,xij),i=1,2,…,n,j=1,2,…,m′,SVR交叉測(cè)試得初始MSE0,第一輪依次去除第j個(gè)特征,SVR交叉測(cè)試得到對(duì)應(yīng)的MSEj,若min(MSEj)≤MSE0,則剔除相應(yīng)特征并進(jìn)入下一輪篩選,反之篩選結(jié)束.23,24
基于保留描述符和全部樣本可構(gòu)建SVR模型.模型評(píng)估常用交叉驗(yàn)證、Jackknife檢驗(yàn)或獨(dú)立測(cè)試.由于已知折疊速率的蛋白質(zhì)樣本較少,同類研究常不劃分獨(dú)立測(cè)試集.為方便與文獻(xiàn)1,11-15進(jìn)行比較,本文同樣采用Jackknife檢驗(yàn).評(píng)價(jià)指標(biāo)為均方誤差(RMSE)和相關(guān)系數(shù)R,RMSE越小、R越大,回歸模型性能愈優(yōu):
式中,n為樣本數(shù),yi和^i分別為第i個(gè)樣本的真值和預(yù)測(cè)值,為所有樣本真值的均值.
SVR缺乏一個(gè)顯性的表達(dá)式,可解釋性差.本室前期基于F測(cè)驗(yàn),對(duì)SVR建立了一套較完整的非線性解釋性體系,包括模型回歸顯著性測(cè)驗(yàn)、單因子重要性顯著性測(cè)驗(yàn)、單因子效應(yīng)分析等,并驗(yàn)證了其合理性與有效性.23,24F統(tǒng)計(jì)量由下式給出:
其中,U為回歸平方和:為剩余離差平方和:為保留特征數(shù),F的自由度為表明在α水平上非線性回歸顯著.
本文BMSF高維特征粗篩、多輪末尾淘汰精篩、SVR建模和非線性解釋體系等采用自編MATLAB程序通過調(diào)用LIBSVM3.1軟件包25實(shí)現(xiàn).多數(shù)情況下徑向基核較其它核函數(shù)有更優(yōu)的泛化推廣能力,26本文試算后核函數(shù)選用徑向基核.核函數(shù)參數(shù)采用Python默認(rèn)范圍、步長(zhǎng)經(jīng)格點(diǎn)搜索自動(dòng)獲取.
文獻(xiàn)參比模型包括多元線性回歸(MLR)、基于SVR的前向-序貫后向特征選擇方法(FFS-SBSSVR);基于本文描述符的參比模型包括SVR、遺傳算法-偏最小二乘(GA-PLS)、27嶺回歸與SVR(RRSVR).28
基于115個(gè)樣本和9357個(gè)初始特征,數(shù)據(jù)集10折交叉測(cè)試的RMSE=3.94,R=0.30.50次BMSF高維特征初篩后,得到50套子集,分別進(jìn)行多輪末尾淘汰,平均保留特征個(gè)數(shù)、RMSE、R分別為31、1.59、0.91,可見特征篩選效果明顯.合并出現(xiàn)頻次大于等于某個(gè)定值的特征產(chǎn)生頻次特征子集,頻次子集進(jìn)行10折交叉測(cè)試,結(jié)果見圖1,可見出現(xiàn)7次及以上的特征10折交叉測(cè)試RMSE最小、R最大.故合并出現(xiàn)頻次大于等于7次的特征得到高頻最優(yōu)特征子集.對(duì)高頻最優(yōu)特征子集進(jìn)一步實(shí)施多輪末尾淘汰精篩,最終得到23個(gè)保留描述符.
基于23個(gè)保留描述符建立SVR23模型,其F=63.42>F0.01/23(23,91)=2.70,表明模型非線性回歸極顯著.SVR23模型Jackknife檢驗(yàn)的實(shí)驗(yàn)值與預(yù)測(cè)值見表1和圖2,其R=0.95,RMSE=1.34.可見,改進(jìn)BMSF進(jìn)一步提高了模型精度、減少了保留描述符個(gè)數(shù).
圖1 不同頻次子集10折交叉測(cè)試的RMSE和RFig.1 RMSE and R values of 10-fold cross-validation of different frequency subsets
圖2 Jackknife交叉檢驗(yàn)的蛋白質(zhì)折疊速率實(shí)驗(yàn)值與預(yù)測(cè)值Fig.2 Relationship between the experimental and predicted protein folding rates with Jackknife cross-validation
參比模型中,GA-PLS選取3個(gè)潛變量;RRSVR先經(jīng)嶺回歸篩選得121個(gè)描述符,再經(jīng)多輪末尾淘汰得到23個(gè)保留描述符.各模型Jackknife檢驗(yàn)結(jié)果列于表3.可見,SVR23在所有參比模型中表現(xiàn)最優(yōu).
23個(gè)保留描述符包括1個(gè)長(zhǎng)度特征、12個(gè)kspace特征、8個(gè)地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征和2個(gè)氨基酸分八類時(shí)的三聯(lián)體特征(表4),可見:(1)序列長(zhǎng)度是影響蛋白質(zhì)折疊速率的最重要因素.早期研究認(rèn)為二態(tài)折疊蛋白折疊速率與序列長(zhǎng)度的相關(guān)性較低,3但隨后發(fā)現(xiàn)多態(tài)折疊蛋白折疊速率與序列長(zhǎng)度顯著負(fù)相關(guān),19且序列長(zhǎng)度的自然對(duì)數(shù)lnL優(yōu)于其它形式(L,L1/2,L2/3).29(2)單個(gè)氨基酸組成(無(wú)論是分20類還是分8類)對(duì)折疊速率影響不大.(3)地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征多涉及殘基形成α-helix、β-turn等二級(jí)結(jié)構(gòu)性質(zhì),且以中短程關(guān)聯(lián)為主(h=1-6).(4)k-space反映的是成對(duì)殘基間的關(guān)聯(lián),保留描述符中成對(duì)殘基較為分散,以脂肪族氨基酸殘基為主,且T、P、W、C殘基參與的成對(duì)殘基無(wú)一入選,關(guān)聯(lián)距離k=1-10,k=0反映的相鄰殘基對(duì)(二聯(lián)體)無(wú)一入選.脂肪族氨基酸含有疏水側(cè)鏈,在蛋白質(zhì)折疊過程中有序聚集,形成疏水內(nèi)部結(jié)構(gòu),影響蛋白質(zhì)折疊速率.1(5)氨基酸分八類時(shí),疏水脂肪氨基酸+酰胺+疏水脂肪氨基酸、酸性氨基酸+酸性氨基酸+羥基氨基酸的兩種三聯(lián)體對(duì)折疊速率有重要影響.綜上,蛋白質(zhì)折疊速率與序列長(zhǎng)度、三聯(lián)體殘基組分特征、中短程關(guān)聯(lián)特征等相關(guān)密切.
保留描述符的單因子重要性、顯著性測(cè)驗(yàn)結(jié)果表明,其F值均大于臨界值F0.01/23(1,91)(13.33),保留描述符對(duì)蛋白質(zhì)折疊速率的影響極顯著(表4).其單因子效應(yīng)分析結(jié)果見圖3,可見23個(gè)保留描述符可明顯分為三類:第一類為序列長(zhǎng)度(No.1)和地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征(No.2、No.4、No.5、No.7、No.13),其排序整體較為靠前,與折疊速率負(fù)相關(guān);第二類是8個(gè)kspace 特 征 (No.3、No.12、No.15、No.16、No.18、No.20、No.22、No.23)和1個(gè)氨基酸分八類時(shí)的三聯(lián)體特征(No.10),與折疊速率同樣均為負(fù)相關(guān);第三類特征與折疊速率正相關(guān),包括1個(gè)氨基酸分八類時(shí)的三聯(lián)體特征(No.6)、4個(gè)k-space特征(No.8、No.9、No.11、No.21)和 3 個(gè)地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征(No.14、No.17、No.19).
表3 Jackknife交叉驗(yàn)證結(jié)果比較Table 3 Comparison of Jackknife cross-validation results
表4 篩選后保留的23個(gè)特征Table 4 23 retained features after feature screening
圖3 折疊速率相關(guān)的23個(gè)保留描述符的單因子效應(yīng)Fig.3 Single-factor effects of 23 retained descriptors on protein folding rate
包括多種組分、上下文關(guān)聯(lián)與長(zhǎng)度在內(nèi)的9357個(gè)描述符較完整地表征了一條蛋白質(zhì)序列,但其中存在大量與折疊速率無(wú)關(guān)或冗余的特征,經(jīng)改進(jìn)的BMSF非線性粗篩和多輪末尾淘汰精細(xì)篩選,保留了23個(gè)物化意義明確的特征,建立的SVR模型非線性回歸極顯著,獲得了優(yōu)于文獻(xiàn)報(bào)道的留一法預(yù)測(cè)精度.單因子效應(yīng)分析顯示,23個(gè)保留描述符可明顯分為三類:第一類與折疊速率負(fù)相關(guān),包括序列長(zhǎng)度和5個(gè)地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征;第二類與折疊速率同樣負(fù)相關(guān),包括8個(gè)k-space特征和1個(gè)氨基酸分八類時(shí)的三聯(lián)體特征;第三類與折疊速率正相關(guān),包括1個(gè)氨基酸分八類時(shí)的三聯(lián)體特征、4個(gè)kspace特征和3個(gè)地統(tǒng)計(jì)學(xué)關(guān)聯(lián)特征.蛋白質(zhì)折疊速率主要受序列長(zhǎng)度、中短程關(guān)聯(lián)特征、三聯(lián)體殘基組份特征等影響.
蛋白質(zhì)折疊是一個(gè)非常復(fù)雜的過程,本文僅基于一級(jí)序列,未涉及蛋白質(zhì)高級(jí)結(jié)構(gòu)特征;折疊速率實(shí)驗(yàn)值取自不同文獻(xiàn),實(shí)驗(yàn)環(huán)境的差異如溫度也未能考慮.本文結(jié)果存在進(jìn)一步改進(jìn)空間,同時(shí)需更多樣本驗(yàn)證支持.
(1) Guo,J.X.;Rao,N.N.;Liu,G.X.;Li,J.;Wang,Y.H.Prog.Biochem.Biophys.2010,37(12),1331.[郭建秀,饒妮妮,劉廣雄,李 杰,王云鶴.生物化學(xué)與生物物理進(jìn)展,2010,37(12),1331.]
(2) Xi,L.L.;Li,S.Y.;Liu,H.X.;Li,J.Z.;Lei,B.L.;Yao,X.J.J.Theor.Biol.2010,264(4),1159.doi:10.1016/j.jtbi.2010.03.042
(3) Plaxco,K.W.;Simons,K.T.;Baker,D.J.Mol.Biol.1998,277(4),985.doi:10.1006/jmbi.1998.1645
(4) Ivankov,D.N.;Garbuzynskiy,S.O.;Alm,E.;Plaxco,K.W.;Baker,D.;Finkelstein,A.V.Protein Sci.2003,12(9),2057.doi:10.1110/ps.0302503
(5) Weikl,T.R.;Dill,K.A.J.Mol.Biol.2003,332(4),953.doi:10.1016/S0022-2836(03)00884-2
(6) Zhang,L.X.;Li,J.;Jiang,Z.T.;Xia,A.G.Polymer2003,44(5),1751.doi:10.1016/S0032-3861(03)00021-1
(7) Capriotti,E.;Casadio,R.Bioinformatics2007,23(3),385.doi:10.1093/bioinformatics/btl610
(8) Ivankov,D.N.;Bogatyreva,N.S.;Lobanov,M.Y.;Galzitskaya,O.V.PLoS One2009,4(8),e6476.
(9) Gong,H.P.;Isom,D.G.;Srinivasan,R.;Rose,G.D.J.Mol.Biol.2003,327(5),1149.doi:10.1016/S0022-2836(03)00211-0
(10) Ivankov,D.N.;Finkelstein,A.V.Proc.Natl.Acad.Sci.U.S.A.2004,101(24),8942.doi:10.1073/pnas.0402659101
(11) Ma,B.G.;Guo,J.X.;Zhang,H.Y.Proteins:Struct.,Funct.,Bioinf.2006,65(2),362.doi:10.1002/prot.21140
(12) Jiang,Y.F.;Iglinski,P.;Kurgan,L.J.Comput.Chem.2009,30(5),772.doi:10.1002/jcc.21096
(13) Gao,J.Z.;Zhang,T.;Zhang,H.;Shen,S.Y.;Ruan,J.S.;Kurgan,L.Proteins:Struct.,Funct.,Bioinf.2010,78(9),2114.
(14) Shen,H.B.;Song,J.N.;Chou,K.C.J.Biomed.Sci.Eng.2009,2(3),136.doi:10.4236/jbise.2009.23024
(15)Cheng,X.;Xiao,X.;Wu,Z.C.;Wang,P.;Lin,W.Z.Proteins:Struct.,Funct.,Bioinf.2013,81(1),140.doi:10.1002/prot.24171
(16)Zhang,H.Y.;Wang,H.Y.;Dai,Z.J.;Chen,M.S.;Yuan,Z.M.BMC Bioinformatics2012,13(1),298.doi:10.1186/1471-2105-13-298
(17)Han,N.;Yuan,Z.M.;Chen,Y.;Dai,Z.J.;Wang,Z.M.Acta Phys.-Chim.Sin.2013,29(9),1945.[韓 娜,袁哲明,陳 淵,代志軍,王志明.物理化學(xué)學(xué)報(bào),2013,29(9),1945.]doi:10.3866/PKU.WHXB201306182
(18)Guo,J.X.;Rao,N.N.;Liu,G.X.;Yang,Y.;Wang,G.J.Comput.Chem.2011,32(8),1612.doi:10.1002/jcc.21740
(19) Galzitskaya,O.V.;Garbuzynskiy,S.O.;Ivankov,D.N.;Finkelstein,A.V.Proteins:Struct.,Funct.,Genet.2003,51(2),162.doi:10.1002/prot.10343
(20) Kawashima,S.;Pokarowski,P.;Pokarowska,M.;Kolinski,A.;Katayama,T.;Kanehisa,M.Nucl.Acids Res.2008,36(suppl.1),D202.
(21) Gromiha,M,M.;Selvaraj,S.Prep.Biochem.Biotechnol.1999,29(4),339.doi:10.1080/10826069908544933
(22) Zhou,P.;Tian,F.F.;Li,B.;Wu,S.R.;Li,Z.L.Acta Chim.Sin.2006,64(7),691.[周 鵬,田菲菲,李 波,吳世容,李志良.化學(xué)學(xué)報(bào),2006,64(7),691.]
(23)Tan,X.S.;Wang,Z.M.;Tan,S.Q.;Yuan,Z.M.;Xiong,X.Y.J.Syst.Simul.2009,21(24),7795.[譚顯勝,王志明,譚泗橋,袁哲明,熊興耀.系統(tǒng)仿真學(xué)報(bào),2009,21(24),7795.]
(24) Dai,Z.J.;Zhou,W.;Yuan,Z.M.Acta Phys.-Chim.Sin.2011,27(7),1654.[代志軍,周 瑋,袁哲明.物理化學(xué)學(xué)報(bào),2011,27(7),1654.]doi:10.3866/PKU.WHXB20110735
(25) Chang,C.C.;Lin,C.J.ACM TIST.2011,2(3),27.
(26)Chen,Y.;Yuan,Z.M.;Zhou,W.;Xiong,X.Y.Acta Phys.-Chim.Sin.2009,25(8),1587.[陳 淵,袁哲明,周 瑋,熊興耀.物理化學(xué)學(xué)報(bào),2009,25(8),1587.]doi:10.3866/PKU.WHXB20090752
(27) Leardi,R.J.Chemometr.2000,14(5-6),643.doi:10.1002/1099-128X(200009/12)14:5/6<643::AID-CEM621>3.0.CO;2-E
(28)Wang,Z.M.;Han,N.;Yuan,Z.M.;Wu,Z.H.Acta Phys.-Chim.Sin.2013,29(3),498.[王志明,韓 娜,袁哲明,伍朝華.物理化學(xué)學(xué)報(bào),2013,29(3),498.]doi:10.3866/PKU.WHXB201301042
(29) Ouyang,Z.;Liang,J.Protein Sci.2008,17(7),1256.doi:10.1110/ps.034660.108