高光芹 宛新生 李曉 黃家榮 王瀟然
摘 要:針對(duì)水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)研究,查閱了國(guó)家水稻數(shù)據(jù)中心文獻(xiàn)資源,基于國(guó)際蛋白質(zhì)數(shù)據(jù)庫(kù)(protein data bank,PDB),選擇具有代表性的蛋白質(zhì)(5XQI)作為樣本,應(yīng)用BP神經(jīng)網(wǎng)絡(luò)建模技術(shù),對(duì)水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)研究。結(jié)果表明:先用氨基酸描述子量化一級(jí)結(jié)構(gòu),再用主成分分析綜合描述子,能簡(jiǎn)化模型結(jié)構(gòu),提高模擬預(yù)測(cè)準(zhǔn)確度和運(yùn)行速度;構(gòu)建標(biāo)量型的人工神經(jīng)網(wǎng)絡(luò)模型和仿真函數(shù)預(yù)測(cè)式,簡(jiǎn)捷直觀,應(yīng)用方便;適宜的模型結(jié)構(gòu)為21∶20∶3,即21個(gè)輸入層節(jié)點(diǎn)、20個(gè)隱含層神經(jīng)元、3個(gè)輸出層神元的BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu);模型的整體擬合準(zhǔn)確度為0.85,H、E、C三種二級(jí)結(jié)構(gòu)的擬合準(zhǔn)確度分別為0.92、0.79、0.81;整體預(yù)測(cè)準(zhǔn)確度為0.72,三種二級(jí)結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確度分別為0.79、0.65、0.71?;贐P神經(jīng)網(wǎng)絡(luò)的水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型的擬合、預(yù)測(cè)準(zhǔn)確度比以往同類研究高,為水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)提供了一種新的研究方法。
關(guān)鍵詞:水稻;蛋白質(zhì);二級(jí)結(jié)構(gòu);預(yù)測(cè);BP神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):Q518.1
文獻(xiàn)標(biāo)志碼:A
根據(jù)生物遺傳的中心法則,遺傳信息在不同的大分子之間的轉(zhuǎn)移都是單向的,不可逆的,只能從DNA到RNA(轉(zhuǎn)錄),從RNA到蛋白質(zhì)(翻譯)。這說(shuō)明核酸的功能是儲(chǔ)存和轉(zhuǎn)移遺傳信息,指導(dǎo)和控制蛋白質(zhì)的合成,而蛋白質(zhì)的主要功能是進(jìn)行新陳代謝活動(dòng)和作為細(xì)胞結(jié)構(gòu)的組成成分;同時(shí)說(shuō)明基因通過(guò)控制蛋白質(zhì)的結(jié)構(gòu)來(lái)直接控制生物的性狀。蛋白質(zhì)分子結(jié)構(gòu)很復(fù)雜,可分為一級(jí)、二級(jí)、三級(jí)和四級(jí)結(jié)構(gòu)。其中二級(jí)結(jié)構(gòu)既可用于進(jìn)一步預(yù)測(cè)三級(jí)結(jié)構(gòu)和四級(jí)結(jié)構(gòu),又能應(yīng)用于推測(cè)蛋白質(zhì)的功能。因此,水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)研究具有重要的、直接的生物學(xué)意義。
國(guó)家水稻數(shù)據(jù)中心的文獻(xiàn)資源表明,近年對(duì)水稻蛋白質(zhì)的研究很多。如水稻蛋白質(zhì)復(fù)合物和葉綠素合成特性的研究,水稻蛋白質(zhì)表達(dá)譜受硫化氫的影響,水稻籽粒儲(chǔ)藏蛋白質(zhì)含量的遺傳解析,高蛋白質(zhì)雜交早稻的研究,水稻條紋病毒病害特異蛋白質(zhì)的篩選研究,水稻中蛋白質(zhì)的檢測(cè)及差異表達(dá)蛋白質(zhì)鑒定,等等[1-7]。但對(duì)水稻蛋白質(zhì)結(jié)構(gòu)的研究很少,尤其是結(jié)構(gòu)預(yù)測(cè)研究極少。譚峰等[8]為從分子水平探討水稻病菌的傳播和發(fā)病機(jī)制,研究了水稻葉片細(xì)胞內(nèi)生物大分子的結(jié)構(gòu)及結(jié)構(gòu)與功能的關(guān)系,尤其對(duì)水稻葉片中各部分的二級(jí)結(jié)構(gòu)構(gòu)象給出全面的分析和解釋,實(shí)現(xiàn)了水稻葉片半定量分析的目的。陳華夏等[9]分析4個(gè)植物基因組,分離鑒定了97個(gè)水稻、玉米、高粱和擬南芥的CCT結(jié)構(gòu)域基因,并對(duì)相應(yīng)蛋白質(zhì)的結(jié)構(gòu)和基因之間的系統(tǒng)演化關(guān)系進(jìn)行了分析。分析結(jié)果表明,蛋白質(zhì)結(jié)構(gòu)和特性在不同物種之間具有廣泛的變異。
關(guān)于蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè),本文課題組在林木模式植物楊樹中有較深入的研究[10-13]。研究結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè),簡(jiǎn)單直觀、通俗易懂、數(shù)形統(tǒng)一、應(yīng)用方便。蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)在作物模式植物水稻中的研究較少,特別是蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)研究更少。本文基于分子生物信息數(shù)據(jù)庫(kù),用BP神經(jīng)網(wǎng)絡(luò)研究水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè),旨在給水稻研究提供一種方法參考。
1 材料來(lái)源與數(shù)據(jù)處理
1.1 材料來(lái)源
國(guó)際蛋白質(zhì)數(shù)據(jù)庫(kù)(protein data bank, PDB)是目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的網(wǎng)址是http://www.rcsb.org/search。通過(guò)該網(wǎng)址搜索歷年發(fā)布的水稻蛋白質(zhì)的有關(guān)信息,獲取水稻蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。數(shù)據(jù)庫(kù)中發(fā)布的每個(gè)蛋白質(zhì)都有唯一編號(hào),如2020年發(fā)布的水稻蛋白質(zhì)之一的編號(hào)是6LCQ。根據(jù)蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究目的,在PDB中目測(cè)三維構(gòu)像中的二級(jí)結(jié)構(gòu)分布,選出具有代表性的水稻蛋白質(zhì)樣本。樣本是2018年發(fā)布,其編號(hào)是5XQI。
1.2 數(shù)據(jù)處理
蛋白質(zhì)的一級(jí)結(jié)構(gòu)是A,R,…,V等20個(gè)氨基酸的排列順序和連接方式;蛋白質(zhì)的二級(jí)結(jié)構(gòu)是通過(guò)氫鍵使多肽鏈形成的螺旋或折疊片層結(jié)構(gòu),可以劃分為螺旋、折疊和卷曲三大類,分別用字母H、E和C表示。在PDB中查出5XQI的一、二級(jí)結(jié)構(gòu),并將一級(jí)結(jié)構(gòu)按一定的片段長(zhǎng)剪切成不同的片段,并建立片段與二級(jí)結(jié)構(gòu)的關(guān)系。片段長(zhǎng)一般取13~21個(gè)氨基酸殘基,本研究按段長(zhǎng)21順序剪切,取片段中心氨基酸對(duì)應(yīng)的二級(jí)結(jié)構(gòu)作為氨基酸片段對(duì)應(yīng)的二級(jí)結(jié)構(gòu)。水稻蛋白質(zhì)一共剪切了269段,對(duì)應(yīng)關(guān)系如表1所示。
應(yīng)用一種新型氨基酸描述子表征樣本的氨基酸結(jié)構(gòu)(每個(gè)氨基酸有16個(gè)描述子),20個(gè)氨基酸的V描述子的樣式如表2所列[13]。為簡(jiǎn)化模型,提高模型的運(yùn)行速度,用主成分分析方法將表2中每個(gè)氨基酸的16個(gè)V描述子綜合一個(gè)總描述子ZV,見表3。
用表3的氨基酸總描述子ZV量化表1中的氨基酸片段,對(duì)應(yīng)的二級(jí)結(jié)構(gòu)量化向量:H(螺旋)=[1 0 0]T,E(折疊)=[0 1 0] T,C(卷曲)=[0 0 1] T。量化后的樣本數(shù)據(jù)樣式如表4所示,其中每個(gè)一級(jí)結(jié)構(gòu)片段向量的21個(gè)元素,就是21個(gè)氨基酸的總描述子ZV。如果不進(jìn)行簡(jiǎn)化處理,每個(gè)一級(jí)結(jié)構(gòu)片段向量的元素將是336個(gè),使模型結(jié)構(gòu)變得很復(fù)雜,運(yùn)行速度變得很慢。
2 模型構(gòu)建
BP神經(jīng)網(wǎng)絡(luò)由于具有算法簡(jiǎn)單易行、計(jì)算量小、并行性強(qiáng)等諸多優(yōu)點(diǎn),已成為目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)。據(jù)統(tǒng)計(jì),在神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究中,基于BP算法的研究占比接近90%[14]。用BP神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型時(shí),以表1所列的一級(jí)結(jié)構(gòu)氨基酸片段所對(duì)應(yīng)的21個(gè)V描述子向量作為輸入向量X=[x1,x2,…,x21]T,以一級(jí)結(jié)構(gòu)片段中心氨基酸對(duì)應(yīng)的二級(jí)結(jié)構(gòu)向量作為輸出向量Y=[y1,y2,y3]T,構(gòu)建的預(yù)測(cè)模型如圖1所示。圖1中符號(hào)●、→、○、①、f分別表示輸入層節(jié)點(diǎn)、信息流、神經(jīng)元、輸入值為1的節(jié)點(diǎn)、S形函數(shù)。網(wǎng)絡(luò)模型由三層構(gòu)成,從左至右分別為輸入層、隱含層、輸出層。
輸入層,是網(wǎng)絡(luò)獲取樣本的入口層,其節(jié)點(diǎn)數(shù)目等于氨基酸片段描述子向量的維數(shù)21,各節(jié)點(diǎn)是簡(jiǎn)單的分布單元,直接將輸入變量傳遞給隱含層。
隱含層,其神經(jīng)元個(gè)數(shù)可變,設(shè)為s,具體值用變結(jié)構(gòu)法確定,即在模型訓(xùn)練中用具體訓(xùn)練樣本對(duì)s由少到多取不同的值進(jìn)行訓(xùn)練比較,并定性定量相結(jié)合地確定[14]。
輸出層,即網(wǎng)絡(luò)輸出模型運(yùn)行結(jié)果的出口層,其神經(jīng)元個(gè)數(shù)與輸出層的節(jié)點(diǎn)數(shù)相等,即Y=[y1,y2,y3]T。
用MATLAB數(shù)學(xué)算式將圖1所示的關(guān)系表達(dá)為:
yk=tansig(∑w2j,kHj+b2k)
Hj=tansig(∑w1i,jxi+b1j)
i=1,2,…,21; j=1,2,…,s; k=1,2,3(1)
式中:tansig()是MATLAB的正切S形函數(shù);xi為輸入層第i節(jié)點(diǎn)的輸入變量;Hj為隱含層第j神經(jīng)元的輸出變量;yk為輸出層第k神經(jīng)元的輸出變量;w1i,j為輸入層第i節(jié)點(diǎn)到隱含層第j神經(jīng)元的連接權(quán);w2j,k為隱含層第j神經(jīng)元到輸出層第k神經(jīng)元的連接權(quán);b1j、b2k分別為隱含層第j神經(jīng)元和輸出層第k神經(jīng)元的閾值。
3 模型訓(xùn)練
用表4的3/4樣本數(shù)據(jù),在MATLAB的nntool工具箱中,按訓(xùn)練樣本定義與導(dǎo)入、神經(jīng)網(wǎng)絡(luò)設(shè)置與初始化、神經(jīng)網(wǎng)絡(luò)訓(xùn)練與結(jié)果導(dǎo)出等步驟對(duì)式(1)取不同的隱含層神經(jīng)元數(shù)進(jìn)行訓(xùn)練。其結(jié)果對(duì)應(yīng)的擬合準(zhǔn)確度Q3如表5所列。準(zhǔn)確度Q3的計(jì)算公式為[10]
Q3=PH×QH+PE×QE+PC×QC(2)
式中:Q3為總的準(zhǔn)確度;QH、QE、QC分別為螺旋H、折疊E、卷曲C的準(zhǔn)確度,用模型計(jì)算值按“勝者通吃”原則與實(shí)測(cè)值比較確定;PH、PE、PC分別為H、E、C三種二級(jí)結(jié)構(gòu)的例比。在表4的3/4樣本數(shù)據(jù)(每4個(gè)樣本取3個(gè))中,樣本總數(shù)為202,H、E、C三種二級(jí)結(jié)構(gòu)樣本數(shù)分別為86、52、64,計(jì)算對(duì)應(yīng)的比例,并代入式(2),得模型的擬合準(zhǔn)確度算式為:
Q3=0.425 7QH+0.257 4QE+0.316 8QC
QH=CH/86;QE=CE/52;QC=CC/64(3)
式中:CH、CE、CC分別為H、E、C三種二級(jí)結(jié)構(gòu)擬合準(zhǔn)確的樣本數(shù)。不同隱含層神經(jīng)元個(gè)數(shù)s的CH、QH,CE、QE,CC、QC和Q3的計(jì)算結(jié)果見表5。由表5可以看出:隨著隱含層神經(jīng)元個(gè)數(shù)s的增大,QH、QE、QC和Q3都呈拋物線趨勢(shì);QH的最大值對(duì)應(yīng)的隱含層神經(jīng)元個(gè)數(shù)s為21,QE、QC和Q3的最大值對(duì)應(yīng)的s都為20。綜合QH、QE、QC和Q3計(jì)算結(jié)果,水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)最佳隱含層神經(jīng)元個(gè)數(shù)s=20,對(duì)應(yīng)的模型Network4為最佳模型,將其命名為PRPSS(predicting rice protein secondary structure),作為最終擬合結(jié)果,其結(jié)構(gòu)為21∶20∶3,即21個(gè)輸入層節(jié)點(diǎn)、20個(gè)隱含層神經(jīng)元、3個(gè)輸出層神經(jīng)元。PRPSS隱含層和輸出層的部分權(quán)值、閾值分別見表6和表7。調(diào)取全部權(quán)值、閾值的命令函數(shù)為:PRPSS.iw{1,1}(輸入層到隱含層權(quán)值);PRPSS.b{1}(隱含層閾值);PRPSS.lw{2,1}(隱含層到輸出層權(quán)值);PRPSS.b{2}(輸出層閾值)。
4 模型預(yù)測(cè)
在MATLAB中,直接由水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型的仿真函數(shù)式作為預(yù)測(cè)式:
Y=sim(PRPSS,X)(4)
式中:sim()為MATLAB的仿真函數(shù);PRPSS為已經(jīng)創(chuàng)建的網(wǎng)絡(luò)模型,它儲(chǔ)存了網(wǎng)絡(luò)結(jié)構(gòu)、屬性等全部參數(shù);X,Y為預(yù)測(cè)模型的輸入、輸出向量,與預(yù)測(cè)樣本同維。用式(4),代入一個(gè)21維的輸入向量X,就可算出一個(gè)3維的預(yù)測(cè)向量Y;如果X是多個(gè)21維的輸入向量構(gòu)成的矩陣,則Y是多個(gè)3維預(yù)測(cè)向量構(gòu)成的矩陣。
用式(4)計(jì)算出的Y按“勝者通吃”原則換算為[1 0 0]或[0 1 0]或[0 0 1]后,與預(yù)測(cè)樣本的Y值(實(shí)測(cè)值)比較,以確定預(yù)測(cè)正確與否。在表4的樣本數(shù)據(jù)中,每4個(gè)樣本取1個(gè),得預(yù)測(cè)樣本總數(shù)為67,H、E、C三種二級(jí)結(jié)構(gòu)預(yù)測(cè)樣本數(shù)分別為29、17、21,計(jì)算得對(duì)應(yīng)的比值為0.432 8、0.253 7、0.313 4,將這些比值和樣本數(shù)代換式(3)中相應(yīng)的比值和樣本數(shù)就得相應(yīng)的預(yù)測(cè)準(zhǔn)確度計(jì)算式(省列),并計(jì)算PRPSS的預(yù)測(cè)準(zhǔn)確度,見表5。H、E、C三種二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確度分別為0.79、0.65、0.71,整體預(yù)測(cè)準(zhǔn)確度為0.72;對(duì)應(yīng)的擬合準(zhǔn)確度分別為0.92、0.79、0.81,整體擬合準(zhǔn)確度為0.85。
與以往同類研究比較,準(zhǔn)確度有所提高。楊樹蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)研究[10],整體預(yù)測(cè)準(zhǔn)確度為0.65,整體擬合準(zhǔn)確度為0.71,H的擬合準(zhǔn)確度為0.81;本文對(duì)水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)研究,整體預(yù)測(cè)準(zhǔn)確度為0.72,整體擬合準(zhǔn)確度為0.85,H的擬合準(zhǔn)確度為0.92。
5 結(jié)論
針對(duì)蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)在作物模式植物水稻中的研究較少,以國(guó)際蛋白質(zhì)數(shù)據(jù)庫(kù)中的水稻蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)為基礎(chǔ),用人工神經(jīng)網(wǎng)絡(luò)建模方法研究了水稻蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型,得出以下結(jié)論。
1)根據(jù)蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究目的,在PDB中先目測(cè)三維構(gòu)像中的二級(jí)結(jié)構(gòu)分布,選出具有代表性的蛋白質(zhì)樣本(5XQI)作為模型研究樣本,是一個(gè)可供參考的經(jīng)驗(yàn)。
2)在字符數(shù)據(jù)的量化處理中,先用一種新型氨基酸描述子表征樣本的氨基酸結(jié)構(gòu)(每個(gè)氨基酸有16個(gè)描述子),再用主成分分析方法將16個(gè)描述子綜合為一個(gè)總的描述子的方法,能提高模型精度,并能簡(jiǎn)化模型結(jié)構(gòu),提高模型運(yùn)行速度。
3)用標(biāo)量構(gòu)建模型,便于模型結(jié)構(gòu)的理解和應(yīng)用。特別是用仿真函數(shù)表示的預(yù)測(cè)式,是一種超常規(guī)的數(shù)學(xué)表達(dá),簡(jiǎn)捷直觀,應(yīng)用方便。
4)模型的適宜結(jié)構(gòu)為21∶20∶3,即21個(gè)輸入層節(jié)點(diǎn)、20個(gè)隱含層神經(jīng)元、3個(gè)輸出層神經(jīng)元的BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。
5)模型的總體擬合準(zhǔn)確度為0.85,H、E、C三種二級(jí)結(jié)構(gòu)的擬合準(zhǔn)確度分別為0.92、0.79、0.81;整體預(yù)測(cè)準(zhǔn)確度為0.72,三種二級(jí)結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確度分別為0.79、0.65、0.71。與以往同類研究比較,準(zhǔn)確度有所提高。
參考文獻(xiàn):
[1]蔣苑, 劉莉, 呂春芳, 等. 水稻葉色突變體812HS蛋白質(zhì)復(fù)合物和葉綠素合成特性的研究[J]. 江蘇農(nóng)業(yè)科學(xué), 2016, 44(10): 127-131.
[2] 陳露, 徐慧芳, 孟丹, 等. 硫化氫對(duì)水稻幼苗葉片中蛋白質(zhì)表達(dá)譜的影響[J]. 江蘇農(nóng)業(yè)科學(xué), 2016, 44(11): 81-84.
[3] 趙琳琳, 李楠, 呂志偉, 等. 野栽滲入系水稻籽粒儲(chǔ)藏蛋白質(zhì)含量的QTL遺傳解析[J]. 江蘇農(nóng)業(yè)科學(xué), 2015, 43(3): 50-53.
[4] 陳世建, 張振華, 諶興中, 等. 高蛋白質(zhì)雜交早稻新組合奧富優(yōu)655[J]. 雜交水稻, 2015, 30(1): 86-87.
[5] 秦發(fā)亮, 劉文文, 李莉, 等. 利用酵母雙雜交技術(shù)篩選介體灰飛虱中與水稻條紋病毒病害特異蛋白互作的蛋白質(zhì)[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2014, 47(14): 2784-2794.
[6] 牛東東, 郝育杰, 榮瑞娟, 等. 轉(zhuǎn)基因水稻中GUS蛋白質(zhì)的檢測(cè)及其表達(dá)特征[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2014, 47(14): 2715-2722.
[7] 廖江林, 宋宇, 鐘平安, 等. 耐熱和熱敏感水稻應(yīng)答灌漿初期高溫脅迫過(guò)程中的差異表達(dá)蛋白質(zhì)鑒定[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2014, 47(16): 3121-3131.
[8] 譚峰, 才巧玲, 馬志欣, 等. 基于拉曼光譜分析寒地水稻葉片的有機(jī)結(jié)構(gòu)[J]. 江蘇農(nóng)業(yè)科學(xué), 2016, 44(4): 358-361.
[9] 陳華夏, 申國(guó)境, 王磊, 等. 4個(gè)物種CCT結(jié)構(gòu)域基因家族的序列進(jìn)化分析[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報(bào), 2010, 29(6): 669-676.
[10]高光芹, 孟慶玲, 黃家榮. 楊樹蛋白質(zhì)二級(jí)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J]. 西北林學(xué)院學(xué)報(bào), 2014, 29(5): 59-63, 69.
[11]高光芹, 黃家榮, 周俊朝, 等. 楊樹蛋白質(zhì)磷酸化位點(diǎn)預(yù)測(cè)[J]. 生物信息學(xué), 2015, 13(3): 165-169.
[12]孟慶玲, 黃家榮. 林木蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究綜述[J]. 遼寧林業(yè)科技, 2009(6): 38-41.
[13]周俊朝. 楊樹蛋白質(zhì)二級(jí)結(jié)構(gòu)和磷酸化位點(diǎn)預(yù)測(cè)[D]. 鄭州: 河南農(nóng)業(yè)大學(xué), 2016.
[14]李志良, 李根容, 舒茂, 等. 一種新型氨基酸拓?fù)浣Y(jié)構(gòu)信息矢量及在肽定量構(gòu)效關(guān)系研究中的應(yīng)用[J]. 中國(guó)科學(xué)B輯: 化學(xué), 2008, 38(8): 745-754.
[15]黃家榮, 任誼群, 高光芹. 森林生長(zhǎng)的人工神經(jīng)網(wǎng)絡(luò)建模[M]. 北京: 中國(guó)農(nóng)業(yè)出版社, 2006: 42-61.
(責(zé)任編輯:周曉南)
Prediction of Rice Protein Secondary Structure
GAO Guangqin1, WAN Xinsheng1, LI Xiao1, HUANG Jiarong2, WANG Xiaoran*3
(1.College of Science, Henan Agricultural University, Zhengzhou 450002, China; 2.College of Forestry, Henan Agricultural University, Zhengzhou 450002, China; 3.College of Life Science, Henan Agricultural University, Zhengzhou 450002, China)
Abstract:
In view of the scarcity of rice protein secondary structure prediction research, based on the international protein database, PDB, the representative protein (5XQI) was selected as a sample, and BP neural network modeling technology was applied to predict rice protein secondary structure. The results show that quantifying the first-order structure with amino acid descriptors and then synthesizing the descriptors with principal component analysis can simplify the model structure and improve the accuracy and speed of simulation prediction. The scalar artificial neural network model and simulation function prediction formula are constructed, simple and intuitive, easy to use. The appropriate model structure is 21∶20∶3, that is, the BP model structure has 21 input layer nodes, 20 hidden layer neurons and 3 output layer primitives. The overall fitting accuracy of the model is 0.85, and the fitting accuracy of H, E and C secondary structures is 0.92, 0.79 and 0.81, respectively.The overall prediction accuracy is 0.72, and the prediction accuracy of the three secondary structures is 0.79, 0.65 and 0.71, respectively.Compared with previous similar studies, the accuracy has been improved. This paper, employing a unique BP artificial neural network mathematical model, has provided a new method for studying the secondary structure of rice protein.
Key words:
rice;protein;secondary structure;prediction;BP neural network
1998500520337