郟麗麗,孫婷婷
(浙江科技學(xué)院 理學(xué)院,浙江 杭州 310023)
紫色球桿菌視紫紅質(zhì)光譜特性的機(jī)器學(xué)習(xí)研究
郟麗麗,孫婷婷*
(浙江科技學(xué)院 理學(xué)院,浙江 杭州 310023)
近年來,機(jī)器學(xué)習(xí)等人工智能技術(shù)被應(yīng)用于蛋白質(zhì)工程,其在蛋白質(zhì)結(jié)構(gòu)、功能預(yù)測、催化活性等研究中具有獨(dú)特優(yōu)勢。在未知蛋白質(zhì)結(jié)構(gòu)的情況下,將蛋白質(zhì)序列和功能特性與機(jī)器學(xué)習(xí)相結(jié)合,基于序列-活性關(guān)系(innovative sequence-activity relationship,ISAR)算法,將蛋白質(zhì)氨基酸序列數(shù)字化,用快速傅里葉變換(fast four transform,F(xiàn)FT)進(jìn)行預(yù)處理,再進(jìn)行偏最小二乘回歸建模,可在數(shù)據(jù)集較少情況下擬合得到最佳模型。通過機(jī)器學(xué)習(xí)對紫色球桿菌視紫紅質(zhì)(gloeobacter violaceus rhodopsin,GR)的突變體蛋白質(zhì)氨基酸序列與光譜最大吸收波長進(jìn)行建模,獲得了最佳模型。用最佳索引LEVM760106建模得到的確定系數(shù)R2為0.944,均方誤差E為11.64。用小波變換進(jìn)行的預(yù)處理,其R2雖也約為0.944,但E大于11.64,不及FFT進(jìn)行的預(yù)處理。方法較好地解決了蛋白質(zhì)序列與功能特性之間的數(shù)學(xué)建模問題,在蛋白質(zhì)工程中可為預(yù)測更優(yōu)的突變體提供支持。
機(jī)器學(xué)習(xí);數(shù)字信號處理;光譜特性
機(jī)器學(xué)習(xí)是數(shù)理統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)的延伸,包含許多統(tǒng)計(jì)模型和計(jì)算機(jī)程序算法。1992年,MUGGLETON等[1]運(yùn)用機(jī)器學(xué)習(xí)算法預(yù)測蛋白質(zhì)二級結(jié)構(gòu),將蛋白質(zhì)的二級結(jié)構(gòu)與機(jī)器學(xué)習(xí)的編碼相關(guān)聯(lián)。隨著機(jī)器學(xué)習(xí)算法的逐漸成熟,出現(xiàn)了用于預(yù)測結(jié)構(gòu)、折疊、結(jié)合甚至催化活性的新版本機(jī)器學(xué)習(xí)算法,其主要目的是處理有關(guān)突變體及其功能特性的積累信息。易華偉等[2]基于蛋白質(zhì)的氨基酸序列通過機(jī)器學(xué)習(xí)算法預(yù)測其穩(wěn)定性。程淑萍等[3]運(yùn)用3種不同的機(jī)器學(xué)習(xí)算法預(yù)測非編碼RNA和蛋白質(zhì)之間的相互作用,提高預(yù)測的準(zhǔn)確率。徐開琨等[4]運(yùn)用特征選擇與機(jī)器學(xué)習(xí)算法研究生物蛋白質(zhì)中的標(biāo)志物,這對疾病的早期診斷和臨床治療等有重要意義。胡如云等[5]介紹了機(jī)器學(xué)習(xí)在合成生物學(xué)領(lǐng)域的典型應(yīng)用,如啟動子預(yù)測、酶催化設(shè)計(jì)、代謝途徑構(gòu)建、基因線路設(shè)計(jì)等。
然而機(jī)器學(xué)習(xí)算法大多要求大數(shù)據(jù)集,只有在大量數(shù)據(jù)下結(jié)合其生物化學(xué)特性,才能擬合得到較優(yōu)的模型,更好地開展定向進(jìn)化的蛋白質(zhì)研究工作[6-7]。曲戈等[8-9]通過蛋白質(zhì)定向進(jìn)化,產(chǎn)生大量組合突變體數(shù)據(jù)集,運(yùn)用機(jī)器學(xué)習(xí)算法較好地獲得了定制化蛋白質(zhì)。MOSELEY[10]通過將蛋白質(zhì)的生物化學(xué)特性表達(dá)與機(jī)器學(xué)習(xí)算法相結(jié)合,構(gòu)建出魯棒性好的統(tǒng)計(jì)模型,預(yù)測未知的改良突變體。因此,機(jī)器學(xué)習(xí)算法在蛋白質(zhì)改造研究中有重要應(yīng)用。
以上機(jī)器學(xué)習(xí)算法都是基于大數(shù)據(jù)集進(jìn)行的蛋白質(zhì)工程研究,在只有少量數(shù)據(jù)集下進(jìn)行的機(jī)器學(xué)習(xí)算法研究較少。同時(shí),大多研究基于蛋白質(zhì)的結(jié)構(gòu),對未知結(jié)構(gòu)的蛋白質(zhì)分子及其功能特性的研究也很少?;谛蛄?活性關(guān)系(innovative sequence-activity relationship,ISAR)[11]的算法,為蛋白質(zhì)工程提供了新的研究方向。
ISAR算法解決了數(shù)據(jù)集少和未知蛋白質(zhì)結(jié)構(gòu)的問題,有助于探究蛋白質(zhì)序列和功能特性的相互關(guān)系。ISAR算法由FONTAINE等[12]于2018年開發(fā),以氨基酸的物理化學(xué)性質(zhì)為基礎(chǔ),用光譜表示蛋白質(zhì)。CADET等[13]解釋了ISAR算法在改善來自黑曲霉的環(huán)氧化物水解酶對映選擇性中的應(yīng)用。該實(shí)驗(yàn)基于9個(gè)單點(diǎn)突變(29)的組合,預(yù)測了這512個(gè)變異體的對映選擇性,發(fā)現(xiàn)了具有更高對映選擇性的突變體。并運(yùn)用ISAR算法對4個(gè)不同類型的數(shù)據(jù)集(熱穩(wěn)定性的細(xì)胞色素P450、結(jié)合親和力的TNF-alpha、結(jié)合親和力的GLP-2和熱穩(wěn)定性的腸毒素)進(jìn)行擬合建模,驗(yàn)證了ISAR算法能有效捕捉突變對蛋白質(zhì)功能的影響。NICOLAS等[14]提出了用不同組合編碼擴(kuò)展序列的方法建模,測試了4種不同長度的蛋白質(zhì)(GLP-2、TNFalpha、細(xì)胞色素P450和環(huán)氧水解酶)及其活性(cAMP激活、結(jié)合親和力、熱穩(wěn)定性和對映選擇性),并預(yù)測了一個(gè)多肽鏈的適應(yīng)度值。OSTAFE等[15]通過不同pH的不同介質(zhì)用ISAR算法提高了葡萄糖氧化酶的活性,使葡萄糖氧化酶突變體(P1)對介質(zhì)二茂鐵-甲醇(12倍)和硝基苯胺(8倍)具有更大的特異性,并在3個(gè)pH調(diào)整緩沖區(qū)中表現(xiàn)出更好的性能,在存在二茂鐵甲醇的情況下,與pH為5.5的野生型酶相比,P1的kcat/KM比率增加了121倍。
質(zhì)子泵型視紫紅質(zhì)(proton-pumping rhodopsin,PPR)[16]蛋白是一種結(jié)構(gòu)比較簡單且廣泛存在的光能轉(zhuǎn)換系統(tǒng)。結(jié)合視黃醛分子在吸收光子后令其構(gòu)象改變,引起整體蛋白的變構(gòu)等,在一定程度上能促進(jìn)三磷酸腺苷酶(adenosine triphosphate,ATP)的合成,將光能轉(zhuǎn)化為化學(xué)能[17-18]。PPR通過將光能轉(zhuǎn)化為化學(xué)能,從而提高細(xì)胞的積累生物量。紫色球桿菌視紫紅質(zhì)(gloeobacter violaceus rhodopsin,GR)是一種PPR,通過取代GR的不同氨基酸獲得不同的GR突變體,影響其吸收光譜的峰值。吸收光譜的峰值越大,光能轉(zhuǎn)化率越高,微生物的生產(chǎn)和細(xì)胞的耐受性越強(qiáng)。因此,需對GR光譜特性進(jìn)行研究。
通過對GR視網(wǎng)膜結(jié)合口袋進(jìn)行視紫紅質(zhì)的氨基酸替換,組合成新的GR突變體,以調(diào)節(jié)其光譜最大吸收波長λmax[19]。從數(shù)據(jù)集中提取81條少量GR突變體,用ISAR算法對數(shù)據(jù)進(jìn)行數(shù)字信號處理(digital signal processing,DSP),再與實(shí)驗(yàn)獲得的最大光譜吸收波長進(jìn)行偏最小二乘回歸(partial least squares regression,PLSR)建模,采用交叉驗(yàn)證方法獲得符合GR實(shí)驗(yàn)數(shù)據(jù)要求的最佳模型和蛋白質(zhì)氨基酸序列與光譜特性的關(guān)系。
ISAR是一種創(chuàng)新的序列-活性關(guān)系算法,基于快速傅里葉變換(fast Fourier transform,F(xiàn)FT)[20]等DSP算法,將實(shí)驗(yàn)與蛋白質(zhì)計(jì)算設(shè)計(jì)相結(jié)合。ISAR算法分編碼、建模和預(yù)測3個(gè)階段。圖1為ISAR算法流程。
圖1 ISAR算法流程Fig.1 The flow of ISAR methodology
在氨基酸指數(shù)索引(AAindex)數(shù)據(jù)庫中找到符合蛋白質(zhì)特性的最佳索引。AAindex是含566組索引數(shù)字指數(shù)的數(shù)據(jù)庫,每組索引包括20種標(biāo)準(zhǔn)氨基酸,代表各自的物理化學(xué)和生物化學(xué)性質(zhì),同時(shí)給出了這些索引之間的相關(guān)性及其他信息[21]。依據(jù)AAindex數(shù)據(jù)庫,將蛋白質(zhì)的氨基酸序列數(shù)字化,再用FFT將數(shù)字信息轉(zhuǎn)換為能量對頻率的蛋白質(zhì)光譜形式。其可通過
實(shí)現(xiàn),其中,N為輸入信號的長度,S為輸出光譜(復(fù)數(shù)),k為光譜的頻率,s(n)為有限長連續(xù)信號,n為輸入信號的位置,i為虛數(shù)單位。
DSP是一種數(shù)據(jù)預(yù)處理技術(shù),對信號進(jìn)行分解和處理,以不同方式進(jìn)行數(shù)據(jù)表達(dá)。FFT是DSP的一種方法,BENSON[22]很早就將傅里葉變換方法應(yīng)用于生物序列的比較。FFT中一個(gè)點(diǎn)的變換將影響整條數(shù)據(jù)的光譜,因此蛋白質(zhì)位點(diǎn)中任何一個(gè)突變點(diǎn)的變化,都會令蛋白質(zhì)光譜整體變換,這也是ISAR算法的亮點(diǎn)之一。已有很多方法研究單點(diǎn)突變的變換,將每個(gè)特性值累加,忽略了氨基酸之間的相互作用。
對蛋白質(zhì)光譜與蛋白質(zhì)突變體的生物化學(xué)特性值進(jìn)行PLSR建模,并用留一交叉驗(yàn)證法(leave-one-out cross validation,LOOCV)驗(yàn)證模型和提高模型的魯棒性。蛋白質(zhì)的生物化學(xué)特性值除通過實(shí)驗(yàn)獲得外,還可將生物、數(shù)學(xué)和計(jì)算機(jī)相結(jié)合,通過機(jī)器學(xué)習(xí)擬合蛋白質(zhì)的數(shù)據(jù)預(yù)測得到。對無法獲得晶體結(jié)構(gòu)的蛋白質(zhì),通過已知蛋白質(zhì)的氨基酸序列特征屬性,用ISAR算法便可獲得蛋白質(zhì)的生物化學(xué)特性值。
由機(jī)器學(xué)習(xí)算法進(jìn)行建模,通常需要大量數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證。在ISAR算法中,可用PLSR解決數(shù)據(jù)集小的問題。為防止模型過擬合,通過LOOCV優(yōu)化模型參數(shù)和驗(yàn)證模型,同時(shí)用確定系數(shù)R2和均方誤差E(式(2)和(3))衡量模型好壞。LOOCV是交叉驗(yàn)證法的一種,由于樣本數(shù)n較少,將n-1個(gè)樣本作為訓(xùn)練集,留出1個(gè)樣本作為測試集,循環(huán)n次,共可獲得n個(gè)測試數(shù)據(jù)。
根據(jù)AAindex數(shù)據(jù)庫中566組索引與實(shí)驗(yàn)數(shù)據(jù)進(jìn)行建模,獲得多個(gè)模型。在同一組索引下,由不同參數(shù)得到若干個(gè)不同模型。在參數(shù)不變的情況下,566組索引通過LOOCV得到n×566個(gè)模型。不同參數(shù)和不同組索引得到不同的確定系數(shù)R2和均方誤差E。根據(jù)最小E和較優(yōu)R2找到最佳索引,從而獲得最佳模型。
將建模階段選出的最佳索引經(jīng)實(shí)驗(yàn)數(shù)據(jù)預(yù)處理后放入模型,預(yù)測與實(shí)驗(yàn)數(shù)據(jù)相對應(yīng)的特征屬性值,同時(shí)驗(yàn)證氨基酸序列與蛋白質(zhì)功能屬性的相關(guān)性。因此,使用有限的實(shí)驗(yàn)數(shù)據(jù)通過ISAR算法擬合可獲得適應(yīng)其特征屬性的最佳模型,進(jìn)一步預(yù)測其他可能存在的更好的突變體。
GR通過定向進(jìn)化獲得81條突變體吸收波長數(shù)據(jù)集,包含單點(diǎn)突變和組合突變(位點(diǎn):W122,V126,M158,G162,E166,G178,S181,F(xiàn)185和A256)[23]。GR的野生型光譜最大吸收波長λmax為539 nm,通過替換不同的氨基酸,獲得的突變體的λmax為50~650 nm。因此,組合突變體和氨基酸之間的相互作用會影響GR的λmax。
數(shù)據(jù)預(yù)處理是建模前的關(guān)鍵步驟。首先將81條數(shù)據(jù)進(jìn)行氨基酸編碼,根據(jù)AAindex數(shù)據(jù)庫,每組索引有20種不同的氨基酸,每種氨基酸用不同的數(shù)值代替。GR野生型(wide type,WT)是由20個(gè)標(biāo)準(zhǔn)氨基酸組成的長為298的氨基酸序列。首先根據(jù)AAindex數(shù)據(jù)庫進(jìn)行數(shù)值化處理,然后由FFT轉(zhuǎn)換為蛋白質(zhì)光譜。圖2為GR的WT、單點(diǎn)突變體W122A和組合突變體G162L/E166W/F185A/A256S的編碼過程。其他突變體的光譜轉(zhuǎn)換類似。W122A為GR的第122個(gè)位點(diǎn),是色氨酸(tryptophan,W)突變成丙氨酸(alanine,A)的單點(diǎn)突變體。組合突變體G162L/E166W/F185A/A256S由4個(gè)位點(diǎn)突變成其他氨基酸得到。3種蛋白質(zhì)通過FFT得到蛋白質(zhì)光譜,圖3分別為野生型、突變體W122A和組合突變體G162L/E166W/F185A/A256S在不同頻率下的振幅。由圖3可知,雖然W122A為單點(diǎn)突變、G162L/E166W/F185A/A256S只有4個(gè)位點(diǎn)突變,但影響的是整個(gè)蛋白的光譜振幅,與WT得到的蛋白質(zhì)光譜完全不同,這也是ISAR算法的優(yōu)勢。因此,81條數(shù)據(jù)通過FFT得到完全不同的81條蛋白質(zhì)光譜,為后續(xù)的吸收光譜建模打下良好基礎(chǔ)。
圖2 用ISAR算法由GR數(shù)據(jù)得到的不同蛋白質(zhì)光譜Fig. 2 Different protein spectra are obtained from GR data by ISAR method
圖3 3個(gè)蛋白質(zhì)通過FFT轉(zhuǎn)變?yōu)榈鞍踪|(zhì)光譜Fig.3 Three proteins are transformed into protein spectra by FFT
GR是由20種標(biāo)準(zhǔn)氨基酸組成的蛋白質(zhì),氨基酸的數(shù)值化和相互作用均會影響GR的吸收光譜特性。AAindex數(shù)據(jù)庫有566組氨基酸索引,其中16組因部分氨基酸數(shù)值缺失被剔除。利用剩下的550組索引在固定參數(shù)下與PLSR建立模型,并測試其E值,如圖4所示。不同索引的E值不同,550組索引的E值差異較大,對模型的建立和預(yù)測有很大影響。由式(2)和式(3)計(jì)算R2和E,用較優(yōu)R2和最小E選擇一組最佳索引[24]。首先,編碼81條GR突變體氨基酸序列數(shù)據(jù),并根據(jù)FFT得到81條不同蛋白質(zhì)光譜。然后,與GR的吸收光譜λmax進(jìn)行建模,優(yōu)化模型參數(shù),并用LOOCV得到最佳E和R2。表1為由不同的索引與GR數(shù)據(jù)建模得到的E和R2以及索引的相關(guān)信息。對GR實(shí)驗(yàn)數(shù)據(jù),用全部的550組索引和不同的模型參數(shù)進(jìn)行模擬,得到的最小E為11.64,與之對應(yīng)的R2為0.944,最佳索引為LEVM760106。從表1中也可看出,不同索引的E和R2都不同,模型的優(yōu)劣程度也不同。CEDJ970104索引的R2為0.800,E為20.75,雖然R2相對較高,但E太大,模型擬合度較差,因此舍棄。而CHOC760104和FINA910102索引的R2太小,E更大,模型擬合差,直接舍棄。最終選擇的最佳索引為LEVM760106,將其進(jìn)行GR突變體氨基酸數(shù)字化并預(yù)測λmax。
圖4 根據(jù)不同參數(shù)獲得550個(gè)λmax模型的E值Fig.4 The E ofλmax 550 models according to different parameters
表1 不同索引下的R2和ETable 1 The R2and E under different indexes
由最小E選擇最佳索引LEVM760106,選出最佳模型參數(shù),進(jìn)行建模與預(yù)測。運(yùn)用ISAR算法預(yù)測GR的81條實(shí)驗(yàn)數(shù)據(jù),得到λmax的實(shí)驗(yàn)值和預(yù)測值、E=11.64、確定系數(shù)R2=0.944,模型的擬合度很高。E和R2是衡量模型優(yōu)劣的標(biāo)準(zhǔn),E用于選擇最佳索引和最佳模型,R2體現(xiàn)模型的預(yù)測能力。由圖5知,λmax的預(yù)測值和實(shí)驗(yàn)值在直線附近聚集,偏離不大,模型魯棒性較好。
圖5 R2= 0.944時(shí)GR及突變體的LOOCV預(yù)測Fig. 5 Prediction of GR and mutants by LOOCV when R2=0.944
ISAR算法中的一個(gè)重要環(huán)節(jié)是用FFT進(jìn)行數(shù)據(jù)處理。FFT將單個(gè)位點(diǎn)或多個(gè)位點(diǎn)的突變體轉(zhuǎn)換為影響整個(gè)蛋白質(zhì)的變換,改進(jìn)了以往生物特性功能單純累加的缺陷。同時(shí)本研究也運(yùn)用小波變換預(yù)處理數(shù)據(jù),得到的結(jié)果如表2所示。小波變換也是DSP的一種方法,是對短傅里葉變換的繼承和發(fā)展,通過時(shí)間或空間的局部變換,突出某地方的特征。
除用LOOCV外,還用十折交叉驗(yàn)證法驗(yàn)證模型的優(yōu)劣。十折交叉驗(yàn)證法是將樣本數(shù)n分成10份,選擇9份作為訓(xùn)練集,1份作為驗(yàn)證集。通過不同的數(shù)據(jù)預(yù)處理和不同的交叉驗(yàn)證方法,得到不同的E和R2。E越小、R2越接近于1,模型的擬合度越高、魯棒性越好。由表2可知,用FFT選擇的最佳索引均為LEVM760106,且十折交叉驗(yàn)證法增加了驗(yàn)證集數(shù)量,令E和R2均有降低。小波變換采用的小波基為db1,得到的E值均較FFT方法大。雖然用小波變換和LOOCV得到的R2與ISAR算法的相差不多,但是E值高了約0.5,模型擬合度不及ISAR算法。實(shí)驗(yàn)證明ISAR算法中的FFT非常適合GR的λmax擬合,可獲得較優(yōu)模型,且方便后期的擬合和預(yù)測。由表2可知,用4種方法尋找最佳索引,3種方法得到的最佳索引均為LEVM760106。
表2 不同方法對GR的驗(yàn)證結(jié)果Table 2 Verification results of GR by different methods
表3為最佳索引LEVM760106的20種標(biāo)準(zhǔn)氨基酸的數(shù)值表示,每個(gè)數(shù)值均根據(jù)某種物理化學(xué)特性、氨基酸之間的相互作用以及公式獲得。LEVM760106是關(guān)于范德華參數(shù)R0[25](一種快速模擬蛋白質(zhì)折疊)的蛋白質(zhì)構(gòu)象簡化表示法。從最佳索引LEVM760106的物理化學(xué)性質(zhì)看,突變前后紫色球桿菌視紫紅質(zhì)蛋白質(zhì)氨基酸序列與光譜吸收波長的相關(guān)性與其范德華參數(shù)R0密不可分。氨基酸序列、最佳索引和物理化學(xué)特性不同,蛋白質(zhì)和模型參數(shù)亦不同。
表3 索引LEVM760106中20種氨基酸的數(shù)值表示Table 3 Different values of 20 amino acids expressed in index LEVM760106
運(yùn)用AAindex數(shù)據(jù)庫中最佳索引的數(shù)字化蛋白質(zhì)氨基酸序列,用FFT預(yù)處理得到影響整體蛋白質(zhì)光譜的部分變化,與GR的光譜最大吸收波長λmax進(jìn)行PLSR建模,得到擬合度較高的模型。最佳模型選取的索引為LEVM760106,其中確定系數(shù)R2為0.944,均方誤差E為11.64。由該索引的物理化學(xué)性質(zhì),可得到在突變前后的紫色球桿菌視紫紅質(zhì)蛋白序列中,其范德華參數(shù)R0變化所引起的物理化學(xué)性質(zhì)與吸收光譜波長的相關(guān)性最大。這證明了經(jīng)傅里葉變換后的頻率(蛋白質(zhì)譜)可有效描述和預(yù)測氨基酸序列的蛋白質(zhì)活性(序列-活性關(guān)系用蛋白質(zhì)譜建模)。此外,此頻率考慮了突變對光譜的整體影響,而不是局部影響。ISAR算法的優(yōu)點(diǎn)之一是不依賴于蛋白質(zhì)的空間結(jié)構(gòu),只要獲得一定長度的蛋白質(zhì)氨基酸序列就可與蛋白質(zhì)的生物化學(xué)特性進(jìn)行建模。優(yōu)點(diǎn)之二是考慮了氨基酸之間的相互作用力,而不是單純功能屬性值的累加。另外,ISAR算法中的LOOCV和PLSR有效解決了機(jī)器學(xué)習(xí)中數(shù)據(jù)集少的問題,在數(shù)據(jù)集量較少時(shí)也可進(jìn)行機(jī)器學(xué)習(xí)。
研究發(fā)現(xiàn),統(tǒng)計(jì)預(yù)測模型基于氨基酸的物理化學(xué)特性建立,并研究了蛋白質(zhì)氨基酸序列與功能特性的相互關(guān)系。用基于已有數(shù)據(jù)的ISAR算法做預(yù)測能否得到比實(shí)驗(yàn)數(shù)據(jù)更好的突變體有待進(jìn)一步研究。如能通過ISAR算法預(yù)測更好的突變體,這將大大節(jié)約生物化工實(shí)驗(yàn)時(shí)間,降低實(shí)驗(yàn)成本。統(tǒng)計(jì)模型的建立依賴于機(jī)器學(xué)習(xí),可以預(yù)見,機(jī)器學(xué)習(xí)算法將適應(yīng)更多的生物工程需求,應(yīng)用于更廣泛的生物化工領(lǐng)域。
[1]MUGGLETON S, KING R D,STENBERG M J E. Protein secondary structure prediction using logic-based machine learning[J]. Protein Engineering, 1992, 5(7):647-657. DOI:10.1093/protein/5.7.647
[2]易華偉,唐曉峰. 基于氨基酸序列和模擬結(jié)構(gòu)預(yù)測蛋白質(zhì)穩(wěn)定性的研究進(jìn)展[J]. 生物技術(shù)通報(bào), 2017,33(4): 83-89. DOI:10.13560/j.cnki.biotech.bull. 1985.2017.04.011
YI H W, TANG X F. Research progress on the prediction of protein stability based on amino acid sequence and simulated structure[J]. Biotechnology Bulletin, 2017, 33(4):83-89. DOI:10.13560/j.cnki.biotech.bull.1985.2017.04.011
[3]程淑萍,譚建軍,門婧睿. 基于機(jī)器學(xué)習(xí)方法的非編碼RNA-蛋白質(zhì)相互作用的預(yù)測[J]. 北京生物醫(yī)學(xué)工程,2019, 38(4):353-359. DOI:10.3969/j.issn. 1002-3208.2019.04.004
CHENG S P, TAN J J,MEN J R. Prediction of ncRNA-protein interactions based on machine learning methods[J]. Beijing Biomedical Engineering,2019, 38 (4):353-359. DOI:10.3969/j.issn.1002-3208.2019.04.004
[4]徐開琨,韓明飛,黃傳璽,等. 基于質(zhì)譜的蛋白質(zhì)生物標(biāo)志物發(fā)現(xiàn)中的特征選擇與機(jī)器學(xué)習(xí)方法研究進(jìn)展[J]. 生物工程學(xué)報(bào),2019, 35(9):1619-1632. DOI:10. 13345/j.cjb.190064
XU K K, HAN M F,HUANG C X, et al. Research progress of feature selection and machine learning methods for mass spectrometry-based protein biomarker discovery[J]. Chinese Journal of Biotechnology, 2019,35(9): 1619-1632. DOI:10. 13345/j.cjb.190064
[5]胡如云,張嵩亞,蒙海林,等. 面向合成生物學(xué)的機(jī)器學(xué)習(xí)方法及應(yīng)用[J]. 科學(xué)通報(bào), 2021,66(3): 284-299. DOI:10.1360/TB-2020-0456
HU R Y, ZHANG S Y,MENG H L, et al. Machine learning for synthetic biology: Methods and applications[J]. Chinese Science Bulletin, 2021,66(3): 284-299. DOI:10.1360/TB-2020-0456
[6]HAMMER S C, KNIGHT A M,ARNOLD F H. Design and evolution of enzymes for non-natural chemistry[J]. Current Opinion in Green and Sustainable Chemistry, 2017,7: 23-30. DOI:10. 1016/j.cogsc.2017.06.002
[7]CHOI Y H, KIM J H,PARK B S, et al. Solubilization and iterative saturation mutagenesis of α1,3-fucosyltransferase from helicobacter pylori to enhance its catalytic efficiency[J]. Biotechnology and Bioengineering, 2016,113(8): 1666-1675. DOI:10. 1002/bit.25944
[8]曲戈,朱彤,蔣迎迎,等. 蛋白質(zhì)工程:從定向進(jìn)化到計(jì)算設(shè)計(jì)[J]. 生物工程學(xué)報(bào), 2019,35(10):1843-1856. DOI:10.13345/j.cjb.190221
QU G, ZHU T,JIANG Y Y, et al. Protein engineering:From directed evolution to computational design[J]. Chinese Journal of Biotechnology, 2019,35(10):1843-1856. DOI:10.13345/j.cjb.190221
[9]蔣迎迎,曲戈,孫周通. 機(jī)器學(xué)習(xí)助力酶定向 進(jìn)化[J]. 生物學(xué)雜志,2020, 37(4):1-11. DOI:10.3969/j.issn.2095-1736.2020.04.001
JIANG Y Y, QU G,SUN Z T. Machine learning assisted enzyme directed evolution[J]. Journal of Biology, 2020, 37(4):1-11. DOI:10.3969/j.issn. 2095-1736.2020.04.001
[10]MOSELEY L G. Introduction to machine learning[J]. Engineering Applications of Artificial Intelligence, 1988,1(4): 334. DOI:10.1016/0952-1976(88)90057-7
[11]CADET F, FONTAINE N,LI G Y, et al. A machine learning approach for reliable prediction of amino acid interactions and its application in the directed evolution of enantioselective enzymes[J]. Scientific Reports, 2018, 8(1):16757. DOI:10. 1038/s41598-018-35033-y
[12]FONTAINE N, CADET F. Method and electronic system for predicting at least one fitness value of a protein,related computer program product: U.S. Patent Application 15/565,893[P]. 2018-04-05.
[13]CADET F, FONTAINE N,VETRIVEL I, et al. Application of fourier transform and proteochemometrics principles to protein engineering[J]. BMC Bioinformatics, 2018,19(1): 382. DOI:10.1186/s12859-018-2407-8
[14]FONTAINE N, CADET F,VETRIVEL I. Novel descriptors and digital signal processing-Based method for protein sequence activity relationship study[J]. International Journal of Molecular Sciences, 2019,20(22):5640. DOI:10.3390/ijms20225640
[15]OSTAFE R, FONTAINE N,F(xiàn)RANK D, et al. One-shot optimization of multiple enzyme parameters: Tailoring glucose oxidase for pH and electron mediators[J]. Biotechnology and Bioengineering, 2020,117(1): 17-29. DOI:10. 1002/bit.27169
[16]BéJà O, ARAVIND L,KOONIN E V, et al. Bacterial rhodopsin:Evidence for a new type of phototrophy in the sea[J]. Science,2000, 289(5486):1902-1906. DOI:10.1126/science.289.5486.1902
[17]BROWN L S, JUNG K H. Bacteriorhodopsin-like proteins of eubacteria and fungi:The extent of conservation of the haloarchaeal proton-pumping mechanism[J]. Photochemical amp; Photobiological Sciences, 2006,5(6): 538-546. DOI:10.1039/b514537f
[18]CLAASSENS N J, VOLPERS M,SANTOS V A P M D, et al. Potential of proton-pumping rhodopsins: Engineering photosystems into microorganisms[J]. Trends in Biotechnology, 2013,31(11):633-642. DOI:10.1016/j.tibtech.2013.08.006
[19]ENGQVIST M K M, MCLSAAC R S,DOLLINGER P, et al. Directed evolution of Gloeobacter violaceus rhodopsin spectral properties[J]. Journal of Molecular Biology, 2015,427(1), 205-220. DOI:10.1016/j.jmb.2014.06.015
[20]COOLEY J W, TUKEY J W. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of Computation, 1965, 19(90):297-301.
[21]SHUICHI K, PITOR P,MARIA P, et al. AAindex:Amino acid index database, progress report 2008[J]. Nucleic Acids Research, 2008, 36(Database):D202-D205. DOI:10.1093/nar/gkm998
[22]BENSON D C. Digital signal processing methods for biosequence comparison[J]. Nucleic Acids Research, 1990, 18(10):3001-3006. DOI:10.1093/nar/18.10.3001
[23]YANG K K, WU Z,BEDBROOK C N, et al. Learned protein embeddings for machine learning[J]. Bioinformatics,2018, 34(15):2642-2648. DOI:10. 1093/bioinformatics/bty178
[24]NWANKWO N, SEKER H. Digital signal processing techniques: Calculating biological functionalities[J]. Journal of Proteomics amp; Bioinformatics, 2011,4(12):260-268. DOI:10. 4172/jpb.1000199
[25]LEVITT M. A simplified representation of protein conformations for rapid simulation of protein folding[J]. Journal of Molecular Biology, 1976,104(1): 59-107. DOI:10.1016/0022-2836(76)90004-8
[26] CEDANO J,ALOY P,PéREZ-PONS J A,et al.Relation between amino acid composition and cellular location of proteins[J]. Journal of Molecular Biology,1997,266(3):594-600. DOI:10.1006/jmbi.1996.0804.
[27]FINKELSTEIN A V, BADRETDINOV A Y,PTITSYN O B. Physical reasons for secondary structure stability:Alpha-helices in short peptides [J]. Proteins,1991, 10(4):287-99.DOI:10.1002/prot.340100403.
A machine learning study on gloeobacter violaceus rhodopsin spectral properties
JIA Lili, SUN Tingting
(School of Sciences College,Zhejiang University of Science and Technology,Hangzhou310023,China)
In recent years, artificial intelligence technologies such as machine learning have been applied to protein engineering, and have shown unique advantages in studies on as protein structure, function prediction, and catalytic activity. In the absence of protein structure, combining protein sequence and functional properties with machine learning is a new research direction. In this papers, based on a new sequence-activity relationship (ISAR) method, the mutant library of gloeobacter violaceus rhodopsin (GR) and the maximum absorption wavelength of the spectrum are modeled by machine learning. It can fit the best model even in the case of a small number of data sets. The proposed method digitizes the protein amino acid sequence, preprocesses it through fast Fourier transform (FFT), and then performs partial least squares regression (PLSR) modeling. Finally, the best model of the amino acid sequence of the rhodopsin mutant protein and the maximum absorption wavelength of the spectrum is obtained. Modeling with the best index LEVM760106, the coefficient of determination is thatR2is 0.944, and the minimum mean square errorEis 11.64. In contrast, when the wavelet transform was used to preprocess the data, the coefficient of determination is close to 0.944, but theEis greater than 11.64, not as good as the result of FFT preprocessing. It is shown that, this method effectively solves the mathematical model relationship between protein sequence and functional characteristics, and provides support for predicting better mutants in later protein engineering.
machine learning; digital signal processing (DSP); spectral characteristics
Q 332
A
1008?9497(2022)03?280?07
10.3785/j.issn.1008-9497.2022.03.003
2021?03?02.
浙江省自然科學(xué)基金資助項(xiàng)目(LY17A040001).
郟麗麗(1993—),ORCID:https://orcid.org/0000-0002-3215-5627,女,碩士,主要從事機(jī)器學(xué)習(xí)、生物統(tǒng)計(jì)研究.
通信作者,ORCID:https://orcid.org/0000-0003-1388-3458,E-mail:tingtingsun@zust.edu.cn.