許宏宣,劉小強,常 凱
(1.西南大學a生命科學學院,b西南大學-西藏農(nóng)牧學院藥用植物聯(lián)合研發(fā)中心,重慶 400715;2.成都市實驗外國語學校生物教研組,成都 611130;3.中國人民解放軍成都軍區(qū)總醫(yī)院檢驗科,成都 610083;)
Smad蛋白(Drosophila Mothers Against Decapentaplegic Protein)為重要的蛋白家族,其主要功能為將細胞外信號經(jīng)TGF-β受體傳遞到細胞核內(nèi)進而激活下游靶基因轉錄[1]。該家族蛋白廣泛分布于人體各大系統(tǒng),并參與生物體的整個生命進程,是調控細胞生殖及分化的重要因子。Smad蛋白可通過調節(jié)能量供給參與胚胎構建,組織修復,細胞增殖,分化與遷移等多種生物進程[2]。
至今Smad家族在全物種中共發(fā)現(xiàn)9種,其中8種發(fā)現(xiàn)于哺乳類[3]。根據(jù)這些蛋白質的功能差異可人為分成三個不同大類:其一為受體調節(jié)型(receptor-regulated Smad,R-Smad),包括 Smad1,2,3,5和 8;其二為共同調節(jié)型Smad(common-mediator Smad,Co-Smad),僅包括Smad4,其作用于 R-Smad并參與相關通路的信號轉導;最后為抑制型 Smad(inhibitory Smad,I-Smad),包含 Smad6和 Smad7,其功能為限制 R-Smad和 Co-Smad蛋白的活性[4]。
在基礎醫(yī)學研究中,Smad家族蛋白往往是骨病、腎病、皮膚病及消化系統(tǒng)疾病研究的熱點[5]。近年來,Smad蛋白家族在血管形成、纖維化和腫瘤發(fā)生的研究熱度日益增加[6]。Smad蛋白主要參與TGF-β信號通路負調控細胞生長,它可使細胞生長發(fā)生停滯在 G1期?,F(xiàn)有的研究多關注于Smad蛋白功能與疾病的關系研究,對Smad家族蛋白質自身的結構、理化特性分析和蛋白穩(wěn)定性修飾研究較少。而離體環(huán)境下對蛋白質研究中其對其結構的穩(wěn)定性要求更高,在Smad蛋白研究中,離體蛋白的穩(wěn)定性缺乏往往是阻礙實驗進展的重要因素[7]。因而本研究通過信息生物學方法對多組Smad超家族成員進行比對研究,比較Smad家族的各成員結構和理化性質差異,并基于分子生物學和蛋白質工程原理對不穩(wěn)定的目標蛋白進行模擬修飾和突變預測,以期得到更加穩(wěn)定的蛋白結構,為深入的開展Smad功能相關研究奠定基礎。
在NCBI及PBD數(shù)據(jù)庫中應用BLAST比對程序,檢索Smad蛋白家族的核酸序列和氨基酸序列備用,Edit Seq軟件和DNA Master 5.22.1軟件用于剔除過長序列或過短的蛋白。最終確定涵蓋Smad1~8的核苷酸序列和氨基酸序列。
利用Edit Seq軟件和DNA Master 5.22.1軟件對Smad家族各成員進行核酸序列比對分析,并應用Prot-Param程序進行統(tǒng)計和比較分析Smad蛋白的理化特性,內(nèi)容包括:分子量、等電點、氨基酸數(shù)目、疏水系數(shù)、脂肪系數(shù)等。在Proteomics Server平臺中使用ProtScale軟件對Smad家族蛋白氨基酸序列進行疏水性分析。DNA Master 5.22.1軟件和weblogo平臺進行氨基酸保守序列評測。應用WoLF PSORT平臺預測Smad蛋白的亞細胞定位情況并對其基數(shù)進行測評。TMHMM Server v2.0平臺和Tmpred平臺預測Smad蛋白跨膜區(qū)域。綜合GOR、GOR III、GOR IV、HNN、DSC和SOPMA 6種計算方法對Smad蛋白的序列進行二級結構進行聯(lián)合預測。Smad蛋白結構域三維建模比對分析和結果評估通過Clustal X、MEGA7.0、Swiss-Modle、Swiss-PdbView和WebLab ViewLite完成。應用I-Mutant2.0程序基于SEEF方法對蛋白穩(wěn)定性修飾與突變進行模擬與評估。
應用NCBI和PBD數(shù)據(jù)庫檢索源自人、小鼠、原雞等各物種的Smad蛋白共147個,篩選去除冗余和錯誤序列后對最終確定的64個蛋白氨基酸序列進行聚類分析。應用CLUSTAL X軟件和MEGA 7.0軟件對各氨基酸序列進行聚類分析,并基于Neighbor-Joining(N-J)算法構建遺傳進化樹如圖1所示,結果表明Smad1~Smad8家族分屬于8個不同的大分支,且每個大分支聚類明確[8]。該氨基酸聚類分析結果與Smad亞家族間的差異保持一致,并未展現(xiàn)出物種間的差異。這表明Smad各家族內(nèi)部的氨基酸序列在不同物種間相似性極高。各聚類小分支中物種進化的等級越高,進化距離便越遠,可見人類Smad蛋白結構多元化且功能相對多樣。
應用SignalP 3.0 Server和TMpred平臺對Smad蛋白質的氨基酸序列進行跨膜區(qū)的預測分析,應用Wolfpsort平臺分析Smad蛋白的亞細胞定位。結果發(fā)現(xiàn)Smad1,2,3氨基酸序列不具跨膜區(qū)域且定位不具體;Smad4含有跨膜氨基酸區(qū)段(6~26)且無明確定位;Smad5中含跨膜氨基酸區(qū)(1~21)且無明確定位;Smad6中含跨膜區(qū)(243~264)且定位于線粒體;Smad7中具有跨膜氨基酸區(qū)(403~425)定位于線粒體;Smad8中具有跨膜氨基酸區(qū)(1~18)定位不明確。在上述8個家族的細胞定位中,僅Smad6和Smad7定位于線粒體中,其余家族的亞細胞結構定位均不具體。各Smad家族蛋白質跨膜區(qū)域相對位置多變,表明各蛋白質功能具有較大差異,這與已有報道一致[9-10]。
在ExPASy網(wǎng)站上用ProtParam軟件對Smad蛋白進行理化性質分析,統(tǒng)計內(nèi)容包括:等電點、不穩(wěn)定系數(shù)、脂肪系數(shù)、消光系數(shù)和GRAVY系數(shù)等,其中GRAVY系數(shù)(-0.585~-0.335)和分子量(41631.56~60461.17)在不同物種、不同Smad亞家族間不具有典型的規(guī)律性分布;然而在同一Smad亞群中具有穩(wěn)定的等電點和消光系數(shù),其不受分子量大小和氨基酸多少影響。因而認為通過等電聚焦電泳和消光系數(shù)測定能夠初步的對Smad蛋白進行分類,有效降低實驗成本。各Smad家族的蛋白質不穩(wěn)定指數(shù)差異性顯著,Smad1~8的不穩(wěn)定指數(shù)均>40,表明這8個家族的成員在體外穩(wěn)定性均很差(圖2)。脂肪指數(shù)結果顯示:脂肪族氨基酸指數(shù) >70的有 Smad2(74.45±0.75),Smad3(75.59±1.86),Smad4(75.69±5.41),Smad7(73.79±1.58);脂肪族氨基酸指數(shù) <70的有 Smad1(65.36±0.34),Smad5(67.99±0.27),Smad6(69.83±0.35),Smad8(69.93±1.76)。GRAVY值均為負值,表明 Smad蛋白均為親水性蛋白[11]。
圖1 基于 M EGA7.0軟 件應用 N - J算 法檢建 S mads進 化樹
利用Vector NTI、NCBI BLAST軟件對 Smad蛋白進行比對分析,進行 Smad全家族氨基酸的同源性為29.5%,相似性為1.6%。Smad亞家族成員內(nèi)的比對分析,發(fā)現(xiàn)Smad1同源性為95.5%,相似性為58.9%;Smad2同源性為99.8%,相似性為66.2%;Smad3同源性為94.7%,相似性為70.8%;Smad4同源性為63.6%,相似性為19.9%;Smad5同源性為95.9%,相似性為71.5%;Smad6同源性為66.3%,相似性為16.3%;Smad7同源性為89.0%,相似性為62.8%;Smad8同源性為86.7%,相似性為49.5%。上述比對結果可以看出,Smad家族間的一級序列相似性高但同源性低,具有較大的氨基酸序列差異。Smad超家族各成員間的分析得出同源性在30%左右,但相似性卻只有2%左右,說明Smad的各成員雖同起源于Smads,但其物種間蛋白的一級結構列具有較大差異。
綜合GOR、GOR III、GOR IV、HNN、DSC和SOPMA 6種計算方法對Smad蛋白的序列進行二級結構進行聯(lián)合預測,結果如表1所示:Smad各成員均具有較高比例的隨意卷曲和 α-螺旋。Smad2、3具有較高的 α-螺旋,是由于兩個蛋白質同為R-Smad蛋白質,功能相似;Smad4、7具有較多的β轉角,β轉角常出現(xiàn)于球形蛋白質表明并含有極性和帶電荷的殘基,過高的β轉角往往會影響蛋白質的穩(wěn)定性。結合蛋白質一級序列與二級序列結果對高度保守的Smad蛋白C-末端結構域MH2進行家族間保守性分析如圖3所示,保守位點具有相似結構域,且氨基酸構成差異較小。
圖2 Smads 蛋白序列物理性質統(tǒng)計分析
基于蛋白質結構數(shù)據(jù)庫,對Smads蛋白的高級結構進行分析預測,有利于進一步解析結構及其功能的關系。該研究使用同源建模對Smads蛋白分子的三級結構進行模擬。應用WebLab ViewerLite軟件和Swiss-Modle平臺構建Smad1~8蛋白質的三維圖像,結合拉式構象結果對蛋白模擬結果進行準確性評估。Psi和Phi角的置信分析結果可以看出≥92%的氨基酸殘基分布于置信區(qū)間范圍內(nèi),表明該結構分布穩(wěn)定,建模方案可行,結果可靠[12]。
Smad1~8均為同源三聚體,但各Smad的單體均具有其特殊的功能域、結合域、齊聚反應域和保守的功能位點(圖 4)。Smad1,2,3,5和 8為 RSmad蛋白,需要與受體結合而具有活性。Smad1具有結合位點Lys45和Arg69;Smad2具有結合位點Ser103和Ser105;Smad3具有結合位點Arg104和Glu107;Smad5存在結合位點 Lys46和 Arg70,Smad8存在結合位點 Lys49和 Arg73[13]。Smad4作為唯一的 Co-Smad存在結合位點 Glu417和Arg420[14]。在 抑 制 型 I-Smad成 員 Smad6和Smad7,Smad6存在結合位點為Glu442和Arg443,Smad 7存在結合位點為 Arg379和 Glu384[15]。
表1 Smad蛋白質二級結構聯(lián)合預測結果
圖3 Smads 保守序列的氨基酸序列比對分析
蛋白質功能及活性往往受其穩(wěn)定性的直接影響,因而穩(wěn)定性的好壞是評價蛋白的一個重要參數(shù)。蛋白穩(wěn)定性受到其所處環(huán)境和自身結構的兩方面作用。針對不穩(wěn)定蛋白質而言,目前常用分子生物學和蛋白質工程手段進行定點修飾,從而準確高效地達到提高穩(wěn)定性的目的。在Smad家族中Smad1~8的體外實驗不穩(wěn)定指數(shù)均>40,表現(xiàn)出較差的穩(wěn)定性。在臨床基礎研究中,共同型 Smad(Smad4)和抑制型 Smad(Smad6,7)是近年來的研究熱點,且具有較強的研究價值與應用價值?;谑杷嗷プ饔煤投蜴I的應用,對Smad4進行兩個突變位點 Tyr322Cys和 Glu330Cys的穩(wěn)定性預測。同樣對 Smad6進行模擬突變 Tyr347Cys和Tyr476Cys,Smad7模擬突變 Tyr375Cys和 Lys373Met。應用 I-mutant2.0軟件結合 Auto-Mute軟件 DDG值(Kcal/mol)進行穩(wěn)定性評估如表2,該預測方法基于模擬程度較高的 SEEF算法,其 DDG>0表示蛋白質穩(wěn)定性增高,DDG<0表示蛋白質穩(wěn)定性降低[16]。結果表明:pH7.0時15~50℃區(qū)間內(nèi)(常規(guī)蛋白質功能實驗條件),Smad4蛋白 Tyr322Cys和 Glu330Cys突變隨溫度增高穩(wěn)定性增加,Smad6蛋白的 Tyr347Cys和Tyr476Cys同樣隨溫度增高穩(wěn)定性增加。Smad7突變位點Tyr375Cys隨溫度增高穩(wěn)定性增加,但Lys373Met突變后穩(wěn)定性增加幅度不隨溫度增高而變化,DDG穩(wěn)定在0.241±0.009的水平。該修飾預測結果有助于為進一步研究Smad蛋白的功能提供參考。
圖4 Smad家族四級結構建模與分析
Smad蛋白約由500個氨基酸組成,氨基酸序列的相似性在Smad亞家族內(nèi)極高;亞家族間則較低[1]。氨基酸聚類分析可見Smad蛋白家族能明顯分為8個獨立的分支。然而Smad1,5,8在聚類的分支中存在少許交叉,表明三者遺傳關系較近,可能在結構和功能上有相似之處。在保守序列分析與3-D結構建模的分析中可見Smad1,5,8具有極為相似的結構域和功能域,這與Smad1,5,8同為R-Smads相一致。二級結構與三級結構分析表明Smad蛋白均由一個連接區(qū)域連接兩個球形的高度保守結構域。一個為N-末端結構域MH1,另一個為C-末端結構域MH2[17]。信息學預測出Smad6和Smad7亞細胞定位于線粒體中且具有相似跨膜區(qū)域,預測其功能可能與線粒體內(nèi)的信號轉導和核酸轉錄調控相關。X-Ray對Smad蛋白質的晶體結構剖析結果表明:幾乎所有的R-Smad和Co-Smad均具有相對保守的發(fā)夾結構且與MH1相連。理化性質的比較分析表明通過等電聚焦電泳和消光系數(shù)測定兩種方法能夠有效的對Smad蛋白進行快速分類。
表2 不穩(wěn)定Smad蛋白突變后的穩(wěn)定性預測
Co-Smad和I-Smad日益受到腫瘤研究人員的關注。有觀點認為經(jīng)磷酸化后R-Smad能夠與Co-Smad結合穿過細胞核膜與其他轉錄子形成抑制復合物,進而影響靶基因的表達[18]。臨床回顧性分析結果表明,Smad4在膀胱癌和大腸癌等多種癌癥疾病中均表現(xiàn)出與血管組織生成和腫瘤細胞生長相關[19]。研究發(fā)現(xiàn)腫瘤發(fā)生與激活的原因可能與Smad6和Smad7的超表達有關[20]。在癌基因小鼠研究中,Smad7能夠促使鱗癌惡化,而 Smad6不具有該功能[21]。因而本研究重點關注 Co-Smad和 I-Smad。并對體外極不穩(wěn)定的Smad4,6,7其進行蛋白修飾預測,預測結果表明突變位點的選擇達到預期,具有增加蛋白穩(wěn)定性的作用。Smad蛋白質的穩(wěn)定性評估有益于對蛋白質功能研究提供穩(wěn)定可靠的條件[22]。更為重要的是,對體內(nèi)Smad基因的SNPs和突變體進行預測能夠有助于病情的診斷與預測。