孫潤潤,王園園,郭新磊,秦騰飛,張金寶,金翠萍,董濤,王清連*
(1.河南科技學(xué)院,現(xiàn)代生物育種河南省協(xié)同創(chuàng)新中心,河南新鄉(xiāng)453003;2.中國農(nóng)業(yè)科學(xué)院蔬菜花卉研究所,北京100081)
1894年, 威廉·貝特森提出同源異型一詞,用來定義生物中一個正常身體組成部分因發(fā)生不正常排列而變成另一身體部位的現(xiàn)象[1-2]。科學(xué)家們最早在果蠅中發(fā)現(xiàn)了同源異型現(xiàn)象,一只正常果蠅觸角突變成了一對足,進一步研究發(fā)現(xiàn)在果蠅第3 條染色體存在多個同源異型盒基因[3-5],隨后證實該基因廣泛存在于動植物和真菌中[6-10]。 同源異型盒基因家族(Homeobox gene family)編碼產(chǎn)生含有同源異型盒結(jié)構(gòu)域的轉(zhuǎn)錄因子。同源異型盒結(jié)構(gòu)域是由1 段長度約180 bp、 高度保守的DNA 序列編碼產(chǎn)生,60 個氨基酸組成3 個螺旋區(qū)域,其中第1 和第2 個螺旋區(qū)結(jié)合形成環(huán),后兩個螺旋區(qū)結(jié)合形成螺旋-轉(zhuǎn)角-螺旋組成[11]。
同源異型盒基因參與調(diào)控動植物生長發(fā)育過程。在植物中,根據(jù)同源異型盒基因的結(jié)構(gòu)特征,將其分為 14 類:HD-ZIPⅠ、HD-ZIPⅡ、HD-ZIPⅢ、HD-ZIP Ⅳ 、PLINC、WOX、DDT、PHD、NDX、LD、PINTOX、SAWADEE、KNOX 和 BEL,其中 KNOX和BEL 家族基因編碼產(chǎn)生包含63 個氨基酸殘基的非典型同源異形盒結(jié)構(gòu)域, 這63 個氨基酸組成的3 個螺旋區(qū)域中,第1 和第2 個螺旋之間存在3個額外的氨基酸(P-Y-P),所以稱這兩個家族為同源異型盒蛋白超家族[12-13]。
KNOX(KNOTTED1-like homeobox genes)基因家族在植物中廣泛存在, 它具有KNOX1、KNOX2、ELK 和 HOX 4 個典型結(jié)構(gòu)域[9,14]。 研究表明,KNOX通??梢苑譃? 個亞家族:ClassⅠ和ClassⅡ,2 個亞家族基因在植物生長發(fā)育中的調(diào)控作用不同。 在被子植物中,ClassⅠ亞家族基因主要在頂端分生組織中表達, 是形成和維持分生組織的重要基因[15-16]。ClassⅡ亞家族基因表達部位比較廣泛,在根、莖、葉、花等器官中均有表達, 它主要參與調(diào)控植物器官分化[17],此外還參與次級細(xì)胞壁的生物合成[18-19]。
玉米Knotted-1(Kn1)基因是植物中第1 個被發(fā)現(xiàn)的同源異型盒基因[20],隨后KNOX基因在多種植物中被鑒定。例如,在擬南芥和水稻中,分別鑒定到8 個和13 個KNOX基因[9];在大豆中鑒定到27 個[21];在番茄中鑒定到 8 個[22];在毛竹中鑒定到12 個[23];在普通煙草中鑒定到18 個,在二倍體祖先絨毛煙草和林煙草中分別鑒定出 5 個和 8 個KNOX基因[24]。
棉花是世界上最重要的纖維作物之一,KNOX基因在棉花中調(diào)控作用的研究較少。本研究以二倍體棉花石系亞1 號為研究材料,在亞洲棉全基因組序列的基礎(chǔ)上, 以KNOX 家族蛋白質(zhì)結(jié)構(gòu)域為搜索條件,鑒定亞洲棉中KNOX基因,對 KNOX 轉(zhuǎn)錄因子的理化性質(zhì)、進化關(guān)系、基因結(jié)構(gòu)和基因復(fù)制進行分析,并研究KNOX基因的表達模式,為進一步探索棉花KNOX基因的調(diào)控作用奠定基礎(chǔ)。
亞洲棉基因組數(shù)據(jù) (Gossypium arboreum,BGI_V1.0) 下載自 Cottongen 數(shù)據(jù)庫(https://www.cottongen.org/)。 從 Pfam 數(shù)據(jù)庫(http://pfam.xfam.org/)下載KNOX 蛋白結(jié)構(gòu)域的隱馬爾可夫模型文件(PF03790,PF03791)[25]。 以 PF03790 和 PF03791文件為探針,利用HMMER 3.0 軟件搜索亞洲棉全基因組數(shù)據(jù)[26]。 將獲得的蛋白序列分別提交到Pfam、NCBI 保守結(jié)構(gòu)域數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)和 SMART(http://smart.embl-heidelberg.de) 驗證蛋白質(zhì)結(jié)構(gòu)域[27-28],去除不含KNOX 保守結(jié)構(gòu)域的序列。 依據(jù)基因所在染色體及在染色體上的起始位置進行對獲得的KNOX 家族基因進行命名。 將KNOX 家族蛋白序列遞交到EXPASY ProtParam 數(shù)據(jù)庫中(http://web.expasy.org/protparam/),分析蛋白質(zhì)長度、相對分子質(zhì)量和等電點。
Mapinspect 軟件用來繪制基因在染色體上的分布圖,將基因所在染色體和在染色體上的起始位置信息提交到Mapinspect 軟件中, 即可將基因定位于染色體上。 MCScanX 軟件用來查找染色體間的共線性區(qū)域[29-30]。
利用MEGA 7.1 軟件構(gòu)建系統(tǒng)進化樹。 運用ClustalW 的比對方法對KNOX 家族蛋白序列進行多重比對。選擇鄰接法(Neighbor-joining)法構(gòu)建系統(tǒng)進化樹, 具體參數(shù)設(shè)置如下: 采用自展法檢驗(Bootstrap method),校正參數(shù)為 1 000,模型為泊松校驗(Poisson correction),數(shù)據(jù)缺失處理為比對刪除(Pairwise deletion)[26]。
MEME(http://meme-suite.org/tools/meme)工具用來查找KNOX 蛋白質(zhì)的保守基序。 參數(shù)設(shè)置為:輸出基序數(shù)量為10, 根據(jù)KNOX 蛋白質(zhì)結(jié)構(gòu)域的長度,選擇基序的最大長度為51。
根據(jù)亞洲棉全基因組測序注釋文件信息,利用GSDS(http://gsds.cbi.pku.edu.cn/)基因結(jié)構(gòu)顯示系統(tǒng)繪制基因結(jié)構(gòu)示意圖[31]。
從 ccNET 數(shù)據(jù)庫(http://structuralbiology.cau.edu.cn/gossypium/)中下載亞洲棉KNOX基因轉(zhuǎn)錄組數(shù)據(jù)[32],利用公式 log2(FPKM)對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,將處理后數(shù)據(jù)導(dǎo)入Excel,繪制KNOX基因表達量柱形圖。
經(jīng)HMMER 搜索,共獲得26 個候選蛋白質(zhì)序列, 用 Pfam、SMART、NCBI 數(shù)據(jù)庫驗證蛋白質(zhì)結(jié)構(gòu)域,去除不含基本結(jié)構(gòu)域的蛋白質(zhì)序列,共鑒定到23 個GaKNOX 家族成員。根據(jù)基因所在染色體及 在 染 色 體 上 的 起 始 位 置 命 名 為GaKNOX1-GaKNOX23(表1)。在GaKNOX家族基因編碼的蛋白質(zhì)中,GaKNOX6 基因編碼197 個氨基酸, 是編碼氨基酸數(shù)目最少的基因,GaKNOX1編碼氨基酸數(shù)目最多,為483 個氨基酸。 GaKNOX蛋白質(zhì)分子量在21.82 kDa~53.38 kDa, 等電點在4.66~8.53,除 GaKNOX7 外,其它 GaKNOX 蛋白質(zhì)的等電點均小于7, 說明大部分GaKNOX基因編碼產(chǎn)生酸性蛋白質(zhì)。
為了解GaKNOX基因在染色體上的分布情況, 利用MapInspect 軟件繪制染色體定位圖 (圖1)。 23 個GaKNOX基因定位在 11 條染色體上,其中 1、6、11、12 和 13 號 染 色 體 上 均 含 有 1 個GaKNOX基因, 分別是GaKNOX1、GaKNOX10、GaKNOX21、GaKNOX22 和GaKNOX23;3、4 和 7號染色體均含有 2 個GaKNOX基因;5、8 和 10 號染色體上GaKNOX基因的數(shù)目最多, 均含有4 個。利用MCScanX 查找GaKNOX基因的共線性,發(fā)現(xiàn)GaKNOX15 和GaKNOX16 為串聯(lián)重復(fù)。
多重序列比對證實大部分GaKNOX 蛋白質(zhì)具有的 4 個典型結(jié)構(gòu)域 (表1, 圖2), 即 KNOX1、KNOX2、ELK 和 HOX, 但 也 存 在 個 別 例 外 ,GaKNOX6 和 GaKNOX15 僅 含 有 KNOX1 和KNOX2 結(jié) 構(gòu) 域;GaKNOX20 和 GaKNOX23 缺 失ELK 結(jié)構(gòu)域;GaKNOX13 缺失 HOX 結(jié)構(gòu)域。 完整的蛋白結(jié)構(gòu)是發(fā)揮功能的基礎(chǔ),結(jié)構(gòu)域的缺失可能導(dǎo)致功能的喪失。
表1 亞洲棉KNOX 基因家族信息
圖1 亞洲棉KNOX 基因的染色體定位及復(fù)制分析
圖2 亞洲棉KNOX 蛋白質(zhì)多序列對比分析
亞洲棉KNOX基因結(jié)構(gòu)示意圖結(jié)果顯示 (表1,圖3),GaKNOX17 含有 8 個外顯子,是含有外顯子最多的基因;GaKNOX1 和GaKNOX23 有 6 個外 顯 子 ;GaKNOX18 和GaKNOX22 有 4 個 外 顯子;GaKNOX6 和GaKNOX15 含有 3 個外顯子,為外顯子最少的基因; 其余GaKNOX基因均含有5個外顯子。
亞洲棉KNOX 家族成員的進化關(guān)系結(jié)果顯示,GaKNOX 可以分為 2 組,即 ClassⅠ和 ClassⅡ,兩組成員之間基因結(jié)構(gòu)和基序分布較為相似 (圖3)。ClassⅠ包含 13 個成員,可以分為兩個亞組,ClassⅠ A 含 有 GaKNOX15、GaKNOX16、GaKNOX17、GaKNOX7、GaKNOX22、GaKNOX14 和 GaKNOX-18,ClassⅠB 含有 GaKNOX3、GaKNOX5、GaKNOX-21、GaKNOX10、GaKNOX6 和 GaKNOX20。 ClassⅡ 包 含 GaKNOX2、GaKNOX11、GaKNOX12、GaKNOX8、GaKNOX9、GaKNOX19、GaKNOX23、GaKNOX4、GaKNOX1 和 GaKNOX13 共 10 個 蛋白,分為 ClassⅡA 和 ClassⅡB 兩個亞組。
GaKNOX 家族蛋白包含 10 個 motif, 所有成員均含有motif 3 (圖3)。 ClassⅠ所有成員均含有motif 5,部分成員含有 motif 1、motif 2、motif 7、motif 8 和 motif 10 中的 1 個或幾個。ClassⅡ組所有成員均包含motif 1、motif 4 和 motif 7,部分具有motif 8 和 motif 9, 部分具有 motif 2, 部分具有 motif 6。由GaKNOX 蛋白質(zhì)結(jié)構(gòu)域長度及分布分析可以看出,motif 3 與 KNOX1 結(jié)構(gòu)域相對應(yīng);motif 5 和進化樹分支Class I 組的KNOX2 結(jié)構(gòu)域相對應(yīng);motif 4 和 motif 7 與進化樹分支 Class Ⅱ組的KNOX2 結(jié)構(gòu)域相對應(yīng);motif 2 和 HOX 結(jié)構(gòu)域相對應(yīng)。
利用擬南芥、 水稻和亞洲棉的KNOX 蛋白質(zhì)序列構(gòu)建進化樹(圖 4),在 3 個物種中,KNOX 基因家族分成ClassⅠ和ClassⅡ2 組, 每一組又分為兩個亞組。 ClassⅠA 中 GaKNOX15、GaKNOX16、GaKNOX17 和 GaKNOX7 與擬南芥的 AtKNAT1相 似 性 較 高 ; GaKNOX22 、 GaKNOX14 和GaKNOX18 與擬南芥AtSTM 處于同一分支。ClassⅠB 中 GaKNOX10、GaKNOX6 和 GaKNOX20 同擬南芥 AtKNAT2 和 AtKNAT6 相似性較高,而GaKNOX3、GaKNOX5 和 GaKNOX21 與 水 稻 中OSH6 和 OSH71 處于同一分支。 ClassⅡA 中的GaKNOX 同擬南芥中的 AtKNAT7、 水稻中的HOS66 同源性較高。 ClassⅡB 中的 GaKNOX 與擬南芥的 AtKNAT3、AtKNAT4 和 AtKNAT5 同源性較高。
圖3 亞洲棉KNOX 基因結(jié)構(gòu)及編碼蛋白的結(jié)構(gòu)域
圖4 亞洲棉、擬南芥和水稻中KNOX 蛋白質(zhì)進化樹
圖5 亞洲棉KNOX 基因在不同組織中的表達模式
根據(jù)CCNET 數(shù)據(jù)庫下載的轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建GaKNOX基因表達圖 (圖5)。GaKNOX8、GaKNOX9 和GaKNOX15 在所有測定的組織中表達 量 均 較 低 ; 而GaKNOX1、GaKNOX2、GaKNOX11、GaKNOX19 和GaKNOX23 在所有器官中均高表達。GaKNOX12 在開花后20 d 的纖維和種子中的表達量較其他測定組織高。GaKNOX7、GaKNOX16 和GaKNOX17 在根和莖中高表達。GaKNOX13 在營養(yǎng)器官中的表達量高于在生殖器官中的表達。GaKNOX21 在葉和莖中的表達量較高。GaKNOX5 在莖中的表達量最高,開花后10 d的纖維和種子中次之。
目前關(guān)于棉花KNOX基因的報道較少, 僅有Gong 等[33]關(guān)于KNL1 在纖維發(fā)育過程中調(diào)控作用的報道。GhKNL1 是 KNOX 基因 ClassⅡ類的成員,在棉纖維發(fā)育初期表達量較低,隨著纖維發(fā)育表達量逐漸升高,在次生壁合成期達到最高,證明了GhKNL1 參與調(diào)控棉纖維發(fā)育過程。聶曉瑩等[34]通過構(gòu)建GhKNL1 的RNA 干擾載體,分析轉(zhuǎn)基因棉花表型, 發(fā)現(xiàn)GhKNL1 在棉纖維發(fā)育過程發(fā)揮負(fù)調(diào)控作用, 抑制GhKNL1 基因表達影響次生壁發(fā)育相關(guān)基因的表達,進而影響次生壁加厚。 關(guān)于亞洲棉中KNOX家族基因的研究未見報道。
本研究在亞洲棉全基因組數(shù)據(jù)中共鑒定到23個GaKNOX基因,數(shù)目比擬南芥、水稻、玉米和番茄中的KNOX基因多[9,22],且各成員的保守結(jié)構(gòu)域存在差別,如GaKNOX13 缺失HOX 結(jié)構(gòu)域。 擬南芥的KNATM 也缺少HOX 結(jié)構(gòu)域,參與調(diào)控葉片葉近端- 遠端形態(tài)[35],推測GaKNOX13 在棉花中可能也有相似的功能。 GaKNOX20 和GaKNOX23缺失ELK 結(jié)構(gòu)域。GaKNOX6 基因僅編碼197 個氨基酸,GaKNOX15 基因編碼234 個氨基酸,序列分析顯示這2 個基因編碼的蛋白質(zhì)同時缺失ELK結(jié)構(gòu)域和HOX 結(jié)構(gòu)域。 植物家族基因進化過程中不具有典型結(jié)構(gòu)域的家族基因可能是假基因,編碼不完整蛋白質(zhì),但假基因可能進化成新基因[36-37],不具有典型結(jié)構(gòu)域的KNOX基因的功能如何還有待深入研究。
亞洲棉KNOX基因轉(zhuǎn)錄組數(shù)據(jù)結(jié)果顯示,除GaKNOX8 和GaKNOX9 在所有組織中表達量均較低外,ClassⅡ類GaKNOX基因幾乎在測定的所有組織中表達水平都高于ClassⅠ類GaKNOX基因,而大多數(shù)ClassⅠ類GaKNOX基因在7 種不同組織中的表達模式較相似, 在莖中的表達量較高,在其他組織中的表達水平均很低,這種表達模式與已報道的其他物種一致, 表明植物KNOX 蛋白在功能上可能具有高度的保守性[38]。 值得一提的是,ClassⅡ類基因GaKNOX12 在開花后20 d 的纖維和胚珠中的表達量最高,說明其可能參與調(diào)控棉纖維發(fā)育過程中的次生壁形成階段,關(guān)于該基因的功能有待于進一步研究[39-40]。GaKNOX基因在不同組織中的表達模式說明它可能廣泛參與了亞洲棉的生長發(fā)育過程, 本研究為進一步探討KNOX基因在棉花中的調(diào)控機制奠定基礎(chǔ)。