劉新宇,蔡興勇,王安虎,蔡光澤
(1.四川大學生物治療國家重點實驗室,成都 610041;2.西昌市農牧局,四川 西昌 615000;3.西昌學院,四川 西昌 615013)
苦蕎麥(Fagopyrum tataricum(L.)Gaertn.),屬于蓼目(Polygonales),蓼科(Polygonaceae),蕎麥屬(Fagopyrum),別名菠麥、烏麥、花蕎等,一年生假谷物禾谷類作物??嗍w與何首烏、大黃等同屬蓼科,是我國藥食同源文化的典型體現(xiàn)[1-3]。
苦蕎廣泛分布于世界各地,主要集中于北半球包括中國、俄羅斯、韓國、尼泊爾、不丹、印度北部和歐洲西北等國家和地區(qū)[2]。從垂直分布看,其主要分布在400~4 400 m海拔高度的多山地區(qū)。特別是我國西南地區(qū)(四川、云南、貴州和西藏)的一些高寒、邊遠、干旱的山區(qū)和少數(shù)民族聚居地,苦蕎是當?shù)氐闹饕Z食作物和經濟作物。目前認為,其種植起源于亞洲東北部,是我國最古老的栽培作物之一??嗍w營養(yǎng)豐富,含有豐富的蛋白質、脂肪、維生素、礦物質元素,尤其富含生物活性物質——黃酮類化合物??嗍w蛋白質含量豐富,含有20種氨基酸,包括人體所必需的8種氨基酸,其中絕大多數(shù)必需氨基酸含量都高于一般糧食作物(如大米、小麥和玉米),尤其以一般植物缺乏的賴氨酸和精氨酸最為豐富;苦蕎富含黃酮類物質,如蘆丁、槲皮素、異槲皮素和花青素等??嗍w中含有的黃酮種類較多,但占總黃酮含量的70%~85%的是蘆丁,且主要分布在葉(3%)和籽粒(0.8%~1.7%)中[3]。蘆丁能夠有效抑制葡萄糖苷酶和淀粉酶活性,具有預防糖尿病發(fā)生,降低血糖,調節(jié)血脂、血壓的作用[3]??嗍w品種不同,其黃酮組成和含量不同。黃酮類化合物的生物合成是通過苯丙烷代謝途徑,這是目前了解的最為清楚的植物次生代謝產物合成途徑,其中許多關鍵酶已經克隆[4]。苯丙烷類代謝途徑在植物界普遍存在,負責合成包括黃酮在內的木質素、香豆素、植物抗毒素和苗類等多種次生代謝產物,在植物的生長發(fā)育、形態(tài)建成、機械支持和抵抗逆境中起著重要作用。在營養(yǎng)素的組成和含量上,苦蕎與禾谷類糧食作物(如水稻和小麥)有很好的互補作用,尤其是在蛋白質、礦物質、維生素上的互補作用;另一方面,苦蕎富含具有預防心血管疾病功能的黃酮物質尤其是蘆丁,這在禾谷類作物中幾乎不存在或極少存在??嗍w因耐寒耐瘠等生產性能優(yōu)勢和富含黃酮的經濟性狀優(yōu)勢受到了人們的廣泛關注。當前,苦蕎作為一種富含黃酮(蘆?。┕δ苄员=∈称范艿綇V泛青睞,特別是國際素食主義者對苦蕎芽菜則是更加追捧,使得提高蘆丁等黃酮的含量成為苦蕎育種的重要目標。盡管苦蕎和其它植物黃酮生物合成途徑基本一致,但合成途徑中所涉及酶的種類、酶學特征及其表達調控機制有所不同,從而引起黃酮種類、含量和分布不同。因此,揭示苦蕎黃酮代謝調控分子機制成為各國苦蕎研究競爭的熱點[4]。
動物、植物與微生物,伴隨著人類共同組成這個地球上的生態(tài)環(huán)境,解碼它們的基因組/基因是研究它們的性狀和進化過程的起點。利用基因組學研究不同種群的遺傳多樣性及其分布,必將有助于發(fā)現(xiàn)新的特有基因和起源、演化、分類方面的新規(guī)律。構建苦蕎麥基因組序列精細圖譜,對苦蕎麥新品種的開發(fā)及研究具有重要意義:基于全基因組數(shù)據(jù)構建分子系統(tǒng)樹,利用苦蕎麥作為蓼目的代表種,并結合已有的甜蕎數(shù)據(jù),確定蓼目的進化地位;探明蕎麥屬基因組中全基因組重復進化歷史,并探討基因組重復與物種分化的關系;結合甜蕎數(shù)據(jù),分析這些物種中的重要基因、基因家族在苦蕎麥基因組中的進化,相關進化對各種蕎麥特殊生物學性狀的起源起到的作用;結合具體的品種特性,從比較基因組學手段研究其特殊性狀或適應性產生的原因;不同含有黃酮類物質的植物,例如甜蕎、金蕎、甜橙、葡萄等植物黃酮合成過程中重要基因的比較研究;苦蕎淀粉合成與儲藏關鍵基因和機制,結合甜蕎數(shù)據(jù),和小麥、水稻等糧食作物相比是否有趨同進化;抗病、抗逆基因挖掘,為后續(xù)品種改良打下基礎;苦蕎的重要農藝學性狀研究;苦蕎的人工馴化歷史及群體分化研究。
比較基因組分析是進行基因組數(shù)據(jù)挖掘的基礎。從已完成全基因組測序的植物基因組中選取10~20個物種,與苦蕎麥基因組進行比較分析,不僅可以判定苦蕎的進化地位,還可以探究重要基因/基因家族的演化歷史、大片段復制等過程,從而對蕎麥特殊生物學性狀的起源和演化提供啟示。
將苦蕎麥注釋出來的基因集序列和已經發(fā)表的基因集序列進行比對和聚類,通過同源基因家族聚類分析,構建基因家族。基于基因家族聚類的結果,可以鑒定出苦蕎麥特有的基因/基因家族以及在苦蕎麥基因組中發(fā)生顯著擴增/收縮的基因家族,這通常會與物種特異性狀相關;對基因家族進行GO/KEGG/InterPro domain功能富集分析,并對一些重要基因家族進行相關深入的分析,圍繞感興趣的重要基因家族進行深入分析,以此來解析苦蕎麥食性形成、環(huán)境適應性等重要生物學問題。
傳統(tǒng)的依據(jù)形態(tài)特征推論系統(tǒng)發(fā)生關系具有一定的局限性,其中一個明顯的弊端就是很難排除趨同進化的干擾。而此前的分子系統(tǒng)學研究往往只使用若干個核基因,若干線粒體基因進行進化樹的構建,在數(shù)據(jù)取樣上存在很強的偏倚性,并不能很好的反映物種之間進化關系。通過全基因組測序的手段,可以得到該物種完整的DNA信息,通過基因組層面的分子系統(tǒng)樹構建,可以較好的解決數(shù)據(jù)偏倚性的問題。完成苦蕎麥的全基因組測序工作后,我們可獲得苦蕎麥所有的基因序列。使用苦蕎麥的基因集合與其它已發(fā)表近緣物種的基因組進行比較,構建直系同源基因家族,可獲得大量保守的單拷貝基因或低拷貝基因。利用這些基因作為分子系統(tǒng)學標記進行聯(lián)合分析,可以從基因組層面回答蕎麥進化地位問題。
正選擇是指將發(fā)生了有利突變,并因此提高了個體適合度的等位基因固定下來的選擇作用?;虻倪M化過程受到了正向選擇,往往反映了該物種對環(huán)境的極大適應性?;诨蚣易寰垲惖慕Y果,對其編碼蛋白的基因計算Ka/Ks值(非同義替換率/同義替換率;用于檢測基因是否受到選擇作用),鑒定苦蕎麥基因組中受到正選擇的基因/基因家族,并對獲得的正選擇基因進行Gene Ontology等功能富集分析,用以解析重要成分、營養(yǎng)價值和抗病等重要科學問題。
基因組重復是植物基因組進化的重要推動力量,因此對基因組重復歷史的研究是植物基因組研究工作中的重頭戲之一,幾乎所有的植物基因組文章都會對此問題進行大篇幅的分析和討論?;蚪M重復后,重復基因在不同群體中的分化可以驅動個體表型的分化,最終導致了物種的分化。因此,一些學者認為基因組重復可能與某些生物類群中物種多樣性的產生密切相關。蕎麥屬植物中是否存在一次或多次類群特異性的基因組重復事件,這些事件是否與苦蕎麥的物種形成及特殊性狀產生是否有關聯(lián),有待進一步研究。
我們可通過鑒定苦蕎麥基因組中的重復基因對,計算所有重復基因對的同義替換率(ds)或四重簡并位點的顛換率(4dtv),繪制所有重復基因對ds值的分布圖,根據(jù)ds或4dtv的分布圖,即可推斷該基因組是否在進化歷史上發(fā)生過基因組重復。同時計算禾本科等植物的重復基因對ds值分布,及禾本科植物與苦蕎麥之間直系同源基因(共線性區(qū)段內)的ds值分布,可進一步判斷重復事件發(fā)生的時間是在禾本科物種分化之后還是與分化之前。
通過對苦蕎麥和其近緣物種的基因組進行共線性比較,針對不同的性狀也可以選擇其它的基因組數(shù)據(jù),以研究它們基因結構的差異以及基因組信息(GC,基因個數(shù),repeat結構等)的差異。
轉座子是一類可以在基因組上移動和增殖的一段不連續(xù)DNA序列,它們的長度從幾百堿基對(base pair,bp)到上萬bp不等。轉座子與宿主基因組的關系類似于寄生蟲與宿主的關系,在宿主的進化中起到了重要的作用,它的移動性和較高的突變特性為基因組提供了產生變化的巨大動力,如增加基因組的可變性,引起基因組大部分的調整和重排,是驅動基因組進化的重要推動力。此外,轉座子的復制和插入基因組當中,可能會產生某些不利影響,例如影響某些功能基因表達,破壞基因讀碼框等,因此轉座子活動在基因組中會受到嚴格的調控,以抑制其活性;但是,越來越多的證據(jù)表明轉座子在基因組中具備一些重要的生物學作用,如部分轉座子可結合轉錄因子從而改變基因的表達調控模式,此外大量的lncRNA(長非編碼RNA)被認為是轉座子來源的或受到轉座子的調控等;同時,轉座子的大量復制和插入,會造成基因組的顯著擴張。比如水稻基因組大小約為373 Mb,短化藥野生稻的基因組大小約為261 Mb,對二者基因組的比較表明,LTR轉座子的差異對基因組大小的差異起到了50%以上的貢獻。因而,我們依據(jù)苦蕎麥基因組重復序列注釋信息,鑒定不同類型轉座子在基因組中所占比例,并進一步分析轉座子活動歷史,能夠解析苦蕎麥基因組擴增的機制。
目前為止,僅有一個苦蕎麥物種基因組數(shù)據(jù)發(fā)表[4-6],同時不同苦蕎麥品系由于同屬不同種,因而基因組差異較大,如果僅進行單一苦蕎麥種基因組測序,無法滿足苦蕎麥基因組學研究和育種需求。近年來,越來越多的工作表明,僅依賴一個參考基因組開展相關的研究工作有很大的缺陷性。大豆的泛基因組研究工作表明,僅依賴已有的栽培大豆基因組,通過重測序手段進行變異檢測,至少漏掉了基因組中1/3的變異位點,原因是重測序無法檢測基因組中高變區(qū)中的SNP信息,這些高變區(qū)往往是基因組中快速進化的區(qū)域,往往受到強烈的自然選擇或人工選擇作用,與性狀的演化關系更為密切。從種質資源的角度,不同苦蕎麥品系具備許多優(yōu)良性狀,對苦蕎麥的育種是重要的補充。通過對苦蕎麥不同種的全基因組測序,能夠獲得苦蕎麥至今為止最完整的基因集合,包括那些只在個別物種中存在的基因,這些基因與各苦蕎麥種的特異性生物學性狀往往密切相關,由此,能夠為相關的育種研究工作提供更完善的目標基因集合。此外,獲得苦蕎麥各物種的全基因組序列后,通過全基因組比對的方式,可以獲得最全面的變異位點信息,更完整的變異位點信息,也能夠為后續(xù)的育種研究工作提供更全面的認識。
基于基因組的深層數(shù)據(jù)以及構建的pan-genome,基于組裝后基因組的全基因組比對,并結合斷點的測序深度分析,鑒定各樣品之間存在的大尺度結構變異(SV、CNV等),結合功能注釋信息分析各類結構變異對表型變異的潛在影響;結合具體性狀和環(huán)境差異及全基因組范圍內的變異情況,從基因家族,序列差異等全方位解析差異發(fā)生的原因及機制,如耐寒、抗病、高產、高海拔適應等。
甜蕎和苦蕎在授粉上有著本質的區(qū)別,簡單來說,苦蕎自花授粉,而甜蕎具有自交不親及其異花授粉特性,因此導致其結實率低下。研究發(fā)現(xiàn)甜蕎有同型花和異型花,同型花常見于野生種中。栽培甜蕎均為異型花,包括兩個類型,即長花柱和短花柱,研究也已表明自花授粉和同類型花間授粉不結實,即自交或同類型花雜交不親和,只有異類型間授粉才能結實。植物學研究表明,在顯花植物中,約有一半以上的植物涉及了自交不親和性。目前該機制在水稻,白菜,甘藍,油菜等作物中已有許多研究,但是苦蕎麥屬的研究尚未出現(xiàn)??嗍w和甜蕎是否屬于同一物種的討論說明其分類尚不明確,其親緣關系較近。在研究中,我們可以選取多個授粉方式不同苦蕎麥屬植物,探討究竟是哪些基因的快速分化導致了兩個物種的生殖分化,及何時發(fā)生了分化;我們可以通過結合之前已有的自交不親和研究結果,在苦蕎麥中進行同源搜索和比對,結合基因家族和正選擇分析等,通過比較基因組學手段對其進行探討,并結合其系統(tǒng)發(fā)育分析,討論其發(fā)生時間,這有望為植物自交不親和提供新的研究模型。
1)同源搜索:苦蕎作為一種食藥兩用植物,最重要的生物活性成分為黃酮,苦蕎中含有的黃酮種類較多,但占總黃酮含量的70%~85%的是蘆丁,且主要分布在葉(3%)和籽粒(0.8%~1.7%)中。黃酮類化合物的生物合成是通過苯丙烷代謝途徑,這是目前了解的最為清楚的植物次生代謝產物合成途徑,其中許多關鍵酶已經克隆。通過同源搜索,鑒定這些基因在苦蕎麥中的同源基因。同時,從文獻中搜集與黃酮類物質有關的基因,例如花青素苷合成通路相關基因,通過同源搜索鑒定這些基因在苦蕎麥中的同源基因。通過比較基因組學分析,結合轉錄組/HPLC分析,了解這些基因在不同蕎麥中(包括甜蕎)的變異信息及組分變異情況,解析并深度挖掘其代謝與調控過程。
2)通過與各個蕎麥物種(甜蕎、苦蕎、金蕎等)的比較基因組學分析結果,如基因家族擴張收縮,特有序列分析等檢測其存在差異的序列/基因/基因家族,結合相應的功能注釋結果,初步解釋其主要活性成分產生差異的問題。
3)對重要基因/調控通路的深入分析:(1)通過檢索主要活性成分合成以及調控相關的基因在苦蕎麥中的結構、拷貝數(shù)以及上下游調控區(qū)域的組成情況,了解成分差異的分子基礎;(2)同時鑒定這些基因在其他近緣物種(甜蕎、苦蕎、金蕎等)的分布,通過序列比對,討論這些基因序列及上下游區(qū)域在近緣物種中是否存在顯著差異,結合具體的HPLC結果或性狀,從序列結構變異層面進一步探討其活性成分合成控制機制:是否發(fā)生重復及重復后的假基因化,插入缺失等等。(3)結合這些基因的系統(tǒng)發(fā)育分析,了解這些基因在其他物種中的進化模式,解析重要成分調控相關基因的起源演化歷程。
4)通過與其他已發(fā)表物種的全基因組多序列比對,檢測SNP、INDEL、SV等全基因組變異信息,進而通過Relative SNV density分析,這里把在單一物種中發(fā)生突變而其他物種保守的區(qū)域稱為SNV,SNV區(qū)域更容易發(fā)生正選擇,因而這些區(qū)域富含選擇性消除區(qū)域。從全基因組范圍內尋找與目標性狀差異相關的基因或者調控元件。
5)對蕎麥屬物種的全基因組數(shù)據(jù)進行深入提取和挖掘,進一步分析與重要目標性狀、調控相關基因在兩者之間的差異,并從全基因組序列層面(基因及結構變異)篩選與成分及含量變異有關的基因及調控元件,解釋其差異的原因。
6)結合轉錄組數(shù)據(jù)[7-8],進一步從調控層面討論這些變異是否導致了其基因表達活性的差別。
苦蕎麥不僅含有豐富的黃酮類化合物,還是一種重要的谷物型糧食作物。而目前最主要的谷物基本上為禾本科植物(小麥、玉米、水稻等)??嗍w麥和水稻等谷物在種子的淀粉積累機制上是否存在相似性,即存在趨同進化,有待進一步研究。趨同進化是指處于不同進化分支的物種,獨立獲得了相似的性狀。趨同進化是近年來基因組學領域的高關注度問題。比如咖啡、茶樹、可可三個物種在進化上關系非常遠,但是都能夠合成咖啡因,基因組數(shù)據(jù)分析表明咖啡因合成的一些關鍵基因如NMT基因在三個基因組中發(fā)生類似的序列變異,從而獲得了咖啡因合成能力。
通過比較苦蕎、小麥、水稻等植物中與淀粉積累有關的基因,并與其它被子植物的對應基因進行比較,可以鑒定出一些在淀粉積累中發(fā)生共有性突變的基因,這些基因有很大的可能性是在進化歷史中發(fā)生了趨同進化。分析苦蕎淀粉積累相關基因可以為趨同進化提供新的范例。
苦蕎分布廣泛,在中國有長期的馴化歷史??嗍w是在什么區(qū)域被馴化的,只有一個馴化中心還是有多個獨立的馴化中心?馴化過程中,苦蕎哪些基因受到了人工選擇的作用?在最近幾十年的品種選育過程中,又有哪些基因進一步受到了人工選擇的作用?苦蕎的性狀變異大,品種很多,不同地理區(qū)域的苦蕎品種均具有自身的特殊性,決定相關性狀的基因是什么?通過不同地區(qū)、不同品種的苦蕎進行全基因組重測序,能夠對以上一系列問題提供啟示,為苦蕎的馴化起源、地方環(huán)境適應性及生物學特征研究奠定理論基礎。
2.6.1 馴化中心研究
作物的馴化歷程研究是作物基礎研究領域最受關注的問題之一,例如菜豆、非洲栽培稻的馴化中心研究均在2014年發(fā)表在Nature Genetics上,而水稻的馴化中心研究在近年多次登上頂級雜志。利用苦蕎的重測序數(shù)據(jù),通過聚類分析,并結合其地理分布情況,我們能夠初步判定苦蕎的起源中心在哪個地理區(qū)域,為作物的馴化研究提供新的范例。在2014年非洲栽培稻基因組工作中,利用大量的重測序數(shù)據(jù),研究人員首先通過聚類分析確定非洲栽培稻來自于OB-V這個分支的野生稻,之后通過野生群體的地理分布研究,確定了非洲栽培稻的馴化中心在非洲西部。
2.6.2 人工選擇基因鑒定
作物的人工選擇一般包括兩個階段,第一階段是漫長的無明顯目的性的人工選擇,第二階段是高效的商業(yè)品種選育階段,兩個階段中人工選擇作用的基因類型是否一致,目前爭議較大,不同作物中的研究有不同的結論,在苦蕎中對該問題展開研究,具有重要的科學意義,對苦蕎乃至所有作物的馴化歷史研究都具有重要幫助。在取樣時涵蓋野生種、地方品種、新育成品種,之后進行全面的分組重測序分析,我們可以對相關問題展開深入分析。
2.6.3 功能基因挖掘揭示性狀遺傳基礎及環(huán)境適應性
通過群體選擇分析,找出不同群體中受選擇的區(qū)段,判斷出到底是那些區(qū)域在馴化或育種過程受到了選擇,結合不同地域群體的表型數(shù)據(jù)信息,挖掘與表型相關的重要性狀基因。結合苦蕎生物特征,研究其表型相適宜的分子機制。以苦蕎耐寒為例,將苦蕎耐寒的樣本分為一類,以不耐寒的樣本分為另一類,對這兩類進行選擇性清除分析,找出其中具有顯著差異的位點。后續(xù)將對這些位點進行功能注釋,找出與耐寒有關的候選基因。在取樣齊全,且性狀數(shù)據(jù)完備的條件下,其它各類性狀包括黃酮含量、產量等均可采取類似方式進行研究。
作物的產量經常會因受到各種各樣的生物和非生物脅迫而造成減產。為了適應不同的生存環(huán)境,植物在進化過程中產生了一系列的應答機制,包括分子信號、轉錄因子調節(jié)及抗性基因家族擴張等。而苦蕎麥作為一種重要的藥食同源作物,其生長也受到了各種外部條件因素的影響。因此對于苦蕎麥的抗病/抗逆基因的挖掘十分必要。通過基因組測序鑒定重要的抗病基因,可為未來的育種工作提供基礎。在完成苦蕎麥的全基因組測序之后,可以結合現(xiàn)有的數(shù)據(jù)資源和苦蕎麥基因組數(shù)據(jù),建立苦蕎麥抗性基因資源數(shù)據(jù)庫,為后續(xù)的抗病/抗逆育種等提供基礎。
苦蕎具有“降血糖、降血壓、降血脂”等功能[3]。因不含谷蛋白,是西方高發(fā)病乳糜瀉病人群主食很好的替代品[9-10],具有較高的基礎研究和應用開發(fā)價值。以往苦蕎的研究主要集中在營養(yǎng)價值評價、生理特性研究、藥用保健功能[2,11]分析和產品加工等方面,近年來不斷發(fā)展和完善的諸如基因組測序等生物技術為苦蕎的遺傳學和生物學活性分子生物學基礎研究開辟了新的途徑,提供了新的手段。應用基因組學研究方法不僅可以解析苦蕎麥物種的遺傳學基礎,還可以為選育高品質的苦蕎新品種提供理論基礎,解決諸如苦蕎因“苦味”導致的口感差、無谷蛋白導致的加工性能不好、提高苦蕎有效活性成份等諸多與苦蕎基礎生物學相關的問題。