李玉穎,于海洋,呂玉英,楊會,張秀榮,張昆,劉風珍,萬勇善
(山東農業(yè)大學農學院/作物生物學國家重點實驗室/山東省作物生物學重點實驗室,山東 泰安 271018)
花生是全球范圍內重要的油料作物,目前國產花生總量的55%用于榨油[1]。植物油脂是人類飲食的重要成分,含有的多種脂肪酸是維持人體生長、發(fā)育和機體正?;顒拥谋匦柚舅?。此外,植物油脂中含有的不飽和脂肪酸可降低血清膽固醇和甘油三酯,能有效防治心腦血管疾病。植物油脂也是重要的能源和工業(yè)原料,是生物燃料的原料[2]。所以提高籽仁含油量是花生育種的重要目標之一。
植物種子油脂是由脂肪酸和甘油合成的高級脂肪酸甘油酯[3],以三酰甘油的形式儲存于種子中,在成熟種子中主要以油體的形式存在。在脂肪酸合成途徑中,乙酰CoA羧化酶(ACCase)催化的反應是脂肪酸生物合成的限速步驟,是控制碳流進入脂肪酸生物合成的重要調控位點[4]。脂肪酸合酶復合體中的酰基載體蛋白ACP也是脂肪酸合成中的重要蛋白[5,6]。脂肪酸和甘油一般通過Kennedy途徑[7]形成三酰甘油,主要涉及3個?;D移酶——磷酸甘油?;D移酶(glycerol-3-phosph ateacyl transferase,GPAT)[8-10]、溶血磷脂酸?;D移酶(lysophosphatidic acid acyltransferase,LPAAT)[11,12]、二酰甘油脂酰轉移酶(diacyl glycerol acyl transferase,DGAT)[13,14]。
植物油脂合成代謝受到轉錄因子的調控,比如LEC、WRI、DOF[15,16]等。另外,種子發(fā)育階段對油脂積累也有影響,種子發(fā)育早期油脂的積累比較緩慢,開花后21~39天是油脂含量增加最快的時期,種子成熟時油脂含量達到最大值[17]。唐兆秀等[18]發(fā)現(xiàn)花生莢果充實過程中,籽仁粗脂肪含量增長曲線呈拋物線型。同時,激素也可以調節(jié)油脂的積累。高濃度的ABA對于多數(shù)油脂合成途徑中的基因表達具有抑制作用[19]。NAA誘導對脂質合成積累表現(xiàn)出顯著的促進效應[20]。
綜上所述,植物油脂合成代謝是重要的生物學過程,受到許多因素的影響,遺傳機制復雜。利用QTL定位方法研究花生籽仁含油量并挖掘候選基因具有重要意義。近年來花生含油量相關QTL定位研究取得一定進展。郭建斌[21]在B03和A08染色體上檢測到與含油量相關的2個QTLs,貢獻率為9.76% ~22.00%。李新平等[22]在3個種植環(huán)境下檢測到15個與含油量相關的QTLs,分布在LG1、LG7、LG8、LG15、LG16、LG18、LG19共7個連鎖群上,貢獻率為4.64% ~16.24%。Yaduru等[23]在A02、A08、A10、B03、B06、B09染色體上,共獲得8個與含油量相關的QTLs,貢獻率為5.67% ~22.11%。王瑤[24]在4個種植環(huán)境下共檢測到10個含油量相關QTLs,分布在A02、A03、A04、A06、A07、B01、B02、B04染色體上,貢獻率為2.36% ~11.61%。以上是通過構建遺傳圖譜進行連鎖分析獲得的QTL位點,這種方法成本高、耗時長。BSA(bulked segregant analysis)又叫集團分離分析法,是用于基因快速定位的一類分析方法,其選擇群體中兩極端性狀個體構建混池,通過分析兩極端混池的差異獲得與性狀相關聯(lián)的分子標記。它不需要對所有個體進行分析,成本低、效率高,是目前基因定位的有效手段[25]。目前尚未見有利用BSA重測序對花生含油量相關基因定位的研究。本研究以本課題組選育的高油品系農大D666為父本,與普通含油量品種P12雜交,構建F2群體,利用BSA重測序方法分析定位與花生含油量相關的QTLs,為提高花生籽仁含油量及分子標記育種提供參考。
2017年以普通含油量品種P12為母本、高油花生品系農大D666為父本進行雜交,構建了包括568個單株的F2群體。按單株進行收獲,莢果自然曬干。選取飽滿均一的籽仁20 g磨成粉末,取2 g粉末為一個重復,共3次重復。采用索氏提取法[26]測定花生籽仁含油量。
根據(jù)索氏提取法測定的花生籽仁含油量數(shù)據(jù),選取F2群體中極端高油和低油單株各30個,以及兩個親本P12和農大D666,取其幼嫩葉片后用DNA提取試劑盒提取基因組DNA。將30個高油單株和30個低油單株的DNA分別等量混合,構建高油和低油混池。對親本及兩個混池進行重測序,4個樣本分別將DNA進行機械打斷,對DNA片段進行修飾,再用瓊脂糖凝膠電泳選擇200~300 bp的片段,進行PCR擴增形成測序文庫,文庫質檢合格后用Illumina HiSeq平臺進行測序。對測序得到的原始數(shù)據(jù)進行過濾,主要步驟如下:(1)去除帶接頭(adapter)的reads;(2)過濾N含量超過10%的reads;(3)去除低質量reads(質量值低于10的堿基超過50%的reads)。另外,過濾掉同時比對到多條染色體上的reads。
利用bwa[27]軟件將過濾后的reads比對到花生參考基因組(參考基因組下載網(wǎng)址:https://www.peanutbase.org/peanut_genome/)。比對結果使用Picard[28]的Mark Duplicate工具去除重復,使用GATK[29]軟件進行SNP和InDel變異檢測,對變異檢測結果進行嚴格過濾,利用ANNOVAR[30]對SNP和InDel變異檢測結果進行注釋。
篩選親本間純合差異的SNP位點,以高油親本農大D666作為突變型,分析計算兩個子代混池在親本間標記位點的SNP-index(即SNP的頻率)及 ΔSNP-index。計算方法如下:SNP-index(a/b)=Ma/b/(Ma/b+Pa/b),其中:Ma/b表示a/b池來源于突變性狀親本的深度,Pa/b表示a/b池來源于野生性狀親本的深度;ΔSNP-index=SNPindex(a)-SNPindex(b),其中:a代表突變性狀對應的混池,b代表野生性狀對應的混池。選擇1 Mb為窗口、1 kb為步長對ΔSNP-index在各個染色體上的分布進行平滑作圖,選取99%置信水平作為篩選的閾值,置信水平以上的窗口作為與含油量關聯(lián)的區(qū)域。
同時使用ED算法分析與含油量關聯(lián)的區(qū)域,利用兩混池間差異的SNP位點,統(tǒng)計各個堿基在不同混池中的深度,計算每個位點的ED值,ED值越大表明該SNP在兩混池間的差異越大。
ED值計算方法:
其中:Amut表示A堿基在突變性狀混池中的深度,Awt表示A堿基在野生性狀混池中的深度;Cmut表示C堿基在突變性狀混池中的深度,Cwt表示C堿基在野生性狀混池中的深度;Gmut表示G堿基在突變性狀混池中的深度,Gwt表示G堿基在野生性狀混池中的深度;Tmut表示T堿基在突變性狀混池中的深度,Twt表示T堿基在野生性狀混池中的深度。然而實際應用中,混池間的測序量差異會導致ED結果的偏倚,為了消除這種誤差,本項目使用各位點上每種堿基的頻率代替絕對深度值計算ED值,同時為消除背景噪音,對原始ED值進行5次方處理。然后采用局部線性回歸LOESS方法,利用位點的位置信息進行擬合分析。擬合的方法為:每一個SNP擬合后的關聯(lián)值等于前后各n個SNP的關聯(lián)值的中值。取95%的置信水平作為分析的關聯(lián)閾值。將超過閾值的區(qū)域篩選出來,可得到與含油量相關的區(qū)域。
將兩種關聯(lián)分析方法得到的區(qū)域進行比較,重疊區(qū)域作為與含油量相關的候選區(qū)域。利用基因組注釋網(wǎng)站BLAST,對候選區(qū)間內的基因和多態(tài)性位點進行注釋。
母本P12是粉紅花皮小?;ㄉ▓D1),索氏提取法測定含油量為51.90%;父本農大D666是紫黑種皮小?;ㄉ魇咸崛》y定含油量為55.84%,親本之間含油量差異顯著。利用索氏提取法測得F2群體單株含油量最大為61.91%,最小為47.04%,群體含油量變異范圍較大,變異系數(shù)為3.90%(表1)。F2群體單株含油量性狀表現(xiàn)為連續(xù)變異,符合正態(tài)分布,屬于典型的數(shù)量性狀(圖2)。
圖1 親本籽仁比較
圖2 F2群體含油量頻次分布
表1 F2群體含油量分布特性
根據(jù)測得的含油量數(shù)據(jù),在F2群體中選取30個高油單株和30個低油單株分別構建高油和低油混池,并結合兩個親本進行BSA重測序分析。30個高油單株的含油量范圍57.23%~61.44%,平均值為58.37%,30個低油單株的含油量范圍47.04%~51.03%,平均值為49.83%。通過Illumina HiSeq平臺對親本及兩個混池進行全基因組重測序,農大D666、P12、低油混池、高油混池測序數(shù)據(jù)量分別為81.87、82.90、89.69、90.25 Gb,過濾后得到的Clean Reads數(shù) 分 別 為342 714 021、341 342 887、375 501 075、378 106 976,P12和農大D666的平均覆蓋深度為18×,兩混池的平均覆蓋深度為8×。4個樣本測序數(shù)據(jù)Q30為88.74% ~90.24%,GC含量36.42% ~37.74%,與參考基因組的比對率均為100%(表2)。
表2 測序數(shù)據(jù)評估及與參考基因組比對統(tǒng)計
親本P12和農大D666檢測到的多態(tài)性位點分別為509 634、331 882個,檢測到的SNP數(shù)目顯著多于InDel。篩選親本間純合差異位點,共得到271 376個SNP和58 903個InDel。271 376個SNP中有1 885個位于外顯子區(qū),引起非同義突變的SNP共1 253個。58 903個InDel中有246個位于外顯子區(qū),引起移碼突變的共239個。
對于親本間純合差異SNP位點,以低油親本P12為參考,計算兩子代混池的SNP-index,則ΔSNP-index=SNPindex(高油混池)-SNPindex(低油混池)。ΔSNP-index越大,兩混池差異越大,與花生含油量性狀相關性越強。選擇閾值以上的區(qū)域作為與花生含油量相關聯(lián)的區(qū)域。在01號染色體上有3個超過閾值的區(qū)域,這些區(qū)域在基因組上的分布為Arahy.01:15173647~15536277 bp、Arahy.01:15641571~15989924 bp、Arahy.01:16007500~18384005 bp,把相距小于100 kb的區(qū)域合并,得到一個候選區(qū)域Arahy.01:15173647~18384005 bp(圖3)。同時,進行ED關聯(lián)分析,利用混池間差異SNP的深度差異,計算兩混池間的ED值,結果顯示分布于01、03、04、08、13、18共6條染色體的48個區(qū)域出現(xiàn)超過閾值的顯著峰(圖4)。
圖3 兩個子代混池ΔSNP-index在整個基因組上的分布
圖4 兩個子代混池ED值在整個基因組上的分布
把兩種方法得到的重疊區(qū)域作為與花生含油量關聯(lián)的候選基因組區(qū)域,即Arahy.01:15173647~18384005 bp,總長3.21 Mb,在該區(qū)域中共檢測到318個SNP和53個基因。其中300個SNP分布在基因間區(qū),9個SNP位于upstream,1個SNP位于5′UTR,6個SNP位于downstream,2個SNP位于內含子區(qū)。對候選基因組區(qū)域的編碼基因進行多個數(shù)據(jù)庫的深度功能注釋,從基因表達產物參與的生物過程分析,有19個基因的表達產物與蛋白質的合成代謝有關,與氧化還原酶類相關的基因有4個,與跨膜轉運相關的基因有3個,另外還有基因參與微管運動、細胞周期、糖類合成、信號轉導等過程。
通過基因功能注釋分析,在候選基因組區(qū)域內發(fā)現(xiàn)1個與脂質代謝相關的基因Arahy.55ECQ6。該基因位置是Arahy.01:15299758~15304403 bp,全長4 646 bp。Arahy.55ECQ6下游檢測到1個SNP位點。該位點低油池SNP-index為0.200,高油池為0.818,ΔSNP-index值為0.618,說明兩子代混池在該位點差異較大,可能與花生籽仁含油量有關。
本研究利用普通含油量花生品種P12與高油花生品系農大D666雜交構建了1個F2群體,通過BSA重測序分析,獲得1個與花生籽仁含油量相關的候選區(qū)域,在基因組上的分布為Arahy.01:15173647~18384005 bp,總長3.21 Mb,區(qū)間內檢測到318個SNP和53個注釋基因。李新平等[21]在A01染色體上也定位到了與花生含油量相關的QTL,但與本研究所得候選區(qū)域沒有重疊,說明本研究獲得的候選區(qū)域中存在新的QTL位點,可以進一步分析。
本研究預測的候選基因Arahy.55ECQ6編碼磷脂酰肌醇特異性磷脂酶C(PI-PLC)X結構域結合蛋白。PI-PLC是一種真核細胞內酶。它催化1-磷脂酰-d-肌醇-4,5-二磷酸(PIP2)水解成甘油二酯(DAG)和肌醇-1,4,5-三磷酸(IP3)。甘油二酯(DAG)是合成三酰甘油(TAG)的底物。在二酰甘油脂酰轉移酶(DGAT)的作用下,脂酰CoA加入到甘油的sn-3位上,生成三酰甘油。
本研究得到的候選基因組區(qū)域ΔSNP-index擬合曲線峰較平緩,可能由于該區(qū)域的基因位點是一個微效QTL。同時利用ED關聯(lián)分析方法獲得了多個超過閾值的顯著峰,說明還存在其他含油量相關基因位點,為花生含油量相關基因定位研究奠定基礎。