楊帥,郭茂祖,趙玲玲,李陽
(1.北京建筑大學 電氣與信息工程學院,北京 100044; 2.建筑大數據智能處理方法研究北京市重點實驗室,北京 100044; 3.哈爾濱工業(yè)大學 計算機科學與技術學院,黑龍江 哈爾濱 150001)
轉錄組分析是一種快速有效的基因組調查、大規(guī)模功能基因和分子標記鑒定的方法[1]。相較于基因芯片等方法,基于轉錄組測序(RNA-sequencing, RNA-Seq)的方法不依賴基因的先驗知識,能夠覆蓋更大的轉錄組范圍,具有更高的分辨率并且測序成本更低[2]。已有很多學者針對RNA-Seq測序數據進行了研究[3-4],其中不乏使用機器學習進行研究的方法[5-6]。通過RNA-Seq得到的轉錄組測序數據具有樣本量較少(幾十或者幾百個)、基因數極高(通常有上萬個基因)的特點。數據高維的特點導致對其進行分析需要更大的計算資源和時間;同時,傳統(tǒng)的統(tǒng)計方法往往也由于數據維度過高而失效。因此,對數據進行降維,尋找能夠表示其特征空間的最優(yōu)子集成為研究人員需要解決的問題。
常見的轉錄組分析方法主要可以分為兩類:1) 根據已知的生物學領域知識和統(tǒng)計知識對數據進行處理,篩選出相對低維的特征空間進行后續(xù)研究,例如差異表達分析。此類方法[7-8]能夠較快速地獲得特征子空間,但是無法保證子空間能夠保留原始空間的全部信息,從而可能導致最終的效果不盡如意。2) 結合機器學習算法,從樣本的基因全集中選擇若干個基因作為特征構建學習器,并根據學習器的性能和基因在學習器中的重要性(如特征權重)篩選候選基因[5]。此類方法使用學習器的性能作為評判標準,雖然能夠獲得比較優(yōu)秀的特征子集,但是只是針對單一特征進行評價,沒有考慮到基因之間的相互作用。而基因間的相互作用也會導致表型的差異,如此選出的特征子集往往不是最優(yōu)子集。
遺傳算法(genetic algorithm,GA)是一個在全局層面對問題尋找最優(yōu)解的算法,借鑒了自然界中的物種進化規(guī)律,最早由 Holland[9]于1975 年在其專著《自然界和人工系統(tǒng)的適應性》中發(fā)表。遺傳算法每次迭代保留一組候選解,通過模仿生物繁殖的過程產生新的候選解集。使用遺傳算法搜索最優(yōu)特征子空間的優(yōu)勢在于它不需要事先考慮相關的領域知識,并且由于每次迭代都是針對一個種群進行整體評價,因此能夠考慮特征間的相互作用。目前,在各個領域均有學者利用遺傳算法進行研究并發(fā)表了文章。例如,文獻[10]提出了一種結合多目標優(yōu)化和精英策略的遺傳算法,對改進的van-Genuchten (VG)模型進行升級,提高了生物炭改良土壤保水模型的預測能力。文獻[11]中基于遺傳算法設計的自動化方法,能夠優(yōu)化建筑調查激光掃描儀定位網絡,最小化點云數據間的重疊。文獻[12]將遺傳算法用于面部識別領域,并在微表情識別上取得較好的效果。此外,在能源[13]、醫(yī)療[14]、生物信息學[15]等方面,也能發(fā)現相關研究,表明遺傳算法是一個相當成熟的方法,可以應用于多個方面。然而,遺傳算法對適應性度量的定義具有很大的依賴性,不同的適應度定義標準可能會導致最終得到的結果差異巨大。
本文著眼于玉米的轉錄組測序數據,以挖掘影響玉米百粒重性狀的候選基因作為切入點進行研究。挖掘候選基因的過程本質上是特征選擇的過程,即從包含全部基因的特征全集中提取部分基因組成一個特征子集,同時保證使用該子集構建的模型相比于使用全集構建的模型具有更出色的性能。通過融合遺傳算法與XGBoost,對高質量玉米轉錄組測序數據及其產量數據進行分析,得到了調控玉米百粒重性狀的候選基因。在模型的準確性方面,將所用模型與分別采用全體基因和差異表達基因(differentially expressed genes,DEGs)進行訓練的XGBoost模型進行了比較。
此外,傳統(tǒng)生信分析往往在獲得差異基因后直接進行高層分析,這意味著需要從大量候選基因中進行篩選,任務量繁重而且依賴生物學先驗知識。本文方法通過機器學習算法篩選差異基因,有效縮小了候選基因范圍,并且不依賴先驗知識。
本文的整體分析方法流程如圖1所示,首先對RNA-Seq數據進行基因定量,根據基因表達量進行差異表達分析。之后,使用GA-XGBoost根據差異基因和表型數據選擇基因子集,通過對XGBoost模型中特征重要性排序獲得候選基因。最后,對所得候選基因進行功能注釋以驗證方法有效性。
圖1 方法整體流程Fig.1 Method overall process
剛脫機的fastq格式轉錄組測序原始數據中主要包含若干條堿基讀段(read)和其對應的標識信息,開展研究之前,首先需要確定每個讀段由哪一個基因轉錄而來,該基因翻譯了幾次,這個過程稱為基因定量?;蚨恐饕?個步驟。1) 質控,對測序數據進行篩選,去除測序樣本中長度異常的堿基讀段以及樣本中的銜接子(adaptor)序列,提高基因定量的準確性。2) 構建索引,根據參考基因組及其注釋文件獲得測序物種的外顯子和剪切位點信息,構建索引文件,作為堿基序列比對的模板。3) 定量,通過適當的比對算法,逐一將測序數據中的讀段與全部基因比對,確定讀段的來源,每次確定讀段來源時,其對應的基因表達計數加一。完成基因定量后,每一個樣本都會得到一個基因表達矩陣,其中記錄了不同基因的表達信息。
一個樣本組織中,一定量的RNA中轉錄本的量是固定的,但使用高通量測序技術對樣本進行建庫測序時并不能確定一共有多少轉錄本,對所測數據進行比對分析所得的基因的表達水平只是相對的定量;此外,基因長度也會影響轉錄本的讀段數量,基因越長,其對應的表達次數往往也就越高。另一方面,比較基因在樣本間的表達水平時,由于不同樣本往往對應不同的測序深度,測序深度更深的樣本會得到更多的讀段,導致其基因的表達計數更高。因此,在比較不同樣本間的基因表達水平之前,需要尋找一種對數據進行標準化處理的方法,消除基因表達定量過程中由于基因長度與測序深度不同而產生的差異。常用的基因表達量標準化方法有計算其每百萬堿基讀段數[16-17](reads per kilobase per million, RPKM)值或每百萬堿基片段數[18-19](fragments per kilobase per million, FPKM)值:
式中:nr、nf分別為比對至目標基因的讀段(read)、片段(fragment)數量;L為目標基因的外顯子長度之和除以1 000, 單位是千堿基(Kb);N為比對至基因組的有效讀段總量。二者的區(qū)別在于,RPKM是采用讀段的數量進行標準化,FPKM采用的則是片段的數量。當測序方式為雙端測序(pair-end,PE)時,一個片段對應兩個讀段;但當測序方式為單端測序時,使用RPKM與FPKM進行標準化的結果沒有區(qū)別。
一個生物學個體或者組織,在不同的生長發(fā)育周期、不同的組織細胞中,其存在的全體基因并非全部表達,而是根據實際需要部分表達。因此,不同組織或統(tǒng)一組織在不同發(fā)育周期中基因的表達模式存在差異,有的基因大量表達行使功能,有的基因少量表達,另一部分基因則完全不表達。往往,具有相同性狀的個體或組織間,其基因的表達模式相同,性狀相差較大的個體之間,基因的表達模式差別也較大?;谠撉闆r,在通過測序得到基因的表達信息之后,可以根據樣本性狀的分組信息,通過統(tǒng)計學方法對其表達模式進行分析,尋找樣本間差異表達的基因,進而縮小影響性狀的基因范圍。
差異表達分析的缺陷在于,其分析方法依賴樣本的分組信息;另一方面,生物學者進行實驗設計時,往往只針對目標性狀進行統(tǒng)計,但檢測到的差異基因同時包括其他無關性狀的相關基因,這也是導致最終得到的差異表達基因較多的原因,需要后續(xù)針對目標性狀進行深入分析以篩選候選基因。
XGBoost(eXtreme gradient boosting)是陳天奇[20]于 SIGKDD 2016 大會上提出的一種基于梯度提升和決策樹的集成學習方法,能夠有效地學習數據間的關系。
XGBoost使用分類和回歸樹(classification and regression trees,CART)作為基學習器,通過在損失函數中引入正則項控制模型的復雜度以確保泛化能力,正則項包括葉子節(jié)點數和葉子節(jié)點權重的平方和。XGBoost的思想是每次增加一棵樹擬合上一輪預測結果的殘差,通過不斷地增加新樹達到降低損失值的目的,基于加法模型將多個弱學習器集成為一個強學習器,從而獲得一個具有高準確率的機器學習模型。
對于一個包含n個m維特征樣本的數據集D=f(x1,y1),(x2,y2),···,(xn,yn)g,對于第i個輸入xi,XGBoost預測的輸出為
式中:fk表示第k個分類和回歸樹,取值范圍為[1,K]; ωq(x)為分類和回歸樹對樣本結果的預測值;K為模型中設置的分類和回歸樹的總數。
XGBoost需要優(yōu)化的目標函數為
在XGBoost的應用上,文獻[21]將XGBoost與深度學習結合,建立了對肝細胞癌微血管侵犯(microvascular invasion,MVI)的術前鑒定模型;文獻[22]使用XGBoost在肺癌的檢測和復發(fā)預測方面進行了系統(tǒng)研究。文獻[23]從基因表達數據入手,對20種實體瘤的原發(fā)灶進行了推斷;文獻[24]使用XGBoost輔助識別RNA上的N6-甲基腺苷(N6-methyladenosine)位點。這些研究表明XGBoost適用于本文的研究內容。
然而,一般情況下XGBoost模型的效果受到所用訓練數據規(guī)模的影響,當訓練數據集中每一條數據的特征維度都很高但樣本總數又相對較少時,如轉錄組數據,XGBoost往往難以學習到數據中的全部信息,模型的預測效果就會較差。如果能夠在訓練之前,通過特征工程等實現特征篩選,然后訓練模型,便能夠顯著提高XGBoost模型的預測效果,這將在后面的表2中有所體現。因此,如何對輸入數據進行預處理從而提高XGBoost模型的效果是一個需要考慮的問題。
在生物體中,不同的基因負責調控不同的性狀,因此,挖掘玉米百粒重性狀候選基因的過程本質上是特征選擇的過程。將樣本包含的全部基因視為特征全集,從中提取部分基因構成一個特征子集,同時保證使用該子集構建的模型相比于使用全集構建的模型具有更出色的性能。
遺傳算法是模擬生物界種群演化規(guī)律的隨機搜索算法,主要借鑒種群繁殖過程中個體雜交、染色體交換和基因突變的情況,根據一定的規(guī)則模仿自然選擇生成新一代種群,并通過不斷的重復該過程從而找到最適應環(huán)境的最優(yōu)種群。在遺傳算法中,問題可能的一個解叫做個體,通過一定的編碼規(guī)則轉換為一個唯一的向量表示,稱作染色體,一組可能的解構成一個種群。使用遺傳算法進行特征選擇時,個體適應度的設定對最終所得最優(yōu)子集具有重要的影響,不夠合理的適應度設定將導致最終的子集并非最優(yōu)解。本文將遺傳算法與XGBoost融合,提出遺傳算法-極限梯度提升算法(genetic algorithm-XGBoost,GA-XGBoost),解決了遺傳算法中個體適應性度量的設定問題和XGBoost需要對輸入數據進行預處理的問題,并且保留了兩個算法各自的優(yōu)點。
基于遺傳算法-XGBoost(GA-XGBoost)的特征選擇方法包含個體編碼、種群初始化、自然選擇、染色體交叉和基因突變、迭代結束判斷等步驟。GA-XGBoost算法的流程如圖2所示。
圖2 GA-XGBoost算法Fig.2 GA-XGBoost algorithm
G表示算法設定的迭代次數,偽代碼部分見算法1。
算法 1GA-XGBoost
輸入全特征數據集;
輸出最優(yōu)特征子集。
1) 初始化種群矩陣和迭代次數G;
2) forg= 0;g 3) 利用XGBoost計算個體適應度; 4) 根據適應度隨機選擇個體; 5) 染色體交叉; 6) 隨機基因突變; 7) 生成新種群; 8) if 連續(xù)n代個體平均適應度不變; 9) break 10) end for 11) return 優(yōu)化特征子集。 1) 個體編碼 遺傳算法中,個體指所求問題對應的一組可能的解,編碼指通過一定的規(guī)則將個體轉換為唯一的向量表示。編碼后的向量稱作染色體,向量中的每一位稱作一個基因。 對于n維特征選擇的問題,每一個候選特征對應一個基因,個體表示為一個形如 (x1,x2,···,xn)的n維向量,其中xi2f0,1g,xi=1表示選中第i個特征,否則xi=0。如圖3所示,對于含有6個特征的集合 ff1,f2,f3,f4,f5,f6g, 個體 (1 ,0,0,0,1,1)表示所選特征子集為 ff1,f5,f6g。 2)種群初始化 遺傳算法中種群指多組候選解的集合。此處將種群大小設置為50,個體每個基因位編碼從f0,1g中按照等概率隨機抽取。 3) 自然選擇 自然選擇的過程需要考慮個體對環(huán)境適應性度量的問題。在特征選擇的問題上,遺傳算法中個體的適應度表現為該個體染色體上的基因信息(即選擇的特征)對預測值的影響。 具體地講,使用XGBoost建立回歸樹模型,對種群中每個個體的染色體分別解碼,根據個體所選的特征對實驗數據訓練集進行訓練,并在測試集上根據模型的均方誤差(mean square error,MSE)度量個體的適應性。均方誤差的計算公式為 式中:M為測試集樣本的總數;yi、yi分 別為第i個樣本的真實值和模型的預測值。由式(7)可知,MSE越小表明模型的性能越高。然而,適應度要求個體對環(huán)境適應性越好,則適應度越高。因此,為了保證對環(huán)境適應性更好的個體具有更高的適應度,第i個個體的適應度最終定義為 MSEi表 示使用第i個個體中所選特征訓練的XGBoost在訓練集上的均方誤差。值得注意的是,XGBoost的參數設置在每輪種群間迭代以及個體計算適應度時保持不變,從而保證算法不會由于XGBoost模型的參數問題導致對不同個體的適應度計算產生差異。 根據自然選擇的規(guī)律,種群中適應度大的個體理應有更大的概率保留下來并繁殖下一代,即個體被選中的概率與其適應度成正相關。對于大小為s的 種群P, 設其中第i個 個體idvi的適應度為ftness(i)。為了確保算法的穩(wěn)定性,首先選擇種群中適應度排名最高的k個個體,對于剩下的(s?k)個位置,根據式(2)~(7)計算保留的概率并以此為依據從全部個體中進行隨機選擇。 4) 交叉和突變 遺傳算法中的交叉和突變步驟,模擬的是生物界個體繁殖產生子代的過程。具體來說,針對n維特征選擇的問題,長度為lf的部分父親染色體和長度為lm的部分母親染色體結合,產生子代染色體,其中l(wèi)f+lm=n,該過程稱作交叉,兩部分染色體結合的位置隨機產生,稱作交配點。同時,繁殖過程中還可能發(fā)生基因突變的情況,即染色體中某一個基因的值發(fā)生反轉,從0至1或者從1至0。圖4為本文算法中交叉和突變的示例圖。 圖4 交叉和突變Fig.4 Crossover and mutation 需要指出的是,交叉和突變并不總是發(fā)生的。交叉的目的是為了確保子代能夠產生染色體不同的新個體,從而尋找所求問題新的可能解。突變是為了避免算法陷入局部最優(yōu)解,但若突變幾率較大,也會導致算法在全局最優(yōu)解依然無法穩(wěn)定。 5) 迭代結束判斷 當算法迭代至設定的輪數或者滿足指定的收斂條件,比如連續(xù)多代種群中個體的平均適應度不變,即可認為種群已經成熟,此時算法終止。在最終得到的種群中,選擇適應度最高的個體,對其染色體進行解碼從而獲得所求問題的最優(yōu)特征子集。 GA-XGBoost算法結束后,輸出最優(yōu)特征子集信息。該信息是一個編碼后的向量,根據2.2節(jié)介紹的編碼方法對該向量進行解碼,得到與表型性狀相對應的最優(yōu)基因子集,之后使用該子集中基因的表達量和對應樣本的表型數據訓練XGBoost模型,根據模型對特征的重要性排序信息,選擇排列最靠前的若干基因作為候選基因。 使用GA-XGBoost進行數據處理分為遺傳算法尋找特征和XGBoost評價個體適應度兩部分。遺傳算法尋找最優(yōu)特征時的時間復雜度為O(mG),其中m為種群大小,G為迭代次數,最大時間復雜度為;使用XGBoost計算適應度部分的時間復雜度為,m為特征總數,n為樣本總數,K為XGBoost中樹的總數,d為樹深度。因此,GA-XGBoost算法的時間復雜度為Kmnd))。 此外,其他常用于特征選擇的方法,如基于遞歸特征消除的支持向量機(support vector machine recursive feature elimination,SVM-RFE)[25]算法,SVM模型訓練階段的時間復雜度介于Nsmn)和之間,其中,Ns為模型中支持向量的個數,m為輸入向量的維度,n為訓練樣本的個數;遞歸特征消除(recursive feature elimination,RFE)階段需要迭代的次數為特征數m,每次特征排序的時間復雜度為,因此,SVM-RFE的最大時間復雜度為。當提取候選基因時,輸入基因數據的維度往往上萬,GA-XGBoost算法的時間復雜度優(yōu)于SVM-RFE,并且GA-XGBoost在全局層面的特征選擇能夠考慮基因間的作用關系,這也是SVM-RFE無法實現的。 數據集采用農科院高質量的玉米轉錄組測序數據和對應的百粒重測產數據。對測序數據進行質控后,比對玉米B73 RefGen_v4參考基因組統(tǒng)計樣本中基因的表達水平,并計算FPKM值,對同一實驗條件下的重復樣品,FPKM取所有重復數據的平均值。 所用RNA-Seq數據集,經過與參考基因組比對后,共檢測到539 31個基因,其中表達量不為0的基因個數有419 24個。根據樣本的分組信息,使用基于R包的Deseq2對表達量非零的基因進行差異表達分析。在校驗后P值(P-adjusted,padj)小于0.1的情況下,當 jL FCj>0時,共檢測到934個基因表達上調,占非0基因總數的2.2%,860個基因表達下調,占非0基因總數的2.1%,共計1 794個基因在兩組樣本間差異表達;當jLFCj>1時,共檢測到843個基因表達上調,占非0基因總數的2.0%,699個基因表達下調,占非0基因總數的1.7%,共計154 2個基因在兩組樣本間差異表達。差異表達基因的具體信息見表1, MA圖(M-versus-A plot, MA plot)見圖5。 圖5 差異表達基因的MA圖Fig.5 MA-plot of DEGs 表1 差異表達分析結果 (padj < 0.1,419 24個非0基因)Table 1 Differential expression analysis results (padj < 0.1,419 24 non-zero genes) 3組對照實驗中,第1組使用樣本的FPKM矩陣作為輸入矩陣,第2組使用只含差異基因的FPKM矩陣,同時兩組均使用百粒重產量矩陣作為輸出矩陣,并分別使用網格搜索將XGBoost模型調整到最優(yōu)。第3組實驗首先固定一組XGBoost模型的超參數,然后將該模型結合遺傳算法對包含全部基因FPKM值的矩陣進行特征選擇。在獲得最優(yōu)特征子集之后,以該特征子集作為輸入矩陣訓練XGBoost模型并通過網格搜索將模型調整至最優(yōu)。圖6所示為種群中個體適應度均值關于遺傳算法迭代次數的關系,其中橫軸表示遺傳算法迭代次數,縱軸表示每代種群中個體適應度的均值。由圖6可知算法在第40輪迭代之后開始收斂。 圖6 GA-XGBoost中適應度的變化Fig.6 Change of fitness in GA-XGBoost 將3組實驗得到的模型對同一個測試集進行預測,選擇MSE作為比較3個模型的評判標準,最終得到的結果如表2所示。從表2易知,遺傳算法-XGBoost所得回歸模型在所用數據集上具有最小的均方誤差,說明該模型能夠最好地擬合所用數據。 表2 3種方法的MSETable 2 MSE of three methods 對基于遺傳算法-XGBoost得到的最優(yōu)個體進行解碼得到最優(yōu)基因子集。使用該子集訓練XGBoost模型并通過網格搜索確定最優(yōu)參數,之后根據模型中的特征重要性排序,獲得與實驗樣本百粒重性狀關聯(lián)最大的若干個候選基因。圖7(a)、(b)顯示了不同重要性判斷指標下部分XGBoost模型中重要性較高的基因,橫坐標為模型中該特征的重要性分數,縱坐標為特征名稱,即基因ID。所選特征中具有代表性的有Zm00001d040166(Entrez Gene ID:103 651 852)和 Zm00001d041800(Entrez Gene ID:103 650 619)等。 圖7 XGBoost模型中部分重要特征Fig.7 Part of important features in XGBoost model 相較于傳統(tǒng)生物信息學方法在進行差異表達分析之后,直接使用差異基因作為候選集合尋找目標基因的方式,通過GA-XGBoost算法篩選后的候選集排除了大量的無關基因,具有范圍更小的優(yōu)勢,能夠大幅提高尋找目標基因的效率。表3比較了針對玉米百粒重性狀,經過GA-XGBoost篩選后的結果相較于傳統(tǒng)方法的候選基因集大小差異,其中,差異表達基因的判定條件為padj <0.1,|LFC| > 1。 表3 候選基因數量比較Table 3 Comparison of the candidate genes number 對所得候選基因集,在NCBI(https://www.ncbi.nlm.nih.gov/)網站gene數據庫中搜索基因信息,之后根據候選基因的Gene Symbol在David(https://david.ncifcrf.gov/home.jsp)網站進行基因本體(gene ontology,GO)注釋和京都基因與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)通路分析。 對候選基因的基因本體注釋結果顯示,在生物過程方面,主要涉及細胞氧化還原穩(wěn)態(tài)(GO:0045454)、跨膜轉運(GO:0055085)、細胞壁修飾(GO:0042545)、果膠分解代謝過程(GO:0045490)、碳水化合物代謝過程(GO:0005975)、轉錄調控和DNA模板(GO:0006351、GO:0006355)、金屬離子響應(GO:0010038)等過程;在細胞組分方面,主要涉及內質網膜(GO:0005789)、膜組成成分(GO:0016021)、細胞膜(GO:0005886)、細胞壁(GO:0005618)、細胞核(GO:0005634)等組分;在分子功能方面,主要涉及氧化還原酶活性(GO:0016491)、水解酶活性(GO:0016788)、電子轉移活性(GO:0009055)、蛋白質二硫鍵還原酶活性(GO:0015035)、果膠酯酶活性(GO:0030599)、天冬氨酰酯酶活性(GO:0045330)、蛋白質酪氨酸激酶活性(GO:0004713)、三磷酸腺苷結合(GO:0005524)、葡聚糖轉移酶活性(GO:0004134)、碳水化合物結合(GO:0030246)、蛋白絲氨酸/蘇氨酸激酶活性(GO:0004674)、DNA 結合(GO:0003677)、ATP酶(GO:0016887)等功能。具體的基因本體注釋信息如表4~6所示。 表4 候選基因GO注釋–生物過程Table 4 GO of the candidate genes-biological process 表5 候選基因GO注釋–細胞組分Table 5 GO of the candidate genes-cellular component 表6 候選基因GO注釋–分子功能Table 6 GO of the candidate genes-molecular function KEGG通路分析結果顯示,候選基因主要參與了內質網中的蛋白質加工、氮素代謝、組氨酸代謝、代謝途徑、次生代謝產物的生物合成、戊糖和葡萄糖酸酯的相互轉化、植物激素信號轉導等通路。 詳細信息如表7所示。 表7 候選基因KEGG通路分析Table 7 KEGG pathway of the candidate genes 在分析了轉錄組分析方法的進展后,本文提出了融合遺傳算法與XGBoost的轉錄組分析方法。以高質量的玉米轉錄組測序數據和對應的表型數據作為數據集,研究了影響玉米百粒重性狀的相關基因。首先分析了遺傳算法和XGBoost用于轉錄組分析領域的可行性,提出了融合遺傳算法和XGBoost的方法?GA-XGBoost。在完成轉錄組數據的預處理工作和差異表達分析之后,使用本文所提方法對其進行了分析,實驗得到了48個與玉米百粒重相關的候選基因,并對其進行了基因本體注釋和KEGG通路分析。同時,將本文方法所得模型與分別使用全體基因和差異表達基因進行訓練的XGBoost模型進行了比較,在預測結果的準確性上,GA-XGBoost模型具有最低的均方誤差,達到3.752,低于使用全體基因的9.183和使用差異表達基因的7.689;在候選基因的范圍上,從傳統(tǒng)方法直接對154 2個差異表達基因進行分析的基礎上縮減到驗證48個候選基因,表明本文所提方法能夠有效提升對轉錄組數據的分析能力和效率。 本文雖然實現了對于影響玉米百粒重性狀的候選基因挖掘,但仍存在不足之處。融合遺傳算法和XGBoost的轉錄組分析方法,雖然能夠得到范圍更小的候選基因,但是GA-XGBoost算法本身因為使用遺傳算法的原因,導致尋找最優(yōu)子集時可能會消耗較長時間;XGBoost由于具有較多的參數,而使用網格調參時,隨著參數的增多計算時間會大幅增加,如何快速且低消耗地尋找到合適參數使得模型達到最優(yōu)也是值得探討的問題。此外,通過功能注釋雖然能夠在一定程度上表明所選基因與百粒重相關,但還需要進一步構建基因調控網絡等步驟切實證明所選基因合理可靠,這將是本課題之后的研究方向。2.3 候選基因提取
2.4 GA-XGBoost時間復雜度分析
3 實驗結果與分析
3.1 差異表達分析
3.2 基于GA-XGBoost的表型相關基因挖掘
3.3 候選基因功能注釋
4 結束語