張麗麗 耿立格 孫娟 王玉祥 曲志華 李世芳 喬海明
摘要:本研究旨在通過(guò)對(duì)河北省種質(zhì)資源庫(kù)部分亞麻資源進(jìn)行進(jìn)一步的表型鑒定,以期探索亞麻種質(zhì)資源的農(nóng)藝性狀相關(guān)性和聚類研究,用于亞麻新品種選育研究工作。本試驗(yàn)以499份亞麻種質(zhì)資源為材料,應(yīng)用R語(yǔ)言對(duì)亞麻主要農(nóng)藝性狀進(jìn)行相關(guān)性分析,得出各性狀間的相關(guān)系數(shù),并進(jìn)行聚類分析。研究結(jié)果顯示亞麻單株粒重與分莖數(shù)、主莖分枝數(shù)、單株有效果數(shù)存在顯著正相關(guān),株高與工藝長(zhǎng)顯著正相關(guān)。聚類分析將499份資源分成了3類,種群1更有利于亞麻高產(chǎn)育種,種群2有利于抗倒伏亞麻新品種的選育。
關(guān)鍵詞:亞麻;農(nóng)藝性狀;相關(guān)性;聚類分析;R語(yǔ)言
中圖分類號(hào):S563.2
文獻(xiàn)標(biāo)志碼:A
論文編號(hào):cjas20190700124
0引言
亞麻(Linum usitatissimum L.)是亞麻科亞麻屬一年或多年生草本植物[1],按用途可分為油用、纖用和油纖兼用3種類型[2]。河北省是全國(guó)六大油用亞麻產(chǎn)區(qū)之一,年種植面積在3.7萬(wàn)hm2左右。亞麻籽富含α一亞麻酸、膳食纖維及木酚素等保健成分[3],能降低三高、抗腫瘤、抗衰老、預(yù)防老年癡呆、增加智力和保護(hù)視力等[4]。種質(zhì)資源是農(nóng)業(yè)科學(xué)研究尤其是育種研究不可缺少的重要物質(zhì)基礎(chǔ),通過(guò)對(duì)亞麻種質(zhì)資源進(jìn)行鑒定評(píng)價(jià),可挖掘種質(zhì)資源潛力,拓寬遺傳多樣性,有利于突破亞麻育種瓶頸[5]。
“河北省農(nóng)業(yè)生物資源保存中心”始建于1983年,2005年初步建立河北省農(nóng)作物種質(zhì)資源特性評(píng)價(jià)鑒定信息系統(tǒng)[6]。擁有種子低溫保存長(zhǎng)期庫(kù)、中期庫(kù)、短期庫(kù)以及試管苗庫(kù)、超低溫庫(kù)等保存設(shè)施,共收集、保存了57種作物45962份種質(zhì)資源,開(kāi)展了花生口[7]、大豆[8]、黑豆[9]、玉米[10]、小麥[11]等作物資源的相關(guān)研究。張家口市農(nóng)業(yè)科學(xué)院在“八五”期間為該中心登記入庫(kù)亞麻種質(zhì)資源1800多份[12]。這些資源在種子庫(kù)己保存了30年之久,當(dāng)時(shí)國(guó)內(nèi)的亞麻調(diào)查記載標(biāo)準(zhǔn)并不統(tǒng)一,本研究旨在將其中部分資源進(jìn)行繁種更新,并根據(jù)《亞麻種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)》[13]對(duì)其進(jìn)行更規(guī)范化的表型鑒定,以期通過(guò)探索亞麻種質(zhì)資源的農(nóng)藝性狀相關(guān)性和聚類分析研究,為亞麻新品種選育的親本選擇提供數(shù)據(jù)支持,用于輔助亞麻新品種選育研究工作。
隨著數(shù)據(jù)量級(jí)的不斷增大,大數(shù)據(jù)挖掘算法提出了新的需求與挑戰(zhàn)。本研究應(yīng)用數(shù)據(jù)聚類的K-Means算法,結(jié)合R語(yǔ)言的實(shí)現(xiàn),通過(guò)迭代方法實(shí)現(xiàn)了基于Map-Reduce函數(shù)的K-means優(yōu)化算法,并用R程序得以實(shí)現(xiàn)[14-15];最后給出了程序的測(cè)試與應(yīng)用,驗(yàn)證算法的可行性。
1材料與方法
1.1試驗(yàn)材料
“河北省農(nóng)業(yè)生物資源保存中心”提供的500份亞麻種質(zhì)資源(見(jiàn)表1),2018年在河北省張家口市農(nóng)業(yè)科學(xué)院的壩上試驗(yàn)基地繁種更新,每行長(zhǎng)6.67m,行距0.25m,4行區(qū)種植。其中1份由于蒴果開(kāi)裂,果實(shí)脫落未能及時(shí)收獲,共收獲499份材料。
1.2試驗(yàn)方法
試驗(yàn)于2018年在河北省張家口市農(nóng)業(yè)科學(xué)院張北基地進(jìn)行。每小區(qū)1mx6.67m,4行區(qū)種植,田間管理同一般大田。亞麻成熟收獲后,每小區(qū)隨機(jī)收獲10株用于考種,并測(cè)定小區(qū)產(chǎn)量,記載按照《亞麻種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)》[13]進(jìn)行。
1.3數(shù)據(jù)分析
將499份亞麻資源的8個(gè)農(nóng)藝性狀指標(biāo)(株高、工藝長(zhǎng)、分莖數(shù)、主莖分枝數(shù)、單株有效果數(shù)、單株無(wú)效果數(shù)、每果粒數(shù)和單株粒重)作為細(xì)分變量,基于該數(shù)據(jù),采用k-means聚類分析方法,將具有相似屬性的亞麻品種聚為一類,使得同一類品種具有高度的相似性。采用excel計(jì)算各農(nóng)藝性狀平均數(shù),用R語(yǔ)言進(jìn)行各農(nóng)藝性狀的相關(guān)性分析(Pearson相關(guān)系數(shù)、Kendall相關(guān)系數(shù)、Spearman相關(guān)系數(shù))和聚類分析。
2結(jié)果與分析
2.1亞麻種質(zhì)資源各主要農(nóng)藝性狀的相關(guān)性分析
圖1為亞麻種質(zhì)資源各主要農(nóng)藝性狀指標(biāo)的相關(guān)系數(shù)矩陣圖,主對(duì)角線為各指標(biāo)直方圖;主對(duì)角線下方為各指標(biāo)間的散點(diǎn)圖;主對(duì)角線上方從上到下依次為各指標(biāo)間的Spearman相關(guān)系數(shù)、Kendall相關(guān)系數(shù)、Pearson相關(guān)系數(shù)以及Pearson相關(guān)系數(shù)的顯著性檢驗(yàn)的P值[16],背景顏色越接近藍(lán)色,則相關(guān)系數(shù)越接近于1,背景顏色越接近紅色,則相關(guān)系數(shù)越接近于-1。由圖可看出,亞麻種質(zhì)資源的主莖分枝數(shù)、單株粒重均與其他7個(gè)農(nóng)藝性狀存在正相關(guān)關(guān)系,其他各農(nóng)藝性狀間存在正相關(guān)也存在負(fù)相關(guān)。其中,株高與工藝長(zhǎng)顯著正相關(guān),Spearman相關(guān)系數(shù)最大,達(dá)到0.87,與主莖分枝數(shù)和單株無(wú)效果數(shù)存在弱相關(guān)關(guān)系;單株有效果數(shù)與單株粒重、主莖分枝數(shù)、分莖數(shù)顯著正相關(guān),Spearman相關(guān)系數(shù)分別為0.73、0.5、0.52;主莖分枝數(shù)與單株粒重、單株有效果數(shù)均為顯著正相關(guān),相關(guān)系數(shù)分別為0.54、0.50;單株有效果數(shù)與分莖數(shù)顯著正相關(guān),相關(guān)系數(shù)0.52;主莖分枝數(shù)與各性狀均呈正相關(guān),其中與分莖數(shù)和工藝長(zhǎng)的相關(guān)性沒(méi)有達(dá)到顯著水平,與其他5個(gè)性狀均達(dá)到顯著水平,與單株粒重、單株有效果數(shù)的Spearman相關(guān)系數(shù)分別為0.54、0.50;單株無(wú)效果數(shù)除與單株粒重相關(guān)系數(shù)為0外,與其他各性狀相關(guān)顯著,其中與株高、工藝長(zhǎng)和每果粒數(shù)顯著負(fù)相關(guān),與分莖數(shù)、主莖分枝數(shù)和單株有效果數(shù)顯著正相關(guān);每果粒數(shù)與單株粒重存在弱相關(guān)關(guān)系。Pearson相關(guān)系數(shù)的顯著性檢驗(yàn)的P值可用于比較不同類別數(shù)值時(shí)的聚類結(jié)果,從而找出最優(yōu)聚類結(jié)果,該值越大表明組內(nèi)差距越小,組間差距越大,聚類效果越好。
2.2亞麻種質(zhì)資源的K-means聚類分析
應(yīng)用R語(yǔ)言通過(guò)計(jì)算不同K值下簇集中各對(duì)象的輪廓系數(shù)確定最優(yōu)聚類數(shù)[17];然后通過(guò)凝聚層次聚類的方法獲得數(shù)據(jù)集的分布,確定不同類別的中心坐標(biāo)點(diǎn);最后利用k-means方法完成聚類,將這499份資源聚成3類。
2.2.1輪廓系數(shù)輪廓系數(shù)是聚類效果好壞的一種評(píng)價(jià)方式,可以更好實(shí)現(xiàn)對(duì)于聚類效果的判斷[18]。將各指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,根據(jù)輪廓系數(shù)圖(圖2)可以看到,在聚類數(shù)為3時(shí)輪廓系數(shù)達(dá)到了峰值,所以最佳聚類數(shù)為3。
2.2.2各類別的中心點(diǎn)坐標(biāo)中心坐標(biāo)點(diǎn)是用于比較不同類別數(shù)值時(shí)的聚類結(jié)果,從而找出最優(yōu)聚類結(jié)果,該值越大表明組內(nèi)差距越小,組間差距越大,聚類效果越好。由表2可見(jiàn),3個(gè)分群所包含的樣本量分別為141、215、143;各分群的組內(nèi)平方和分別為15353.26、20657.56、15937.71,分群3最高;另外組間平方和占總平方和的53.2%。
2.2.3各分群的概率函數(shù)由各亞麻種質(zhì)資源分群的概率密度函數(shù)圖進(jìn)行分群特點(diǎn)分析如下,詳情見(jiàn)圖3,圖4,圖5。
分群1的特點(diǎn):株高主要分布在50-60cm之間,工藝長(zhǎng)主要分布在25-35cm之間,分莖數(shù)主要集中在0.5-1.5個(gè)之間,主莖分枝數(shù)主要集中在4-6個(gè)之間,單株有效果數(shù)主要在25-35個(gè)之間,單株無(wú)效果數(shù)在0-2個(gè)之間,每果粒數(shù)在6-9個(gè)之間,單株粒重在0.8-1.3g之間。
分群2的特點(diǎn):株高主要分布在35-50cm之間,工藝長(zhǎng)主要分布在18-30cm之間,分莖數(shù)主要集中在0.5-1.5個(gè)之間,主莖分枝數(shù)主要集中在2.5-5個(gè)之間,單株有效果數(shù)在10-25個(gè)之間,單株無(wú)效果數(shù)在0-2個(gè)之間,每果粒數(shù)在5-9個(gè)之間,單株粒重在0.3-0.8g之間。
分群3的特點(diǎn):株高主要分布在55-65cm之間,工藝長(zhǎng)主要分布在30-45cm之間,分莖數(shù)主要集中在0-1.5個(gè)之間,主莖分枝數(shù)主要集中在2.5-5個(gè)之間,單株有效果數(shù)在10-25個(gè)之間,單株無(wú)效果數(shù)在0-1個(gè)之間,每果粒數(shù)在5-9個(gè)之間,單株粒重在0.3-0.8g之間。
3結(jié)論與討論
人們對(duì)農(nóng)作物種質(zhì)資源尤其亞麻種質(zhì)資源的研究結(jié)果分析采用的都是SPSS、DPS或者SAS等軟件[2,19]。目前,R語(yǔ)言分析方法被越來(lái)越多的農(nóng)業(yè)科研人員接受。溫嵐等[20]應(yīng)用R語(yǔ)言對(duì)長(zhǎng)蒴黃麻5個(gè)產(chǎn)量性狀進(jìn)行回歸與相關(guān)分析;肖海霞等[21]采用R語(yǔ)言對(duì)吐魯番驢、疆岳驢及和田青驢的體重和體尺性狀進(jìn)行了相關(guān)和回歸分析;張禎勇等[22]使用R語(yǔ)言對(duì)”3414”肥料效應(yīng)試驗(yàn)結(jié)果擬合了二元二次、三元二次肥料效應(yīng)方程;盛坤等[23]用R語(yǔ)言計(jì)算冬小麥品種品質(zhì)性狀的安全指數(shù);郭敏杰等[24]用R語(yǔ)言對(duì)花生區(qū)試進(jìn)行品種的適應(yīng)性、豐產(chǎn)性和穩(wěn)產(chǎn)性,試點(diǎn)環(huán)境的相關(guān)性、區(qū)分力和代表性分析。
本研究通過(guò)對(duì)499份亞麻種質(zhì)資源的8個(gè)主要農(nóng)藝性狀指標(biāo)按照標(biāo)準(zhǔn)進(jìn)行了規(guī)范化鑒定,并應(yīng)用R語(yǔ)言分析方法進(jìn)行相關(guān)性分析,得出亞麻種質(zhì)資源的主莖分枝數(shù)、單株粒重均與其他7個(gè)農(nóng)藝性狀存在正相關(guān)關(guān)系,其他6個(gè)農(nóng)藝性狀間存在正相關(guān)也存在負(fù)相關(guān),其中單株粒重和分莖數(shù)、主莖分枝數(shù)、單株有效果數(shù)顯著正相關(guān),株高和工藝長(zhǎng)顯著正相關(guān)。從主要農(nóng)藝性狀的相關(guān)性及相關(guān)系數(shù)分析結(jié)果看,分莖數(shù)和主莖分枝數(shù)指標(biāo)會(huì)對(duì)單株有效果數(shù)指標(biāo)產(chǎn)生顯著影響,而單株有效果數(shù)和主莖分枝數(shù)指標(biāo)會(huì)對(duì)單株粒重指標(biāo)產(chǎn)生顯著影響。因此,在亞麻育種親本選擇時(shí),注重對(duì)單株有效果數(shù)和單株粒重的選擇,從而能提高分莖數(shù)、主莖分枝數(shù),提高單株生產(chǎn)力及種子產(chǎn)量,從而達(dá)到高產(chǎn)育種的目的,這為亞麻新品種選育工作的親本選擇提供了新的理論依據(jù)。
應(yīng)用R語(yǔ)言將這499份資源聚成了3類,對(duì)比3個(gè)種群聚類分析結(jié)果發(fā)現(xiàn),種群1在單株有效果數(shù)、單株粒重等性狀上表現(xiàn)更為優(yōu)良,株高、工藝長(zhǎng)等性狀表現(xiàn)較差,容易發(fā)生倒伏。種群2在株高、工藝長(zhǎng)等性狀上表現(xiàn)較好,不易發(fā)生倒伏,其他性狀表現(xiàn)一般。種群3在株高、工藝長(zhǎng)等性狀上表現(xiàn)較差,容易發(fā)生倒伏,其他性狀表現(xiàn)和種群2相似。整體上,種群1各農(nóng)藝性狀表現(xiàn)更為優(yōu)良,更有利于亞麻高產(chǎn)育種,種群2有利于抗倒伏亞麻新品種的選育。此結(jié)論為亞麻新品種選育提供了新的目標(biāo)親本材料。
參考文獻(xiàn)
[1]米君.亞麻(胡麻)高產(chǎn)栽培技術(shù)[M].北京:金盾出版社,2006.
[2]崔翠,周清元,王利鵑,等.亞麻種質(zhì)主要農(nóng)藝性狀主成分分析與綜合評(píng)價(jià)[J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2016,38(12):10-18.
[3]黨占海,趙瑋.胡麻產(chǎn)業(yè)技術(shù)體系[M].蘭州:蘭州大學(xué)出版社,2015
[4]郭永利,范麗娟.亞麻籽的保健功效和藥用價(jià)值[J].中國(guó)麻業(yè)科學(xué),2007,29(3):147-149.
[5]黨占海,趙瑋中國(guó)現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)可持續(xù)發(fā)展戰(zhàn)略研究胡麻分冊(cè)[M].北京:中國(guó)農(nóng)業(yè)出版社,2016.
[6]耿立格,李靈芝,王麗娜,等.河北省農(nóng)作物種質(zhì)資源特性評(píng)價(jià)鑒定信息系統(tǒng)的建立[J].河北農(nóng)業(yè)科學(xué),2005,9(02):70-72.
[7]劉立峰,耿立格,王靜華,等.河北省花生地方品種農(nóng)藝性狀和品質(zhì)性狀的遺傳分化[J].植物遺傳資源學(xué)報(bào),2008,9(02):190-194.
[8]耿立格,宋春風(fēng),王麗娜,等.近紅外光譜無(wú)損測(cè)定大豆種子生活力方法研究[J].植物遺傳資源學(xué)報(bào),2013,14(06):1208-1212.
[9]耿立格,王麗娜,張磊,等.河北省綠子葉黑豆種質(zhì)資源表現(xiàn)型和ISSR標(biāo)記遺傳多樣性分析[J].植物遺傳資源學(xué)報(bào),2010.11(03):266-270.
[10]張磊,耿立格,王麗娜,等.不同玉米自交系萌芽期的抗旱性研究[J].玉米科學(xué),2010,18(04):77-81.
[11]許紅星,許云峰,耿立格,等.我國(guó)小麥農(nóng)家品種和近緣種對(duì)白粉病的苗期抗性[J].中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2011,19(05):1210-1214.
[12]米君.河北省胡麻生產(chǎn)調(diào)研報(bào)告[J].現(xiàn)代農(nóng)村科技,2009(20):49-50.
[13]王玉富,粟建光.亞麻種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)[M].中國(guó)農(nóng)業(yè)出版社.2006.
[14]郭顯娥.K-Means優(yōu)化算法的R語(yǔ)言實(shí)現(xiàn)[J].山西大同大學(xué)學(xué)報(bào):自然科學(xué)版,2018,34(2):27-29,33.
[15]李曉瑜,俞麗穎,雷航,等.一種K-means改進(jìn)算法的并行化實(shí)現(xiàn)與應(yīng)用[J].電子科技大學(xué)學(xué)報(bào),2017,43(1):61-68.
[16]金林,李研.幾種相關(guān)系數(shù)辨析及其在R語(yǔ)言中的實(shí)現(xiàn)[J].統(tǒng)計(jì)與信息論壇,2019,34(4):3-11.
[17]夏士雄,李文超,周勇,等.一種改進(jìn)的k-means聚類算法(英文)[J].Joumal of Southeast University (English Edition),2007(03):435-438.
[18]朱連江,馬炳先,趙學(xué)泉.基于輪廓系數(shù)的聚類有效性分析[J].計(jì)算機(jī)應(yīng)用,2010,30(S2):139-141,198.
[19]張麗麗,劉晶晶,喬海明,等.從俄羅斯引進(jìn)亞麻種質(zhì)資源的農(nóng)藝性狀評(píng)價(jià)[J].中國(guó)油料作物學(xué)報(bào),2017,39(05):698-703.
[20]溫嵐,陳基權(quán),戴志剛,等.長(zhǎng)蒴黃麻產(chǎn)葉量的多元回歸與偏相關(guān)的R語(yǔ)言分析[J].作物雜志,2013(01):49-53.
[21]肖海霞,托乎提·阿及德,石國(guó)慶,等.基于R語(yǔ)言的吐魯番驢體尺和體質(zhì)量相關(guān)分析[J].河南農(nóng)業(yè)科學(xué),2012,41(10):153-157.
[22]張禎勇,高明文,肖啟銀,等.基于R語(yǔ)言的“3414”肥效試驗(yàn)的統(tǒng)計(jì)分析[J].中國(guó)農(nóng)學(xué)通報(bào),2011,27(27): 127-134.
[23]盛坤,李曉航,王映紅,等.用R語(yǔ)言計(jì)算冬小麥品種品質(zhì)性狀的安傘指數(shù)[J].中國(guó)農(nóng)學(xué)通報(bào),2017,33(25):8-12.
[24]郭敏杰,鄧麗,任麗,等基于R語(yǔ)言的AMMI和GGE雙標(biāo)圖在花生區(qū)試中的應(yīng)用[J].花生學(xué)報(bào),2017,46(02):24-31.
[25]張麗麗,米君,李世芳.胡麻種間雜交種主要農(nóng)藝性狀與產(chǎn)量的關(guān)系研究[J]。河北農(nóng)業(yè)科學(xué),2014,18(03): 76-78,88.
基金項(xiàng)目:現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)資金資助項(xiàng)目“胡麻抗逆育種崗位”(CARS-14-1-08);國(guó)家科技資源共享服務(wù)平臺(tái)“國(guó)家農(nóng)作物種質(zhì)資源共享服務(wù)平臺(tái)”(NICGR2018-23);河北省現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系油料產(chǎn)業(yè)創(chuàng)新團(tuán)隊(duì)“特色油料崗位”(HBCT2018090204)。
第一作者簡(jiǎn)介:張麗麗,女,1983年出生,河北保定人,副研究員,碩士研究生,主要從事胡麻新品種選育及栽培技術(shù)研究。通信地址:075000張家口市經(jīng)開(kāi)區(qū)惠通街張家口市農(nóng)業(yè)科學(xué)院,Tel:0313-7155779,E-mail:zhanglili57@126.com。
通訊作者:?jiǎn)毯C?,男?965年出生,張北人,研究員,本科,主要從事胡麻新品種選育及栽培技術(shù)研究。通信地址:075000張家口市經(jīng)開(kāi)區(qū)惠通街張家口市農(nóng)業(yè)科學(xué)院,Tel: 0313-7155774,E-mail:qhm1965@163.com。
收稿日期:2019-07-16,修回日期:2019-08-30。