吳建忠
(黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所,哈爾濱 150086)
主成分回歸法對(duì)亞麻纖維產(chǎn)量的綜合評(píng)價(jià)
吳建忠
(黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所,哈爾濱 150086)
研究通過對(duì)亞麻12個(gè)農(nóng)藝性狀的相關(guān)性分析,確定亞麻纖維產(chǎn)量相關(guān)顯著的農(nóng)藝性狀,利用主成分分析原理進(jìn)行相關(guān)性狀的降維處理,消除亞麻纖維產(chǎn)量綜合評(píng)價(jià)中存在的性狀間多重共線性影響,對(duì)亞麻纖維產(chǎn)量進(jìn)行綜合評(píng)價(jià)。結(jié)果表明,主成分回歸法可以有效消除亞麻纖維產(chǎn)量綜合評(píng)價(jià)中出現(xiàn)的性狀間多重相關(guān)性問題,該法可對(duì)亞麻纖維產(chǎn)量進(jìn)行綜合評(píng)價(jià),為作物產(chǎn)量的綜合評(píng)價(jià)提供新思路。
亞麻;纖維產(chǎn)量;主成分回歸;綜合評(píng)價(jià)
亞麻(Linum usitatissimumL.)是亞麻科亞麻屬,一年生草本長(zhǎng)日照經(jīng)濟(jì)植物,是主要韌皮纖維作物之一,在紡織、化工、建材、裝飾、醫(yī)藥等行業(yè)中有廣泛應(yīng)用,具有高經(jīng)濟(jì)附加值[1]。亞麻產(chǎn)業(yè)發(fā)展前景廣闊,如何對(duì)亞麻前端產(chǎn)業(yè)(亞麻纖維產(chǎn)量)進(jìn)行合理評(píng)價(jià)一直是亞麻育種工作者探索方向。
纖維亞麻育種目標(biāo)是培育原莖產(chǎn)量高、出麻率高、纖維品質(zhì)好、種子產(chǎn)量高、抗逆性強(qiáng)、適應(yīng)性廣、抗倒伏的新品種,以滿足工農(nóng)業(yè)生產(chǎn)需要。中國(guó)亞麻育種工作開始于19世紀(jì)50年代,主要是農(nóng)家品種整理及種質(zhì)資源引進(jìn),目前我國(guó)亞麻育種重點(diǎn)是高纖育種,抓緊吸收和利用國(guó)內(nèi)外優(yōu)良品種資源,選育出我國(guó)高纖品種[2]。纖維含量性狀具有廣泛遺傳多樣性,吳廣文等研究發(fā)現(xiàn),育成全麻率40%品種可能性大,但獲得高麻率的同時(shí),經(jīng)常出現(xiàn)纖維質(zhì)量下降現(xiàn)象[3],育種者需要可靠、有效的方法確定纖維含量。
主成分回歸法應(yīng)用于農(nóng)作物產(chǎn)量綜合評(píng)價(jià)報(bào)道較少,亞麻纖維產(chǎn)量綜合評(píng)價(jià)是育種工作亟待解決的問題之一,目前亞麻纖維評(píng)估方法僅見利用亞麻莖中段出麻率快速估算單株出麻率,提高亞麻纖維估測(cè)效率[4]。本研究旨在提出一種快速而簡(jiǎn)單的亞麻纖維產(chǎn)量綜合評(píng)價(jià)方法,通過對(duì)亞麻纖維產(chǎn)量相關(guān)性狀進(jìn)行深入分析,采用主成分回歸分析,探討纖維產(chǎn)量性狀間相關(guān)性及影響亞麻纖維產(chǎn)量主成分因子,為亞麻纖維產(chǎn)量的綜合評(píng)價(jià)提供技術(shù)支持和理論依據(jù),為選育高纖亞麻新品種提供科學(xué)依據(jù)。
1.1 試驗(yàn)時(shí)間、地點(diǎn)
本研究供試的亞麻材料來源于黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所亞麻育種研究室育種圃品種(系),分別于2012年和2013年在黑龍江省農(nóng)業(yè)科學(xué)院國(guó)家高新技術(shù)產(chǎn)業(yè)示范園區(qū)(民主鄉(xiāng))種植并取樣考種收集數(shù)據(jù)。
1.2 試驗(yàn)材料
通過隨機(jī)取樣方法,從試驗(yàn)地育種圃抽取樣本52份,3次重復(fù)進(jìn)行數(shù)據(jù)測(cè)量,收集12個(gè)亞麻性狀。
1.3 試驗(yàn)方法
1.3.1 試驗(yàn)設(shè)計(jì)
在試驗(yàn)地塊隨機(jī)播種,2 m×1 m區(qū)設(shè)置,小區(qū)3次重復(fù),行距為15 cm,播種均勻不斷條,田間管理按常規(guī)方式進(jìn)行,收獲考種盡量保持一致。
1.3.2 性狀考查及數(shù)據(jù)處理
亞麻農(nóng)藝性狀調(diào)查參照文獻(xiàn)[5]。
利用DPS-v9.50數(shù)據(jù)處理系統(tǒng)[6]和Microsoft Ex?cel 2003數(shù)據(jù)分析軟件進(jìn)行數(shù)據(jù)整理及分析,具體分析如下:取各性狀考種結(jié)果項(xiàng)2年3次重復(fù)的平均值進(jìn)行一般統(tǒng)計(jì)量描述及分析,對(duì)性狀指標(biāo)進(jìn)行相關(guān)性分析,對(duì)亞麻纖維產(chǎn)量相關(guān)性狀進(jìn)行主成分分析,對(duì)所得公因子進(jìn)行多重共線性回歸分析,探討各相關(guān)性狀對(duì)亞麻纖維產(chǎn)量的影響作用,進(jìn)行亞麻纖維產(chǎn)量的綜合評(píng)價(jià)。
2.1 試驗(yàn)材料的一般統(tǒng)計(jì)量表現(xiàn)
田間測(cè)量及室內(nèi)考種所得12個(gè)亞麻性狀(見表1),分別以代號(hào)(X1~X12)表示,由其一般統(tǒng)計(jì)量描述可見,生育期(X1)約74 d,變異方差較小,其變異系數(shù)只有2.94%,表明該性狀變化較??;出苗數(shù)(X2)和收獲株數(shù)(X3)變化范圍及方差均較大,其變異系數(shù)分別達(dá)16.44%和19.40%,屬于人工改良空間較大的性狀;株高(X4)和工藝長(zhǎng)度(X5)變幅也較大,但其變異系數(shù)較小,表明該性狀在低世代選育可起關(guān)鍵作用;分枝數(shù)(X6)和蒴果數(shù)(X7)變異方差均較小,但其變異系數(shù)都較大,分別達(dá)16.78%和25.39%,應(yīng)此這兩個(gè)性狀可考慮在低世代適當(dāng)放寬選擇強(qiáng)度,在高世代進(jìn)行嚴(yán)格選育;干莖制成率(X8)是干莖產(chǎn)量占原莖產(chǎn)量的百分?jǐn)?shù),其變異方差較小,但反應(yīng)干莖產(chǎn)量和原莖產(chǎn)量雙重影響,因原莖產(chǎn)量(X10)變異方差最大,達(dá)1 400 520.98,其變異系數(shù)也較大,達(dá)15.50%,而干莖制成率(X8)變異系數(shù)卻較小,表明干莖和原莖變化趨勢(shì)較一致,均可反映纖維的物質(zhì)積累情況,因此亞麻纖維育種在一定程度上應(yīng)注重高世代對(duì)原莖產(chǎn)量(X10)的選育;全麻率(X9)反映纖維重量占干莖重量的比重,其平均值為27.72%,變異方差及系數(shù)分別為9.71和11.24%,是纖維產(chǎn)量重要評(píng)價(jià)因素;種子產(chǎn)量(X11)和纖維產(chǎn)量(X12)變幅、方差及變異系數(shù)較大。
2.2 性狀相關(guān)分析
將亞麻各性狀進(jìn)行遺傳相關(guān)分析,結(jié)果見表2,可見,與纖維產(chǎn)量X12遺傳相關(guān)比較密切的性狀有:原莖產(chǎn)量(X10)、全麻率(X9)、出苗數(shù)(X2)、收獲株數(shù)(X3)、干莖制成率(X8)、株高(X4)、工藝長(zhǎng)度(X5)和種子產(chǎn)量(X11),相關(guān)性狀間關(guān)系見圖1,其中與纖維產(chǎn)量直接相關(guān)的有全麻率(X9)和原莖產(chǎn)量(X10),且都達(dá)極顯著水平,與纖維產(chǎn)量二級(jí)相關(guān)表現(xiàn)顯著的有出苗數(shù)(X2)、收獲株數(shù)(X3)和干莖制成率(X8),其中干莖制成率(X8)與原莖產(chǎn)量(X10)呈顯著負(fù)相關(guān),表現(xiàn)三級(jí)相關(guān)的性狀有株高(X4)、工藝長(zhǎng)度(X5)和種子產(chǎn)量(X11),種子產(chǎn)量(X11)通過與出苗數(shù)(X2)及收獲株數(shù)(X3)的極顯著負(fù)相關(guān)作用于原莖產(chǎn)量(X10)從而影響纖維產(chǎn)量(X12),株高(X4)、工藝長(zhǎng)度(X5)和干莖制成率(X8)呈極顯著負(fù)相關(guān),從而間接作用于原莖產(chǎn)量(X10)影響到纖維產(chǎn)量(X12)。
表1 性狀一般描述統(tǒng)計(jì)量Table 1 Character description statistics in general
表2 亞麻性狀相關(guān)分析Table 2 Correlation analysis of characters in flax
圖1 纖維產(chǎn)量相關(guān)性狀Fig.1 Fibre yield related traits
2.3 性狀間共線性分析
通過對(duì)纖維產(chǎn)量相關(guān)分析,在其余11個(gè)性狀中選出與纖維產(chǎn)量相關(guān)的8個(gè)性狀,相關(guān)系數(shù)分析(見表2)顯示,部分性狀間的相關(guān)性較高,如果直接進(jìn)行回歸分析可能會(huì)產(chǎn)生嚴(yán)重共線性問題。為揭示這一問題的存在,對(duì)所選8個(gè)性狀進(jìn)行線性回歸分析(見表3),得到回歸方程式:
其中,出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長(zhǎng)度(X5)對(duì)纖維產(chǎn)量(X12)的影響水平不顯著(顯著水平值均大于0.05),同時(shí)該回歸模型殘差分析結(jié)果:R=0.997,決定系數(shù)R2=0.995,調(diào)整相關(guān)R2=0.997,Durbin-Watson值為2.280,接近于2,提示殘差間無明顯相關(guān)性。對(duì)相關(guān)性狀進(jìn)行亞麻纖維產(chǎn)量的多重共線性分析(見表4),各性狀值方差膨脹因子(VIF)均在10以下,但出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長(zhǎng)度(X5)的膨脹因子均接近于10,說明這些性狀間的多重共線性關(guān)系顯著。綜合以上分析,經(jīng)對(duì)這些性狀作一步主成分分析,以消除性狀間的多重共線性關(guān)系。
表3 相關(guān)性狀的線性回歸分析Table 3 Linear regression analysis of related properties
表4 性狀間多重共線性分析Table 4 Multicollinearity analysis of traits
2.4 主成分分析
2.4.1 主成分提取
對(duì)纖維產(chǎn)量相關(guān)性狀進(jìn)行主成分特征值進(jìn)行累積分析(見表5)。
由表5可知,前3個(gè)特征因子的特征值都大于1.8,而且3個(gè)主成分的累積貢獻(xiàn)率達(dá)到75.89%,且均在20%以上。因此,宜提取前3個(gè)特征因子作為主因子進(jìn)行主成分分析,可以概括亞麻生物學(xué)性狀的絕大部分信息,其中第一主成分的貢獻(xiàn)率最大,達(dá)33.66%,第二、三主成分貢獻(xiàn)率分別為21.36%和20.87%。
表5 主成分特征值累計(jì)百分率Table 5 Cumulative rate of principal component characteristic value
為驗(yàn)證亞麻纖維產(chǎn)量相關(guān)性狀間多重共線性分析結(jié)果的真實(shí)性,對(duì)所選因子進(jìn)行載荷矩陣分析,結(jié)果見表6,共同度的大小衡量所提取因子包含原始數(shù)據(jù)的信息量,顯然分析結(jié)果中大部分變量的共同度均高于0.7,說明提取的公共因子可反映原變量的基本情況,因此選擇主因子數(shù)M=3,總貢獻(xiàn)率達(dá)75.89%。
2.4.2 計(jì)算主成分載荷矩陣和特征向量
一般用某一原始變量在主成分上的載荷值表示主成分與原始變量指標(biāo)之間的相關(guān)程度,載荷值越高,表明該主成分包含原始指標(biāo)的信息量越多[7]。從選出的8個(gè)主要性狀在各個(gè)主成分上的特征向量可以表明,主成分1的特征向量中,載荷較高且為正值的性狀有出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)、工藝長(zhǎng)度(X5)和原莖產(chǎn)量(X10),只有種子產(chǎn)量(X11)為負(fù)值,且載荷值較高,表明亞麻出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)、工藝長(zhǎng)度(X5)、原莖產(chǎn)量(X10)和種子產(chǎn)量(X11)是亞麻纖維積累的主要影響因子,而除種子產(chǎn)量(X11)外其余5個(gè)性狀是纖維物質(zhì)積累的正向影響因素,只有種子產(chǎn)量(X11)越大,則纖維積累量越小。
表6 性狀間因子載荷矩陣Table 6 Loading matrix of traits factor
主成分2特征向量中,只有全麻率(X9)的載荷較高,達(dá)到0.69,而全麻率是纖維占干莖重量的比值,結(jié)合性狀相關(guān)分析可見,全麻率是由亞麻品種特性決定的亞麻纖維產(chǎn)量表現(xiàn)的一個(gè)方面,受栽培措施影響較小,因此全麻率不是亞麻纖維產(chǎn)量的作用因子。
主成分3特征向量中,載荷較高且為正值的性狀有株高(X4)和工藝長(zhǎng)度(X5),其特征向量分別為0.62和0.53,而株高和工藝長(zhǎng)度表現(xiàn)極顯著正相關(guān),表明株高越高,工藝長(zhǎng)度越長(zhǎng);載荷較高且為負(fù)值的性狀有出苗數(shù)(X2)和收獲株數(shù)(X3),出苗數(shù)和收獲株數(shù)表現(xiàn)極顯著正相關(guān),這一特征向量中可合理解釋亞麻田間性狀的實(shí)際分布。
通過對(duì)亞麻性狀的主成分分析,可以認(rèn)為主成分1反映亞麻纖維物質(zhì)積累的基本情況,對(duì)主成分1相關(guān)性狀進(jìn)行方差分析,回歸方差達(dá)到極顯著水平,進(jìn)一步多元線性回歸分析,得到回歸方程式:
2.4.3 多元線性驗(yàn)證
為驗(yàn)證線性模型進(jìn)行亞麻纖維產(chǎn)量綜合評(píng)價(jià)的合理性,將7份亞麻品系的田間實(shí)測(cè)值與多元回歸計(jì)算值進(jìn)行比較(見表7),誤差E為差值占實(shí)測(cè)值的百分比。結(jié)果顯示,多元回歸值誤差均在6%以內(nèi),相對(duì)于亞麻纖維產(chǎn)量實(shí)測(cè)值而言,多元回歸結(jié)果可以在一定程度上代表實(shí)際纖維產(chǎn)量。因此,可以利用便于測(cè)量的田間及考種數(shù)據(jù)進(jìn)行亞麻纖維實(shí)際產(chǎn)量的綜合評(píng)估,從而減少纖維測(cè)量的漚麻環(huán)節(jié),提高纖維育種效率。
表7 纖維產(chǎn)量實(shí)測(cè)值與計(jì)算值比較Table 7 Measured values of fiber yield compared with the calculated value
本試驗(yàn)結(jié)果表明,亞麻性狀中X2、X3、X6、X7、X9、X10和X11變異系數(shù)較大,說明可以通過良種選配和改善栽培措施等方法使這些性狀得到較大程度提高。X4和X5變異系數(shù)次之,說明通過良種選配和改善栽培措施等方法可能使這些性狀獲得一定程度的改善;X1和X8性狀間差異不大,其變異系數(shù)均較小,表明這兩種性狀通過良種選配和改善栽培措施等方法改進(jìn)難度較大。
相關(guān)農(nóng)藝性狀間具有制約關(guān)系,即某一性狀的提高有可能使得另外一個(gè)或幾個(gè)性狀下降,因此在選擇育種中只有達(dá)到平衡才能培育出高優(yōu)品種。在作物相關(guān)性狀綜合評(píng)價(jià)中提出利用主成分回歸進(jìn)行各相關(guān)性狀分析,目的在于消除變量間的相關(guān)性,使得最終回歸模型的參數(shù)更加可信,并建立相關(guān)性狀評(píng)價(jià)的合理模型,實(shí)現(xiàn)對(duì)作物某一性狀的綜合評(píng)價(jià)[8-9]。主成分回歸法是將主成分與多元共線性回歸結(jié)合使用的方法,在多元線性回歸中,若自變量之間存在較強(qiáng)共線性,則得出的回歸模型不穩(wěn)定,這時(shí),可用少數(shù)幾個(gè)主成分與應(yīng)變量建立回歸方程,避免上述情況發(fā)生。由于主成分之間互不相關(guān),保證回歸方程穩(wěn)定性,因此該法可處理多重共線性問題[10]。
在主成分分析中,如果大部分變量的共同度都高于0.7,說明提取的公共因子已經(jīng)反映原變量的80%。共同度的大小衡量因子分析中提取的因子包含原始數(shù)據(jù)的信息量,因此本研究對(duì)相關(guān)性狀主成分提取最終得到合理解釋。
本研究通過3種判別方法確定亞麻部分性狀間存在較嚴(yán)重的多重共線性關(guān)系,分別為亞麻部分性狀的相關(guān)系數(shù)接近于1,可認(rèn)為性狀間存在多重共線性;在亞麻相關(guān)性狀的多元線性回歸分析中,決定系數(shù)很大(R2=0.99),但部分偏回歸系數(shù)檢驗(yàn)不顯著,此時(shí)性狀間可認(rèn)為存在多重共線性;最后采用方差膨脹因子VIF判別分析得到,出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長(zhǎng)度(X5)的膨脹因子VIF均接近10,說明這些性狀間的多重共線性關(guān)系顯著。因此,本研究確定亞麻相關(guān)性狀存在顯著多重共線性關(guān)系,有必要進(jìn)行相關(guān)性狀的主成分分析。
通常在作物性狀分析中,采用多元線性回歸方法分析結(jié)果較合理,性狀間關(guān)系與現(xiàn)代農(nóng)業(yè)理論相吻合。但亞麻性狀存在關(guān)聯(lián),受到外界環(huán)境影響,大多多元線性回歸分析的結(jié)果難以采用。多元線性回歸分析結(jié)果不合理性可用主成分回歸分析方法加以校正[11],這種方法能在一定程度上糾正不合理分析結(jié)果。但在少數(shù)情況下,試用主成分回歸分析方法也難以改變不合理結(jié)果。本研究中通過多元線性回歸分析法解釋亞麻纖維積累的影響因素,對(duì)亞麻纖維產(chǎn)量進(jìn)行合理綜合評(píng)價(jià)。因此,主成分回歸法可作為亞麻纖維產(chǎn)量綜合方法。
本研究將亞麻12個(gè)農(nóng)藝性狀進(jìn)行較全面深層次分析,表明主成分回歸分析能有效解決影響亞麻纖維產(chǎn)量綜合評(píng)價(jià)各相關(guān)性狀間存在多重共線性問題。當(dāng)亞麻纖維產(chǎn)量相關(guān)性狀明確后,即可用主成分回歸分析法進(jìn)行亞麻纖維產(chǎn)量綜合評(píng)價(jià)。
[1]Wróbel-Kwiatkowska M,Kulma A,Starzycka E,et al.Improving retting of fiber through genetic modification of flax to express pec?tinases[J].Transgenic Research,2008,17(1):133-147.
[2]康慶華,關(guān)鳳芝,王玉富,等.中國(guó)亞麻分子育種研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科學(xué),2006,39(12):2428-2434.
[3]吳廣文.俄羅斯亞麻資源研究現(xiàn)狀和進(jìn)展[J].黑龍江農(nóng)業(yè)科學(xué),2008(2):148-149.
[4]李明,楊學(xué).一種估測(cè)亞麻出麻率的簡(jiǎn)便方法[J].中國(guó)麻作,2001,23(1):9-10.
[5]王玉富,粟建光.亞麻種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)[M].北京:中國(guó)農(nóng)業(yè)出版社,2006.
[6]唐啟義,馮明光.使用統(tǒng)計(jì)分析及其DPS數(shù)據(jù)處理系統(tǒng)[M].北京:科學(xué)出版社,2002.
[7]Roweis S T,Saul L K.Nonlinear dimensionality reduction by lo?cally linear embedding[J].Science,2000,290:2323-2326.
[8]白志英,李存東,孫紅春,等.小麥代換系抗旱性生理指標(biāo)的主成分分析及綜合評(píng)價(jià)[J].中國(guó)農(nóng)業(yè)科學(xué),2008,41(12):4264-4272.
[9]朱宗河,鄭文寅,張學(xué)昆.甘藍(lán)型油菜耐旱相關(guān)性狀的主成分分析及綜合評(píng)價(jià)[J].中國(guó)農(nóng)業(yè)科學(xué),2011,44(9):1775-1787.
[10]顏虹.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:人民衛(wèi)生出版社,2005.
[11]陳鋒.主成分回歸分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),1991,8(1):20-22.
Comprehensive evaluation of fiber yield in flax with principal compo?nent regression
WU Jianzhong
(Institute of Industrial Crops,Heilongjiang Academy of Agricultur- al Sciences,Harbin 150086,China)
The correlation analysis between the 12 agronomic traits of flax in this study,and the flax fiber production related significant agronomic traits are determined.Comprehensive evaluation for flax fiber production based on the principle of using principal component analysis to reduce the dimension related traits,yield-related traits of flax fiber multivariate linear regression analysis.The results showed that the principal component regression method ccould effectively eliminate the multiple correlation among characters of flax production in the comprehensive evaluation.The method can be integrated assessment of flax fiber production.This study provides a new idea and method for the comprehensive evaluation of crop yield.
flax;fiber yield;principal component regression analysis;comprehensive evaluation
S563.2
A
1005-9369(2014)11-0022-06
2014-07-10
國(guó)家麻類產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)資金(CARS-19);國(guó)家農(nóng)業(yè)部科技支撐計(jì)劃基金(2013BAD01B03);國(guó)家自然科學(xué)青年基金(31401451);黑龍江省農(nóng)科創(chuàng)新青年基金(2012QN009);哈爾濱市科技創(chuàng)新工程青年基金(2013RFQYJ010)
吳建忠(1983-),男,助理研究員,博士研究生,研究方向?yàn)閬喡檫z傳育種。E-mail:wujianzhong176@163.com
時(shí)間2014-11-21 16:40:03[URL]http://www.cnki.net/kcms/detail/23.1391.S.20141121.1640.009.html
吳建忠.主成分回歸法對(duì)亞麻纖維產(chǎn)量的綜合評(píng)價(jià)[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2014,45(11):22-27.
Wu Jianzhong.Comprehensive evaluation of fiber yield in flax with principal component regression[J].Journal of Northeast Agricultural University,2014,45(11):22-27.(in Chinese with English abstract)