楊利娟,金武,黃珊珊,聞海波, 馬學(xué)艷,唐小林,王衛(wèi)民,曹小娟
1.華中農(nóng)業(yè)大學(xué)水產(chǎn)學(xué)院/教育部長(zhǎng)江經(jīng)濟(jì)帶大宗水生生物產(chǎn)業(yè)綠色發(fā)展工程研究中心/ 農(nóng)業(yè)農(nóng)村部淡水生物繁育重點(diǎn)實(shí)驗(yàn)室,武漢430070;2.中國(guó)水產(chǎn)科學(xué)研究院淡水漁業(yè)研究中心/中美淡水貝類種質(zhì)資源保護(hù)及利用國(guó)際聯(lián)合實(shí)驗(yàn)室,無(wú)錫 214081
環(huán)棱螺俗稱螺螄、豆田螺、石螺,隸屬于腹足綱(Gastropoda)、前鰓亞綱(Prosobranchia)、田螺科(Viviparidae)、環(huán)棱螺屬(Bellamya)。環(huán)棱螺屬常見(jiàn)的種有銅銹環(huán)棱螺、方形環(huán)棱螺和梨形環(huán)棱螺等[1]。因有著營(yíng)養(yǎng)價(jià)值高[2]、用途多[3]的優(yōu)點(diǎn),環(huán)棱螺越來(lái)越受到人們的關(guān)注和喜愛(ài)[4-5]。然而,隨著長(zhǎng)江全面禁漁推行,作為水域生態(tài)系統(tǒng)中重要成員的環(huán)棱螺已被納入禁捕行列。因此,開(kāi)展環(huán)棱螺繁育工作以推進(jìn)其養(yǎng)殖業(yè)發(fā)展勢(shì)在必行。
目前,環(huán)棱螺育種重點(diǎn)關(guān)注體質(zhì)量性狀的遺傳改良[6],但在育種過(guò)程中常因種群保管不善、養(yǎng)殖水環(huán)境劇變、餌料不適口及流行性疾病暴發(fā)等因素導(dǎo)致環(huán)棱螺死亡。雖然環(huán)棱螺死亡個(gè)體形態(tài)學(xué)數(shù)據(jù)(如殼高、殼寬、殼口高和殼口寬等)仍能測(cè)量獲得,但其體質(zhì)量數(shù)據(jù)則會(huì)缺失。育種數(shù)據(jù)缺失的處理包括直接刪除[7]、嘗試填補(bǔ)[8]、不處理[9]3種方法。在實(shí)踐中,因?yàn)橛N性能優(yōu)異的個(gè)體來(lái)之不易,為了盡可能利用所有的信息,往往需要對(duì)缺失值進(jìn)行處理。本研究基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)功能,利用測(cè)得的環(huán)棱螺4個(gè)形態(tài)學(xué)數(shù)據(jù)和體質(zhì)量數(shù)據(jù)構(gòu)建模型,繼而對(duì)缺失的體質(zhì)量數(shù)據(jù)進(jìn)行預(yù)測(cè)并評(píng)估其效率,以期為環(huán)棱螺選擇育種提供高效的數(shù)據(jù)分析工具。
從陽(yáng)澄湖、太湖、江陰、官蓮湖、洪湖和仙桃共采集獲得1 045個(gè)環(huán)棱螺,利用游標(biāo)卡尺測(cè)量其形態(tài)學(xué)(包括殼高(SH)、殼寬(SW)、殼口高(AH)和殼口寬(AW))數(shù)據(jù),同時(shí)測(cè)量體質(zhì)量。此外,從微山湖采集201個(gè)環(huán)棱螺,測(cè)量其殼高、殼寬、殼口高和殼口寬。本研究從以上7個(gè)采樣點(diǎn)(含體質(zhì)量缺失的微山湖群體),共采集獲得1 246個(gè)環(huán)棱螺,具體情況見(jiàn)表1。
表1 環(huán)棱螺采樣點(diǎn)和數(shù)目 Table 1 Sampling sites and number of Bellamya
1) 人工神經(jīng)網(wǎng)絡(luò)構(gòu)建。體質(zhì)量未缺失采樣群體數(shù)據(jù)集中隨機(jī)抽取75%的數(shù)據(jù)(784個(gè))用于訓(xùn)練模型,總體數(shù)據(jù)中剩余的25%的數(shù)據(jù)(261個(gè))用于測(cè)試模型。在建模過(guò)程中,經(jīng)過(guò)預(yù)先多次的參數(shù)調(diào)整,人工神經(jīng)網(wǎng)絡(luò)設(shè)定為1個(gè)隱含層和3個(gè)神經(jīng)元的結(jié)構(gòu)。人工神經(jīng)網(wǎng)絡(luò)類似于生物神經(jīng)元結(jié)構(gòu),經(jīng)訓(xùn)練的模型利用輸入的4個(gè)形態(tài)學(xué)數(shù)據(jù)生成1個(gè)輸出預(yù)測(cè)的體質(zhì)量值。神經(jīng)元的輸出都是輸入的加權(quán)和加上偏差的函數(shù)。一旦接收到的信號(hào)總量超過(guò)激活閾值,則每個(gè)神經(jīng)元都執(zhí)行簡(jiǎn)單的操作[10]。每個(gè)典型的神經(jīng)元用數(shù)學(xué)函數(shù)可以表示為式(1):
y=f(x)=∑xiwi
(1)
其中,xi為輸入變量,wi為權(quán)重,i為輸入變量的個(gè)數(shù),1≤i≤n。
2)不同預(yù)測(cè)方法之間的比較。體質(zhì)量數(shù)值預(yù)測(cè)分別采用R統(tǒng)計(jì)軟件[11]的人工神經(jīng)網(wǎng)絡(luò)neuralnet包[12]和mice包[13]中的預(yù)測(cè)均數(shù)匹配法(predictive mean matching,PMM)[14]和隨機(jī)森林預(yù)測(cè)法(random forest,RF)[15]。不同缺失值預(yù)測(cè)的方法統(tǒng)一以模型的決定系數(shù)R2來(lái)進(jìn)行比較[16]。決定系數(shù)的計(jì)算方法為式(2):
(2)
其中,Xt和Xt′分別為第t個(gè)真實(shí)值與第t個(gè)預(yù)測(cè)值。
表2統(tǒng)計(jì)了體質(zhì)量數(shù)據(jù)未缺失的6個(gè)地理群體環(huán)棱螺殼高、殼寬、殼口高、殼口寬和體質(zhì)量數(shù)據(jù)(形態(tài)學(xué)數(shù)據(jù)精確到0.01 mm,體質(zhì)量數(shù)據(jù)精確到0.01 g)。體質(zhì)量數(shù)據(jù)未缺失群體的4個(gè)形態(tài)學(xué)性狀數(shù)據(jù)的分布如圖1所示。本研究構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的微山湖環(huán)棱螺體質(zhì)量為(3.91±1.30) g。微山湖環(huán)棱螺的形態(tài)學(xué)性狀值小于其他6個(gè)地理群體環(huán)棱螺的形態(tài)學(xué)性狀值,本研究基于人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的微山湖環(huán)棱螺的體質(zhì)量也小于其他6個(gè)地理群體環(huán)棱螺的體質(zhì)量(表2),這在一定程度上反映了本研究構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型對(duì)環(huán)棱螺體質(zhì)量預(yù)測(cè)的準(zhǔn)確性。
表2 形態(tài)學(xué)數(shù)據(jù)和體質(zhì)量的描述性統(tǒng)計(jì)(平均值±標(biāo)準(zhǔn)差) Table 2 Descriptive statistics of morphological data and body weights (Mean±SD)
人工神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度經(jīng)多次參數(shù)調(diào)整后,經(jīng)過(guò)622 810次迭代后收斂(圖2)。連接實(shí)線的數(shù)值為該連接的權(quán)重,連接虛線上的數(shù)值為每一步計(jì)算添加的權(quán)重。廣義權(quán)重散點(diǎn)圖顯示,殼高、殼寬、殼口高、殼口寬這4個(gè)性狀對(duì)體質(zhì)量的線性相關(guān)關(guān)系很強(qiáng)(圖3)。殼寬和殼口寬的廣義權(quán)重多數(shù)分布于0附近,說(shuō)明這2個(gè)性狀對(duì)體質(zhì)量的作用相對(duì)較弱。殼高和殼口高這2個(gè)性狀對(duì)體質(zhì)量的作用較強(qiáng),這2個(gè)性狀和體質(zhì)量存在一定的非線性相關(guān)性。
人工神經(jīng)網(wǎng)絡(luò)模型對(duì)環(huán)棱螺體質(zhì)量預(yù)測(cè)的決定系數(shù)為0.96,說(shuō)明該模型具有較高的準(zhǔn)確性。預(yù)測(cè)均數(shù)匹配法和隨機(jī)森林預(yù)測(cè)法的決定系數(shù)分別為0.87和0.85,這說(shuō)明人工神經(jīng)網(wǎng)絡(luò)和其他2種體質(zhì)量缺失值預(yù)測(cè)方法相比,具有明顯優(yōu)勢(shì)。
圖1 微山湖環(huán)棱螺4個(gè)形態(tài)學(xué)性狀數(shù)據(jù)的分布圖Fig.1 Distribution of four morphological traits in Bellamya sampled from Weishan Lake
圖2 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Neural network structure diagram
圖3 廣義權(quán)重的散點(diǎn)圖Fig.3 Scatter plot of generalized weights
人工神經(jīng)網(wǎng)絡(luò)作為一種并行的計(jì)算模型,不需要對(duì)研究對(duì)象的數(shù)據(jù)規(guī)律有大致的了解,只需要通過(guò)網(wǎng)絡(luò)本身的學(xué)習(xí)功能就可以得到網(wǎng)絡(luò)輸入與輸出的關(guān)系[9]。與傳統(tǒng)建模方法相比,人工神經(jīng)網(wǎng)絡(luò)對(duì)非線性相關(guān)的數(shù)據(jù)的學(xué)習(xí)能力更強(qiáng)?;谏窠?jīng)網(wǎng)絡(luò)進(jìn)行缺失數(shù)據(jù)估計(jì)的基本步驟是:利用該系統(tǒng)中的已知數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),在網(wǎng)絡(luò)滿足要求后,把其他參數(shù)的數(shù)據(jù)(不含缺失值)輸入網(wǎng)絡(luò),網(wǎng)絡(luò)輸出值即為缺失數(shù)據(jù)的估計(jì)值[9]。人工神經(jīng)網(wǎng)絡(luò)在一些復(fù)雜系統(tǒng)如飛機(jī)發(fā)動(dòng)機(jī)[9]、農(nóng)業(yè)氣象[17]、原子反應(yīng)堆[18]、農(nóng)田生態(tài)系統(tǒng)[19]、湖泊水體[20]中數(shù)據(jù)處理中已取得了一定進(jìn)展。對(duì)活立木莖干水分缺失數(shù)據(jù)的研究表明,人工神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)的插值方法優(yōu)勢(shì)明顯,且神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)精度受數(shù)據(jù)缺失量增多的影響較小[21]。對(duì)農(nóng)業(yè)生產(chǎn)資料數(shù)據(jù)庫(kù)中缺失數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果也顯著好于傳統(tǒng)的線性插補(bǔ)和加權(quán)分析[22]。與農(nóng)學(xué)研究相似,生態(tài)學(xué)監(jiān)測(cè)中也較易出現(xiàn)缺失值。基于神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)方法也取得了比其他算法更高的精度[23]。本研究率先探索建立了在水產(chǎn)育種領(lǐng)域較易出現(xiàn)的缺失值預(yù)測(cè)方法,并得到了比傳統(tǒng)缺失值處理方法更高的決定系數(shù)。針對(duì)環(huán)棱螺育種過(guò)程中常涉及的體質(zhì)量缺失問(wèn)題,本研究提前進(jìn)行了技術(shù)儲(chǔ)備(即構(gòu)建相應(yīng)的高效人工神經(jīng)網(wǎng)絡(luò)模型),但同時(shí)也存在實(shí)驗(yàn)數(shù)據(jù)量偏少的不足之處,我們將在日后的研究中,加大數(shù)據(jù)量的采集。
在本研究中,盡管環(huán)棱螺形態(tài)學(xué)性狀和體質(zhì)量測(cè)量數(shù)據(jù)有限(1 045個(gè)個(gè)體),但構(gòu)建好的人工神經(jīng)網(wǎng)絡(luò)模型對(duì)201個(gè)體質(zhì)量缺失的樣本預(yù)測(cè)仍取得了較高的準(zhǔn)確度,在缺失數(shù)據(jù)增加若干數(shù)量級(jí)是否能取得類似效果仍待深入研究[24]。由于預(yù)測(cè)均數(shù)匹配法只有在某些特定的缺失數(shù)據(jù)類型時(shí)才能取得較好的效果[25],本研究中缺失的體質(zhì)量數(shù)據(jù)與環(huán)棱螺自身形態(tài)學(xué)數(shù)據(jù)相關(guān),可能也會(huì)造成該方法預(yù)測(cè)缺失值的決定系數(shù)偏低。此外,隨機(jī)森林對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)的結(jié)果分析比較穩(wěn)健,能夠在高維數(shù)據(jù)中有效地分析具有交互作用和非線性關(guān)系的數(shù)據(jù)[26],但對(duì)多元共線性不敏感[27]。在本研究建立模型過(guò)程中,可能由于訓(xùn)練集樣本量偏小導(dǎo)致隨機(jī)森林模型的決定系數(shù)低于人工神經(jīng)網(wǎng)絡(luò),隨機(jī)森林預(yù)測(cè)缺失值的優(yōu)勢(shì)未得到完全顯示。后期可以通過(guò)增加訓(xùn)練樣本量,進(jìn)一步挖掘隨機(jī)森林預(yù)測(cè)法的優(yōu)勢(shì)。盡管缺失值預(yù)測(cè)的方法有很多,但在實(shí)際分析中仍需謹(jǐn)慎對(duì)待預(yù)測(cè)結(jié)果,并進(jìn)行多種方法的比較[28]。