袁培森 楊承林 宋玉紅 翟肇裕 徐煥良
(1.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院, 南京 210095; 2.馬德里理工大學(xué)技術(shù)工程和電信系統(tǒng)高級學(xué)院, 馬德里 28040)
中國是世界第二大水稻種植國家,水稻總產(chǎn)量占全球30%以上[1]。培育優(yōu)良的水稻品種、提高水稻產(chǎn)量成為我國重要的戰(zhàn)略目標(biāo)。植物表型是植物在一定環(huán)境下表現(xiàn)的可觀察形態(tài)特征,在植物保護(hù)、育種等領(lǐng)域具有重要的應(yīng)用價值,其研究涉及植物學(xué)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域[2]。其中,水稻表型組學(xué)的研究發(fā)展迅速。水稻的表型組學(xué)文獻(xiàn)數(shù)量占第2位,進(jìn)而出現(xiàn)了大量的水稻表型組學(xué)相關(guān)的知識[3],為水稻表型組學(xué)研究提供大量的數(shù)據(jù)支持。目前,水稻表型組學(xué)研究正在成為水稻基因組功能分析、分子育種和農(nóng)業(yè)應(yīng)用中的重要技術(shù)支撐[4-7],其知識圖譜的研究非常迫切。
知識圖譜技術(shù)可將農(nóng)業(yè)領(lǐng)域中的水稻表型組學(xué)相關(guān)信息表達(dá)為更貼近人類認(rèn)知的形式,提供一種更好地組織、管理和理解水稻表型組學(xué)海量信息的能力[8]。近年來,國外的知識圖譜研究比較注重對一些社會熱點(diǎn)進(jìn)行分析,而國內(nèi)利用知識圖譜處理農(nóng)業(yè)信息化數(shù)據(jù)從2012年開始[9-11]。國內(nèi)外學(xué)者已在農(nóng)業(yè)領(lǐng)域知識圖譜的構(gòu)建方面進(jìn)行了相關(guān)研究,但對于水稻表型組學(xué)知識圖譜的構(gòu)建和分析甚少。
知識圖譜的關(guān)鍵技術(shù)包括知識抽取、知識表示、知識融合,以及知識推理技術(shù)。實(shí)體是知識圖譜中最基本的元素,其抽取和分類的準(zhǔn)確率、召回率等將直接影響到后續(xù)知識庫的品質(zhì)和知識獲取效率[12]。傳統(tǒng)的分類器學(xué)習(xí)系統(tǒng)使用已有的學(xué)習(xí)器(如支持向量機(jī))對給定的訓(xùn)練樣本集進(jìn)行訓(xùn)練產(chǎn)生一個模型,用產(chǎn)生的模型預(yù)測新的樣例后,再根據(jù)模型的預(yù)測結(jié)果對其分類性能進(jìn)行分析[13]。由于現(xiàn)實(shí)中數(shù)據(jù)量的不斷增加和數(shù)據(jù)的多元化,尤其是水稻表型組學(xué)數(shù)據(jù)的復(fù)雜性和專業(yè)性,使傳統(tǒng)的分類算法已經(jīng)無法滿足現(xiàn)有數(shù)據(jù)的處理以及實(shí)際問題的解決需求。對單一分類器的組合學(xué)習(xí)模型在分類問題上顯示出了極大的優(yōu)勢,使得組合分類模型在分類問題中得到更多的關(guān)注?,F(xiàn)最流行的組合分類算法有 Boosting[14]和Bagging[15]方法。對于不穩(wěn)定性的分類算法,Bagging方法分類效果較好(如決策樹[16]),但對于穩(wěn)定的分類器集成效果不是很理想。Boosting方法的基分類器訓(xùn)練集取決前一個基分類器,其分錯的樣例按較大的概率出現(xiàn)在下一個基分類器的訓(xùn)練集中,雖然提高了組合分類算法的泛化性能,但會過分偏向于一些很難分的樣例,從而導(dǎo)致算法性能的降低。
針對Bagging和Boosting兩種組合算法的分類器集成效果并不理想,且改善效果均十分有限的問題,本文利用基于Stacking[17]集成學(xué)習(xí)策略的兩層式疊加框架,提出一種基于Stacking集成學(xué)習(xí)的分類器組合模型。通過爬蟲框架獲取國家水稻數(shù)據(jù)中心的水稻表型組學(xué)數(shù)據(jù),利用TF-IDF技術(shù)和LSI模型結(jié)合的方法對水稻表型組學(xué)數(shù)據(jù)進(jìn)行預(yù)處理,消除冗余特征,然后在基于Stacking 集成學(xué)習(xí)算法的多分類器組合方法上,將支持向量機(jī)(SVM)、K-近鄰(K-NN)、梯度提升決策樹(GBDT)和隨機(jī)森林(RF)4種學(xué)習(xí)算法作為初級分類器進(jìn)行組合學(xué)習(xí),進(jìn)而采用隨機(jī)森林算法作為次級分類器提升分類效果。
水稻表型組學(xué)數(shù)據(jù)主要從“國家水稻數(shù)據(jù)中心”網(wǎng)站(http:∥www.ricedata.cn/)獲取,并以互動百科網(wǎng)站作為輔助數(shù)據(jù)源。Scrapy[18]爬蟲框架作為本文數(shù)據(jù)獲取的工具,其充分利用處理器資源,快速抓取結(jié)構(gòu)化數(shù)據(jù);支持分布式爬蟲,適合大規(guī)模水稻表型組學(xué)數(shù)據(jù)的獲取。
存儲水稻表型組學(xué)數(shù)據(jù)的數(shù)據(jù)庫使用專用于圖存儲的圖數(shù)據(jù)庫Neo4j[19],圖數(shù)據(jù)庫利用結(jié)點(diǎn)和邊的方式表示實(shí)體、屬性與關(guān)系,使得數(shù)據(jù)表示更為直觀清晰,適用于存儲水稻表型組學(xué)實(shí)體、屬性及關(guān)系。本文使用RDF三元組的數(shù)據(jù)表示形式,存放實(shí)體-屬性或?qū)嶓w-關(guān)系,共存儲4 853個數(shù)據(jù)結(jié)點(diǎn),5 438條關(guān)系,每個結(jié)點(diǎn)包括ID、title、detail等屬性。Neo4j圖數(shù)據(jù)庫使用的專門圖形查詢語言Cypher,簡單快捷,便于操作,且能夠以圖、表、文本的形式展示數(shù)據(jù)。實(shí)例如圖1所示。
圖1 水稻表型組學(xué)實(shí)體-關(guān)系實(shí)例Fig.1 Entity-relationship instances of rice phenomics
水稻表型組學(xué)實(shí)體識別是指識別水稻表型組學(xué)文本數(shù)據(jù)中具有特定實(shí)際意義的水稻表型組學(xué)實(shí)體,包括表型、基因、蛋白質(zhì)、環(huán)境等專有名詞。本文從國家水稻數(shù)據(jù)中心獲取的大量非結(jié)構(gòu)化水稻表型組學(xué)數(shù)據(jù)中抽取實(shí)體,針對收集的語料庫進(jìn)行分詞及詞性標(biāo)注,根據(jù)詞性標(biāo)注結(jié)果基于一定的啟發(fā)式規(guī)則進(jìn)行詞語組合,從文本中提取具有實(shí)際意義的實(shí)體。圖2所示為水稻表型組學(xué)實(shí)體識別過程。
圖2 水稻表型組學(xué)實(shí)體識別過程Fig.2 Rice phenomics entities recognition process
為實(shí)現(xiàn)水稻表型組學(xué)實(shí)體識別,本文借助THULAC分詞工具進(jìn)行分詞及詞性標(biāo)注。THULAC是一套中文詞法分析工具包,集成了世界上最大規(guī)模的中文語料庫,中文分詞及詞性標(biāo)注能力強(qiáng)、準(zhǔn)確率高、速度快[20]。
啟發(fā)式規(guī)則是指在解決問題時根據(jù)以往經(jīng)驗而制定的一系列規(guī)則,重點(diǎn)在于根據(jù)經(jīng)驗選擇行之有效的方法[21]。本文水稻表型組學(xué)實(shí)體啟發(fā)式規(guī)則如圖3所示。
圖3 水稻表型組學(xué)實(shí)體判斷的啟發(fā)式規(guī)則Fig.3 Heuristic rules for determination of rice phenomics entities
水稻表型組學(xué)實(shí)體識別中,根據(jù)已有經(jīng)驗,表型組學(xué)實(shí)體詞性只能為名詞,因此除了名詞之外的其他詞性應(yīng)被丟棄。在名詞基礎(chǔ)之上應(yīng)該檢驗該詞的前一詞是否為修飾性詞性,是則與該詞組成名詞性短語。
圖4為本文所列實(shí)體識別結(jié)果的示例,可以看出“小腸”、“葉序”等詞屬于滿足當(dāng)前詞性要求的詞語,“鎂離子濃度”、“植物細(xì)胞長度”等詞屬于當(dāng)前詞與其前一詞的組合詞語。由于水稻表型術(shù)語與基因組術(shù)語是專業(yè)性實(shí)體名詞,因此本文對水稻表型術(shù)語及基因組術(shù)語不再進(jìn)行分詞及詞性標(biāo)注,直接將這兩類詞語加入到實(shí)體識別結(jié)果中,最終共6 445個詞。
圖4 水稻表型組學(xué)實(shí)體示例Fig.4 Example of rice phenomics entities
對水稻表型組學(xué)語料庫所做的預(yù)處理操作為將文本處理成特征矩陣。文本向量化是將文本特征表示成一系列計算機(jī)可以計算和理解的,能夠表達(dá)文本語義信息的向量形式[22],通過一定的數(shù)理統(tǒng)計方法和計算機(jī)技術(shù)展現(xiàn)文本特征。目前文本向量化大部分是通過詞向量化實(shí)現(xiàn)。
本文使用TF-IDF技術(shù)并結(jié)合LSI模型對數(shù)據(jù)進(jìn)行預(yù)處理,計算文本詞頻特征,解決文本語義問題,對水稻文本數(shù)據(jù)進(jìn)行特征向量化形成語義矩陣。
如圖5所示,該過程首先將文本語料字典轉(zhuǎn)換成詞袋向量,便于計算其TF-IDF值,將轉(zhuǎn)換成的TF-IDF向量轉(zhuǎn)換成LSI向量,接著將生成的向量轉(zhuǎn)換成稀疏矩陣,稀疏向量最后轉(zhuǎn)換成密集向量,即為機(jī)器學(xué)習(xí)分類器模型接受的輸入形式。
圖5 水稻表型組學(xué)數(shù)據(jù)預(yù)處理過程Fig.5 Preprocessing of rice phenomics data
2.1.1TF-IDF模型
詞袋(Bag of word, BOW)[23]模型是最早出現(xiàn)的文本向量化方法,它將詞語作為文本的基本組成單元,該模型與每個詞語在文本中出現(xiàn)的頻率具有一定的相關(guān)性,其產(chǎn)生的向量與文本詞語出現(xiàn)的順序無關(guān)。該模型原理比較簡單,但易出現(xiàn)維度災(zāi)難和語義鴻溝等問題。
TF-IDF(Term frequency-inverse document frequency)[24]是一種基于詞袋模型改進(jìn)產(chǎn)生的,以計算詞頻及逆文本頻率來計算詞語分類能力,用于文本特征分析挖掘的常用方法。采用字詞統(tǒng)計方法,分別統(tǒng)計一個文本中該詞出現(xiàn)的頻率和整個語料字典中該詞出現(xiàn)的頻率來綜合評估字詞的分類能力。TF指詞頻,即一個字詞在文本中出現(xiàn)的頻率,出現(xiàn)次數(shù)越多,頻率越高,TF值就越高。IDF指逆文本頻率,若一個字詞在某一類文本中出現(xiàn)的頻率高,而在其他類別文本中出現(xiàn)的頻率低,說明該字詞具有良好的類別鑒別能力,對應(yīng)該字詞的IDF值越高。TF、IDF的計算公式為
(1)
式中TF(w)——詞w在當(dāng)前文本中的詞頻
n(w)——詞w在文章中出現(xiàn)的個數(shù)
S——文本的總詞數(shù)
(2)
式中IDF(w)——詞w在當(dāng)前文本的逆文本頻率
N——語料庫中的文本總數(shù)
N(w)——語料庫中包含詞w的文本總數(shù)
TF-IDF值的計算公式為
TF-IDF(w)=TF(w)IDF(w)
(3)
以“半矮稈基因”URL網(wǎng)頁(http:∥www.ricedata.cn/gene/list/30.htm)為例,該文有902個詞,“水稻”、“半矮稈基因”分別出現(xiàn)13、2次,通過式(1)得出詞頻(TF)為0.014 4、0.002 2。網(wǎng)頁總數(shù)為1 966,包含“水稻”的網(wǎng)頁數(shù)為1 731個,包含“半矮稈基因”的網(wǎng)頁數(shù)為16個。則它們的逆文本頻率IDF和TF-IDF計算示例如表1所示。
表1 IDF和TF-IDF計算示例Tab.1 Examples of IDF and TF-IDF evaluation
表1中的TF-IDF值表明,常出現(xiàn)的詞語“水稻”,應(yīng)該給予較低權(quán)重。對于詞語“半矮桿基因”,幾乎沒有在其他文本中出現(xiàn),在出現(xiàn)的文本中它對應(yīng)的IDF值較高,具有較強(qiáng)的類別鑒別能力。
2.1.2LSI模型
潛在語義模型(Latent semantic index,LSI)[25]為解決文本語義問題,如果文本中的某個詞與其他詞的相關(guān)性不大,則很可能是一詞多義的問題。LSI模型使用奇異值分解方法來分解詞語-文本矩陣,將原始矩陣映射到語義空間內(nèi),形成語義矩陣。
利用奇異值分解方法降低矩陣維度,計算公式為
(4)
式中Ar×c——第r個文本第c個詞的特征值
Ur×j——第r個文本第j個主題的相關(guān)度
Σj×j——第j個主題第j個詞義相關(guān)度
這里使用的特征值是基于預(yù)處理后的標(biāo)準(zhǔn)化TF-IDF值。j是設(shè)定的特征維度,也稱為主題數(shù),一般比文本要少,一般設(shè)定在100~200之間,本文j設(shè)定維度為150維。經(jīng)過一次奇異值分解,可以得到r個文本與c個詞的關(guān)聯(lián)程度。
2.2.1Stacking集成學(xué)習(xí)模型
基于Stacking[26]集成學(xué)習(xí)策略是一種異構(gòu)分類器集合的技術(shù),被認(rèn)為是實(shí)現(xiàn)集合中基分類器多樣性的工具,以此提高組合分類的準(zhǔn)確性。它采用兩層框架的結(jié)構(gòu),如圖6所示。具體的訓(xùn)練過程為:首先是Stacking集成學(xué)習(xí)方法調(diào)用不同類型的分類器對數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí),然后將各分類器得到的訓(xùn)練結(jié)果組成一個新的訓(xùn)練樣例作為元分類器的輸入,最終第2層模型中元分類器的輸出結(jié)果為最終的結(jié)果輸出[27]。
圖6 基于Stacking的集成學(xué)習(xí)方式Fig.6 Ensemble learning method based on Stacking
在組合模型中,對基分類器的選取有兩種選擇:一種是選取同種類型的基分類器,另一種是選取不同類型的基分類器,或者說是異質(zhì)的。本文采用第2種選擇方法,基于Stacking集成學(xué)習(xí)的兩層結(jié)構(gòu)框架對幾種不同的分類器組合學(xué)習(xí)。具體使用SVM、K-NN、GBDT和RF作為第1層的分類器,即基分類器,RF作為第2層的元分類器。針對這4種常見的單一分類器,具有性能優(yōu)異且訓(xùn)練機(jī)理差距大的特點(diǎn),提出了將這4種算法進(jìn)行組合學(xué)習(xí),從而進(jìn)一步提高分類器的分類性能。
2.2.2SVM算法
SVM[28-29]是指一系列以支持向量機(jī)算法為基礎(chǔ)的傳統(tǒng)機(jī)器學(xué)習(xí)方法,可以用于文本的回歸和分類問題。SVM的主要原理是找到一個能夠?qū)⑺袛?shù)據(jù)樣本劃分開的超平面,使得樣本集中的所有數(shù)據(jù)到這個超平面的距離最短。
使用SVM做分類問題主要分為線性分類和非線性分類。當(dāng)一個分類問題是線性可分時,可以直接用一條直線將不同類別的數(shù)據(jù)進(jìn)行區(qū)分,這條分類直線稱為決策面。為求得最優(yōu)的分類效果和性能,只需要計算數(shù)據(jù)與決策面的最大距離即可,尋找這個最大間隔的過程就叫最優(yōu)化。但是,隨著數(shù)據(jù)量的增多,數(shù)據(jù)分布不均衡,數(shù)據(jù)變成線性不可分的,這時就需要核函數(shù)將數(shù)據(jù)映射到特征空間,利用超平面對數(shù)據(jù)進(jìn)行分類分割。
2.2.3K-NN算法
K-NN算法[30]是一種通過計算不同數(shù)據(jù)之間特征值的距離進(jìn)行分類的方法,是文本分類和回歸常用的分類算法之一,目前對K-NN算法的理論研究已經(jīng)非常充足。K-NN算法的主要原理是,如果一個預(yù)測樣本在特征空間內(nèi)存在K個最近鄰,那么預(yù)測樣本的類別通常由K個近鄰的多數(shù)類別決定。K-NN算法中通過選擇K值、距離度量方法,以及分類決策規(guī)則來優(yōu)化算法的效果和性能。
K值的選擇一般根據(jù)樣本的分布,通過交叉驗證的方式選擇一個最優(yōu)的K值。若選擇較小的K值,訓(xùn)練誤差會減小,但容易使得訓(xùn)練的泛化誤差增大,使模型復(fù)雜且容易過擬合。若選擇較大的K值,可以減小泛化誤差,模型預(yù)測結(jié)果一般不會出現(xiàn)過擬合現(xiàn)象,但會使訓(xùn)練誤差增大,造成預(yù)測發(fā)生錯誤。因此,需要選擇合適的K值訓(xùn)練模型,本文算法參數(shù)優(yōu)化選擇使用GridSearch進(jìn)行驗證。
2.2.4GBDT算法
GBDT算法[31-32]提升分類器性能的方式不是為錯分?jǐn)?shù)據(jù)分配更高權(quán)重,而是直接修改殘差計算的方式,原始的Adaboost[33]限定了損失函數(shù)為平方損失函數(shù),所以可直接進(jìn)行殘差計算。GBDT通過定義更多種類的損失函數(shù),采用負(fù)梯度的方式近似求解,這也是稱其為梯度提升樹的原因。由于這個改進(jìn),GBDT不僅可以用于分類,也可以用于回歸,有著更好的適應(yīng)性。并且GBDT的非線性變換較多,所以其表達(dá)能力很強(qiáng)。
2.2.5RF算法
RF算法[34]是一種集成算法,通過訓(xùn)練多個弱分類器集成一個強(qiáng)分類器,預(yù)測結(jié)果通過多個弱分類器的投票或取平均值決定,使得整體模型的結(jié)果具有較高的精確度和泛化性能。隨機(jī)森林算法的主要原理是,通過隨機(jī)采樣方式構(gòu)建一個隨機(jī)森林,隨機(jī)森林的組成單元是決策樹,當(dāng)進(jìn)行預(yù)測時,森林中的每一棵決策樹均參與分類預(yù)測,最終通過決策樹投票選取得票數(shù)最高的分類作為預(yù)測分類。
考慮基學(xué)習(xí)器的預(yù)測能力,本文在Stacking集成學(xué)習(xí)的分類器組合模型第1層選擇學(xué)習(xí)能力較強(qiáng)和差異度較大的模型作為基學(xué)習(xí)器,有助于模型整體的預(yù)測效果提升。其中,隨機(jī)森林和梯度提升決策樹分別采用Bagging和Boosting的集成學(xué)習(xí)方式,具有出色的學(xué)習(xí)能力和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論,在各個領(lǐng)域得到廣泛應(yīng)用。支持向量機(jī)對于解決小樣本和非線性以及高緯度的回歸問題具有優(yōu)勢。K-NN算法因其理論成熟和訓(xùn)練高效等特點(diǎn),有著良好的實(shí)際應(yīng)用效果。第2層元學(xué)習(xí)器選擇泛化能力較強(qiáng)的模型,用于糾正多個學(xué)習(xí)算法對于訓(xùn)練集的偏置情況,并通過集合方式防止過擬合效應(yīng)出現(xiàn)。綜上所述,Stacking集成學(xué)習(xí)的分類器組合模型選擇第1層基學(xué)習(xí)器分別為SVM、K-NN、GBDT、RF,第2層元學(xué)習(xí)器選擇RF。Stacking集成學(xué)習(xí)的分類器組合模型如圖7所示。
圖7 基于Stacking集成學(xué)習(xí)的水稻表型組學(xué)實(shí)體分類器組合模型Fig.7 Combination model of Stacking ensemble learning classification algorithm for rice phenomics entities
在水稻表型組學(xué)實(shí)體分類組合模型框架中,過程分為5步,處理過程總結(jié)為:
輸入:訓(xùn)練集D={(yi,xi);i=1,2,…,m},基分類器,測試集T。
輸出:測試集上的分類結(jié)果。
(1)使用TF-IDF技術(shù)結(jié)合LSI模型進(jìn)行數(shù)據(jù)預(yù)處理。
(2)第1層預(yù)測算法的K個基學(xué)習(xí)器Mk。
fork=1 toK
基于數(shù)據(jù)集D-k訓(xùn)練第1層的基學(xué)習(xí)器Mk
end
(3)構(gòu)成新數(shù)據(jù)集
Dnew={(yi,z1i,z2i,…,zki);i=1,2,…,m}
(4)第2層使用隨機(jī)森林算法Mnew預(yù)測模型訓(xùn)練。
基于Dnew訓(xùn)練模型Mnew。
(5)使用測試集T分類,評價分類結(jié)果。
首先利用TF-IDF技術(shù)結(jié)合LSI模型的方法對獲取的水稻表型組學(xué)數(shù)據(jù)進(jìn)行文本預(yù)處理,預(yù)處理后的水稻表型組學(xué)數(shù)據(jù)D={(yi,xi);i=1,2,…,m},xi為第i個樣本的特征向量,yi為第i個樣本對應(yīng)的預(yù)測值,將數(shù)據(jù)集切分為訓(xùn)練集和測試集,隨機(jī)將數(shù)據(jù)劃分成K個大小基本相等的子集D1,D2,…,Dk。D-k=D-Dk,定義Dk和D-k分別為K折交叉驗證中的第k折測試集與訓(xùn)練集。第1層包含K個基學(xué)習(xí)器,基學(xué)習(xí)器包括SVM、GBDT、RF、K-NN。對訓(xùn)練集D-k用第k個算法訓(xùn)練得到基模型Mk,k=1,2,…,K。對于K折交叉驗證中的第k折測試集Dk中的每一個樣本xi,基學(xué)習(xí)器Mk對它的預(yù)測表示為zki。
在完成交叉驗證過程后,將每個基學(xué)習(xí)器的各自預(yù)測結(jié)果構(gòu)成新的數(shù)據(jù)樣本,即:Dnew={(yi,z1i,z2i,…,zki),i=1,2,…,m},重構(gòu)特征,將第1層基學(xué)習(xí)器的輸出結(jié)果作為第2層學(xué)習(xí)器Mnew的輸入,本文選擇隨機(jī)森林算法作為第2層預(yù)測模型的元學(xué)習(xí)器進(jìn)行訓(xùn)練,再由第2層的元學(xué)習(xí)器模型輸出最終預(yù)測結(jié)果,基于Stacking集成學(xué)習(xí)的分類器組合模型通過多個學(xué)習(xí)器的輸出結(jié)果提升模型的分類能力,以獲得整體預(yù)測精度的提升。
本文實(shí)驗環(huán)境:Intel(R) Core(TM) i5-8250U 1.6 GHz處理器,8 GB內(nèi)存,500 GB硬盤,64位Windows 10操作系統(tǒng)。
Stacking集成學(xué)習(xí)通過將K-NN、RF、SVM、GBDT模型作為初級學(xué)習(xí)器,4個驗證集的輸出組合成次學(xué)習(xí)器的一個輸入特征,進(jìn)行再次訓(xùn)練。各算法的參數(shù)設(shè)置如下:SVC算法模型使用RBF核函數(shù),gamma參數(shù)設(shè)置為0.1,懲罰系數(shù)C設(shè)置為3;K-NN算法模型近鄰個數(shù)設(shè)置為6,用L2距離來標(biāo)識每個樣本的近鄰樣本權(quán)重,權(quán)重與距離成反比;RF算法模型計算屬性的信息增益值來選擇合適的結(jié)點(diǎn),選擇劃分的屬性值最大值為9,葉子結(jié)點(diǎn)的最少樣本數(shù)為2,決策樹的個數(shù)為81;GBDT算法模型的弱學(xué)習(xí)數(shù)量為100,學(xué)習(xí)速率設(shè)置為0.1,回歸樹的深度為3。訓(xùn)練集和測試集的大小比例設(shè)置為7∶3。
基于Stacking集成學(xué)習(xí)的分類器組合模型,要實(shí)現(xiàn)水稻表型組學(xué)實(shí)體自動分類,需利用人工分類方法制作數(shù)據(jù)集,數(shù)據(jù)集的品質(zhì)直接影響到機(jī)器訓(xùn)練的品質(zhì)。在進(jìn)行人工分類時,首先對含有明顯特定字詞的詞語進(jìn)行提取,對不明顯的詞語通過人工分類的方式逐詞進(jìn)行標(biāo)注[35]。水稻表型組學(xué)實(shí)體分類情況參照文獻(xiàn)[36],如表2所示。
表2 水稻表型組學(xué)實(shí)體分類情況Tab.2 Detail of entity classification of rice phenomics
本文使用的5種機(jī)器學(xué)習(xí)方法:基于Stacking集成學(xué)習(xí)的分類器組合模型、SVC算法、K-NN算法、RF算法、GBDT算法均使用TF-LSI方法預(yù)處理,使用GridSearch進(jìn)行算法模型參數(shù)調(diào)優(yōu)。實(shí)驗?zāi)P偷脑u估使用精確率P(Precision)、召回率R(Recall)、綜合評價指標(biāo)F1(F1-Measure)、準(zhǔn)確率A(Accuracy)等指標(biāo),計算公式為
(5)
(6)
(7)
(8)
式中TP——將實(shí)際為正類預(yù)測為正類的數(shù)量
TN——將實(shí)際為正類預(yù)測為負(fù)類的數(shù)量
FP——將實(shí)際為負(fù)類預(yù)測為正類的數(shù)量
FN——將實(shí)際為負(fù)類預(yù)測為負(fù)類的數(shù)量
F1是模型精確率和召回率的一種加權(quán)平均值,介于0到1之間,F(xiàn)1越高,代表分類器的綜合性能越好。F1是分類問題中的一個常用的衡量指標(biāo),能夠?qū)δP途_率與召回率進(jìn)行綜合評估。
利用TF-IDF技術(shù)結(jié)合LSI模型的方法進(jìn)行水稻表型組學(xué)數(shù)據(jù)預(yù)處理,作為Stacking集成學(xué)習(xí)的分類器組合模型的輸入樣例。這里以獲取的水稻表型組學(xué)數(shù)據(jù)為例,首先對Stacking集成學(xué)習(xí)的分類器組合模型分類結(jié)果進(jìn)行分析,然后對比單一分類算法,從而驗證Stacking集成學(xué)習(xí)的分類器組合模型分類性能的優(yōu)異性。
Stacking集成學(xué)習(xí)吸收融合模型的優(yōu)點(diǎn)提高準(zhǔn)確率和穩(wěn)定性。通過將K-NN、RF、SVM、GBDT模型作為初級學(xué)習(xí)器,4個驗證集的輸出組合成次學(xué)習(xí)器的一個輸入特征,進(jìn)行再次訓(xùn)練。Stacking集成學(xué)習(xí)的分類器組合模型實(shí)驗結(jié)果如表3所示。
表3 Stacking算法各實(shí)體類別實(shí)驗結(jié)果Tab.3 Experimental results of various kinds of rice entities with Stacking algorithm %
從表3結(jié)果來看,在水稻表型組學(xué)數(shù)據(jù)中,組合模型對數(shù)據(jù)量較大的分類如Environment類、Phenotype類和Other類的分類精確度均達(dá)到76%以上,最佳的分類是Gene類,達(dá)到90.9%以上的分類精確度,多分類結(jié)果的召回率和F1值均在90%以上。對于不平衡數(shù)據(jù)集,Stacking集成學(xué)習(xí)的分類器組合模型在數(shù)據(jù)量較大的類別上的表現(xiàn)較為突出,在水稻表型組學(xué)數(shù)據(jù)的多分類問題上具有較強(qiáng)的分類性能。
將對單一分類器算法和Stacking集成學(xué)習(xí)的分類器組合模型的分類結(jié)果進(jìn)行對比分析。各分類算法對水稻表型組學(xué)實(shí)體的分類精度對比如圖8所示。
圖8 各分類算法精確度對比Fig.8 Comparison of precision of classification algorithms
由圖8可以看出,Stacking算法對各類別的分類效果均較好,包括類別數(shù)量較少的Chemical類和Environment類,整體上優(yōu)于其他分類方法,對Gene類的分類精確度達(dá)90.9%。
各分類算法對水稻表型組學(xué)實(shí)體的分類召回率對比如圖9所示。
圖9 各分類算法召回率對比Fig.9 Comparison of recall rate of classification algorithms
由圖9可以看出,水稻表型組學(xué)數(shù)據(jù)的Gene類、Phenotype類、Other類的整體召回率均較高,尤其是Stacking集成學(xué)習(xí)模型和隨機(jī)森林算法在其3種分類上表現(xiàn)較優(yōu)。但無論是針對哪種類型水稻表型組學(xué)實(shí)體,Stacking集成學(xué)習(xí)模型分類結(jié)果的召回率均較高,顯示其較強(qiáng)的分類性能。
各分類算法對水稻表型組學(xué)實(shí)體的分類F1對比如圖10所示。
圖10 各分類算法F1值對比Fig.10 Comparison of F1-Measure of classification algorithms
由圖10整體來看,Gene類、Phenotype類、Other類3類算法整體分類的精確率和召回率的加權(quán)平均值F1較高,Chemical類、Environment類和Pathology類的F1相對較低,這是由于各類數(shù)據(jù)集數(shù)量分布不均衡造成的,相對Gene類、Phenotype類和Other類訓(xùn)練數(shù)據(jù)較多,分類更精確,綜合性能較好。
Stacking、RF、K-NN、GBDT、SVM各分類算法準(zhǔn)確率分別為80.55%、72.97%、67.51%、76.24%、78.34%,通過對比K-NN、GBDT、RF、SVM 4種算法,Stacking集成學(xué)習(xí)的分類器組合模型的準(zhǔn)確率最高。Stacking集成學(xué)習(xí)算法集成了其他4種弱分類器,對于準(zhǔn)確率有一定的提升。相比單一分類器K-NN算法,基于Stacking集成學(xué)習(xí)的分類器組合模型的分類準(zhǔn)確率高13.04個百分點(diǎn),性能提升較大,平均比單一分類器提高6.78個百分點(diǎn)。
綜上所述,在TF-IDF技術(shù)結(jié)合LSI模型方法進(jìn)行水稻表型組學(xué)數(shù)據(jù)預(yù)處理的情況下,Stacking集成學(xué)習(xí)的分類器組合模型在本文水稻表型組學(xué)數(shù)據(jù)集上的整體效果最佳。對于不平衡數(shù)據(jù)集,Stacking集成學(xué)習(xí)分類器的組合模型的表現(xiàn)較為突出,整體精確度、召回率和F1值均較高??傮w上,Stacking集成學(xué)習(xí)的分類器組合模型較單一的分類器,在分類性能上有一定的提升,準(zhǔn)確率較分類性能較好的SVM算法提高2.21個百分點(diǎn),較K-NN算法準(zhǔn)確率提高13.04個百分點(diǎn)。
針對水稻表型組學(xué)數(shù)據(jù),采用TF-IDF技術(shù)和潛在語義模型進(jìn)行預(yù)處理,基于堆疊式兩階段集成學(xué)習(xí)的分類器組合模型,結(jié)合K-近鄰算法、支持向量機(jī)、隨機(jī)森林,梯度提升決策樹機(jī)器學(xué)習(xí)方法,提升水稻表型組學(xué)實(shí)體數(shù)據(jù)分類的性能,對于不平衡的水稻表型組學(xué)數(shù)據(jù)集和對不同類別的水稻表型組學(xué)數(shù)據(jù)都具有較好的多分類能力,總體準(zhǔn)確率為80.55%,相對SVC、K-NN、GBDT、RF單一分類器,表現(xiàn)最佳,分類準(zhǔn)確率平均高6.78個百分點(diǎn)。