李庚松 劉 藝 鄭奇斌 李 翔 劉 坤 秦 偉 王 強(qiáng) 楊長(zhǎng)虹
1 (國(guó)防科技創(chuàng)新研究院 北京 100071)
2 (軍事科學(xué)院 北京 100091)
3 (天津(濱海)人工智能創(chuàng)新中心 天津 300457)
在大數(shù)據(jù)時(shí)代背景下,利用數(shù)據(jù)進(jìn)行分析和決策成為了不同領(lǐng)域的重要工作,各種人工智能算法為此提供了不可忽視的助力.然而,“沒有免費(fèi)午餐”定理表明,不存在一個(gè)在所有問題上具備優(yōu)越性能的“最優(yōu)”算法[1].如何從大量可行方法中為給定任務(wù)選擇滿足需求的合適算法成為了工程中的關(guān)鍵問題,即算法選擇問題[2].算法選擇問題可以通過人工選擇方法和機(jī)器學(xué)習(xí)方法解決.人工選擇方法包括實(shí)驗(yàn)試錯(cuò)法和專家知識(shí)法.前者通過大量的實(shí)驗(yàn)獲得算法性能,分析結(jié)果并選擇算法;后者則按照領(lǐng)域?qū)<业闹笇?dǎo)進(jìn)行算法選擇.然而,實(shí)驗(yàn)試錯(cuò)法成本較高,專家知識(shí)法基于專家的經(jīng)驗(yàn)知識(shí),存在人為偏差且獲取較為困難.機(jī)器學(xué)習(xí)方法提取問題的抽象特征,設(shè)計(jì)模型實(shí)現(xiàn)自動(dòng)化的算法選擇,包括基于元學(xué)習(xí)的方法和基于協(xié)同過濾的方法[3-4].其中,基于元學(xué)習(xí)的方法研究基礎(chǔ)較為深厚,具有靈活性高、適用范圍廣、計(jì)算成本低等優(yōu)點(diǎn),成為了算法選擇的主要方法[5-7].
基于元學(xué)習(xí)的算法選擇利用問題的元特征(抽象特征)和歷史學(xué)習(xí)經(jīng)驗(yàn)訓(xùn)練元算法,構(gòu)建問題元特征到合適算法的映射.元特征和元算法是其中的關(guān)鍵內(nèi)容,而現(xiàn)有研究在元特征和元算法的選擇和使用上存在一些缺點(diǎn):在元特征方面,多數(shù)研究選擇固定的元特征[8-10],可擴(kuò)展性較弱,且難以充分利用元特征的互補(bǔ)性;在元算法方面,研究或采用單個(gè)元算法,泛化性能不足,或采用同構(gòu)集成元算法[11-14],沒有利用不同元算法的優(yōu)勢(shì),導(dǎo)致多樣性不足.
集成學(xué)習(xí)的相關(guān)研究表明,利用準(zhǔn)確且多樣的基學(xué)習(xí)器進(jìn)行集成可以獲得更精確、更穩(wěn)定的學(xué)習(xí)性能[15-16].選擇性集成方法根據(jù)基學(xué)習(xí)器的準(zhǔn)確性和多樣性從多個(gè)基學(xué)習(xí)器中選取部分進(jìn)行集成,可以減少集成算法的存儲(chǔ)空間和預(yù)測(cè)時(shí)間并提升其泛化性能,是集成學(xué)習(xí)的熱點(diǎn)方向之一[17-19].演化算法有著魯棒性強(qiáng)、適用性高、可以全局搜索等特性,在選擇性集成研究中得到了廣泛應(yīng)用[20-22].
蟻獅優(yōu)化(ant lion optimizer,ALO)[23]算法是近年來(lái)出現(xiàn)的演化算法,它模擬蟻獅捕食螞蟻的行為機(jī)制對(duì)最優(yōu)解進(jìn)行搜索,具有尋優(yōu)性能強(qiáng)、參數(shù)設(shè)置少、易于實(shí)現(xiàn)等優(yōu)點(diǎn).研究人員將ALO 擴(kuò)展應(yīng)用于多目標(biāo)優(yōu)化問題,在污水處理、工程設(shè)計(jì)等領(lǐng)域取得了良好的應(yīng)用效果[24-26].
為了提升基于元學(xué)習(xí)的算法選擇性能,提出基于多目標(biāo)混合蟻獅優(yōu)化的選擇性集成算法選擇方法(selective ensemble algorithm selection method based on multi-objective hybrid ant lion optimizer,SAMO),該方法包括一種算法選擇模型和一種多目標(biāo)混合蟻獅優(yōu)化算法.算法選擇模型以集成元算法的準(zhǔn)確性和多樣性作為優(yōu)化目標(biāo),同時(shí)選擇元特征和構(gòu)建選擇性集成元算法.多目標(biāo)混合蟻獅優(yōu)化算法對(duì)模型進(jìn)行優(yōu)化,通過離散型編碼選擇元特征子集,使用連續(xù)型編碼構(gòu)建集成元算法,在此基礎(chǔ)上應(yīng)用增強(qiáng)游走策略和偏好精英選擇機(jī)制提升尋優(yōu)性能.
本文的主要貢獻(xiàn)包括3 個(gè)方面:
1)提出一種算法選擇模型,同時(shí)從元特征和元算法2 個(gè)方面提升基于元學(xué)習(xí)的算法選擇性能.模型通過元特征選擇尋找互補(bǔ)性較強(qiáng)的元特征子集,通過選擇性集成構(gòu)建異構(gòu)集成元算法.
2)提出一種多目標(biāo)混合蟻獅優(yōu)化算法,求解算法選擇模型.通過混合編碼機(jī)制使個(gè)體同時(shí)進(jìn)行元特征選擇和選擇性集成;采用增強(qiáng)游走策略,在個(gè)體搜索過程中引入隨機(jī)性,增加算法的種群多樣性;應(yīng)用偏好精英選擇機(jī)制,以不同的優(yōu)化目標(biāo)為偏好選擇精英個(gè)體,增強(qiáng)算法的尋優(yōu)能力.
3)使用260 個(gè)數(shù)據(jù)集、150 種元特征和9 種候選算法構(gòu)建分類算法選擇問題,在此基礎(chǔ)上將所提方法與8 種典型方法在4 種性能指標(biāo)上進(jìn)行對(duì)比分析,結(jié)果證明了所提方法的有效性和優(yōu)越性.
1.1.1 基于元學(xué)習(xí)的算法選擇框架
基于元學(xué)習(xí)的算法選擇框架[27-28]如圖1 所示.框架首先提取歷史數(shù)據(jù)集的元特征,并通過性能測(cè)度評(píng)估確定歷史數(shù)據(jù)集的最優(yōu)算法,在過程中采用不同的性能測(cè)度方法可能獲得不同的最優(yōu)算法;然后以元特征為屬性,以最優(yōu)算法為標(biāo)簽組成元實(shí)例構(gòu)建元數(shù)據(jù)集,并在元數(shù)據(jù)集上訓(xùn)練元算法;最后,提取新數(shù)據(jù)集的元特征輸入已訓(xùn)練的元算法,元算法即對(duì)其最優(yōu)算法進(jìn)行預(yù)測(cè)輸出.
Fig.1 Framework of algorithm selection based on metalearning圖1 基于元學(xué)習(xí)的算法選擇框架
1.1.2 元特征相關(guān)內(nèi)容
根據(jù)反映數(shù)據(jù)集特性的不同,元特征分為4 類:
1)基于統(tǒng)計(jì)和信息論的元特征采用統(tǒng)計(jì)學(xué)和信息論的方法提取數(shù)據(jù)集的抽象特征[27].該類型元特征應(yīng)用廣泛且易于提取,然而其難以較好地刻畫數(shù)據(jù)集特性.
2)基于決策樹的元特征在數(shù)據(jù)集上訓(xùn)練決策樹,使用決策樹的結(jié)構(gòu)信息作為元特征[28].其能夠發(fā)掘數(shù)據(jù)集的整體特性,但提取成本高昂.
3)基于基準(zhǔn)的元特征將基準(zhǔn)算法在數(shù)據(jù)集上的性能指標(biāo)值作為元特征[29],其提取方法較為簡(jiǎn)單,然而對(duì)基準(zhǔn)算法的依賴度較高.
4)基于問題復(fù)雜度的元特征從類重疊、類不平衡、數(shù)據(jù)稀疏度等方面對(duì)數(shù)據(jù)集的幾何復(fù)雜度進(jìn)行量化評(píng)估[30].該類型元特征反映了求解問題的困難程度,應(yīng)用效果較好,但是計(jì)算復(fù)雜度較大.
1.1.3 元算法相關(guān)內(nèi)容
按照訓(xùn)練過程的技術(shù)特點(diǎn),將元算法分為4 類:
1)基于規(guī)則的元算法生成候選算法的選擇規(guī)則,通過將元特征與規(guī)則進(jìn)行匹配,為新數(shù)據(jù)集選擇合適算法,該方法具備較強(qiáng)的可解釋性,但泛化性能較差.針對(duì)負(fù)荷預(yù)測(cè)問題,文獻(xiàn)[8]提取18 種數(shù)據(jù)集元特征,訓(xùn)練分類回歸樹(classification and regression tree,CART)選擇最優(yōu)算法.
2)基于距離的元算法通過元特征測(cè)度距離,評(píng)估數(shù)據(jù)集之間的相似度,使用相似數(shù)據(jù)集的最優(yōu)算法作為新數(shù)據(jù)集的合適算法.k最近鄰(knearest neighbors,kNN)是研究中常見的元算法,其實(shí)現(xiàn)簡(jiǎn)單且運(yùn)行較快,但關(guān)鍵參數(shù)k的最優(yōu)值設(shè)置較為困難.文獻(xiàn)[9]使用32 種分類數(shù)據(jù)集元特征,基于kNN 構(gòu)建元特征到最優(yōu)算法的映射.
3)基于回歸的元算法預(yù)測(cè)各候選算法的性能指標(biāo)值并進(jìn)行比較,從而完成算法選擇決策,使用較為廣泛的元算法為支持向量回歸(support vector regression,SVR).該類方法可以靈活地增減候選算法,但訓(xùn)練成本較高.文獻(xiàn)[10]選用12 種元特征,應(yīng)用SVR 學(xué)習(xí)元特征與候選分類算法性能的映射關(guān)系.
4)基于集成的元算法通過一定策略組合多個(gè)性能較弱的元算法,得到具有較強(qiáng)性能的集成元算法,常見的元算法包括隨機(jī)森林(random forest,RF)、極端梯度提升(extreme gradient boosting,XGB)等,這些方法的泛化性能較好,但訓(xùn)練速度較慢且參數(shù)設(shè)置較為復(fù)雜.文獻(xiàn)[11]提取22 種元特征,采用RF 學(xué)習(xí)元特征到最優(yōu)分類算法的映射.文獻(xiàn)[12]使用22 種元特征,采用隨機(jī)森林回歸(random forest regression,RFR)預(yù)測(cè)候選分類算法的性能.文獻(xiàn)[13]提取98 種圖像元特征,分別訓(xùn)練RF 和XGB 并預(yù)測(cè)最優(yōu)圖像分割算法.文獻(xiàn)[14]選擇39 種分類數(shù)據(jù)集元特征,應(yīng)用輕量梯度提升機(jī)(light gradient boosting machine,LGBM)進(jìn)行算法選擇.
在上述研究中,元特征和元算法的選用仍存在一些問題:在元特征方面,研究通常根據(jù)需求選取固定的元特征,耦合度較高,可擴(kuò)展性較弱;不同元特征從不同方面描述和提取數(shù)據(jù)集的抽象特征,具備一定的互補(bǔ)性,然而現(xiàn)有的方法難以有效利用.在元算法方面,現(xiàn)有研究或使用泛化性能較弱的單個(gè)元算法,或采用同構(gòu)基學(xué)習(xí)器的集成元算法,未能充分利用不同元算法的優(yōu)勢(shì)和多樣性.
多目標(biāo)優(yōu)化是指同時(shí)優(yōu)化多個(gè)目標(biāo)且目標(biāo)間相互矛盾的問題,該問題通常是NP 難的,無(wú)法獲取唯一最優(yōu)解,而是一組次優(yōu)解[31].不失一般性地以最小化問題為例,給出多目標(biāo)優(yōu)化問題的定義.
定義1.多目標(biāo)優(yōu)化問題.給定一個(gè)具有n維決策變量,m(m≥2)個(gè)目標(biāo)的優(yōu)化問題,其數(shù)學(xué)模型的定義如式(1)所示:
其中x=(x1,x2,…,xn),x為決策向量,Ω為決策空間;F:Ω→Λ,F(xiàn)為目標(biāo)函數(shù)向量,Λ為由m個(gè)優(yōu)化目標(biāo)構(gòu)成的目標(biāo)空間.
定義2.帕累托支配.給定2 個(gè)解x和y,當(dāng)滿足如式(2)所示約束條件時(shí),則稱x支配y,表示為x?y.
定義3.帕累托最優(yōu)解.給定解x∈Ω,當(dāng)且僅當(dāng)不存在另一個(gè)解支配它,即?y∈Ω:y?x時(shí),x為帕累托最優(yōu)解.
定義4.帕累托解集(Pareto set,PS).決策空間Ω中所有帕累托最優(yōu)解的集合稱為帕累托解集,如式(3)所示:
定義5.帕累托前沿(Pareto front,PF).PS對(duì)應(yīng)的目標(biāo)向量集合稱為帕累托前沿,如式(4)所示:
多目標(biāo)優(yōu)化旨在獲取靠近真實(shí)PF的解集S,從2 個(gè)方面評(píng)估解集S的質(zhì)量:收斂性,即解集S與真實(shí)PF的接近程度;分布性,即解集S在目標(biāo)空間中的散布程度.
ALO 通過螞蟻的隨機(jī)游走模擬蟻獅使用陷阱誘捕螞蟻的過程,實(shí)現(xiàn)個(gè)體解的搜索更新.螞蟻各維度的隨機(jī)游走方法如式(5)所示:
其中t為當(dāng)前迭代次數(shù),T為最大迭代次數(shù),X(t)表示隨機(jī)游走位置,cusum表示隨機(jī)游走步長(zhǎng)的累加和,用于生成隨機(jī)游走步長(zhǎng),rand表示位于[0,1]之間均勻分布的隨機(jī)數(shù).
在隨機(jī)游走過程中,螞蟻逐漸滑入陷阱,其游走邊界隨之縮小,如式(6)所示:
其中c和d表示個(gè)體各維度值的上界和下界,ct和dt分別表示第t次迭代中螞蟻各維度值搜索范圍的上界和下界,縮小程度I的計(jì)算如式(7)所示:
其中倍率因子w的值取決于當(dāng)前迭代次數(shù)t.t≤0.1T時(shí),w= 0;t> 0.1T時(shí),w= 2;t> 0.5T時(shí),w= 3;t>0.75T時(shí),w= 4;t> 0.9T時(shí),w= 5;t> 0.95T時(shí),w= 6.可見隨著t的增加,10w和I值呈遞增趨勢(shì),而ct和dt呈遞減趨勢(shì).
ALO 將適應(yīng)度最優(yōu)的蟻獅選為精英蟻獅,每只螞蟻通過輪盤賭方法選擇1 個(gè)蟻獅,圍繞精英蟻獅和輪盤賭蟻獅進(jìn)行隨機(jī)游走,并根據(jù)式(8)更新位置:
其中At為第t次迭代螞蟻的位置向量,e和r分別表示精英蟻獅和輪盤賭蟻獅,為第t次迭代螞蟻圍繞e進(jìn)行隨機(jī)游走得到的向量,為第t次迭代螞蟻圍繞r進(jìn)行隨機(jī)游走所得向量.
為了充分利用元特征的互補(bǔ)性和元算法的多樣性來(lái)提升算法選擇性能,SAMO 設(shè)計(jì)算法選擇模型,并提出多目標(biāo)混合蟻獅優(yōu)化算法對(duì)模型進(jìn)行求解,從而構(gòu)建準(zhǔn)確性和多樣性較強(qiáng)的集成元算法.
使用SAMO 進(jìn)行算法選擇的流程如圖2 所示.將元數(shù)據(jù)集輸入SAMO 后,SAMO 利用所提優(yōu)化算法對(duì)模型進(jìn)行優(yōu)化,輸出集成元算法集合,然后從其中選擇一個(gè)集成元算法用于預(yù)測(cè)新數(shù)據(jù)集的最優(yōu)算法.
Fig.2 Algorithm selection process of SAMO圖2 SAMO 算法選擇流程
2.1.1 模型優(yōu)化目標(biāo)
模型使用分類錯(cuò)誤率(error rate,ER),評(píng)估集成元算法的準(zhǔn)確性.
設(shè)有m個(gè)測(cè)試元實(shí)例X={x1,x2,…,xm},各個(gè)元實(shí)例對(duì)應(yīng)的最優(yōu)算法標(biāo)簽為Y={y1,y2,…,ym},且有yk∈A,1 ≤k≤m,其中A={a1,a2,…,al}為包含l個(gè)候選算法標(biāo)簽的集合,ER的計(jì)算公式為
其中E表示集成元算法,和yi分別表示第i個(gè)測(cè)試元實(shí)例的預(yù)測(cè)最優(yōu)算法標(biāo)簽和真實(shí)最優(yōu)算法標(biāo)簽.通過加權(quán)投票法,利用集成權(quán)重W={w1,w2,…,wv}組合v個(gè)基分類器B={b1,b2,…,bv}構(gòu)建集成元算法E,E對(duì)測(cè)試元實(shí)例xk∈X進(jìn)行預(yù)測(cè),如式(10)所示:
其中E(xk)表示預(yù)測(cè)最優(yōu)算法結(jié)果;a為A中的一個(gè)候選算法標(biāo)簽;bi表示B中的第i個(gè)基分類器,bi(xk)表示對(duì)xk的預(yù)測(cè)結(jié)果;I()為示性函數(shù),當(dāng)其中的表達(dá)式邏輯為真時(shí),I()=1,否則I()=0;wi為第i個(gè)基分類器的集成權(quán)重;函數(shù)表示取使其內(nèi)部表達(dá)式最大的算法標(biāo)簽a.ER值越小,表示集成元算法的性能越好.
采用不同的多樣性指標(biāo)(diversity indicator,DI),度量集成元算法的多樣性,包括Q 統(tǒng)計(jì)量(Q statistic,QS)、K 統(tǒng)計(jì)量(K statistic,KS)、相關(guān)系數(shù)(correlation coefficient,CC)、一致度量(agreement measure,AM)和雙錯(cuò)測(cè)度(double fault,DF).
基分類器bi和bj對(duì)X的預(yù)測(cè)結(jié)果列聯(lián)表如表1所示.
Table 1 Contingency Table of Prediction Results表1 預(yù)測(cè)結(jié)果列聯(lián)表
表1 中,c表示bi和bj均預(yù)測(cè)正確的元實(shí)例數(shù);p表示bi預(yù)測(cè)正確而bj預(yù)測(cè)錯(cuò)誤的元實(shí)例數(shù);q表示bi預(yù)測(cè)錯(cuò)誤而bj預(yù)測(cè)正確的元實(shí)例數(shù);d表示bi和bj均預(yù)測(cè)錯(cuò)誤的元實(shí)例數(shù).根據(jù)表1,bi和bj的QS,KS,CC,AM,DF指標(biāo)計(jì)算公式為
式(11)~(15)所述的指標(biāo)值越小代表基分類器多樣性越強(qiáng),除AM和DF指標(biāo)的值域?yàn)閇0,1]外,其余指標(biāo)的值域均為[-1,1];此外,這5 個(gè)指標(biāo)均為成對(duì)指標(biāo),即滿足DIbi,bj=DIbj,bi.集成元算法E的DI值為所有成對(duì)基分類器DI值的平均值,如式(16)所示:
綜上,算法選擇模型的目標(biāo)函數(shù)向量為
2.1.2 模型設(shè)計(jì)
模型從元特征和元算法2 個(gè)方面提升算法選擇性能.在元特征方面,選擇互補(bǔ)性較強(qiáng)的元特征子集,從而有效利用元特征;在元算法方面,通過選擇性集成方法,對(duì)異構(gòu)基分類器進(jìn)行集成,構(gòu)建具有較強(qiáng)泛化性能和多樣性的集成元算法.為了利用不同基分類器的優(yōu)勢(shì)和多樣性,采用kNN、支持向量機(jī)(support vector machine,SVM)和CART 作為基分類器,且本文設(shè)置每種基分類器的個(gè)數(shù)相等.
在對(duì)元數(shù)據(jù)集進(jìn)行元特征選擇的基礎(chǔ)上,算法選擇模型構(gòu)建集成元算法的過程如圖3 所示.首先使用自助法對(duì)訓(xùn)練集進(jìn)行若干次抽樣生成多個(gè)訓(xùn)練子集;然后運(yùn)用基分類器在訓(xùn)練子集上進(jìn)行訓(xùn)練形成基分類器集合;最后通過選擇性集成方法,從集合中選擇準(zhǔn)確性和多樣性較強(qiáng)的基分類器并基于加權(quán)投票法策略進(jìn)行組合,得到集成元算法.
Fig.3 Construction process of ensemble meta-learner圖3 集成元算法構(gòu)建過程
2.2.1 混合編碼機(jī)制
多目標(biāo)混合蟻獅優(yōu)化算法針對(duì)元特征選擇的離散特性(元特征選擇與否),使用離散型編碼選擇元特征子集;采用連續(xù)型編碼構(gòu)建集成元算法,該連續(xù)型編碼包括1 個(gè)用于控制基分類器選擇概率的選擇閾值編碼,以及若干個(gè)基分類器權(quán)重編碼,用于選擇基分類器的訓(xùn)練子集并生成集成權(quán)重.
個(gè)體的混合編碼方式如圖4 所示.設(shè)元數(shù)據(jù)集含有M個(gè)元特征,則個(gè)體的離散型編碼數(shù)為M;設(shè)基分類器個(gè)數(shù)為V,則自助法抽樣生成的訓(xùn)練子集個(gè)數(shù)為V,個(gè)體依次為kNN,SVM,CART 使用V個(gè)編碼選擇訓(xùn)練子集和生成集成權(quán)重,因此基分類器權(quán)重編碼數(shù)為3V,個(gè)體的連續(xù)型編碼數(shù)為3V+1.
Fig.4 Coding pattern of individuals圖4 個(gè)體編碼方式
根據(jù)混合編碼機(jī)制,對(duì)個(gè)體各維度的編碼值進(jìn)行初始化,如式(18)所示:
其中Ai為個(gè)體第i維的編碼值,個(gè)體前M維編碼為離散型的元特征選擇編碼,其值為1 表示第i維編碼對(duì)應(yīng)的元特征被選中,值為0 表示未被選中.個(gè)體第M+1 維編碼為選擇閾值編碼,其后的3V個(gè)編碼為基分類器權(quán)重編碼,前V個(gè)基分類器權(quán)重編碼為kNN 選擇訓(xùn)練子集,如式(19)所示:
其中AM+1為選擇閾值編碼值,J(Ai)= 1 表示第i維編碼對(duì)應(yīng)的訓(xùn)練子集被選中,J(Ai)= 0 表示未被選中,以此類推可得SVM 和CART 的訓(xùn)練子集.3 種基分類器分別在選擇的訓(xùn)練子集上獨(dú)立訓(xùn)練,得到基分類器集合B={b1,b2,…,bv},通過基分類器權(quán)重編碼值生成這3 種基分類器集合對(duì)應(yīng)的集成權(quán)重W={w1,w2,…,wv},如式(20)所示:
其中wi為第i個(gè)基分類器的集成權(quán)重,Ai為第i個(gè)基分類器對(duì)應(yīng)的基分類器權(quán)重編碼值,Aj為第j個(gè)基分類器對(duì)應(yīng)的基分類器權(quán)重編碼值.通過式(20)的歸一化方法,使得集成權(quán)重和為1,即=1.
2.2.2 增強(qiáng)游走策略
在混合編碼機(jī)制的基礎(chǔ)上,采用增強(qiáng)游走策略對(duì)個(gè)體進(jìn)行搜索更新.
在迭代過程中,個(gè)體的離散型編碼使用離散隨機(jī)游走方法,如式(21)所示:
Fig.5 Change trend of m(t)圖5 m(t)變化趨勢(shì)
隨機(jī)游走后,螞蟻離散型編碼值更新為
對(duì)于個(gè)體的連續(xù)型編碼,在其游走更新過程中引入隨機(jī)性.ALO 中每只螞蟻的搜索邊界ct和dt變化趨勢(shì)相同,種群多樣性不足.為了增強(qiáng)所提算法的種群多樣性,對(duì)式(6)進(jìn)行改進(jìn),如式(24)所示:
Fig.6 Change trend of search boundary圖6 搜索邊界變化趨勢(shì)
通過上述設(shè)計(jì),增強(qiáng)游走策略對(duì)個(gè)體不同類型的編碼進(jìn)行搜索更新,保留了螞蟻搜索邊界變化的遞減趨勢(shì),同時(shí)在該過程中引入了隨機(jī)性,增加了算法的種群多樣性.
2.2.3 偏好精英選擇機(jī)制
算法將帕累托解作為蟻獅保存至外部存檔S,為了提升算法的尋優(yōu)能力,分別以不同優(yōu)化目標(biāo)為偏好,從存檔S中選擇在該目標(biāo)上最優(yōu)的精英蟻獅.為了增強(qiáng)解的分布性,通過小生境技術(shù)計(jì)算蟻獅解的稀疏度從而量化其分布性,然后利用稀疏度通過輪盤賭選擇蟻獅,蟻獅解xS的稀疏度為
其中s(xS,φ)表示給定半徑 φ的小生境范圍內(nèi)解xS的稀疏度,yS表示存檔S中的另一個(gè)解,半徑 φ計(jì)算為
其中m(m≥2)為優(yōu)化目標(biāo)個(gè)數(shù),ei和ej分別表示第i個(gè)和第j個(gè)優(yōu)化目標(biāo)對(duì)應(yīng)的精英蟻獅,‖‖計(jì)算二者目標(biāo)函數(shù)值向量的歐氏距離,c為常數(shù);‖F(xiàn)(xS)-F(yS)‖計(jì)算解xS和解yS目標(biāo)函數(shù)值向量的歐氏距離,其值小于半徑 φ時(shí)表示yS是xS的相鄰解.給定解在存檔中的相鄰解越多,則該解的稀疏度越低,分布性越差.以2 個(gè)優(yōu)化目標(biāo)為例,稀疏度計(jì)算示意如圖7 所示.
Fig.7 Schematic diagram of sparsity calculation圖7 稀疏度計(jì)算示意圖
在迭代過程中,對(duì)于每個(gè)優(yōu)化目標(biāo),每只初始化螞蟻根據(jù)蟻獅的稀疏度通過輪盤賭選擇1 個(gè)蟻獅,圍繞該優(yōu)化目標(biāo)的精英蟻獅和輪盤賭蟻獅進(jìn)行隨機(jī)游走,產(chǎn)生新的個(gè)體解.由此可得個(gè)體數(shù)是初始化種群的新螞蟻種群的m倍,將新螞蟻種群加入外部存檔,篩選保留存檔中的帕累托解作為新一代蟻獅.
通過偏好精英選擇機(jī)制,分別圍繞不同優(yōu)化目標(biāo)上的最優(yōu)個(gè)體進(jìn)行迭代更新,增強(qiáng)算法的尋優(yōu)性能;采用輪盤賭方法以較大概率選擇分布性較好的個(gè)體,并圍繞該個(gè)體進(jìn)行搜索,使解的分布性更強(qiáng).
SAMO 流程如圖8 所示.方法首先輸入元數(shù)據(jù)集;然后根據(jù)混合編碼機(jī)制初始化螞蟻種群;計(jì)算螞蟻的適應(yīng)度,通過帕累托支配關(guān)系從中選出帕累托解作為蟻獅保存至外部存檔;按照偏好精英選擇機(jī)制,從蟻獅中選出準(zhǔn)確性和多樣性優(yōu)化目標(biāo)上的精英個(gè)體,分別稱為準(zhǔn)確性精英蟻獅和多樣性精英蟻獅,并計(jì)算蟻獅的稀疏度;在迭代過程中,每只初始化螞蟻根據(jù)蟻獅稀疏度進(jìn)行2 次輪盤賭選擇蟻獅,圍繞準(zhǔn)確性精英蟻獅和第1 次輪盤賭蟻獅,以及圍繞多樣性精英蟻獅和第2 次輪盤賭蟻獅,基于增強(qiáng)游走策略進(jìn)行隨機(jī)游走,生成2 只新的螞蟻;計(jì)算新螞蟻種群的適應(yīng)度并將其加入存檔,更新存檔和精英蟻獅;最后,達(dá)到最大迭代時(shí),輸出蟻獅構(gòu)建的集成元算法集合.在該過程中,個(gè)體的適應(yīng)度為集成元算法的準(zhǔn)確性和多樣性指標(biāo)值.
Fig.8 Process of SAMO圖8 SAMO 流程
SAMO 方法的偽代碼如算法1 所示.
算法1.SAMO 方法.
現(xiàn)對(duì)SAMO 的時(shí)間復(fù)雜度進(jìn)行分析,設(shè)元特征數(shù)為M,基分類器個(gè)數(shù)為V,可得個(gè)體維度數(shù)D=M+3V+1;設(shè)種群規(guī)模為N,最大迭代次數(shù)為T,則螞蟻隨機(jī)游走進(jìn)行迭代的時(shí)間復(fù)雜度為O(2N×D×T),計(jì)算解的支配關(guān)系和稀疏度的時(shí)間復(fù)雜度為O(N2×T).綜上所述,SAMO 的時(shí)間復(fù)雜度為O(N×T×(N+2D)).
3.1.1 數(shù)據(jù)集
由于分類算法應(yīng)用的廣泛性,通過分類算法選擇問題進(jìn)行測(cè)試實(shí)驗(yàn).實(shí)驗(yàn)使用來(lái)自于UCI[32],KEEL[33],StatLib[34],OpenML[35]的260 個(gè)分類數(shù)據(jù)集,這些數(shù)據(jù)集的數(shù)據(jù)來(lái)源領(lǐng)域各異,實(shí)例數(shù)從13~149 332 不等,屬性數(shù)從1~1 558 不等,類數(shù)從2~188 不等,具有一定的差異性,構(gòu)成多樣化的數(shù)據(jù)集,從而能夠有效評(píng)估方法的性能.實(shí)驗(yàn)數(shù)據(jù)集信息如表2 所示.
表2(續(xù))
Table 2 Information of Experimental Datasets表2 實(shí)驗(yàn)數(shù)據(jù)集信息
3.1.2 元特征
通過元特征提取工具M(jìn)FE[36]提取常用的150 種分類數(shù)據(jù)集元特征,包括77 種基于統(tǒng)計(jì)和信息論的元特征、24 種基于決策樹的元特征、14 種基于基準(zhǔn)的元特征和35 種基于問題復(fù)雜度的元特征.元特征信息如表3 所示.
Table 3 Information of Meta-Features表3 元特征信息
3.1.3 候選算法
使用8 種sklearn[37]機(jī)器學(xué)習(xí)平臺(tái)的分類算法,包括kNN、RF、SVM、邏輯回歸(logistic regression,LR)、樸素貝葉斯(naive Bayes,NB)、線性判別分析(linear discriminant analysis,LDA)、ID3 決策樹和多層感知機(jī)(multi-layer perceptron,MLP),以及基于Keras[38]構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為候選算法.基于sklearn 實(shí)現(xiàn)的算法均采用其默認(rèn)參數(shù)設(shè)置,對(duì)于CNN,使用1 個(gè)含有32 個(gè)卷積核的1 維卷積層、1 個(gè)全連接層以及1 個(gè)最大池化層構(gòu)成其隱藏層,并設(shè)置其卷積層和全連接層使用ReLU(rectified linear unit)激活函數(shù),輸出層使用softmax 激活函數(shù).
3.1.4 候選算法性能測(cè)度
使用準(zhǔn)確率(Acc)、查準(zhǔn)率(Pre)、查全率(Rec)、F1 得分(F1)和ARR(adjusted ratio of ratios)[39]指標(biāo)測(cè)度并比較候選算法的性能.ARR指標(biāo)綜合考慮算法的運(yùn)行時(shí)間和準(zhǔn)確率,其計(jì)算如式(27)(28)所示:
其中ai和aj表示候選算法,l為候選算法數(shù),Acc和Rt表示算法在數(shù)據(jù)集上的準(zhǔn)確率和運(yùn)行時(shí)間;α為可變參數(shù),表示準(zhǔn)確率和運(yùn)行時(shí)間的相對(duì)重要程度.實(shí)驗(yàn)中ARR的 α值取研究中常用的0.1,0.01,0.001,并各自記為ARR1,ARR2,ARR3指標(biāo),以獲得較為全面的算法性能測(cè)度結(jié)果.
通過5 次10 折交叉驗(yàn)證獲取候選算法在各數(shù)據(jù)集上的性能指標(biāo)值,對(duì)指標(biāo)值進(jìn)行比較從而確定數(shù)據(jù)集的最優(yōu)算法,將最優(yōu)算法作為標(biāo)簽與元特征結(jié)合,構(gòu)建相應(yīng)性能指標(biāo)的元數(shù)據(jù)集.采用DAcc,DPre,DRec,DF1表示通過準(zhǔn)確率、查準(zhǔn)率、查全率和F1得分指標(biāo)構(gòu)建的元數(shù)據(jù)集;使用DARR1,DARR2,DARR3分別表示通過ARR1,ARR2,ARR3指標(biāo)生成的元數(shù)據(jù)集.此外,當(dāng)應(yīng)用基于回歸的元算法時(shí),為各候選算法構(gòu)建單獨(dú)的元數(shù)據(jù)集,其中的元實(shí)例標(biāo)簽為性能指標(biāo)值,訓(xùn)練元算法預(yù)測(cè)各候選算法的性能指標(biāo)值,比較預(yù)測(cè)值從而選出最優(yōu)算法.
3.1.5 對(duì)比方法
采用kNN,SVM,CART,SVR,RF,RFR,XGB,LGBM 作為元算法與SAMO 進(jìn)行對(duì)比實(shí)驗(yàn).研究表明kNN 的距離度量采用歐氏距離,鄰居數(shù)k值位于元數(shù)據(jù)集實(shí)例數(shù)的10%~15%之間時(shí),其表現(xiàn)更好[9,40].經(jīng)過對(duì)比擇優(yōu),本文設(shè)置k=30,距離度量采用以距離倒數(shù)為權(quán)重的加權(quán)歐氏距離.除kNN 外,其他基分類器和元算法均采用sklearn 中的默認(rèn)參數(shù)設(shè)置.
通過5 折交叉驗(yàn)證,即將元數(shù)據(jù)集隨機(jī)劃為5 份,選擇其中4 份作為訓(xùn)練集,1 份為測(cè)試集,計(jì)算各方法的性能指標(biāo)值.
對(duì)構(gòu)建的7 個(gè)元數(shù)據(jù)集進(jìn)行分析,候選算法在各元數(shù)據(jù)集中的勝出次數(shù)如表4 所示.
Table 4 Win Times of the Candidate Algorithms表4 候選算法勝出次數(shù)
從表4 可以看出,在本文的測(cè)試環(huán)境中,RF 具有較為優(yōu)越的分類性能,但是其在DARR1元數(shù)據(jù)集中的勝出次數(shù)較少,表明運(yùn)行時(shí)間是其短板.與RF 相對(duì)的是kNN 和NB,得益于算法較快的運(yùn)行速度,kNN和NB 在ARR指標(biāo)上具備一定優(yōu)勢(shì),但其分類性能較差,因此,隨著α值的減小,運(yùn)行時(shí)間的重要性降低,kNN 和NB 在ARR指標(biāo)元數(shù)據(jù)集中的勝出次數(shù)減少.相較于kNN 和NB,LR 的分類性能略優(yōu)但時(shí)間開銷更高,在7 個(gè)指標(biāo)上的表現(xiàn)較為平庸.SVM 的分類性能較優(yōu)且具有合適的時(shí)間開銷,在7 個(gè)指標(biāo)上均取得了較好結(jié)果.LDA 和ID3 展現(xiàn)了較好的分類性能,另一方面,LDA 和ID3 在ARR指標(biāo)的元數(shù)據(jù)集中也取得了較多次數(shù)的勝出,說(shuō)明其在運(yùn)行時(shí)間和準(zhǔn)確率上較為均衡.MLP 的分類性能具有一定優(yōu)勢(shì),但其在各數(shù)據(jù)集上的運(yùn)行時(shí)間較長(zhǎng),因此MLP 在ARR指標(biāo)的元數(shù)據(jù)集中取得的勝出次數(shù)較少.CNN 的分類性能較弱且運(yùn)行開銷較高,在7 個(gè)指標(biāo)上的結(jié)果較差.
為了確定合適的參數(shù)設(shè)置,本節(jié)設(shè)置種群規(guī)模N=50 和最大迭代次數(shù)T=300,對(duì)方法的關(guān)鍵參數(shù),即基分類器個(gè)數(shù)V和多樣性指標(biāo)DI進(jìn)行敏感性分析.
為了便于說(shuō)明,以DAcc元數(shù)據(jù)集為例,DI∈{QS,KS,CC,AM,DF},V∈{10, 15, 20, 25, 30},對(duì)方法獨(dú)立運(yùn)行20 次的平均帕累托解數(shù)量和準(zhǔn)確性精英蟻獅的ER平均值進(jìn)行對(duì)比,結(jié)果分別如圖9 和圖10 所示.
Fig.9 Pareto solution numbers of different diversity indicators圖9 不同多樣性指標(biāo)時(shí)的帕累托解數(shù)量
Fig.10 Error rates of different base classifier numbers圖10 不同基分類器個(gè)數(shù)時(shí)的錯(cuò)誤率
觀察圖9 中的帕累托解數(shù)量,其在5 種多樣性指標(biāo)上均呈現(xiàn)相同的變化趨勢(shì),即隨著基分類器個(gè)數(shù)V的增加,帕累托解數(shù)量整體呈現(xiàn)出先增加后減少的趨勢(shì),當(dāng)V=15 時(shí),SAMO 在5 種DI上的帕累托解數(shù)量相對(duì)較多.另一方面,當(dāng)使用QS,KS,CC指標(biāo)時(shí),SAMO 產(chǎn)生的帕累托解數(shù)量較為接近,優(yōu)于AM和DF指標(biāo)上的結(jié)果.
分析圖10 結(jié)果可以發(fā)現(xiàn),隨著基分類器個(gè)數(shù)V的增加,SAMO 的ER性能在5 種多樣性指標(biāo)上均呈現(xiàn)出先降低后提升的趨勢(shì),當(dāng)基分類器個(gè)數(shù)V=15 時(shí),5 種指標(biāo)上的ER值取得最優(yōu)結(jié)果.此外,當(dāng)基分類器個(gè)數(shù)V相同時(shí),5 種指標(biāo)上的ER性能較為接近,其中AM指標(biāo)上的整體表現(xiàn)優(yōu)于其他指標(biāo).
進(jìn)一步分析圖9 和圖10,隨著V的增加,基分類器的多樣性得到提升,集成的效果變好;而當(dāng)V>15 時(shí),基分類器多樣性的提升有限,卻引入了部分準(zhǔn)確性較差的基分類器,同時(shí)方法個(gè)體的搜索空間擴(kuò)大,搜索效率降低,導(dǎo)致了方法性能的下降.
綜合上述結(jié)果,為了獲取具有較好算法選擇性能的集成元算法,設(shè)置基分類器個(gè)數(shù)V=15 較為合適,多樣性指標(biāo)DI宜使用AM指標(biāo).
對(duì)本文所提多目標(biāo)混合蟻獅優(yōu)化算法、多目標(biāo)蟻獅優(yōu)化(multi-objective ALO,MALO)[41]、第2 代非支配排序遺傳算法(non-dominated sorting genetic algorithm 2,NSGA2)[42]、速度約束多目標(biāo)粒子群優(yōu)化(speed-constrained multi-objective particle swarm optimization,SMPSO)[43]以及第2 代強(qiáng)度帕累托進(jìn)化算法(strength Pareto evolutionary algorithm 2,SPEA2)[44]的優(yōu)化性能進(jìn)行比較,其中NSGA2,SMPSO,SPEA2基于框架jMetalPy[45]實(shí)現(xiàn).各對(duì)比算法均采用連續(xù)型編碼,設(shè)置閾值為0.5 對(duì)個(gè)體的元特征選擇編碼進(jìn)行離散化.具體而言,設(shè)Ai為個(gè)體的第i維元特征選擇編碼,當(dāng)Ai≥0.5 時(shí)表示第i個(gè)元特征被選擇,Ai<0.5 時(shí)表示未被選擇;在個(gè)體的選擇性集成編碼部分設(shè)置與本文算法相同的編碼和解碼方式.
設(shè)置基分類器個(gè)數(shù)V=15,多樣性指標(biāo)DI為AM,算法種群規(guī)模N=50,最大迭代次數(shù)T=300,取算法獨(dú)立運(yùn)行20 次的平均結(jié)果.對(duì)算法準(zhǔn)確性最優(yōu)個(gè)體的ER值、多樣性最優(yōu)個(gè)體的DI值和帕累托解數(shù)量進(jìn)行比較,結(jié)果如表5~7 所示.
Table 5 Error Rate Results of the Algorithms表5 各算法錯(cuò)誤率結(jié)果%
從表5 和表6 可以看出,本文算法的準(zhǔn)確性最優(yōu)個(gè)體和多樣性最優(yōu)個(gè)體分別可以取得最低的ER值和DI值,說(shuō)明其尋優(yōu)性能優(yōu)于其他對(duì)比算法.對(duì)比MALO,NSGA2,SMPSO,SPEA2 的結(jié)果,不難發(fā)現(xiàn)MALO 的性能優(yōu)于另外3 種算法.
表7 中,本文算法可以產(chǎn)生較多的帕累托解數(shù)量,而其他算法的帕累托解數(shù)量較之有明顯的差距,進(jìn)一步驗(yàn)證了本文算法具有較強(qiáng)的尋優(yōu)性能.
使用非支配比率(non-dominance ratio,NR)[46]、超體積(hyper volume,HV)[47]和空間指標(biāo)(spacing,SP)[48],對(duì)各算法的解集質(zhì)量進(jìn)行評(píng)估.NR將不同算法產(chǎn)生的多個(gè)解集合并為1 個(gè)解集并從中篩選出帕累托解構(gòu)成解集Sm,然后計(jì)算某一個(gè)解集中的解在Sm中所占的比例,比值越大說(shuō)明該解集的質(zhì)量較之其他解集的質(zhì)量越優(yōu).HV計(jì)算解集與目標(biāo)空間中的最差點(diǎn)所構(gòu)成空間的面積,ER和DI最差的指標(biāo)值均為1,因此最差點(diǎn)為(1,1),HV值越大表示解集質(zhì)量越好.SP計(jì)算解集中相距最近的2 個(gè)解距離的標(biāo)準(zhǔn)差,其值越小代表解的分布性越好.各算法在NR,HV,SP上的比較結(jié)果如表8~10 所示.
Table 8 NR Results of the Algorithms表8 各算法NR 結(jié)果
對(duì)比表8 中的NR結(jié)果,相較于其他算法,本文算法有明顯的優(yōu)勢(shì),展現(xiàn)了更強(qiáng)的收斂性.MALO可以搜索到本文算法所未能發(fā)現(xiàn)的帕累托解,具備一定的尋優(yōu)性能.NSGA2,SMPSO,SPEA2 在NR上的表現(xiàn)較差.
分析表9,所提算法在各元數(shù)據(jù)集上取得了最大的HV值,表明算法產(chǎn)生的解在目標(biāo)空間中距離最差點(diǎn)較遠(yuǎn),解集的質(zhì)量高于其他算法.MALO 在個(gè)別元數(shù)據(jù)集上可以取得與本文算法相近的HV值,其性能優(yōu)于NSGA2,SMPSO,SPEA2.
表10 的結(jié)果顯示5 種算法在不同元數(shù)據(jù)集上具有較優(yōu)的SP值,其中本文算法和MALO 分別在部分元數(shù)據(jù)集上都取得了最優(yōu)結(jié)果,NSGA2,SMPSO,SPEA2 的結(jié)果較為接近.結(jié)合帕累托解數(shù)量結(jié)果,本文算法產(chǎn)生較多的帕累托解,同時(shí)可以保持較好的分布性.
Table 10 SP Results of the Algorithms表10 各算法SP 結(jié)果
綜合上述分析,在對(duì)算法選擇模型進(jìn)行優(yōu)化時(shí),相較于其他4 種算法,本文算法可以在2 個(gè)優(yōu)化目標(biāo)上搜索到更優(yōu)解,并且可以發(fā)現(xiàn)數(shù)量更多且質(zhì)量更高的帕累托解,在收斂性和分布性上有較大的優(yōu)勢(shì),說(shuō)明本文算法在尋優(yōu)性能上具備優(yōu)越性.
采用與3.4 節(jié)相同的方法參數(shù)設(shè)置,取SAMO 運(yùn)行20 次所得的準(zhǔn)確性精英蟻獅的性能均值進(jìn)行對(duì)比,各方法的ER比較結(jié)果如表11 所示.
Table 11 ER Results of the Methods表11 各方法ER 結(jié)果%
對(duì)表11 進(jìn)行分析,可以看出SAMO 在各元數(shù)據(jù)集上有更優(yōu)越的性能,其在除DPre外的其他元數(shù)據(jù)集上均取得了最好結(jié)果.kNN,SVM,CART 的性能較弱,SAMO 的性能明顯優(yōu)于這3 種元算法.SVR 預(yù)測(cè)各候選算法的性能指標(biāo)值,比較預(yù)測(cè)值并選擇最優(yōu)算法,計(jì)算開銷較高,且其在ER指標(biāo)上不具備性能優(yōu)勢(shì).在集成方法中,除SAMO 外,RF 具有較好的性能,在各元數(shù)據(jù)集上均有較好的表現(xiàn);RFR 結(jié)合集成和回歸方法,預(yù)測(cè)算法的性能指標(biāo)值,其性能優(yōu)于SVR 但明顯劣于其他集成方法;XGB 在DRec元數(shù)據(jù)集上的性能強(qiáng)于RF,但是方法的整體性能不如RF;LGBM的整體表現(xiàn)并不突出,但其在DPre元數(shù)據(jù)集上取得了最優(yōu)結(jié)果.將SAMO 與平均性能排名第2 的RF 進(jìn)行比較,SAMO 有著2.9%的平均性能領(lǐng)先,證明了SAMO 在ER指標(biāo)上的優(yōu)越性.
進(jìn)一步使用查準(zhǔn)率、查全率和F1 得分指標(biāo)比較方法性能,結(jié)果如表12~14 所示.
Table 12 Precision Results of the Methods表12 各方法查準(zhǔn)率結(jié)果%
分析表12 查準(zhǔn)率結(jié)果,SAMO 在5 個(gè)元數(shù)據(jù)集上均獲得了最好性能.kNN 和CART 在查準(zhǔn)率指標(biāo)上的表現(xiàn)明顯優(yōu)于SVM 和SVR.在除SAMO 外的集成方法中,RFR 的性能不如其他方法.RF,XGB,LGBM 的性能較優(yōu),其中RF 在DPre元數(shù)據(jù)集上表現(xiàn)突出,XGB 在DRec元數(shù)據(jù)集上具有優(yōu)越性能.SAMO相較于kNN,SVM,CART,SVR 有較大程度的性能優(yōu)勢(shì),其與RF 相比平均性能提升了2.5%,表明SAMO在查準(zhǔn)率指標(biāo)上具有優(yōu)越性.
表13 中,SAMO 在ARR指標(biāo)的元數(shù)據(jù)集上取得了較好的查全率結(jié)果.CART 的查全率性能優(yōu)于kNN和SVM,SVR 的性能表現(xiàn)稍劣于SVM.RFR 的性能優(yōu)于CART,在DAcc上具有優(yōu)異表現(xiàn),但是在其他元數(shù)據(jù)集上的表現(xiàn)一般.RF,XGB,LGBM 的查全率性能較好,其中XGB 在DRec,DF1,DARR2元數(shù)據(jù)集上以及LGBM 在DPre元數(shù)據(jù)集上表現(xiàn)優(yōu)異.SAMO 的性能相較于RF 平均領(lǐng)先了2.5%,相較于XGB 平均領(lǐng)先了0.5%,說(shuō)明SAMO 在查全率指標(biāo)上具備一定的有效性.
從表14 可以看出,SAMO 在各元數(shù)據(jù)集上的F1得分性能較好,在部分元數(shù)據(jù)集上取得了最好的結(jié)果.在kNN,SVM,CART 中,CART 的性能優(yōu)于kNN和SVM.SVR 與SVM 的性能較為接近,與其他方法的差距較大.RFR 的性能稍劣于CART,表現(xiàn)較為一般.RF,XGB,LGBM 具有較好的F1 得分性能,其中XGB 和LGBM 分別在不同元數(shù)據(jù)集上表現(xiàn)突出.SAMO的F1 得分優(yōu)于kNN,SVM,CART,另一方面,其相較于RF 性能平均提升了2.4%,與XGB 相比則性能平均提升了0.8%,驗(yàn)證了SAMO 在F1 得分指標(biāo)上的有效性.
將SAMO 與RF,RFR,XGB,LGBM 這4 種集成方法進(jìn)行對(duì)比,SAMO 使用3 種基分類器進(jìn)行選擇性集成,而其他方法僅使用CART 基學(xué)習(xí)器進(jìn)行集成,SAMO 生成的集成元算法具有更強(qiáng)的多樣性.另一方面,在實(shí)驗(yàn)測(cè)試中,SAMO 構(gòu)建的集成元算法在DAcc,DPre,DRec,DF1,DARR1,DARR2,DARR3上平均集成的基分類器數(shù)量分別為7.7,6.5,6.7,7.2,5.5,7.1,7.8,而其他方法固定使用100 個(gè)基學(xué)習(xí)器進(jìn)行集成,由此可見SAMO 通過選擇性集成有效減少了基學(xué)習(xí)器的數(shù)量,從而降低集成元算法的存儲(chǔ)和運(yùn)行開銷.
綜上所述,SAMO 選擇具有互補(bǔ)性的元特征子集,并使用不同類型的基分類器進(jìn)行選擇性集成,生成具有較好算法選擇性能和多樣性的集成元算法.其在測(cè)試指標(biāo)上的性能均明顯優(yōu)于kNN,SVM,CART,SVR 方法,而與RF,XGB 等采用同構(gòu)基學(xué)習(xí)器的集成方法相比,也具有相對(duì)優(yōu)越的性能表現(xiàn),證明了SAMO 的有效性和優(yōu)越性.
為了提升基于元學(xué)習(xí)的算法選擇性能,提出基于多目標(biāo)混合蟻獅優(yōu)化的算法選擇方法SAMO.設(shè)計(jì)算法選擇模型,引入元特征選擇和選擇性集成,同時(shí)尋找互補(bǔ)性較強(qiáng)的元特征子集和對(duì)多種元算法進(jìn)行選擇性集成;提出多目標(biāo)混合蟻獅優(yōu)化算法求解模型,使用混合編碼機(jī)制選擇元特征并構(gòu)建集成元算法,采用增強(qiáng)游走策略和偏好精英選擇機(jī)制提高尋優(yōu)性能.構(gòu)建分類算法選擇問題進(jìn)行實(shí)驗(yàn)測(cè)試,將SAMO 與8 種典型的元算法進(jìn)行對(duì)比,結(jié)果顯示SAMO具有優(yōu)異的算法選擇性能,明顯優(yōu)于kNN,SVM,CART,SVR 元算法,較之RF,RFR,XGB,LGBM 這4 種集成元算法也有一定優(yōu)勢(shì),并且具備更強(qiáng)的多樣性,綜合體現(xiàn)了SAMO 的有效性和優(yōu)越性.
未來(lái)的工作包括3 個(gè)方面:
1)由于算法選擇相關(guān)因素較多,問題較為復(fù)雜,因此目前本文所提方法SAMO 的效果有限,后續(xù)將深入研究數(shù)據(jù)集、元特征和元算法的內(nèi)在關(guān)系,對(duì)SAMO 進(jìn)行改進(jìn),顯著提升算法選擇性能.
2)本文方法的時(shí)間復(fù)雜度較高,未來(lái)將通過并行計(jì)算、遷移學(xué)習(xí)等手段降低方法的訓(xùn)練開銷.
3)將SAMO 拓展應(yīng)用于實(shí)際工程,構(gòu)建算法選擇系統(tǒng).
作者貢獻(xiàn)聲明:李庚松提出方法設(shè)計(jì),負(fù)責(zé)實(shí)驗(yàn)方案的實(shí)現(xiàn)和論文內(nèi)容的撰寫;劉藝提出研究問題,梳理論文結(jié)構(gòu);鄭奇斌整理論文內(nèi)容,負(fù)責(zé)實(shí)驗(yàn)數(shù)據(jù)集的收集和處理;李翔參與方法的實(shí)驗(yàn)結(jié)果分析;劉坤提出方法思路的改進(jìn)建議;秦偉提出論文修改和優(yōu)化建議;王強(qiáng)負(fù)責(zé)實(shí)驗(yàn)方案的實(shí)現(xiàn)指導(dǎo);楊長(zhǎng)虹給出完善論文整體框架的建議.