李鑫輝,申情,張雄濤
1. 湖州師范學(xué)院信息工程學(xué)院,浙江 湖州 313000;
2. 浙江省現(xiàn)代農(nóng)業(yè)資源智慧管理與應(yīng)用研究重點(diǎn)實(shí)驗(yàn)室,浙江 湖州 313000;
3. 湖州學(xué)院理工學(xué)院,浙江 湖州 313000
在收集到的心電圖數(shù)據(jù)集中,正常心電圖的數(shù)量遠(yuǎn)遠(yuǎn)多于心律不齊以及心肌梗死的心電圖數(shù)量,這是典型的不平衡數(shù)據(jù)[1]。心電圖波段繁多、信息繁雜,而且心電圖易受各種因素影響,例如過度緊張、發(fā)熱、躁動(dòng)等。醫(yī)學(xué)研究者從繁雜的心電圖中建立預(yù)測(cè)規(guī)律或者預(yù)測(cè)模型是極其困難的。而機(jī)器學(xué)習(xí)善于從繁雜數(shù)據(jù)中挖掘出對(duì)應(yīng)的線性或非線性規(guī)律,這能為建立預(yù)測(cè)模型提供很大幫助。其中,模糊神經(jīng)網(wǎng)絡(luò)(fuzzy neural network,F(xiàn)NN)是機(jī)器學(xué)習(xí)中的一個(gè)重要領(lǐng)域,其能以規(guī)則和模糊集的形式對(duì)知識(shí)進(jìn)行表達(dá),因此模糊神經(jīng)網(wǎng)絡(luò)具備良好的可解釋性。
模糊分類一般包括以下過程:一是模糊劃分,將輸入樣本映射到模糊子空間中;二是建立與子空間相對(duì)應(yīng)的模糊規(guī)則;三是借由模糊規(guī)則對(duì)輸入樣本進(jìn)行分類判斷。在訓(xùn)練模糊規(guī)則時(shí),通常會(huì)使用模糊C均值(fuzzy C-means,F(xiàn)CM)算法學(xué)習(xí)模糊規(guī)則的前件。研究表明,F(xiàn)CM算法的集中效果與數(shù)據(jù)集規(guī)模有關(guān),隨著數(shù)據(jù)集規(guī)模增大到一定程度,數(shù)據(jù)規(guī)模越增加,集中效果越差。
學(xué)者們提出了很多人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)的經(jīng)典學(xué)習(xí)算法,例如反向傳播(back propagat ion,BP)算法、極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[2]、徑向基函數(shù)(radial basis function,RBF)網(wǎng)絡(luò)[3]等。其中,模糊神經(jīng)網(wǎng)絡(luò)是由模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)。然而隨著時(shí)代的發(fā)展,現(xiàn)有的模糊分類器難以滿足人們對(duì)性能的要求,有學(xué)者提出使用集成方法提升模糊分類器的性能。
● Stacking型集成方法:Stacking型集成方法可以多級(jí)融合模糊分類器或模糊規(guī)則。例如,參考文獻(xiàn)[4]訓(xùn)練多個(gè)分類器并將其作為初級(jí)分類器,再集成初級(jí)分類器得到最終集成器;參考文獻(xiàn)[5]在模糊規(guī)則層面進(jìn)行集成融合。這種方法的優(yōu)點(diǎn)是可以提高模糊分類器的分類精度,缺點(diǎn)是集成模糊分類器的初級(jí)子分類器不具有可解釋性,訓(xùn)練時(shí)間較長(zhǎng)。
● Boosting型集成方法:Boosting型集成方法的核心在于通過訓(xùn)練得到多個(gè)相似卻不同的子分類器,典型方法有參考文獻(xiàn)[6]介紹的基于AdaBoost的方法,也有參考文獻(xiàn)[7]介紹的直接通過修改參數(shù)得到不同子分類器的方法。這些方法的缺點(diǎn)在于子分類器之間存在聯(lián)系,一旦修改就必須重新訓(xùn)練所有子分類器,并且模型的復(fù)雜度會(huì)變得更高。
● Bagging型集成方法:Bagging型集成方法[8]通過隨機(jī)放回抽樣得到多組子數(shù)據(jù)集,并用子數(shù)據(jù)集獨(dú)立地訓(xùn)練子分類器。這種方法的缺點(diǎn)是其難以準(zhǔn)確地處理大規(guī)模數(shù)據(jù)集,且在多數(shù)數(shù)據(jù)集中,Bagging的準(zhǔn)確性略低于Boosting。
為了解決上述問題,本文提出基于粒子群優(yōu)化特征選擇(particle swarm optimization feature selection,PSOFS)算法和TSK(Takagi-Sugeno-Kang)的并行集成模糊神經(jīng)網(wǎng)絡(luò)(PE-PT-FN)。PE-PT-FN的集成方法是對(duì)Bagging型集成方法的改進(jìn)。PE-PT-FN的貢獻(xiàn)如下。
● PE-PT-FN通過對(duì)不同標(biāo)簽集分別進(jìn)行隨機(jī)放回抽樣后再合并獲得子訓(xùn)練集,確保子訓(xùn)練集中各類樣本分布平衡,從而提升模型對(duì)不平衡數(shù)據(jù)的處理能力。每個(gè)子訓(xùn)練集都是原始數(shù)據(jù)集中的一部分,能在充分保留子訓(xùn)練集可解釋性的前提下,降低子分類器之間的相關(guān)性。而且,獨(dú)立且并行的集成模式也確保了模型在集成層面的可解釋性。
● PE-PT-FN能控制子訓(xùn)練集的數(shù)量規(guī)模。訓(xùn)練前件可以提高FCM的聚類性能,使得前件學(xué)習(xí)更加精確;訓(xùn)練后件能防止因數(shù)據(jù)集規(guī)模過大產(chǎn)生的過擬合問題。
● PE-PT-FN通過PSOFS算法從子訓(xùn)練集中獲得特征子集,能減少冗余數(shù)據(jù)對(duì)模型的干擾,從而有效地提升模型的精度。特征選擇得到的特征子集還能為醫(yī)學(xué)研究者總結(jié)預(yù)測(cè)規(guī)律提供參考數(shù)據(jù)。
本節(jié)簡(jiǎn)單介紹TSK模糊系統(tǒng)[9-11]的構(gòu)成,對(duì)于經(jīng)典的TSK模糊神經(jīng)網(wǎng)絡(luò)(TSKFNN)而言,模糊規(guī)則表示如下:
其中,∧表示并且,Rk表示第k條規(guī)則,is表示屬于,x= [x1,x2,…,xd]表示輸入向量,表示第i個(gè)輸入變量xi對(duì)應(yīng)的第k條規(guī)則所描述的模糊子集,K表示模糊規(guī)則的數(shù)量,是真值參數(shù),yk是按照第k條規(guī)則得到的解,f k(x)是yk的函數(shù)表達(dá)形式。而對(duì)于輸入向量x而言,y(x)就是yk的加權(quán)和:
其中,wk是yk的權(quán)值;u k(x)是對(duì)應(yīng) 模糊子集Ak的隸屬函 數(shù),可將u k(x)與所有隸屬函數(shù)的比值之和作為k y的權(quán)值,第k條規(guī)則的隸屬函數(shù)如下:代替式(2)中的u k(x),可得:
隸屬函數(shù)有很多種,如三角函數(shù)、梯型函數(shù)和高斯函數(shù)等。式(5)就是高斯函數(shù)型的隸屬函數(shù)。
傳統(tǒng)的TSK模糊系統(tǒng)難以處理復(fù)雜的現(xiàn)實(shí)數(shù)據(jù),如不平衡數(shù)據(jù)、大規(guī)模數(shù)據(jù)等。隨著社會(huì)的發(fā)展,人們對(duì)模型分類性能的要求逐步提升。為了解決上述問題,本文提出一種基于PSOFS和TSK的并行集成模糊神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠很好地保留模糊子分類器的可解釋性,同時(shí)提升對(duì)復(fù)雜數(shù)據(jù)的處理能力。
粒子群優(yōu)化(p a r t i c l e s w a r m optimization,PSO)算法源于對(duì)昆蟲、鳥群和魚群等相互合作的群體集聚行為的思考。這些群體中的成員會(huì)根據(jù)自己的經(jīng)驗(yàn)和周圍同伴的經(jīng)驗(yàn)改變自己的搜索策略。PSO算法通過設(shè)計(jì)一種無質(zhì)量的粒子群來模擬自然界中的群體,粒子僅具有速度和位置兩個(gè)屬性,速度代表粒子在空間中移動(dòng)的快慢和方向,位置代表粒子在空間中的坐標(biāo)。每個(gè)粒子都在搜索空間中單獨(dú)地搜索最優(yōu)解,并將其記為自身最優(yōu)位置。粒子群中的所有粒子都會(huì)共享自身最優(yōu)位置,在所有的自身最優(yōu)位置中挑選出最好的位置作為粒子群全局最優(yōu)位置。隨后,每個(gè)粒子都會(huì)根據(jù)當(dāng)前自身最優(yōu)位置和當(dāng)前全局最優(yōu)位置來調(diào)整自己的速度和位置。
特征選擇[12-14]是為了從數(shù)據(jù)集中選擇出效果更好的特征子集。當(dāng)前的特征選擇算法主要分為3種。
● 過濾法:過濾法基于特征的通用表現(xiàn)來選擇特征。
● 包裹法:包裹法將結(jié)果性能作為特征子集的評(píng)價(jià)準(zhǔn)則。
● 嵌入法:嵌入法將特征選擇嵌入訓(xùn)練過程。
PSOFS算法屬于典型的包裹法,將結(jié)果性能作為特征子集的評(píng)價(jià)標(biāo)準(zhǔn)。PSOFS算法將數(shù)據(jù)集的特征空間作為搜索空間,其搜索最佳的特征子集與PSO算法在搜索空間中搜索最佳位置相對(duì)應(yīng)。PSOFS算法使用搜索到的當(dāng)前特征子集訓(xùn)練學(xué)習(xí)器,其通過結(jié)果性能評(píng)估特征子集與PSO算法評(píng)估位置相對(duì)應(yīng)。
并行集成模糊神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)如圖1所示。DTR和DTE分別表示訓(xùn)練集和測(cè)試集,將DTR根據(jù)不同標(biāo)簽分成多個(gè)不同的標(biāo)簽集。S1,S2,…,SL是L組獨(dú)立的子數(shù)據(jù)集。子分類器是相互獨(dú)立的模糊系統(tǒng),通過FCM求解前件參數(shù),通過RBF求解后件參數(shù)。
圖1 并行集成模糊神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)
訓(xùn)練階段:為了解決各類標(biāo)簽樣本數(shù)量不平衡的問題,綜合考慮整體樣本數(shù)量之后,以1 0 0 0為基準(zhǔn)從不同標(biāo)簽集中抽取樣本。為了盡可能保留訓(xùn)練集的原始特征,子訓(xùn)練集會(huì)根據(jù)目標(biāo)標(biāo)簽集的樣本量對(duì)抽取樣本量進(jìn)行調(diào)整并后得到子數(shù)據(jù)集Si。其中number_Lable_i是當(dāng)前標(biāo)簽集的樣本量,min_number是所有標(biāo)簽集中的最小樣本量。每個(gè)Si都會(huì)通過PSOFS算法搜索得到對(duì)應(yīng)的特征選擇器。L組特征子集對(duì)不同特征的選用次數(shù)表示不同特征的重要程度。每個(gè)特征子集都獨(dú)立地訓(xùn)練出對(duì)應(yīng)的模糊子分類器TSK-FN。在訓(xùn)練TSK-FN時(shí),通過FCM算法學(xué)習(xí)模糊規(guī)則的前件,通過RBF學(xué)習(xí)模糊規(guī)則的后件。與傳統(tǒng)的集成學(xué)習(xí)不同,所有TSK-FN之間都是獨(dú)立的,可以并行地訓(xùn)練模糊子分類器。這樣的并行結(jié)構(gòu)可以獨(dú)立地對(duì)子分類器進(jìn)行操作而不影響整個(gè)集成分類器的效果,后期維護(hù)也更加簡(jiǎn)單。子分類器的實(shí)現(xiàn)方法屬于神經(jīng)網(wǎng)絡(luò),在本質(zhì)上屬于TSK模糊系統(tǒng),因此其既有強(qiáng)大的自學(xué)習(xí)能力,也有可解釋性。
測(cè)試階段:測(cè)試樣本首先通過特征選擇器得到特征樣本,再通過對(duì)應(yīng)的子分類器得出標(biāo)簽結(jié)果,對(duì)所有標(biāo)簽結(jié)果求算數(shù)平均數(shù),取整后作為輸出標(biāo)簽。
正則化RBF會(huì)將訓(xùn)練集中的所有樣本都作為隱藏層節(jié)點(diǎn),擁有部分可解釋性和不錯(cuò)的結(jié)果。但隨著訓(xùn)練集數(shù)據(jù)量的增加,隱藏層節(jié)點(diǎn)數(shù)量也增加,時(shí)間和空間要求呈指數(shù)級(jí)上升,且易產(chǎn)生過擬合現(xiàn)象,導(dǎo)致結(jié)果精度下降。為了解決上述問題,本文通過對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)放回抽樣獲得多個(gè)獨(dú)立的子數(shù)據(jù)集,將子數(shù)據(jù)集規(guī)??刂圃谟?xùn)練效果較好并且訓(xùn)練的空間成本和時(shí)間成本較低的范疇內(nèi),使得整個(gè)集成分類器能夠得到較好的精度,同時(shí)降低訓(xùn)練的空間成本和時(shí)間成本。子數(shù)據(jù)集被作為真實(shí)數(shù)據(jù)集的一部分,這為模型帶來以下3個(gè)好處:
● 提高模型的泛化性,使用不同樣本訓(xùn)練得到的子分類器之間的差異性會(huì)更大;
● 有利于處理不平衡數(shù)據(jù),提高少數(shù)類別標(biāo)簽樣本的使用率;
● 放回抽樣保證子分類器之間有一定的相關(guān)性。
本節(jié)介紹TSK模糊神經(jīng)網(wǎng)絡(luò)[15-17]的網(wǎng)絡(luò)結(jié)構(gòu),這個(gè)網(wǎng)絡(luò)架構(gòu)就是圖1中模糊系統(tǒng)的模型結(jié)構(gòu)。圖2中TSK-FN的第一層到第五層分別是輸入層、映射層、規(guī)則層、推理層、輸出層。其中前3層體現(xiàn)了前件學(xué)習(xí)。x1,x2,…,xd作為一組d維的輸入,通過高斯隸屬函數(shù)ui獲得隸屬度u1(x) ,u2(x) ,…,uk(x),w1,w2,…,wH是正則化RBF隱藏層的權(quán)值,也是TSK模糊神經(jīng)網(wǎng)絡(luò)需要求解的后件參數(shù),H表示隱藏層的節(jié)點(diǎn)個(gè)數(shù)。
圖2 TSK模糊神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)
本文采用的算法是參考文獻(xiàn)[18]介紹的FCM模糊聚類算法,以迭代的方式找出最佳的模糊聚類中心,將相應(yīng)樣本的隸屬度與該樣本到各個(gè)類中心的距離乘積之和作為目標(biāo)參數(shù)J。設(shè)訓(xùn)練數(shù)據(jù)集為,,H表示隱藏層的節(jié)點(diǎn)個(gè)數(shù)。
隸屬度矩陣U的迭代計(jì)算式為:
模糊類中心矩陣C的迭代計(jì)算式為:
先隨機(jī)給定一個(gè)U,U和C之間能通過式(7)和式(8)獲得新的矩陣,反復(fù)迭代至收斂。
后兩層中的模糊推理和反模糊化輸出主要由RBF通過自學(xué)習(xí)的方法從訓(xùn)練數(shù)據(jù)集中自行學(xué)習(xí)得到。將最小均方(least mean square,LMS)規(guī)則作為獲得模糊后件參數(shù)的標(biāo)準(zhǔn)。
其中,si表示隱藏層節(jié)點(diǎn),在正則化RBF中,每個(gè)隱藏層節(jié)點(diǎn)對(duì)應(yīng)一組訓(xùn)練數(shù)據(jù),iw就是隱藏層節(jié)點(diǎn)的權(quán)值,求最小均方誤差E:
用最小梯度算法就可以求得最小E,對(duì)應(yīng)的w1,w2,…,wH就是隱藏層的權(quán)值,也就是模糊后件 的參數(shù)。
TSK-FN使用FCM模糊聚類算法求得相應(yīng)的隸屬函數(shù)參數(shù),隸屬函數(shù)參數(shù)包含在模糊映射層中。隸屬度通過高斯隸屬函數(shù)模糊化輸入數(shù)據(jù)得到。從規(guī)則層到輸出層可以被視為一個(gè)RBF,其中將規(guī)則層作為RBF的輸入層,將推理層作為RBF的隱藏層,將輸出層作為RBF的輸出層。TSKFN上的參數(shù)都具有一定程度的可解釋性,在醫(yī)療研究領(lǐng)域能起到一定的輔助作用。
算法1中給出了PSOFS的實(shí)現(xiàn)過程。PSOFS算法能在特征維度對(duì)應(yīng)的D維搜索空間中尋找大量的潛在解,在每一代的演化中都會(huì)保留歷史最優(yōu)位置best,包括所有粒子的自身最優(yōu)位置Pi、當(dāng)前位置sitei和速度Vi。而在下一代的演化中,粒子的信息被用于計(jì)算新的速度和位置。其中fit函數(shù)表示對(duì)位置的評(píng)估,位置信息表示特征是否被選用,用被選上的特征訓(xùn)練分類器。將分類器的測(cè)試精度作為評(píng)估標(biāo)準(zhǔn)。
算法1PSOFS算法
輸入:數(shù)據(jù)集S
輸出:特征子集
PE-PT-FN的實(shí)現(xiàn)算法可以分為3個(gè)過程:一是預(yù)處理過程,包括劃分子集和選取特征子集;二是訓(xùn)練過程,包括獲取模糊前件參數(shù)和模糊后件參數(shù);三是測(cè)試過程,使用測(cè)試集對(duì)模型進(jìn)行評(píng)估。
算法2PE-PT-FN算法
輸入:數(shù)據(jù)集data
輸出:標(biāo)簽
算法2中,PSOFS函數(shù)表示算法1描述的粒子群優(yōu)化算法,Neti表示訓(xùn)練得到的子模糊神經(jīng)網(wǎng)絡(luò),sim函數(shù)將測(cè)試集通過模型得到預(yù)測(cè)結(jié)果,round函數(shù)對(duì)結(jié)果進(jìn)行求整,并將其作為標(biāo)簽輸出。PE-PTFN算法流程如圖3所示。
圖3 PE-PT-FN算法流程
PE-P T-F N的空間復(fù)雜度體現(xiàn)在隱藏層節(jié)點(diǎn)和記錄權(quán)值的矩陣所需的空間上。例如,n行m列的數(shù)據(jù)集需要的空間為隱藏層節(jié)點(diǎn)個(gè)數(shù)加上記錄權(quán)值,即m×n+n×m×n,由此可以 推 斷出,空間復(fù)雜度為O(n2)。在PE-PT-FN中,空間復(fù)雜度為O(n)。分析如下,假設(shè)子數(shù)據(jù)集的規(guī)模在9 000左右,每個(gè)子分類器的空間復(fù)雜度都是O(n2),分類器個(gè)數(shù)接近n/9 000,因此整個(gè)PE-PT-FN的空間消耗為9 0002×n/9 000=9 000×n。由此可知,PE-PT-FN的空間復(fù)雜度是O(n)。
PE-PT-FN的時(shí)間復(fù)雜度主要體現(xiàn)在計(jì)算隱藏層節(jié)點(diǎn)的權(quán)值和PSOFS迭代所需的時(shí)間上。獲取隱藏層節(jié)點(diǎn)的權(quán)值會(huì)產(chǎn)生大量的內(nèi)積計(jì)算,RBF的時(shí)間復(fù)雜度為O(n2),與上述空間復(fù)雜度同理,計(jì)算得出訓(xùn)練時(shí)間復(fù)雜度也是O(n)。PSOFS所需的時(shí)間主要消耗在迭代過程中,與數(shù)據(jù)量大小的相關(guān)性很低,單次特征選擇的時(shí)間復(fù)雜度可以被認(rèn)為是常數(shù)量T。假設(shè)子數(shù)據(jù)集的規(guī)模在9 000左右,PSOFS的時(shí)間消耗為T×n/9 000,時(shí)間復(fù)雜度為O(n)。由此可知,PE-PT-FN的時(shí)間復(fù)雜度為O(n)。
綜上所述,可以得出結(jié)論:PE-PT-FN的空間復(fù)雜度和時(shí)間復(fù)雜度都是O(n)。
在硬件平臺(tái)為Intel Core i5-9400 C×6 CPU,主頻為2.90 GHz,內(nèi)存為8 GB,且編程環(huán)境為MATLAB R2018a的系統(tǒng)上進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)采用的數(shù)據(jù)集為阿里云天池大數(shù)據(jù)競(jìng)賽中的訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集的總樣本量為10萬份,每列心電信號(hào)對(duì)應(yīng)不同類別的病例,分別為正常、心律過快、心率過慢和心肌梗死。對(duì)每個(gè)心電圖樣本的信號(hào)序列進(jìn)行頻次一致、長(zhǎng)度相等的采樣,得到1列205維的心電信號(hào)序列數(shù)據(jù)和1維標(biāo)簽數(shù)據(jù)。實(shí)驗(yàn)?zāi)繕?biāo)是預(yù)測(cè)心電圖心電信號(hào)類別。數(shù)據(jù)集作為公開數(shù)據(jù)集,可以從阿里云天池官網(wǎng)中獲得。
表1給出了不同模型的參數(shù)設(shè)置,其中r表示模糊聚類的尺度參數(shù),C表示模糊聚類的聚類中心個(gè)數(shù),δ表示高斯核函數(shù)的帶寬,penalty parameter表示懲罰參數(shù),hidden layer表示隱藏層參數(shù)的個(gè)數(shù),“—”表示不需要設(shè)置該參數(shù)。PE-PT-FN有r、C、δ這3個(gè)參數(shù)需要設(shè)置;RBF需要設(shè)置δ;ELM需要設(shè)置隱藏層參數(shù)的個(gè)數(shù);ANFIS[19]是將模糊邏輯和神經(jīng)元網(wǎng)絡(luò)有機(jī)結(jié)合的自適應(yīng)模糊推理系統(tǒng);參考文獻(xiàn)[20]提出用于處理不平衡數(shù)據(jù)的最近鄰插值法GFRNN(gravitational fixed radius nearest neighbor),該方法不需要設(shè)置參數(shù);參考文獻(xiàn)[21]提出用于處理不平衡數(shù)據(jù)的少數(shù)類合成過采樣技術(shù)(sy nthetic minority oversampling technique,SMOTE),SMOTE+SVM中高斯核函數(shù)的帶寬設(shè)為1,懲罰參數(shù)設(shè)為1 000,SMOTE取5個(gè)近鄰樣本。
表1 不同模型的參數(shù)設(shè)置
本節(jié)給出模型從不同標(biāo)簽集中抽取不同數(shù)量樣例下的實(shí)驗(yàn)結(jié)果、心電數(shù)據(jù)集在不同模型中的實(shí)驗(yàn)結(jié)果以及通過PSOFS得到的特征子集。使用宏準(zhǔn)確率(macro-P)、宏召回率(macro-R)和宏F1分?jǐn)?shù)(macro-F1)3種不同的衡量指標(biāo)來分析評(píng)估實(shí)驗(yàn)?zāi)P汀?/p>
準(zhǔn)確率(P)和召回率(R)是二分類模型的性能度量,準(zhǔn)確率的含義是在所有預(yù)測(cè)正例中真正例的比例;宏準(zhǔn)確率是指在執(zhí)行多分類任務(wù)時(shí),兩種類別的每個(gè)組合都計(jì)算一遍準(zhǔn)確率,再計(jì)算所有準(zhǔn)確率的平均值,計(jì)算式如下:
召回率的含義是真實(shí)情況下所有正例被識(shí)別為正例的比例;宏召回率是指在執(zhí)行多分類任務(wù)時(shí),兩種類別的每個(gè)組合都計(jì)算一遍召回率,再計(jì)算所有召回率的平均值,計(jì)算式如下:
macro-F1是分類問題的平均衡量指標(biāo),是macro-P和macro-R之間的調(diào)和平均數(shù),計(jì)算式如下:
如圖4所示,每個(gè)子數(shù)據(jù)集對(duì)標(biāo)簽集的取樣規(guī)模不同,呈現(xiàn)出的實(shí)驗(yàn)結(jié)果也不同。圖4(a)中對(duì)每個(gè)標(biāo)簽集都取1 0 0 0,圖4(b)中對(duì)每個(gè)標(biāo)簽集都取,圖4(c)中對(duì) 每 個(gè) 標(biāo) 簽 集 都 取。橫坐標(biāo)表示訓(xùn)練時(shí)的參數(shù)δ,即訓(xùn)練子分類器的高斯核函數(shù)的寬度(δ的范圍為[0,5],變化頻率為0.1),縱坐標(biāo)分別表示3種衡量指標(biāo)。由圖4可以直觀地發(fā)現(xiàn),通過控制不同標(biāo)簽的數(shù)量比例可以有效地改變模型的macro-P和macro-R。引入number_Lable_i來調(diào)整從目標(biāo)標(biāo)簽集中抽取樣本的數(shù)量,改變子數(shù)據(jù)集中不同標(biāo)簽樣本的比例,從而在一定程度上提升了性能。綜合分析可知,子集規(guī)模約為9 000時(shí),3種衡量指標(biāo)效果都較好。當(dāng)子集規(guī)模約為9 000時(shí),與其他模型進(jìn)行比較,具體見表2。
圖4 不同規(guī)模的子集在不同δ下的實(shí)驗(yàn)結(jié)果
RBF的實(shí)現(xiàn)過程在引言和第2.2節(jié)已經(jīng)有所描述。ELM實(shí)現(xiàn)過程的要點(diǎn)在于用給定的輸入、輸出及隨機(jī)的輸入權(quán)重,以求解廣義逆的方式得到輸出權(quán)重。ANFIS在模糊控制的模糊化、模糊推理和反模糊化3個(gè)基本過程中使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)制自動(dòng)地從輸入輸出樣本數(shù)據(jù)中抽取規(guī)則,構(gòu)成自適應(yīng)神經(jīng)模糊控制器。GFRNN首先在固定半徑最近鄰規(guī)則下從訓(xùn)練集中生成選取模式并將其作為候選,然后根據(jù)萬有引力定律引入度量值來度量查詢模式與每個(gè)候選模式之間的距離,最后根據(jù)候選對(duì)象對(duì)查詢模式的所有引力之和進(jìn)行決策。SMOTE的核心在于特征空間上鄰近的點(diǎn)的特征都是相似的,因此SMOTE在特征空間中搜尋每個(gè)樣本點(diǎn)的多個(gè)最近鄰樣本點(diǎn),隨機(jī)選擇部分鄰近點(diǎn)進(jìn)行差值處理,乘上一個(gè)[0,1]的閾值,從而達(dá)到隨機(jī)合成數(shù)據(jù)的目的。分析表2中的macro-P和macro-R可以發(fā)現(xiàn),RBF、ELM和ANFIS的macro-R均低于macro-P,其中ELM的macro-P與macro-R的差值接近0.1,是3種模型中差值最大的。究其原因,一般的經(jīng)典算法在面對(duì)不平衡數(shù)據(jù)時(shí),往往會(huì)因?yàn)榭紤]精度而以多數(shù)類樣本為主導(dǎo),忽略少數(shù)類樣本,導(dǎo)致macro-R低于macro-P。 PE-PTFN、GFRNN和SMOTE的macro-R均高于macro-P,其中GFRNN的macro-P與macro-R的差值接近0.33,是3種模型中差值最大的。GFRNN會(huì)舍棄較多的多數(shù)類樣本,導(dǎo)致其macro-P遠(yuǎn)低于其他兩種模型。macro-P上表現(xiàn)最佳的是ELM,macro-R上表現(xiàn)最佳的是PE-PT-FN。分析表2中的macro-F1,PE-PT-FN的性能要高于其他對(duì)比模型,這表明PE-PT-FN能在保證較好的macro-P的前提下,更好地提升macro-R。綜合分析表2能夠得到如下結(jié)論,PE-PT-FN能夠有效地處理不平衡的心電信號(hào)數(shù)據(jù),并且能夠得到較好的結(jié)果,在現(xiàn)實(shí)中擁有較強(qiáng)的應(yīng)用性,即PE-PTFN能夠更加準(zhǔn)確地分析繁雜的心電圖數(shù)據(jù),從中建立預(yù)測(cè)模型。
表2 子集規(guī)模約為9 000時(shí)不同模型的實(shí)驗(yàn)結(jié)果
使用上述3種衡量指標(biāo)對(duì)不同模型進(jìn)行評(píng)估。從圖5可以更加直觀地發(fā)現(xiàn),PEPT-FN的 macro-P并不是所有模型中最高的,但在macro-R和 macro-F1上,PEPT-FN要略高于其他模型。RBF、ELM和ANFIS都是macro-P高于macro-R,這主要是受到不平衡數(shù)據(jù)的影響。GFRNN的macro-R相對(duì)較高,但在macro-P上表現(xiàn)相對(duì)較差。SMOTE+SVM的表現(xiàn)證明了SMOTE算法能有效地處理數(shù)據(jù)不平衡問題。PE-PT-FN在macro-P上低于ELM,但在macro-R上均高于其他模型,在macro-F1上也要高于其他模型。綜上所述,PE-PT-FN能夠很好地處理不平衡心電信號(hào)數(shù)據(jù)的分類問題。
圖5 6種模型在3種衡量指標(biāo)下的表現(xiàn)
實(shí)驗(yàn)中設(shè)置子集數(shù)量為1 4個(gè),通過P S O F S算法對(duì)上述3種不同取樣策略得到的3組不同的子集進(jìn)行特征選擇。在圖4(a)的情況下,通過P S O F S算法得到的特征子集維數(shù)分別為(57,52,50,87,70,100,57,69,52,80,40,41,58,58);在圖4(b)的情況下,通過P S O F S算法得到的特征子集維數(shù)分別為(47,81,39,67,27,30,60,39, 52,43,50,36,16,67);在圖4(c)的情況下,通過PSOFS算法得到的特征子集維數(shù)分別為(68,2 3,18,78,57,5 6,9 0,4 0,3 2,47,27,50,44,39)。對(duì)特征選擇的結(jié)果進(jìn)行統(tǒng)計(jì),如圖6所示。特征維數(shù)的被選中次數(shù)在一定程度上可以表示該特征維的重要程度,可以為醫(yī)學(xué)研究者的研究工作提供更直觀的分析數(shù)據(jù)。
圖6 PE-PT-FN實(shí)驗(yàn)中不同特征維選中次數(shù)統(tǒng)計(jì)
本文提出的PE-PT-FN模型在理論部分屬于集成TSK模糊系統(tǒng),具有良好的可解釋性;在實(shí)現(xiàn)方法部分屬于神經(jīng)網(wǎng)絡(luò),具有強(qiáng)大的自學(xué)習(xí)能力。基于Bagging的集成形式確保了PE-PT-FN模型的穩(wěn)定性。子分類器之間的獨(dú)立性確保了PEPT-FN在后期維護(hù)中具有良好的操作性。實(shí)驗(yàn)證明,PE-PT-FN能夠很好地處理不平衡心電數(shù)據(jù)。同時(shí)在訓(xùn)練PE-PT-FN模型時(shí),通過PSOFS算法得到的特征子集、模糊系統(tǒng)中的參數(shù)和各個(gè)子分類器的結(jié)果都能為醫(yī)學(xué)工作者的研究提供分析數(shù)據(jù),用于分析心電圖與不同疾病之間的關(guān)系。
PE-PT-FN模型的訓(xùn)練耗時(shí)相對(duì)較長(zhǎng),且模糊系統(tǒng)中的參數(shù)無法與現(xiàn)實(shí)世界對(duì)應(yīng),仍需研究如何將其轉(zhuǎn)換成對(duì)應(yīng)現(xiàn)實(shí)世界的直觀知識(shí)。為了提高模型的實(shí)用性和可信度,未來仍需提高模型的訓(xùn)練速度和參數(shù)的可解釋性。