李雙明,關(guān) 欣,王海濱
(1. 海軍航空大學(xué),山東煙臺 264001;2.92941部隊(duì),遼寧葫蘆島 125001)
數(shù)據(jù)分類在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中扮演著重要的角色,已有的數(shù)據(jù)分類方法大致可分為兩種:“黑箱”方法和“白箱”方法.“黑箱”方法有支持向量機(jī)[1]、神經(jīng)網(wǎng)絡(luò)[2]以及它們的各種擴(kuò)展方法[3],“白箱”方法有K 近鄰算法[4]、貝葉斯方法[5]、決策樹方法[6]、模糊分類法[7]等. 由于復(fù)雜的電磁環(huán)境、測量設(shè)備的系統(tǒng)誤差或測量手段的缺乏,不可避免地獲得“低質(zhì)量”的數(shù)據(jù),這些數(shù)據(jù)往往呈現(xiàn)出不確定性,如模糊性、不精確性、不完備性,甚至數(shù)據(jù)缺失.
使用不確定知識表示和推理的三個(gè)最常見的框架是:貝葉斯概率理論[8]、Dempster-Shafer 理論[9]和模糊集理論[10]. 在知識表達(dá)系統(tǒng)中,最常見的知識系統(tǒng)為基于規(guī)則的系統(tǒng),其大致分為三種:粗糙集[11]、決策樹[6]以及基于“if-then”形式的規(guī)則[12]. 在簡單“if-then”規(guī)則基礎(chǔ)上發(fā)展而來的模糊規(guī)則分類系統(tǒng)(Fuzzy Rule-Based Classification System,F(xiàn)RBCS)已經(jīng)成為處理分類問題有效的工具之一[13],但是推理過程采用平均加權(quán)策略,決策方法采用“單贏”策略,不能夠處理不完備的信息,且受樣本噪聲的影響較大. 文獻(xiàn)[14]對FRBCS進(jìn)行了擴(kuò)展,但該方法也沒有實(shí)現(xiàn)對不完備信息的建模. 楊劍波教授基于D-S 理論、決策理論和模糊集理論,提出了以置信結(jié)構(gòu)建立混合規(guī)則庫、以證據(jù)推理(Evidential Reasoning,ER)為推理機(jī)的新方法[15],該方法能夠?qū)崿F(xiàn)對不完備信息的建模,但是對于分類問題而言,該方法出現(xiàn)規(guī)則數(shù)量“爆炸”現(xiàn)象. 文獻(xiàn)[16]提出了前提部分也嵌入置信結(jié)構(gòu)的分類系統(tǒng),該方法的規(guī)則數(shù)和訓(xùn)練樣本數(shù)是相等的,在識別時(shí)會增加計(jì)算負(fù)擔(dān). 焦連猛提出了帶有置信結(jié)構(gòu)的模糊規(guī)則分類系統(tǒng)[17],該模型結(jié)合了置信結(jié)構(gòu)和模糊集的各自優(yōu)點(diǎn),引入了特征權(quán)重,提出了數(shù)據(jù)驅(qū)動的置信規(guī)則庫(Belief Rule Base,BRB)建模方法,該方法充分利用訓(xùn)練數(shù)據(jù)來映射特征空間和類空間的不確定聯(lián)系,有效降低噪聲數(shù)據(jù)對分類結(jié)果的影響.
盡管上述基于各種模糊規(guī)則的識別方法都有各自的優(yōu)勢,但同時(shí)也存在不足,其中最重要的問題為規(guī)則的可解釋性. 文獻(xiàn)[17]指出影響規(guī)則可解釋性的主要原因包括規(guī)則結(jié)構(gòu)、規(guī)則數(shù)量、特征數(shù)量、模糊劃分的數(shù)量、模糊集的形狀,其中規(guī)則結(jié)構(gòu)包括特征屬性的邏輯連接關(guān)系、特征屬性權(quán)重、規(guī)則權(quán)重、規(guī)則前提部分的分布結(jié)構(gòu)、規(guī)則結(jié)論部分的分布結(jié)構(gòu)、規(guī)則結(jié)論的生成方式等. 為此,本文提出了參數(shù)自適應(yīng)的云模糊置信規(guī)則識別方法.
析取命題下的云模糊置信規(guī)則為
其中,Rq表示第q條規(guī)則,其規(guī)則權(quán)重為θq,屬性權(quán)重為δ1,δ2,…,δP,q=1,2,…,Q,Q為 置 信 規(guī) 則 庫 中 規(guī) 則的數(shù)量,P為前提屬性的數(shù)量,M為推理結(jié)論的數(shù)量,x=(x1,x2,…,xp)T為模式特征向量,為云模糊集,每 個(gè) 屬 性 模 糊 劃 分 集 為,規(guī)則權(quán)重0 ≤θq≤1,屬性特征權(quán)重0 ≤δp≤1,滿足=1.
析取云模糊規(guī)則識別系統(tǒng)需要解決以下幾個(gè)問題:模糊集的劃分、規(guī)則的產(chǎn)生、規(guī)則參數(shù)的確定. 在無先驗(yàn)知識的前提條件下,本文研究如何從數(shù)據(jù)自身來實(shí)現(xiàn)系統(tǒng)建模,因?yàn)橄到y(tǒng)結(jié)構(gòu)及參數(shù)均基于傳感器測量的數(shù)據(jù)而得到,并根據(jù)識別結(jié)果對其進(jìn)行調(diào)整,故稱為參數(shù)自適應(yīng)的析取云模糊規(guī)則分類系統(tǒng). 系統(tǒng)結(jié)構(gòu)如圖1所示.
圖1 參數(shù)自適應(yīng)的云模糊規(guī)則識別系統(tǒng)結(jié)構(gòu)圖
2.1.1 基于頻數(shù)的雙門限檢測方法
定義1對于描述某種特征屬性的數(shù)據(jù)集合H={Hi|i=1,2,…,m},記y為集合H中的元素Hi出現(xiàn)的個(gè)數(shù),稱y=f(Hi)為數(shù)據(jù)集合H的頻數(shù)分布函數(shù),則有式(2)成立,即
其中,n為數(shù)據(jù)樣本總量.
設(shè)置頻率檢測門限(數(shù)據(jù)點(diǎn)的頻數(shù)與數(shù)據(jù)總量的比值)為δ,當(dāng)統(tǒng)計(jì)數(shù)據(jù)點(diǎn)的頻數(shù)滿足式(3)時(shí),保留該數(shù)據(jù)分割點(diǎn),否則放棄該數(shù)據(jù)分割點(diǎn).
當(dāng)兩個(gè)數(shù)據(jù)分割點(diǎn)出現(xiàn)的頻數(shù)都超過閾值且相距較近,從聚類的角度,這兩個(gè)數(shù)據(jù)點(diǎn)應(yīng)該為同一類數(shù)據(jù),因此有必要舍去其中的一個(gè)數(shù)據(jù)點(diǎn).
定義2記相鄰的兩個(gè)數(shù)據(jù)分割點(diǎn)為Hi和Hi+1(i=1,2,…,l,l≤m-1 ≤n-1),稱式(4)為兩個(gè)數(shù)據(jù)之間的分離度.
設(shè)置分離度檢測門限為λ,若經(jīng)過頻率檢測門限δ檢測后相鄰兩個(gè)數(shù)據(jù)分割點(diǎn)的分離度滿足式(5),即
那么,舍去其中的一個(gè)點(diǎn),其原則為:將通過頻率檢測門限的數(shù)據(jù)點(diǎn)升序排列,首先計(jì)算第1 個(gè)點(diǎn)和第2 個(gè)點(diǎn)的分離度,若滿足,則舍去第2 個(gè)點(diǎn),然后計(jì)算第1 個(gè)點(diǎn)和第3 個(gè)點(diǎn)的分離度,依次往下;否則,第1 個(gè)點(diǎn)和第2個(gè)點(diǎn)都保留,然后計(jì)算第3個(gè)點(diǎn)和第4個(gè)點(diǎn),依次往下.
2.1.2 基于包含度的雙門限檢測方法
根據(jù)數(shù)據(jù)聚類的思想,將聚類中心作為模糊域劃分點(diǎn). 文獻(xiàn)[18]提出了基于數(shù)據(jù)包含度的自動聚類算法,該算法是一種基于密度的聚類算法,將自身數(shù)據(jù)密度大,且離其他數(shù)據(jù)點(diǎn)相對較遠(yuǎn)的數(shù)據(jù)點(diǎn)作為聚類中心. 對于數(shù)據(jù)個(gè)數(shù)較多時(shí),上述方法耗時(shí)較大,基于上述方法,本文提出了改進(jìn)的包含度檢測方法,步驟如下.
步驟1:將整個(gè)數(shù)據(jù)集升序排列可得x′1,x′2,…,x′n.
步驟2:以第一個(gè)數(shù)據(jù)點(diǎn)x′1為起始點(diǎn),依次計(jì)算下一個(gè)數(shù)據(jù)x′i(i>1)與x′1之間的距離d(x′i,x′1),若小于截?cái)嗑嚯xdc,則將x′i和x′1劃為一組,記為S,若d(x′i,x′1)大于截?cái)嗑嚯xdc,分組停止.
步驟3:計(jì)算包含度|S|/n,若| S |/n小于給定的包含度閾值uc,則舍去該組數(shù)據(jù),否則保留,記為S1.
步驟4:以第x′i+1為起始點(diǎn),依次計(jì)算下一個(gè)數(shù)據(jù)x′j(j>i+1)與x′i+1之間的距離d(x′j,x′i+1),執(zhí)行步驟3,得到St,遍歷整個(gè)數(shù)據(jù),執(zhí)行步驟5.
步 驟5:通 過 步 驟1~4 后,得 到n′組 數(shù) 據(jù)St(t=1,2,…,n′),以mean(St)作為模糊域的分割點(diǎn),n′作為模糊域的劃分?jǐn)?shù)量.
本文以二階正態(tài)云模型作為模糊集樣式[19],相比于三角形模糊集樣式,其具有以下優(yōu)勢:
(1)能夠刻畫數(shù)據(jù)的正態(tài)分布特性;
(2)能夠解決模糊集覆蓋有限的問題;
(3)能夠調(diào)整參數(shù)改變模糊集的形狀.
設(shè)模糊域分割點(diǎn)為{p1,p2,…,pl},相應(yīng)地確定了l個(gè)云模型,按式(6)計(jì)算每個(gè)云模型的參數(shù).
其中,ken和khe為常數(shù),稱為熵和超熵系數(shù),決定了云模型的形狀.
2.3.1 規(guī)則的前提部分
對訓(xùn)練樣本x=(x1,x2,…,xn)T,xi對應(yīng)第i個(gè)特征屬性上的測量值,根據(jù)第2.1節(jié)中特征域上的云模糊集劃分,遍歷xi隸屬于第i個(gè)特征域的云模糊集合=的隸屬度,取每個(gè)特征域最大隸屬度對應(yīng)的云模糊集組合為一條規(guī)則的前提條件,在規(guī)則前提條件確定的過程中,同時(shí)也確定了支持該規(guī)則所包含的訓(xùn)練樣本.
2.3.2 結(jié)論部分的置信結(jié)構(gòu)
設(shè)第q條規(guī)則Rq包含的訓(xùn)練樣本子集為Sq,類標(biāo)簽集為Ω={ω1,ω2,…,ωM},集合Sq中的第i個(gè)訓(xùn)練樣本為xi=(xi1,xi2,…,xiP)T,在每個(gè)特征上的隸屬度分別為,樣本xi與前提部分的匹配程度為
文獻(xiàn)[17]將Ω={ω1,ω2,…,ωM}作為辨識框架,對于Sq中每一個(gè)訓(xùn)練樣本xi,把類別Class(xi)=ωm當(dāng)作支持ωm為對應(yīng)規(guī)則結(jié)論部分的一個(gè)證據(jù). 在證據(jù)理論框架下,將μq(xi)作為ωm類的基本概率分配,由于該證據(jù)只支持ωm,不支持其它的任何一類,因此除ωm外的其他類基本概率分配為零,將剩余置信1-μq(xi)分配給整個(gè)辨識框架Ω,該證據(jù)用下面的mass 函數(shù)來表示,即
其中,0 <μq(xi) ≤1.
同樣地,得到Sq中所有樣本生成的證據(jù),利用Dempster 組合規(guī)則進(jìn)行融合,得到融合后的mass 函數(shù)mq,那么規(guī)則Rq的結(jié)論部分置信度為
當(dāng)一個(gè)前提部分包括不同類別的數(shù)據(jù)樣本時(shí),生成的證據(jù)之間是高沖突的,用上面的組合規(guī)則進(jìn)行融合是不合適的. 下面以兩類數(shù)據(jù)進(jìn)行說明.
例1假設(shè)第q個(gè)前提組合包含n個(gè)數(shù)據(jù)樣本,分為ω1和ω2兩類,ω1類的樣本數(shù)為n1,ω2類的樣本數(shù)為n2,滿足n1+n2=n.
ω1類的樣本xi生成的mass函數(shù)具有如下形式,即
按照上面的方法,產(chǎn)生ω2類的mass函數(shù).
Dempster 組合規(guī)則具有交換律的特點(diǎn),分兩種情況進(jìn)行組合.
(1)先對ω1類樣本生成的證據(jù)進(jìn)行組合,當(dāng)n1≥N1時(shí),所有證據(jù)的組合結(jié)果為
顯然該證據(jù)得到的置信結(jié)果是不符合邏輯的,完全丟棄ω2類的樣本對置信度的貢獻(xiàn).
(2)先對兩類證據(jù)分別組合,當(dāng)n1≥N1,n2≥N2時(shí),有
顯然這樣的結(jié)果是錯(cuò)誤的.
為此本文提出了一種基于可靠度的置信結(jié)構(gòu)生成方法.
定義3設(shè)第q個(gè)前提組合包含的樣本數(shù)為n,類ωm的樣本數(shù)為nωm,則結(jié)論部分類別ωm置信度的可靠度為
式(10)引入可靠度進(jìn)行修正,得
式(12)是一種新的基本概率賦值,可以看做是廣義的證據(jù)源修正,然后根據(jù)Dempster 組合規(guī)則進(jìn)行融合,得到結(jié)論部分的置信結(jié)構(gòu)分布.
2.3.3 規(guī)則權(quán)重和特征權(quán)重的優(yōu)化模型
記目標(biāo)函數(shù)為
其中,T為訓(xùn)練數(shù)據(jù)集的大小. 對每一個(gè)樣本,若系統(tǒng)識別結(jié)果正確,Ei=0,否則Ei=1. 則優(yōu)化目標(biāo)模型為
2.4.1 規(guī)則激活
設(shè)y=(y1,y2,…,yP)T表示要分類的未知目標(biāo). 該目標(biāo)的特征測量值或者是完備的,或者缺失某些特征測量值. 如果某些特征測量值缺失,那么屬于相應(yīng)模糊劃分域的匹配度為零,采用加權(quán)平均算子獲取未知目標(biāo)在規(guī)則Rq模糊域Aq上的匹配度為
μAq(y)的值盡管很小,但總不為零,所以有必要設(shè)置規(guī)則激活閾值σ,當(dāng)且僅當(dāng)μAq(y) >δ時(shí),規(guī)則Rq才被激活,否則不被激活.σ用于控制被激活的規(guī)則數(shù)量,σ的取值不同,激活的規(guī)則數(shù)量也不相同.σ的取值越小,被激活的規(guī)則數(shù)量就越多,直至規(guī)則庫中所有的規(guī)則被激活. 那么該如何選取σ呢?可以根據(jù)實(shí)際情況,對σ的取值主觀設(shè)定. 對于正態(tài)云而言,99.7%的云滴都落在[Ex-3En,Ex+3En]的區(qū)間內(nèi),即云模糊集的絕大部分貢獻(xiàn)都處于[Ex-3En,Ex+3En]區(qū)間內(nèi). 所以σ的取值可以設(shè)定為邊界點(diǎn)Ex-3En和Ex+3En對應(yīng)的隸屬度,近似地,本文取σ=e-4.5≈0.011 1.
設(shè)Q′表示被未知目標(biāo)y=(y1,y2,…,yP)T激活的規(guī)則集,有
規(guī)則Rq的激活度αq由兩個(gè)因素決定:匹配度μAq(y)和規(guī)則權(quán)重θq.μAq(y)反應(yīng)了未知目標(biāo)與置信規(guī)則前提部分的相似程度,θq反應(yīng)了置信規(guī)則的穩(wěn)定程度. 定義
2.4.2 推理決策
用Shafer 的折扣算子對激活的置信規(guī)則進(jìn)行折扣,有
用Dempster 組合規(guī)則對激活的規(guī)則進(jìn)行組合,對任意mαq( ·),及mαq(Ω) ≠0 外,其他元素的基本概率賦值都為零,Q′個(gè)組合規(guī)則的解析表達(dá)式為
其中,K表示歸一化系數(shù),q=1,2,…,Q′,m=1,2,…,M.
采用置信度最大的原則進(jìn)行決策,即
則ω為識別結(jié)果.
以電子偵察系統(tǒng)中的雷達(dá)輻射源識別為例,對本文所提方法進(jìn)行驗(yàn)證. 設(shè)有3類雷達(dá),選擇射頻頻率(Radio Frequency,RF)、脈沖重復(fù)間隔(Pulse Repetition Interval,PRI)和脈寬(Pulse Width,PW)作為雷達(dá)的特征參數(shù),各類雷達(dá)每種特征屬性上的測量值服從正態(tài)分布,各類雷達(dá)特征參數(shù)見表1. 每類雷達(dá)仿真生成兩類正態(tài)隨機(jī)數(shù)據(jù):一類具有統(tǒng)計(jì)特征分布,用來驗(yàn)證頻數(shù)檢測方法:一類不具有統(tǒng)計(jì)特征分布,用來驗(yàn)證包含度方法. 在兩類數(shù)據(jù)中,每種雷達(dá)各有200 個(gè)樣本,共計(jì)600 個(gè)數(shù)據(jù)樣本,并以該數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),進(jìn)行系統(tǒng)建模. 為消除量綱的影響,仿真中用到的數(shù)據(jù)進(jìn)行了歸一化處理.
表1 雷達(dá)特征參數(shù)
3.1.1 正確識別率分析
當(dāng)識別系統(tǒng)建好后,用兩種測試數(shù)據(jù)進(jìn)行測試:一種是以訓(xùn)練數(shù)據(jù)作為測試數(shù)據(jù)(無噪聲);另一種是在訓(xùn)練數(shù)據(jù)集內(nèi)隨機(jī)抽取,并分別疊加2%,5%,10%,15%,20%的干擾噪聲生成測試數(shù)據(jù). 對這兩種測試數(shù)據(jù),分別進(jìn)行1 000 次Monte Carlo 實(shí)驗(yàn),其仿真結(jié)果如表2 所示. 表2 中,數(shù)據(jù)1 表示具有統(tǒng)計(jì)分布特征的仿真數(shù)據(jù),數(shù)據(jù)2表示無統(tǒng)計(jì)分布特征的仿真數(shù)據(jù).
表2 正確識別率/%
系統(tǒng)云模型的參數(shù)設(shè)為ken=1.2,khe=0.001. 不同的門限參數(shù),模糊域劃分的數(shù)量是不同的. 模糊域劃分(3,3,4)表示特征RF、PRI 和PW 上的模糊分割數(shù)為3個(gè)模糊集、3個(gè)模糊集和4個(gè)模糊集.
對于數(shù)據(jù)1,訓(xùn)練數(shù)據(jù)集上的識別結(jié)果要優(yōu)于含有噪聲的測試數(shù)據(jù)集,并隨著噪聲的增大,正確識別率逐漸降低,當(dāng)加入20%的噪聲時(shí),3 種模糊劃分的正確識別率是最低的,分別為73.1%,79.9%,84.4%. 無論是訓(xùn)練數(shù)據(jù)集還是含有噪聲的測試數(shù)據(jù)集,隨著模糊域劃分的精細(xì),即劃分的模糊集數(shù)量增多,正確識別率逐漸增大,對于數(shù)據(jù)2 也有同樣地結(jié)論. 此外,在模糊劃分?jǐn)?shù)基本相同的情況下,數(shù)據(jù)1 的識別結(jié)果要差于數(shù)據(jù)2的識別結(jié)果,例如,當(dāng)數(shù)據(jù)1 和數(shù)據(jù)2 中的模糊域劃分都為(3,3,4)時(shí),數(shù)據(jù)2 的正確識別率要比數(shù)據(jù)1 高7.5%~18.51%,其他的模糊域劃分也是如此. 其原因?yàn)椋M管數(shù)據(jù)1 和數(shù)據(jù)2 的樣本總量是相同的,但在同種特征屬性上,樣本數(shù)量是不同的,數(shù)據(jù)1 的樣本量要明顯小于數(shù)據(jù)2 的樣本量,因此相對地講,數(shù)據(jù)1 的樣本量是小于數(shù)據(jù)2 的樣本量的,所以會出現(xiàn)表中的結(jié)果. 表2 中只給出了部分不同模糊劃分下的識別結(jié)果,缺少對相關(guān)參數(shù)的敏感性分析,在3.1.2節(jié)中講述.
3.1.2 參數(shù)敏感性分析
選取3.1.1節(jié)中的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,可調(diào)節(jié)的參數(shù)包括包含uc,dc,ken,khe,δ和λ. 下面給出各參數(shù)的取值范圍及變化步長:
(1)0.07 ≤uc≤0.16,變化步長0.005;
(2)0.07 ≤dc≤0.16,變化步長0.005;
(3)0.8 ≤ken≤3.8,變化步長0.25;
(4)0.01 ≤khe≤0.5,變化步長0.01;
(5)0.04 ≤δ≤0.06,變化步長0.001;
(6)0.1 ≤λ≤0.6,變化步長0.05.
仿真結(jié)果隨參數(shù)變化情況如圖2所示.
圖2(a)中,隨著包含度的增大,正確識別率呈現(xiàn)先下降后上升的“凹陷”現(xiàn)象. 當(dāng)包含度uc為0.125,0.13 和0.135 時(shí),正確識別率是最小的,約為92%;當(dāng)0.07 ≤uc≤0.115 和0.14 ≤uc≤0.16 時(shí),正確識別率都比較高. 進(jìn)一步分析,當(dāng)包含度為0.12,0.125,0.13,0.135和0.14 時(shí),其模糊域劃分分別為(5,4,3)、(4,4,3)、(4,4,3)、(4,4,3)和(4,3,3),劃分(5,4,3)多于劃分(4,4,3),識別率高,而劃分(4,3,3)少于劃分(4,4,3),識別率也高,說明識別率并不隨著劃分的數(shù)量增多而得到改善,而是存在一個(gè)最優(yōu)的組合. 圖2(b)中,盡管不同的截?cái)嗑嚯x上的識別結(jié)果是不同的,也不存在固定的變化規(guī)律,但是識別率都在99%以上,說明截?cái)嗑嚯x對識別結(jié)果的影響是最小的. 圖2(c)中,正確識別率隨著熵系數(shù)的增大逐漸降低. 圖2(d)中,隨著超熵系數(shù)的逐漸增大,識別結(jié)果呈“震蕩”式變化,在超熵系數(shù)為0.39 以及0.45 時(shí),出現(xiàn)了明顯的“斷崖”式下降,因此在選擇該參數(shù)時(shí),應(yīng)當(dāng)盡量地避開這些點(diǎn),可以選擇較小的數(shù)值. 圖2(e)和圖2(f)中隨著檢測門限的提高,系統(tǒng)的識別性能都呈現(xiàn)下降趨勢,因此在選擇這兩個(gè)參數(shù)時(shí),可以考慮選擇較小的數(shù)值.
圖2 仿真結(jié)果隨參數(shù)變化情況
利用UCI中的實(shí)測數(shù)據(jù)集,將本文方法與模糊置信規(guī)則分類系統(tǒng)(Belief Rule-Based Classification System,BRBCS)、支持向量機(jī)(Support Vector Machine,SVM)、核函數(shù)極限學(xué)習(xí)機(jī)(Kernel Extreme Learning Machine,KELM)等方法進(jìn)行對比分析,采用B-折交叉驗(yàn)證(BFold Cross-Validation,B-CV)的方法計(jì)算正確識別率,本文選用5-折交叉驗(yàn)證. 實(shí)驗(yàn)中選用Iris,Banknote,Ecoli,Seeds 及Haberman 5 類數(shù)據(jù)集,每類數(shù)據(jù)集的樣本數(shù)量、屬性數(shù)量和類別數(shù)量詳見表3.
表3 數(shù)據(jù)集信息描述
在支持向量機(jī)分類方法中,其懲罰系數(shù)為1,核系數(shù)為0.01,核函數(shù)為RBF 核. 在核函數(shù)極限學(xué)習(xí)機(jī)分類方法中,其懲罰系數(shù)為1,核系數(shù)為1,核函數(shù)為RBF核. 本文中的熵系數(shù)和超熵系數(shù)分別為1.2和0.001. 仿真實(shí)驗(yàn)結(jié)果見表4.
在BRBCS方法中,因?yàn)闊o先驗(yàn)知識,采用簡單的模糊格主觀劃分方法,且每個(gè)屬性上的劃分?jǐn)?shù)相同,劃分情況分為3種情況:每個(gè)屬性劃分為3個(gè)模糊集、5個(gè)模糊集和7個(gè)模糊集. 從表4中可知,對同種數(shù)據(jù)集而言,并不是劃分的數(shù)量越多,識別結(jié)果就越好. 在Iris,Haberman 以及Banknote 數(shù)據(jù)集上,精細(xì)的模糊域劃分提高了識別結(jié)果;但是在數(shù)據(jù)集Ecoli 和Seeds 上,精細(xì)的模糊域劃分,反而降低了系統(tǒng)的分類性能. 這說明BRBCS 分類系統(tǒng)的識別系統(tǒng)與模糊域的劃分沒有規(guī)律可循,若要得到較優(yōu)的分類性能,需要主觀反復(fù)地進(jìn)行驗(yàn)證,以此來確定滿足系統(tǒng)較優(yōu)分類性能的模糊域劃分. 在實(shí)際應(yīng)用中,尤其對實(shí)時(shí)性有一定要求的場景,顯然該方法是比較消耗時(shí)間的.
表4 正確識別率/%
KELM、SVM 方法在5 種數(shù)據(jù)集上的總體識別結(jié)果要差于本文方法,但存在例外,SVM 方法在Banknote 數(shù)據(jù)集上的識別結(jié)果在所有方法中是最好的,KELM 方法在Haberman 數(shù)據(jù)集上的識別結(jié)果是最優(yōu)的. 造成這種結(jié)果的原因主要是KELM、SVM方法作為典型基于數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,用于學(xué)習(xí)的樣本數(shù)量要滿足一定的數(shù)量,較少的訓(xùn)練數(shù)據(jù)會造成“過擬合”現(xiàn)象.
從識別結(jié)果的排名上來看,本文所提方法的識別性能總體上是最優(yōu)的. 與BRBCS 方法相比能夠用較少的模糊劃分?jǐn)?shù)量而達(dá)到較高的準(zhǔn)確識別率. 如在Iris數(shù)據(jù)集上,本文方法的劃分?jǐn)?shù)量為(4,3,4,4),正確識別率為97.33%;而BRBCS 方法當(dāng)所用的模糊劃分為(7,7,7,7)時(shí)的正確識別率為96.67%. 降低模糊劃分?jǐn)?shù)量帶來的優(yōu)勢為:一是增強(qiáng)系統(tǒng)的可解釋性,二是生成的規(guī)則數(shù)量降低,進(jìn)而能夠降低系統(tǒng)運(yùn)行的時(shí)間,提高系統(tǒng)分類性能的實(shí)時(shí)性. 在其他4 種數(shù)據(jù)集上,本文方法同樣是在較少的模糊劃分上獲得了較高的識別結(jié)果.與SVM、KELM 用于大樣本的分類方法相比,本文方法在處理小樣本數(shù)據(jù)識別問題上具有較好的優(yōu)勢.
本文提出了參數(shù)自適應(yīng)的析取云模糊置信規(guī)則識別方法. 通過兩種雙門限檢測方法,能夠有效快速地確定模糊域劃分的優(yōu)化組合方式. 調(diào)整云模型的熵和超熵系數(shù),可以改變模糊集的形狀. 引入可能度,有效處理沖突條件下置信結(jié)果的基本概率賦值問題,并根據(jù)優(yōu)化模型,實(shí)現(xiàn)對規(guī)則權(quán)重和屬性權(quán)重的優(yōu)化. 最后,用仿真數(shù)據(jù)集和實(shí)測數(shù)據(jù)集對所提方法進(jìn)行驗(yàn)證. 結(jié)果表明,設(shè)置較少的模糊劃分就可獲得較高的識別率,能夠有效處理小樣本識別率低的問題,同時(shí)規(guī)則的可解釋性得到了改善.