梁濤巨 林藝東 林夢(mèng)雷 王啟君
認(rèn)知計(jì)算作為人工智能的重要組成部分,是模擬人類大腦認(rèn)知過程的計(jì)算機(jī)系統(tǒng).認(rèn)知計(jì)算旨在解決生物系統(tǒng)中不確定、不精確和不完整的問題[1].經(jīng)過多年發(fā)展,認(rèn)知學(xué)習(xí)現(xiàn)已成為實(shí)現(xiàn)認(rèn)知計(jì)算的有利工具之一,廣泛應(yīng)用于認(rèn)知心理學(xué)[2]、機(jī)器學(xué)習(xí)[3-4]、信息科學(xué)[5-8]、分類任務(wù)[9-12]等領(lǐng)域.
形式概念分析(Formal Concept Analysis, FCA)[13-14]是一種數(shù)據(jù)分析工具,為揭示數(shù)據(jù)中的隱藏關(guān)系和潛在知識(shí)提供重要的數(shù)學(xué)基礎(chǔ),在知識(shí)表示與發(fā)掘、信息檢索、對(duì)象分類等領(lǐng)域具有廣泛的應(yīng)用前景.
概念是FCA研究的基本單元,為了提升對(duì)數(shù)據(jù)和信息的理解能力,學(xué)者們研究來自不同關(guān)系的概念,如模糊概念[15]、三支概念[16]、多尺度概念[17]和加權(quán)概念[18].
概念作為人類認(rèn)知的基本構(gòu)筑單位,在認(rèn)知計(jì)算中扮演著重要角色.于是學(xué)者們開始將FCA融入認(rèn)知計(jì)算中,提出概念認(rèn)知學(xué)習(xí).概念認(rèn)知學(xué)習(xí)模擬人類學(xué)習(xí)特點(diǎn),關(guān)注如何通過經(jīng)驗(yàn)和學(xué)習(xí)過程獲取、組織和應(yīng)用概念.在抽象層和機(jī)器層[19],概念認(rèn)知學(xué)習(xí)被認(rèn)為是采用一定的方法學(xué)習(xí)未知概念和概念結(jié)構(gòu),如概念聚類[20]和模仿人類認(rèn)知過程[21].
為了提高概念學(xué)習(xí)的效率和靈活性,Li等[21]在認(rèn)知計(jì)算的角度上討論基于粒計(jì)算的概念學(xué)習(xí).Niu等[22]結(jié)合局部粒概念,提取全局粒概念,并且實(shí)現(xiàn)多源數(shù)據(jù)的信息融合.李金海等[23]研究概念漸進(jìn)式認(rèn)知機(jī)理,討論在不完全條件下概念的獲取問題.
為了處理解決問題的基本技能被忽視的問題,Xie等[24]將一般信息粒轉(zhuǎn)化為基于能力的充分必要信息粒,從能力視角提出Cb-CCLM(Competence-Based Concept-Cognitive Learning Model).
隨著新的信息和經(jīng)驗(yàn)的累積,個(gè)體需要不斷調(diào)整和更新概念的分類方式,以更好地理解和應(yīng)對(duì)新的情景和任務(wù).為了衡量概念結(jié)構(gòu)的穩(wěn)定性,Zhang等[3]基于屬性拓?fù)涞母拍顦浔硎靖拍?降低概念認(rèn)知過程的復(fù)雜性.Mi等[9]提出用于動(dòng)態(tài)分類的概念認(rèn)知計(jì)算系統(tǒng),提高決策者在動(dòng)態(tài)環(huán)境下對(duì)問題解決的反應(yīng)能力.
為了克服個(gè)體認(rèn)知和認(rèn)知環(huán)境的限制,Yuan等[10]結(jié)合隸屬度和非隸屬度,設(shè)計(jì)ILMPFTC(Incre-mental Learning Mechanism Based on Progressive Fuzzy Three-Way Concept).Xu等[25]從概念運(yùn)動(dòng)視角研究概念的進(jìn)化機(jī)制,增強(qiáng)雙向概念學(xué)習(xí)在概念學(xué)習(xí)中的靈活性和進(jìn)化能力.
概念聚類是概念認(rèn)知學(xué)習(xí)的基本方法之一,目的是使相似概念越近、相異概念越遠(yuǎn).概念分類和概念生成是概念聚類的兩個(gè)關(guān)鍵任務(wù).Mi等[6]結(jié)合屬性和對(duì)象信息,提出FCLM(Fuzzy-Based Concept Learning Model),用于概念分類和概念發(fā)現(xiàn).Xu等[11]考慮注意力對(duì)概念聚類的影響,提出MA-CLM(Multi-attention Concept-Cognitive Learning Model),提高分類效率.
一般來說,通過概念加權(quán),可以根據(jù)個(gè)人的喜好和要求選擇有用的信息.Singh等[26]在計(jì)算概念前研究屬性權(quán)重之間的相關(guān)性.Zhang等[12]在決策信息中探討條件屬性的權(quán)重信息,設(shè)計(jì)DMPWFC(Dynamic Updating Mechanism Algorithm Based on Progressive Weighted Fuzzy Concept).然而生活中存在著不同決策下屬性權(quán)重不同的情況,權(quán)重的差異反映不同決策類下屬性的不同重視程度.在不同決策任務(wù)中,屬性被分配不同的權(quán)重,以提高概念認(rèn)知學(xué)習(xí)的準(zhǔn)確性.
因此,受文獻(xiàn)[11]和文獻(xiàn)[12]的啟發(fā),本文利用屬性與決策之間的相關(guān)性,提出基于屬性加權(quán)的概念認(rèn)知學(xué)習(xí)模型(Weighted Attributes-Based Con-cept-Cognitive Learning Model, WACCL).首先,利用屬性與決策之間的相關(guān)性,刻畫屬性在各決策中的影響作用,探討概念的重要性度量.然后,通過概念的重要性,在不同決策類下生成K-決策概念空間.為了降低概念認(rèn)知的復(fù)雜性和提高學(xué)習(xí)效率,通過概念聚類獲得具有更強(qiáng)泛化能力的偽概念,進(jìn)行概念預(yù)測(cè).最后,通過實(shí)驗(yàn)驗(yàn)證WACCL的可行性、有效性及準(zhǔn)確性.
由于現(xiàn)實(shí)中的許多分類任務(wù)是使用模糊數(shù)據(jù)描述的,因此本節(jié)主要回顧模糊形式背景及其相關(guān)的定義.
U={x1,x2,…,xm},
表示非空有限對(duì)象集,
A={a1,a2,…,an},
表示非空有限屬性集,
即對(duì)?x∈U,a∈A,都存在一個(gè)隸屬函數(shù)
μ(x,a)∈[0,1],
LA為A上所有的模糊集合,對(duì)
對(duì)象學(xué)習(xí)算子
和屬性學(xué)習(xí)算子
定義如下:
若
對(duì)
可定義偏序關(guān)系
D={d1,d2,…,dk}
為決策屬性集,
對(duì)?x∈U,有且僅有一個(gè)d∈D,使得
J(x,d)=1.
根據(jù)D可將U劃分為
UD={C1,C2,…,Ck}.
本文討論的概念均為模糊概念,后面不再突出“模糊”二字.
例1表1為一個(gè)模糊決策形式背景,包含10個(gè)對(duì)象和2個(gè)條件屬性.該模糊決策形式背景中有2個(gè)決策,則對(duì)象集劃分為2個(gè)決策類:
C1={x1,x2,…,x8},
C2={x9,x10}.
決策粒概念空間
Q1={({x1},{0.70,0.46});
({x2},{0.77,0.38});
({x1,x2,x3},{0.63,0.26});
({x1,x2,x4},{0.61,0.31});
({x1,x2,x3,x4,x5},{0.56,0.21});
({x1,x2,x3,x4,x6},{0.40,0.24});
({x1,x2,x3,x4,x5,x7},{0.48,0.15});
({x1,x2,x3,x4,x5,x8},{0.44,0.21})},
Q2={({x9},{0.67,0.09});({x10},{0.24,0.27})}.
后面使用C1~C10依次表示上述10個(gè)概念.
表1 模糊決策形式背景
在購買商品的決策問題中,會(huì)有價(jià)格導(dǎo)向決策、品質(zhì)導(dǎo)向決策及功能導(dǎo)向決策等.對(duì)于不同決策任務(wù),屬性可能會(huì)被分配到不同的權(quán)重,靈活地調(diào)整屬性權(quán)重可以更好地處理復(fù)雜的信息.為了提高屬性在不同決策任務(wù)中的靈活性,本文建立屬性與類別之間的相關(guān)性描述,提出基于屬性加權(quán)的概念認(rèn)知學(xué)習(xí)模型(WACCL).模型結(jié)合屬性權(quán)重,刻畫概念的重要性.然后,選擇重要性較高的概念,減少概念空間的冗余性.最后,建立概念聚類機(jī)制,進(jìn)一步提高概念認(rèn)知學(xué)習(xí)的效率.
屬性與決策類的相關(guān)性表示屬性對(duì)決策的預(yù)測(cè)能力或影響程度,反映不同屬性對(duì)于決策的重要性和貢獻(xiàn)程度.在進(jìn)行決策時(shí),屬性權(quán)重可以幫助識(shí)別更具有影響力的屬性,以實(shí)現(xiàn)個(gè)性化決策和提高決策的準(zhǔn)確性.下面結(jié)合屬性與類別的相關(guān)性,給出屬性權(quán)重的定義.
顯然,每個(gè)屬性在不同決策中被分配到不同的權(quán)重,反映該屬性在不同分類任務(wù)中的重要性.記權(quán)重矩陣:
其中ωij為屬性aj在決策類Ci下的權(quán)重.
例2(接例1) 由定義5可得權(quán)重矩陣
例3(接例2) 決策粒概念空間Q1中所有概念的貢獻(xiàn)值分別為
Cva(C1)=0.6208,Cva(C2)=0.6413,
Cva(C3)=0.5079,Cva(C4)=0.5110,
Cva(C5)=0.4445,Cva(C6)=0.3472,
Cva(C7)=0.3711,Cva(C8)=0.3641.
在概念空間中,不同概念以貢獻(xiàn)值體現(xiàn)類重要程度,概念的貢獻(xiàn)值越高,它在概念空間中越顯著.選擇貢獻(xiàn)值較高的概念可以降低概念空間的復(fù)雜性,提高學(xué)習(xí)效率.
算法1構(gòu)建K-概念空間
輸出K-概念空間QK
QK←?;U=C1∪C2∪…∪Ck
fori=1∶k
forx∈Ci
end
end
end
定義7對(duì)于決策粒概念空間Qi,給定閾值K(0≤K≤1),K-決策概念空間定義為:
閾值K為概念貢獻(xiàn)值的一個(gè)臨界值,不僅可以篩選貢獻(xiàn)值較高的概念,還可以控制概念空間中的概念數(shù)量.閾值過高會(huì)導(dǎo)致重要的概念被錯(cuò)誤刪除,而閾值過低會(huì)導(dǎo)致概念空間過于龐大和冗余,需要根據(jù)特定的任務(wù)和領(lǐng)域?qū)﹂撝颠M(jìn)行調(diào)整和優(yōu)化.
算法1總結(jié)K-概念空間的構(gòu)建過程.顯然,不同的決策將QK劃分為k個(gè)K-決策概念空間.
例4(接例3) 設(shè)閾值K=0.4,K-決策概念空間
根據(jù)現(xiàn)代范疇理論[27]基本思想,同一范疇內(nèi)的各個(gè)成員都由家族相似性聯(lián)系在一起,而人們對(duì)事物的分類和認(rèn)知是基于抽象的范疇,不是基于單個(gè)特征.概念聚類將相似事物歸為一類,是形成范疇的過程.在概念認(rèn)知學(xué)習(xí)中,核心概念是具有重要性和代表性的概念.因此,核心概念可以作為現(xiàn)代范疇理論中原型的一種表現(xiàn)形式,即最典型或最常見的代表[28].下面給出概念空間中的核心概念定義.
有
在認(rèn)知心理學(xué)中,鄰接概念用于解釋人類思維和語言理解中概念之間的關(guān)系和聯(lián)系.如果兩個(gè)概念的外延有交集,那么這兩個(gè)概念之間存在一定的聯(lián)系.
X1∩X2≠?,
在概念聚類中,概念的相似度可以用來劃分概念簇.在描述概念之間相似性時(shí),不僅要關(guān)注對(duì)象信息,還要關(guān)注對(duì)概念分類和聚類分析同樣重要的屬性信息.下面給出概念之間相似性度量的定義.
其中,
θ1,2的值越大,兩個(gè)概念相似性越強(qiáng).
有θs,i≥β,
3)一個(gè)概念只存在一個(gè)概念簇里面,
則稱G為K-β概念簇.下面簡稱G為概念簇.
在概念認(rèn)知學(xué)習(xí)中,將概念簇的概念進(jìn)行抽象化,形成具有更強(qiáng)泛化能力的偽概念是常用手段之一.偽概念是基于已有概念進(jìn)行抽象化和泛化得到的,它們不是真正的概念,只是特殊情形下有用的概念.
此外,偽概念的泛化能力可能會(huì)受特定學(xué)習(xí)環(huán)境的影響,需要進(jìn)行進(jìn)一步的實(shí)驗(yàn)以評(píng)估其泛化能力的有效性.
證明閾值β增大時(shí),與G中核心概念相似度大于β的概念會(huì)不變或變少,因此G的概念基數(shù)不變或減小.
其中,
算法2生成偽概念
ifXi∩Xs≠?
根據(jù)定義10計(jì)算相似度θs,i
ifθs,i≥βthen
end
end
end
算法2總結(jié)從一個(gè)概念子集得到偽概念的過程.概念聚類將相似的概念聚類在一個(gè)簇中,從而減少概念空間的維度,提高概念認(rèn)知學(xué)習(xí)的效率.下面給出基于屬性加權(quán)的概念聚類過程.
算法3基于屬性加權(quán)的概念聚類
輸入K-概念空間QK,閾值β
輸出偽概念空間D
fori=1∶k
while |M|>0
end
D=D∪Di
end
{C2,C3,C4}→{C1}→{C5},
對(duì)于概念簇{C2,C3,C4},用偽概念表示為
({1,2,3,4},{0.6779,0.3217}).
圖1 概念聚類算法流程圖
概念預(yù)測(cè)指在給定一些信息的情況下,根據(jù)已有的知識(shí)和經(jīng)驗(yàn),預(yù)測(cè)與這些信息相關(guān)的概念和類別.
在K-概念空間完成概念聚類后,得到偽概念空間:
(1)
其中,
m(i)=|Di|
表示Di中的偽概念基數(shù),Di為由決策為i所有偽概念組成的偽概念空間.
定理2設(shè)QK為K-概念空間,D為由QK生成的偽概念空間,|D|為D中的偽概念基數(shù),k為決策個(gè)數(shù),則
k≤|D|≤|QK|.
證明從式(1)顯然有
|D|≤|QK|.
由于每個(gè)K-決策概念空間通過聚類都會(huì)生成至少一個(gè)偽概念,故|D|≥k.綜上所述,
k≤|D|≤|QK|
可證.
|DK1|≤|DK2|.
證明由K1>K2可得,
QK1?QK2.
對(duì)于
在概念聚類后會(huì)有如下3種情況:
|DK1|<|DK2|.
綜上所述,|DK1|≤|DK2|可證.
概念預(yù)測(cè)可以通過不同的方法實(shí)現(xiàn),本文通過歐氏距離描述物體之間的相似性.
其中S={1,2,…,m(i)}.
對(duì)于一個(gè)新樣本,算法4給出概念預(yù)測(cè)的過程.值得一提的是,基于屬性加權(quán)的分類實(shí)質(zhì)上是一個(gè)多分類的過程,而不是多標(biāo)簽的過程.
算法4基于屬性加權(quán)的概念認(rèn)知學(xué)習(xí)模型
(WACCL)
輸入偽概念空間D,新增對(duì)象xr
輸出xr的類別標(biāo)簽l
for 每個(gè)偽概念空間Di∈D
根據(jù)定義13,計(jì)算得到最小距離Ei(xr,ps)
end
返回類別標(biāo)簽l
因此,基于屬性加權(quán)的概念認(rèn)知學(xué)習(xí)模型(WACCL)主要包括3個(gè)部分: 構(gòu)建K-概念空間、構(gòu)造偽概念空間、概念泛化.WACCL的簡化框架如圖2所示,考慮3個(gè)決策類的數(shù)據(jù)集.首先根據(jù)認(rèn)知算子和閾值K構(gòu)建K-概念空間;然后進(jìn)行概念聚類,得到偽概念空間;最后對(duì)新樣本進(jìn)行預(yù)測(cè)并輸出類別.
圖2 WACCL簡化框架
在第一階段,構(gòu)建K-概念空間需要識(shí)別所有概念,時(shí)間復(fù)雜度為O(|U|).在第二階段,最不理想的情況下,即每個(gè)概念簇都只有一個(gè)概念時(shí),時(shí)間復(fù)雜度為O(|QK|).在第三階段,需要識(shí)別所有的偽概念并進(jìn)行概念預(yù)測(cè),時(shí)間復(fù)雜度為O(|D|).整個(gè)過程總的時(shí)間復(fù)雜度為
O(|U|+|QK|+|D|).
為了驗(yàn)證本文模型(WACCL)的可行性、有效性及學(xué)習(xí)效果,選擇如下概念認(rèn)知學(xué)習(xí)算法進(jìn)行對(duì)比: ILMPFTC[10]、DMPWFC[12]、決策重要度的動(dòng)態(tài)更新機(jī)制(Incremental Learning Mechanism for Fuzzy Concept Based on Decision Signification, FCDS)[29].
從UCI知識(shí)庫上選擇13個(gè)數(shù)據(jù)集用于數(shù)值仿真實(shí)驗(yàn),數(shù)據(jù)集具體信息如表2所示.
針對(duì)每個(gè)數(shù)據(jù)集,利用
在實(shí)驗(yàn)中,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行劃分,80%的數(shù)據(jù)用于訓(xùn)練模型,剩下的數(shù)據(jù)平均分為10份,逐次添加到測(cè)試集上,以此評(píng)估WACCL的分類性能.
實(shí)驗(yàn)在個(gè)人計(jì)算機(jī)上的Matlab2016b上實(shí)現(xiàn),計(jì)算機(jī)的配置為Intel(R) Core(TM) i5-8265U CPU@1.60 GHz,8 GB內(nèi)存.
在實(shí)驗(yàn)中,WACCL的參數(shù)K、β的選擇范圍為[0,1],K的步長為0.01,β的步長為0.1.ILMPFTC、DMPWFC、FCDS的參數(shù)δ選擇范圍為[0,1],步長為0.01.
選取Breast EW、Derm、Wdbc、Splice EW數(shù)據(jù)集進(jìn)行參數(shù)分析.對(duì)于參數(shù)K,若取值過大會(huì)導(dǎo)致概念空間中所有概念被刪除掉,故選擇范圍為[0,0.5],步長為0.1.部分?jǐn)?shù)據(jù)集在K=0.5時(shí)無法輸出結(jié)果,此時(shí)取K能達(dá)到的最大值.而參數(shù)β選取范圍為[0,1],步長為0.2.
當(dāng)參數(shù)變化時(shí),WACCL分類精度的可視化結(jié)果如圖3所示.顯然,K在[0,0.3]時(shí),分類精度幾乎沒有變化,這是因?yàn)榇蟛糠指拍畹呢暙I(xiàn)值都大于或等于0.3.由于刪除概念會(huì)改變概念空間中的概念數(shù)量,從而對(duì)分類精度造成一定的影響,所以K在[0.3,0.5]區(qū)間中,WACCL的分類精度變化相對(duì)較大.參數(shù)β在某些數(shù)據(jù)集上變化不會(huì)對(duì)分類精度造成影響,而對(duì)于大部分?jǐn)?shù)據(jù)集,分類精度會(huì)隨K的增大而減小.
在Breast EW數(shù)據(jù)集上參數(shù)的變化對(duì)分類精度影響較大,當(dāng)K=0.4時(shí),分類精度較低,說明過大的K值會(huì)導(dǎo)致重要的概念被錯(cuò)誤刪除,該數(shù)據(jù)集上K的最優(yōu)值范圍為[0,0.3],β的最優(yōu)值范圍為[0,0.2].
在Derm數(shù)據(jù)集上,K的最優(yōu)值在0.45左右,β的最優(yōu)值范圍為[0,0.6].在Wdbc數(shù)據(jù)集上,K的最優(yōu)值在0.3左右,β的最優(yōu)值范圍為[0,0.2].在Splice EW數(shù)據(jù)集上,參數(shù)變化對(duì)分類精度影響較小,說明參數(shù)在此數(shù)據(jù)集上的靈敏度較低.
(a)Breast EW
(b)Derm
(c)Wdbc
(d)Splice EW
在實(shí)驗(yàn)中,各算法選擇的參數(shù)都為近似最優(yōu),WACCL在13個(gè)數(shù)據(jù)集上的參數(shù)選擇如表3所示.
各算法在13個(gè)數(shù)據(jù)集上的分類精度對(duì)比如表4所示,表中黑體數(shù)字為最優(yōu)值.由表可見,WACCL在12個(gè)數(shù)據(jù)集上的分類精度最高,尤其在Iris、Zoo數(shù)據(jù)集上分類精度達(dá)到100%.同時(shí)WACCL在13個(gè)數(shù)據(jù)集上的平均分類精度也最高,相比ILMPFTC,平均分類精度提高3.46%,相比DMPWFC,平均分類精度提高4.43%,相比FCDS,平均分類精度提高9.94%.
表3 WACCL在各數(shù)據(jù)集上的參數(shù)選擇
各算法10次分類精度對(duì)比如圖4所示,隨著數(shù)據(jù)的逐次添加,4種算法在大部分?jǐn)?shù)據(jù)集上的分類精度呈下降趨勢(shì).從圖中可以看出WACCL在Breast EW、German、Horse、Ionosphere EW、Iris、Sick、Wdbc、Zoo數(shù)據(jù)集上幾乎每次分類精度都最高.由表4和圖4結(jié)果可說明AWFC的分類機(jī)制優(yōu)于對(duì)比算法.
表4 各算法在13個(gè)數(shù)據(jù)集上的分類精度
(a)Breast EW
(b)Congress EW
(c)Derm
(d)German
(e)Heart
(f)Horse
(g)Ionosphere EW
(h)Iris
(i)Segmentation
(j)Sick
(k)Splice EW
(l)Wdbc
(m)Zoo
在信息檢索中,往往會(huì)關(guān)心檢索的信息中用戶感興趣的比例、用戶感興趣的信息中有多少被檢索,查全率和查準(zhǔn)率可以更好地適用此類需求.
對(duì)于二分類問題,將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)、假反例(False Negative, FN)4種情形,則樣例總數(shù)表示為TP+FP+TN+FN.
分類結(jié)果的混淆矩陣如表5所示.
表5 分類結(jié)果混淆矩陣
查準(zhǔn)率P與查全率R分別定義為
F1值為查全率和查準(zhǔn)率的調(diào)和平均,定義為
在執(zhí)行多分類任務(wù)時(shí),會(huì)有多個(gè)混淆矩陣,為了在多個(gè)混淆矩陣上綜合考察查準(zhǔn)率和查全率,直接的做法是在各混淆矩陣上分別計(jì)算查全率和查準(zhǔn)率,再計(jì)算平均值,從而得到宏查準(zhǔn)率(macro-P)、宏查全率(macro-R)以及相應(yīng)的宏F1(macro-F1).具體公式如下:
WACCL、ILMPFTC、DMPWFC和FCDS在13個(gè)數(shù)據(jù)集上的查準(zhǔn)率和查全率如表6所示,表中黑體數(shù)字表示最優(yōu)值.由表可知,WACCL在8個(gè)數(shù)據(jù)集上的查全率和查準(zhǔn)率都大于或等于其它算法,在Derm、German、Wdbc數(shù)據(jù)集上取得最大的查準(zhǔn)率,在Ionosphere EW數(shù)據(jù)集上的查全率最大.
表6 各算法在13個(gè)數(shù)據(jù)集上的查準(zhǔn)率和查全率對(duì)比
4種算法在13個(gè)數(shù)據(jù)集上的F1值對(duì)比如表7所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,WACCL在9個(gè)數(shù)據(jù)集上取得最大值.
查準(zhǔn)率、查全率和F1值都說明WACCL具有優(yōu)越的綜合性能.
為了進(jìn)一步驗(yàn)證各算法的分類性能,本節(jié)首先驗(yàn)證WACCL、ILMPFTC、DMPWFC、FCDS的差異是否顯著.在此選用Friedman檢驗(yàn)[30]對(duì)其進(jìn)行驗(yàn)證.定義如下:
其中,N為數(shù)據(jù)集個(gè)數(shù),k為算法個(gè)數(shù),Ri為所有數(shù)據(jù)集上第i種算法平均排名.
F遵循自由度為k-1和(k-1)(N-1)的Fisher分布.
WACCL、ILMPFTC、DMPWFC、FCDS的分類精度排名如表8所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,WACCL在9個(gè)數(shù)據(jù)集上排名第一,說明此算法的分類結(jié)果更準(zhǔn)確.
表8 各算法的分類精度排名
選用α=0.1,F檢驗(yàn)的臨界值F=2.243.根據(jù)Friedman檢驗(yàn)的定義,計(jì)算可得F=9.853,大于臨界值,說明算法性能具有差異性.所以,使用Bonferroni-Dunn進(jìn)行后續(xù)檢驗(yàn)[31].平均序值差別的臨界值域?yàn)?
其中,N為數(shù)據(jù)集個(gè)數(shù),k為算法個(gè)數(shù),qα為Tukey分布的臨界值.
當(dāng)
k=4,N=13,α=0.1
時(shí),q0.1=2.291,則CD0.1=1.160.若兩種算法的距離超過臨界值,說明兩種算法存在顯著性能差異.
各算法的Bonferroni-Dunn測(cè)試圖如圖5所示.由圖可以直觀看到,WACCL與其它3種算法的平均排名的差值都大于臨界值,由此可知WACCL與其它3種算法差異顯著.
圖5 各算法的Bonferroni-Dunn測(cè)試圖
為了更進(jìn)一步驗(yàn)證WACCL分類的有效性和準(zhǔn)確性,選取Breast EW、Congress EW、German、Ionos-phere EW、Iris、Segmentation、Sick、Wdbc數(shù)據(jù)集,進(jìn)行十折交叉驗(yàn)證法驗(yàn)算.各算法10次分類精度對(duì)比如表9所示,表中黑體數(shù)字表示最優(yōu)值.
表9 各算法十折交叉驗(yàn)證結(jié)果
由表9可以看出,WACCL在8個(gè)數(shù)據(jù)集上的分類精度最高:相比ILMPFTC,平均分類精度提高2.98%;相比DMPWFC,平均分類精度提高6.2%;相比FCDS,平均分類精度提高4.06%.分類結(jié)果顯示W(wǎng)ACCL分類的有效性和準(zhǔn)確性最優(yōu).
面向模糊決策形式背景,本文提出基于屬性加權(quán)的概念認(rèn)知學(xué)習(xí)模型(WACCL).模型認(rèn)為每個(gè)屬性在不同決策中的作用不一樣,通過概念聚類的方法壓縮概念空間中概念的數(shù)量,使學(xué)習(xí)更高效.最后通過實(shí)驗(yàn)分析說明WACCL的有效性和實(shí)用性.實(shí)際上,WACCL只討論概念的生成和概念分類,未涉及動(dòng)態(tài)更新的問題,如何實(shí)現(xiàn)新增對(duì)象后與原來概念空間之間的動(dòng)態(tài)概念學(xué)習(xí)是值得研究的關(guān)鍵問題.此外,目前概念認(rèn)知學(xué)習(xí)的研究集中在屬性是單一尺度的情況下,因此多尺度的概念認(rèn)知學(xué)習(xí)方法將是今后的工作重心之一.