李 萍, 趙莎莎
(阜陽(yáng)師范學(xué)院 信息工程學(xué)院,安徽 阜陽(yáng) 236041)
?
人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法
李萍, 趙莎莎
(阜陽(yáng)師范學(xué)院 信息工程學(xué)院,安徽 阜陽(yáng) 236041)
摘要:構(gòu)造性學(xué)習(xí)(CML)算法訓(xùn)練分類(lèi)器對(duì)有些樣本會(huì)有“拒認(rèn)狀態(tài)”,構(gòu)造性學(xué)習(xí)算法中對(duì)這一狀況的處理使用就近原則,然而,這種方法無(wú)法體現(xiàn)數(shù)據(jù)之間的聯(lián)系.為了能更好地體現(xiàn)數(shù)據(jù)間的聯(lián)系,提出了人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法(HB-CML).在測(cè)試階段,把測(cè)試樣本、訓(xùn)練樣本都考慮進(jìn)來(lái),利用人腦對(duì)數(shù)據(jù)的自動(dòng)分類(lèi)機(jī)理,對(duì)“拒認(rèn)狀態(tài)”樣本進(jìn)行分類(lèi)標(biāo)記.同時(shí),選取UCI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).結(jié)果表明:與CML算法相比,該方法的分類(lèi)更為有效.
關(guān)鍵詞:構(gòu)造性機(jī)器學(xué)習(xí);人腦分類(lèi);覆蓋算法
構(gòu)造性機(jī)器學(xué)習(xí)通過(guò)在樣本集C上尋找一組覆蓋簇,使這些覆蓋簇把不同類(lèi)別的數(shù)據(jù)點(diǎn)分隔開(kāi)來(lái)[1].這種方法比較容易構(gòu)造網(wǎng)絡(luò)且能高效地處理多分類(lèi)問(wèn)題[2].然而,在利用標(biāo)記樣本訓(xùn)練分類(lèi)器時(shí)無(wú)法考慮到測(cè)試樣本的數(shù)據(jù)特點(diǎn)及其與標(biāo)記樣本間的數(shù)據(jù)關(guān)系,從而導(dǎo)致在對(duì)測(cè)試樣本進(jìn)行標(biāo)記時(shí)可能會(huì)出現(xiàn)“拒認(rèn)狀態(tài)”的樣本.傳統(tǒng)的覆蓋算法在對(duì)拒認(rèn)樣本進(jìn)行標(biāo)記時(shí)是按照就近原則進(jìn)行標(biāo)記的,仍然是只考慮了已標(biāo)記樣本的數(shù)據(jù)特點(diǎn),忽略了未標(biāo)記樣本的數(shù)據(jù)信息,從而影響其分類(lèi)效率.
Zhu等人經(jīng)過(guò)研究發(fā)現(xiàn),人腦在對(duì)空間中的樣本進(jìn)行分類(lèi)時(shí),自覺(jué)地考慮了未標(biāo)記樣本的空間位置,可以說(shuō)是一種半監(jiān)督分類(lèi)模式[3].考慮到未標(biāo)記樣本的數(shù)據(jù)信息,提出了人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法.該方法在應(yīng)用已標(biāo)記樣本數(shù)據(jù)信息的同時(shí),還考慮了未標(biāo)記樣本的數(shù)據(jù)信息,及已標(biāo)記樣本和未標(biāo)記樣本間的位置關(guān)系,從而提高機(jī)器學(xué)習(xí)的效率.
1覆蓋算法
覆蓋算法步驟:
輸入:已標(biāo)記樣本C,即訓(xùn)練樣本
輸出:覆蓋簇{F(i)}
(1)將C中的點(diǎn)投影到以原點(diǎn)為中心、以R′為半徑的球面上,其中R′需要大于訓(xùn)練樣本C中樣本模的最大值;初始化i=1;k為不同類(lèi)別數(shù);
(2)構(gòu)造第i個(gè)覆蓋F(i);
1)若C(i)中點(diǎn)全部被覆蓋住,轉(zhuǎn)(3),否則,任取C(i)中還沒(méi)有被覆蓋的點(diǎn)ct;計(jì)算
作以ct為中心、b=d(t)為閾值的覆蓋F(ct);C(i)表示第i類(lèi)樣本集.
2)把F(ct)所覆蓋的所有點(diǎn)的重心計(jì)算出來(lái),并將其也映射到以原點(diǎn)為中心、以R′為半徑的球面上,設(shè)ct′為投影后落在球面上的點(diǎn),用上述同樣的方法求出ct′的球形領(lǐng)域F(ct′);
3)若F(ct′)覆蓋的點(diǎn)數(shù)比F(ct)所覆蓋的點(diǎn)數(shù)多,則令ct′→ct,b′→b,轉(zhuǎn)2),否則,轉(zhuǎn)1);
(3)若i 覆蓋算法對(duì)測(cè)試樣本標(biāo)記時(shí)按照就近原則進(jìn)行,對(duì)于“拒認(rèn)狀態(tài)”樣本也是通過(guò)計(jì)算到各個(gè)覆蓋領(lǐng)域的距離按照就近原則進(jìn)行標(biāo)記的,這種方法忽略了未標(biāo)記樣本的數(shù)據(jù)信息,這部分?jǐn)?shù)據(jù)資源被浪費(fèi)了,把大量無(wú)標(biāo)記樣本的數(shù)據(jù)信息特征加入到分類(lèi)器的測(cè)試階段可以優(yōu)化分類(lèi)效果. 2人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法 2.1人腦自覺(jué)分類(lèi)機(jī)理 圖1 二分類(lèi)問(wèn)題 Zhu等人經(jīng)過(guò)研究發(fā)現(xiàn),人腦在對(duì)空間中的樣本進(jìn)行分類(lèi)的時(shí)候,自覺(jué)地考慮了未標(biāo)記樣本之間已經(jīng)與已標(biāo)記樣本之間的空間位置關(guān)系,我們用圖1簡(jiǎn)單說(shuō)明人腦的這種分類(lèi)機(jī)理,以二分類(lèi)為例.圖中“●”和“▲”分別表示兩種不同類(lèi)別的已標(biāo)記樣本,“○”和“△”分別表示相應(yīng)類(lèi)別的未標(biāo)記樣本,“☆”表示待測(cè)定的未標(biāo)記樣本,(a)中有兩個(gè)標(biāo)記樣本和一個(gè)待測(cè)定樣本,(b)中除了有兩個(gè)已標(biāo)記樣本和一個(gè)待測(cè)定樣本外,要有一些未標(biāo)記樣本.(a)和(b)中的待測(cè)定樣本到兩個(gè)標(biāo)記樣本的距離相同,但是通過(guò)觀察人類(lèi)大腦會(huì)把(a)中的“☆”歸為“▲”類(lèi),而把(b)中的“☆”歸為“●”類(lèi). 可見(jiàn)人腦在對(duì)待測(cè)定樣本進(jìn)行標(biāo)記時(shí),除了利用待測(cè)樣本與各已標(biāo)記樣本的距離,還考慮了未標(biāo)記樣本的位置,這種測(cè)定更有說(shuō)服力[4]. 2.2人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法 本文根據(jù)人腦自覺(jué)考慮未標(biāo)記樣本的分類(lèi)機(jī)理,提出了人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法,其主要價(jià)值體現(xiàn)在分類(lèi)器的測(cè)試階段,在對(duì)“拒認(rèn)狀態(tài)”樣本進(jìn)行標(biāo)記時(shí),自覺(jué)地考慮了已標(biāo)記樣本、未標(biāo)記樣本的空間位置,及它們與“拒認(rèn)狀態(tài)”樣本的位置關(guān)系,來(lái)確定其類(lèi)別. 人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)算法流程: 輸入:已標(biāo)記樣本集L,待測(cè)樣本集U; 輸出:待測(cè)樣本集U的類(lèi)別. (1)利用覆蓋算法訓(xùn)練分類(lèi)器,即覆蓋簇; (2)對(duì)U中的各個(gè)待測(cè)樣本,計(jì)算它們是否被覆蓋住,若全部被覆蓋住即沒(méi)有“拒認(rèn)狀態(tài)”樣本,那么按照覆蓋簇的類(lèi)別對(duì)這些待測(cè)樣本進(jìn)行分類(lèi),算法結(jié)束.否則,記“拒認(rèn)狀態(tài)”樣本集為R,x為R中任一樣本,記S為空集,轉(zhuǎn)(3); (3)計(jì)算L、U兩組數(shù)據(jù)集中距離x最近的樣本y,若y?R,將x及S中的樣本標(biāo)記成與y相同,將x及S移出R,令S為空集,轉(zhuǎn)(4),否則將x移出U,令S=S∪{x},令x=y,轉(zhuǎn)(3); (4)若R為空集,算法結(jié)束.否則,令x為R中任一樣本,記S為空集,轉(zhuǎn)(3). 3實(shí)驗(yàn)結(jié)果及分析 表1 5種數(shù)據(jù)集及正負(fù)樣本比例 表2 兩種算法分類(lèi)正確率 從UCI中選了5種數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,如表1所示,對(duì)于各個(gè)數(shù)據(jù)集,我們選出75%作為訓(xùn)練樣本,剩下的25%作為測(cè)試樣本. 采用本文提出的人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)算法(HB-CML)和采用CML得出的分類(lèi)正確率結(jié)果如表2所示.從表中可以很容易地看出,應(yīng)用人腦自覺(jué)分類(lèi)策略后的覆蓋算法相對(duì)于CML的分類(lèi)效果得到了普遍提高.這說(shuō)明本文提出的基于人腦分類(lèi)機(jī)理的覆蓋算法,能夠利用已標(biāo)記樣本和待測(cè)試樣本,以及它們之間的空間幾何關(guān)系,對(duì)“拒認(rèn)狀態(tài)”樣本進(jìn)行合理標(biāo)記,從而提高分類(lèi)器的分類(lèi)精度. 4結(jié)語(yǔ) 本文利用人腦自覺(jué)分類(lèi)機(jī)理的思想,根據(jù)待測(cè)試樣本與已標(biāo)記樣本之間的空間幾何位置關(guān)系,給出了一種基于人腦分類(lèi)機(jī)理的構(gòu)造性學(xué)習(xí)方法,并以UIC數(shù)據(jù)為例,通過(guò)實(shí)驗(yàn)說(shuō)明該方法能夠有效提高分類(lèi)率.但是,該算法還存在不足的地方,對(duì)某些數(shù)據(jù)集來(lái)說(shuō),分類(lèi)正確率提高的并不顯著.還需要繼續(xù)對(duì)“拒認(rèn)狀態(tài)”樣本進(jìn)行研究,同時(shí)更深地研究人腦自覺(jué)分類(lèi)機(jī)理,從而進(jìn)一步提高該算法的性能. [參考文獻(xiàn)] [1]張鈴,張鈸.多層前向網(wǎng)絡(luò)的交叉覆蓋算法[J].軟件學(xué)報(bào),1999,10(7):737-742. [2]王倫文,張鈴.構(gòu)造性神經(jīng)網(wǎng)絡(luò)綜述[J].模式識(shí)別與人工智能,2008,21(1):49-55. [3]ZHU X J,TIMOTHY R,RUICHEN Q,et al.Humans perform semi- supervised classification too[C]∥ Proceedings of the 22nd National Conference on Artificial Intelligence.Menlo Park,Calif:AAAI Press,2007:864- 869. [4]李昆侖,曹錚,曹麗蘋(píng),等.半監(jiān)督聚類(lèi)的若干新進(jìn)展[J].模式識(shí)別與人工智能,2009,22(5):735-742. [責(zé)任編輯馬云彤] Constructive Learning Method Based onClassification Mechanism of Human Brain LI Ping, ZHAO Sha-sha ( School of Information Engineering, Fuyang Teachers College, Fuyang 236041, China ) Abstract:“Refusing to be classified” test examples will be produced using Constructive Machine Learning (CML) algorithm and the examples will be labeled according to principle of proximity, however the connections between data is ignored. So a constructive learning method based on human brain algorithm (HB-CML) is designed to reflect the connections between labeled and unlabeled samples. During the testing phase, the“refusing to be classified” test examples are labeled by automatic data classification mechanism of human brain using labeled and unlabeled samples. At the same time, experiment is conducted on UCI data set and results show that the algorithm is more effective than the CML algorithm. Key words:constructive machine learning; classification based on human brain; covering algorithm 中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)志碼:A 作者簡(jiǎn)介:李萍(1985—),女,安徽阜南人,阜陽(yáng)師范學(xué)院信息工程學(xué)院講師,碩士,主要從事智能計(jì)算及其應(yīng)用研究. 基金項(xiàng)目:阜陽(yáng)師范學(xué)院校級(jí)項(xiàng)目(2015FSKJ13);阜陽(yáng)師范學(xué)院信息工程學(xué)院院級(jí)項(xiàng)目(2015FXXZK01) 收稿日期:2015-07-12 文章編號(hào):1008-5564(2016)01-0045-03