姚 晟,陳 菊,吳照玉
(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601) (安徽大學(xué) 計(jì)算機(jī)智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601)
粗糙集理論[1]是由波蘭學(xué)者Pawlak提出的一種處理不確定性數(shù)據(jù)的數(shù)學(xué)工具.目前,粗糙集理論已經(jīng)廣泛應(yīng)用于模式識(shí)別和機(jī)器學(xué)習(xí)等諸多領(lǐng)域中[2-5].不確定性度量是粗糙集理論的重點(diǎn)研究?jī)?nèi)容.經(jīng)典粗糙集采用的精度、粗糙度、近似精度以及近似粗糙度[6]進(jìn)行不確定性度量,這些方法歸納起來都是運(yùn)用粗糙集的邊界域來描述信息系統(tǒng)的不確定性,最近的研究表明,這種度量方式仍存在一定的不足[6].為了解決這一問題,近年來,一些學(xué)者也從其它視角提出了一些改進(jìn)的不確定性度量方法.例如粗糙熵[7]、信息熵[8]、知識(shí)粒度[9]等,這些新度量方法的提出使得信息系統(tǒng)的不確定性度量的研究逐漸趨于完善.
經(jīng)典粗糙集理論建立在等價(jià)關(guān)系基礎(chǔ)之上,所以它只適合處理符號(hào)型數(shù)據(jù).由于目前的信息化時(shí)代發(fā)展速度之快,數(shù)值型數(shù)據(jù)已普遍存在于各個(gè)領(lǐng)域,經(jīng)典粗糙集在處理數(shù)值型數(shù)據(jù)時(shí),它需要將數(shù)值型數(shù)據(jù)進(jìn)行離散化處理,這難免會(huì)造成一些重要的數(shù)據(jù)丟失.接著,Lin[10]所提出的鄰域粗糙集模型解決了上面的問題,因?yàn)猷徲虼植诩梢灾苯佑行У奶幚頂?shù)值型數(shù)據(jù),近幾年來就其不確定性度量方法已經(jīng)得到許多學(xué)者和專家的研究.Chen等學(xué)者[11]在鄰域信息系統(tǒng)中定義了鄰域熵的概念,并能夠有效的處理數(shù)值型信息系統(tǒng)的不確定性度量問題.而現(xiàn)實(shí)生活中,大量存在著不完備數(shù)據(jù)或者混合型不完備數(shù)據(jù),然而,上面所說的方法僅能夠處理完備的數(shù)值型數(shù)據(jù).因此,針對(duì)如何處理不完備數(shù)據(jù)或者混合不完備數(shù)據(jù)已經(jīng)成為目前研究的熱點(diǎn)[12].Wang等學(xué)者[13]提出了基于數(shù)據(jù)驅(qū)動(dòng)量化容差關(guān)系的擴(kuò)展粗糙集模型,該模型可以用來處理離散型不完備的數(shù)據(jù),但不能夠處理數(shù)值型數(shù)據(jù).針對(duì)這一問題,姚晟等學(xué)者[14]提出了基于鄰域量化容差關(guān)系的粗糙集模型,該模型能夠有效的處理數(shù)值型不完備的數(shù)據(jù),但是該模型不能夠處理離散型不完備的數(shù)據(jù).何松華等學(xué)者[15]提出了鄰域組合測(cè)度,該度量方法可以有效處理混合數(shù)據(jù),然而該度量方法在設(shè)置對(duì)象與對(duì)象之間的距離時(shí),當(dāng)某個(gè)對(duì)象所對(duì)應(yīng)的屬性值為缺失值時(shí),則此對(duì)象與任一對(duì)象之間的距離就設(shè)置為0,該距離的設(shè)定不太嚴(yán)謹(jǐn),仍存在缺陷,因?yàn)樗麄儾]有實(shí)實(shí)在在的考慮到信息系統(tǒng)中數(shù)據(jù)自身分布情況和潛藏在其中的知識(shí).
針對(duì)上面的問題,本文構(gòu)造了一種改進(jìn)的不完備鄰域粗糙集模型,該模型主要利用統(tǒng)計(jì)學(xué)的方法求出已知屬性值的頻率,將該頻率作為該屬性值的概率,相比之下這種方法更加嚴(yán)謹(jǐn)和客觀,因?yàn)榭紤]了數(shù)據(jù)的自身分布情況.在該模型之上,本文首先定義了混合近似精度和混合近似粗糙度的概念,接著考慮到近似精度和近似粗糙度對(duì)信息系統(tǒng)的不確定度量上存有缺陷[6].為了解決這一缺陷,將進(jìn)一步引入鄰域容差信息熵的概念及相關(guān)性質(zhì);最后提出一種基于鄰域容差信息熵的組合度量方法,并且研究了相關(guān)性質(zhì).實(shí)驗(yàn)結(jié)果表明,本文所提出的方法具有一定的度量效果,驗(yàn)證了該方法具有一定的優(yōu)越性,并且從理論上也證明了該方法的可行性.
定義1[16].設(shè)不完備信息系統(tǒng)為IIS=(U,C,V,f),其中B?C,B=BN∪BS,BN表示的是數(shù)值型屬性集,BS表示的是符號(hào)型屬性集,δ是一個(gè)非負(fù)數(shù)值,則關(guān)于混合屬性集B的鄰域容差關(guān)系定義為:
b(x)=*∨b(y)=*∨((b∈BN,Db(x,y)≤δ)
∧(b∈BS,Db(x,y)=0))}
顯而易見,鄰域容差關(guān)系滿足自反性、對(duì)稱性,但是不滿足傳遞性.尤其,當(dāng)這里的屬性值全部為符號(hào)型屬性時(shí),鄰域容差系就退化為容差關(guān)系.
由鄰域容差關(guān)系可知它滿足以下幾個(gè)性質(zhì):
性質(zhì)1[16].設(shè)不完備信息系統(tǒng)為IIS=(U,C,V,f),δ為一個(gè)非負(fù)數(shù)值,B?C,則滿足:
性質(zhì)2[16].設(shè)不完備信息系統(tǒng)為IIS=(U,C,V,f),δ為一個(gè)非負(fù)數(shù)值,且B2?B1?C,則滿足:
性質(zhì)3[16].設(shè)不完備信息系統(tǒng)為IIS=(U,C,V,f),B?C且δ1,δ2為兩個(gè)非負(fù)數(shù)值,且滿足δ1≤δ2,則滿足:
定義4.設(shè)不完備決策信息系統(tǒng)為IDIS=(U,C∪D,V,f),混合屬性子集B?C,δ為一個(gè)非負(fù)數(shù)值,且決策屬性D的等價(jià)類劃分為U/D={D1,D2,…,Dm},則U/D關(guān)于B的混合近似精度和混合近似粗糙度分別定義為:
證明:此處省略證明.
證明:此處省略證明.
粒結(jié)構(gòu)模型[17]是粒計(jì)算理論中的一種重要表現(xiàn)形式,并且可以作為衡量信息系統(tǒng)分類能力的一種有效方法,它是將論域中每個(gè)對(duì)象都?;胍粋€(gè)信息粒中.目前,該方法已經(jīng)被眾多學(xué)者所運(yùn)用,并相繼提出了多種粒結(jié)構(gòu)模型[18].本文在此基礎(chǔ)上,提出了基于鄰域容差關(guān)系的粒結(jié)構(gòu)模型.
Shannon的信息論[19]為用熵度量數(shù)據(jù)集的信息提供了一種可行的方法.熵可以作為信息系統(tǒng)的不確定性度量.如果最初只給出關(guān)于類的概率知識(shí),那么與信息系統(tǒng)相關(guān)的不確定性就可以用熵來進(jìn)行度量.作為一種重要的不確定性度量,信息熵及其變形已經(jīng)得到了深入的研究.Liang等學(xué)者們[20]在不完備決策信息系統(tǒng)中提出了了一種新的信息熵.本文,我們將Liang[20]提出新的信息熵推廣到鄰域容差粒結(jié)構(gòu)模型中,提出了一種新的信息熵,即鄰域容差信息熵,并且研究了相關(guān)性質(zhì).
性質(zhì)8(單調(diào)性).設(shè)不完備信息系統(tǒng)IIS=(U,C,V,f),δ為一個(gè)非負(fù)數(shù)值,若Q?P?C,則鄰域容差信息熵滿足NTHδ(Q)≥NTHδ(P).
證明:
這段頗為得體而誠(chéng)懇的回答,給子女的鋪張敲響了一記警鐘,祁氏一門作為遺民表率,時(shí)時(shí)有大禍臨頭的危險(xiǎn),何況她的兒子還在進(jìn)行著反清的活動(dòng)。商景蘭對(duì)此有著清醒的認(rèn)識(shí):富貴不可倚賴,惟有“清標(biāo)”之行,可以不朽。因此后來祁家破敗潦倒,但“清標(biāo)”之行卻永載史冊(cè)。末句不僅是對(duì)子女的教誨,也是商景蘭自身生命觀的表白。經(jīng)歷故國(guó)淪亡、家庭破敗,商景蘭挺過了作為遺民大家庭的首領(lǐng)的種種壓力,她的自我意識(shí)也隨著歲月的磨礪而凸現(xiàn),形成獨(dú)立不遷的品格與氣魄。
證明:由性質(zhì)8的證明過程很容易得到該結(jié)果.
由定義4可知,混合近似精度和混合近似粗糙度均可作為信息系統(tǒng)的不確定性評(píng)估方法.但是,它們是通過近似空間的邊界域大小來評(píng)估信息系統(tǒng)的不確定性,這種方法對(duì)度量信息系統(tǒng)的不確定性要求不夠嚴(yán)格[6],為了解決這個(gè)問題,本文將融合混合近似粗糙度和鄰域容差信息熵各自的優(yōu)點(diǎn),提出了一種組合度量方法,并研究了相關(guān)性質(zhì).
性質(zhì)10.設(shè)不完備決策信息系統(tǒng)IDIS=(U,C∪D,V,f),δ是一個(gè)非負(fù)數(shù)值,若混合子集Q?P?C,則組合度量滿足CMMδ(Q)≥CMMδ(P).
性質(zhì)11.設(shè)不完備決策信息系統(tǒng)IDIS=(U,C∪D,V,f),混合屬性子集B?C,δ1,δ2是兩個(gè)非負(fù)數(shù)值,若δ1≤δ2時(shí),則組合度量滿足CMMδ1(B)≤CMMδ2(B).
為了驗(yàn)證本文所提出的不確定度量方法具有一定的優(yōu)越性,本文將從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中獲取6個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),每個(gè)數(shù)據(jù)集的具體信息如表1所示.
表1 UCI數(shù)據(jù)集
Table 1 UCI data sets
序號(hào)名稱對(duì)象屬性類1Income488421422Wpbc1983423Mushroom81242624Credit6901525Soybean30735196Ecoli33677
本文通過6組對(duì)比實(shí)驗(yàn)來驗(yàn)證本文所提出的不確定性度量方法具有一定的優(yōu)越性.首先將混合近似粗糙度、鄰域容差信息熵、和組合度量這三種度量方法分別作用在6組數(shù)據(jù)集中,然后討論這三種度量方法隨著屬性數(shù)目的逐漸增加,不確定性度量值的變化情況.本文通過大量實(shí)驗(yàn)得出當(dāng)鄰域半徑δ∈[0.1,0.2]時(shí),所得實(shí)驗(yàn)結(jié)果比較好,因此本文實(shí)驗(yàn)將選擇鄰域半徑δ=0.15.
其中:
Ω1=(bl(x)=bl(y)∧bl(x)≠*∧bl(y)≠*);
∨(bl(x)=vi∧bl(y)=*)));
其中:
Φ1=(bl(x)≠*∧bl(y)≠*);
本文實(shí)驗(yàn)中所涉及的兩個(gè)參數(shù)ξ1,ξ2,為了更好的獲取實(shí)驗(yàn)結(jié)果,本實(shí)驗(yàn)將ξ1,ξ2分別取值為0.5,0.25.
為了方便計(jì)算數(shù)據(jù)集中對(duì)象之間的距離,本文將數(shù)值型屬性按照公式bl(x)=|bl(x)-bl(x)min|/(bl(x)max-bl(x)min)進(jìn)行標(biāo)準(zhǔn)化處理.三種度量方法在6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖1-圖6所示.
觀察圖1-圖6可以發(fā)現(xiàn)混合近似粗糙度、鄰域容差信息熵和組合度量這三種度量方法均能夠度量信息系統(tǒng)的不確定性.但是本文所提出的組合度量方法比混合近似粗糙度和鄰域容差信息熵這兩種單一的評(píng)估方法更加有效.例如,觀察圖1可知,在混合近似粗糙度方法中,當(dāng)屬性數(shù)目從1增加到3和屬性數(shù)目從10增加到13時(shí),其不確定性度量值基本上沒發(fā)生變化,這說明隨著知識(shí)空間的變化,信息系統(tǒng)的不確定性度量值并未發(fā)生改變,與之類似的還有圖2-圖6.觀察圖2可知,在鄰域容差信息熵方法中,當(dāng)屬性數(shù)目從16增加到18時(shí),其不確定性度量值變化較小.觀察圖5可知,在鄰域容差信息熵方法中,當(dāng)屬性數(shù)目從20增加到22時(shí),其不確定性度量值基本上沒有改變.觀察圖1-圖6可以發(fā)現(xiàn),本文所提出的組合度量方法,其不確定性度量值會(huì)隨著屬性數(shù)目的不斷增加而單調(diào)減小.因此,綜合圖1-圖6可以發(fā)現(xiàn), 本文所提出的度量方法,即組合度量方法在信息系統(tǒng)的不確定性度量方面具有更好的度量效果.
圖1 三種方法在數(shù)據(jù)集Income 實(shí)驗(yàn)結(jié)果比較Fig.1 Comparison of 3 methods in data set Income experimental results
圖2 三種方法在數(shù)據(jù)集Wpbc 實(shí)驗(yàn)結(jié)果比較Fig.2 Comparison of 3 methods in data set wpbc experimental results
圖3 三種方法在數(shù)據(jù)集Mushroom 實(shí)驗(yàn)結(jié)果比較Fig.3 Comparison of 3 methods in data set mushroom experimental results
圖4 三種方法在數(shù)據(jù)集Credit 實(shí)驗(yàn)結(jié)果比較Fig.4 Comparison of 3 methods in data set credit experimental results
圖5 三種方法在數(shù)據(jù)集Sybean 實(shí)驗(yàn)結(jié)果比較Fig.5 Comparison of 3 methods in data set sybean experimental results
圖6 三種方法在數(shù)據(jù)集Ecoli 實(shí)驗(yàn)結(jié)果比較Fig.6 Comparison of 3 methods in data set ecoli experimental results
綜合上述實(shí)驗(yàn)結(jié)果分析可以看出混合近似粗糙度、鄰域容差信息熵對(duì)信息系統(tǒng)都具有一定的不確定性評(píng)估效果,但有時(shí)并不能夠嚴(yán)格地反映信息系統(tǒng)的不確定性,為了克服這兩個(gè)單一度量方法所存在的缺陷,本文將兩種單一度量方法進(jìn)行了結(jié)合,并且實(shí)驗(yàn)結(jié)果表明該方法具有更好的不確定性度量效果. 因此,綜合分析可以得出,本文所提出的組合度量方法對(duì)信息系統(tǒng)的不確定性度量具有一定的優(yōu)越性并且具有一定的合理性.
為了體現(xiàn)多種不確定性度量方法的優(yōu)越性,本文通過融合混合鄰域近似粗糙度和鄰域容差信息熵這兩種單一度量方法,提出一種組合度量方法.本文提出的不確性度量方法可以作為混合信息系統(tǒng)屬性的評(píng)估方法,因此接下來可以進(jìn)一步構(gòu)建出相應(yīng)的屬性約簡(jiǎn)方法.