楊 潔,袁 利,羅 天
(1.遵義師范學院 物理與電子科學學院,貴州 遵義 563002;2.云南大學 軟件學院,昆明 650091)
作為粒計算[1-2]的工具之一,粗糙集[3]是一種利用當前信息粒來處理不確定性信息的有效模型,即采用上、下近似集對不確定性目標概念進行近似描述。作為粗糙集的擴展模型,粗糙模糊集[4]是一種有效處理目標概念為模糊集時的粒計算模型,通過定義上、下近似集來刻畫一個模糊目標的概念,從而進行知識獲取,更具有普遍性。當前,有許多關于粗糙模糊集方面的研究,大致分為3個方面:理論研究,擴展模型和應用。其中,Rehman[5]提出了基于向上可加一致性的廣義多粒度模糊粗糙集模型,構造了一種新的多屬性決策方法。Xue[6]提出了基于多粒度支持直覺模糊粗糙集的三支決策模型,設計了一個決策規(guī)則提取算法。Li[7]提出了基于粗糙模糊理論的雙定量多?;瘺Q策模型,研究了包含相對定量信息和絕對定量信息的決策規(guī)則。Yang[8]借鑒Vague集中支持度和反對度的思想,構建了多粒度鄰域粗糙模糊集的不確定性度量方法。
近年來,Zhang[9-10]分別從模糊距離和相似度的角度出發(fā),提出了經典粗糙集近似集的相關理論,通過利用已知信息粒直接對目標概念進行近似描述,從而構建粗糙集的近似表示,一方面,證明了該近似集比上、下近似具有更高的近似度;另一方面,證明了0.5-近似集在一定約束條件下是最優(yōu)近似集,即閾值為0.5時最優(yōu)。在粗糙集近似集的基礎上,Zhang進一步研究了粗糙模糊集近似集[12]和vague集的近似集[13]的相關理論,并將近似集理論應用到屬性約簡[14-15]、圖像分割[16]、粒度優(yōu)化[17]等領域上。雖然當前粗糙集近似集理論方面具有一定的研究成果,但是,基于隸屬度的近似集可能存在對象誤分的情形[18],而從決策風險的角度出發(fā),通常希望劃分結果帶來的誤分類代價盡可能小,此時基于相似性的近似集模型不再適用于代價敏感的應用場景。現(xiàn)實應用中,誤分類代價是一種決策代價,分析誤分類代價在一定程度上有助于提高決策質量。從三支決策[19]的角度來說,邊界域中的等價類在作為近似集時會產生誤分類代價,如何使得構建的近似集的誤分類代價最小是值得研究的問題。再者,在分層遞階的多粒度知識空間中,隨著知識空間的細化,邊界域中對象可能會發(fā)生重新分類,使得邊界域中用于表示近似集的等價類發(fā)生變化,從而導致每個知識空間上近似集的誤分類代價也會隨之發(fā)生變化。
從多粒度的角度來說,在不同粒層上對同一個問題進行近似處理的結果可能具有相近的意義,但是這些近似處理的誤分類代價不盡相同。因此,針對以上問題,本文從誤分類代價的角度,提出了粗糙模糊集近似表示模型,以保證得到的近似集對應的誤分類代價在當前粒度下最小,并在此基礎上進一步研究了多粒度知識空間中誤分類代價的變化規(guī)律。
在介紹粗糙模糊集的不確定性度量之前,我們先回顧一些基本概念。
定義1(粗糙集)[3]設一個信息系統(tǒng)S=(U,C∪D,V,f),R?C,X?U, 那么X的上、下近似集分別定義為
(1)
(2)
(1)—(2)式中,[E]R代表由等價關系U/R誘導的等價類, 即U/R={[E]R}={E1,E2,…,El}。
(3)
(4)
(5)
定義2(粗糙模糊集)[4]設一個信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是一個在U上的模糊集, 那么X的上、下近似集可以定義為一對模糊集,其隸屬度分別定義為
(6)
(7)
傳統(tǒng)的粗糙集沒有利用現(xiàn)有的知識粒近似刻畫邊界不確定的目標概念,為了利用已有信息粒構建目標概念的近似刻畫,文獻[10]從隸屬度的角度給出了粗糙模糊集的近似表示方法,如定義4。
定義4(基于隸屬度的粗糙模糊集近似集)[10]
假設S=(U,C∪D,V,f)是一個信息系統(tǒng),R?C,X是U上的一個模糊集。U/R={E1,E2,…,El}為U上的一個知識空間,則在U/R上對X的α近似表示可定義為
0<α≤1
(8)
例1給出了一個關于選取優(yōu)秀教師的信息系統(tǒng)(見表1)。R1,R2和R3分別代表3個評估指標(科研、獲獎、教學),為了方便說明,假設它們的屬性值為離散值,D是決策屬性。
表1 有關選取優(yōu)秀教師的信息系統(tǒng)
定義5假設R={R1,R2,R3}是一個信息系統(tǒng),R?C,X是U上的一個模糊集。U/R={E1,E2,…,El}為U上的一個知識空間。λ11表示當對象x屬于目標概念X時將x作為近似表示時所產生的損失函數,λ12表示當對象x不屬于目標概念X時將x作為近似表示時所產生的損失函數,λ21表示當對象x屬于目標概念X時將x不作為近似表示時所產生的損失函數。λ22表示當對象x不屬于目標概念X時將x不作為近似表示時所產生的損失函數。則U/R中等價類被用于近似描述X的誤分類代價表示為
(9)
U/R中等價類不被用于近似描述X的誤分類代價表示為
(10)
(11)
定義6設一個信息系統(tǒng)S=(U,C∪D,V,f),閾值α、β(0≤β≤α≤1),R?C,X是U上的一個模糊集,U/R={E1,E2,…,El}為U上的一個近似空間,那么X的上、下近似集分別定義為
(12)
(13)
論域U通常被劃分為正域、負域和邊界域,分別定義為
(14)
(15)
(16)
本文進一步提出了基于誤分類代價的粗糙模糊集近似集,如定義7所示。
定義7(基于誤分類代價的粗糙模糊集近似集)
假設S=(U,C∪D,V,f)是一個信息系統(tǒng),R?C,X是U上的一個模糊集,U/R={E1,E2,…,El}為U上的一個近似空間。令
(17)
(17)式中,Ei∈U/R。稱R(X)為基于誤分類代價的粗糙模糊集近似集。
圖1 基于誤分類代價的近似集(折線所圍部分)
(18)
定理1設一個信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是U上的一個模糊集,U/R={E1,E2,…,El}為U上的一個近似空間,則以下性質成立
(19)
(20)
(19)—(20)式中,Ei∈U/R(i=1,2,…,l)。
由定理1可知,BNDI(X)域中等價類用于作為近似集時的誤分類代價總是小于或等于不作為近似集時的誤分類代價,BNDII(X)域中等價類不用于作為近似集時的誤分類代價總是小于或等于作為近似集時的誤分類代價。
證明:由定義6可知
(21)
(22)
(23)
由于BND(X)=BNDI(X)∪BNDII(X),可得
(24)
(25)
因此,由定理1可得
定理3設一個信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是U上的一個模糊集,U/R={E1,E2,…,El}為U上的一個近似空間,當λ1=λ2時,R(X)=R0.5(X)。
證明:由條件可知,當λ1=λ2時,由定義6可得γ=0.5。
由定理3可知,當λ1=λ2時,基于誤分類代價的粗糙模糊集近似集R(X)將退化為R0.5(X)。
隨著信息的不斷完善,知識空間不斷細化,邊界域中對象可能會發(fā)生重新分類,導致邊界域中用于表示近似集的等價類發(fā)生變化。本節(jié)將分析多粒度知識空間中粗糙近似集模型誤分類代價的變化規(guī)律。
定理4設一個信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?C,X是U上的一個模糊集,則DC(R1(X))≥DC(R2(X))。
證明:假設U/R1={E1,E2,…,El}和U/R2={F1,F2,…,Fm}是U上的2個知識空間。由于R1?R2,故U/R2?U/R1。為了簡單化,假設僅有一個信息粒E1(E1∈U/Ri)細分為2個更細的信息粒F1,F(xiàn)2(F1,F2∈U/R2)(其他復雜情形均可轉化為這種情形,這里不再重復),則E1=F1∪F2,E2=F3,E3=F4,…,El=Fm(m=l+1),即U/R2={F1,F2,E2,E3,…,El}。
由情形1可知,F(xiàn)1?R(X),F(xiàn)2?R(X)。如圖2a為BNDI(X)中等價類發(fā)生細分的一種情形,可知
圖2 近似集模型的BNDI(X)中等價類發(fā)生細分情形
(26)
由情形2可得:F1?R(X),F(xiàn)2?R(X)。圖2b為BNDI(X)中等價類發(fā)生細分的一種情形,可知
ΔDCR1-R2=DC(R1(X))-DC(R2(X))=
(27)
由情形1可知,F(xiàn)1?R(X),F(xiàn)2?R(X),圖3a為BNDII(X)中等價類發(fā)生細分的一種情形,可得
圖3 近似集模型的BNDII(X)中等價類發(fā)生細分情形
(28)
由情形2可得,F(xiàn)1?R(X),F(xiàn)2?R(X),圖3b為BNDII(X)中等價類發(fā)生細分的一種情形,可知
(29)
綜上所述,無論為哪種情形,DC(R1(X))≥DC(R2(X))都成立,因此,定理4成立。定理4表明知識空間近似模糊概念的誤分類代價隨著粒度的細化呈單調遞減,這個結果符合人的認知習慣。
為了簡化,本文僅以BNDI(X)為例,分析它對應的誤分類代價的變化規(guī)律。
定理5設一個信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?…?RM?C,X是U上的一個模糊集,僅有BNDI(X)中的信息粒通過ΔR=R1-R2發(fā)生細分,則DCR1(BNDI(X))≤DCR2(BNDI(X))。
證明:假設U/R1={E1,E2,…,El}和U/R2={F1,F2,…,Fm}是U上的2個知識空間。由于R1?R2,故U/R2?U/R1。為了簡單化,假設僅有一個信息粒E1(E1∈U/Ri)細分為2個更細的信息粒F1,F(xiàn)2(U/R2?U/R1)(其他復雜情形均可轉化為這種情形,這里不再重復),則E1=F1∪F2,E2=F3,E3=F4,…,El=Fm(m=l+1),即U/R2={F1,F2,E2,E3,…,El}。
由情況1可知,F(xiàn)1?BNDII(X),F(xiàn)2?BNDI(X),則
DCR1(BNDI(X))-DCR2(BNDI(X))=
(30)
由情況1可知,F(xiàn)1?BNDI(X),F(xiàn)2?BNDI(X),則
DCR1(BNDI(X))-DCR2(BNDI(X))=
(31)
綜上所述,DCR1(BNDI(X))≤DCR2(BNDI(X))。
定理6設一個信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?…?RM?C,X是U上的一個模糊集,僅有BNDII(X)域中的信息粒通過ΔR=R1-R2發(fā)生細分,則DCR1(BNDI(X))≤DCR2(BNDI(X))。
與定理5相似,定理6很容易證明。結合定理5和定理6可知,在代價敏感的近似集模型中,當僅有BNDI(X)或BNDII(X)中的信息粒隨著知識空間的細化發(fā)生細分時,BNDI(X)的誤分類代價將會增加,這個結果并不符合人類認知的習慣。
本實驗的硬件配置為Intel i5-2430M的CPU, 8G內存, 操作系統(tǒng)為Windows7 64bit OS的臺式機,采用MATLAB2014軟件進行仿真。表2列出了本文所用UCI數據集。
表2 數據集描述表
圖4 γ=0.5時不同粒度上的 和
圖5 γ=0.7時不同粒度上的 和
圖6 γ=0.5時不同粒度上的和
圖7 γ=0.7時不同粒度上的和
圖8展示了在不同數據集、不同粒度層次上的誤分類代價。由實驗結果可知,知識空間近似模糊概念的誤分類代價隨著粒度的細化呈單調遞減,這個結果符合人的認知習慣。
圖8 DC(R(X))隨著粒度細化的變化趨勢