錢 進
(1.江蘇理工學院 計算機工程學院 江蘇 常州 213001; 2. 江蘇省大數(shù)據(jù)分析技術重點實驗室 江蘇 南京210044)
粗糙集理論[1]是一種處理不確定性問題的有效工具,主要利用知識約簡直接從給定的數(shù)據(jù)集中挖掘出有效的確定性和不確定性決策規(guī)則.由于沒有考慮到容錯性,并且缺乏一定的語義,Yao通過引入貝葉斯風險分析,提出了具有容錯能力的決策粗糙集模型,可以生成三支決策[2].該模型在聚類分析、推薦系統(tǒng)、圖像處理、認知學習等方面取得了成功應用[3-8].
傳統(tǒng)決策粗糙集模型主要基于單個粒度,文獻[9]結合多粒度思想提出了樂觀和悲觀的多粒度決策粗糙集模型,將決策粗糙集模型研究從單粒度推廣到多粒度環(huán)境,為解決多個粒度的問題提供了一種新的有效方法.一些學者將多粒度決策粗糙集模型中等價關系推廣為優(yōu)勢關系、相容關系、模糊關系等,得到了許多新型的多粒度決策粗糙集模型[10-21].傳統(tǒng)多粒度決策粗糙集模型中下近似和上近似都采用同一樂觀或悲觀的策略,如果上下近似采用不同策略,將產(chǎn)生另外兩種新模型.為此,本文提出了樂觀-悲觀和悲觀-樂觀的多粒度決策粗糙集模型,探討了這兩種模型的正確性和合理性,分析了不同多粒度決策粗糙集模型之間的相互關系,這將為多粒度決策分析提供一個新的視角.
下面簡要介紹本文主要用到的DTRS模型一些基本概念,詳細的介紹請參考有關文獻[1-2,9].
定義1[1]設決策表S=(U,At=C∪D, {Va|a∈At}, {Ia|a∈At}),其中U={x1,x2, …,xn}表示對象的非空有限集合,稱為論域;At為全體屬性集,C為條件屬性集,D為決策屬性集;Va是屬性a∈At的值域;Ia:U→Va是一個信息函數(shù).每一個屬性子集A?At決定了一個二元不可區(qū)分關系IND(A):
IND(A)={(x,y)∈U×U|?a∈A,Ia(x)=Ia(y)}.
關系IND(A)構成了U的一個劃分,用U/IND(A)表示,簡記為U/A或πA.條件屬性集C導出的U上劃分為πC={C1,C2,…,Cp},決策屬性D導出的U上劃分記為πD={D1,D2,…,Dk}.
在Pawlak近似空間中,通常用等價類[x]來表示對象x. 由于實際應用中經(jīng)常出現(xiàn)不一致數(shù)據(jù),通常將一個對象x盡可能正確地劃分到正區(qū)域POS(X),邊界域BND(X)或負區(qū)域NEG(X)中.根據(jù)貝葉斯理論和最小風險準則,存在一種特殊情況下?lián)p失函數(shù)應滿足λPP≤λBP<λNP和λNN≤λBN<λPN.于是,可計算出α和β兩個閾值(0≤β<α≤1),即
定義2[2]在決策表S中, 對于一個決策類Dj∈πD,相對于πA的(α,β)-概率下近似集與概率上近似集定義如下:
根據(jù)定義2,利用決策類Dj可將U劃分為3個概率區(qū)域,分別為:
因此,決策粗糙集模型中πD的3個概率區(qū)域可表示為:
POS(α,β)(πD|πA)={x∈U|p(Dmax([x]A)|[x]A)≥α};
BND(α,β)(πD|πA)={x∈U|β
NEG(α,β)(πD|πA)={x∈U|p(Dmax([x]A)|[x]A)≤β}.
定義3[9]在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,則定義Dj的關于屬性子集A1,A2,… ,Am的樂觀多粒度決策粗糙集模型的下近似和上近似為:
{x∈U|p(Dj|[x]A1)>β∨p(Dj|[x]A2)>β∨…∨p(Dj|[x]Am)>β}.
性質(zhì)1在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,樂觀多粒度粗糙集模型有下列性質(zhì):
定義4[9]在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,則定義Dj的關于屬性子集A1,A2,…,Am的悲觀多粒度決策粗糙集模型的下近似和上近似為:
{x∈U|p(Dj|[x]A1)>β∧p(Dj|[x]A2)>β∧…∧p(Dj|[x]Am)>β}.
性質(zhì)2在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,悲觀多粒度粗糙集模型有下列性質(zhì):
在傳統(tǒng)的樂觀和悲觀多粒度決策粗糙集模型中,上下近似要么都采用樂觀策略,要么都采用悲觀策略.在現(xiàn)實情形下,可能還存在兩種情況:1) 下近似采用樂觀策略,上近似采用悲觀策略;2) 下近似采用悲觀策略,上近似采用樂觀策略.下面先給出這兩種多粒度決策粗糙集模型的定義,然后探討這兩種模型的正確性和合理性以及不同多粒度決策粗糙集模型之間的關系.
定義5在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,則定義Dj的關于屬性子集A1,A2,…,Am的樂觀-悲觀多粒度決策粗糙集模型的下近似和上近似分別為:
{x∈U|p(Dj|[x]A1)>β∧p(Dj|[x]A2)>β∧…∧p(Dj|[x]Am)>β}.
性質(zhì)3在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,樂觀-悲觀多粒度粗糙集模型有下列性質(zhì):
定義6在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,則定義Dj的關于屬性子集A1,A2,…,Am的悲觀-樂觀多粒度決策粗糙集模型的下近似和上近似為:
{x∈U|p(Dj|[x]A1)>β∨p(Dj|[x]A2)>β∨…∨p(Dj|[x]Am)>β}.
性質(zhì)4在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,悲觀-樂觀多粒度粗糙集模型有下列性質(zhì):
下面主要探討不同多粒度決策粗糙集模型之間的關系. 圖1給出了A={A1,A2}下不同多粒度決策粗糙集模型中Dj-三個概率區(qū)域情況.從圖1(c)可以發(fā)現(xiàn),對象1和對象2分別屬于粒度A1和A2下正區(qū)域. 然而,對象1也可能屬于粒度A2下負區(qū)域,對象2也可能屬于A1下負區(qū)域.這說明在某些情況下,定義5可能不成立,一些對象可能屬于下近似,但不在上近似中. 下面通過例1進行說明.
圖1 不同多粒度決策粗糙集模型下Dj-三支概率區(qū)域Fig.1 Dj-three probabilistic regions under different multigranulation decision-theoretic rough set models
例1假設U={x1,x2,… ,x10}是10個評職稱的候選人,A={A1,A2}分別表示教學和科研的2個屬性子集族,U/A1={{x1,x6}, {x2,x3,x4,x7}, {x5,x9,x10}, {x8}},U/A2={{x1,x9}, {x2,x3,x4,x10}, {x5,x6,x7}, {x8}},D1={x1,x2,x3,x7,x10}表示評上職稱的候選人. 假設α=0.75,β=0.45,D1={x1,x2,x3,x7,x10}, 計算各對象的條件概率如下:
1) 對于屬性子集A1,則有
p(D1|[x1]A1)=p(D1|[x6]A1)=0.5;p(D1|[x2]A1)=p(D1|[x3]A1)=p(D1|[x4]A1)=p(D1|[x7]A1)=0.75;p(D1|[x5]A1)=p(D1|[x9]A1)=p(D1|[x10]A1)=0.33;p(D1|[x8]A1)=0.
2) 對于屬性子集A2,則有
p(D1|[x1]A2)=p(D1|[x9]A2)=0.5;p(D1|[x2]A2)=p(D1|[x3]A2)=p(D1|[x4]A2)=p(D1|[x10]A2)=0.75;p(D1|[x5]A2)=p(D1|[x6]A2)=p(D1|[x7]A2)=0.33;p(D1|[x8]A2)=0.
因此,對于D1,4種多粒度決策粗糙集模型的上下近似如表1所示. 表1和表2中的OO、PP、OP、PO分別代表樂觀-樂觀、悲觀-悲觀、樂觀-悲觀和悲觀-樂觀多粒度決策粗糙集模型.
表1 4種多粒度決策粗糙集模型的D1-概率區(qū)域比較
從表1可以看出,樂觀-悲觀多粒度決策粗糙集模型下近似沒有完全包含在上近似中,即對象{x7,x10}既屬于正區(qū)域,也屬于負區(qū)域,顯然與傳統(tǒng)粗糙集模型“上近似一定包含下近似”相矛盾.
例2(續(xù)例1)假設α=0.75,β=0.45, 計算πD-概率區(qū)域如表2所示.
表2 4種多粒度決策粗糙集模型的πD-概率區(qū)域比較
從表2可以發(fā)現(xiàn),樂觀多粒度決策粗糙集模型和悲觀-樂觀多粒度決策粗糙集模型的負區(qū)域最小,而悲觀多粒度決策粗糙集模型的負區(qū)域最大,傳統(tǒng)的多粒度決策粗糙集模型的邊界域較小. 盡管悲觀-樂觀多粒度決策粗糙集模型的邊界域最大,但可以調(diào)整α和β進行序貫三支決策. 此外,在多粒度決策粗糙集模型中,{x7,x10}是爭議對象,僅僅在某個粒度上滿足了決策.
性質(zhì)5在決策表S中,A={A1,A2,… ,Am}是At的m個屬性子集族,則下列性質(zhì)成立:
3)NEGOO,(α,β)(πD|πA)=NEGPO,(α,β)(πD|πA)?NEGPP,(α,β)(πD|πA);
4)BNDOO,(α,β)(πD|πA)?BNDPO,(α,β)(πD|πA),BNDPP,(α,β)(πD|πA)?BNDPO,(α,β)(πD|πA).
說明:樂觀-悲觀多粒度決策粗糙集模型和悲觀-樂觀多粒度決策粗糙集模型是傳統(tǒng)多粒度決策粗糙集模型的補充,為多粒度問題求解提供了另一種視角. 例如,在職稱評審過程中,可以采用悲觀-樂觀多粒度決策粗糙集模型,首先選出各方面都優(yōu)秀的候選人(概率正區(qū)域),排除各方面都差的候選人(概率負區(qū)域),剩下的候選人(概率邊界域)則通過放寬限制條件選出.盡管樂觀-悲觀多粒度決策粗糙集模型在粗糙集理論中看似不正確,在現(xiàn)實生活中可能是合理的. 例如,項目評審可以采用樂觀-悲觀多粒度決策粗糙集模型,包含在下近似中卻沒有包含在上近似中的爭議項目可能某些方面特別優(yōu)秀,但存在某個方面不符合要求,這時可以通過協(xié)商或?qū)<彝镀苯鉀Q. 再比如,在研究生招生中,采用樂觀-悲觀多粒度決策粗糙集模型,可以把有爭議的學生進行破格錄取.
圖2展示了樂觀多粒度決策粗糙集模型、悲觀多粒度決策粗糙集模型以及悲觀-樂觀多粒度決策粗糙集模型3者之間的關系.
圖2 3種多粒度決策粗糙集模型之間關系Fig.2 Relationships among three multigranulation decision-theoretic rough set models
通過剖析傳統(tǒng)多粒度決策粗糙集模型,提出了樂觀-悲觀和悲觀-樂觀兩種多粒度決策粗糙集模型,分析了這兩種模型的正確性和合理性,比較了不同多粒度決策粗糙集模型之間的關系,使得決策粗糙集模型適合更多的多粒度環(huán)境.目前,多粒度決策粗糙集模型中不同粒度都采用單一閾值,不太適合處理多源異構數(shù)據(jù)集.作者下一步工作主要研究多閾值的多粒度決策粗糙集模型.
[1] PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11 (2): 341-356.
[2] YAO Y Y. A decision theoretic framework for approximating concepts[J]. International journal of man-machine studies, 1992, 37 (6): 793-809.
[3] CHEN H M, LI T R, LUO C, et al.A decision-theoretic rough set approach for dynamic data mining[J]. IEEE transactions on fuzzy systems,2015,23(6): 1958-1970.
[4] YU H, JIAO P, YAO Y Y, et al. Detecting and refining overlapping regions in complex networks with three-way decisions[J]. Information sciences, 2016,373:21-41.
[5] ZHANG H R, MIN F. Three-way recommender systems based on random forests[J]. Knowledge-based systems, 2016,91:275-286.
[6] LI H X, ZHANG L B, HUANG B, et al. Sequential three-way decision and granulation for cost-sensitive face recognition[J]. Knowledge-based systems, 2016, 91:241-251.
[7] CHEN J, ZHANG Y P, ZHAO S. Multi-granular mining for boundary regions in three-way decision theory [J]. Knowledge-based systems, 2016, 91: 287-292.
[8] LI J H, HUANG C C, QI J J, et al. Three-way cognitive concept learning via multi-granularity[J]. Information sciences, 2017, 378:244-263.
[9] QIAN Y H, ZHANG H, SANG Y L, et al. Multigranulation decision-theoretic rough sets[J]. International journal of approximate reasoning, 2014, 55(1):225-237.
[10] LI W T, XU W H. Multi-granulation decision-theoretic rough set in ordered information system [J]. Fundamenta informaticae, 2015,139(1): 67-89.
[11] YANG H L, GUO Z L. Multi-granulation decision-theoretic rough sets in incomplete information systems[J]. International journal of machine learning and cybernetics, 2015, 6(6):1005-1018.
[12] LIU C H, PEDRYCZ W, WANG M Z. Covering-based multigranulation decision-theoretic rough sets[J]. Journal of intelligent and fuzzy systems, 2017, 32(1): 749-765.
[13] FENG T, MI J S. Variable precision multigranulation decision-theoretic fuzzy rough sets [J]. Knowledge-based systems, 2016, 91: 93-101.
[14] SUN B Z, MA W M, XIAO X. Three-way group decision making based on multigranulation fuzzy decision-theoretic rough set over two universes[J]. International journal of approximate reasoning, 2017,81:87-102.
[15] LIN G P, LIANG J Y, QIAN Y H, et al. A fuzzy multigranulation decision-theoretic approach to multi-source fuzzy information systems[J]. Knowledge-based systems, 2016, 91: 102-113.
[16] 薛占熬, 袁藝林,辛現(xiàn)偉,等.多粒度廣義L-模糊可變精度粗糙集[J].鄭州大學學報(理學版),2016,48(3):82-89.
[17] XU W H, GUO Y T. Generalized multigranulation double-quantitative decision-theoretic rough set [J]. Knowledge-based systems, 2016,105:190-205.
[18] YANG X B, QI Y S, SONG X N, et al. Test cost sensitive multigranulation rough set: model and minimal cost selection[J]. Information sciences, 2013, 250: 184-199.
[19] HU B Q. Three-way decision space and three-way decisions[J]. Information sciences, 2014, 281:21-52.
[20] YANG X P, YAO J T. Modelling multi-agent three-way decisions with decision-theoretic rough sets[J]. Fundamenta informaticae, 2012, 115(2/3): 157-171.
[21] ZHANG X H, MIAO D Q, LIU C H, et al. Constructive methods of rough approximation operators and multigranulation rough sets[J]. Knowledge-based systems, 2016, 91:114-125.