黃麗萍
(閩南師范大學(xué)計算機(jī)學(xué)院,福建漳州363000)
不完備序信息系統(tǒng)的集對優(yōu)勢度粗糙集模型①
黃麗萍
(閩南師范大學(xué)計算機(jī)學(xué)院,福建漳州363000)
不完備序信息系統(tǒng)粗糙集模型是經(jīng)典粗糙集模型的擴(kuò)展,它能進(jìn)一步處理含未知屬性值和具有優(yōu)勢關(guān)系的數(shù)據(jù).針對相似優(yōu)勢關(guān)系條件過于寬松而限制擴(kuò)展優(yōu)勢關(guān)系條件又過于嚴(yán)格的缺點(diǎn),引入集對分析思想,提出了集對優(yōu)勢度粗糙集模型.它可以通過調(diào)整參數(shù),達(dá)到較理想的分類,克服了現(xiàn)有不完備序信息系統(tǒng)優(yōu)勢關(guān)系的不足.并以實(shí)例分析驗(yàn)證了集對優(yōu)勢度粗糙模型的有效性.最后,在UCI數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),通過實(shí)驗(yàn)進(jìn)一步說明集對優(yōu)勢度粗糙模型可以獲得更優(yōu)的分類效果.
粗糙集,不完備序信息系統(tǒng),限制優(yōu)勢關(guān)系,對優(yōu)勢度
Pawlak[1]提出的經(jīng)典粗糙集理論是以完備信息系統(tǒng)為研究對象.但現(xiàn)實(shí)世界,由于數(shù)據(jù)理解、獲取過程中噪音的影響、獲取技術(shù)的限制等因素,不完備信息系統(tǒng)廣泛地存在現(xiàn)實(shí)生活中.而經(jīng)典粗糙集并不適用于不完備信息系統(tǒng),這就有必要對它進(jìn)行擴(kuò)充以處理不完備數(shù)據(jù).許多學(xué)者針對不完備信息系統(tǒng)缺失給出不同理解,得出相應(yīng)的擴(kuò)展粗糙集模型,如Kryszkiewicz[2]提出基于容差關(guān)系的粗糙集模型;Stefanowski等[3]提出了基于非對稱相似關(guān)系和量化容差關(guān)系的粗糙集模型;王國胤[4]提出了基于限制容差關(guān)系的粗糙集模型.
在實(shí)際問題中,屬性的取值不僅含有不完整的數(shù)據(jù)而且往往數(shù)值之間具有優(yōu)勢關(guān)系.屬性值的有序特性是非常重要的.如決策系統(tǒng)中的效益型和成本型屬性則說明了在系統(tǒng)中采用有序思想的重要性,該類問題更能客地描述眾多決策問題[5].而粗糙集的等價關(guān)系不能處理該類數(shù)據(jù),因此,Greco等[6]提出了基于優(yōu)勢關(guān)系的粗糙集模型,用優(yōu)勢關(guān)系代替了等價關(guān)系.對于上述兩類問題的處理,Shao[7]提出了基于優(yōu)勢關(guān)系的不完備序信息系統(tǒng)的屬性約簡和規(guī)則提?。槍hao的相似優(yōu)勢關(guān)系過于寬松的問題,胡明禮等[8]引入了閥值廣義擴(kuò)展優(yōu)勢關(guān)系;駱公志等[9]進(jìn)一步提出了限制優(yōu)勢粗糙集模型,避免了相似優(yōu)勢關(guān)系條件過于寬松的現(xiàn)象,但在某些情況下又顯得過于嚴(yán)格.韋碧鵬等[10]提出了α優(yōu)勢下的粗糙集模型的屬性約簡,莫京蘭等[11]提出的不完備序信息系統(tǒng)及其擴(kuò)展模型,陶志等[12]提出的概率優(yōu)勢關(guān)系和施玉杰等[13]提出的α先驗(yàn)概率優(yōu)勢關(guān)系下的粗糙集模型,這些模型都需要統(tǒng)計各個屬性中各數(shù)據(jù)值出現(xiàn)的頻率;對于大數(shù)據(jù)來說,計算各數(shù)據(jù)值出現(xiàn)的頻率已經(jīng)需要花費(fèi)大量的時間代價,顯然不符合實(shí)際.
集對分析方法[14]是趙克勤教授近年來提出的用于研究集合之間相互關(guān)系的一種新理論,其核心思想是把被研究的客觀事物之確定性聯(lián)系和不確定性聯(lián)系作為一個系統(tǒng)來處理,現(xiàn)在它已經(jīng)得到了廣泛的應(yīng)用.一些學(xué)者利用運(yùn)用集對分析方法對不完備信息系統(tǒng)粗糙集模型進(jìn)行了擴(kuò)展,建立了相應(yīng)的不完備信息系統(tǒng)的集對粗糙集模型[15-18].而不完備序信息系統(tǒng)的集對分析方法目前還較少.文獻(xiàn)[19]將集對分析方法應(yīng)用于不完備序信息系統(tǒng),提出了關(guān)鍵屬性,而關(guān)鍵屬性的認(rèn)定具有人為因素,主觀性過強(qiáng).因此,本文在分析現(xiàn)有不完備序信息系統(tǒng)的幾種粗糙集模型的基礎(chǔ)上,提出了集對優(yōu)勢度粗糙模型.
1.1 相似優(yōu)勢關(guān)系
1.2 限制優(yōu)勢關(guān)系
定義3[9]設(shè)IIS=〈U,AT,V,f〉是一個不完備序信息系統(tǒng),對于A?AT,?x,y∈U,對象在屬性A下的限制優(yōu)勢關(guān)系為
限制相似優(yōu)勢關(guān)系克服了相似優(yōu)勢關(guān)系限制條件過于寬松的不足;但其條件過于苛刻,容易將實(shí)際上具有很大可能性的同類對象誤判為不同類.如信息表中屬性a的值域?yàn)閇1-8],存在y(a)=*,x(a)=1,按照限制相似優(yōu)勢的定義有y(a)=*優(yōu)于x(a)=1,但是對于y(a)=*,x(a)=3,則不能判斷y(a)=*優(yōu)于x(a)=3.而實(shí)際上,如果y(a)的取值滿足均值分布,則y(a)>x(a)的概率很大,因此,y(a)優(yōu)于x(a)成立的可能性很大,所以限制相似優(yōu)勢關(guān)系會造成一定的分類錯誤.
針對上述存在的問題,本文提出了集對優(yōu)勢度粗糙集模型.
M(x,y)={a∈A|fa(x)≥fa(y)∨(fa(x)=maxva∧fa(y)=*)∨(fa(x)=*∧fa(y)=minva)},
N(x,y)={a∈A|(fa(x)=*∧fa(y)=*)∨(fa(x)≠*∧fa(x)≠maxva∧fa(y)=*)∨
(fa(x)=*∧fa(y)≠minva∧fa(y)≠*)},
K(x,y)={a∈A|(fa(x) 顯然0≤S1,S2,S3≤1,S1+S2+S3=1. 對于弱勢度中的對象如何定義其中可能的優(yōu)勢度,本文給出對象屬性值聯(lián)合優(yōu)勢率的定義. 定義6 設(shè)IIS=〈U,AT,V,f〉是不完備序信息系統(tǒng),B?AT,對于任意的x,y∈U,對象x,y屬性值聯(lián)合優(yōu)勢率FP(x,y)定義為 在差異對象中,對象屬性值聯(lián)合優(yōu)勢率通過用平均值來代替未知值*來進(jìn)行優(yōu)劣比較,不僅解決相似優(yōu)勢關(guān)系和限制優(yōu)勢關(guān)系不能合理地比較f(x,a)=Vi(Vi∈Va∧Vi≠maxVa∧Vi≠minVa),f(y,a)=*的情形;也克服了文獻(xiàn)[16]中依靠專家選擇一些屬性作為關(guān)鍵屬性而導(dǎo)致的主觀性過強(qiáng). 證明 由定義7可知,當(dāng)S1=1時,只考慮強(qiáng)優(yōu)勢度不考慮弱優(yōu)勢度,這時集對優(yōu)勢關(guān)系的定義等價于限制優(yōu)勢關(guān)系的定義;當(dāng)S1+S2=1,即不對弱勢度進(jìn)行進(jìn)一步限定,則集對優(yōu)勢關(guān)系的定義等價于相似優(yōu)勢關(guān)系的定義.從而可得性質(zhì)2.從性質(zhì)2可以看出,本文提出的集對優(yōu)勢度粗糙模型客服了相似優(yōu)勢關(guān)系劃分粒度過大和限制優(yōu)勢關(guān)系劃分過小的缺點(diǎn),對不完備序信息系統(tǒng)的處理更加合理. 文獻(xiàn)[20]給出的一個完備的序信息系統(tǒng),有11個對象U={x1,x2,…,x11},8個條件屬性AT={a1,a2,…,a8}.條件屬性值A(chǔ)>B>C>D,分別用4,3,2,1來表示.將表內(nèi)一些對象設(shè)置成未知值,用*表示;從而得到一個不完備序信息系統(tǒng)如表1所示.運(yùn)用表1給出的不完備序信息系統(tǒng)來分析文獻(xiàn)[6]提出的相似優(yōu)勢關(guān)系、文獻(xiàn)[9]提出的限制優(yōu)勢關(guān)系以及本文提出的優(yōu)勢關(guān)系之間的分類效果. 表1 不完備序信息系統(tǒng) 從上面的結(jié)果可以看出,集對優(yōu)勢度優(yōu)勢關(guān)系通過平均值來代替未知值來進(jìn)行比較的方法,解決了相似優(yōu)勢關(guān)系條件過于寬松而限制優(yōu)勢關(guān)系條件過于苛刻的問題,使基于集對優(yōu)勢度的優(yōu)勢關(guān)系的優(yōu)勢類更接近信息完備時的優(yōu)勢類,具有更優(yōu)的分類效果. 下面通過MATLAB,選用表1和UCI數(shù)據(jù)庫中的IRIS數(shù)據(jù)集,進(jìn)一步驗(yàn)證基于集對優(yōu)勢度的優(yōu)勢關(guān)系的分類性能.采用隨機(jī)函數(shù)分別對表1和IRIS數(shù)據(jù)集設(shè)置5%,10%,20%和40%數(shù)據(jù)量的未知值,然后用集對優(yōu)勢度優(yōu)勢關(guān)系、限制相似優(yōu)勢關(guān)系對對象進(jìn)行劃分,產(chǎn)生各對象的優(yōu)勢類,將各對象的優(yōu)勢類與其相應(yīng)的未設(shè)未知值時的優(yōu)勢類(標(biāo)準(zhǔn)類),利用文獻(xiàn)[21]所給分類誤判率公式計算兩者之間的誤分類率. 表2 分類錯誤率比較 實(shí)驗(yàn)結(jié)果表明,限制相似優(yōu)勢關(guān)系的分類誤判率明顯高于本文基于集對優(yōu)勢度的優(yōu)勢關(guān)系;且隨著信息不完備率的增加,其誤判率快速上升,而基于集對優(yōu)勢度的優(yōu)勢關(guān)系的誤判率比較穩(wěn)定.通過調(diào)節(jié)α的大小,可以進(jìn)一步提高分類精度.當(dāng)α=0.6是的分類誤判率小于α=1時的分類誤判率.可以進(jìn)一步看出,對于序信息系統(tǒng)的分類,若分類條件過于苛刻,容易將實(shí)際上具有很大可能性的同類對象誤判為不同類. 現(xiàn)實(shí)中,存在很多不完備且含有序關(guān)系的數(shù)據(jù),因此對這種復(fù)雜數(shù)據(jù)的處理是很有意義的.本文通過對不完備信息系統(tǒng)和優(yōu)勢關(guān)系的分析,結(jié)合集對分析方法提出了集對優(yōu)勢度粗糙模型.該方法對于不完備序信息系統(tǒng)的數(shù)據(jù)分析更加合理.這種模型可根據(jù)實(shí)際應(yīng)用的需求,對參數(shù)α合理地調(diào)節(jié),可以靈活地控制從不完備序信息系統(tǒng)中獲取信息粒度的大??;從而更有效地對數(shù)據(jù)進(jìn)行處理,克服了已有擴(kuò)展模型的局限性.在本文的基礎(chǔ)上,下一步將進(jìn)一步研究基于集對優(yōu)勢度的不完備序決策系統(tǒng)的屬性約簡和規(guī)則提取方法. [1]PawlakZ.Roughset[J].InternationalJournalofComputerandInformationSciences,1982,11:341-356. [2]KryszkiewiczM.Roughsetapproachtoincompleteinformationsystem[J].InformationSciences,1998,112:39-49. [3]StefanowskiJ,TsoukiasA.OntheExtensionofRoughSetsUnderIncompleteInformation[C].//ProceedingsofNewDirectionsinRoughSets,DataMiningandGranular-SoftComputing.Berlin:Springer,1999:73-81. [4] 王國胤.Rough集理論在不完備信息系統(tǒng)中的擴(kuò)充[J].計算機(jī)研究與發(fā)展,2002,39(10):1 238-1 243. [5] 黃麗萍.區(qū)間序信息系統(tǒng)在向量相似度下的優(yōu)勢關(guān)系及屬性約簡[J].齊齊哈爾大學(xué)學(xué)報:自然科學(xué)版,2015,31(6):1-4. [6]GrecoS,MatarazzoB.SlowingskiR.Roughsetstheoryformulticriteriadecisionanalysis[J].EuropeanJournalofOperationalResearch,2001,129(1):1-47. [7]ShaoMW,ZhangWX.Dominancerelationandrulesinanincompleteorderedinformationsystem[J],InternationalJournalofIntelligentSystems,2005,20:13-27. [8] 胡明禮,劉思峰.基于廣義擴(kuò)展優(yōu)勢關(guān)系的粗糙決策分析方法[J].控制與決策,2007,22(12):1 347-1 351. [9] 駱公志,楊曉江,周德群.基于限制擴(kuò)展優(yōu)勢關(guān)系的粗糙決策分析模型[J].系統(tǒng)管理學(xué)報,2009,18(4):391-396. [10] 韋碧鵬,呂躍進(jìn),李金海.α優(yōu)勢下的粗糙集模型的屬性約簡[J].智能系統(tǒng)學(xué)報,2014,9(2):251-257. [11] 陶志,胡樹芹,不完備偏好決策系統(tǒng)中一種擴(kuò)展優(yōu)勢關(guān)系模型.中國民航大學(xué)學(xué)報,2015,32(4):51-55. [12] 施玉杰,楊宏志,徐久成.α先驗(yàn)概率優(yōu)勢關(guān)系下的粗糙集模型研究[J].南京大學(xué)學(xué)報:自然科學(xué)版,2016,52(5):899-907. [13] 莫京蘭,呂躍進(jìn),李金海.不完備序信息系統(tǒng)的模型擴(kuò)展及其屬性約簡[J].南京大學(xué)學(xué)報:自然科學(xué)版,2015,51(2):430-437. [14] 趙克勤.集對分析及其初步應(yīng)用[M].1版.杭州:浙江科學(xué)技術(shù)出版社,2000. [15] 黃兵,周獻(xiàn)中.基于集對分析的不完備信息系統(tǒng)粗糙集模型[J].計算機(jī)科學(xué),2002,29(7):1-3. [16] 劉富春.變集對聯(lián)系度的擴(kuò)充粗糙集模型及其屬性約簡[J].計算機(jī)科學(xué),2006,33(3):185-187. [17] 李長清,李克典,李進(jìn)金.不完備信息系統(tǒng)確定性和集對聯(lián)系度的粗糙擴(kuò)展模型[J].工程數(shù)學(xué)學(xué)報,2010,27(2):342-346. [18] 趙煥煥,菅利榮,劉勇.基于順勢相似關(guān)系的變精度粗糙集模型[J].計算機(jī)工程與應(yīng)用,2017,53(6):51-56. [19] 翟育明,蔡紅,郭斌.(α,β)集對限制優(yōu)勢粗糙集及決策模型[J].系統(tǒng)管理學(xué)報,2014,23(3):437-443. [20] 菅利榮,劉思峰,謝乃明.雜合灰色聚類與擴(kuò)展優(yōu)勢粗集的概率決策方法[J].系統(tǒng)工程學(xué)報,2010,25(4):554-560. [21]WinterS.Locationsimilarityofregions[J].ISPRSJournalofPhotogrammetry&RemoteSensing(S0924-2716),2000,55:189-200 Incomplete Ordered Information System Rough Set Model Based on Set-Pair Dominant Degree HUANG Li-ping (School of Computer,Minnan Normal University,Zhangzhou 363000,China) Rough set model of incomplete ordered information system is an extension of classical rough set model,which can deal with the data with unknown attribute values and dominance relation.For similar dominance relation condition was too loose and limited extended dominance relation was too strict,motivated by the problem,set-pair dominant degree rough set model was proposed base on the analysis of set-pair,which can be by adjusting the parameters,to achieve the ideal classification,overcome the shortcomings of the dominance relation in the existing incomplete ordered information system definition.And the feasibility of the model was verified by an example.Finally,we carried on the simulation experiment on UCI data sets and the experimental results illustrate that the classification results were more accuracy can be obtained based on the set pair dominance relation. rough set,incomplete ordered information system,limited dominant relation,set-pair dominant degree 2016-12-13 福建省教育廳科技項(xiàng)目(JAT160305)資助 黃麗萍,E-mail:liphuang@126.com. TP391 A 1672-6634(2017)01-0097-053 實(shí)例分析
4 仿真實(shí)驗(yàn)
5 結(jié)束語