段晶晶,魏立力
寧夏大學(xué)數(shù)學(xué)計算機學(xué)院,銀川 750021
基于隨機優(yōu)勢關(guān)系的區(qū)間值信息系統(tǒng)
段晶晶,魏立力
寧夏大學(xué)數(shù)學(xué)計算機學(xué)院,銀川 750021
粗糙集理論是波蘭數(shù)學(xué)家Pawlak Z.于1982年提出的一種數(shù)據(jù)表達和分析的數(shù)學(xué)工具[1],粗糙集理論的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。該理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,所以對問題的不確定性的描述或處理可以說是比較客觀的,由于這個理論未能包含處理不精確或不確定原始數(shù)據(jù)的機制,所以這個理論與概率論,模糊數(shù)學(xué)和證據(jù)理論等其他處理不確定或不精確問題的理論有很強的互補性[2-5]。
經(jīng)典粗糙集理論只針對屬性值已知并且單一的情況,即完備的信息系統(tǒng)。然而在現(xiàn)實生活中存在大量屬性值未知、缺失、模糊、不精確、不惟一的情形。因此,現(xiàn)有大量文獻對這些問題進行深入討論,提出了不完備信息系統(tǒng)[6](文獻[6]中利用數(shù)據(jù)補充的方法把不完備區(qū)間值信息系統(tǒng)轉(zhuǎn)化為完備的區(qū)間值信息系統(tǒng),即區(qū)間端點的缺失值用對應(yīng)屬性的所有屬性值的最小下界或最大上界來代替),區(qū)間值信息系統(tǒng)[6-8](文獻[7]在區(qū)間值信息系統(tǒng)中定義了可能概率,并在可能概率的基礎(chǔ)上定義了α-優(yōu)勢關(guān)系,給出了基于α-優(yōu)勢關(guān)系的擴充粗糙集模型;文獻[8]用新的方法定義了α-優(yōu)勢關(guān)系,采用相對熵最優(yōu)賦權(quán)準(zhǔn)則建立了α-優(yōu)勢關(guān)系的概率粗糙模型),集值信息系統(tǒng)[9](文獻[9]提出了析取集值有序信息系統(tǒng)和合取集值有序信息系統(tǒng),并給出了這兩種信息系統(tǒng)的屬性約簡方法)等粗糙集的擴充模型。其次,考慮到信息偏好有序,最早由Greco等人于1998年提出了基于優(yōu)勢關(guān)系的粗糙集方法(DRSA)[10]。利用優(yōu)勢關(guān)系建立序信息系統(tǒng)有助于處理連續(xù)屬性和偏序關(guān)系的問題。相對于經(jīng)典粗糙集理論的基本概念,優(yōu)勢關(guān)系替代了不可辨識關(guān)系,推動了粗糙集理論的發(fā)展,構(gòu)成了不同的優(yōu)勢關(guān)系概念,并形成了一些應(yīng)用研究[6-11]。
然而利用優(yōu)勢關(guān)系對屬性域進行排序的結(jié)果以一定概率成立,得到的決策規(guī)則也以一定的概率成立。所以有序信息系統(tǒng)缺少屬性值區(qū)間上的概率分布信息。概率信息的丟失將導(dǎo)致建立對象之間的優(yōu)勢關(guān)系不符合實際情況,所以要建立一種體現(xiàn)屬性值區(qū)間上的概率分布信息的信息系統(tǒng)。由于隨機優(yōu)勢關(guān)系是定義在分布函數(shù)上的一種特殊的優(yōu)勢關(guān)系,因此利用隨機優(yōu)勢關(guān)系來研究有序信息系統(tǒng)將是以后研究的趨勢。例如文獻[11]中就分析了區(qū)間值有序信息系統(tǒng)沒有蘊含屬性值區(qū)間上的概率分布信息的缺點,建立了一種基于概率的有序信息系統(tǒng);文獻[12]定義了隨機意義下的極小極大損失,給出決策的隨機優(yōu)勢粗糙集模型;文獻[13]利用近似隨機優(yōu)勢準(zhǔn)則,提出了近似隨機優(yōu)勢度,并對方案排序;文獻[14]提出了隨機優(yōu)勢指標(biāo)的概念,并對其合理性和優(yōu)越性作了論證。
定義1[15](隨機小于)令X和Y分別是兩個隨機變量,滿足:稱X隨機小于Y,記作X?SY。
顯然上式等價于:
隨機優(yōu)勢關(guān)系實際上就是定義在概率分布集合上的一個二元關(guān)系。
下面先介紹如何在區(qū)間值有序信息系統(tǒng)中引入對應(yīng)屬性的概率分布。
例1表1是高三某班部分同學(xué)月考估分情況。
表1 月考估分情況
由例1可以看出:
所以,a同學(xué)的語文月考成績要隨機優(yōu)于b。顯然,不通過計算也可看出a同學(xué)的語文成績要比b好。
為了敘述簡便,以下提到的區(qū)間值信息系統(tǒng)均指區(qū)間值有序信息系統(tǒng)。
顯然,當(dāng)aL(x)=aU(x)時,f(x,a)退化成單值形式??梢?,單值信息系統(tǒng)是區(qū)間值信息系統(tǒng)的一種特殊形式。
定義3[11](區(qū)間值有序信息系統(tǒng))給定區(qū)間值信息系統(tǒng)S=(U,A,V,f),若區(qū)間值信息系統(tǒng)S中所有的條件屬性都是偏好有序的(即屬性值之間存在優(yōu)劣關(guān)系),則稱區(qū)間值信息系統(tǒng)S為有序信息系統(tǒng)。
定義4(區(qū)間值有序信息系統(tǒng)的分布函數(shù))給定區(qū)間值有序信息系統(tǒng)S=(U,A,V,f),對?a∈A,令Ma= maxi{aU(xi)},ma=mini{aL(xi)},則稱對象xi在屬性a下取值的概率為:
定理2(隨機優(yōu)勢的判定定理1)給定區(qū)間值信息系統(tǒng)(U,A,V,f),若aL(xi)≤aL(xj)<aU(xi)≤aU(xj)(xi,xj∈U,i≠j,a∈A),則對象xj在屬性a下隨機優(yōu)于對象xi。
證明由式(3)可以得到:
定理3(隨機優(yōu)勢的判定定理2)給定區(qū)間值信息系統(tǒng)(U,A,V,f),若aU(xi)≤aL(xj)(xi,xj∈U,i≠j,a∈A),則對象xj在屬性a下隨機優(yōu)于對象xi。
證明同定理2。
文獻[8]通過對區(qū)間值信息系統(tǒng)進行假設(shè),定義了普通優(yōu)勢關(guān)系下各屬性對象之間的概率,建立了α-優(yōu)勢關(guān)系的概率粗糙模型。本章將利用分布函數(shù)這一基本工具,對區(qū)間值信息系統(tǒng)進行深入研究,建立α-隨機優(yōu)勢關(guān)系。
在介紹α-隨機優(yōu)勢關(guān)系的概念之前,先了解一下Lévy距離的概念。
定義6[16](Lévy距離)設(shè)D={F|F是一維分布函數(shù)},對?F,G∈D定義:
L(F,G)=inf{ε>0|F(x-ε)-ε≤G(x)≤F(x+ε)+ε}則L是D上的距離,稱為Lévy距離。
定理4[16](Lévy距離的幾何意義)分布函數(shù)列G(x),F(xiàn)(x)之間的最大Lévy距離是2L(F,G),它的測量沿x軸135°方向。如圖1。
圖1 Lévy距離的幾何表示圖
定義7(α-隨機優(yōu)勢)給定區(qū)間值信息系統(tǒng)(U,A,V,f)以及屬性子集B,L(Fa,Ga)是屬性a下對象x和y分別對應(yīng)的分布函數(shù)之間的Lévy距離,α是閾值,稱為區(qū)間值信息系統(tǒng)的α-隨機優(yōu)勢。稱
為α-隨機優(yōu)勢類。
由α-隨機優(yōu)勢關(guān)系的定義可以看到,α不僅屬于[0,1]這個范圍,它還可能比1大。此時的α衡量了兩個一維分布函數(shù)之間的Lévy距離程度。α越小,兩個分布函數(shù)越接近,表明對象y隨機優(yōu)于對象x的程度越?。沪猎酱?,兩個分布函數(shù)之間的Lévy距離越大,對象y越是隨機優(yōu)于對象x,作為決策,選擇y的可能性就越大。
定理5(α-隨機優(yōu)勢關(guān)系的性質(zhì))給定區(qū)間值信息系統(tǒng)(U,A,V,f),B?A,L(Fa,Ga)是對象x和y之間的Lévy距離,則
證明(1)~(4)由定義可證,證明略。(5)證明過程類似于定理1(5),略。
利用定理4計算例1的Lévy距離如表2。從表2中可以看到,用隨機優(yōu)勢關(guān)系得到元素之間的優(yōu)劣性,再用Lévy距離衡量元素之間的優(yōu)勢度就不再具有明顯的優(yōu)勢關(guān)系了。比如,f在數(shù)學(xué)學(xué)科中隨機優(yōu)于g,但利用Lévy距離計算的結(jié)果就不再具有隨機優(yōu)勢關(guān)系了,隨機優(yōu)勢度為0。
表2 例1的Lévy距離
如果區(qū)間值信息系統(tǒng)里的屬性值有未知值時,這樣的區(qū)間值信息系統(tǒng)就是不完備區(qū)間值信息系統(tǒng)。不完備區(qū)間值信息系統(tǒng)有三種情形:已知上界,未知下界;已知下界,未知上界;上下界都是未知值。下面就來舉例說明不完備區(qū)間值信息系統(tǒng)。
例2對于學(xué)生成績,有下面不完備區(qū)間值信息系統(tǒng),如表3。
表3 不完備信息系統(tǒng)
例2中“*”表示屬性取值的上界或下界未知。在這里未知值是存在的,只不過屬性取值的上界或下界缺失。處理這種不完備區(qū)間值信息系統(tǒng)的常見方法是把這些未知值補充完整,轉(zhuǎn)化成完備區(qū)間值信息系統(tǒng)。這種數(shù)據(jù)補充的常用方法是求區(qū)間端點的平均值。
定義8(區(qū)間端點的平均值法)給定不完備區(qū)間值信息系統(tǒng)(U,A,V,f),則填充的不完備區(qū)間值信息系統(tǒng)的屬性值記為:
其中||aL(U)||,||aU(U)||分別表示屬性a下U中屬性值不等于*的對象個數(shù)。稱這種數(shù)據(jù)補充的方法為求區(qū)間端點的平均值法。
表4是經(jīng)過補充的信息系統(tǒng)。
表4 填充的不完備信息系統(tǒng)
表5是例2得出的Lévy距離,得到的隨機優(yōu)勢類為:
利用Lévy距離的概念得到的區(qū)間值信息系統(tǒng)的隨機優(yōu)勢類,在整體上反映了對象之間的優(yōu)劣關(guān)系,比對象間點態(tài)的優(yōu)劣比較更具客觀性。
當(dāng)α=5.6時,α-隨機優(yōu)勢類為:
表5 例2的Lévy距離
與上面的隨機優(yōu)勢類相比較,這里的α-隨機優(yōu)勢類是隨機優(yōu)勢類的子集,給出了閾值為5.6時的隨機優(yōu)勢類。當(dāng)決策者需要篩選出優(yōu)勢程度不同的對象時,可以調(diào)整優(yōu)勢類的閾值,這樣可以根據(jù)對象間的Lévy距離很容易得到結(jié)果。
當(dāng)α=6.2時,α-隨機優(yōu)勢類為:
在已有的文獻中主要研究了各種基于優(yōu)勢關(guān)系的信息系統(tǒng),沒有考慮信息系統(tǒng)本身的概率分布情況。本文討論了基于隨機優(yōu)勢關(guān)系的區(qū)間值信息系統(tǒng)。首先,在區(qū)間值信息系統(tǒng)中引入了分布函數(shù),繼而應(yīng)用隨機優(yōu)勢關(guān)系的概念,提出了基于隨機優(yōu)勢關(guān)系的區(qū)間值信息系統(tǒng)。由于在分布函數(shù)組成的集合中,最為常用的度量之一是Lévy距離,因此,文章在Lévy距離的基礎(chǔ)上構(gòu)造了α-隨機優(yōu)勢。最后通過實例進行計算,說明了本文方法的有效性。
[1]Pawlak Z.Rough sets[J].International Journal of Computer and Information Science,1982,11(5):341-356.
[2]張文修,吳志偉.粗糙集理論介紹和研究綜述[J].模糊系統(tǒng)與數(shù)學(xué),2000,14(4):1-12.
[3]王國胤.Rough理論與知識獲取[M].西安:西安交通大學(xué)出版社,2001.
[4]張文修,梁怡,吳志偉.信息系統(tǒng)與知識發(fā)現(xiàn)[M].北京:科學(xué)出版社,2003.
[5]張文修,仇國芳.基于粗糙集的不確定決策[M].北京:清華大學(xué)出版社,2005.
[6]Yang X B,Yu D J,Wei L H.Dominance-based rough set approach to incomplete interval-valued information system[J].Data&Knowledge Engineering,2009,68:1331-1347.
[7]楊青山,王國胤,張清華,等.基于優(yōu)勢關(guān)系的區(qū)間值粗糙集擴充模型[J].山東大學(xué)學(xué)報:理學(xué)版,2010,45(9):7-13.
[8]毛軍軍,姚登寶,王翠翠,等.α-優(yōu)勢關(guān)系下的概率粗糙模型及其在區(qū)間數(shù)群決策中應(yīng)用[J].計算機工程與應(yīng)用,2012,48(18):48-52.
[9]Qian Y H,Dang C Y,Liang J Y,et al.Set-valued ordered information systems[J].Information Sciences,2009,179:2809-2832.
[10]Greco S,Matarazzo B,Slowińsli R.Rough approximation by dominance relations[J].International Journal of Intelligent Systems,2002,17:153-171.
[11]閆新寶,王國胤,張清華.基于概率的有序信息系統(tǒng)[J].計算機科學(xué),2012,39(1):239-243.
[12]鞏紅禹,魏立力.基于粗糙集的隨機優(yōu)勢決策方法[J].統(tǒng)計與決策:理論版,2007(16):60-62.
[13]張堯,樊治平.基于近似隨機優(yōu)勢度的隨機多屬性決策方法[J].東北大學(xué)學(xué)報:自然科學(xué)版,2010,31(9):1357-1368.
[14]張立清,解林,屠仁壽.隨機優(yōu)勢指標(biāo)方法及其應(yīng)用[J].控制與決策,1995,10(1):80-84.
[15]Shaked M,Shanthikumar J G.Stochastic orders[M].New York:Springer,2007.
[16]Huber P J.Robust statistics[M].New York:John Wiley& Sons,Inc,1981.
DUAN Jingjing,WEI Lili
School of Mathematics and Computer Science,Ningxia University,Yinchuan 750021,China
The distribution function is introduced to interval-valued information systems.And the stochastic dominancebased interval-valued information system is proposed.Theα-stochastic dominance relation is constructed in inter-valued information system.Theα-stochastic dominance relation is calculated by the Lévy distance and some numerical examples are shown for the efficiency of the method.
stochastic dominance;interval-valued information system;rough set
在區(qū)間值信息系統(tǒng)中引入了分布函數(shù),得到了基于隨機優(yōu)勢關(guān)系的區(qū)間值信息系統(tǒng),構(gòu)造了區(qū)間值信息系統(tǒng)的α-隨機優(yōu)勢關(guān)系。利用Lévy距離,對α-隨機優(yōu)勢關(guān)系進行了計算,實例說明了方法的有效性。
隨機優(yōu)勢;區(qū)間值信息系統(tǒng);粗糙集
A
TP18
10.3778/j.issn.1002-8331.1209-0322
DUAN Jingjing,WEI Lili.Stochastic dominance-based interval-valued information systems.Computer Engineering and Applications,2014,50(18):85-88.
國家自然科學(xué)基金(No.11261044);寧夏高等學(xué)校科學(xué)技術(shù)研究項目。
段晶晶(1987—),女,碩士生,主要研究領(lǐng)域為統(tǒng)計學(xué)、人工智能;魏立力(1965—),男,通訊作者,教授,主要研究領(lǐng)域為應(yīng)用統(tǒng)計與數(shù)據(jù)分析、人工智能的數(shù)學(xué)基礎(chǔ)。E-mail:weill866@163.com
2012-09-27
2013-01-18
1002-8331(2014)18-0085-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-02-07,http://www.cnki.net/kcms/detail/11.2127.TP.20130207.1420.013.html
◎網(wǎng)絡(luò)、通信、安全◎