陶 志,何丹峰,潘麗平
(中國民航大學理學院,天津 300300)
條件先驗概率優(yōu)勢關(guān)系粗糙集模型
陶 志,何丹峰,潘麗平
(中國民航大學理學院,天津 300300)
基于先驗概率優(yōu)勢關(guān)系的粗糙集模型是對粗糙集理論的重要擴充,然而卻有其不足之處。本研究提出的基于條件先驗概率優(yōu)勢關(guān)系的粗糙集模型是建立在對不完備偏序關(guān)系決策系統(tǒng)屬性值數(shù)據(jù)統(tǒng)計的基礎(chǔ)上,既考慮到同一屬性取值的不同情況又考慮到不同屬性之間的關(guān)聯(lián)性,充分利用各種先驗信息,因此有效提高了分類精度和分類質(zhì)量。理論分析和實例計算均證明了該模型的有效性和實用性。
粗糙集;不完備偏序關(guān)系決策系統(tǒng);條件先驗概率優(yōu)勢關(guān)系
粗糙集理論自在1982年被波蘭學者Z Pawlak[1]提出以來,已被普遍使用于處理各種不完整和不確定性問題。然而,Pawlak所提出的經(jīng)典粗糙集理論只適用于完備的信息系統(tǒng),并且將屬性看作常規(guī)屬性(屬性值之間不具有優(yōu)劣順序)。事實上,由于數(shù)據(jù)缺失和受人們主觀偏好的影響,在許多實際問題中碰到更多的是含有偏序關(guān)系的不完備信息系統(tǒng),為處理這一問題,Greco等[2]提出了基于優(yōu)勢關(guān)系的粗糙集模型,這是人們首次在多屬性分析決策問題中使用優(yōu)勢關(guān)系而非等價關(guān)系。在此之后,針對帶有偏序關(guān)系的多準則不完備信息系統(tǒng),學者們又給出許多新的優(yōu)勢關(guān)系模型。例如,擴展優(yōu)勢關(guān)系模型[3]和限制擴展優(yōu)勢關(guān)系模型[4],但前者過于寬松,后者的要求又過于嚴格,均有自身的局限性。同時,由于上述模型都沒有考慮已知信息對未知屬性值的影響,因此普遍存在分類精度不高、分類不盡合理等方面的不足。針對這些情況,有學者提出了先驗概率優(yōu)勢關(guān)系[5]粗糙集模型和加權(quán)先驗概率優(yōu)勢關(guān)系[6]粗糙集模型。但是,這些利用先驗信息來推測未知屬性值的粗糙集模型均只單方面考慮了屬性值之間的關(guān)系,忽視了屬性與屬性之間的關(guān)聯(lián)性,具有某種局限性。實際上在含有偏序關(guān)系的不完備決策系統(tǒng)中,條件屬性間經(jīng)常是具有某種關(guān)聯(lián)關(guān)系存在的,例如,某高中生的化學成績由于某種原因缺失(缺考或其他原因),那么應(yīng)如何判斷其化學成績所屬的可能等級,如果僅僅根據(jù)所有學生化學成績出現(xiàn)概率最大的那一等級來劃分,顯然不太合理,因為如果這名學生擅長理科,那么其理科類成績會比文科類成績更好,于是他的數(shù)學、物理等這些理科成績也是判斷其化學成績的關(guān)鍵因素。此例表明,為了更加準確地補充未知屬性值的數(shù)據(jù)信息,在處理不完備系統(tǒng)中的先驗知識時還應(yīng)該充分考慮對象本身已給出的其它屬性值[7-8]信息。
本文提出了以不同屬性之間的相互關(guān)系為基礎(chǔ)的條件先驗概率優(yōu)勢關(guān)系粗糙集模型,并對這一模型的特點和性質(zhì)進行了分析和討論。新模型與其他已有的先驗概率優(yōu)勢關(guān)系模型相比提高了分類精度和分類質(zhì)量,為在含有偏序關(guān)系的不完備偏好決策系統(tǒng)中進行規(guī)則的提取和優(yōu)化提供了一種更加合理且有用的手段。
1.1 不完備偏序關(guān)系決策系統(tǒng)
一般地,用四元組 S=(U,AT=C∪D,V,f)表示一個含有偏序關(guān)系的決策系統(tǒng),U是包含有限對象的非空集合;AT=C∪D是包含所有屬性的非空屬性集,其中條件屬性集用C表示,決策屬性集用D表示;V表示屬性值集,VC={Vq∶q∈C}與 VD={Vd∶d∈D}分別表示帶有偏序關(guān)系的條件屬性值與決策屬性值集;f∶U×AT→V表示一個信息函數(shù),即對每個a∈AT,x∈U,都有f(x,a)∈Va。若存在一個x∈U,a∈C使得f(x,a)=*(*代表缺損值),則稱S是一個含有偏序關(guān)系的不完備決策系統(tǒng)(簡稱不完備偏序關(guān)系決策系統(tǒng))。
對于上述不完備偏序關(guān)系決策系統(tǒng),可假定以下2種情況:
1)Vd不含有任何空值;
2)?x∈U,至少有一個屬性q∈C存在,使得f(x,q)≠*。
假設(shè)D=j5i0abt0b,其中U被d分成有限個決策類,Cl={Clt,t∈T},T={1,2,…,n},則?x∈U,x 屬于且只能屬于一個Clt。而且,假設(shè)這種對象間的劃分是按照一定次序,即?r,s∈T,如果 r> s,則 Clr中的每一個對象就不劣于Cls中的每一個對象,如果x∈Clr,y∈Cls,記為xDy。
同時,針對每個決策類給出向上累積集和向下累積集的定義如下:
上述定義[3]表明,如果,則 x至少屬于 Clt;如果,則 x至多屬于 Clt。
由定義1可得到如下性質(zhì)[3]:
1.2 先驗概率優(yōu)勢關(guān)系
文獻[5]在不完備偏序關(guān)系決策系統(tǒng)中引進先驗概率優(yōu)勢關(guān)系的概念,從而可利用已知統(tǒng)計信息對缺損值進行推斷。
定義2 若S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),集合A?C,x,y∈U,則A上的先驗概率優(yōu)勢關(guān)系FDOM(A)定義[5]為
式中
其中:Vq={v1,v2,…,vm}是 q 的值域是Vq中屬性q取不同屬性值的概率。如果有對象x、y滿足上述關(guān)系,亦稱“y先驗概率優(yōu)勢于x”,簡記為
顯然,在上述模型中“*”的可能取值是依據(jù)Vq中出現(xiàn)次數(shù)最多的屬性值來推斷的(最大可能準則),其忽略了其他不同屬性取值對其可能產(chǎn)生的影響,因此容易出現(xiàn)信息利用不充分使得分類結(jié)果出現(xiàn)較大誤差的現(xiàn)象。
針對此問題,下節(jié)將給出條件先驗概率的概念,條件先驗概率不僅考慮了同一屬性取值對空值“*”的影響,而且還對屬性之間的關(guān)聯(lián)性信息加以提取和利用,使得不完備偏序關(guān)系決策系統(tǒng)中對象的劃分更加精細和準確,分類質(zhì)量和分類精度也得以提升。
2.1 條件先驗概率
若在不完備系統(tǒng)中實現(xiàn)對象間的合理分類,需詳細分析系統(tǒng)中的每個屬性,特別需注重分析這些屬性間的相互聯(lián)系。
若 S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),則?x∈U,A?C,對于對象x,屬性集A可分為以下兩類:
下面給出條件先驗概率的定義。
定義 3 設(shè) S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),為屬性的值域
則屬性ai=vij的條件先驗概率定義為
條件先驗概率是指某一對象x在其確定性屬性取值已經(jīng)發(fā)生且不變的情況下,其非確定性屬性取某一值的概率。條件先驗概率考慮了屬性間的內(nèi)在影響,比較先驗概率而言可提供相對充分的統(tǒng)計信息。
2.2 條件先驗概率優(yōu)勢關(guān)系
依據(jù)條件先驗概率的定義,在不完備偏序關(guān)系決策系統(tǒng)中給出了新的條件先驗概率優(yōu)勢關(guān)系的概念如下:
定義 4 設(shè) S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),集合A?C,x,y∈U,A上的條件先驗概率優(yōu)勢關(guān)系HFDOM(A)定義為
式中
條件先驗概率優(yōu)勢關(guān)系是通過屬性間的內(nèi)在聯(lián)系來推測未知屬性值,進而對對象之間的優(yōu)劣關(guān)系進行合理而準確的劃分。由定義我們可以證明,條件先驗概率優(yōu)勢關(guān)系滿足傳遞性和自反性,但是不滿足對稱性。
定義5 設(shè)S=(U,AT=C∪D,V,f)是一個不完備偏序關(guān)系決策系統(tǒng),則對于A?C,x∈U,稱為A的條件先驗概率優(yōu)勢集;稱為A的條件先驗概率劣勢集。
某對象x的條件先驗概率優(yōu)勢集是由所有依A的條件先驗概率優(yōu)勢關(guān)系“優(yōu)于”x的對象所構(gòu)成的集合,而x的條件先驗概率劣勢集是由所有依A的條件先驗概率優(yōu)勢關(guān)系“劣于”x的對象所構(gòu)成的集合。
定理 1 設(shè) S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),在條件先驗概率優(yōu)勢關(guān)系下:
2)證明方法同 1)。
證畢。
上述定理指出了條件先驗概率優(yōu)勢集與劣勢集之間的關(guān)系。
2.3 基于條件先驗概率優(yōu)勢關(guān)系的粗糙近似
Clt為給定的某一決策類,對于Clt的向上、向下累積集,下面給出基于條件先驗概率優(yōu)勢關(guān)系的粗糙近似的定義。
定義6 設(shè)S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng)分別表示Clt的向上累積集和向下累積集,則的基于條件先驗概率優(yōu)勢關(guān)系的粗糙上、下近似集及邊界域分別為
定理2 設(shè)S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng),A?C,x∈U,則在條件先驗概率優(yōu)勢關(guān)系下有:
證明 由定理1和定義6可直接證明。
定義7 設(shè)S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng)1,2,…,n,則在條件先驗概率優(yōu)勢關(guān)系下的粗糙近似分類精度分別為
分類精度表示對某一確定的決策類,依條件先驗概率優(yōu)勢關(guān)系對對象進行分類時,可能的決策中正確決策的百分比,也是系統(tǒng)針對某一確定決策分類精度的一個度量。
定義8 設(shè)S=(U,AT=C∪D,V,f)為一個不完備偏序關(guān)系決策系統(tǒng)1,2,…,n,則在條件先驗概率優(yōu)勢關(guān)系下的粗糙近似分類質(zhì)量可被定義為
分類質(zhì)量是衡量帶有偏序關(guān)系的不完備決策系統(tǒng)中總體對象分類精度的一種方法。
表1所示為某中學學生的身體素質(zhì)測評結(jié)果,每名學生身體素質(zhì)測評標準的條件屬性集是A={a1,a2,a3,a4,a5},決策屬性集為 D=j5i0abt0b,其中,a1、a2、a3、a4、a5表示 5 種課程,d 是學生的綜合測評,a1、a2、a3、a4、a5、d 均為偏好屬性,其中,Vai={1,2,3},i=1,2,…,5,1<2<3,表示單科成績 ai所屬的等級,Vd= {1,2,3},1<2<3,表示學生綜合測評等級。條件屬性值的先驗概率分別為。決策屬性 d 把對象劃分為 3 個決策類,Cl={Cl1,Cl2,Cl3},其中
則有
表1 不完備偏序關(guān)系決策系統(tǒng)Tab.1 Incomplete partial order relation decision system
利用先驗概率優(yōu)勢關(guān)系粗糙決策模型進行分類計算,其結(jié)果如下
利用條件先驗概率優(yōu)勢關(guān)系粗糙決策模型分類計算,其結(jié)果如下
從以上計算可看出,按先驗概率優(yōu)勢關(guān)系可推斷x1優(yōu)于x2,而這與兩者的決策屬性取值正好相反,這種偏差是由于先驗概率優(yōu)勢關(guān)系忽略了條件屬性間的內(nèi)在聯(lián)系所造成的。然而,由條件先驗概率優(yōu)勢關(guān)系可推斷出x2優(yōu)于x1,這恰好與實際已發(fā)生的數(shù)據(jù)結(jié)果相符。另外,由先驗概率優(yōu)勢關(guān)系無法推斷對象x4和x11的優(yōu)劣關(guān)系,而由條件先驗概率優(yōu)勢關(guān)系可推知x11優(yōu)于x4,這也與決策屬性的取值結(jié)果相符。上述實例充分說明,條件先驗概率優(yōu)勢關(guān)系模型比先驗概率優(yōu)勢關(guān)系模型分類更加精細,減少了不確定性。同時,從分類精度和分類質(zhì)量的計算結(jié)果比較來看,也進一步說明此結(jié)論是正確的。
基于條件先驗概率優(yōu)勢關(guān)系的粗糙集模型是在分析了先驗概率優(yōu)勢關(guān)系粗糙集模型的缺點和不足后,所提出的在不完備偏序關(guān)系決策系統(tǒng)中對對象間優(yōu)劣關(guān)系進行劃分的一種新方法。新模型充分利用了不完備偏序關(guān)系決策系統(tǒng)所提供的各種先驗信息,使得數(shù)據(jù)分類更加準確和精細。在處理屬性間存在內(nèi)在關(guān)系且未知屬性值相對較少的大規(guī)模數(shù)據(jù)信息時,新模型具有明顯優(yōu)勢。理論分析和實例計算均說明,新模型克服了傳統(tǒng)先驗概率優(yōu)勢關(guān)系模型的缺點和不足,并且提供了一種更加接近于實際決策過程的粗糙決策新方法。
[1]PAWLAK Z.Rough set[J].International Journal of Computer and Information Science,1984,11:341-356.
[2] GRECO S,MATARAZZO B,SLOWINSKI R.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research,2001,129(1):1-47.
[3] 何亞群,胡壽松.不完備信息的多屬性粗糙決策分析方法[J].系統(tǒng)工程學報,2004,19(2):117-120.
[4] 駱公志,楊曉江,周德群.基于限制擴展優(yōu)勢關(guān)系的粗糙決策分析模型[J].系統(tǒng)管理學報,2009,18(4):391-396.
[5] 陶 志,卞文靜.基于先驗概率優(yōu)勢關(guān)系的粗糙決策分析模型[J].中國民航大學學報,2013,31(4):60-64.
[6] 駱公志,李 震,黃衛(wèi)東.加權(quán)先驗概率優(yōu)勢關(guān)系的粗糙決策分析模型[J].統(tǒng)計與決策,2015(20):67-70.
[7] 陶 志,劉彩平.一種改進的先驗概率粗集模型[J].中國民航大學學報,2014,32(4):48-51.
[8]TAO ZHI,HU SHUQIN,GUAN JING.Rough set model with tolerance relation based on conditional prior probability[J].Applied Mechanics and Materials,2014,687:1312-1315.
(責任編輯:楊媛媛)
Rough set model based on conditions prior probability dominance relation
TAO Zhi,HE Danfeng,PAN Liping
(College of Science,CAUC,Tianjin 300300,China)
Rough set model based on prior probability dominance relation is an important expansion of rough set theory.However,it has its own defects and shortcomings.Rough set model based on conditions prior probability dominance relation is established on the basis of attribute value data statistics of incomplete partial order relation decision system.It not only takes into account different conditions of the same attribute values,but also the correlation between different attributes,so that a variety of prior information can be fully utilized.Therefore,the classification accuracy and quality can be improved effectively.This new model is proved to be effective and practical by theoretical analysis and practical example.
rough set;incomplete partial order relation decision system;conditions prior probability dominance relation
TP18
A
1674-5590(2017)03-0059-06
2016-09-18;
2016-11-23
國家自然科學基金項目(60672178);中國民航大學科研基金項目(2010kys01)
陶志(1963—),男,遼寧沈陽人,教授,博士,研究方向為復(fù)雜系統(tǒng)建模、粗糙集理論及其應(yīng)用等.