曹儀銘,崔 慧,車 璐,鄒 麗
形式概念分析(FormalConceptAnalysis,F(xiàn)CA)理論是由德國科學家Wille[1]在1982年提出的,主要用于機器學習、模式識別、專家系統(tǒng)、計算機網絡、數(shù)據分析,決策分析等領域[2-5].FCA的核心是形式概念和概念格,概念格的每一個節(jié)點是一個形式概念,概念格結構模型是形式概念分析中的核心數(shù)據結構,它本質上描述了對象和屬性(特征)之間的關系.由于在現(xiàn)實生活中我們接觸的大部分情況是不確定的,王國胤[6]闡述了Rough集理論的模型、算法以及基于Rough集理論的知識獲取技術,Yao[7]和 Yao and Chen[8]研究了粗糙集理論框架下的概念格理論,張文修等[9]進一步研究了粗糙集與信息系統(tǒng)的屬性約簡和規(guī)則提取問題,胡明涵等[10]介紹了模糊概念分析理論,建立模糊背景下的模糊概念格,李金海等[11]首次在決策形式上進行規(guī)則提取,楊麗等[12]在有限鏈所形成的格蘊含代數(shù)上,建立能夠直接用于處理自然語言的語言真值概念格模型.
在實際生活中,由于客觀事物的復雜性及人類思維的模糊性,使人們更習慣于用模糊語言值進行表達,Xu[13]提出了模糊語言集和模糊語言集中任意兩個語言值之間的距離測度,將語言信息引入到模糊多屬性決策問題中,利用語言值處理模糊決策問題.
基于上述工作,為了處理語言模糊決策形式背景下的問題,盡量減少信息損失,貼近人類思維過程,實現(xiàn)決策過程的智能化,提出基于模糊語言概念格的相似度推理方法.
定義1[14]設 (U,A,S)是一個模糊語言形式背景,其中U={x1,x2,…,xn}為對象集,稱每個為一個對象;非空集合為屬性集,稱每個aj(j≤m)為一個屬性;S為U到A上的二元關系,S?U?A.其中,S={si|i=0,1,2,…,g}為語言集,g為偶數(shù).對于模糊語言形式背景(U,A,S),在對象集X?U和屬性集B?SA上定義運算:
其中,X?表示對象滿足的每個屬性對應的語言值交集的集合;B?表示每個屬性對應的語言值所滿足的對象交集的集合.
定義 2[14]設 (U,A,S)是一個模糊語言形式背景,如果一個二元組(X,B)滿足X?=B且則稱為一個模糊語言概念.其中,X為概念的外延,B為概念的內涵.用表示模糊語言形式背景(U,A,S)下的全體概念,并稱FLL(U,A,S)為模糊語言概念格.
定義3[14]設FLL(U,A,S)與FLL(U,C,K)是2個模糊語言概念格,若對于任意概念(Y,D)∈總有且有X=Y,則稱細于FLL(U,C,K),記作
定義4[14]設 (U,A,S,C,K)是一個模糊語言決策形式背景若對于Y≠?且Y≠U,有且X=Y,則稱B→C是一個規(guī)則,記為if B,then C,將所有規(guī)則記入規(guī)則集中.
(1)0<sim(B,G)≤1;
(2)sim(B,G)=1當且僅當B=G;
(3)sim(B,G)=sim(G,B);
(4)設R=(sr1,sr2,…,srn)為任意一個模糊語言集,B?G?R,則
證明(1)對任意一個ik、jk(k=1,…,n),有
(3)顯然得證.
(4)因為B?G?R,則ik≤jk≤rk(k=
綜上所述,定理1成立.
定義6設(U,A,S)是一個模糊語言形式背
其中X=U,
是權重
給定一個模
則模糊語言形式
背景下的模糊語言集之間的加權相似度為
定 理2設B=(si1,si2,…,sin),G=
是權重向量,其中ωk∈[0 ,1]
則模糊語言形式背景下的模糊語言集之間的加權相似度simω(B,G)滿足如下性質:
(1)0<simw(B,G)≤1;
(2)simw(B,G)=1當且僅當B=G;
(3)simw(B,G)=simw(G,B);
為任意一個模糊
證明 證明過程同定理1.
注:當權重向量中的每個元素平均分配時,
時,加權相似度退化為相
似度,即相似度是加權相似度的一種特殊情況.
在模糊語言決策形式背景下,進行模糊語言推理.具體步驟為:
Step1:在模糊語言形式背景(U,A,S)上生成所有概念(X,B),構造模糊語言概念格FLL(U,A,S);
Step2:在模糊語言形式背景(U,C,K)上生成所有概念(Y,D),構造模糊語言概念格
設(U,A,S,C,K)是模糊語言決策形式背景,U={u1,u2,u3,u4}表示患者集,A={a,b,表示癥狀集,C={f,g,h,j}表示疾病集.病癥A的具體意義如下:a為發(fā)熱,b為頭痛,c為胃痛,d為咳嗽,e為胸痛;疾病集C的具體意義如下:f為病毒性發(fā)熱,g為傷寒,h為胃病,j為胸肺病.語言集
S={s0=極少,s1=很少,s2=偶爾,s3=很多,s4= 極多} 表示患者具有某個癥狀的頻率,語言集K={d0=極小,d1=很小,d2=中等,d3=很大,表示患者患有某種病癥的可能性.將四個患者的病例進行數(shù)據分析,得到語言直覺模糊決策形式背景如表1所示.
表1 模糊語言決策形式背景(U ,A,S,C,K)
Step 1:由表1可得在(U,A,S)形式背景下的概念如下:
構造的模糊語言概念格如圖1所示.
圖1 模糊語言概念格FLL(U ,A,S)
Step 2:由表1可得在(U,C,K)形式背景下的概念如下:
構造的模糊語言概念格FLL(U,C,K)如圖2所示.
圖2 模糊語言概念格FLL(U ,C,K)
Step 3:由圖1和圖2可知,F(xiàn)LL(U,A,S)≤FLL(U,D,P),可得到規(guī)則集:
則
綜上可知,G與規(guī)則前件B7的加權相似度最大,可得到相應規(guī)則即該患者患有病毒性發(fā)熱的可能性為d3.同理,給定傷寒對應的權重w2={0 .3,0.4,0.1,0.1,0.1},胃病對應的權重w3={0.1,0.2,0 .5,0.1,0.1},胸肺病對應的權重經計算分別為最大 相似度,因此取閾值為d2,該患者患有病毒性發(fā)熱和傷寒的可能性較大,應該引起注意.
上述實例可以看出,其結果與實際生活中的分析結果一致,說明本算法是有效的和實用的.由于大多數(shù)患者的病癥不在規(guī)則集中,本文提出的方法能夠對規(guī)則集外的模糊語言集進行推理,推理結果更加全面.
由于現(xiàn)實生活中的不確定性,且在疾病診斷專家系統(tǒng)中人們習慣用語言值表達.本文在模糊語言概念格規(guī)則提取的基礎上,提出模糊語言概念格相似度推理方法,從而診斷出患者患有某種疾病的可能性.本文所提出的決策方法可操作性強,適合在實際中應用.下一步考慮在權重未知的情況下,在直覺模糊語言概念格上進行多屬性決策問題.