陳鵬崗,馮曉毅
(1.西安交通大學(xué)第二附屬醫(yī)院 信息網(wǎng)絡(luò)部,陜西 西安 710004;2.西北工業(yè)大學(xué) 電子信息學(xué)院,陜西 西安 710072)
Vague集[1]和軟集[2]都是處理不確定性理論的基本數(shù)學(xué)模型。Vague軟集是[3]將Vague集和軟集相融合,基于各自數(shù)學(xué)特征提出的一種新的擴(kuò)展理論模型。Vague軟集是數(shù)據(jù)挖掘領(lǐng)域中一種處理不確定性問(wèn)題的新型數(shù)學(xué)工具,已被成功應(yīng)用于模式識(shí)別、模糊決策、評(píng)估評(píng)價(jià)、輿情分析等諸多研究領(lǐng)域[4-11]。實(shí)踐證明,任何單一的理論模型都很難單獨(dú)完整描述并解決現(xiàn)實(shí)問(wèn)題,因此探討各類Vague軟集的擴(kuò)展模型及其應(yīng)用問(wèn)題,有著較強(qiáng)的現(xiàn)實(shí)意義和研究?jī)r(jià)值。近年來(lái),學(xué)者研究了Vague軟集與軟專家集[12]融合以及與覆蓋粗糙Vague集[13]融合的問(wèn)題,并提出了一系列擴(kuò)展模型。文獻(xiàn)[14]將Vague軟集和軟專家集兩種理論融合擴(kuò)展,首次提出了Vague軟專家集的概念,為研究不確定性問(wèn)題奠定了新的理論基礎(chǔ)。文獻(xiàn)[15]進(jìn)一步拓展了Vague軟專家集的定義,提出了廣義Vague軟專家集的概念,并討論了相關(guān)性質(zhì)和基本關(guān)系問(wèn)題。文獻(xiàn)[16]介紹了廣義Vague軟專家集的映射并對(duì)其運(yùn)算進(jìn)行了研究。文獻(xiàn)[17]將中性軟專家集與中性Vague集理論相融合,提出了新的中性Vague軟專家集數(shù)學(xué)模型,研究了基本操作和一些相關(guān)性質(zhì),并將此模型應(yīng)用到一個(gè)決策問(wèn)題中來(lái)說(shuō)明其有效性。文獻(xiàn)[18]將區(qū)間值Vague軟集的概念進(jìn)行推廣,提出了可能性區(qū)間值Vague軟專家集的概念,并研究了該模型的相關(guān)代數(shù)性質(zhì)和相似性度量以及實(shí)例。文獻(xiàn)[19]基于復(fù)雜Vague軟專家集方法研究了工程質(zhì)量可靠性評(píng)價(jià)問(wèn)題,為Vague軟專家集模型的應(yīng)用問(wèn)題提供了思路。文獻(xiàn)[20]將覆蓋粗糙Vague集和Vague 軟集進(jìn)行融合,提出了一種新的處理不確定性問(wèn)題的數(shù)學(xué)模型,即覆蓋粗糙Vague 軟集,并研究了相關(guān)性質(zhì)及在疾病診斷問(wèn)題中的應(yīng)用。本文在上述研究成果的基礎(chǔ)上,分析了現(xiàn)有模型在疾病診斷等決策問(wèn)題中的局限性,進(jìn)一步將覆蓋粗糙Vague集與Vague軟專家集理論進(jìn)行融合,提出了新的覆蓋粗糙Vague 軟專家集數(shù)學(xué)模型,并研究了該模型的相關(guān)性質(zhì)和關(guān)系運(yùn)算問(wèn)題。最后,本文提出了一種基于覆蓋粗糙Vague 軟專家集的動(dòng)物疾病診斷算法。
Vague集[1]理論如下:
定義1設(shè)U是一個(gè)論域,對(duì)于U的任意一個(gè)元素x,U中的一個(gè)Vague集A由真隸屬度函數(shù)tA和假隸屬度函數(shù)fA所描述,如下所示。
(1)
滿足0≤tA+fA≤1,其中tA(xi)是支持x∈A的證據(jù)的隸屬度下界,fA(xi)是反對(duì)x∈A的證據(jù)的隸屬度下界。稱πA(xi)=1-tA(xi)-fA(xi)為x對(duì)于Vague集A的不確定度(未知度),是x相對(duì)于A的未知信息的一種度量。顯然0≤πA(xi)≤1,πA(xi)值越大,說(shuō)明x對(duì)于Vague集A的未知信息越多。
文獻(xiàn)[2]通過(guò)引入?yún)?shù)化思想提出了軟集理論:
定義2設(shè)U是一個(gè)論域,P(U)是U的冪集,E是一個(gè)參數(shù)集,A?E,且F:A→P(U)是一個(gè)映射,稱(F,A)為U上的一個(gè)軟集。
文獻(xiàn)[3]首次將Vague集與軟集理論進(jìn)行融合,提出了Vague軟集理論:
定義3設(shè)E是一個(gè)參數(shù)集,A?E,且F:A→P(U)是一個(gè)映射,即?e∈A,F(xiàn)(e)為U上的一個(gè)Vague集,稱(F,A)為U上的一個(gè)Vague軟集。
文獻(xiàn)[12]提出了軟專家集的定義:
定義4設(shè)U是一個(gè)論域,E是一個(gè)參數(shù)集,X是一個(gè)專家集,O是一個(gè)意見(jiàn)集,設(shè)Z=E×X×O,A?Z,且F:A→P(U)是一個(gè)映射,P(U)表示U上所有子集的集合(冪集),則稱(F,A)為U上的一個(gè)軟專家集。
文獻(xiàn)[13]將覆蓋粗糙集與Vague集模型進(jìn)行融合,提出了覆蓋粗糙Vague集模型:
(2)
(3)
其中,Md(x)為x的最小描述。有
Md(x)=
{K∈C|x∈K∧(?S∈C∧x∈S∧S?K?K=S)}
(4)
∩{K|K∈Md(x)}稱為x的近鄰域,記為CN(x)。
文獻(xiàn)[14]提出了Vague軟專家集模型:
定義6設(shè)U是一個(gè)論域,E是一個(gè)參數(shù)集,X是一個(gè)專家集,O={1=同意,0=不同意}是一個(gè)意見(jiàn)集,設(shè)Z=E×X×O,A?Z,且F:A→VU是一個(gè)映射,即VU表示U上所有Vague子集的集合,稱(F,A)為U上的一個(gè)Vague軟專家集。
文獻(xiàn)[20]進(jìn)一步將覆蓋粗糙Vague集與Vague軟集模型進(jìn)行融合,提出了覆蓋粗糙Vague軟集模型:
(5)
(6)
研究發(fā)現(xiàn),動(dòng)物疾病的診斷過(guò)程是一個(gè)將各種動(dòng)物疾病數(shù)據(jù)資料經(jīng)過(guò)分析評(píng)價(jià)后,對(duì)所患疾病提出一種診斷結(jié)果符合邏輯思維的復(fù)雜過(guò)程。如果這種邏輯決策過(guò)程符合動(dòng)物疾病診斷的客觀實(shí)際,則這種診斷就是正確的;若不符合,則診斷結(jié)果就會(huì)出現(xiàn)誤差。在研究基于數(shù)據(jù)挖掘技術(shù)的動(dòng)物疾病診斷算法時(shí),由于動(dòng)物病情變化具有復(fù)雜性且獸醫(yī)專家認(rèn)識(shí)水平有局限性,故診斷數(shù)據(jù)模型的選擇至關(guān)重要。診斷模型的選擇越符合客觀實(shí)際的診斷過(guò)程,則診斷的準(zhǔn)確率也更高。
但是,在將上述幾種模型應(yīng)用于動(dòng)物疾病實(shí)際診斷問(wèn)題時(shí),文獻(xiàn)[13]提出的覆蓋粗糙Vague集模型僅部分考慮了覆蓋粗糙集的一般性和Vague集的“支持”、“反對(duì)”、“棄權(quán)”3個(gè)方面的決策因素,沒(méi)有考慮疾病診斷對(duì)象本身的參數(shù)特征,因此有一定的局限性。文獻(xiàn)[14]提出的Vague軟專家集模型沒(méi)有考慮基于覆蓋粗糙集對(duì)病例數(shù)據(jù)進(jìn)行隨機(jī)劃分時(shí)的一般性。文獻(xiàn)[20]提出的覆蓋粗糙Vague軟集模型雖然考慮了覆蓋粗糙集的一般性和Vague集的“支持”、“反對(duì)”、“棄權(quán)”3個(gè)方面的決策因素,也兼顧了診斷對(duì)象本身的參數(shù)特征,但是該模型沒(méi)有充分考慮專家意見(jiàn)集,故不符合動(dòng)物疾病診斷的客觀實(shí)際需求。在實(shí)際診斷時(shí),經(jīng)常需要不同獸醫(yī)專家的會(huì)診,因此專家意見(jiàn)集的影響因素也同樣重要。
本文針對(duì)基于Vague軟集擴(kuò)展模型的動(dòng)物疾病輔助診斷過(guò)程需要考慮的決策因素進(jìn)行了詳細(xì)說(shuō)明,如表1所示。
表1 動(dòng)物疾病診斷決策因素分析
由表1可以看出,將不同數(shù)學(xué)模型應(yīng)用于疾病診斷過(guò)程時(shí),不同的診斷步驟涉及到的決策影響因素是不一樣的。覆蓋粗糙集、Vague集、軟集和軟專家集在表征疾病診斷對(duì)象和診斷過(guò)程中發(fā)揮的影響因素缺一不可,必須全面綜合考慮各自的數(shù)學(xué)特征。因此,有必要進(jìn)一步將覆蓋粗糙集、Vague集、軟專家集3種理論模型進(jìn)行融合,提出新的更符合客觀實(shí)際的Vague軟集融合理論模型,以提高疾病診斷的準(zhǔn)確率。
進(jìn)一步將覆蓋粗糙Vague集和Vague軟集、軟專家集3種模型進(jìn)行融合,定義一種新的覆蓋粗糙Vague軟專家集理論模型。
(7)
(8)
總結(jié)Vague軟集、軟專家集、Vague軟專家集、覆蓋粗糙集、覆蓋粗糙Vague集、覆蓋粗糙Vague軟集和本文提出的覆蓋粗糙Vague軟專家集的邏輯關(guān)系,如圖1所示。
圖1 幾種數(shù)學(xué)模型的邏輯關(guān)系圖Figure 1. Logical relation diagram of several mathematical models
從圖1可以看出,Vague軟集的數(shù)學(xué)本質(zhì)是具有Vague集區(qū)間特征的軟集。Vague軟專家集的數(shù)學(xué)本質(zhì)是具有Vague集區(qū)間特征的軟專家集。覆蓋粗糙Vague集的數(shù)學(xué)本質(zhì)是上下近似算子均為Vague集的覆蓋粗糙集。覆蓋粗糙Vague軟集的數(shù)學(xué)本質(zhì)是上下近似算子均為Vague軟集的覆蓋粗糙集。覆蓋粗糙Vague軟專家集的數(shù)學(xué)本質(zhì)是上下近似算子均為Vague軟專家集的覆蓋粗糙集。
覆蓋粗糙Vague軟專家集具有以下重要性質(zhì)。
(1)
(9)
(2)
(10)
(3)可加性1為
(11)
(4)可加性2為
(12)
(5)單調(diào)性
(13)
(6)
(14)
(7)冪等律
(15)
在動(dòng)物疾病的診斷過(guò)程中,診斷專家需要根據(jù)待診斷的動(dòng)物病例信息進(jìn)行判斷,從中選出最符合疾病特征的病例做出決策。上述問(wèn)題的決策過(guò)程如果完全憑借診斷專家的經(jīng)驗(yàn)顯然是不現(xiàn)實(shí)的,應(yīng)基于新的覆蓋粗糙Vague軟專家集數(shù)學(xué)模型對(duì)該問(wèn)題進(jìn)行討論。
分析發(fā)現(xiàn),養(yǎng)殖場(chǎng)送檢的動(dòng)物病例的患病水平對(duì)于診斷專家進(jìn)行決策十分重要,但是送檢者一般都不愿意公開(kāi)所養(yǎng)殖動(dòng)物的真實(shí)患病水平,以免影響?zhàn)B殖場(chǎng)的經(jīng)濟(jì)效益和社會(huì)效益。為解決上述問(wèn)題,需要根據(jù)送檢者送來(lái)的其他病例信息來(lái)預(yù)測(cè)送檢病例的患病水平,以供診斷專家進(jìn)行診斷決策,并以發(fā)病程度作為決策因素進(jìn)行預(yù)估。
算法過(guò)程描述如下:
輸入:專家給出的待診斷對(duì)象病例x的發(fā)病程度評(píng)價(jià)集,待診斷對(duì)象發(fā)病程度數(shù)據(jù)集(以3個(gè)Vague軟專家集high、middle、low表示)。
輸出:待診斷對(duì)象病例x的患病水平隸屬度函數(shù)值。
步驟1生成覆蓋近似空間C。根據(jù)待檢測(cè)的疾病發(fā)病程度生成論域U上的一個(gè)覆蓋,C={重,一般,輕};
SF(ei)(xj)=|tF(ei)(xj)-fF(ei)(xj)|
(16)
步驟6 建立患病水平隸屬度函數(shù)值和發(fā)病程度之間的關(guān)系表格;
步驟7 建立患病水平隸屬度函數(shù)值和病例之間的決策表格。
以非洲豬瘟的疾病診斷為例,對(duì)算法過(guò)程進(jìn)行詳細(xì)描述。
設(shè)某獸醫(yī)站要對(duì)豬場(chǎng)提供的一組病豬病例進(jìn)行非洲豬瘟疾病的診斷,論域(U,C)為豬場(chǎng)提供的5組豬病例xi(i=1,…,5),3個(gè)專家p、q、r分別對(duì)5組病豬的發(fā)病程度評(píng)價(jià)如下:
專家p
(17)
專家q
(18)
專家r
(19)
根據(jù)待檢測(cè)的病豬發(fā)病程度,能夠得到論域U上的一個(gè)覆蓋,C={重,一般,輕}。
其中
(20)
即
C={{x1,x2,x3},{x2,x3,x4,x5},{x3,x4,x5}}
(21)
由于非洲豬瘟疾病病例數(shù)據(jù)主要包括發(fā)熱、呼吸困難、臟器出血等3個(gè)病理特征,用一個(gè)參數(shù)集E={e1,e2,e3}來(lái)表征,則可以用論域U上的3個(gè)Vague軟專家集high、middle、low表征待檢測(cè)的病豬發(fā)病程度
(22)
(23)
(24)
計(jì)算上下近似為
(25)
(26)
同理可以計(jì)算Vague軟專家集middle、low在覆蓋空間C上的上下近似,并基于隸屬度函數(shù)建立患病水平和發(fā)病程度之間的關(guān)系。
為決策方便,基于Vague軟集的核函數(shù)作為記分函數(shù),即式(16),將3個(gè)Vague軟專家集high、middle、low在覆蓋空間C上的上下近似轉(zhuǎn)化為模糊軟專家集。
分別計(jì)算發(fā)病程度{重}隸屬于high、middle和low的隸屬度函數(shù)值,步驟如下:
步驟1計(jì)算發(fā)病程度{重}隸屬于high的最小、最大隸屬度分別為
(27)
當(dāng)送檢病豬的發(fā)病程度為重時(shí),則可推測(cè)病豬患病水平為high的程度為[0.07,0.11]之間;
步驟2計(jì)算發(fā)病程度{重}隸屬于middle的最小、最大隸屬度分別為
(28)
當(dāng)送檢病豬的發(fā)病程度為重時(shí),則可推測(cè)病豬患病水平為middle的程度為[0.03,0.14]之間;
步驟3計(jì)算發(fā)病程度{重}隸屬于low的最小、最大隸屬度分別為
(29)
當(dāng)送檢病豬的發(fā)病程度為重時(shí),則可推測(cè)病豬患病水平為low的程度為[0.08,0.1]之間。同理,可以計(jì)算出發(fā)病程度{一般}隸屬于high、middle和low的隸屬度和發(fā)病程度{輕}隸屬于high、middle和low的隸屬度。
在此基礎(chǔ)上,建立患病水平和發(fā)病程度之間的關(guān)系表格,如表2所示。
表2 關(guān)系表格
由表2可以預(yù)測(cè)出5組病例xi(i=1,…,5)的患病水平隸屬度值,建立決策表格,如表3所示。
表3 決策表格
由表3可以看出,若已知專家對(duì)發(fā)病程度的評(píng)價(jià),則可以依據(jù)上述決策算法預(yù)測(cè)出該病例的發(fā)病水平,對(duì)非洲豬瘟疾病的診斷提供一定的輔助決策支持。
本文中,CPU型號(hào)為Intel Xeon7420四核64位處理器,頻率為2.13 GHz,內(nèi)存大小為64 GB,硬盤(pán)大小為6 TB,操作系統(tǒng)為Windows7。編程語(yǔ)言選擇Visual Basic,數(shù)據(jù)庫(kù)軟件選擇Microsoft Office Access。
數(shù)據(jù)集選取某獸醫(yī)站動(dòng)物疾病病例數(shù)據(jù)庫(kù),以疾病的診斷準(zhǔn)確率作為算法的評(píng)價(jià)標(biāo)準(zhǔn)。
在上述數(shù)據(jù)集上進(jìn)行有效性驗(yàn)證。結(jié)果表明,本文提出的基于覆蓋粗糙Vague軟專家集的動(dòng)物疾病診斷算法對(duì)疾病診斷的準(zhǔn)確率達(dá)90%以上。算法測(cè)試結(jié)果如表4和圖2所示。
圖2 測(cè)試結(jié)果Figure 2. Test results
選取兩種基于Vague軟集擴(kuò)展模型的動(dòng)物疾病診斷算法,即ADADA_CRVS算法(基于覆蓋粗糙Vague集的動(dòng)物疾病診斷算法)和ADADA_CRVSS算法(基于覆蓋粗糙Vague軟集的動(dòng)物疾病診斷算法)與本文提出的ADADA_CRVSES算法(基于覆蓋粗糙Vague軟專家集的動(dòng)物疾病診斷算法)進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表5所示。
表5 測(cè)試結(jié)果對(duì)比
由表5可以看出,相較于ADADA_CRVS算法和ADADA_CRVSS算法,ADADA_CRVSES算法在疾病診斷的準(zhǔn)確率上有了明顯的提升。這是因?yàn)楦采w粗糙Vague軟專家集作為模糊數(shù)學(xué)中一個(gè)新的理論模型,其相比覆蓋粗糙Vague集和覆蓋粗糙Vague軟集而言考慮的決策因素更全面,既充分考慮了覆蓋粗糙集的一般性,也考慮了Vague集“支持”、“反對(duì)”、“棄權(quán)”3個(gè)方面的屬性因素和軟集的參數(shù)特征,同時(shí)也兼顧了專家意見(jiàn)集的影響因素。其表達(dá)模糊性的能力更強(qiáng)更具體,更適合描述現(xiàn)實(shí)生活中的決策對(duì)象特征。
本文從Vague軟集和軟專家集的融合理論及應(yīng)用問(wèn)題出發(fā),在分析已有Vague軟集擴(kuò)展模型的基礎(chǔ)上,定義了一種全新的覆蓋粗糙Vague軟專家集數(shù)學(xué)模型,并探討了該模型的數(shù)學(xué)性質(zhì)和基本運(yùn)算,同時(shí)給出了一種基于覆蓋粗糙Vague軟專家集的疾病診斷算法。動(dòng)物疾病診斷中的應(yīng)用實(shí)例表明,該算法是實(shí)用的和有效的。覆蓋粗糙Vague軟專家集數(shù)學(xué)模型在疾病診斷等模糊決策問(wèn)題中具有較好的應(yīng)用前景。