李金武
(鄭州科技學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,河南 鄭州 450064)
知識(shí)是智能化的基礎(chǔ),同時(shí)也是軟件智能化的重要研究對(duì)象,隨著大數(shù)據(jù)與人工智能技術(shù)的發(fā)展,如何從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)概念并有效表示,顯得尤為重要.由于人類主觀判斷的不確定性,不同知識(shí)表現(xiàn)為模糊性和隨機(jī)性,導(dǎo)致知識(shí)表達(dá)的不確定性.不確定知識(shí)表達(dá)主要包括知識(shí)表達(dá)概念和知識(shí)表達(dá)方法,傳統(tǒng)的不確定知識(shí)表示及處理方法有:確定性理論、主觀貝葉斯方法、可能性理論、D-S證據(jù)理論、灰色系統(tǒng)理論、粗糙集理論、概念圖、集對(duì)分析等[1-3].
借鑒現(xiàn)有不確定知識(shí)表示方法,利用云模型的隨機(jī)性和模糊性來描述知識(shí)的不確定性[4,5].云模型在數(shù)據(jù)挖掘、自然語言處理、決策分析等領(lǐng)域得到了廣泛應(yīng)用[6-8].雖然云模型可以對(duì)不確定知識(shí)進(jìn)行描述,但是針對(duì)同一論域空間提取出的多個(gè)知識(shí)概念,用云模型表示后,若采用自然語言變量值對(duì)知識(shí)概念進(jìn)行定義,如何將語言變量值準(zhǔn)確地同云模型表示的知識(shí)概念進(jìn)行映射,此問題目前研究較少,因此提出一種基于云模型相似度的不確定知識(shí)排序方法,將云模型表示的知識(shí)概念排序后,再與語言變量值進(jìn)行對(duì)應(yīng),可以有效解決上述問題.
基于概率論和模糊數(shù)學(xué)知識(shí),李德毅院士首創(chuàng)地提出云,用自然語言描述定性概念與其定量數(shù)值之間的不確定性轉(zhuǎn)換關(guān)系.其概念如下:設(shè)U是一個(gè)論域U={X},C是論域U相聯(lián)系的語言值,表示某定性概念,對(duì)任意x∈U,x關(guān)于C的隸屬度y=u(x)∈[0,1]是一個(gè)具有穩(wěn)定傾向的隨機(jī)數(shù),(x,y)在U上的分布稱為云[9].
用期望Ex、熵En、超熵He三個(gè)數(shù)值表示云的數(shù)字特征,其中期望Ex是最能夠代表定性概念論域中心的點(diǎn),熵En是對(duì)定性概念模糊性的度量,超熵He是對(duì)云滴離散程度的度量,反映了隸屬度隨機(jī)性變化.云模型C(Ex,En,He)充分反映了定性概念的模糊性和隨機(jī)性,具有較大的客觀性.
云模型論域空間維度可以是任意的,即一維云模型C(Ex,En,He),二維云模型C(Ex,Ey,Enx,Eny,Hex,Hey)和多維云模型C(Ex,Ey,…,Enx,Eny,…,Hex,Hey,…).例如,僅考慮生理年齡定義“青年”概念,用一維云模型C(25,3,0.3)表示,如圖1所示,圖1同時(shí)描述了云模型數(shù)字特征的含義.若同時(shí)考慮生理年齡和心理年齡定義“青年”概念,用二維云模型C(25,25,3,3,0.3,0.3)表示,如圖2所示.
針對(duì)不確定知識(shí)表示,可使用語言變量進(jìn)行描述,所謂語言變量,即用自然語言中的詞或句子表示的變量.云模型描述了定量數(shù)據(jù)與定性概念的不確定性轉(zhuǎn)換關(guān)系,云模型的定性概念可通過使用語言變量來描述,該語言變量的取值可以是低、很低、不很低、高、很高、不很高等,利用云模型可以對(duì)不確定知識(shí)進(jìn)行表示.然而對(duì)于論域空間劃分的多個(gè)知識(shí),如何將語言變量與云模型表示的知識(shí)準(zhǔn)確地進(jìn)行映射,是研究的主要問題.
對(duì)于單屬性數(shù)據(jù),劃分出多個(gè)知識(shí)概念,并用一維云模型描述,定義多個(gè)語言變量值.通過比較一維云模型的期望值,可以比較容易地將一維云模型表示的知識(shí)概念同語言變量值進(jìn)行映射.
比如,按照常識(shí),普通成年人依據(jù)年齡可以定義為“非常年輕、年輕、中年、老年和晚年”5個(gè)等級(jí),以2022年中國工程院院士群體年齡為例,將院士群體劃分為5類,并用云模型表示,即C1(52.3,2.7,0.42),C2(66.0,3.4,0.78),C3(74.4,2.4,0.64),C4(78.6,2.8,0.75),C5(83.5,3.4,0.89),如圖3所示.通過云模型期望值比較,可將云模型“C1,C2,C3,C4,C5”表示的概念依次映射為“非常年輕、年輕、中年、老年和晚年”.
圖3 五等級(jí)一維云模型
然而,對(duì)于多屬性數(shù)據(jù),劃分出多個(gè)知識(shí)概念,使用多維云模型進(jìn)行描述.如何將多維云模型表示的知識(shí)概念與定義的語言變量值與之對(duì)應(yīng),若采用比較云模型期望值的方法,顯然不合理.
比如,評(píng)估主機(jī)的安全性,考慮CPU利用率和內(nèi)存利用率2種屬性,并將主機(jī)的安全性定義為“非常低、低、中、高、非常高”5個(gè)等級(jí),用云模型表示,即C1(13.41,42.32,4.34,5.56,0.27,0.58),C2(61.31,52.46,8.78,7.13,1.39,0.89),C3(40.52,30.67,5.82,6.61,0.57,0.38),C4(25.76,53.17,6.86,7.93,0.48,0.31),C5(92.47,51.39,8.50,6.72,1.18,0.82),如圖4、5所示.若比較CPU利用率期望值,云模型“C1,C2,C3,C4,C5”表示的概念依次映射為“非常高、低、中、高和非常低”.若比較內(nèi)存利用率期望值,云模型“C1,C2,C3,C4,C5”表示的概念依次映射為“中、非常高、非常低、高和低”.如何準(zhǔn)確將云模型表示的知識(shí)概念與定義的語言變量值與之對(duì)應(yīng),提出了一種基于云模型相似度的知識(shí)概念排序方法,進(jìn)而將云模型表示的知識(shí)概念映射到不同的語言變量值,該方法不僅適用于一維云模型表示的知識(shí)概念,同時(shí)還適用于多維云模型表示的知識(shí)概念.
圖4 五等級(jí)二維云模型
圖5 五等級(jí)二維云模型投影
(1)
為減少計(jì)算復(fù)雜度,考慮云模型期望曲線形狀,利用云模型期望曲線在水平和垂直兩個(gè)方向的重疊度來計(jì)算其相似度.具體步驟如下.
(2)
圖6 云滴上界和下界示意圖
圖7 云交點(diǎn)示意圖
對(duì)于(1)和(2)存在單交點(diǎn)x0的情況,若x0不在區(qū)間[Ex-3En,Ex+3En]內(nèi),u(x)=0,若x0在區(qū)間[Ex-3En,Ex+3En]內(nèi),u(x)=u(x0).
對(duì)于(3)存在雙交點(diǎn)x0和x1的情況,若x0和x1都不在區(qū)間[Ex-3En,Ex+3En]內(nèi),u(x)=0,若x0和x1其中一個(gè)在區(qū)間[Ex-3En,Ex+3En]內(nèi),假設(shè)x0在區(qū)間內(nèi),則u(x)=u(x0),若x0和x1都在區(qū)間[Ex-3En,Ex+3En]內(nèi),則u(x)=max{u(x0),u(x1)}.
TOM=OMx×OMy,TOM∈[0,1].
(3)
使用云模型對(duì)論域空間中的不同知識(shí)進(jìn)行劃分表示,并計(jì)算云模型彼此之間的相似度,云模型之間相似度越小,說明其對(duì)應(yīng)的知識(shí)概念描述越相近.假設(shè)某論域空間劃分出k個(gè)云模型概念{C1,C2,C3,…,Ck},即對(duì)應(yīng)k個(gè)知識(shí)概念.若云模型概念Ci和Cj相似度TOM∈(0,1),則具有鄰居關(guān)系,記為
(1)某個(gè)云模型概念Ci,由于云模型“亦此亦彼”的性質(zhì),至少存在一個(gè)相鄰云模型.將其相鄰的云模型個(gè)數(shù)設(shè)為m,若1 (2)由于概念的軟劃分特性,邊界概念(最小或最大概念)至少存在一個(gè)相鄰云對(duì),非邊界概念至少存在兩個(gè)相鄰云對(duì). 基于云模型的知識(shí)概念排序,以相似度為主要依據(jù),可進(jìn)行線性排序,具體步驟如下. 步驟1:初始化邊界概念.若按升序排列,需確定最小概念,選取期望值最小的作為最小概念CInf. 步驟2:循環(huán)遍歷概念CInf的相鄰云對(duì),找尋其強(qiáng)鄰云對(duì),作為概念CInf的后序概念CInf-f. 步驟3:刪除概念CInf,將概念CInf-f重新作為最小概念CInf,重復(fù)執(zhí)行步驟2,直至所有概念都被遍歷.若遍歷過程中,出現(xiàn)中斷,即概念CInf不存在強(qiáng)鄰云對(duì),需返回步驟1,重新初始化邊界概念.最終將遍歷次序作為概念排序結(jié)果輸出. 實(shí)驗(yàn)數(shù)據(jù)采用交通卡口某天實(shí)際的交通流量,從0:00到23:55每隔5分鐘,采集一次車流量信息,形成288條車流量數(shù)據(jù)信息,車流量數(shù)據(jù)如圖8所示.為了更好描述道路車流狀況,以原始車流量數(shù)據(jù)信息為基礎(chǔ),在時(shí)間維度上考慮車流量的增速,對(duì)數(shù)據(jù)集進(jìn)行處理,定義第一時(shí)刻車流量增速為零,從第二時(shí)刻開始,車流量增速為當(dāng)前時(shí)刻車流量與前一時(shí)刻車流量差值.數(shù)據(jù)集轉(zhuǎn)換為二維屬性,以便更好地驗(yàn)證所提出不確定知識(shí)排序方法. 圖8 車流量數(shù)據(jù) 針對(duì)轉(zhuǎn)換后的數(shù)據(jù)集,數(shù)據(jù)集包含當(dāng)前車流量和車流量增速兩個(gè)屬性,利用高斯混合模型云變換算法[14-16],對(duì)數(shù)據(jù)集知識(shí)概念進(jìn)行提取,并對(duì)知識(shí)概念云模型表示,如表1所示,該數(shù)據(jù)集劃分五個(gè)知識(shí)概念.利用云模型概念相似度度量方法,將提取到的云模型概念投影到不同的一維平面,計(jì)算各維度方向一維云模型相似度,最后聯(lián)合計(jì)算給出整個(gè)知識(shí)概念云相似度,如表2所示. 表1 云模型概念 表2 云模型概念相似度 由云模型相似度可知,C1存在2個(gè)相鄰云對(duì), 圖9 概念云鄰居關(guān)系圖 依據(jù)概念云模型相似度,對(duì)概念進(jìn)行線性排序.首先確定概念云C2為邊界最小概念,遍歷C2的相鄰云對(duì),將強(qiáng)鄰云對(duì)對(duì)應(yīng)的概念云C5作為后序概念.然后刪除C2,遍歷C5的后續(xù)概念,循環(huán)遍歷,直至所有概念都被遍歷.最終將云變換得出的5個(gè)概念云進(jìn)行升序排列,即C2,C5,C4,C3,C1.概念云C2和C1為邊界概念,概念云C2描述的道路車流狀況最好,不宜堵車,概念云C1描述的道路車流狀況最差,容易造成堵車.在此定義5個(gè)定性語言變量“好,較好,中等,較差,差”,來描述道路車流狀況,可將排序后的知識(shí)概念“C2,C5,C4,C3,C1”,映射為定性語言變量“好,較好,中等,較差,差”. 云模型描述了定量數(shù)據(jù)和定性概念的不確定性轉(zhuǎn)換關(guān)系,利用云模型對(duì)不確定性知識(shí)進(jìn)行表示,可以對(duì)任意維度數(shù)據(jù)進(jìn)行處理.針對(duì)云模型表示的知識(shí)概念,當(dāng)使用語言變量值進(jìn)行定義時(shí),為了準(zhǔn)確將知識(shí)概念同語言變量值進(jìn)行對(duì)應(yīng),提出了一種基于云模型相似度的知識(shí)概念排序方法,綜合考慮云模型期望曲線在各維度方向上的重疊度,給出云模型相似度的計(jì)算方法,同時(shí)基于云模型相似度,確定知識(shí)概念相鄰關(guān)系,構(gòu)造知識(shí)概念圖,提出一種知識(shí)概念排序方法,能夠?qū)⒅R(shí)概念映射到合適的語言變量值,該方法在處理多維云模型表示的知識(shí)概念上表現(xiàn)較好.但是通過知識(shí)概念圖進(jìn)行排序時(shí),如何更好地判斷第一個(gè)知識(shí)概念,是下一步研究的關(guān)鍵問題.3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集描述
3.2 概念排序
4 結(jié)語