龔艷冰,徐緒堪,劉高峰
(河海大學(xué)a.商學(xué)院;b.統(tǒng)計與數(shù)據(jù)科學(xué)研究所;c.常州市工業(yè)大數(shù)據(jù)挖掘與知識管理重點實驗室,江蘇 常州 213022)
自然語言是人類思維的基本工具,語言值是自然語言中的基本單元,是人類思維的基本細胞。在決策的過程中,由于客觀事物的復(fù)雜性、人類思維的模糊性和決策環(huán)境的不確定性等因素影響,使得決策者往往用語言變量來表示判斷信息。比如,決策者在考慮供應(yīng)商的選擇、企業(yè)技術(shù)協(xié)同創(chuàng)新能力以及人才的選拔等問題時,往往不容易給出確切的定量評價信息,決策者在對某一對象的性能進行評價時,常常采用“很好”“好”“一般”“差”和“很差”等語言變量表達決策信息,這也符合人們的思維習(xí)慣[1]。因此,語言變量已經(jīng)成為一種更加直觀、方便的表示不確定信息的方法,如何科學(xué)地表達和處理不確定語言變量,充分挖掘語言決策信息中的不確定關(guān)聯(lián)信息,如何構(gòu)建科學(xué)合理的多屬性決策方法實現(xiàn)不確定信息的有效輸出,在不確定語言型多屬性決策領(lǐng)域具有重要的意義。目前,已有一些處理不確定語言變量的理論和方法,例如采用模糊語言術(shù)語集、區(qū)間語言術(shù)語集、二元語義法等,但是這些方法在處理不確定語言變量時均存在一些不足,如不能夠同時處理語言變量中的模糊和隨機不確定性等[2-7]。李德毅和杜鹢在概率論和模糊數(shù)學(xué)的基礎(chǔ)上提出了云模型理論,通過期望、熵和超熵三個數(shù)字特征構(gòu)造二階的正態(tài)分布實現(xiàn)了定性概念與定量表示之間的雙向認知轉(zhuǎn)換[8]。近年來,云模型已經(jīng)開始廣泛應(yīng)用于不確定語言型多屬性決策問題中,與其他方法相比,云模型不僅能夠有效刻畫語言變量的模糊性和隨機關(guān)聯(lián)性,而且能夠更好地克服定性與定量轉(zhuǎn)換過程中的信息損失問題[9-16]。
在基于云模型的語言型多屬性決策過程中,需要對正態(tài)云表示的決策方案進行量化比較或排序,這就涉及到不同云模型之間的距離測度。云模型距離度量在語言型多屬性決策中扮演著很重要的角色,好的距離度量方法可以很大程度上提高其決策的科學(xué)性和合理性。目前,學(xué)者們對正態(tài)云的距離度量方法已經(jīng)開展了一系列研究,例如,王堅強等提出正態(tài)云的Hamming距離來定義不同正態(tài)云之間的相對距離,Hamming距離是將正態(tài)云的熵和超熵看成期望的權(quán)重系數(shù),容易削弱熵和超熵的作用,其計算得到的距離整體偏小,需要在特定的條件下使用[10]。王新生等提出正態(tài)云的Euclidean距離來定義不同正態(tài)云之間的相對距離,Euclidean距離將期望、熵和超熵同等對待,又過于強調(diào)超熵的作用,當三個數(shù)字特征相差較大時,其計算得到的距離整體又偏大[17]。
本文從云模型的幾何特征出發(fā),充分考慮正態(tài)云的形狀和位置,以正態(tài)云期望曲線和含熵期望曲線的期望和方差距離為切入點,給出一種正態(tài)云期望和方差的Manhattan距離。在此基礎(chǔ)上,采用云模型將決策者對備選方案的語言評價值進行云量化;采用正態(tài)云不確定度最小化思想確定屬性權(quán)重,并利用CWAA算子合成得到方案綜合云;利用基于云Manhattan距離的TOPSIS方法從正態(tài)云距離度量的角度考查候選方案與正負理想方案之間的相似程度,提出基于正態(tài)云期望和方差距離的語言型多屬性決策方法。
定義1[8]:設(shè)C(Ex,En,He)是定量論域U上的定性概念,且x(x∈U)是定性概念C的一次隨機實現(xiàn),服從高斯分布x~N(Ex,En′2);其中En′又是服從以En為期望,He2為方差的高斯分布En′~N(En,He2)的一次隨機實現(xiàn),且x對定性概念C的確定度滿足
(1)
則稱上述x在論域U上的分布為正態(tài)云(高斯云)。顯然,正態(tài)云可以用期望Ex、熵En和超熵He三個數(shù)字特征來表征一個概念,其中期望Ex表示云滴在論域空間分布中的數(shù)學(xué)期望,熵En表示定性概念的不確定性度量,由概念的隨機性和模糊性共同決定,超熵He表示熵的熵,是熵的不確定性度量。
定義2[8]:若正態(tài)云模型C(Ex,En,He)的云滴x滿足x~N(Ex,Hn′2)且En′~N(En,He2),則稱
(2)
為云模型C(Ex,En,He)的期望曲線。期望曲線是云滴集合的骨架,所有的云滴都在期望曲線附近隨機波動,因此期望曲線是研究正態(tài)云幾何特征的重要方法,但是,期望曲線忽視了正態(tài)云超熵He的作用,具有一定的缺陷,劉常昱等證明了由正態(tài)云發(fā)生器算法生成的正態(tài)云模型(1)產(chǎn)生的云滴分布是一個服從期望為Ex,方差為En2+He2的隨機變量[18],為此龔艷冰等定義了如下正態(tài)云含熵期望曲線。
圖1 正態(tài)云期望曲線和含熵期望曲線
定義3[19]:若隨機變量x滿足:x~N(Ex,En′2),其中En′~N(En,He2)且En≠0,則稱
(3)
為正態(tài)云的含熵期望曲線。當超熵He=0,含熵期望曲線就退化為期望曲線(如圖1所示),含熵期望曲線包含正態(tài)云的三個數(shù)字特征,因而能夠更好地反映正態(tài)云的幾何特征。
(4)
依據(jù)上述正態(tài)云分布的概率密度函數(shù),可證明正態(tài)云模型具有下列統(tǒng)計性質(zhì)[8]:
(1)正態(tài)云分布的數(shù)學(xué)期望E(X)=Ex
(3)正態(tài)云分布的方差D(X)=En2+He2
從正態(tài)云分布的統(tǒng)計性質(zhì)(1)~(3)可知,正態(tài)云的期望曲線和含熵期望曲線的數(shù)學(xué)期望(Ex)和方差(En2、En2+He2)分別對應(yīng)三個數(shù)字特征,因此,為了有效度量兩朵正態(tài)云之間的距離關(guān)系,可以通過建立關(guān)于正態(tài)云期望和方差的距離測度來衡量。
正態(tài)云模型的三個數(shù)字特征中熵En和超熵He是描述概念的不確定性度量,其中超熵是熵的不確定性度量,也可以稱為二階熵。對于一個常識性概念,被普遍接受的程度越高,則超熵越小;反之,對于難以形成共識的概念,則超熵較大。超熵的引入為常識知識的表示和度量提供了幫助[8]。如果超熵He=0,數(shù)據(jù)樣本對概念的確定度是確定的,正態(tài)云分布就退化為正態(tài)分布,因此,為了反映正態(tài)云的二階不確定性,可以利用正態(tài)云的期望曲線和含熵期望曲線的方差(En2、En2+He2)之比定義一個新概念——正態(tài)云不確定度。
定義4:正態(tài)云模型C(Ex,En,He)的不確定度定義為
(5)
則正態(tài)云的不確定度ρ具有如下性質(zhì):
(2)當超熵He=0時,ρ=0;
(3)如果兩朵正態(tài)云C1和C2相同,則有ρ(C1)=ρ(C2)。
證明:性質(zhì)(2)和(3)顯然成立。
對于性質(zhì)(1),顯然有0≦ρ≦1,
定義5[10]:設(shè)兩朵正態(tài)云C1(Ex1,En1,He1)和C2(Ex2,En2,He2),則C1和C2之間的Hamming距離為
(6)
定義6[17]:設(shè)兩朵正態(tài)云C1(Ex1,En1,He1)和C2(Ex2,En2,He2),則C1和C2之間的Euclidean距離為
(7)
一個合理的正態(tài)云距離要能很好地反映兩朵正態(tài)云之間的位置和形狀,不僅需要充分利用正態(tài)云的三個數(shù)字特征,而且需要考慮三個數(shù)字特征不同程度的影響,本文從云模型的幾何特征出發(fā),利用三個數(shù)字特征期望、方差和不確定度方差(二階方差)給出下列基于期望方差的Manhattan距離:
(8)
其中,ρ1和ρ2為正態(tài)云的不確定度,反映的是期望曲線與含熵期望曲線的不確定程度,當超熵越大,正態(tài)云期望曲線和含熵期望曲線的差距越大,樣本對概念的不確定度越高。將不確定度式(5)代入距離式(8)可得基于期望方差的Manhattan距離簡化為:
(9)
特別地,若兩朵正態(tài)云C1(Ex,En,He1)和C2(Ex,En,He2)的期望Ex和熵En相同,則C1和C2之間的Hamming距離、Euclidean距離和Manhattan距離分別為
dE(C1,C2)=|He2-He1|;
為了更好地說明本文提出的云模型距離度量方法有效,下面利用現(xiàn)有文獻中的示例數(shù)據(jù)進行仿真實驗,并且與現(xiàn)有方法進行比較。
圖2 三朵正態(tài)云模型及含熵期望曲線
實例:文獻[13]給出3朵正態(tài)云模型N1=(3,3.123,2.05),N2=(2,3,1),N3=(1.585,3.556,1.358),這3朵正態(tài)云模型具有熵和超熵較大的特征(如圖2),也即模糊性和隨機性都較大,因此,在計算它們的距離時,不但要考慮熵的因素也必須要考慮超熵的作用。
表1 三種正態(tài)云距離度量方法比較
按照Manhattan距離式(9)可得三朵正態(tài)云的相對距離,其中N1和N3的距離最大(1.523 5),N1和N2的距離次之(1.103 6),N2和N3的距離最小(0.699 4),這個結(jié)果與圖2的直觀印象一致。由表1容易發(fā)現(xiàn),三朵正態(tài)云的Manhattan距離和Euclidean距離的結(jié)果一致,但是Manhattan距離方法效果更好,Euclidean距離放大了超熵的作用,導(dǎo)致距離偏大;而Hamming距離得到N1和N2的距離最小(0.087 2),這個結(jié)果與圖2的直觀印象是矛盾的,這是由于Hamming距離弱化了熵和超熵的作用,易使結(jié)果不準確。
不確定語言型多屬性決策問題一般可以描述為給定一組可行的備選方案A={A1,A2,…,An}和相應(yīng)的屬性集U={U1,U2,…,Um},由于決策者處于復(fù)雜不確定的決策情境中,決策者很難用一個精確數(shù)值來表達屬性評估值,而傾向于用語言信息對屬性指標進行評價,因此,每個方案Ai依據(jù)各個屬性Uj進行評價,得到的是一個語言信息評價矩陣Z=[zij]n×m,其中zij為語言值,決策的目的是要從備選方案中確定一個最優(yōu)的方案,或者是對備選方案進行綜合排序(如圖3所示)。具體決策步驟如下:
圖3 基于云距離的多屬性決策流程
步驟1:建立屬性指標的語言術(shù)語集S={…,S-1,S0,S1,…},例如,7級的語言術(shù)語集S:{S-3=非常差,S-2=很差,S-1=差,S0=一般,S1=好,S2=很好,S3=非常好};
步驟2:利用語言變量與云模型的轉(zhuǎn)換公式,將語言信息決策矩陣Z=[zij]n×m轉(zhuǎn)化為正態(tài)云模型矩陣H=[hij]n×m,其中hij=Cij(Exij,Enij,Heij)為正態(tài)云[13];
步驟3:根據(jù)正態(tài)云模型矩陣H=[hij]n×m,確定方案Ai在不同屬性指標Uj下的正負理想方案A+和A-分別為h+=(maxExi,minEni,minHei)和h-=(minExi,maxEni,maxHei);
步驟4:若已知屬性權(quán)重信息W={w1,w2,…,wm},則按照云模型的代數(shù)運算法則得到n個方案Ai和理想方案A+/A-的加權(quán)集結(jié)綜合云模型分別為:
若屬性權(quán)重信息完全未知,利用正態(tài)云不確定度ρ最小的思想確定客觀權(quán)重,即屬性權(quán)重的確定是要使得決策者給出的正態(tài)云評價矩陣的不確定度越小越好,則表明決策者的決策越精確,因此可以建立下列目標規(guī)劃函數(shù):
(10)
通過構(gòu)造拉格朗日函數(shù)方法,得到客觀權(quán)重值為
(11)
步驟5:利用云加權(quán)算術(shù)平均(CWAA)算子得到的加權(quán)綜合云模型,這仍然是一個正態(tài)云,不能直接進行比較,因此,利用云Manhattan距離公式(9)計算各方案Ai和理想方案A+/A-之間的加權(quán)綜合云模型的距離值d(Ci,C+)和d(Ci,C-),并計算相對云距離
(12)
Pi越小則Ai方案越好,計算可得各個方案的排序結(jié)果,從而選擇最優(yōu)方案。
為了便于比較,本文引用文獻[20]的實例,某企業(yè)的情報人員收集并整理了A、B、C、D、E、F等6條企業(yè)競爭情報,決策者選取情報的商業(yè)性(U1)、情報的時效性(U2)、情報的可靠性(U3)和情報的對抗性(U4)等4個指標作為評價指標體系。為了簡化計算過程且不失一般性,假定決策者在7級標度的語言術(shù)語集S:{S-3=最低,S-2=很低,S-1=低,S0=一般,S1=好,S2=很好,S3=最好}中選擇語言變量,并對方案進行評估,6條競爭情報在4個指標下的決策矩陣如表2所示。
表2 競爭情報決策語言信息
表3 評估語言術(shù)語集
首先,假定決策者論域為[Xmin,Xmax]=[2,8],利用語言變量與云的轉(zhuǎn)換模型將語言值轉(zhuǎn)化為正態(tài)云模型,得到7級標度的正態(tài)云模型,結(jié)果如表3所示。根據(jù)表3的語言變量和正態(tài)云信息轉(zhuǎn)換對應(yīng)關(guān)系,將表2的決策語言信息矩陣轉(zhuǎn)換為正態(tài)云信息矩陣,并確定6條企業(yè)競爭情報A-F在不同屬性指標Uj(j=1,2,3,4)下的正負理想云方案I+和I-,結(jié)果如表4所示。
表4 競爭情報決策正態(tài)云信息
由于各個指標屬性權(quán)重信息完全未知,因此,依據(jù)正態(tài)云不確定度ρ最小的思想,權(quán)重的確定是要使得決策者給出的正態(tài)云評價矩陣的不確定度越小越好,因此可以建立下列目標規(guī)劃函數(shù):
minf=0.085 3w1+0.114 7w2+0.159 5w3+0.124 7w4
通過構(gòu)造拉格朗日函數(shù)方法,計算上述目標規(guī)劃可得歸一化權(quán)重值為
w1=0.211 5,w2=0.226 7,w3=0.315 2,w4=0.246 5
將表4的正態(tài)云決策矩陣和權(quán)重值進行CWAA算子集成,得到競爭情報的加權(quán)綜合云評估值(如圖4所示):
圖4 競爭情報方案加權(quán)綜合云模型
CA=(5.149 2,0.595 6,1.065 4)
CB=(5.160 0,0.597 0,1.213 7)
CC=(4.820 0,0.641 9,1.064 8)
CD=(5.737 2,0.660 9,1.213 0)
CE=(5.553 5,0.649 1,1.415 9)
CF=(5.605 7,0.696 2,0.914 4)
相應(yīng)的正負理想方案的加權(quán)綜合云評估值為:
CI+=(6.368 8,0.585 7,1.414 4)
CI-=(4.484 9,0.748 1,0.916 9)
由于上述競爭情報的綜合云模型不是一個常數(shù),無法直接進行比較,因此,通過云Manhattan距離度量式(9)計算各競爭情報與正負理想方案之間的距離值d(*,I+)和d(*,I-)進行比較,結(jié)果如表5所示。
表5 競爭情報與理想方案之間的云距離
最后,根據(jù)式(12)得到6個競爭情報的相對距離為P=(0.640 6,0.616 1,0.803 3 0.343 8,0.411 0,0.449 1),根據(jù)排序向量值的大小,企業(yè)競爭情報的排序為D>E>F>B>A>C,最佳競爭情報為D。
為進一步檢驗基于云Manhattan距離的語言型多屬性決策方法的合理性與有效性,對上述案例選取文獻[10]的Hamming距離方法和文獻[17]的Euclidean距離方法與本文方法進行競爭情報方案排序,得到的排序結(jié)果如表6所示。由表6可知,Euclidean距離方法與本文方法的排序結(jié)果是一致的,但是Manhattan距離方法更穩(wěn)定,尤其是在超熵相差比較大的情況下。Hamming距離方法的效果最差,最優(yōu)方案B與實際情況不符,主要是由于熵和超熵只是作為期望的權(quán)重,弱化了兩者的作用,導(dǎo)致結(jié)果偏差較大。
表6 不同距離方法的排序結(jié)果比較
云模型作為一種全新的雙向認知模型,用期望、熵和超熵三個數(shù)字特征建立了定性概念和定量數(shù)值之間溝通的橋梁。本文基于云模型對屬性完全未知且屬性值為語言變量的多屬性決策問題進行了研究,分別提出了云不確定度和云Manhattan距離,并在此基礎(chǔ)上提出了一種基于云不確定度最小的客觀權(quán)重確定方法,構(gòu)建了一種基于云期望方差Manhattan距離的多屬性決策方法。企業(yè)競爭情報決策實例表明,所提出的方法具有較好的操作性,是對不確定多屬性決策理論和方法的進一步探索和完善。本文的期望方差Manhattan距離度量方法主要是從正態(tài)云期望曲線和含熵期望曲線的期望和方差角度出發(fā),且主要應(yīng)用于屬性權(quán)重完全未知的語言型多屬性決策,在今后的研究中,可以考慮對不同的距離度量方法和權(quán)重信息不完全的語言型多屬性決策進行研究。