龔艷冰,戴靚靚,劉高峰
(河海大學(xué) 企業(yè)管理學(xué)院,江蘇 常州 213022)
在預(yù)測評價與決策等領(lǐng)域,回歸分析方法是一個重要且常用的研究方法,但是傳統(tǒng)回歸往往依賴于精確的統(tǒng)計數(shù)值及二值邏輯。在社會經(jīng)濟活動中,部分或者全部的觀測數(shù)據(jù)常常是不精確或者用語言值描述的數(shù)據(jù),使得經(jīng)典線性回歸模型受到限制。人們常常使用自然語言值表示定性概念,例如大概、溫度不高、相當小等,恰恰是人們賴以識別分析乃至決策的重要依據(jù)?,F(xiàn)實世界中不確定性主要包括隨機性和模糊性,當觀測變量的不確定性不是由概率分布給出的,而是由隸屬函數(shù)確定的,相應(yīng)的回歸模型稱為模糊線性回歸模型。模糊線性回歸模型由日本學(xué)者Tanaka等人[1]首次提出的,主要用于反映自變量和因變量的模糊關(guān)系。經(jīng)典回歸模型把真實數(shù)據(jù)和估計值之間的偏差認為是觀測誤差,而模糊回歸模型將這種誤差視為系統(tǒng)結(jié)構(gòu)自身的模糊性,并把數(shù)據(jù)和其估計值之間的偏差視為系統(tǒng)參數(shù)的模糊性,從而由參數(shù)模糊化來解決這一問題。國內(nèi)外許多學(xué)者對模糊回歸模型的參數(shù)估計方法進行了大量研究[2-7],并在系統(tǒng)預(yù)測、評估和決策等方面進行了大量應(yīng)用研究[8-10]。
隨機性和模糊性是不確定性問題中的兩個基本特征,經(jīng)典的線性回歸模型和模糊回歸模型分別對這兩種不確定性進行了研究,但是兩種之間的關(guān)聯(lián)性研究一直沒有引起人們足夠的重視,即同時考慮隨機性和模糊性。為了處理定性概念中廣泛存在的隨機性和模糊性,李德毅等[11]首次提出云模型,利用二階的高斯分布方法,來反映定性概念的隨機性,同時又通過計算求得反映定性概念的模糊性。本文在云模型理論的基礎(chǔ)上,考慮不確定性回歸中模糊性和隨機性的關(guān)聯(lián)性,將傳統(tǒng)的線性回歸模型進行拓展和推廣,提出正態(tài)云線性回歸模型并對參數(shù)進行估計。最后給出一個人員績效評估的應(yīng)用實例,說明模型的有效性。
云模型反映了隨機性和模糊性之間的關(guān)聯(lián),借助高斯概率密度分布函數(shù),通過構(gòu)造二階或者高階的云發(fā)生器形成偏離高斯分布的云滴群,用概率的方法去研究模糊性[11]。經(jīng)過幾年的發(fā)展和完善,目前云模型已成功應(yīng)用于智能控制、數(shù)據(jù)挖掘、預(yù)測和評估等領(lǐng)域[12-14]。云模型是用語言值表示的某個定性概念與其定量表示之間的不確定性轉(zhuǎn)換模型,它把模糊性與隨機性這二者完全集成在一起構(gòu)成定性和定量相互間的映射。
定義1:設(shè)A是論域U上的定性概念,若定量值x∈U,且x是定性概念A(yù)的一次隨機實現(xiàn),若滿足:x~N(Ex,En′2),其中,N(En,He2)且對A的確定度滿足:
則稱在論域U上的分布成為正態(tài)云模型。
正態(tài)云模型具有普適性[15],是基本的云模型。正態(tài)分布大量社會和自然科學(xué)中定性知識的云的期望曲線都近似服從正態(tài)或半正態(tài)分布。正態(tài)云的數(shù)字特征反映了定性概念和定量特性,用期望Ex(Expected Value)、熵En(Entropy)、超熵He(Hyper Entropy)三個數(shù)值來表征。由統(tǒng)計學(xué)3En規(guī)則可知,當0<He<En/3時,99.7%的云滴落在外包絡(luò)曲線[11]:
和內(nèi)包絡(luò)曲線:
圖1 正態(tài)云和包絡(luò)曲線
之間的區(qū)域內(nèi),如圖1所示。對于任意給定的確定度μ=α(0<α<1),正態(tài)云A與包絡(luò)曲線相交得到二個區(qū)間分別為:定義2:假設(shè)在同一論域U中,存在n個正態(tài)云模型Ai=(Exi,Eni,Hei)和系數(shù)ki∈R,則合成云As=(Exs,Ens,Hes)可以定義如下:
定義3:假設(shè)兩個正態(tài)云A和B,對于給定的確定度μ=α(0<α<1),則正態(tài)云A和B之間的包絡(luò)距離定義為:
特別的,取α=k/m(k=1,…,m)可得正態(tài)云A和B之間的離散化包絡(luò)距離為:
容易驗證,式(6)和式(7)具有非負性、對稱性且滿足三角不等式,因此,D(A,B)是距離測度。包絡(luò)距離的基本思想是兩個定性概念相似,只需要它們的包絡(luò)相似,允許包絡(luò)內(nèi)部存在小的差異,這種差異反映了概念的模糊性和隨機性,這也符合人們的思維認識。
考慮自變量和因變量都具有模糊隨機性質(zhì)的線性回歸模型,即:
其中,xi= (1,x1i,x2i,…,xpi)表示正態(tài)云自變量向量,yi表示正態(tài)云因變量,aj,j=0,1,2,…,p為回歸系數(shù)估計值。為方便起見,可令正態(tài)云xji=(Exji,Enji,Heji)(j=0,1,2,…,p;i=1,2,…,n),則式(8)的正態(tài)云數(shù)據(jù)回歸模型可改寫成:
由概率統(tǒng)計知識可知,p個相互獨立的服從正態(tài)分布的隨機變量xji(j=1,2,…p;i=1,2,…,n)滿足xji~N(Exji,則其線性組合a0+a1x1i+a2x2i+…+apxpi仍然是一個正態(tài)分布,即因變量 y(xi)滿足其中因此,正態(tài)云線性回歸模型(9)的因變量y(xi)也是一個正態(tài)云。
特別的,如果對正態(tài)云自變量xji=(Exji,Enji,Heji)中所有的i,j有Heji=0,則模型(9)就退化為正態(tài)模糊線性回歸模型,如果對所有的i,j有Enji=Heji=0,則模型(9)就退化為傳統(tǒng)的線性回歸模型,因此,云模型是經(jīng)典線性回歸模型和模糊線性回歸模型的一般形式。
由合成云的定義(5)可得正態(tài)云線性回歸模型y(xi)的合成云模型為:對于給定的確定度μ=α(0<α<1),由圖1可知正態(tài)云變量是直線μ=α上的兩個線段上的不確定性變量,只需要保證不超出包絡(luò)曲線的范圍。因此,在給定確定度α下,只需要保證回歸模型的包絡(luò)曲線相等,即模型(9)可以轉(zhuǎn)化為四個傳統(tǒng)回歸模型:
結(jié)合正態(tài)云離散包絡(luò)距離的定義(7),可將正態(tài)云因變量估計值與觀測值間的均方誤差表示為:
將式(12)代入式(7)可得均方誤差為:
根據(jù)最小二乘法令:
和
通過求解上述線性方程組(14)和(15)可得到正態(tài)云線性回歸模型(9)的回歸系數(shù)的估計值,我們稱這種基于離散距離的最小二乘參數(shù)估計方法為云最小二乘方法(CLS)。
為了有效評估正態(tài)云線性回歸模型的性能,需要對模型的誤差進行估計。傳統(tǒng)的回歸分析是針對觀測值與擬合值的距離進行比較,利用點對點的差距來評價擬合結(jié)果,而正態(tài)云擬合則關(guān)心的是實際的云滴與估計的云滴的差距,因此無法用衡量傳統(tǒng)回歸分析擬合效果的方法加以分析。為此,本文將擬合值與實際值之間的離散距離差E=作為誤差估計的檢驗依據(jù),當回歸方程擬合出來的正態(tài)云模型具有較小的E值,即包絡(luò)曲線越接近則內(nèi)部的云滴之間的差距就越小,說明該模型應(yīng)該是不錯的模型。為方便起見,可以考慮合成云ysi與實際值yi之間的離散距離差作為誤差估計的檢驗依據(jù)。
為了說明本文方法的可行性,以Chen等[2]給出的人員績效評估的例子進行實證研究。人員績效評估是企業(yè)人力資源管理中一項重要的功能,顯然,由于人員績效評估的主觀性,通常采用語言值來描述評估值,語言值是一個模糊性和隨機性共存的不確定因素,科學(xué)合理的評估結(jié)果將影響到人力資源管理功能的整體表現(xiàn)。根據(jù)人力資源管理的相關(guān)理論,考慮工作績效(因變量y)的四個主要影響因素(自變量)包括[2]:工作能力(x1)、抗壓性(x2)、拖延頻率(x3)和溝通和協(xié)調(diào)能力(x4),樣本容量為30。顯然這四個因素數(shù)據(jù)本身同時具有模糊性和隨機性,假定影響因素評估論域均為[0,100]。首先按照正態(tài)云數(shù)據(jù)生成方法,即:
將30個模糊樣本生成正態(tài)云數(shù)據(jù),如表1所示。
表1 績效評估自變量和因變量正態(tài)云樣本
應(yīng)用Matlab軟件,將上述數(shù)據(jù)代入線性方程組(14)和(15)可得下列線性方程組:
120a0+80400 a1+81200 a2+73280 a3+61720 a4=63640
80400 a0+5754424.4 a1+5442693 a2+4854687.7 a3+4067925.8 a4=4591220
81200 a0+5442693 a1+5.746256.8 a2+5.142517.4 a3+4.250704.6 a4=425566.5
73280 a0+4854687.7a1+5142517.4 a2+4.991726.3 a3+3716504.2 a4=3738481.6
61720 a0+4067925.91a1+4250704.6 a2+3716504.2 a3+3766932.8 a4=3277507.7
求解上述線性方程組,可得回歸系數(shù):
a0=-0.1290,a1=0.9237,a2=-0.1289,a3=-0.1120,a4=0.1305
則正態(tài)云線性回歸方程為:
y(xi)=-0.1290(1,0,0)+0.9237(Ex1i,En1i,He1i)-0.1289(Ex2i,En2i,He2i)-0.1120(Ex3i,En3i,He3i)+0.1305(Ex3i,En3i,He3i)
從上述回歸模型看到工作能力(x1)對員工工作績效的影響是最大的,溝通和協(xié)調(diào)能力(x4)對員工工作績效也存在正面影響,弱抗壓性(x2)和拖延頻率(x3)這兩個變量對工作績效產(chǎn)生負面影響但影響力度不大,這與實際情況是相一致的。為方便起見,本文以合成云(ys)表示正態(tài)云線性回歸的擬合值,圖2給出了樣本x1=(x11,x12,x13,x14)的正態(tài)云線性回歸擬合示意圖。
圖2 正態(tài)云線性回歸擬合示意圖
選取確定度α=0.1,0.2,…,1,計算合成云ysi與實際值yi之間的離散包絡(luò)距離差并將其作為誤差估計的檢驗依據(jù),結(jié)果如表2所示。結(jié)果表明,本文的正態(tài)云線性回歸模型是可行的,而且與傳統(tǒng)線性回歸模型和模糊線性回歸模型比較誤差也相對較小,最主要的是正態(tài)云線性回歸模型的適應(yīng)性更強,是更加一般和靈活的線性回歸模型。
表2 正態(tài)云擬合效果與距離誤差測度表
云模型方法指出,客觀上人們在不確定性思維中,也許并不存在一個確定又精確的隸屬度或者隸屬函數(shù)。因此,模糊線性回歸模型雖然在處理不確定性回歸分析中較傳統(tǒng)回歸模型取得了較好的效果,但是確定而又精確的隸屬度方法容易把人們對模糊現(xiàn)象的處理強行納入精確數(shù)學(xué)的領(lǐng)域,扼殺了事物的高階模糊本質(zhì)[11]。為此,本文將云模型方法應(yīng)用于不確定問題的線性回歸分析領(lǐng)域,提出正態(tài)云線性回歸模型,并基于最小二乘的思想給出最小二乘包絡(luò)距離方法對正態(tài)云回歸模型的系數(shù)進行估計。正態(tài)云線性回歸模型的優(yōu)點包括:①是傳統(tǒng)回歸模型和模糊回歸模型的推廣;②將數(shù)據(jù)和其估計值之間的偏差視為系統(tǒng)參數(shù)的模糊性和隨機性關(guān)聯(lián)產(chǎn)生的結(jié)果;③通過正態(tài)云的三個數(shù)字特征可以反映回歸模型的不確定性程度,更加符合自然語言值的內(nèi)涵。
[1]Tanaka H,Uejima S,Asai K.Linear Regression Analysis With Fuzzy Model[J],IEEETransactionsonSystemsMan,andCybernetics,1982,(12).
[2]Chen L H,Hsueh C C.Fuzzy Regression Models Using the Least-squares Method Based on the Concept of Distance[J].IEEE Transactions on Fuzzy Systems,2009,(17).
[3]Farhadinia B.Sensitivity Analysis in Interval-valued Trapezoidal Fuzzy Number Linear Programming Problems[J].Applied Mathemati?cal Modelling,2014,(38).
[4]Wan S P,Dong J Y.Possibility Linear Programming With Trapezoidal Fuzzy Numbers[J].Applied Mathematical Modelling,2014,(38).
[5]Ebrahimnejad A,Tavana M.A Novel Method for Solving Linear Pro?gramming Problems With Symmetric Trapezoidal Fuzzy Numbers[J].Applied Mathematical Modelling,2014,(38).
[6]任燕,郭嗣琮.基于結(jié)構(gòu)元最小二乘序的模糊線性回歸[J].模糊系統(tǒng)與數(shù)學(xué),2015,29(1).
[7]李俊紅,曾文藝.基于梯形模糊數(shù)的模糊最小一乘回歸模型[J].系統(tǒng)工程理論與實踐,2015,35(6).
[8]柏林,房勇.基于模糊回歸分析的投資組合選擇模型[J].系統(tǒng)工程理論與實踐,2015,35(7).
[9]張轉(zhuǎn),常安定,王媛英,王曉晨.基于正態(tài)模糊線性回歸確定河流橫向擴散系數(shù)[J].長江科學(xué)院院報,2015,32(8).
[10]邵良杉,趙琳琳,溫廷新,孔祥博.基于模糊多元線性回歸模型的巖石可爆性評價[J].中國安全科學(xué)學(xué)報,2015,25(7).
[11]李德毅,杜鹢.不確定性人工智能(第二版)[M].北京:國防工業(yè)出版社,2014.
[12]Li D Y,Liu C Y,Gan W Y.A New Cognitive Model:Cloud Model[J].International Journal of Intelligent Systems,2009,(24).
[13]龔艷冰,張繼國.基于正態(tài)云模型和熵權(quán)的人口發(fā)展現(xiàn)代化程度綜合評價[J].中國人口·資源與環(huán)境,2012,(1).
[14]龔艷冰,劉高峰,馮蘭萍,張繼國,胡娜.江蘇省水資源短缺風險的相似云評價方法研究[J].長江流域資源與環(huán)境,2015,(6).
[15]李德毅,劉常昱.論正態(tài)云模型的普適性[J].中國工程科學(xué),2004,6(8).