彭宇文,郭莉莎,毛 超
(1.湖南師范大學(xué) 商學(xué)院,長沙 410000;2.湖南大學(xué) 工商管理學(xué)院,長沙 410082)
在現(xiàn)實(shí)生活中,統(tǒng)計(jì)對象的某些特性使得一些統(tǒng)計(jì)數(shù)據(jù)往往難以準(zhǔn)確的記錄或收集。例如,在測量河流水位高低時(shí),會由于波浪使水位在一定范圍內(nèi)波動(dòng),而不是停留在某個(gè)具體的數(shù)值上,樣本數(shù)據(jù)具有一定的模糊性。在研究對象的觀測值具有模糊性時(shí),模糊集理論成為重要的方法。Zadeh(1965)首次提出了模糊集理論[1],Tanaka等(1982)在此基礎(chǔ)上,提出了模糊數(shù)據(jù)回歸問題。模糊回歸在許多領(lǐng)域得到了廣泛的應(yīng)用[2]。
國內(nèi)外對模糊回歸的研究包括對線性和非線性回歸模型的研究,總體上可分為三類:第一類是變量之間關(guān)系是具有模糊性,即需求解的回歸系數(shù)是模糊的;第二類是因變量、自變量中的部分或者全部具有模糊性,即變量本身具有模糊性;第三類是變量與系數(shù)均具有模糊性。由于第三類較復(fù)雜,大多數(shù)研究集中在第一類和第二類。
第一類和第二類模糊回歸問題是第三類模糊回歸問題的特殊情形,因此,探索更具一般性的模糊回歸方法具有重要意義。本文討論第三類模糊回歸問題的參數(shù)估計(jì),其變量與系數(shù)均具有模糊性的回歸模型。
非線性回歸的目標(biāo)是對下述模糊非線性模型的參數(shù)進(jìn)行估計(jì):
模糊非線性回歸模型可通過取對數(shù)轉(zhuǎn)化為模糊線性規(guī)劃模型如下:
與隸屬度關(guān)聯(lián)的總誤差可以表示為:
為簡化運(yùn)算,將(8)式改寫為離散形式并將樣本值代入,可得:
式(6)的最小值是一個(gè)無約束二次函數(shù)最值問題,但由于模糊運(yùn)算的復(fù)雜性,無法直接求出其最優(yōu)解。采用啟發(fā)式算法進(jìn)行求解成為重要思路,模擬退火算法具有對初始可行解要求低,通過Metropolis接受準(zhǔn)則避免陷入局部最優(yōu)等優(yōu)點(diǎn)[5],本文對傳統(tǒng)模擬退火算法進(jìn)行改進(jìn)以獲得最佳的參數(shù)估計(jì)值。
(1)算法流程。參數(shù)估計(jì)的模擬退火算法具體步驟為:
①獲取一個(gè)初始可行解x0=,設(shè)定初始溫度t0,令當(dāng)前解xi=x0,當(dāng)前迭代步數(shù)k=0,當(dāng)前溫度tk=t0。
②若在該溫度達(dá)到內(nèi)循環(huán)停止條件,則轉(zhuǎn)第③步;否則,從鄰域N(xi)中隨機(jī)選擇一個(gè)鄰解xj,并計(jì)算兩個(gè)解對應(yīng)的擬合效果之差ΔEij=E(xj)-E(xi)。若ΔEij≤0,則 xi=xj;否則,若 exp(-ΔEij/t)>rand(0,1)(rand(0,1)表示一個(gè)0到1之間的均勻隨機(jī)數(shù)),則xi=xj,重復(fù)第②步。
③k=k+1,tk+1=y(tk)(溫度控制函數(shù)),若滿足終止條件,轉(zhuǎn)第④步;否則,轉(zhuǎn)第(2)步。
④輸出計(jì)算結(jié)果,算法停止。
內(nèi)循環(huán)為第②步,它表示在同一個(gè)溫度下進(jìn)行隨機(jī)搜索。外循環(huán)主要包括第③步的溫度下降變化,迭代步數(shù)的增加和停止準(zhǔn)則。
(2)初始解的構(gòu)造。為獲得初始解,本文用所有模糊樣本的左邊界、右邊界、以及隸屬度為1時(shí)的樣本取值分別進(jìn)行回歸,將各參數(shù)的回歸系數(shù)中的最小值作為模糊系數(shù)的左邊界,最大值作為模糊系數(shù)的右邊界,中間值作為模糊系數(shù)隸屬度為1時(shí)的值。
(3)鄰域操作。為獲得更優(yōu)的解,設(shè)計(jì)了多層次鄰域操作方法。以三角模糊數(shù)為例,各參數(shù)的形式為首先,隨機(jī)選取個(gè)系數(shù)作為需要調(diào)整的對象;其次,N個(gè)對象分別隨機(jī)選定中的一個(gè)作為要調(diào)整的部分;最后,確定需要調(diào)整的幅度:若調(diào)整,則調(diào)整的幅度為否則,調(diào)整幅度為其中,K的取值與的數(shù)量級相關(guān),K由小到大依次確定解的粗調(diào)整、二次調(diào)整和微調(diào)整的幅度??筛鶕?jù)試探性運(yùn)算的結(jié)果,確定k1值,使得當(dāng)連續(xù)k1次目標(biāo)函數(shù)值得不到改善時(shí),改變K的取值,進(jìn)入下一層鄰域操作。其他類型的模糊數(shù)同樣可按此思路進(jìn)行多層次鄰域操作。
(4)終止準(zhǔn)則與結(jié)果輸出。采用雙終止準(zhǔn)則,第一,完成三層鄰域操作后,仍然出現(xiàn)了連續(xù)k2次目標(biāo)函數(shù)值得不到改善,則終止程序,輸出結(jié)果;第二,溫度t下降到預(yù)先設(shè)定的某個(gè)值,則終止程序,輸出結(jié)果。為獲得該次運(yùn)算的最優(yōu)結(jié)果,在外循環(huán)中增加變量記錄每次目標(biāo)函數(shù)得到了改進(jìn)的解。
為了說明擬合效果評價(jià)方法與求解算法的有效性,采用文獻(xiàn)[6]的算例作為模糊線性回歸算例,對文獻(xiàn)[4]的模糊非線性規(guī)劃算例的自變量模糊化,作為模糊非線性回歸算例。
3.1.1 線性回歸算例
文獻(xiàn)[6]設(shè)計(jì)的算例具有一個(gè)模糊因變量和兩個(gè)模糊自變量,共有15對樣本。采用本文的算法求解時(shí),算法參數(shù)的設(shè)定對結(jié)果的優(yōu)劣有一定的影響,本文通過多次調(diào)整和運(yùn)算來獲取相對最佳參數(shù),對模擬退火算法參數(shù)設(shè)定如下:馬爾科夫鏈長度取200,初始溫度取100,衰減因子為0.98。 K 值依次取500、1000、1500。初始解?。簒0=((3 .0450,3.6524,4.0531),(0 .4937,0.4970,0.4986),(0.0089,0.0092,0.0097))。求解得到的模糊線性回歸方程為如下:
圖1為退火過程,圖2對擬合值與樣本值進(jìn)行了比較。
圖1 算例1的退火圖
圖2 算例1的樣本值與擬合值比較
3.1.2 非線性回歸算例
對文獻(xiàn)[4]的模糊非線性規(guī)劃算例的自變量進(jìn)行模糊化,得到模糊非線性回歸樣本值如表2。
表2 模糊非線性回歸樣本值
調(diào)用模擬退火算法,馬爾科夫鏈長度取200,初始溫度取100,衰減因子為0.98。 K 值依次取100、500、1000。分別對左邊界、中間值和右邊界進(jìn)行非線性回歸,得到初始解:x0=((118.6336,124.0292,)125.8052,(0.2679,0.2705,0.2895))。
表3 不同模糊回歸方法的比較
求解得到的模糊線性回歸方程如下:
圖3對擬合值與樣本值進(jìn)行了比較。
圖3 算例2的樣本值與擬合值比較
本文采用 Tanaka等(1989)、Kao等(2003)、Mosleh 等(2010)共同用來說明各自模糊回歸方法的算例進(jìn)行比較分析[4,7,8]。算例與計(jì)算結(jié)果見表3。
Tanaka等(1989)的最終回歸方程為:
Kao等(2003)的最終回歸方程為:
Mosleh等(2010)采用神經(jīng)網(wǎng)絡(luò)方法獲得的最終回歸方程為:
各種方法的擬合效果比較見圖4。
圖4 Tanaka方法、Kao方法、Mosleh方法與SA方法的擬合效果
從圖4可以看出,基于多層次鄰域操作的模擬退火算法的模糊回歸方法擬合效果要優(yōu)于Tanaka等(1989)、Kao等(2003)的方法,非常接近Mosleh等(2010)的方法。Mosleh等(2010)是通過構(gòu)造模糊神經(jīng)網(wǎng)絡(luò),采用的梯度下降法進(jìn)行求解的,雖然其結(jié)果較好,但其計(jì)算過程只適用于三角模糊數(shù)以及輸入為精確數(shù)的模糊回歸模型。而本文的方法可在獲得近似最優(yōu)解的前提下,處理各種類型的模糊數(shù)據(jù)以及輸入、輸出和系數(shù)均為模糊數(shù)的回歸模型。
模糊回歸分析是分析模糊數(shù)據(jù)之間關(guān)系的一種有效方法,其在處理一些無法獲得精確數(shù),只能得到可能性數(shù)據(jù)的對象時(shí)發(fā)揮了重要作用。本文考慮了模糊數(shù)據(jù)的回歸中不同隸屬度下誤差的模糊性,認(rèn)為不同隸屬度下的誤差對總誤差的貢獻(xiàn)不同,提出了與隸屬度關(guān)聯(lián)的擬合效果評價(jià)方法。從啟發(fā)式算法入手,采用模擬退火算法并進(jìn)行相應(yīng)的改進(jìn),達(dá)到了在獲得近似最優(yōu)解的前提下,克服了以往僅考慮系數(shù)和變量中的一種具有模糊性的局限性,給出了能處理各類模糊觀測值以及系數(shù)和變量均具模糊性的線性和非線性回歸模型的啟發(fā)式求解思路。對擬合系數(shù)顯著性的檢驗(yàn)、模糊回歸與時(shí)間序列分析的融合以及模糊樣條回歸方法等是模糊回歸的進(jìn)一步研究方向。
[1]Zadeh L.A.Fuzzy Sets[J].Information and Control,1965,8(3).
[2]Tanaka H,Uejima S,Asia K.Linear Regression Analysis with Fuzzy Model[J].Ieee Trans.Sys.Man and Cyber.Smc.,1982,12(6).
[3]李竹渝,張成.模糊數(shù)據(jù)的回歸模型結(jié)構(gòu)分析[J].統(tǒng)計(jì)研究,2008,25(8).
[4]M.Mosleha,M.Otadi,S.Abbasbandyb.Evaluation of Fuzzy Regression Models by Fuzzy Neural Network[J].Journal of Computational and Applied Mathematics,2010,234(3).
[5]康立山,謝云,尤矢勇等.非數(shù)值并行計(jì)算,模擬退火算法(第一冊)[M].北京:科學(xué)出版社,1997.
[6]Hsien-Chung Wu.Fuzzy Estimates of Regression Parameters in linear Regression Models for Imprecise Input and Output Data[J].Computational Statistics&Data Analysis,2003,42(1~2).
[7]H.Tanaka,I.Hayashi,J.Watada.Possibilistic Linear Regression Analysis for Fuzzy Data[J].European Journal of Operational Research,1989,40(3).
[8]C.Kao,C.L.Chyu.Least-squares Estimates in Fuzzy Regression Analysis[J].European Journal of Operational Research,2003,148(2).