鄧璐娟 陳欣欣
1(鄭州輕工業(yè)學(xué)院軟件學(xué)院 河南 鄭州 450002)2(鄭州輕工業(yè)學(xué)院計算機(jī)與通信工程學(xué)院 河南 鄭州 450002)
網(wǎng)上出租房源信息冗亂繁雜,很難進(jìn)行比較和評價,研究一種改進(jìn)的TOPSIS法對網(wǎng)絡(luò)爬蟲抓取的出租房源進(jìn)行綜合評價,評價結(jié)果以地圖圖標(biāo)的形式推送給對出租房源屬性側(cè)重點(diǎn)需求不同的租房者,為亟待租房的對象提供了有價值的服務(wù)。
逼近于理想解排序TOPSIS法是按照各評估對象到理想化目標(biāo)的接近程度對有限評估對象進(jìn)行相對優(yōu)劣選擇的方法,常被用于多屬性多目標(biāo)排序的場景,其主要優(yōu)勢是簡單、計算量小、幾何意義直觀、便于理解和運(yùn)用等[1-4]。然而,因傳統(tǒng)TOPSIS方法中歐式距離本身的局限性,導(dǎo)致運(yùn)用其進(jìn)行綜合評價時可能會出現(xiàn)兩點(diǎn)不足:① 當(dāng)評估對象的屬性線性相關(guān)時,歐式距離失效;② 當(dāng)評估對象距離正負(fù)理想解等同遠(yuǎn)近時,不能完全反映其對象的位置關(guān)系[5]。近年來,縱觀國內(nèi)外對于傳統(tǒng)TOPSIS方法的改進(jìn),一些專家專注于傳統(tǒng)TOPSIS法的決策環(huán)境的拓展研究,一部分注重歐式距離權(quán)重確定方面的完善,還有一部分學(xué)者僅僅對傳統(tǒng)TOPSIS方法的缺陷做了相應(yīng)改進(jìn)[6],均沒有同時解決利用傳統(tǒng)TOPSIS法排序的兩個缺陷。本文對出租房源評價應(yīng)用中,其評估對象的面積、租金屬性之間顯然存在相關(guān)性及位置不確定性,一般TOPSIS法無法合理地對各個出租房源的優(yōu)劣性進(jìn)行判定。故而研究一種既能解決出租房源屬性(面積、租金、間隔目標(biāo)點(diǎn)距離)間線性相關(guān)問題,又能解決出租房源間隔正負(fù)理想解等同距離時無法準(zhǔn)確定位的問題的改進(jìn)TOPSIS法對出租房源進(jìn)行合理的排序勢在必行。
TOPSIS法是通過計算待評估對象的各個屬性指標(biāo)與正反理想解的距離尺度,求得與理想解的相應(yīng)貼近值,進(jìn)而對評估對象進(jìn)行評價的一種綜合排序法[7-8]。用TOPSIS法對出租房源評價的數(shù)學(xué)模型如下:
(1) 構(gòu)建出租房源信息矩陣:
如矩陣A所示,表示出租房源的第j個屬性指標(biāo)值,本文具體指出租房源的面積、租金和間隔目標(biāo)點(diǎn)的距離。
(2) 數(shù)據(jù)標(biāo)準(zhǔn)化處理:
(1)
(2)
式(1)將成本型屬性指標(biāo)(出租房源的面積屬性)歸一化為取值范圍在[0,1]之間效益型指標(biāo)數(shù)據(jù);式(2)對出租房源信息矩陣中所有屬性數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,如A′所示:
(3) 特征矩陣權(quán)重規(guī)范化:
對出租房源進(jìn)行綜合評價時,鑒于不同用戶對屬性指標(biāo)偏重不同,如何給各個屬性指標(biāo)賦予權(quán)重成為了利用TOPSIS法排序的關(guān)鍵問題之一。權(quán)重賦值方法很多,本文通過比較其優(yōu)劣性,選擇信息熵對各個屬性進(jìn)行權(quán)重賦值,信息熵越小,表示其透露出來的信息量較大;反之,表示其透露出來的信息量較少[9]。對特征矩陣熵權(quán)重規(guī)范化的基本步驟如下:
(a) 計算出租房源各屬性指標(biāo)的熵值,其公式如下:
(3)
(4)
(5)
(b) 對各出租房源屬性指標(biāo)熵權(quán)重化,其公式如下所示,其中i=1, 2,…,n。權(quán)重規(guī)范化后的特征矩陣如A″所示。
vij=wj×Pij′
(6)
(4) 確定正理想解和負(fù)理想解:
正理想解代表不同出租房源的同一屬性指標(biāo)中的最大值,而負(fù)理想解則代表不同出租房房源中同一屬性指標(biāo)中的最小值。其公式如下:
(7)
(8)
(5) 計算距離尺度:
計算各出租房源屬性指標(biāo)值間隔正反理想解的距離尺度:
(9)
(10)
(6) 計算與正反理想解的貼近值:
計算各出租房源與理想解的相應(yīng)貼近程度:
(11)
(7) 對出租房源方案進(jìn)行排序:
(1) 構(gòu)建原始信息矩陣A,因馬氏距離不受屬性間相關(guān)性和量綱的影響,故不需要對A進(jìn)行規(guī)范化處理,省略掉了傳統(tǒng)方法模型中的第2步。馬氏距離的權(quán)重是內(nèi)化于公式之內(nèi)的客觀賦權(quán),故省掉了傳統(tǒng)方法模型中的第3步。
(2) 確定正負(fù)理想解。假定Bi=(bi1,bi2,…,bin)是第i個出租房源所對應(yīng)屬性的空間坐標(biāo),S+={s+1,s+2,…,s+n},表示負(fù)理解所對應(yīng)的空間坐標(biāo),S-={s-1,s-2,…,s-n}對于本文爬取的鄭州市的出租房源,Bi的坐標(biāo)是變化的,正負(fù)理想解S+與S-的坐標(biāo)是固定的,Σ-1表示n個屬性變量b1,b2,…,bn的相關(guān)系數(shù)Σ的逆矩陣。則第i個評估對象Bi到S+與S-的馬氏距離,如下式所示:
(12)
(13)
(3) 計算各出租房源的相對貼近度。計算爬取的鄭州市的各出租房源到正負(fù)理想解的S+與S-的貼近度。其貼近值計算方法如下:
(14)
圖1 最差理想解圖
(15)
(16)
(17)
(18)
(19)
式中:α、β代表租房者偏好系數(shù),且α+β=1,求解各出租房源的相對貼近度Ci,公式如下:
(20)
式中:Ci∈[0,1],Ci值越大,代表出租房源排序結(jié)果性能越優(yōu),排序順序越靠前。將馬氏距離和最差理想解相結(jié)合對傳統(tǒng)TOPSIS法的改進(jìn),涵蓋了兩者單獨(dú)改進(jìn)TOPSIS法的優(yōu)良特性,既解決了評估對象間隔正負(fù)理想解等同距離的問題,又消除了歐氏距離本身局限性導(dǎo)致的出租房源屬性之間相關(guān)性的影響。
本文將爬蟲系統(tǒng)爬取的某兩大租房網(wǎng)站的鄭州市出租房源信息作為評估對象,以鄭州大學(xué)為目的地,將出租房源的面積屬性作為效益型指標(biāo),租金和根據(jù)經(jīng)緯度求得的距離屬性作為成本型指標(biāo),利用傳統(tǒng)TOPSIS法和改進(jìn)后TOPSIS法分別對其進(jìn)行綜合排序?qū)崿F(xiàn)。
利用傳統(tǒng)TOPSIS法對爬蟲系統(tǒng)爬取的某兩大租房網(wǎng)站的12 000多條鄭州市出租房源進(jìn)行綜合排序,根據(jù)上述傳統(tǒng)TOPSIS法模型中式(1)-式(4)求得待評估出租房源的面積、租金、距離屬性權(quán)重級w={0.060 7,0.763 4, 0.483 3}。根據(jù)式(6)、式(7)求得各出租房源的正負(fù)理想解為:
v+=[0.008 5 0.195 2 0.030 0]
v-=[0.002 0 0.050 0 0.011]
根據(jù)式(9)-式(11)求得各出租房源的相應(yīng)貼近度,其綜合排序結(jié)果的前10個最優(yōu)出租房源及相對貼近度,如表1所示,其排序結(jié)果高德地圖圖標(biāo)展示如圖2所示。
表1 傳統(tǒng)TOPSIS法排序結(jié)果
圖2為熵權(quán)重化的傳統(tǒng)TOPSIS法對出租房源的排序效果展示圖。圖標(biāo)1表示根據(jù)輸入的目的地鄭州大學(xué)和出租房源的面積、租金及經(jīng)緯度求得的距離屬性,利用傳統(tǒng)TOPSIS法對爬蟲系統(tǒng)爬取的鄭州市的12 000條出租房源排序的最終評價結(jié)果中貼近度最大的出租房源(最優(yōu)出租房源),分組1表示其綜合排序結(jié)果的前1~7個最優(yōu)出租房源地圖圖標(biāo)顯示。
利用MATLAB對爬蟲系統(tǒng)爬取的出租房源的面積、租金和通過經(jīng)緯度信息求得的各出租房源間隔目標(biāo)地點(diǎn)鄭州大學(xué)的距離屬性,求解相關(guān)系數(shù)矩陣,其結(jié)果如矩陣B所示:
由B可知,出租房源屬性間存在較大的相關(guān)性,面積與租金之間的相關(guān)系數(shù)甚至達(dá)到了0.9。租金、距離的相關(guān)性系數(shù)也達(dá)到了0.5,傳統(tǒng)TOPSIS法對出租房源評價歐式距離失效,利用馬氏距離替代歐氏距離改進(jìn)TOPSIS法對出租房源進(jìn)行綜合評價更具合理性。
根據(jù)馬氏距離改進(jìn)TOPSIS法模型中的式(12)-式(14)分別求得各出租房源的相應(yīng)貼進(jìn)度,其綜合評價的前10個最優(yōu)出租房源與相應(yīng)貼近度如表2所示,綜合評價結(jié)果高德地圖圖標(biāo)展示如圖3所示。
表2 馬氏距離改進(jìn)TOPSIS法排序結(jié)果
續(xù)表2
圖3 馬氏距離優(yōu)化TOPSIS法效果圖
圖3為馬氏距離優(yōu)化TOPSIS法的排序效果展示圖。圖中水滴形圖標(biāo)表示依據(jù)輸入的目的地點(diǎn)鄭州大學(xué)和出租房源的面積、租金及經(jīng)緯度求得的距離屬性,利用馬氏距離改進(jìn)的TOPSIS法對鄭州市12 000條出租房源進(jìn)行綜合排序的最終結(jié)果中的前200個出租房源,圖標(biāo)1表示根據(jù)上述排序法排序的最終綜合評價結(jié)果中的最優(yōu)出租房源選擇,圖中分組1表示綜合評價結(jié)果的前1~7個最優(yōu)出租房源展示。
通過爬蟲系統(tǒng)爬取的原始出租房源數(shù)據(jù)和傳統(tǒng)TOPSIS法求得的正、負(fù)理想解為:
v+=[0.008 5 0.195 2 0.030 0]
v-=[0.002 0 0.050 0 0.011]
根據(jù)最差理想解改進(jìn)TOPSIS法模型求得最差理想解K*=[-0.004 5 -0.095 2 -0.008],根據(jù)式(15)-式(17)求得最差理想解下的距離尺度、貼近度。其排序結(jié)果的前10個最優(yōu)出租房源選擇、相應(yīng)距離尺度和貼近度,如D-,D*和表3所示,綜合排序結(jié)果地圖圖標(biāo)展示如圖4所示。
D*=3 452 984.548 7 180 342.15 3 074 082.861
2 940 061.853 6 549 101.029 4 363 638.394
13 962.282 4 699 275.118 5 427 955.725
21 950 748.67
D+=63 293 136.32 51 792 762.34 64 577 297.98
63 130 525.87 53 363 598.8 59 551 441.88
61 375 367.95 58 610 154.64 55 445 180.23
28 223 049.91
表3 最差理想解優(yōu)化TOPSIS排序結(jié)果
圖4 最差理想解優(yōu)化TOPSIS效果圖
圖4為利用最差理解代替負(fù)理想解優(yōu)化TOPSIS法的排序效果展示圖。圖標(biāo)1表示根據(jù)輸入的目的地點(diǎn)鄭州大學(xué)和出租房源的面積、租金及經(jīng)緯度求得的距離屬性,利用最差理想解改進(jìn)的TOPSIS法對鄭州市12 000條出租房源排序的最終綜合評價結(jié)果中的最優(yōu)出租房源,圖中分組1表示其綜合排序結(jié)果的前1~7個最優(yōu)出租房源展示。
將馬氏距離和最差理想解兩種方式單獨(dú)改進(jìn)TOPSIS法所得距離尺度d(Ai,S+)、d(Ai,S-)、Di*、Di-進(jìn)行無量綱化處理后代入式(18)-式(20),假設(shè)租房者對這兩者的偏好度相同均為0.5,求得各出租房源的貼近度,其綜合排序結(jié)果的前10個最優(yōu)出租房源選擇和相應(yīng)貼近度,如表4所示,其最終評價結(jié)果高德地圖圖標(biāo)展示如圖5所示。
表4 馬氏距離綜合最差理想解優(yōu)化TOPSIS排序結(jié)果
圖5 馬氏距離綜合最差理想解優(yōu)化TOPSIS法效果
圖5為馬氏距離綜合最差理想解優(yōu)化TOPSIS法排序效果展示圖。圖標(biāo)1表示根據(jù)輸入的目的地鄭州大學(xué)和出租房源的面積、租金及經(jīng)緯度求得的距離屬性,利用最差理想解綜合馬氏距離改進(jìn)的TOPSIS法對鄭州市出租房源進(jìn)行綜合評價的結(jié)果中的貼近度最大出租房源。偏好者系數(shù)表示當(dāng)馬氏距離結(jié)合最差理想解優(yōu)化TOPSIS法時,租房者根據(jù)兩者優(yōu)化TOPSIS法產(chǎn)生的作用選擇的比例(總數(shù)是1),它是可以改變的。如果租房者認(rèn)為屬性間的相關(guān)性對排序結(jié)果的影響較大,可以適當(dāng)加大馬氏距離優(yōu)化TOPSIS法的比例,降低最差理解的優(yōu)化TOPSIS法的比例,反之亦同。本文是以兩者相同比例0.5為例,對出租房源進(jìn)行排序展示的。圖中分組1表示其綜合排序結(jié)果的前1~7個最優(yōu)出租房源展示。
驗(yàn)證本文改進(jìn)的TOPSIS法綜合評價的性能。假定RankResult={Rank(1),…,Rank(j),…,Rank(m)},其中Rank(j)表示排在第j個位置的評估對象。定義Diffi=((Rank(j),Rank(j′)表示第Rank(j)個評估對象和第Rank(j′)個評估對象在屬性i上的評價結(jié)果與實(shí)際評價結(jié)果相違背的權(quán)重差異值,其中j 定義Error為實(shí)際評價結(jié)果與分別針對單一屬性值對評估對象評價的總違背差異值,計算公式如下: (22) 本文將Error作為評估標(biāo)準(zhǔn),驗(yàn)證不同改進(jìn)方式對傳統(tǒng)TOPSIS法綜合評估性能的影響,其總違背差異值Error值越小,評估性能越優(yōu)。5次評價實(shí)驗(yàn)結(jié)果如表5所示。 表5 優(yōu)化TOPSIS排序結(jié)果 本文進(jìn)行了離差最大化權(quán)重化傳統(tǒng)TOPSIS排序、信息熵權(quán)重化傳統(tǒng)TOPSIS排序、最差理想解優(yōu)化傳統(tǒng)TOPSIS法排序、馬氏距離優(yōu)化TOPSIS排序、馬氏距離結(jié)合最差理想解優(yōu)化TOPSIS法排序共五種綜合評估驗(yàn)證實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果,顯然,利用離差最大化對傳統(tǒng)TOPSIS法權(quán)重化求得的評價結(jié)果,其總違背差異值是最大的。因此,本文在對傳統(tǒng)TOPSIS的改進(jìn)中,除馬氏距離使用的是其內(nèi)化權(quán)重,其他方式的優(yōu)化均是在熵權(quán)重化的條件下進(jìn)行的,由表3比較分析可知,無論馬氏距離和最差理想解兩種方式單獨(dú)對傳統(tǒng)TOPSIS法的改進(jìn),還是將兩者結(jié)合對TOPSIS法的改進(jìn),其評價結(jié)果的總違背差異值均有所降低。尤其是將馬氏距離與最差理想解相結(jié)合優(yōu)化TOPSIS法的評價結(jié)果其總違背差異值僅為9 105.942 8,顯然性能最優(yōu)。 4.2.1 改進(jìn)前后的TOPSIS對比分析 將推薦結(jié)果表1(傳統(tǒng)TOPSIS方法)和表3(最差理想解改進(jìn)TOPSIS方法)進(jìn)行對比,其傳統(tǒng)TOPSIS法排序6變成了最差理想解優(yōu)化TOPSIS法的排序1,排序1變成了排序2,而排序2退到了排序6的位置。顯然導(dǎo)致這種變化的根本因素是傳統(tǒng)TOPSIS法對出租房源評價時,存在出租房源間隔正負(fù)理想解等同距離導(dǎo)致無法被準(zhǔn)確定位的問題。而本文利用最差理想解代替負(fù)理想解優(yōu)化TOPSIS法對出租房源綜合排序時,很好地解決了這一問題。比較馬氏距離優(yōu)化TOPSIS方法所得排序結(jié)果(表3)與傳統(tǒng)TOPSIS法所得排序結(jié)果(表1),發(fā)現(xiàn)除排序1、3、5、7、8之外,其他的出租房源排序均發(fā)生了較大偏移。這是因?yàn)槌鲎夥吭吹膶傩灾笜?biāo)(面積,租金)之間存在相關(guān)性,導(dǎo)致傳統(tǒng)的TOPSIS方法對其進(jìn)行評價時歐式距離失效,而馬氏距離因不受量綱影響,消除了屬性指標(biāo)間相關(guān)性影響。將馬氏距離與最差理想解相結(jié)合優(yōu)化TOPSIS方法的推薦結(jié)果(表4)與傳統(tǒng)TOPSIS法的推薦結(jié)果(表1)進(jìn)行對比。發(fā)現(xiàn)傳統(tǒng)TOPSIS法排序6變成了改進(jìn)TOPSIS法排序2,排序4變成了排序6,排序2則倒退到了排序4的位置,排序9和10互換了位置,這種差異主要是因?yàn)樽畈罾硐虢饩C合馬氏距離優(yōu)化TOPSIS法不僅解決了出租房源面積、租金等屬性間相關(guān)性問題,又解決了出租房源距離正負(fù)理想解等同遠(yuǎn)近時無法準(zhǔn)確定位的問題。 4.2.2 綜合改進(jìn)TOPSIS與單獨(dú)改進(jìn)TOPSIS對比分析 分析馬氏距離綜合最差理想解改進(jìn)TOPSIS法的排序結(jié)果(表4)與馬氏距離改進(jìn)TOPSIS法(表3)可知,其結(jié)果除4和6互換了位置,其他均沒太大變化。這是因?yàn)閷Τ鲎夥吭催M(jìn)行綜合排序時,其面積、租金等屬性間相關(guān)性對出租房源的排序結(jié)果影響較大,而無論馬氏距離綜合最差理想解優(yōu)化TOPSIS法還是馬氏距離單獨(dú)優(yōu)化TOPSIS法對出租房源進(jìn)行排序,均克服了這一缺陷。這種情況體現(xiàn)了改進(jìn)方法對出租房源評價的一致性,表明了本文改進(jìn)TOPSIS法排序的有效性。而細(xì)微的差異性則因?yàn)轳R氏距離改進(jìn)傳統(tǒng)TOPSIS法僅解決了出租房源面積、租金等屬性之間相關(guān)性導(dǎo)致歐式距離失效的問題,但可能存在因出租房源距離正負(fù)理想解相同距離,導(dǎo)致排序無法確定位置的問題。馬氏距離與最差理想解相結(jié)合改進(jìn)TOPSIS法同時解決了以上兩個缺陷。將馬氏距離結(jié)合最差理想解改進(jìn)TOPSIS方法對出租房源排序的結(jié)果(表4)與最差理想解單獨(dú)改進(jìn)TOPSIS法的排序結(jié)果(表2)對比,其排序1變成了排序2,排序10變成了排序9,這種差異顯然是因?yàn)樽畈罾硐虢鈫为?dú)改進(jìn)TOPSIS法只是解決了出租房源距離正負(fù)理想解等同遠(yuǎn)近的問題,沒有解決出租房源屬性(面積、租金、間隔目標(biāo)點(diǎn)距離)間線性相關(guān)問題。 綜上所述,本文提出的將馬氏距離與最差理想解相結(jié)合優(yōu)化的TOPSIS方法比馬氏距離和最差理想解單獨(dú)改進(jìn)TOPSIS方法更具有科學(xué)性及有效性,應(yīng)用于對出租房源的評價也更合理。 分析馬氏距離綜合最差理想解優(yōu)化TOPSIS法對出租房源評價的結(jié)果(表4)的實(shí)用價值可知,排列在第一位的出租房源,其租金1 000、面積35、距離38.77等指標(biāo)方面分配較合理,性價比最高。對于排列在第2位和第3位的出租房源,在其租金、距離屬性相同的條件下,第3位出租房源的面積卻比第2位出租房源的面積少了6平方米,顯然將第3位排到第2位之后也合理的。而對于第3位、第4位出租房源在其距離相差不大的情況下,第4位出租房源雖租金比第3位少了400元,但其面積減少了二分之一,故排序也是合理的,對于排列在第5位、第6位、第7位的出租房源,在其距離基本差異不大的基礎(chǔ)上,第5位出租房源的租金雖比第6位多了1 000元,而面積比第6位增加了四分之三,故其排序合理,排序在第7位的出租房源其面積雖比排列在第6位的出租房源多了10平方米,但租金卻多出了200元,故將其排列在后面也是合理的。對于排列在第8位、第9位的出租房源,第9位的出租房源距離目的地點(diǎn)鄭州大學(xué)的距離比排序在第8位少了50、但是面積卻少了10平方米,故排序也是合理的。而對于排序在第10位的出租房源其面積是42平方米,距離是200,租金卻高達(dá)1 700元,可見性價比比前9個出租房源都低,故把它排最后一位也是合理的。 綜上所述,本文將馬氏距離和最差理想解相結(jié)合優(yōu)化TOPSIS方法對出租房源進(jìn)行綜合排序的評價結(jié)果具有合理的現(xiàn)實(shí)意義和實(shí)用價值。 本文通過研究傳統(tǒng)TOPSIS方法的缺陷,提出了一個適用范圍更廣且更加合理的改進(jìn)TOPSIS方法,即用馬氏距離代替歐氏距離,用最差理想解代替負(fù)理想解優(yōu)化傳統(tǒng)的TOPSIS法,并將其應(yīng)用到爬蟲系統(tǒng)爬取的出租房源的多屬性排序中。實(shí)驗(yàn)證明該方法有效地消除了傳統(tǒng)TOPSIS法因出租房源面積和租金等屬性間相關(guān)性導(dǎo)致的歐氏距離失效及距離正負(fù)理想解等同遠(yuǎn)近無法定位的缺陷,對出租房源的排序更具合理性及科學(xué)性,其排序結(jié)果更具實(shí)用價值和現(xiàn)實(shí)意義。本文的不足之處是該方法僅限于數(shù)值屬性的決策分析,而對那些需要進(jìn)行混合型屬性分析的評估對象并不適用,故本文下一步將重點(diǎn)研究如何改進(jìn)TOPSIS法,使其能夠根據(jù)評估對象的混合屬性進(jìn)行綜合評價。4.2 排序結(jié)果數(shù)據(jù)對比分析
4.3 排序結(jié)果實(shí)用價值分析
5 結(jié) 語