劉學(xué)之,楊澤宇,沈鳳武,尚玥佟,劉 嘉(.北京化工大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 0009;.北京城市礦產(chǎn)資源開(kāi)發(fā)有限公司,北京 000)
在綜合評(píng)價(jià)研究中,因通常包括多個(gè)量綱不同的指標(biāo),故需將各個(gè)指標(biāo)進(jìn)行無(wú)量綱化,即數(shù)據(jù)的標(biāo)準(zhǔn)化處理。目前,標(biāo)準(zhǔn)化處理方法一般分為線性標(biāo)準(zhǔn)化方法和非線性標(biāo)準(zhǔn)化方法兩大類,通過(guò)線性或非線性變換,將數(shù)據(jù)映射到一個(gè)較小的區(qū)間,比如(-1,1)或(0,1)[1-3]。
然而,在實(shí)際生產(chǎn)生活中,數(shù)據(jù)大多是非均勻分布的,若待研究的指定區(qū)間內(nèi)數(shù)據(jù)點(diǎn)過(guò)多且相對(duì)距離過(guò)小,在線性變換后數(shù)據(jù)點(diǎn)間的間距將會(huì)變得更小。梁路等認(rèn)為在大數(shù)據(jù)挖掘的過(guò)程中,尤其是對(duì)于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型,因數(shù)據(jù)集中的屬性存在不同的取值范圍而往往會(huì)導(dǎo)致模型的不穩(wěn)定[4]。如果需要對(duì)這些數(shù)據(jù)進(jìn)一步挖掘和分析造成微小差距的因素時(shí),無(wú)法將這些數(shù)據(jù)進(jìn)一步細(xì)分,特別是對(duì)距離度量敏感的模型無(wú)疑是不利的。在現(xiàn)有的研究中,詹敏等認(rèn)為指標(biāo)屬性與無(wú)量綱化處理方法之間的關(guān)系密不可分,并分別根據(jù)原始數(shù)據(jù)的相關(guān)特性設(shè)計(jì)了指標(biāo)無(wú)量綱化方法,取得了較好的計(jì)算、評(píng)價(jià)效果[5];還有學(xué)者認(rèn)為線性無(wú)量綱化方法有其局限性,因該方法是基于綜合評(píng)價(jià)結(jié)果與原指標(biāo)之間存在線性關(guān)系,所以線性無(wú)量綱化方法有一定的適用范圍。
對(duì)于某些指標(biāo),當(dāng)其T時(shí)刻達(dá)到極值時(shí),該指標(biāo)對(duì)評(píng)價(jià)體系的邊際效用大幅下降,并在整個(gè)評(píng)價(jià)體系中的權(quán)重發(fā)生改變,則需要重新設(shè)計(jì)。如采用線性標(biāo)準(zhǔn)化方法,該指標(biāo)權(quán)重設(shè)置需根據(jù)其對(duì)評(píng)價(jià)體系的影響分段設(shè)置。郭亞軍等認(rèn)為綜合評(píng)價(jià)結(jié)果不僅受到指標(biāo)權(quán)重的影響,很大程度上也取決于指標(biāo)標(biāo)準(zhǔn)化的方法,并基于盡可能反映多個(gè)被評(píng)價(jià)對(duì)象之間局部和整體差異的原則,提出了拉開(kāi)檔次法[6]。
本文針對(duì)線性標(biāo)準(zhǔn)化方法存在的局限性,結(jié)合Logistic曲線函數(shù)特性設(shè)計(jì)S形曲線模型對(duì)指標(biāo)數(shù)據(jù)進(jìn)行非線性變換,構(gòu)建非線性的標(biāo)準(zhǔn)化處理方法,實(shí)現(xiàn)對(duì)特定區(qū)間內(nèi)指標(biāo)數(shù)據(jù)的有效區(qū)分,為成功實(shí)現(xiàn)綜合評(píng)價(jià)奠定基礎(chǔ)。在不改變指標(biāo)數(shù)據(jù)排布的情況下,將數(shù)據(jù)稠密的區(qū)間放縮,并對(duì)指定區(qū)間的數(shù)據(jù)劃分層級(jí)。
Logistic函數(shù)最早用于人口增長(zhǎng)問(wèn)題的研究,長(zhǎng)久以來(lái)它幾乎是唯一描述S型增長(zhǎng)的曲線模型,即描述了一個(gè)群體的某屬性由低水平向高水平發(fā)展的過(guò)程,且不同階段的變化速度各不相同。在以往的研究中,學(xué)者大多將Logistic函數(shù)曲線應(yīng)用于經(jīng)濟(jì)預(yù)測(cè)研究中,通常首先對(duì)現(xiàn)有已知樣本數(shù)據(jù)擬合,然后預(yù)測(cè)今后可能出現(xiàn)的結(jié)果。Martin最早通過(guò)構(gòu)建Logistic回歸對(duì)公司的破產(chǎn)及違約率做出預(yù)測(cè)[7];Ohlson將Logistic模型應(yīng)用于商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)價(jià),通過(guò)設(shè)置風(fēng)險(xiǎn)警界線判斷企業(yè)的信用類別[8]。在國(guó)內(nèi),蔡濟(jì)波、黃豪等利用Logistic模型對(duì)經(jīng)濟(jì)發(fā)展數(shù)據(jù)進(jìn)行擬合,并對(duì)未來(lái)趨勢(shì)做出預(yù)測(cè)[9-10];杜強(qiáng)等利用Logistic曲線對(duì)各省碳排放進(jìn)行了預(yù)測(cè)[11]。
Ⅰ.連續(xù)的單調(diào)遞增函數(shù)。
Ⅱ.0 Ⅲ.漸近線為y=K和y=0。 從方程式可看出,Sigmoid函數(shù)是令Logistic函數(shù)中系數(shù)K=B=a=1時(shí)的特殊形式,即Sigmoid函數(shù)是Logistic函數(shù)的變式。 設(shè)評(píng)價(jià)對(duì)象集為R,R={R1,R2,…,Rn}時(shí),受評(píng)對(duì)象的評(píng)價(jià)指標(biāo)集為X,X={X1,X2,…,Xn},則Xij表示第n個(gè)評(píng)價(jià)對(duì)象在評(píng)價(jià)指標(biāo)集X中的第j個(gè)指標(biāo)的評(píng)分:X1j,X2j,…Xnj通過(guò)S形曲線法,按照式(1)將上述n個(gè)指標(biāo)值進(jìn)行轉(zhuǎn)化: (1) 其中Xij表示第i個(gè)受評(píng)對(duì)象的第j個(gè)指標(biāo),Yij表示受評(píng)價(jià)對(duì)象的原始指標(biāo)數(shù)據(jù)Xij經(jīng)過(guò)Sigmoid函數(shù)轉(zhuǎn)化后得到的分?jǐn)?shù),α和β為待定系數(shù),其值由樣本中實(shí)際數(shù)據(jù)確定。由Sigmoid函數(shù)表達(dá)式可得式(1)是由Sigmoid函數(shù)向右平移變換β單位、再伸縮變換α倍得來(lái),因此式(1)中β決定了圖像位置,α決定了圖像的走向或者幅度。由于Sigmoid函數(shù)的圖像總體是呈S形,且該函數(shù)首字母也為S,因此把式(1)中函數(shù)表達(dá)式表示的曲線稱為S形曲線。S形曲線中參數(shù)α和β的確定方法: 1.通過(guò)Sigmoid函數(shù)標(biāo)準(zhǔn)化近似轉(zhuǎn)化樣本數(shù)據(jù)的中位數(shù)為指標(biāo)得分,取值0.5,于是根據(jù)性質(zhì)(Ⅳ)可得β=media(Xij)。 線性標(biāo)準(zhǔn)化的特點(diǎn)是無(wú)量綱化變換均為線性和差異不變性。線性變換函數(shù)的計(jì)算都運(yùn)用了某些統(tǒng)計(jì)指標(biāo),如最大值、最小值、均值、方差等;差異不變性表現(xiàn)為任意正向化指標(biāo)數(shù)據(jù)變換后滿足等比關(guān)系,即數(shù)據(jù)處理后仍保持相對(duì)一致的間距。在線性處理方法中,指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后的分布圖均為直線型,且極差化法最為典型和常用,因此本文的研究中以極差化法和S形曲線法進(jìn)行比較分析。 為了便于論證,本文以單因素指標(biāo)為例,同時(shí)將分析樣本中的指標(biāo)數(shù)據(jù)通過(guò)式(1)式(2)轉(zhuǎn)化為相對(duì)數(shù)。本文特別選擇國(guó)內(nèi)生產(chǎn)總值(GDP)和經(jīng)濟(jì)增長(zhǎng)率這兩個(gè)指標(biāo)進(jìn)行算例分析,即分析在處理非均勻分布的指標(biāo)數(shù)據(jù)集合和包含正負(fù)值的指標(biāo)數(shù)據(jù)集合時(shí)S型曲線法的優(yōu)勢(shì)。 選取2012年全球190個(gè)國(guó)家的國(guó)內(nèi)生產(chǎn)總值為樣本*數(shù)據(jù)來(lái)源于世界銀行官方網(wǎng)站:http://www.worldbank.org.cn/。,因各國(guó)GDP數(shù)值差異較大、分布范圍隨機(jī),為不失一般性,以10為底對(duì)上述GDP數(shù)據(jù)對(duì)數(shù)處理,然后按上述方法計(jì)算得分,并通過(guò)SPSS軟件對(duì)其進(jìn)行對(duì)數(shù)處理排序。 分別應(yīng)用式(1)Sigmoid函數(shù)和式(2)極差化法,將各國(guó)GDP數(shù)值映射到(0,1)區(qū)間內(nèi),根據(jù)式(1)式(2)可得: 極差化法: (2) S型曲線變換: 極差化變換: 上述兩種不同方法變換后結(jié)果對(duì)比見(jiàn)圖1。由于美國(guó)GDP絕對(duì)值最大,通過(guò)線性極差化計(jì)算后定義其相對(duì)值為1,而德國(guó)映射到(0,1) 區(qū)間內(nèi)計(jì)算出的數(shù)值只有0.879 5,相應(yīng)地其他國(guó)家依次降低。 如果運(yùn)用S形曲線二次轉(zhuǎn)化,結(jié)果有19個(gè)國(guó)家超過(guò)了0.9,這其中就包括了德國(guó)等類似發(fā)達(dá)國(guó)家,數(shù)量為樣本數(shù)據(jù)的10%;同樣, 0.1以下的國(guó)家有19個(gè),也占樣本數(shù)據(jù)的10%,成功地將經(jīng)濟(jì)發(fā)達(dá)國(guó)家、一般發(fā)展中國(guó)家和欠發(fā)達(dá)國(guó)家明顯地劃分開(kāi)來(lái)。從圖1看,S型曲線法只增減了不同區(qū)間內(nèi)數(shù)據(jù)的數(shù)量,未改變數(shù)據(jù)排序情況。 圖1 極差法與S型曲線法處理方法對(duì)比圖 S形曲線法在GDP指標(biāo)數(shù)據(jù)達(dá)到飽和值后將國(guó)家個(gè)體的分布區(qū)間壓縮了,標(biāo)準(zhǔn)化后數(shù)值為美國(guó)0.988 4、德國(guó)0.966 5(如圖1所示),即經(jīng)濟(jì)發(fā)達(dá)和欠發(fā)達(dá)國(guó)家的數(shù)據(jù)間距適度減緩。若以線性標(biāo)準(zhǔn)化處理,德國(guó)和美國(guó)數(shù)據(jù)間距差距很大,2012年美國(guó)GDP總值為16.24萬(wàn)億美元,同年德國(guó)國(guó)內(nèi)生產(chǎn)總值約為3.43萬(wàn)億美元,位居全球第四,美國(guó)的GDP絕對(duì)值幾乎是當(dāng)時(shí)排名第三德國(guó)的五倍之多,更是世界范圍內(nèi)大部分國(guó)家的十幾倍甚至上百倍,對(duì)設(shè)計(jì)國(guó)家的GDP指標(biāo)的權(quán)重較為不利。S形曲線法在處理各國(guó)GDP數(shù)據(jù)時(shí),有效劃分出層級(jí),高水平國(guó)家同屬發(fā)達(dá)經(jīng)濟(jì)體,比較直觀。根據(jù)原始數(shù)據(jù)與圖1,整理得出國(guó)家數(shù)量分布區(qū)間,見(jiàn)表1。 表1 指標(biāo)處理信息匯總表 從圖1和表1還可以看出,非線性變換后對(duì)于非均勻分布的數(shù)據(jù)呈現(xiàn)拉伸效果,數(shù)據(jù)稠密的區(qū)間被細(xì)化了,數(shù)值相近的國(guó)家也得以區(qū)分開(kāi)來(lái),有利于該集中分布區(qū)間的進(jìn)一步研究,見(jiàn)圖2-a所示。 圖2-a S型曲線法處理國(guó)家數(shù)量直方圖 圖2-b 極差化法處理國(guó)家數(shù)量直方圖 相比極差化法處理(圖2-b), 0.4~0.7區(qū)間內(nèi)集中了超過(guò)50%的國(guó)家,進(jìn)行局部數(shù)據(jù)研究時(shí)該區(qū)間內(nèi)國(guó)家間缺乏鑒別性;相比之下,S形曲線法轉(zhuǎn)化后的不同區(qū)間內(nèi)國(guó)家分布數(shù)量相對(duì)均勻,GDP排序前50的國(guó)家分布于0.9~1區(qū)間內(nèi);GDP排名中段的國(guó)家在0.4~0.8區(qū)間內(nèi)均有分布(見(jiàn)圖2-a,表1),因此可有效針對(duì)該部分國(guó)家進(jìn)一步分析,比較國(guó)家之間造成GDP水平差別的因素,以便進(jìn)一步研究。 以2012年190個(gè)國(guó)家的經(jīng)濟(jì)增長(zhǎng)率數(shù)據(jù)對(duì)比兩種標(biāo)準(zhǔn)化方法。如圖3-a所示,采取線性極差化法經(jīng)濟(jì)增長(zhǎng)率對(duì)應(yīng)的標(biāo)準(zhǔn)化數(shù)值集中分布于0.3~0.7區(qū)間內(nèi),且呈現(xiàn)不均勻狀態(tài)。相比之下,經(jīng)過(guò)S形曲線法處理后的評(píng)分以均勻狀態(tài)分布在0~1區(qū)間內(nèi),而且在2012年全球經(jīng)濟(jì)下行的先決條件下,在190個(gè)國(guó)家的數(shù)據(jù)中經(jīng)濟(jì)增長(zhǎng)率達(dá)到7%的國(guó)家屬于高速增長(zhǎng)國(guó)家集團(tuán),通過(guò)線性法轉(zhuǎn)化后的相對(duì)值為0.7,僅達(dá)到70%的水平,低于這些國(guó)家在實(shí)際情況中所處的全球經(jīng)濟(jì)地位,而通過(guò)S形曲線轉(zhuǎn)化后為0.88;若某一國(guó)家的增長(zhǎng)率為-1%,線性轉(zhuǎn)化和S形曲線轉(zhuǎn)化后的結(jié)果分別為0.35和0.08,顯然在該國(guó)經(jīng)濟(jì)發(fā)展停滯的狀況下,0.35過(guò)高,而0.08的評(píng)分則與實(shí)際情形更為吻合。因此,在處理指標(biāo)數(shù)據(jù)有正有負(fù)的情況下,筆者認(rèn)為S形曲線標(biāo)準(zhǔn)化方法更符合客觀實(shí)際情況,這是線性標(biāo)準(zhǔn)化法所不具備的。 在上述190個(gè)數(shù)據(jù)中,有4/5的國(guó)家其經(jīng)濟(jì)增長(zhǎng)率在0%~7%范圍內(nèi),經(jīng)過(guò)S形曲線法處理后,指標(biāo)評(píng)分多集中在0.14~0.88區(qū)間內(nèi),相比線性方法得到的評(píng)分集中在0.4~0.68區(qū)間的結(jié)果而言,S形曲線法有效拉伸了圖3-c中0.4~0.7區(qū)間內(nèi)數(shù)據(jù)間距,且當(dāng)經(jīng)濟(jì)增長(zhǎng)率超過(guò)7%時(shí),則該國(guó)被劃入當(dāng)年經(jīng)濟(jì)高速增長(zhǎng)的國(guó)家范疇,以0.88~1的得分在190個(gè)國(guó)家中領(lǐng)跑;相反,若一國(guó)經(jīng)濟(jì)增長(zhǎng)率為負(fù),則被認(rèn)為是經(jīng)濟(jì)停滯發(fā)展經(jīng)濟(jì)體, 處于0.14以下區(qū)間內(nèi)。 從樣本數(shù)據(jù)來(lái)看,經(jīng)過(guò)GDP和經(jīng)濟(jì)增長(zhǎng)率兩個(gè)指標(biāo)的檢驗(yàn),S型曲線可以有效解決稠密區(qū)間數(shù)據(jù)相近且不利于進(jìn)一步細(xì)分的問(wèn)題,也可以對(duì)指標(biāo)數(shù)據(jù)達(dá)到飽和后仍然間距過(guò)大情況加以優(yōu)化。 本文根據(jù)指標(biāo)標(biāo)準(zhǔn)化的原理,結(jié)合Logistic曲線的特性,使用Sigmoid函數(shù)處理樣本中指標(biāo)數(shù)據(jù),有效地拉伸了數(shù)據(jù)集中的分布區(qū)間并壓縮了數(shù)據(jù)稀松的分布區(qū)間,有效地將非均勻分布的指標(biāo)數(shù)據(jù)局部性突顯出來(lái)。在某些實(shí)際問(wèn)題中,當(dāng)需要對(duì)結(jié)果相似的多個(gè)對(duì)象進(jìn)一步挖掘其影響因子時(shí),S型曲線法是對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理方法的補(bǔ)充,也為相關(guān)研究提供了一種思路。 圖3-a 經(jīng)濟(jì)增長(zhǎng)率極差法和S型曲線處理后對(duì)比圖 圖3-b 極差化法處理國(guó)家數(shù)量直方圖 圖3-c S形曲線法處理國(guó)家數(shù)量直方圖 [1] 陳勇,童作鋒,蒲勇健.鋼鐵企業(yè)循環(huán)經(jīng)濟(jì)發(fā)展水平評(píng)價(jià)指標(biāo)體系的構(gòu)建及應(yīng)用[J].中國(guó)軟科學(xué),2009(12). [2] 郭歡歡,張孝成,李仕川.土地集約利用評(píng)價(jià)中適度指標(biāo)標(biāo)準(zhǔn)化方法改進(jìn)研究——以人口密度指標(biāo)為例[J].地理科學(xué),2016(3). [3] 喬晗.基于證據(jù)理論的綜合評(píng)價(jià)定性指標(biāo)測(cè)度優(yōu)化研究[J].統(tǒng)計(jì)與信息論壇,2017(6). [4] 梁路,黎劍,霍穎翔,滕少華.一種非均勻分布數(shù)據(jù)的非線性標(biāo)準(zhǔn)化方法[J].計(jì)算機(jī)科學(xué),2016(4). [5] 詹敏,廖志高,徐玖平.線性無(wú)量綱化方法比較研究[J].統(tǒng)計(jì)與信息論壇,2016(12). [6] 郭亞軍,馬鳳妹,董慶興.無(wú)量綱化方法對(duì)拉開(kāi)檔次法的影響分析[J].管理科學(xué)學(xué)報(bào),2011(5). [7] Martin D.Early Warning of Bank Failure:A Logistic Regression Approach[J].Journal of Banking and Finance,1977(1). [8] Ohlson J.Financial Rations and the Probabilistic Predict Ion of Bankruptcy[J].J Accounting Research,1980(1). [9] 蔡濟(jì)波,陳海波.基于Logistic曲線模型的江蘇高新技術(shù)產(chǎn)品出口趨勢(shì)預(yù)測(cè)研究[J].科技管理研究,2011(1). [10] 黃豪,馬斐,馬玉華.Logistic曲線模型在區(qū)域經(jīng)濟(jì)長(zhǎng)期預(yù)測(cè)中的應(yīng)用[J].武漢理工大學(xué)學(xué)報(bào):信息與管理工程版,2011(1). [11] 杜強(qiáng),陳喬,楊銳.基于Logistic模型的中國(guó)各省碳排放預(yù)測(cè)[J].長(zhǎng)江流域資源與環(huán)境,2013(2).三、算例分析
(一)以GDP為評(píng)價(jià)指標(biāo)
(二)以經(jīng)濟(jì)增長(zhǎng)率為評(píng)價(jià)指標(biāo)
四、研究結(jié)論