張丹娜,韓岳峰,龐天曉
(浙江大學 數學系,杭州 310058)
回歸分析是研究一個或多個隨機變量與另一些變量之間關系的統計方法。在過去100多年的發(fā)展中,傳統的回歸分析通過估計連續(xù)函數來表示這種自變量和因變量的因果關系。然而,現實中有很多經濟模型,用連續(xù)函數進行估計誤差較大,經濟意義也不明確。如實際問題中有很多不確定的因素,使得某個變量的值不是連續(xù)變化而是突然跳變的。最典型的例子就是房地產價格的走勢,如果在較長時間內房價持續(xù)攀升,國家會出臺一系列相關的房產政策抑制房價過快增長,假使政策有效,房價的增長速度必然會在短時間內發(fā)生跳變,所以傳統的回歸模型顯然不能滿足需要。
Qiu Peihua[1]在1991年第一次提出了跳回歸分析(Jump Regression Analysis)的方法,用以估計帶噪聲的不連續(xù)曲線和表面。直到現在,國內對跳回歸的理論和應用分析文獻比較缺乏。張亮等[2]采用跳回歸分析對CT圖像進行預處理,抑制了肺區(qū)中支氣管、血管以及肺部紋理,保留了肺以及腫瘤的邊界,有利于對肺區(qū)和腫瘤的分割。阮正旺等[3]基于跳回歸分析去除由攝像系統的物理缺陷或傳輸中的解碼錯誤而生成的椒鹽噪聲,并且通過跳變檢測很好地保持邊緣。上述兩文都是二維的跳回歸模型在圖像處理中的應用,主要體現了其去噪保邊的良好性質。目前尚未有國內學者把一維跳回歸模型應用于實體經濟的分析中,本文首次將跳回歸模型應用于房價走勢分析,利用實例闡述跳點檢測對于解釋房價走勢跳變的意義。
設{(xi,yi)i=1,2,…,n}是n個觀測點,滿足假設:
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
其中自變量xi等間距地分布在區(qū)間[0,1]中。假設回歸函數f的前(m-1)階導數在定義域中是連續(xù)的,而f的第m階導數是有跳躍的。
Qiu[4]提出f的第m階導數有如下模型:
其中g(x)是連續(xù)函數,p是f(m)的跳躍點個數,{sj,j=1,2,…,p}是跳躍點位置,而{dj,j=1,2,…,p}是各跳躍點跳的幅度。
一般地,對于經濟模型,以我們要分析的房價走勢為例,以時間為自變量,房價為因變量建立數學模型為
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
由于某時刻的房價是在前一段時間的基礎上進行增減,所以房價總是呈現一種相對連續(xù)的狀態(tài),但在一些外部因素如市場刺激、國家政策等的影響下,房價增減的速度有所變化,甚至是突變,所以我們可認為房價的增長率即其一階導f'是有跳躍點的,而原函數f是連續(xù)的,故取m=1。
對于模型(1),我們不必估計g(x)和{dj,j=1,2,…,p},事實上,它們的估計并不容易,估計房價走勢的跳點{sj,j=1,2,…,p}才是必要步驟。影響房價走勢的因素有很多,但不外乎兩類:一是國家經濟的宏觀調控,即政策層面;二是購房者的消費刺激,即市場層面。假設我們已檢測出各個跳變的時刻{sj,j=1,2,…,p},那么我們的分析依據如下:如果在跳點時刻(或附近)實行了房產政策,且該政策的預期效果與跳變的方向(可從dj的正負號判斷出)價走勢在該處的突變是由房產政策引起的,反之則認為是市場誘導的結果。而研究連續(xù)函數g(x)對解釋房價走勢的跳變沒有任何意義。由此,我們只需估計跳點{sj,j=1,2,…,p}和判斷跳變方向即{dj,j=1,2,…,p}的正負。
Qiu和Yandell[5]提出了一種基于多項式估計的跳點檢測方法。
對每個給定的xi,?+1≤i≤n-?,?≤n是一個取定的正整數,考慮鄰域N(xi)={xi-?,xi-?+1,…xi,…,xi+?-1[,xi+?}],寬k=2?+1。在這個鄰域中,用最小二乘估計擬合m+1階局部多項式估計出的回歸系數的跳躍點是很敏感的,可用來檢測f(m)的跳躍點。事實上,對于一個給定的xj,如果在鄰域N(xj)中沒有跳躍點且在N(xj)中存在時,那么應該和很接近。反之,如果xj是f(m)的一個跳躍點,那么+1.…n- ?}會在有一個明顯的突變。所以我們可以用對跳點進行檢測。
在房價走勢分析中,取m+1,故用最小二乘估計擬合的局部多項式為:
Qiu和Yandell[5]定義了如下用于跳點檢測的變量:
由Δ(i)的定義得
所以取ui=U1-a/2.σ(i),U1-a/2是標準正態(tài)分布的1-a/2下分位數,即可保證是顯著性水平。
下面推導σ(i)的具體表達式。由于σ是未知的,所以我們用σ的估計值來代替,即:
當xij等間距地分布在區(qū)間[0,1]中,可設…,n,如果有整數r1和r2使得:
則被標記的跳躍點{xij,j=r1,r1+1,…,r2}構成一個帶,如果出現這種情況,Qiu[4]提出生成一個新的跳躍點代替這些點。為了避免該產生的跳躍點不在自變量的坐標點上,也為了選出跳躍最顯著的點,則改為:
代替這些點,以上便是調整過程。由此確定最后的跳躍點為{sj,j=1,2,…,p}。
綜上所述,基于多項式估計的跳點檢測步驟如下:
(1)對于任一給定的點xi,?+1≤i≤n-?,在鄰域N(xi)中擬合局部多項式
(3)用ui=U1-a/2.σ(i)計算ui
(4)如果|Δ(ij)|>uij,則把 {xij,j=1,2,…,n1}標記為跳躍點
(5)用調整過程確定最終的跳躍點{sj,j=1,2,…,p}
為了更好地說明跳回歸模型及其跳點檢測在房價走勢分析中的應用,鑒于杭州市的房地產價格波動狀況以及杭州市政府所施行的房產政策在全國具有高度的代表性和典范性,筆者選擇了杭州市2008~2010年的二手房均價(周房價)走勢作為實際例子,房價走勢圖如圖1,本文的數據來源于房價網(http://www.fangjia.com/)杭州站,部分數據見表1。
表1 2008~2010年二手房均價表
圖1
圖2
運用Matlab數學軟件,具體運算時將房價數值縮小1000倍。由于用次數越高的多項式擬合同一曲線,誤差平方和越小,在此例中,用8次的多項式和9次的多項式做最小二乘估計得到的誤差平方和相同。故用擬合的8次多項式估計標準差σ。取?=4,顯著性水平a=0.05,可得到0.4048,U1-a/2=1.96。
對i=9,10,…,147,ui=1.8604×103,Δ(i)的趨勢圖如圖2,被標記的跳躍點為{x96,x115,x116,x117,x120,x122,x136}
經過調整過程,最終的跳躍點為{x96,x116,x121,x136}(在圖1中用實心點標記),分別對應日期:2009年11月8日,2010年3月28日,2010年5月2日,2010年8月15日,即房價增長率有突變的日期。
由以上的跳點檢測,并結合2008~2010年房地產市場在政策和市場層面的變動,我們可對3年間的杭州市房價走勢作如下分析。
從2008開始,如何應對金融危機帶來的挑戰(zhàn)成為政府的當務之急,受益于寬松的貨幣信貸環(huán)境和房地產優(yōu)惠政策,杭州房地產市場逐漸從次貸危機的打擊中恢復過來,整體呈現繁榮的景象,市場回暖持續(xù)穩(wěn)定。2009年以來,房價居高不下,一直保持有蓄勢再發(fā)之勢。11月初,國土資源部印發(fā)了《限制用地項目目錄(2006年本增補本)》和《禁止用地項目目錄(2006年本增補本)》,其中針對商品住宅用地的宗地出讓面積首次給出明確的上限,業(yè)內人士分析此舉是為了遏制09年以來“地王”頻出的現象,遏制房價增長過快。再加之銀10月過后的11月,年終歲末,時值傳統的購房淡季,房價會呈現驟減的姿態(tài)。而用跳回歸模型檢測到的2009年11月8日處的跳躍點(dj為負)正說明了政策宏觀調控和市場自發(fā)調節(jié)的有效性。
2009年底,政府出臺一系列調控政策,遏制投機炒作和房價過快上漲。2010初這些政策的效果更加顯現,1—2月,樓市出現了交易量萎縮,房價上漲趨緩的趨勢。但進入3月份,房地產市場發(fā)生變化,尤其是3月下旬,杭州的土地拍賣價格不斷刷新,樓市反彈(對應于2010年3月28日的跳躍點),出現銷售火爆、房價快速上漲的現象。究其原因,是樓市在經歷冰冷時期過后,在以投資為主導的市場刺激的結果。購房者打破了之前的觀望態(tài)度,促使杭州樓市出現急速回暖。
為應對4月份以后樓市更加火爆和房價攀升異??焖俚膱雒妫?月份中下旬國家再次出臺了一系列嚴厲的政策。國務院在5天之內連續(xù)出臺三大新政:4月15日國務院發(fā)文,購買第二套住房的家庭首付款比例不低于50%、貸款利率不低于基準利率1.1倍;4月17日,國務院對三套房貸提出具體要求:在商品住房價格過高、上漲過快、供應緊張的地區(qū),商業(yè)銀行可根據風險狀況,暫停發(fā)放購買第三套及以上住房貸款;4月19日建設部發(fā)“53號令”:未取得預售證的商品房,不得進行任何形式的預銷售,取得預售證的項目,要在10日內—次性公開全部準售房源及每套房屋價格,明碼標價對外銷售。而2010年5月初的跳躍點(dj為負)便很好地體現了這一系列政策的調控效果。
此后的3個月時間里,房價走勢受新政影響持續(xù)下降,直到7月底8月初,樓市才初顯回溫,一是由于距4月的政策發(fā)布已滿百日,政策時效已不顯然;二是第3季度是購房熱季,市場消費本身較為火熱。7、8兩月中央無任何政策調控,所以房價在2010年8月15日的跳躍可解釋為市場調節(jié)的結果。此后,房價走勢的突變已逐漸不明顯,不再有其他跳點。
盡管目前跳回歸模型和基于多項式估計的跳點檢測方法被應用于實際建模的情況還較少,但從上述的分析足可見其在分析房價走勢問題的優(yōu)勢。首先,從經濟意義上,通過跳點檢測,可以以跳點為界把時間軸分成幾段,分別討論每段的房價走勢變化,跳點處單獨分析其成因,意義清晰明確。其次,從檢測的準確性上,基于多項式的跳點檢測方法誤差很小,從實例中,我們也可看出,檢測到的跳點與房產政策出臺后理論上預測的房價走勢跳變偏差很小,幾乎是在同樣的時刻。另外,這種方法在實際應用中很具有操作性,不必求出房價的增長率即一階導數值而只在房價原始數據的基礎上便可分析房價增長的快慢變化,事實上,要找一種數學方法擬合出精確的導數值并保持其原本的間斷性并不容易。而從統計意義上來看,跳點的檢測問題最終轉化成為假設檢驗問題,判斷跳變與否的準則的嚴格性取決于分析者選取的顯著性水平,具有很大的靈活性。
[1]Qiu Peihua.Estimation of a Kind of Jump Regression Functions[J].Systems Science and Mathematical Sciences,1991,4(1).
[2]張亮,張建州.基于統計跳變回歸分析的肺部CT圖像分割[J].計算機工程與應用,2008,44(12).
[3]阮正旺,張建州,張亮.清除椒鹽噪聲的局部L1去噪保邊方法[J].中國圖象圖形學報,2010,15(6).
[4]Qiu Peihua.Image Processing and Jump Regression Analysis[M].New-jersey:John Wiley and Sons,2005.
[5]Qiu Peihua,Yandell B.A Local Polynomial Jump Detection Algo?rithm in Nonparametric Regression[J].Technometrics,1998,40(2).