姜東民 崔麗敏 管田超
[摘要]信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)深入到人們生活中的每個(gè)角落,各大搜索引擎記錄了數(shù)以億計(jì)的搜索關(guān)注和需求,隱含了大量的有價(jià)值的信息和數(shù)據(jù)。本文以世園會(huì)為例,充分挖掘網(wǎng)絡(luò)搜索數(shù)據(jù),揭示了網(wǎng)絡(luò)搜索和世園會(huì)客流量之間存在的關(guān)系。以西安世園會(huì)為實(shí)例,建立回歸模型,運(yùn)用Eviews軟件檢驗(yàn)網(wǎng)絡(luò)搜索數(shù)據(jù)和世園會(huì)客流量之間的相關(guān)性、協(xié)整性、因果關(guān)系等,驗(yàn)證模型的可用性,并用之進(jìn)行青島世園會(huì)客流量的預(yù)測。
[關(guān)鍵詞]預(yù)測;網(wǎng)絡(luò)搜索量;客流量;世園會(huì);回歸模型
doi:10.3969/j.issn.1673-0194.2013.08.023
[中圖分類號(hào)]F201[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2013)08-0044-04
0 引 言
世園會(huì)是建設(shè)國際化大都市的重要突破口,展示了國家經(jīng)濟(jì)、科學(xué)技術(shù)、農(nóng)業(yè)園林藝術(shù)等方面的成就。世園會(huì)是世界各國展示花卉園林園藝精品、開展科技文化交流的盛會(huì),也是各國人民相聚、相知、相互交流、增進(jìn)友誼的平臺(tái)。同時(shí),我們也力求以世園會(huì)為契機(jī),傳遞好中國政府推進(jìn)科學(xué)發(fā)展、建設(shè)生態(tài)文明的執(zhí)政理念,充分展示我國加強(qiáng)生態(tài)建設(shè)、再造秀美山川的巨大成就。對(duì)世園會(huì)客流量的準(zhǔn)確預(yù)測有助于更好地為盛會(huì)召開做好準(zhǔn)備服務(wù)實(shí)現(xiàn)此次盛會(huì)的價(jià)值,促進(jìn)我國社會(huì)、經(jīng)濟(jì)、文化等各方面的全面發(fā)展。
對(duì)于客流量的預(yù)測,許多學(xué)者都提出了自己的模型,預(yù)測方法已有300多種,歸納起來大致分為定性預(yù)測和定量預(yù)測2類。常用的定性預(yù)測方法有頭腦風(fēng)暴法、專家調(diào)查法、主觀概率法、相互影響分析法等;定量預(yù)測方法有指數(shù)平滑法、回歸分析法、馬爾可夫分析法、客流調(diào)查法、灰色系統(tǒng)法、神經(jīng)網(wǎng)絡(luò)法等。當(dāng)然有時(shí)也會(huì)把多種方法結(jié)合起來運(yùn)用以提高擬合度和準(zhǔn)確度。然而,這些傳統(tǒng)的預(yù)測方法需要依托于傳統(tǒng)的數(shù)據(jù),這些數(shù)據(jù)是由官方統(tǒng)計(jì)、定期發(fā)布的,雖然具有很高的可信度和一定的權(quán)威性,但是時(shí)效性差、難以查詢、獲取的成本太高。因此,本文采用了一種新的方法來獲取數(shù)據(jù):網(wǎng)絡(luò)數(shù)據(jù),同時(shí)運(yùn)用最基本的方法進(jìn)行分析,建立新的預(yù)測模型。
1 數(shù)據(jù)處理
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)深入到人們的生活中,成為必不可少的一部分。人們?cè)缫蚜?xí)慣了出行或者購物之前上網(wǎng)查詢相關(guān)的信息,這些查詢信息所用的關(guān)鍵詞可以被搜索引擎記錄下來,并形成了系統(tǒng)的數(shù)據(jù),為各個(gè)方面的應(yīng)用提供數(shù)據(jù)支持。
1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取及關(guān)鍵詞的選擇
1.1.1 網(wǎng)絡(luò)數(shù)據(jù)的獲取方法
目前提供這種關(guān)鍵詞搜索指數(shù)的主要有百度和谷歌,即百度指數(shù)(http://index.baidu.com)和谷歌趨勢(shì)(http://www.google.com/trends/)。百度指數(shù)是用以反映關(guān)鍵詞在過去30天內(nèi)的網(wǎng)絡(luò)曝光率及用戶關(guān)注度,它能形象地反映該關(guān)鍵詞每天的變化趨勢(shì)。谷歌趨勢(shì)(又名:Google Trends )有2個(gè)功能:①查看關(guān)鍵詞在Google的搜索次數(shù)及變化趨勢(shì),②查看網(wǎng)站流量(Google trends for websites)。
1.1.2 關(guān)鍵詞的選取
對(duì)于關(guān)鍵詞的選取,搜索引擎優(yōu)化(SEO)會(huì)提供關(guān)鍵詞優(yōu)化工具得到相關(guān)聯(lián)的關(guān)鍵詞,另外還有一些是專門的關(guān)鍵詞挖掘工具,比如百度推廣、谷歌關(guān)鍵詞工具(Google AdWords)、站長工具(http://www.7c.com/keyword/)、愛站網(wǎng)(http://www.aizhan.com/)。本文采用一種動(dòng)態(tài)選擇的方法:先根據(jù)經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后運(yùn)用上述工具找到相關(guān)聯(lián)的關(guān)鍵詞,去掉搜索量少的;以上一步剩余的關(guān)鍵詞為基準(zhǔn)關(guān)鍵詞,用相關(guān)工具找到關(guān)聯(lián)關(guān)鍵詞,并進(jìn)行篩選,如此進(jìn)行循環(huán),直到相關(guān)聯(lián)的關(guān)鍵詞出現(xiàn)大量重復(fù)。
1.2 網(wǎng)絡(luò)數(shù)據(jù)的處理方法
互聯(lián)網(wǎng)提供海量的數(shù)據(jù),從這些數(shù)據(jù)中找到有用的信息需要經(jīng)過數(shù)據(jù)挖掘和處理。本文運(yùn)用最簡單的數(shù)學(xué)模型得出良好的效果。本文需要進(jìn)行協(xié)整性檢驗(yàn)、因果關(guān)系檢驗(yàn),所以選擇計(jì)量經(jīng)濟(jì)學(xué)觀察(Eviews)來分析處理關(guān)鍵詞的搜索量指數(shù)。
1.2.1 Eviews簡介
Eviews是Econometrics Views的縮寫,主要應(yīng)用在經(jīng)濟(jì)學(xué)領(lǐng)域,可用于回歸分析與預(yù)測(regression and forecasting)、時(shí)間序列(Time series)以及橫截面數(shù)據(jù)(cross-sectional data )分析。EViews提供單元根檢驗(yàn)(用于單個(gè)序列的ADF,Phillips-Perron,KPSS,DFGLS,ERS 和 Ng-Perron,及用于面板數(shù)據(jù)(panel data)的Levin-Lin-Chu,Breitung, Im-Pesaran-Shin,F(xiàn)isher和 Hadri),協(xié)整檢驗(yàn)(帶有MacKinnon-Haug-Michelis關(guān)鍵值和p值),因果關(guān)系檢驗(yàn),自相關(guān)和部分自相關(guān)函數(shù),Q統(tǒng)計(jì)和互相關(guān)函數(shù)。與其他統(tǒng)計(jì)軟件(如Excel、SAS、SPSS)相比,Eviews功能優(yōu)勢(shì)是回歸分析與預(yù)測。
1.2.2 關(guān)鍵詞搜索數(shù)據(jù)處理的具體步驟
1.2.2.1 相關(guān)性檢驗(yàn)
把世園會(huì)的客流量叫做因變量,用Y來表示;各個(gè)關(guān)鍵詞的搜索量叫做自變量,用Xi來表示。變量之間存在的不確定的數(shù)量關(guān)系稱為相關(guān)關(guān)系,研究這種相關(guān)關(guān)系是統(tǒng)計(jì)分析中一項(xiàng)重要內(nèi)容。相關(guān)系數(shù)是兩個(gè)變量之間相關(guān)關(guān)系密切程度的一個(gè)指標(biāo),能夠較為客觀、準(zhǔn)確地測量變量之間的這種相關(guān)關(guān)系,在本模型中把相關(guān)系數(shù)大的關(guān)鍵詞列入到模型中。
1.2.2.2 平穩(wěn)性檢驗(yàn)
如果一個(gè)隨機(jī)過程的均值和方差在時(shí)間過程上都是常數(shù),并且在任何兩時(shí)期的協(xié)方差值僅依賴于該兩時(shí)期間的距離或滯后,而不依賴于計(jì)算這個(gè)協(xié)方差的實(shí)際時(shí)間,就稱它為平穩(wěn)的。將一個(gè)隨機(jī)游走變量(即非平穩(wěn)數(shù)據(jù))對(duì)另一個(gè)隨機(jī)游走變量進(jìn)行回歸可能導(dǎo)致荒謬的結(jié)果,證明兩者之間的關(guān)系是不存在的。
有時(shí)候時(shí)間序列的高度相關(guān)僅僅是因?yàn)槎咄瑫r(shí)隨時(shí)間有向上或向下變動(dòng)的趨勢(shì),并沒有真正的聯(lián)系,這種情況就稱為“偽回歸”(Spurious Regression)。
1.2.2.3 建立回歸方程并進(jìn)行協(xié)整性檢驗(yàn)
有時(shí)雖然兩個(gè)變量都是隨機(jī)游走的,但它們的某個(gè)線形組合卻可能是平穩(wěn)的,稱這兩個(gè)變量是協(xié)整的。
由于很多時(shí)間序列數(shù)據(jù)都是不平穩(wěn)的,可能受某些共同因素的影響,從而在時(shí)間上表現(xiàn)出共同的趨勢(shì),即變量之間存在一種穩(wěn)定的關(guān)系,因此某種線性組合可能是平穩(wěn)的,即存在協(xié)整關(guān)系。
檢驗(yàn)的方法:對(duì)于檢驗(yàn)時(shí)間序列Xi和Y之間是否存在協(xié)整關(guān)系,首先用OLS建立回歸方程并進(jìn)行估計(jì)。然后,檢驗(yàn)殘差是否是平穩(wěn)的,因?yàn)槿绻鸛i和Y沒有協(xié)整關(guān)系,任一線性組合都是非平穩(wěn)的,殘差也將是非平穩(wěn)的。
1.2.2.4 模型的預(yù)測
進(jìn)行完一系列的準(zhǔn)備工作后,要做的是運(yùn)用建好的模型進(jìn)行預(yù)測,把預(yù)測的客流量和真實(shí)的客流量進(jìn)行分析,比較其誤差,最后進(jìn)行模型的修正,取得較好的擬合度。
2 實(shí)證分析
2.1 數(shù)據(jù)來源
本文以西安世園會(huì)為研究對(duì)象,西安世園會(huì)是A2+B1級(jí)別,2011年4月28日開始到2011年10月22日結(jié)束,在開園期間設(shè)有專門人員統(tǒng)計(jì)每天的客流量發(fā)布在官方指定的媒介上,本文以此數(shù)據(jù)作為回歸模型y=c+■βixi+ei中的因變量y,其中c為常數(shù)項(xiàng),ei為回歸方程的殘差。自變量xi(各個(gè)關(guān)鍵詞的搜索量)來源于谷歌趨勢(shì),以周為單位進(jìn)行處理,并與因變量y在時(shí)間上一一對(duì)應(yīng)。
2.2 關(guān)鍵詞的選取
首先是按照經(jīng)驗(yàn)找到一些基準(zhǔn)關(guān)鍵詞,然后以此為基礎(chǔ),運(yùn)用前面介紹的關(guān)鍵詞查找工具找到一系列的關(guān)鍵詞。比如,有經(jīng)驗(yàn)得到的基準(zhǔn)關(guān)鍵詞為西安,運(yùn)用愛站網(wǎng)可以得到相關(guān)關(guān)鍵詞西安天氣、西安公交、西安旅游、西安吧、西安辦證、西安事變、西安地鐵等等。之后用谷歌趨勢(shì)找出每個(gè)關(guān)鍵詞的搜索量指數(shù),去掉因?yàn)樗阉髁刻俣鵁o法形成搜索指數(shù)的關(guān)鍵詞,進(jìn)行初步的篩選,如表1所示。
關(guān)鍵詞確定后畫出各個(gè)關(guān)鍵詞和客流量之間的關(guān)系圖,初步判定關(guān)鍵詞和客流量之間的相關(guān)關(guān)系,去掉相關(guān)性差的關(guān)鍵詞,關(guān)鍵詞和客流量的相關(guān)關(guān)系圖如圖1所示。
然后用Eviews計(jì)算出關(guān)鍵詞和客流量之間的相關(guān)系數(shù),結(jié)果如表2所示。
2.3 關(guān)鍵詞序列的平穩(wěn)性檢驗(yàn)
為確保各關(guān)鍵詞和客流量之間存在著回歸關(guān)系,提高模型的準(zhǔn)確度,需要對(duì)序列進(jìn)行平穩(wěn)性檢驗(yàn),運(yùn)用Augmented Dickey-Fuller test(增項(xiàng)DF單位根檢驗(yàn))進(jìn)行檢驗(yàn),判斷是否平穩(wěn)的標(biāo)準(zhǔn)是檢驗(yàn)統(tǒng)計(jì)量大于臨界值則拒絕原假設(shè),即序列式不平穩(wěn);反之,序列式平穩(wěn)。通過平穩(wěn)性檢驗(yàn),得出各關(guān)鍵詞組成的時(shí)間序列二階差分在各個(gè)顯著性水平下都是平穩(wěn)的,結(jié)果如表3所示。
2.4 回歸模型的建立和協(xié)整檢驗(yàn)
根據(jù)以上分析,確定出可以用于模型建立的關(guān)鍵詞,運(yùn)用Eviews用最小二乘法建立回歸模型,得出因變量系數(shù)、殘差以及殘差和真實(shí)數(shù)據(jù)之間的關(guān)系圖,由于自變量較多、各自變量的系數(shù)也較大,具體的回歸模型用圖2顯示;圖3為所建模型與世園會(huì)真實(shí)客流量之間的擬合關(guān)系圖。
由上可知,所建模型的擬合度是88%,具有較高的準(zhǔn)確度,可以用于預(yù)測。
為了使模型更具有說服力,驗(yàn)證因變量和自變量之間具有長期穩(wěn)定性,即協(xié)整性檢驗(yàn),具體方法是檢驗(yàn)回歸方程的殘差是否平穩(wěn)序列,如果是平穩(wěn)序列則說明是具有長期穩(wěn)定性;反之則沒有,結(jié)果如表4所示。
由表4分析可知?dú)埐钍瞧椒€(wěn)序列,所以存在協(xié)整關(guān)系。
2.5 模型預(yù)測
青島世園會(huì)與西安世園會(huì)的相似之處:
(1)級(jí)別都是A2+B1。
(2)在第六次人口普查時(shí),青島常住人口871.51萬,西安常住人口846.78萬,常住人口數(shù)量基本持平。
(3)西安的景點(diǎn)共有20處,青島的景點(diǎn)共有16處,在總數(shù)上接近。
(4)2011年西安GDP3 864.21億元人民幣 ,常住人口846萬 ,人均GDP:45 676.24元人民幣;青島GDP5 666億元,常住人口872萬,人均GDP:64 977元人民幣。
綜上所述,西安和青島都是旅游城市,人口數(shù)量,經(jīng)濟(jì)發(fā)展總量基本相當(dāng),世園會(huì)級(jí)別相同。因此,可以把上面建立的模型用于青島世園會(huì)的客流量預(yù)測。具體的方法是:找到與西安世園會(huì)相類似的關(guān)鍵詞,比如用青島代替西安、棧橋代替兵馬俑、青島天氣代替西安天氣等,把這些與青島有關(guān)的關(guān)鍵詞的搜索量作為模型中相對(duì)應(yīng)的自變量的數(shù)值,代入模型求值即可得出搜索量一定時(shí)青島世園會(huì)的客流量。
3 結(jié) 論
本文提出了一種基于網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行青島世園會(huì)客流量預(yù)測模型,根據(jù)西安和青島兩個(gè)城市的諸多相似之處,通過使用西安世園會(huì)的數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證,把建立好的模型用于青島世園會(huì)的預(yù)測。該模型采用網(wǎng)絡(luò)數(shù)據(jù)作為分析的依據(jù),避免了傳統(tǒng)數(shù)據(jù)的弊端,同時(shí)使用簡單的回歸模型,避免了灰色理論、神經(jīng)網(wǎng)絡(luò)等方法的繁瑣的計(jì)算,取得了較高的擬合度和準(zhǔn)確度。另外,該方法具有較高的時(shí)效性,能夠更早地被相關(guān)的人員利用,提早為各項(xiàng)工作做好準(zhǔn)備。
主要參考文獻(xiàn)
[1]J Ginsberg,M H Mohebbi,R S Patel,etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature,2009,457:1012-1014.
[2]劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)股票市場的預(yù)測能力:理論分析與實(shí)證檢驗(yàn)[J].經(jīng)濟(jì)管理,2011(1).
[3]袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷售預(yù)測研究[J].管理學(xué)家:學(xué)術(shù)版,2011(1).
[4]周子健.基于網(wǎng)絡(luò)搜索量的上海世博會(huì)國際影響力研究[J].藝海,2011(5).
[5]王小平,孫彩賢.基于多元回歸模型的2010年上海世博會(huì)客流量預(yù)測分析[J].江漢大學(xué)學(xué)報(bào),2010(2).