劉潭飛 徐小艷
本文著眼于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)預(yù)測(cè)中的應(yīng)用問(wèn)題展開(kāi)探討,筆者結(jié)合個(gè)人在這方面的一些實(shí)踐工作經(jīng)驗(yàn)提出幾點(diǎn)思考和見(jiàn)解,希望借閱者能夠積極提出改進(jìn)意見(jiàn)。
大時(shí)代下的數(shù)據(jù)挖掘技術(shù)作為一門(mén)新的交叉學(xué)科,它的發(fā)展必定會(huì)將帶來(lái)諸多領(lǐng)域的變革。文中對(duì)于數(shù)據(jù)挖掘的實(shí)際應(yīng)用實(shí)例做了具體的分析和介紹,希望對(duì)在研究數(shù)據(jù)挖掘技術(shù)的發(fā)展的工作人員能起到一定的借鑒作用。
一、體育賽事預(yù)測(cè)
在世界杯進(jìn)行期間,谷歌、百度和微軟以及高盛等這些公司陸續(xù)推出了比賽結(jié)果的預(yù)測(cè)平臺(tái)。而這當(dāng)中百度的預(yù)測(cè)結(jié)果則更亮眼一些,全程預(yù)測(cè)64場(chǎng)比賽,預(yù)測(cè)準(zhǔn)確率達(dá)到67%,而在進(jìn)入淘汰賽以后其預(yù)測(cè)準(zhǔn)確率達(dá)到了94%。目前的互聯(lián)網(wǎng)公司具體取代套魚(yú)保羅試水賽事的預(yù)測(cè)同時(shí)也意味著在未來(lái)體育賽事會(huì)全面的被大數(shù)據(jù)預(yù)測(cè)所掌控。
Google的世界杯預(yù)測(cè)是建立于OptaSports海量的賽事數(shù)據(jù)的基礎(chǔ)上來(lái)進(jìn)一步構(gòu)建它最終的預(yù)測(cè)模型。百度在作為過(guò)去的5年以內(nèi)世界范圍內(nèi)987支球隊(duì)(其中包含國(guó)家隊(duì)和俱樂(lè)部隊(duì))在內(nèi)的3.7萬(wàn)場(chǎng)的比賽數(shù)據(jù),與此同時(shí),它和中國(guó)的彩票網(wǎng)站樂(lè)彩網(wǎng)以及歐洲必發(fā)指數(shù)的數(shù)據(jù)供應(yīng)商Spdex展開(kāi)合作,將博彩市場(chǎng)的預(yù)測(cè)數(shù)據(jù)進(jìn)行導(dǎo)入,繼而建立了能夠囊括199972名球員以及高達(dá)1.2億條數(shù)據(jù)的預(yù)測(cè)模型,并且還在這個(gè)基礎(chǔ)上進(jìn)行結(jié)果預(yù)測(cè)。
我們以互聯(lián)網(wǎng)公司的成功經(jīng)驗(yàn)看來(lái),只要是有體育賽事的歷史數(shù)據(jù)存在,以及同時(shí)和指數(shù)公司展開(kāi)合作,那么就可以展開(kāi)進(jìn)行其它賽事的合作預(yù)測(cè),像歐冠和NBA賽事等等。
二、股票市場(chǎng)預(yù)測(cè)
去年的時(shí)候,英國(guó)華威商學(xué)院及美國(guó)波士頓大學(xué)的物理系相關(guān)研究發(fā)現(xiàn),有用戶在通過(guò)對(duì)谷歌搜索金融的關(guān)鍵詞和金融市場(chǎng)的走向,其相對(duì)應(yīng)的投資戰(zhàn)略的具體收益達(dá)到326%。在此之前,又有一些專(zhuān)家曾嘗試著通過(guò)Twitter博文情緒來(lái)進(jìn)行股市的波動(dòng)預(yù)測(cè)。
那么從理論方面來(lái)說(shuō),股市的預(yù)測(cè)更加適合美國(guó)。而中國(guó)的股票市場(chǎng)則沒(méi)有辦法做到雙向盈利,也只有在股票上漲的時(shí)候才可以盈利,那么就會(huì)吸引部分游資利用信息不對(duì)稱等這些情況來(lái)進(jìn)行人為的股票市場(chǎng)規(guī)律的改變,所以,中國(guó)的股市相對(duì)來(lái)說(shuō)沒(méi)有較之穩(wěn)定的規(guī)律就預(yù)測(cè)起來(lái)比較困難了,那么與此同時(shí),我們?cè)趯?duì)一些結(jié)果產(chǎn)生決定性影響的變量數(shù)據(jù)則基本就沒(méi)有辦法被監(jiān)控進(jìn)去。
三、市場(chǎng)物價(jià)預(yù)測(cè)
對(duì)于CPI表征已經(jīng)發(fā)生的關(guān)于物價(jià)的浮動(dòng)情況,統(tǒng)計(jì)局的數(shù)據(jù)并不具備權(quán)威性。而相反的大數(shù)據(jù)則可能能夠幫助人們深入的了解未來(lái)物價(jià)的具體走向,以及提前通知通貨膨脹及經(jīng)濟(jì)危機(jī)。其中最為典型的例子應(yīng)該就是馬云在通過(guò)阿里B2B大數(shù)據(jù)提前知曉亞洲的金融危機(jī),那么實(shí)際上這也是阿里數(shù)據(jù)團(tuán)隊(duì)的功勞所在。
事實(shí)上,單個(gè)的商品價(jià)格預(yù)測(cè)起來(lái)更容易一些,特別是機(jī)票一類(lèi)這樣的標(biāo)準(zhǔn)化產(chǎn)品,以及去哪兒提供的“機(jī)票日歷”也是級(jí)別的預(yù)測(cè),告知客戶在幾個(gè)月以后機(jī)票價(jià)格的浮動(dòng)變化和大概位置。此外對(duì)于商品的生產(chǎn)和渠道成本以及大概的毛利處于充分競(jìng)爭(zhēng)的市場(chǎng)來(lái)說(shuō)是相對(duì)比較穩(wěn)定的,而和價(jià)格相關(guān)的變量又相對(duì)來(lái)說(shuō)比較固定,那么商品的供需關(guān)系在電子商務(wù)平臺(tái)就可以進(jìn)行實(shí)時(shí)的監(jiān)控,所以其價(jià)格又可以進(jìn)行預(yù)測(cè),且根據(jù)預(yù)測(cè)的結(jié)果又可以提供其具體購(gòu)買(mǎi)的時(shí)間建議,亦或是指導(dǎo)商家作動(dòng)態(tài)的價(jià)格調(diào)整及營(yíng)銷(xiāo)活動(dòng),為的就是能夠達(dá)到利益的最大化。
四、用戶行為預(yù)測(cè)
在用戶搜索行為和瀏覽行為以及評(píng)論歷史及個(gè)人資料等數(shù)據(jù)的基礎(chǔ)上,作為互聯(lián)網(wǎng)業(yè)務(wù)來(lái)說(shuō)可以洞察消費(fèi)者在這方面的整體需求,進(jìn)一步有針對(duì)性的進(jìn)行產(chǎn)品的生產(chǎn)和改進(jìn)以及營(yíng)銷(xiāo)。而像《紙牌屋》選擇的基本都是演員及劇情,并根據(jù)百度用戶的喜好來(lái)進(jìn)行比較精準(zhǔn)的廣告營(yíng)銷(xiāo)及阿里依據(jù)天貓用戶的特征將生產(chǎn)線定制產(chǎn)品承包下來(lái),亞馬遜則預(yù)測(cè)用戶的點(diǎn)擊行為進(jìn)行提前發(fā)貨.都是收益于互聯(lián)網(wǎng)用戶的行為預(yù)測(cè)。
受益于傳感器技術(shù)以及物聯(lián)網(wǎng)的實(shí)際發(fā)展,在線下的一些用戶的行為正處于醞釀時(shí)段。而一些免費(fèi)的商用WIFI和ibeacon技術(shù)以及攝像頭影像監(jiān)控和室內(nèi)的定位技術(shù)、NFC的傳感器網(wǎng)絡(luò)和排隊(duì)叫號(hào)系統(tǒng)等,都可以有效的探知用戶在線下的移動(dòng)及停留以及出行規(guī)律等出行數(shù)據(jù),從而展開(kāi)比較精準(zhǔn)的營(yíng)銷(xiāo)或者是產(chǎn)品的定制。
五、人體健康預(yù)測(cè)
中醫(yī)能夠通過(guò)望聞問(wèn)切幾種手段來(lái)發(fā)現(xiàn)一些隱藏在人體內(nèi)部的慢性疾病,甚至于看人體體制分析就可以明確的診斷出一個(gè)人在將來(lái)有可能會(huì)出現(xiàn)什么樣的癥狀。而人體體征的變化是具備一定的規(guī)律性的,在一些慢性病發(fā)生之前人體都會(huì)有比較持續(xù)性的異常癥狀。因此,從理論上來(lái)說(shuō),假如大數(shù)據(jù)將這些異常情況有效掌握了,那么就可以展開(kāi)慢性的疾病預(yù)測(cè)。
依據(jù)部分智能硬件,往往在慢性病的大數(shù)據(jù)預(yù)測(cè)會(huì)變成可能。那么可穿戴設(shè)備以及智能健康設(shè)備都能夠幫助人們收集人體的相關(guān)健康網(wǎng)絡(luò)數(shù)據(jù),同時(shí)也包括心率和體重以及血脂和血糖以及運(yùn)動(dòng)量及睡眠量等狀況的預(yù)測(cè)。假如這些數(shù)據(jù)都足以能夠準(zhǔn)備的精準(zhǔn)且較為全面,同時(shí)又可以形成算法的具體慢性病的預(yù)測(cè)模式,也許在未來(lái)你自己的設(shè)備就能提醒你在你的身體罹患某一種慢性病的實(shí)際風(fēng)險(xiǎn)。譬如像KickStarter上的MySpiroo就可以幫助哮喘病人收集他們的吐氣數(shù)據(jù)同時(shí)指導(dǎo)醫(yī)生對(duì)其未來(lái)的病情趨勢(shì)做進(jìn)一步的診斷。而對(duì)于急性病來(lái)說(shuō)比較難于預(yù)測(cè),其突變性以及隨機(jī)性促使其比較難于預(yù)測(cè)。
六、疾病疫情預(yù)測(cè)
在人們的搜索情況和購(gòu)物行為可以充分預(yù)測(cè)比較大面積的疫情爆發(fā)的可能性,而最為經(jīng)典的當(dāng)屬于“流感預(yù)測(cè)”就屬于此類(lèi)。假如來(lái)自于某一區(qū)域的流感或者是板藍(lán)根搜索需求逐漸增多,那么也就自然而然地可以有效推測(cè)此處應(yīng)該有流感出沒(méi)。
在世界杯以及高考和景點(diǎn)城市的預(yù)測(cè)以后,百度在最近推出了疾病預(yù)測(cè)產(chǎn)品。在目前來(lái)說(shuō)則又可以就流感和肝炎以及肺結(jié)核或者性病這四種類(lèi)型的病癥,針對(duì)全國(guó)范圍內(nèi)大部分地區(qū)的活躍度和趨勢(shì)圖等實(shí)際情況,展開(kāi)全面化的監(jiān)控。那么在未來(lái),百度疾病的預(yù)測(cè)監(jiān)控疾病種類(lèi)即將從目前的4種逐漸擴(kuò)展成為30余種,并且覆蓋更多比較常見(jiàn)的病癥及流行病種。而用戶則可以依據(jù)當(dāng)?shù)仡A(yù)測(cè)的結(jié)果來(lái)展開(kāi)比較有針對(duì)性的預(yù)防。
通過(guò)以上幾種大數(shù)據(jù)技術(shù)在經(jīng)濟(jì)預(yù)測(cè)中的實(shí)例應(yīng)用,我們做了簡(jiǎn)單的分析和了解,也借此說(shuō)明,大數(shù)據(jù)技術(shù)的應(yīng)用范疇當(dāng)即比較廣泛,即便如此,其也丞待更進(jìn)一步的加強(qiáng)。