□ 文 郭曉韞
挖掘數(shù)據(jù)價(jià)值的四個(gè)基本步驟
□ 文 郭曉韞
紛繁復(fù)雜的數(shù)據(jù)在為決策者帶來(lái)便利的同時(shí),也對(duì)數(shù)據(jù)解讀能力提出了更高的要求。許多企業(yè)已開(kāi)始重新定義數(shù)據(jù),在大數(shù)據(jù)的浪潮下開(kāi)始把運(yùn)營(yíng)數(shù)據(jù)提升到一個(gè)前所未有的高度。
全球第一家信息技術(shù)研究和分析公司Gartner對(duì)大數(shù)據(jù)給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的意義不僅僅在于掌握龐大的數(shù)據(jù)信息,更在于對(duì)這些有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理之后產(chǎn)生的價(jià)值[1]。
先從一個(gè)具體的案例入手。維斯塔斯風(fēng)力系統(tǒng),依靠BigInsights軟件和IBM超級(jí)計(jì)算機(jī),對(duì)氣象數(shù)據(jù)進(jìn)行分析,然后找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成,大數(shù)據(jù)的落地大大縮短了決策時(shí)間。從上面這個(gè)簡(jiǎn)單的例子,我們可以抽象出數(shù)據(jù)落地的幾個(gè)基本步驟:1、確定需要解決的問(wèn)題;如上所述,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)就是需要解決的眼下問(wèn)題;2、判別關(guān)系,確定分析邏輯;對(duì)氣象數(shù)據(jù)進(jìn)行分析,氣象數(shù)據(jù)能與安裝地點(diǎn)優(yōu)劣進(jìn)行關(guān)聯(lián);3、清洗數(shù)據(jù),深入判別關(guān)系,尋找數(shù)據(jù)的規(guī)律;對(duì)氣象數(shù)據(jù)進(jìn)一步挖掘分析;4、數(shù)據(jù)應(yīng)用,驗(yàn)證效果,并不斷循環(huán)改進(jìn)。
如例子所述,現(xiàn)在僅需要不足1小時(shí)便可完成數(shù)據(jù)分析的工作,大大提升了效率,縮短了決策時(shí)間。而且此應(yīng)用還是一個(gè)周而復(fù)始的過(guò)程,可以不斷地進(jìn)行驗(yàn)證、改進(jìn)、提升。
現(xiàn)實(shí)中運(yùn)用數(shù)據(jù)的地方很多,需要解決的問(wèn)題繁簡(jiǎn)不一,都具備特定的場(chǎng)景。特定場(chǎng)景的應(yīng)用方案,就是需要知道要解決什么問(wèn)題,再根據(jù)這個(gè)問(wèn)題展開(kāi),逐個(gè)擊破,最后匯集到問(wèn)題的原點(diǎn),找到解決的辦法,這樣以問(wèn)題為導(dǎo)向的數(shù)據(jù)應(yīng)用才有意義,才可以做到在茫茫的數(shù)據(jù)海洋中不迷失方向。
在確定了需要解決的問(wèn)題后,就可以著手把問(wèn)題逐層分解,這時(shí)最常用的分析邏輯就是“邏輯樹(shù)”的分析方法。所謂邏輯樹(shù),指的是一種思考的框架,將包含前提事件在內(nèi)的問(wèn)題,按照該問(wèn)題相關(guān)的因素,細(xì)致拆分成小的問(wèn)題。[2]
例如在分析業(yè)績(jī)不佳時(shí),通常都會(huì)對(duì)這個(gè)問(wèn)題進(jìn)行原因拆解。是無(wú)法提高每位顧客的銷售額?還是無(wú)法增加新的顧客?還是宏觀的市場(chǎng)大環(huán)境影響?在每一個(gè)問(wèn)號(hào)的背后又可以繼續(xù)分解,比如“無(wú)法提高每位顧客的銷售額?”這個(gè)節(jié)點(diǎn),我們可以思考是沒(méi)有提高每件商品的價(jià)格?還是沒(méi)有增加每位顧客的購(gòu)買量等?然后先進(jìn)行定性的假設(shè)判斷,形成解決問(wèn)題的基本邏輯思路。
當(dāng)然,在復(fù)雜的市場(chǎng)環(huán)境里每個(gè)問(wèn)題都存在著很多影響因素,有宏觀因素、價(jià)格因素、銷量因素、廣告因素等,這些因素中有真的關(guān)系也有假的關(guān)系,有強(qiáng)的關(guān)系也有弱的關(guān)系,關(guān)系之間需要一張網(wǎng)把它們貫穿起來(lái),這個(gè)就是分析的邏輯推導(dǎo),但許多時(shí)候數(shù)據(jù)分析人員往往陷入只看數(shù)據(jù),缺乏整體思維邏輯,所以分析邏輯是一個(gè)周密地解決問(wèn)題的模擬過(guò)程,是講一個(gè)好故事的基礎(chǔ)所在。
明確了需要解決的問(wèn)題,理順了分析的邏輯,那么就應(yīng)該按需清洗數(shù)據(jù),通過(guò)數(shù)據(jù)深入挖掘再次分析因素間的關(guān)系,并進(jìn)行變形尋找數(shù)據(jù)規(guī)律。我們也知道,絕大部分的數(shù)據(jù)單從表面上看,是很難看出關(guān)系的,必須要經(jīng)過(guò)數(shù)據(jù)清洗才能更好地還原數(shù)據(jù)的本貌。數(shù)據(jù)清洗是一個(gè)過(guò)程,需要對(duì)缺失值、噪聲和不一致性進(jìn)行處理。而處理的關(guān)鍵,有一點(diǎn)往往被忽略了,那就是對(duì)市場(chǎng)的認(rèn)知和數(shù)據(jù)邏輯上的理解,這個(gè)也是數(shù)據(jù)挖掘能力分水嶺的關(guān)鍵之一。
一般來(lái)說(shuō),各種因素之間只要有關(guān)系,均會(huì)存在著最基本的兩種形態(tài),可以建立這兩類模型來(lái)分析,一種是因果關(guān)系類模型(causal model),另一種是相關(guān)關(guān)系類模型(correlation model),這兩者的區(qū)別很重要,不同的關(guān)系模型,在實(shí)際運(yùn)用中解決的問(wèn)題也存在著根本性的差異。因果關(guān)系模型告訴我們改變結(jié)果的辦法和量級(jí)。相關(guān)關(guān)系模型雖沒(méi)有直接告訴導(dǎo)致結(jié)果的原因,但對(duì)于結(jié)果本身是存在著關(guān)聯(lián)性的,這種關(guān)聯(lián)性也為實(shí)際的數(shù)據(jù)發(fā)掘提供了理論基礎(chǔ)。相關(guān)關(guān)系模型最典型的例子就是購(gòu)物籃分析[3]。購(gòu)物籃分析就是運(yùn)用了相關(guān)關(guān)系,讓決策者知道哪些商品頻繁地被顧客同時(shí)購(gòu)買,從而在商品擺放時(shí)把關(guān)聯(lián)的商品就近擺放,這已經(jīng)有效地被運(yùn)用于營(yíng)銷規(guī)劃、廣告策略或者分類設(shè)計(jì)等當(dāng)中。以零售業(yè)為例,在零售領(lǐng)域監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng),將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開(kāi)分析,從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見(jiàn),此類方法已經(jīng)幫助零售企業(yè)減少了存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤(rùn)率自有品牌商品的比例?,F(xiàn)今電商如淘寶、京東等,都會(huì)根據(jù)用戶的瀏覽行為推薦不同的產(chǎn)品,這也是相關(guān)關(guān)系的一個(gè)很好的應(yīng)用。
在深入判別了關(guān)系后,就需要順藤摸瓜,尋找數(shù)據(jù)的規(guī)律,在這個(gè)過(guò)程中,也許就需要一些數(shù)據(jù)的變形,使得尋找規(guī)律更得心應(yīng)手一些。舉一個(gè)直觀的例子,汽車數(shù)據(jù)研究公司威爾森曾對(duì)汽車價(jià)格數(shù)據(jù)與汽車的庫(kù)存數(shù)據(jù)做過(guò)這樣一個(gè)研究。在清洗分析完數(shù)據(jù)之后,他們發(fā)現(xiàn)對(duì)于汽車的成交價(jià)數(shù)據(jù),由于受型號(hào)權(quán)重變化影響,加權(quán)成交價(jià)并不是一個(gè)很好的反映價(jià)格變化趨勢(shì)的指標(biāo)。這時(shí)就需要先設(shè)立一個(gè)定性的假設(shè),假設(shè)他們之間是有關(guān)系的,但成交價(jià)格跟庫(kù)存之間究竟存在著什么樣的關(guān)系呢?威爾森在需求研發(fā)階段便設(shè)計(jì)出6種不同的算法,最后經(jīng)過(guò)反復(fù)討論驗(yàn)證,設(shè)計(jì)出MMI(MoM Market Value Index)——以市值為基礎(chǔ)的環(huán)比算法。該算法既能準(zhǔn)確反映價(jià)格環(huán)比變化,又包含當(dāng)前不同型號(hào)的權(quán)重信息,威爾森采用以下方式計(jì)算汽車庫(kù)存深度:
這里有一個(gè)細(xì)節(jié),就是基于對(duì)市場(chǎng)的認(rèn)知,使用了上月末的庫(kù)存,而不是本月末的庫(kù)存,因?yàn)榻?jīng)銷商往往會(huì)根據(jù)上月末的庫(kù)存狀況來(lái)制定本月的銷售策略,因此采用上月末庫(kù)存來(lái)計(jì)算庫(kù)存深度更能反映經(jīng)銷商的庫(kù)存壓力。這一數(shù)據(jù)變形后可以清晰地展現(xiàn)出庫(kù)存深度與價(jià)格環(huán)比變化存在顯著的負(fù)相關(guān)關(guān)系,這也證明了之前的定性假設(shè)是正確的。那么接下來(lái),就是量化這個(gè)定性的關(guān)系。如上所述,在尋找到合適的算法之后,通過(guò)正確合理的數(shù)學(xué)建模,可以把因素的變化量化出來(lái),從而指導(dǎo)實(shí)際的決策,如上面這個(gè)例子,最終可以量化出庫(kù)存深度變動(dòng),成交價(jià)格相應(yīng)變化得出一個(gè)量化的值,這樣就會(huì)非常直觀地指導(dǎo)決策了。尋找因素間規(guī)律的方法很多,常見(jiàn)的建模分析多為統(tǒng)計(jì)學(xué)上運(yùn)用的方法,如聚類分析、離群點(diǎn)分析等。
運(yùn)用機(jī)器學(xué)習(xí)方法研究市場(chǎng)問(wèn)題,現(xiàn)今已形成了新的學(xué)科方向,把數(shù)據(jù)應(yīng)用于現(xiàn)實(shí),需要做到理論、編程、統(tǒng)計(jì)建模、可計(jì)算思維四位一體。在應(yīng)用層面,最廣泛的方向就是為預(yù)測(cè)服務(wù)的例子。例如在德國(guó),通過(guò)電網(wǎng)每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買一定數(shù)量的電。因?yàn)橛秒娏咳绻崆百I就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本,這種預(yù)測(cè)性的發(fā)掘也就是基于相關(guān)性模型。而在數(shù)據(jù)應(yīng)用中,也是對(duì)模型和分析理解的一次驗(yàn)證,因此,數(shù)據(jù)的應(yīng)用是一個(gè)不斷循環(huán)迭代的過(guò)程,在大數(shù)據(jù)的分析中不斷應(yīng)用、驗(yàn)證、優(yōu)化、再應(yīng)用、再驗(yàn)證、再優(yōu)化,如此往復(fù)?!?/p>
(作者單位:廣州威爾森信息科技有限公司)
[1]段云峰,秦曉飛,大數(shù)據(jù)的互聯(lián)網(wǎng)思維,中國(guó)工信出版集團(tuán),2015.10
[2]大島祥譽(yù),麥肯錫工作法,中信出版社,2014.12
[3]JiaweiHan,Mieheline,Kamber,JianPei.?dāng)?shù)據(jù)挖掘概念與技術(shù),機(jī)械工業(yè)出版社,2012.8