趙國棟
和一些企業(yè)交流時,有幾個問題會被經常問到,“沒有多少數據怎么辦”、“大數據都是大公司的事情,我們小公司怎么辦”、“能不能告訴我,哪些軟件或者工具可以解決大數據的問題”一般情況下,我都會說,首先要有大數據思維!
但什么才是大數據思維,我以大數據飛輪模型來概括。大數據飛輪(見右圖)涵蓋了大數據思維的全部思想。
怎樣拼數據資產
大數據飛輪模型的上半部分,關系到企業(yè)是如何認知哪些是自己的數據,也是大數據的商業(yè)功用。就是說有了大數據我們能干什么?怎么賺錢?有哪些好玩的商業(yè)模式?
大數據的商業(yè)功能即常見的商業(yè)模式,包括租售數據模式、租售信息模式、數字媒體模式、數據使能模式、數據空間運營模式以及大數據技術提供商。
如果我們在企業(yè)層面觀察,上述的商業(yè)模式就是典型的大數據的功用。但這遠遠不是全部。跳出具體的企業(yè),從產業(yè)層面考察,其實產業(yè)間的興衰交替、攻掠征伐,已經過渡到數據資產比拼的階段了。
那些擁有優(yōu)質數據資產的公司,挾天子以令諸侯,不斷地攻伐、侵襲其他產業(yè)的傳統(tǒng)領地。產業(yè)融合大幕隨之拉開,天平卻向這些新興的公司傾斜。由此也得出我們第一個公司價值的判斷標準:大數據時代,公司的價值與其數字資產的規(guī)模、活性成正比,與其解釋、運用數據的能力成正比。
比如,谷歌通過提供搜索、郵件等廣受歡迎的網絡服務,獲取人們大量的行為數據,加上谷歌自己抓取的網頁數據,構成谷歌大數據資產。谷歌利用這些數據資產,開始涉足基礎電信業(yè)務、IT解決方案、媒體、終端,甚至是傳統(tǒng)的IDC(互聯(lián)網數據中心)業(yè)務。而在這所有業(yè)務中,來自媒體的廣告業(yè)務,每天為谷歌提供現(xiàn)金流。所有其他涉足的行業(yè),都以免費或者成本價殺入。谷歌也不是活雷鋒,雖然它新進入的行業(yè)不以盈利為目的,但是卻拿走了這個行業(yè)至關重要的數據,成為它數據資產的一部分。
資產評估:從顆粒度到關聯(lián)度
接下來,大家自然而然地關心,數據這么值錢,理所當然應構成新型的資產。這也是大數據飛輪的中間部分,“數據成為資產”這一論斷是大數據思維的中心理論。優(yōu)秀的數據思維,必然反映在優(yōu)質數據資產上。我們難以定量評價一個人的數據思維,所以只好退而求其次,關心在數據思維的影響下,數據資產的優(yōu)劣。數據資產的價值從五個維度來評估,分別是規(guī)模、活性、多維度、關聯(lián)性、顆粒度。這五個維度,沒有絕對的數值可以參考。只能給出定性的描述,具體到每個行業(yè),需要根據這個模型來靈活運用。
顆粒度指標反映數據的精細化程度。那些宏觀的數據,價值含量較低。相反那些細化到個人、單品的數據,才會帶來前所未有的洞察,這也是和精細化管理的思想緊密相關的。早期管理者認為工業(yè)產品沒有差別,同一個批次、型號的產品是一模一樣的。但是現(xiàn)在人們需要管理到“單品”,也就是每一件產品。提高社會治理水平,也是逐漸細化“管理單元”的過程。秦始皇設定“郡縣”,這是當時最小的國家機構,傳統(tǒng)戲劇中經常戲謔“七品芝麻官”。但是現(xiàn)代的管理單元已經細化到100米乘100米的正方形,形象的稱為“網格”,一個網格中,很可能只有一座樓房而已。
所以我們把顆粒度作為反映數據資產質量的第一個維度。細化到一個人、一件單品、一個網格、一個門牌號、一個零件??鋸埖恼f,就算是一粒沙,也要清清楚楚的記錄下它的位置、大小、重量,甚至因風吹浪打漂流的軌跡。
多維度指標借用空間維度的概念,來指代數據來源的豐富性。每增加一個數據維度,則會影響所有原數據的分析和判斷,甚至會帶來顛覆性的證據。
FICO信用評分是美國評估個人信用級別的通行標準。幾乎每個美國人都有一個FICO評分。當人們申請信用卡、汽車貸款、住房貸款時,大多數的信貸機構都會參考申請者的FICO得分。但是在其發(fā)展的初期,F(xiàn)ICO模型中,僅僅依賴申請人在現(xiàn)有住址住了多久、為現(xiàn)在的企業(yè)工作了多長時間、申請人賬號開設了多久等數據。
根據這個評估標準,幾乎所有30歲以下的人,都會存在很大的信用風險。而現(xiàn)在淘寶上的購買主力,恰恰是以年輕人為主。所以零售商們群起反對,這些條款限制了發(fā)卡人數,不利于刺激消費。當FICO增加了評估數據的維度時,譬如納入教育水平、職業(yè)等指標后,那些受過良好的教育,從事體面職業(yè)的人,也就獲得了信用卡。事實證明,他們的違約率也很低。
在多維度指標中,我們尤其重視一類“先驗”數據維度。譬如人們在買股票的時候,一定先觀察一支股票的行情走勢;人們在買商品的時候,一定會對比和詢價?;ヂ?lián)網有助于把這些數據收集起來,進行分析,可以預測未來人們是否會買入股票或者商品。
數據的活性,指數據被更新的頻次。頻次越高,活性越大。Facebook在2012年10月慶祝月度活躍用戶超過10億,這里的活躍用戶,和數據的活性緊密相關。股民對換手率指標非常熟悉,換手率標志股票交易是否活躍,成為判斷股價走勢非常重要的指標。
曾經有一家公司不知道他們的數據能否算作大數據,這家公司收集了大量的用戶繳費數據,譬如交水電費、煤氣費、有線電視費等。毫無疑問,這些數據非常有價值,但就是活性稍差,用戶繳費最多也是一個月交一次費用。而微信的數據,無疑是最具活性的數據之一,體現(xiàn)出實時的價值。
規(guī)模指標最容易理解。沒有“量”的積累,就沒有“質”的突破。數據量的增長,即是數據規(guī)模的擴大。但是到底有多大規(guī)模,才能是算是“大”數據,的確是各行各業(yè)都很關心的問題。譬如互聯(lián)網應用,如果沒有1000萬用戶,估計很難稱為大規(guī)模。但是如果一家券商擁有1000萬個A股賬戶,那絕對是呼風喚雨的“老大”。規(guī)模這個指標很重要,但不需要執(zhí)著于此指標。不同行業(yè),不同的業(yè)務特征,對規(guī)模的定義完全不同。數據思維要先行于數據規(guī)模。
關聯(lián)度指標,反映不同多維數據之間的內在聯(lián)系。之所以把關聯(lián)度拿出來單獨討論,主要原因是同一企業(yè)內部存在大量的“孤島”現(xiàn)象,不同部門之間積累的數據無法融合,形不成合力。
[編輯 胡 俊]
E-mail:hj@chinacbr.com