翟松鋼
行業(yè)大數(shù)據(jù)的應(yīng)用是基于行業(yè)本身的特征去做的思考,我們會在行業(yè)大數(shù)據(jù)應(yīng)用方面把從需求角度分為兩大類:一方面是提供管理的支撐;另一方面是對數(shù)據(jù)中心建設(shè)的需求,包含數(shù)據(jù)的集中存儲和計(jì)算,也會涉及到數(shù)據(jù)資產(chǎn)管理的需求。
數(shù)據(jù)資產(chǎn)管理的概念,最近提得非常多。因?yàn)樵跀?shù)據(jù)時(shí)代,數(shù)據(jù)作為有價(jià)值的資產(chǎn)應(yīng)當(dāng)如何去管理,這方面其實(shí)包含很多需求,像數(shù)據(jù)治理、數(shù)據(jù)標(biāo)準(zhǔn)以及元數(shù)據(jù)標(biāo)準(zhǔn)的應(yīng)用,數(shù)據(jù)加工和數(shù)據(jù)共享方面的需求。
從行業(yè)內(nèi)部來看,數(shù)據(jù)來源有兩個(gè)方面,一方面是業(yè)務(wù)系統(tǒng)內(nèi)部所產(chǎn)生的數(shù)據(jù),每一個(gè)行業(yè)都積累著大量的歷史數(shù)據(jù)。另一方面是內(nèi)部數(shù)據(jù)之外涉及到第三方應(yīng)用的數(shù)據(jù)。從目前行業(yè)大數(shù)據(jù)應(yīng)用角度來說,真正有價(jià)值的應(yīng)用還是在業(yè)務(wù)系統(tǒng)內(nèi)部的業(yè)務(wù)數(shù)據(jù),但第三方的數(shù)據(jù)也在逐漸引入,并產(chǎn)生價(jià)值。
基于需求之外,我們把大數(shù)據(jù)的應(yīng)用進(jìn)行一些固定的場景化,其中一個(gè)應(yīng)用場景,可以稱之為業(yè)務(wù)數(shù)據(jù)的即席查詢,在業(yè)務(wù)系統(tǒng)原始結(jié)構(gòu)下,直接進(jìn)行明細(xì)及初步匯總數(shù)據(jù)的即席查詢,實(shí)時(shí)看到系統(tǒng)的狀況。
第二個(gè)場景是數(shù)據(jù)挖掘方面,這是我們大數(shù)據(jù)應(yīng)用的重要領(lǐng)域,結(jié)合行業(yè)特征引入一些相關(guān)算法,創(chuàng)建一些相關(guān)模型,進(jìn)行深入地分析并產(chǎn)生行業(yè)的業(yè)務(wù)價(jià)值。第三個(gè)場景是數(shù)據(jù)資產(chǎn)管理,包括元數(shù)據(jù)、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)共享,以及大數(shù)據(jù)公司經(jīng)??紤]的一個(gè)數(shù)據(jù)變現(xiàn)渠道的管理。
另外,在數(shù)據(jù)倉庫的應(yīng)用方面,簡單來說是數(shù)據(jù)的統(tǒng)一存儲、數(shù)據(jù)倉庫技術(shù)的建模以及數(shù)據(jù)集市的應(yīng)用?;谶@樣的應(yīng)用場景,綜合起來說,其應(yīng)用主要建立在以行業(yè)應(yīng)用系統(tǒng)積累的結(jié)構(gòu)化基礎(chǔ)之上,而大量的數(shù)據(jù)還是依托于行業(yè)運(yùn)行多年的歷史數(shù)據(jù)所帶來的價(jià)值。
基于需求和應(yīng)用場景的規(guī)劃,需要構(gòu)建一個(gè)基于OLTP+OLAP+Hadoop的大數(shù)據(jù)支撐環(huán)境,支撐聯(lián)機(jī)事務(wù)處理、聯(lián)機(jī)分析處理,以及分布式的存儲與計(jì)算。我們需要更多地結(jié)合用戶的業(yè)務(wù)特征、業(yè)務(wù)場景去構(gòu)造出符合用戶真正應(yīng)用需求的解決方案,這才是真正的業(yè)務(wù)指導(dǎo)。
郵政行業(yè)跟其他行業(yè)相比較,有一些特殊性,總體來說是中國郵政集團(tuán)及其下屬相關(guān)機(jī)構(gòu)。從大的方面來說,郵政業(yè)務(wù)分為兩個(gè)部分,一部分是普遍服務(wù),一部分是便民服務(wù)。
普遍服務(wù)指什么呢?有人群存在的地方一定有郵政業(yè)務(wù),在中國的郵政法里規(guī)定的中國郵政地區(qū)行使一些公共服務(wù)的職能,這些是基本支撐的服務(wù)功能。
除此之外,實(shí)際上還會產(chǎn)生非常多的便民服務(wù),包括郵務(wù)、速遞物流和金融,從組成來看,有31個(gè)省級分公司,上萬條郵路。由此可以看到,整個(gè)郵政行業(yè)的業(yè)務(wù)以及整個(gè)結(jié)構(gòu)還是非常復(fù)雜的,基于現(xiàn)狀,目前中國郵政實(shí)現(xiàn)了物流、資金流、信息流的三流合一。
從行業(yè)跨度來看,除了郵政本身的郵務(wù)之外,速遞物流和金融,兩個(gè)行業(yè)在國內(nèi)行業(yè)里還有非常強(qiáng)的競爭力。跨行業(yè)是更外圍的數(shù)據(jù),宏觀經(jīng)濟(jì)、公共職能的信息提供給郵政服務(wù),還有包含散落在互聯(lián)網(wǎng)的數(shù)據(jù)。從數(shù)據(jù)構(gòu)成復(fù)雜度的情況來說,郵政構(gòu)成也相當(dāng)復(fù)雜的,從體量角度來說,結(jié)構(gòu)化的數(shù)據(jù)大約占總量的20%,而半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)大概占80%,數(shù)據(jù)真正的價(jià)值密度相差非常大。半結(jié)構(gòu)化、結(jié)構(gòu)化的數(shù)據(jù),主要包含內(nèi)部的一些客服的語音數(shù)據(jù),現(xiàn)場的視頻監(jiān)控?cái)?shù)據(jù)和一些電子類的憑證數(shù)據(jù)。
金融類型的數(shù)據(jù)包含銀行、保險(xiǎn)、證券產(chǎn)生的交易數(shù)據(jù)。郵務(wù)類比較多信件、報(bào)刊,還有郵資分校業(yè)務(wù)。速遞物流的數(shù)據(jù),還有外部的數(shù)據(jù)以及其他支撐系統(tǒng)產(chǎn)生的數(shù)據(jù)都很好理解。
我們與中國郵政的合作歷程非常長,從2001年開始到現(xiàn)在,我們參與到金融的客管系統(tǒng)、反洗錢系統(tǒng)、內(nèi)容管理系統(tǒng)。
在郵政行業(yè),我們在大數(shù)據(jù)方面有一些實(shí)際的應(yīng)用案例。在中國郵政信息化規(guī)劃的藍(lán)圖中,可以看到以郵政三大業(yè)務(wù)板塊為核心的規(guī)劃下,周邊規(guī)劃大概有11個(gè)應(yīng)用支撐板塊,包括戰(zhàn)略管理、投資管理、績效管理以及人力資源管理、財(cái)務(wù)采購管理、風(fēng)險(xiǎn)審計(jì)、營銷以及網(wǎng)絡(luò)。為了支撐相關(guān)的業(yè)務(wù)系統(tǒng)的實(shí)現(xiàn),從信息化規(guī)劃角度實(shí)現(xiàn)了五大信息化平臺。包括戰(zhàn)略決策平臺、企業(yè)集約管理服務(wù)平臺、風(fēng)控管理平臺、全程全網(wǎng)的業(yè)務(wù)服務(wù)平臺以及三大板塊的核心業(yè)務(wù)平臺。
在整個(gè)郵政業(yè)務(wù)大集中的情況下,我們發(fā)現(xiàn)了一個(gè)非常有意思的情況,各省郵政反而在這種情況下面臨新的挑戰(zhàn)—數(shù)據(jù)都集中了,各省該如何做這些事?
郵政集團(tuán)公司不斷增強(qiáng)管控,作為省級公司和經(jīng)營實(shí)體的市場拓展和業(yè)務(wù)經(jīng)營的精細(xì)化管理壓力越來越大。數(shù)據(jù)成了重中之重,在省級郵政大數(shù)據(jù)的需求面前,其數(shù)據(jù)特征跟我們前面所分析的郵政行業(yè)具有相同的特征,數(shù)據(jù)來源較廣泛,數(shù)據(jù)組成較復(fù)雜,業(yè)務(wù)跨度非常大。如何用統(tǒng)一平臺來實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)分析以及數(shù)據(jù)管理,這是省級公司所面臨的一個(gè)巨大挑戰(zhàn)。
基于這樣的現(xiàn)狀,我們推出了郵政行業(yè)省級大數(shù)據(jù)平臺,規(guī)劃分三個(gè)區(qū)域:核心數(shù)據(jù)區(qū)、分析數(shù)據(jù)區(qū)以及歷史數(shù)據(jù)區(qū)。從結(jié)構(gòu)化角度來說,核心數(shù)據(jù)區(qū)是元數(shù)據(jù)層,通過數(shù)據(jù)倉庫建模的技術(shù)對數(shù)據(jù)進(jìn)行重新的整理編排形成PData層,結(jié)合應(yīng)用場景和應(yīng)用主題產(chǎn)生PMart;從分析數(shù)據(jù)區(qū)我們用IWA的組建來滿足機(jī)器查詢的要求;歷史數(shù)據(jù)區(qū),我們采用hadoop架構(gòu)。
每個(gè)解決方案都不是萬能的,基于這樣的行業(yè)實(shí)踐,也可以看到,我們在行業(yè)當(dāng)中應(yīng)用的實(shí)踐方式。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)