丁海驁
“首先我們相信:數(shù)據(jù)可以讓今天我們認為不可能的事情,通過對數(shù)據(jù)發(fā)掘和數(shù)據(jù)分析,讓這個事情在明天變成可能。”2021年底,履新8個月的Cloudera大中華區(qū)區(qū)域副總裁王剛(Galen)在一場活動上,談到專注于大數(shù)據(jù)軟件平臺的、基于開源社區(qū)的軟件公司,Cloudera對大數(shù)據(jù)有三個基本的理解:“第二,我們認為,人在大數(shù)據(jù)應(yīng)用過程中是非常具有決定性的因素:我們可以讓機器幫我們做很多事情,讓他們做正確的事情,但是是否正確,要由人來判斷,所以我們可以賦予人對大數(shù)據(jù)應(yīng)用做更深的洞察和發(fā)現(xiàn);第三,我們確認,現(xiàn)在數(shù)據(jù)無處不在:可以在你的手機上,在你的筆記本上,在公有云上,也可以在機房里面……在任何場合下,我們都可能會用到AI、大數(shù)據(jù)分析。由于大數(shù)據(jù)無處不在,所以無論在哪種環(huán)境下,我們都可以讓大數(shù)據(jù)繼續(xù)幫助我們——Cloudera支持在不同的使用環(huán)境中應(yīng)用大數(shù)據(jù)技術(shù)?!?/p>
事實上,隨著企業(yè)數(shù)字化轉(zhuǎn)型進程的不斷深入,“軟件定義”的企業(yè)業(yè)務(wù)模式已經(jīng)成為一種被廣泛認可的趨勢,因此企業(yè)對于數(shù)據(jù)價值的認可,基本成為一種共識。而大數(shù)據(jù)應(yīng)用作為一種能夠真正幫助企業(yè)發(fā)掘數(shù)據(jù)價值的手段,也已經(jīng)被廣泛認可。對于應(yīng)用企業(yè)而言,他們的問題往往集中在實際操作環(huán)節(jié):企業(yè)該如何圍繞自身的業(yè)務(wù)去設(shè)計、構(gòu)建和維護一個有效的數(shù)據(jù)價值發(fā)掘體系?大數(shù)據(jù)系統(tǒng)如何與企業(yè)的現(xiàn)實業(yè)務(wù)進行更密切的關(guān)聯(lián)?
作為大數(shù)據(jù)應(yīng)用平臺的提供商,王剛談到了一個“企業(yè)數(shù)據(jù)生命周期”的概念。
“數(shù)據(jù)實際上也有自己的生命周期:從出生到長大,再到成年、老年,最終離我們而去。我們要做的,就是管理數(shù)據(jù)整個生命周期,從數(shù)據(jù)的獲取到對數(shù)據(jù)進行豐富、整理,再到對數(shù)據(jù)的展現(xiàn)、服務(wù)和預(yù)測等?!蓖鮿倢?shù)據(jù)全生命周期分為5個具體的部分:收集、富華、報告、服務(wù)和預(yù)測。
其中,對于企業(yè)用戶而言,數(shù)據(jù)的來源是非常多元的,“可能在用戶的手機上、設(shè)備上、電腦上,或者是在后臺業(yè)務(wù)系統(tǒng)里面”,因此企業(yè)需要構(gòu)架一個數(shù)據(jù)流管理體系,完成對數(shù)據(jù)進行完整、及時和充分的收集獲取。然后第二步的“富化”過程,是利用數(shù)據(jù)工程,對收集到的數(shù)據(jù)按照不同的格式、版本和樣式,進行豐富、整理和處理,使其變得更加有序。完成數(shù)據(jù)富化的數(shù)據(jù)就進入了“數(shù)據(jù)全生命周期”的第三個環(huán)節(jié)“報告”階段,在這個環(huán)節(jié),數(shù)據(jù)被存儲在數(shù)據(jù)倉庫中,企業(yè)就可以根據(jù)自身的業(yè)務(wù)需求,對數(shù)據(jù)進行初級的應(yīng)用:根據(jù)不同不同部門、不同職位需求,將數(shù)據(jù)以各種報表和表格的形式,展示出來,讓用戶了解企業(yè)當(dāng)前的相關(guān)業(yè)務(wù)情況。“比如,企業(yè)管理者要了解公司過去的客戶流失情況、業(yè)務(wù)增長情況,尤其是金融行業(yè)用戶常常需要通過數(shù)據(jù)了解當(dāng)前的業(yè)務(wù)狀況……這些都可以通過數(shù)據(jù)報表的形式分析出來,這也是絕大多數(shù)企業(yè)重點投入的部分。”王剛說,此時企業(yè)對數(shù)據(jù)應(yīng)用的底層IT基礎(chǔ),是數(shù)據(jù)倉庫。
然而這并不是大數(shù)據(jù)應(yīng)用的盡頭:事實上,讓數(shù)據(jù)真正賦能企業(yè)現(xiàn)實業(yè)務(wù)需求,發(fā)掘企業(yè)數(shù)據(jù)真正的價值,往往集中在數(shù)據(jù)全生命周期的后面兩個階段。
第四個階段,是服務(wù)。在這個階段中,企業(yè)可以將數(shù)據(jù)直接服務(wù)于現(xiàn)實的應(yīng)用場景:數(shù)據(jù)倉庫中數(shù)據(jù)經(jīng)過處理被轉(zhuǎn)移到操作型數(shù)據(jù)庫——這是一個相對專業(yè)的數(shù)據(jù)處理過程,可以簡單理解為:為了某個具體的應(yīng)用,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行更加詳細的分析、建模和轉(zhuǎn)換數(shù)據(jù)關(guān)系模型——此時,就可以利用這些處理過的數(shù)據(jù)直接支持企業(yè)的新應(yīng)用和新業(yè)務(wù)場景。進而,就可以進入數(shù)據(jù)全生命周期的最后一個階段“預(yù)測”環(huán)節(jié):利用機器學(xué)習(xí)、人工智能技術(shù),對數(shù)據(jù)進行更深入的模型分析和數(shù)學(xué)計算,面向未來作出更具有參考價值的預(yù)測。
“可以預(yù)測明年的GDP、雙十一的庫存、未來訂單情況、客戶的增長情況……很多的數(shù)據(jù)模型都是要靠前端非常干凈、處理非常好的數(shù)據(jù)才能進行預(yù)測分析。”王剛認為,企業(yè)對于大數(shù)據(jù)技術(shù)和工具的應(yīng)用,需要構(gòu)建一個全生命周期的概念,即便不能一次性搭建完成,也需要保證最終整個完整應(yīng)用周期的五個環(huán)節(jié)缺一不可,因為越是后面較高階的應(yīng)用,越是需要足夠扎實的低階應(yīng)用作為基礎(chǔ)。
于此同時,王剛也強調(diào)企業(yè)在構(gòu)建數(shù)據(jù)全生命周期解決方案的過程中,不同節(jié)點間的關(guān)聯(lián)關(guān)系是影響企業(yè)能否成功實踐大數(shù)據(jù)應(yīng)用的關(guān)鍵?!拔覀兛吹剑航^大多數(shù)大數(shù)據(jù)解決方案都定位在一個單一系統(tǒng),只能處理一個單一的環(huán)節(jié),如BI、報表、數(shù)據(jù)倉庫、操作型數(shù)據(jù)庫……然而對于企業(yè)用戶而言,顯然一個能夠完整覆蓋五個環(huán)節(jié)、能實現(xiàn)從端到端完成整個數(shù)據(jù)全生命周期管理的的解決方案,是最佳選擇?!蓖鮿傉f,作為企業(yè)大數(shù)據(jù)應(yīng)用平臺的提供者,Cloudera目前不僅能夠為企業(yè)提供覆蓋完整五個環(huán)節(jié)的解決方案,而且可以通過公有云和私有云兩個版本,為用戶提供更便捷的部署和應(yīng)用體驗:“Cloudera的大數(shù)據(jù)平臺在當(dāng)時設(shè)計時,就考慮到大數(shù)據(jù)使用場景下有不同需求:有些業(yè)務(wù)場景需要把數(shù)據(jù)放在公有云上;有些敏感數(shù)據(jù),交易數(shù)據(jù)、核心數(shù)據(jù)需要放在私有云上——Cloudera的兩種方案是互相打通的,可以隨時根據(jù)業(yè)務(wù)需求互相交流,從而保證企業(yè)從成本和性能上,得到更好的應(yīng)用體驗?!?/p>
王剛當(dāng)天出席的活動,是Cloudera與ReadyAI合作編寫的兒童電子讀物《一杯檸檬水的啟蒙》的發(fā)布。這是一本針對8至12歲兒童,講解機器學(xué)習(xí)模型訓(xùn)練和數(shù)據(jù)偏差等復(fù)雜數(shù)據(jù)概念的兒童繪本。Cloudera首席運營官Scott Aronson,用“兩個小男孩的驕傲父親”的署名,在書中的結(jié)尾寫道:“我希望你們和我,還有我的兩個兒子一樣,都能享受從克拉拉和亞歷克斯(這是這本童書中的兩個小主人公)身上學(xué)習(xí)的過程。”
數(shù)據(jù)的洪流,正在改變世界。也許等這代孩子長大的時候,將會面對一個真正的數(shù)字時代:數(shù)據(jù)成為主導(dǎo),人類生活依賴于一個又一個的數(shù)據(jù)全生命周期……所有的這些,都正在從現(xiàn)在開始。