廣東工業(yè)大學(xué) 邱耀儒 沈 明
云計算的產(chǎn)生,使得數(shù)據(jù)的存儲費用大幅度的降低。數(shù)據(jù)由專門的互聯(lián)網(wǎng)公司管理,在提高了數(shù)據(jù)存儲的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ缘耐瑫r,降低了維護的費用。有了大量的數(shù)據(jù),如何對數(shù)據(jù)進行分析,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)和價值,是大數(shù)據(jù)時代所要面臨的挑戰(zhàn)。
由于收集到的數(shù)據(jù)大部分是非標(biāo)準(zhǔn)的數(shù)據(jù),所以在進行數(shù)據(jù)分析之前要先將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)才能對數(shù)據(jù)進行分析。非結(jié)構(gòu)化數(shù)據(jù)的形式多種多樣,標(biāo)準(zhǔn)也是多樣的,同時,技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。
數(shù)據(jù)質(zhì)量高低決定了數(shù)據(jù)的潛在價值,數(shù)據(jù)的質(zhì)量主要通過信息的準(zhǔn)確性、完整性和一致性三方面來判斷,但是原始數(shù)據(jù)往往不具備。因此數(shù)據(jù)的清洗是對數(shù)據(jù)進行分析的必要準(zhǔn)備。在實際操作中,數(shù)據(jù)清洗工作通常會占據(jù)分析過程的50%-80%的時間。關(guān)于數(shù)據(jù)清洗的流程大概步驟如圖1所示。
圖1 關(guān)于數(shù)據(jù)清洗的流程大概步驟
預(yù)處理階段主要是將數(shù)據(jù)導(dǎo)入處理工具,由于進行分析的算法大部分都是要進行向量化和標(biāo)準(zhǔn)化,所以建議使用傳統(tǒng)的關(guān)系性數(shù)據(jù)庫。在數(shù)據(jù)導(dǎo)入處理工具之后,需要了解原數(shù)據(jù)中的各類描述性信息,為數(shù)據(jù)的分析做準(zhǔn)備。
數(shù)據(jù)分析是大數(shù)據(jù)處理的核心步驟[1],通過數(shù)據(jù)清洗,得到了標(biāo)準(zhǔn)化的數(shù)據(jù)后,需要從業(yè)務(wù)角度出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型。利用統(tǒng)計學(xué)習(xí)方法基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。根據(jù)業(yè)務(wù)要求的需要,選擇合適類型的機器學(xué)習(xí)算法,如分類、回歸、聚類等類型的算法。可以利用python或R語言等數(shù)據(jù)分析熱門編程語言編寫算法,然后為選定的算法準(zhǔn)備特定的數(shù)據(jù)格式。將數(shù)據(jù)輸入到模型中,最后得出分析的結(jié)果。參考分析結(jié)果可用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測系統(tǒng)等方面。
大數(shù)據(jù)時代將決策由目標(biāo)驅(qū)動型轉(zhuǎn)為數(shù)據(jù)驅(qū)動型,根據(jù)數(shù)據(jù)分析的結(jié)果靈活的調(diào)整企業(yè)內(nèi)部結(jié)構(gòu),有利于實現(xiàn)企業(yè)管理合理化、高效化的進程。信貸機構(gòu)可以對客戶信息進行評估,分析客戶的償還能力來決定是否給予客戶貸款,以此來降低壞賬風(fēng)險。廣告公司可以通過數(shù)據(jù)分析結(jié)果精準(zhǔn)定位目標(biāo)用戶,從而進行精準(zhǔn)的廣告投放,節(jié)約廣告主的廣告成本的同時提高收益。
大數(shù)據(jù)正在改變著人們的工作、生活與思維模式[2],進而對文化、技術(shù)和學(xué)術(shù)研究產(chǎn)生深遠(yuǎn)影響。大數(shù)據(jù)帶來的挑戰(zhàn)不在于數(shù)據(jù)的獲得、存儲、計算,而是如何將數(shù)據(jù)轉(zhuǎn)化為可利用的數(shù)據(jù)。
[1]王鵬.云計算與大數(shù)據(jù)技術(shù)[M].北京:人民郵電出版社,2014:10-17.
[2]John Walker S.Big data:A revolution that will transform how we live,work,and think[J].2014.