齊麗娜
摘 要: 云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)等新興技術(shù)層出不窮并不斷發(fā)展,促使各種數(shù)據(jù)逐步呈現(xiàn)出爆炸性增長(zhǎng)的趨勢(shì)。數(shù)據(jù)的影響已經(jīng)滲入到了產(chǎn)業(yè)、科研、教育、家庭和社會(huì)的各個(gè)層面,人類全面進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)事關(guān)國(guó)計(jì)民生、產(chǎn)業(yè)興衰、公司存亡。文章重點(diǎn)研究了當(dāng)前主流的大數(shù)據(jù)技術(shù)Hadoop,分析了其體系架構(gòu)和工作原理,對(duì)Hadoop技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用場(chǎng)景進(jìn)行了分析和探索。
關(guān)鍵詞: 大數(shù)據(jù)技術(shù); 電子商務(wù); Hadoop; HDFS; MapReduce
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)11-32-04
Abstract: With the rapid development of emerging technologies such as cloud computing, the Internet of Things, social networks and Mobile Internet, all data is gradually showing a trend of explosive growth. The impact of data has penetrated into all aspects of industry, scientific research, education, family and society. Mankind has entered the era of Big data. Big data is beneficial to the people's livelihood, industry development, the survival of the company. This paper focuses on the research of the current mainstream Big data technology Hadoop, analyzes the system structure and working principle, explores the application of Hadoop technology in the field of electronic commerce.
Key words: Big data technology; electronic commerce; Hadoop; HDFS; MapReduce
0 引言
隨著云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)等新興技術(shù)的層出不窮和不斷發(fā)展,人類全面進(jìn)入了大數(shù)據(jù)時(shí)代。各種數(shù)據(jù)正在迅速膨脹、變大,逐步呈現(xiàn)出爆炸性增長(zhǎng)的趨勢(shì),數(shù)據(jù)的影響已經(jīng)滲入到了產(chǎn)業(yè)、科研、教育、家庭和社會(huì)的各個(gè)層面。隨著時(shí)間的推移,人們將越來越多的意識(shí)到對(duì)數(shù)據(jù)的需求和掌握已不再局限于以往的數(shù)據(jù)挖掘和數(shù)據(jù)分析,而是為人們獲得更為深刻、全面的洞察能力提供前所未有的支持。《紐約時(shí)報(bào)》2012年2月的一篇專欄中稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而做出,而并非基于經(jīng)驗(yàn)和直覺[1]。2012年3月,美國(guó)總統(tǒng)奧巴馬公布了美國(guó)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為美國(guó)的國(guó)家戰(zhàn)略,上升為國(guó)家意志。
那么什么是大數(shù)據(jù)呢?
大數(shù)據(jù)指的是在“多樣的或者大量的數(shù)據(jù)中快速獲取信息的能力”。IT業(yè)界通常將大數(shù)據(jù)的特征概括為四個(gè)“V”:數(shù)據(jù)量(volume)巨大,數(shù)據(jù)類型(variety)多,數(shù)據(jù)價(jià)值(Value)大,發(fā)掘出價(jià)值的速度(Velocity)快[2]。大數(shù)據(jù)和傳統(tǒng)所說的數(shù)據(jù)庫(kù)有所不同。誕生在二十世紀(jì)七十年代的傳統(tǒng)數(shù)據(jù)庫(kù)是小型的、單一的、孤立的,基于小范圍的抽樣樣本統(tǒng)計(jì)。而大數(shù)據(jù)則要求窮盡一切相關(guān)樣本,搜集盡可能全面的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)集擁有的不是支離破碎的割裂數(shù)據(jù),不是數(shù)據(jù)片段,而是完整的數(shù)據(jù)。數(shù)據(jù)的海量與數(shù)據(jù)的完整性使大數(shù)據(jù)有著傳統(tǒng)的數(shù)據(jù)庫(kù)無法比擬的信息優(yōu)勢(shì)。
1 大數(shù)據(jù)的重要性
信息科技經(jīng)過多年的發(fā)展,數(shù)據(jù)已經(jīng)滲透到國(guó)家治理、國(guó)民經(jīng)濟(jì)、企業(yè)發(fā)展的方方面面。這些數(shù)據(jù)中隱藏著有價(jià)值的模式和信息,需要相當(dāng)?shù)臅r(shí)間和成本才能提取這些信息。一些新興的互聯(lián)網(wǎng)公司,利用新技術(shù)大規(guī)模地收集數(shù)據(jù),分析和預(yù)判客戶行為,然后在不同的行業(yè)縱橫捭闔。而缺少數(shù)據(jù)資產(chǎn)、缺少?gòu)?qiáng)大數(shù)據(jù)分析能力的公司,則無疑將處于被顛覆的邊緣。因此大數(shù)據(jù)技術(shù)雖然發(fā)源于信息科技,但其影響力已經(jīng)遠(yuǎn)遠(yuǎn)超出信息行業(yè),正在“吞噬”和重構(gòu)很多傳統(tǒng)行業(yè),廣泛運(yùn)用數(shù)據(jù)分析手段管理和優(yōu)化運(yùn)營(yíng)的公司其實(shí)質(zhì)都是一個(gè)數(shù)據(jù)公司。可以毫無疑問地說,大數(shù)據(jù)事關(guān)國(guó)計(jì)民生、產(chǎn)業(yè)興衰、公司存亡。
麥當(dāng)勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數(shù)據(jù)分析基礎(chǔ)之上的精準(zhǔn)選址。而在零售業(yè)中,數(shù)據(jù)分析的技術(shù)與手段更是得到廣泛的應(yīng)用,傳統(tǒng)企業(yè)如沃爾瑪通過數(shù)據(jù)挖掘重塑并優(yōu)化供應(yīng)鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對(duì)海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個(gè)性化的服務(wù)。著名的信用卡國(guó)際組織萬(wàn)事達(dá)通過分析來自210個(gè)國(guó)家的15億信用卡用戶的650億條交易記錄,分析得出商業(yè)發(fā)展和客戶消費(fèi)趨勢(shì),取得了極大的營(yíng)銷價(jià)值[3]。
2 大數(shù)據(jù)技術(shù)介紹
2.1 Hadoop簡(jiǎn)介
雖然數(shù)據(jù)量巨大是大數(shù)據(jù)時(shí)代的特點(diǎn),但這并不意味著數(shù)據(jù)的含金量高和對(duì)數(shù)據(jù)的理解要求低。事實(shí)上,龐大的數(shù)據(jù)中往往摻雜著太多的無效數(shù)據(jù),簡(jiǎn)單粗放式的數(shù)據(jù)統(tǒng)計(jì)和分析往往不能得到真正有價(jià)值的內(nèi)容,所以對(duì)大數(shù)據(jù)技術(shù)提出了更高層次的挑戰(zhàn),使用傳統(tǒng)的數(shù)據(jù)工具是遠(yuǎn)遠(yuǎn)無法滿足大數(shù)據(jù)需要的,由此產(chǎn)生了大數(shù)據(jù)技術(shù)。Hadoop是當(dāng)前最為流行的大數(shù)據(jù)技術(shù),從誕生之日起,Hadoop便與大數(shù)據(jù)有著千絲萬(wàn)縷的聯(lián)系。Hadoop是一個(gè)用java語(yǔ)言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。Hadoop的設(shè)計(jì)原理來自于谷歌的GFS和MapReduce模型,可以看作是后者的開源實(shí)現(xiàn)。由于其可以運(yùn)行在對(duì)硬件配置要求低、擴(kuò)展性好、容錯(cuò)能力強(qiáng)及具有強(qiáng)大的并行處理能力等特點(diǎn)的設(shè)備上,在多個(gè)行業(yè)得到廣泛的應(yīng)用,成為當(dāng)下大數(shù)據(jù)領(lǐng)域的熱門技術(shù)。谷歌、雅虎、亞馬遜和Facebook都開發(fā)了以Hadoop為基礎(chǔ)的大數(shù)據(jù)應(yīng)用程序。
各模塊的主要功能如下。
⑴ Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)易的操作和編程接口。
⑵ Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)。
⑶ Hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
⑷ ZooKeeper是高效的、可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)。
⑸ HBase是一個(gè)開源的,基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)。
⑹ HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
⑺ MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。
其中HDFS和MapReduce是Hadoop體系架構(gòu)中兩大技術(shù)核心。
2.2 Hadoop技術(shù)核心介紹
2.2.1 HDFS文件系統(tǒng)
HDFS是一個(gè)高度容錯(cuò)性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。圖2是HDFS文件系統(tǒng)的圖示。
⑴ NameNode:可以看作是分布式文件系統(tǒng)中的管理者,存儲(chǔ)文件系統(tǒng)的metadata,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間,集群配置信息,存儲(chǔ)塊的復(fù)制。
⑵ DataNode:是文件存儲(chǔ)的基本單元。它將文件塊存儲(chǔ)在本地文件系統(tǒng)中,保存了文件塊的metadata,同時(shí)周期性的發(fā)送所有存在的文件塊的報(bào)告給NameNode。
⑶ Client:就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。
2.2.2 MapReduce編程模型
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算[6]。Map(映射)和Reduce(化簡(jiǎn)),采用分而治之思想,先把任務(wù)分發(fā)到集群多個(gè)節(jié)點(diǎn)上,并行計(jì)算,然后再把計(jì)算結(jié)果合并,從而得到最終計(jì)算結(jié)果。多節(jié)點(diǎn)計(jì)算,所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯(cuò)處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。圖3是MapReduce的編程模型。
⑴ 根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個(gè)split對(duì)應(yīng)一個(gè)map線程。
⑵ Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。
⑶ Map的輸出到Reduce的輸入的過程(shuffle過程)。
① 第一階段:在map端完成內(nèi)存→排序→寫入磁盤→復(fù)制。
② 第二階段:在reduce端完成映射到reduce端分區(qū)→合并→排序。
⑷ Reduce的輸入到Reduce的輸出:最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。
3 大數(shù)據(jù)技術(shù)Hadoop在電子商務(wù)中的應(yīng)用
大數(shù)據(jù)技術(shù)Hadoop在電子商務(wù)領(lǐng)域中的應(yīng)用非常廣泛,可以說正在滲透到電子商務(wù)中的方方面面。國(guó)內(nèi)外的電子商務(wù)巨頭如淘寶、京東、亞馬遜、沃爾瑪?shù)?,都在不斷利用大?shù)據(jù)技術(shù)Hadoop,在電子商務(wù)領(lǐng)域縱橫捭闔。
3.1 商務(wù)領(lǐng)域數(shù)據(jù)處理體系
⑴ 輸入實(shí)時(shí)用戶數(shù)據(jù)。數(shù)據(jù)可以來源于實(shí)時(shí)的服務(wù)器日志、用戶訪問日志、網(wǎng)絡(luò)數(shù)據(jù)包等。
⑵ 基于MapReduce的數(shù)據(jù)處理程序?qū)?shí)時(shí)數(shù)據(jù)進(jìn)行處理和提取,規(guī)定統(tǒng)一的數(shù)據(jù)格式。
⑶ 通過HDFS文件系統(tǒng)將數(shù)據(jù)存儲(chǔ)起來。
⑷ 最終用戶通過可視化界面,進(jìn)行數(shù)據(jù)查詢、檢索。
具體流程如圖4所示:
3.2 典型應(yīng)用
以下介紹大數(shù)據(jù)技術(shù)Hadoop在電子商務(wù)中的典型應(yīng)用。
⑴ 大數(shù)據(jù)技術(shù)Hadoop在電子商務(wù)中的一個(gè)典型應(yīng)用是實(shí)時(shí)掌握用戶在使用電子商務(wù)網(wǎng)站時(shí)的用戶體驗(yàn)情況。電子商務(wù)的核心在于網(wǎng)上購(gòu)物和網(wǎng)絡(luò)支付,這些都離不開一個(gè)有效的電子商務(wù)購(gòu)物網(wǎng)站的支持。購(gòu)物網(wǎng)站的運(yùn)作核心通常是由三個(gè)要素來匯聚,包括消費(fèi)者信任、豐富的內(nèi)容以及安全性[4]。對(duì)于有些電子商務(wù)網(wǎng)站(比如淘寶、亞馬遜、京東等),其每秒用戶訪問量巨大,從而產(chǎn)生的數(shù)據(jù)是海量的。這些海量數(shù)據(jù),包含了豐富的用戶行為,但通過傳統(tǒng)的工具,很難對(duì)其中包含的信息進(jìn)行快速分析。通過大數(shù)據(jù)技術(shù)Hadoop,能夠?qū)崟r(shí)有效地分析用戶的訪問行為,實(shí)現(xiàn)對(duì)用戶行為和體驗(yàn)的實(shí)時(shí)管理和監(jiān)控,從而從展現(xiàn)內(nèi)容、用戶體驗(yàn)、信息安全等多個(gè)角度為用戶提供高質(zhì)量的電子商務(wù)服務(wù)。通過大數(shù)據(jù)技術(shù)Hadoop能夠獲得的信息是非常多的,例如通過電子商務(wù)網(wǎng)站產(chǎn)生的服務(wù)器日志信息、用戶訪問網(wǎng)站的信息可以獲得:
① 服務(wù)器上最近一段時(shí)間發(fā)生的錯(cuò)誤數(shù)量;
② 用戶找不到商品的資訊;
③ 用戶在各個(gè)商品頁(yè)面上的平均停留時(shí)間;
④ 客戶的付款方式;
⑤ 客戶來自哪些不同的地區(qū);
⑥ 各個(gè)地區(qū)的平均消費(fèi)水平;
⑦ 客戶登入網(wǎng)站的次數(shù)和頻率的統(tǒng)計(jì);
⑧ 客戶將商品放入購(gòu)物車的統(tǒng)計(jì);
⑨ 客戶先選擇了某些商品但最終沒有結(jié)賬購(gòu)買的頻率。
上述場(chǎng)景僅僅是大數(shù)據(jù)技術(shù)Hadoop能夠分析的很小的一部分。通過大數(shù)據(jù)技術(shù)Hadoop分析,我們能夠?qū)崟r(shí)了解到電子商務(wù)網(wǎng)站的運(yùn)營(yíng)情況、運(yùn)行情況、用戶對(duì)商品的喜好程度,從而能夠及時(shí)進(jìn)行非常有針對(duì)性的調(diào)整,提高用戶的使用體驗(yàn)。
⑵ 大數(shù)據(jù)技術(shù)Hadoop在電子商務(wù)中的另一個(gè)典型應(yīng)用就是廣告推薦系統(tǒng)。傳統(tǒng)的網(wǎng)頁(yè)廣告,不管用戶是否對(duì)廣告所代表的產(chǎn)品和內(nèi)容感興趣,只是單純地將廣告信息展示給用戶。因此傳統(tǒng)網(wǎng)頁(yè)廣告必須進(jìn)行大規(guī)模的投放,否則在受眾人群不廣的情況下無法產(chǎn)生效益。而利用大數(shù)據(jù)技術(shù)Hadoop開發(fā)的廣告推薦系統(tǒng)則有明顯的針對(duì)性,它的中心思想是對(duì)用戶行為進(jìn)行分析,通過分析其瀏覽過的頁(yè)面、使用過的搜索詞,以及其他的社交、分享、收藏、購(gòu)買等行為,對(duì)用戶進(jìn)行分類和建模,把握用戶的特點(diǎn)、興趣及訪問意圖等,然后有針對(duì)性的投放廣告、向用戶推薦關(guān)聯(lián)商品,真正做到了有的放矢。例如,如果我們?cè)?jīng)在百度中搜索了臺(tái)灣,當(dāng)我們?yōu)g覽一些網(wǎng)站時(shí),會(huì)驚奇地發(fā)現(xiàn)這些網(wǎng)站的廣告頁(yè)上會(huì)出現(xiàn)各類與臺(tái)灣有關(guān)的推薦,包括住宿、機(jī)票、門票、土特產(chǎn)等。這是因?yàn)楫?dāng)我們?cè)诎俣?、谷歌等搜索引擎中搜索關(guān)鍵字時(shí),會(huì)在我們的瀏覽器中留下我們?cè)?jīng)搜索或訪問過的痕跡信息[5]。當(dāng)我們?cè)偃ピL問那些含有廣告推薦系統(tǒng)的網(wǎng)站時(shí),首先網(wǎng)站會(huì)從我們的瀏覽器中獲取我們?cè)?jīng)搜索過的關(guān)鍵字信息,然后通過廣告推薦系統(tǒng),將最符合我們搜索關(guān)鍵字的廣告信息在頁(yè)面中展示。
4 結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)目前在國(guó)內(nèi)還處于初級(jí)階段,但是商業(yè)價(jià)值已逐步顯現(xiàn),特別是在電子商務(wù)這一互聯(lián)網(wǎng)前沿陣地,已經(jīng)可以看到很多大數(shù)據(jù)技術(shù)應(yīng)用場(chǎng)景的存在。如今在電子商務(wù)網(wǎng)站上看到的很多新的營(yíng)銷手段,常常在后臺(tái)都離不開大數(shù)據(jù)技術(shù)的有力支持??梢栽O(shè)想,隨著社會(huì)的不斷發(fā)展,大數(shù)據(jù)技術(shù)的不斷成熟,大數(shù)據(jù)技術(shù)的應(yīng)用及產(chǎn)業(yè)鏈將日益成熟,大數(shù)據(jù)終將成為人們生活中必不可少的一部分。
參考文獻(xiàn)(References):
[1]大數(shù)據(jù)研究和發(fā)展計(jì)劃, http://www.whitehouse.gov/
blog/2012/03/29/big-data-big-deal,2012.
[2] 維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代[M].浙江人民出版社,
2012.
[3] 互聯(lián)網(wǎng)精準(zhǔn)廣告定向技術(shù),http://www.iamniu.com/2012/
05/26/summary-internet-precise-ad-targeting-technology/,
2012.
[4] 高珍.電子商務(wù)系統(tǒng)中的大數(shù)據(jù)處理[J].計(jì)算機(jī)光盤軟件與
應(yīng)用,2012.21.
[5] The Google File System, http://research.google.com/
archive/gfs.html,2003
[6] MapReduce: Simplified Data Processing on Large Clusters,
http://research.google.com/archive/mapreduce.html,2004.