摘 要:大數(shù)據(jù)分析方法很多,通過機器學(xué)習(xí)構(gòu)建大數(shù)據(jù)分析模型進行大數(shù)據(jù)分析是目前比較有效的方法,大數(shù)據(jù)特點是數(shù)據(jù)規(guī)模龐大,計算周期長,為了加快計算速度、縮短計算周期,分布式計算方法是解決上述問題行之有效的方法之一。本文介紹了分布式大數(shù)據(jù)分析模型的構(gòu)建方法,著重介紹了機器學(xué)習(xí)算法、分布式計算框架、分布式計算數(shù)據(jù)處理過程、分布式計算程序設(shè)計方法,期望能夠為從事大數(shù)據(jù)分布式計算、大數(shù)據(jù)分析的研究人員提供一些可借鑒的方法。
關(guān)鍵詞:大數(shù)據(jù)分析;分布式計算;機器學(xué)習(xí)
中圖分類號:TP181 文獻標(biāo)識碼:A 文章編號:2096-4706(2018)09-0085-03
Abstract:There are many methods of large data analysis. It is a more effective method to build big data analysis model and analyze big data by machine learning. The large data is characterized by a large scale of data and long computing cycle. In order to speed up the calculation and shorten the calculation period,the distributed computing method is one of the effective methods to solve the above problems. This paper introduces the construction method of distributed large data analysis model,and emphatically introduces machine learning algorithm,distributed computing framework,distributed computing data processing process and distributed computing program design method. It is expected to provide some reference method for researchers who are engaged in large data distributed computing and large data analysis.
Keywords:big data analysis;distributed computation;machine learning
0 引 言
要實現(xiàn)大數(shù)據(jù)分析分布式計算,首先需要搭建分布式計算平臺,然后要建立一個分布式計算框架,在此框架下設(shè)計分布式計算模型,編寫分布式計算程序。本文通過介紹分布式房價大數(shù)據(jù)分析模型建立方法,詳細介紹了如何實現(xiàn)大數(shù)據(jù)分布式計算。
1 技術(shù)架構(gòu)
分布式房價大數(shù)據(jù)分析模型構(gòu)建的技術(shù)架構(gòu)和技術(shù)路線如圖1所示,通過爬蟲技術(shù)在互聯(lián)網(wǎng)上抓取房地產(chǎn)大數(shù)據(jù)。大數(shù)據(jù)存儲在分布式存儲系統(tǒng)中,分布式存儲便于存儲設(shè)備擴充,通過機器學(xué)習(xí)構(gòu)建房價大數(shù)據(jù)分析模型,通過MapReduce實現(xiàn)分布式計算。
2 分布式計算平臺配置
本項目搭建的是Hadoop大數(shù)據(jù)處理平臺,搭建過程中需要配置以下文件:
配置機器網(wǎng)絡(luò)環(huán)境,配置集群列表、環(huán)境變量,生成登錄秘鑰,賦予master節(jié)點所屬組權(quán)利,賦予Node1節(jié)點所屬組權(quán)利,創(chuàng)建Hadoop部署目錄、Hadoop數(shù)據(jù)目錄,配置Hadoop環(huán)境文件Hadoop-env.sh、JAVA_HOME、Hadoop核心文件core-site.xml、分布式文件系統(tǒng)hdfs-sit.xml、MapReduce文件mapred-sit.xml。[1]
首先配置分布式文件系統(tǒng),設(shè)置分布式文件文件名、分布式文件系統(tǒng)訪問端口。設(shè)置namesecondary路徑,namesecondary作為namenode的備份節(jié)點,當(dāng)namenode失效時namesecondary可以替代namenode。
設(shè)置分布式文件系統(tǒng)檢查點周期,對datanode和分布式文件進行定期檢查,此項目檢查周期設(shè)為1800秒。設(shè)置的間隔時間太短,檢查太頻繁也會影響分布式文件系統(tǒng)讀寫速度,間隔時間設(shè)置太長,可能不能及時發(fā)現(xiàn)分布式文件系統(tǒng)的錯誤。
設(shè)置分布式文件系統(tǒng)檢查點大小,對datanode的分布式文件進行定期檢查,此項目檢查點大小設(shè)為33554432字節(jié)。*/
設(shè)置輸入、輸出壓縮碼。
設(shè)置垃圾清理間隔時間,本項目設(shè)置1440秒。設(shè)的間隔時間太短或太長,都會影響分布式文件系統(tǒng)讀寫速度。
3 房價大數(shù)據(jù)分布式模型實現(xiàn)
4 真值與估值對比
運用機器學(xué)習(xí)訓(xùn)練出的模型進行房價預(yù)測,對比下面的房價真實值與房價估值的散點圖,可以看出分布式房價大數(shù)據(jù)分析模型預(yù)測的結(jié)果與真實值非常接近。如圖2、圖3所示。
5 結(jié) 論
分布式計算是提高大數(shù)據(jù)計算速度非常有效的方法,大數(shù)據(jù)分析首先需要建立模型,機器學(xué)習(xí)是建立大數(shù)據(jù)模型非常方便的方法,機器學(xué)習(xí)與大數(shù)據(jù)非常契合,機器學(xué)習(xí)需要訓(xùn)練數(shù)據(jù),大數(shù)據(jù)為機器學(xué)習(xí)提供了豐富的訓(xùn)練數(shù)據(jù),機器學(xué)習(xí)解決了大數(shù)據(jù)由于屬性不確定、非結(jié)構(gòu)化造成分析困難的難題。本文將人工智能與大數(shù)據(jù)分析有機結(jié)合,探索一種用人工智能+分布式計算進行大數(shù)據(jù)分析的解決方案。
參考文獻:
[1] Srynath Perera,Thilina Gunarathne. Hadoop MapReduce實戰(zhàn)手冊 [M].北京:人民郵電出版社,2015.
[2] Donald Miner,Adam Sbook. MapReduce設(shè)計模式 [M].北京:人民郵電出版社,2014.
[3] Willi Richert,Luis Pecho Coelho.機器學(xué)習(xí)系統(tǒng)設(shè)計 [M].北京:人民郵電出版社,2014.
作者簡介:陸紅(1963-),男,北京人,所長,副教授,碩士。研究方向:大數(shù)據(jù)、人工智能。