楊 杰
(山西職業(yè)技術(shù)學(xué)院,山西 太原 030006)
大數(shù)據(jù)時(shí)代的來(lái)臨,促使各行各業(yè)的數(shù)據(jù)量爆發(fā)式增長(zhǎng),數(shù)據(jù)類型也呈現(xiàn)出多類型、動(dòng)態(tài)化等特點(diǎn)。通過(guò)分析海量數(shù)據(jù)、提取有效數(shù)據(jù)并展示對(duì)于企業(yè)發(fā)展具有重要指導(dǎo)作用。華為云由于具有良好的數(shù)據(jù)處理能力和可操作性,成為服務(wù)終端的主要應(yīng)用媒介之一。本文依托華為云的優(yōu)勢(shì),通過(guò)分析海量數(shù)據(jù)、挖掘提取有效數(shù)據(jù)并系統(tǒng)展示出來(lái),旨在提高數(shù)據(jù)處理能力,實(shí)現(xiàn)數(shù)據(jù)的可視化,為用戶提供數(shù)據(jù)處理、展示的一體化平臺(tái)[1]。
數(shù)據(jù)挖掘是基于量化、不全面、離散的數(shù)據(jù)中,通過(guò)采集其中的內(nèi)在聯(lián)系點(diǎn),挖掘內(nèi)在的關(guān)系網(wǎng)、從而形成潛在的評(píng)估思路,進(jìn)而指導(dǎo)現(xiàn)場(chǎng)作業(yè)。所挖掘的數(shù)據(jù)不僅包括結(jié)構(gòu)數(shù)據(jù)也包括非結(jié)構(gòu)數(shù)據(jù)。如圖像、文本以及網(wǎng)絡(luò)中的異性數(shù)據(jù)。所挖掘的方法和思路不僅涉及數(shù)理也包括統(tǒng)計(jì)分析,主要應(yīng)用于信息數(shù)據(jù)維護(hù)、管理和優(yōu)化甚至過(guò)程控制[2]。
數(shù)據(jù)挖掘是基于量化的數(shù)據(jù)來(lái)對(duì)行業(yè)和領(lǐng)域做出預(yù)測(cè)分析。其基本的目的是在所在的數(shù)據(jù)庫(kù)中找到數(shù)據(jù)之間的內(nèi)在聯(lián)系點(diǎn)和關(guān)系網(wǎng)。主要有以下幾類功能。
概念分析:主要包括對(duì)某類事物和對(duì)象內(nèi)在聯(lián)系的描述,并對(duì)其特征點(diǎn)進(jìn)行概況分析。
關(guān)聯(lián)分析:數(shù)據(jù)關(guān)聯(lián)是通過(guò)發(fā)現(xiàn)數(shù)據(jù)之間發(fā)展的內(nèi)在規(guī)律,從而描述數(shù)據(jù)之間某些屬性同時(shí)出現(xiàn)的模式。如數(shù)據(jù)之間存在多個(gè)對(duì)應(yīng)的數(shù)據(jù)關(guān)系或者具有一定的規(guī)律性,則稱此過(guò)程為關(guān)聯(lián)。關(guān)聯(lián)分析就是基于既定的數(shù)據(jù)結(jié)構(gòu)中不斷地發(fā)展其內(nèi)在的項(xiàng)集模式知識(shí)(又稱關(guān)聯(lián)規(guī)則)[3]。
分類與預(yù)測(cè):基于關(guān)聯(lián)分析的基礎(chǔ)上,對(duì)重要的數(shù)據(jù)集合進(jìn)行整合和預(yù)測(cè)評(píng)估,此類方法的主要對(duì)象是離散的數(shù)據(jù)點(diǎn)。
聚類分析:通過(guò)對(duì)內(nèi)在聯(lián)系的數(shù)據(jù)點(diǎn)進(jìn)行分類、重組,促使各個(gè)單一的數(shù)據(jù)個(gè)體聯(lián)系在一起,從而達(dá)到數(shù)據(jù)單元“物以類聚”的目的。
偏差檢測(cè)分析:偏差檢測(cè)就是從數(shù)據(jù)已有或期望值中找出關(guān)鍵測(cè)度顯著變化的那些數(shù)據(jù)對(duì)象。進(jìn)行偏差檢測(cè)時(shí),主要采用的方法是,比較不同觀測(cè)結(jié)果和不同參照值之間存在的差別。
華為云服務(wù)器作為知名的數(shù)據(jù)處理端,使用者根據(jù)自身的情況可向華為云的供應(yīng)商采購(gòu)相應(yīng)類型的服務(wù)器,因?yàn)樵品?wù)器通常會(huì)虛擬化服務(wù)器中的資源數(shù)據(jù)、計(jì)算和儲(chǔ)存,所以使用起來(lái),與通常的物理服務(wù)器基本沒有差別。
華為云服務(wù)器一般突出自主選擇性,購(gòu)買者可根據(jù)自身情況向供應(yīng)商購(gòu)買不同大小、內(nèi)存、寬帶等配置的服務(wù)器。購(gòu)買者對(duì)自己的服務(wù)配置不滿意,可以隨時(shí)隨地的對(duì)服務(wù)器進(jìn)行升級(jí)。此外服務(wù)器還提供全面的服務(wù),在購(gòu)買完對(duì)應(yīng)的服務(wù)器后,用戶可以自主下載所需要的軟件,并提供病毒檢測(cè)以及漏洞修復(fù)等功能。由于其CVM部署在云端極大地降低了物理媒介、基礎(chǔ)設(shè)施的經(jīng)濟(jì)成本,為企業(yè)省下大量資金;最后云服務(wù)器克服了傳統(tǒng)的物流服務(wù)器在系統(tǒng)配置中由于人為干預(yù)而造成的失誤,云服務(wù)器提供“重裝系統(tǒng)”,僅僅需要數(shù)秒鐘就可以實(shí)現(xiàn)系統(tǒng)的重新配置,極大提高了用戶的時(shí)效性,云服務(wù)器具有便攜的網(wǎng)絡(luò)連接服務(wù),在云端可將任何數(shù)據(jù)信息發(fā)布至對(duì)應(yīng)的網(wǎng)絡(luò)端,使用者可隨時(shí)隨地查看發(fā)布信息[4]。
本文借助華為云服務(wù)器,配置為1核,內(nèi)存匹配為1G,寬帶為11Mbps,磁盤容量為20G,此外在云服務(wù)器上安裝安全組件端口和ICMP協(xié)議。
云服務(wù)器上本文適用python3.6.0安裝包,安裝結(jié)束后配置對(duì)應(yīng)的環(huán)境變量,最后再進(jìn)行python模塊安裝。
爬蟲和API接口技術(shù)所獲取的源數(shù)據(jù)存放至MySQL數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)涵蓋了全國(guó)各個(gè)省市的數(shù)據(jù)信息,主要包括了城市名稱、所屬省份、時(shí)間和溫度等數(shù)據(jù)信息,每隔一小時(shí)要更新一次數(shù)據(jù)。
在Windows系統(tǒng)下構(gòu)建網(wǎng)站并進(jìn)行檢驗(yàn),通過(guò)Apache部署后校核云服務(wù)器的效果。首先需建立一個(gè)Django項(xiàng)目,其次讓 httpd.conf文件監(jiān)聽 8091端口并設(shè)置對(duì)應(yīng)的儲(chǔ)存目標(biāo),輸入對(duì)應(yīng)的賬號(hào)、密碼后保存信息登陸。
在Django模塊下匹配 request.py文件并在云服務(wù)器發(fā)布,然后利用網(wǎng)頁(yè)工具打開獲得同樣的界面,具體如圖1所示,為了區(qū)別服務(wù)器和云服務(wù)器的差別,Windows使用不同的瀏覽器來(lái)進(jìn)行訪問(wèn)[5]。
首先在互聯(lián)網(wǎng)上借助爬蟲技術(shù)和接口技術(shù)獲得源數(shù)據(jù),數(shù)據(jù)獲取后保存至云服務(wù)器端,方便系統(tǒng)的存取,在數(shù)據(jù)處理和展示模塊中利用python來(lái)進(jìn)行數(shù)據(jù)的預(yù)測(cè),最后通過(guò) Tableau 和 R 語(yǔ)言集成對(duì)全國(guó)每個(gè)省會(huì)城市進(jìn)行可視化展示。
在項(xiàng)目中該業(yè)務(wù)運(yùn)行成功后,就會(huì)上傳該項(xiàng)目到云服務(wù)器,這樣,用戶就能夠在終端通過(guò)輸入IP地址以及端口信息來(lái)查看系統(tǒng)的相關(guān)內(nèi)容。
將Django 項(xiàng)目按照前文的項(xiàng)目的規(guī)劃應(yīng)用至云服務(wù)器中,在客戶端數(shù)據(jù)登錄鏈接,具體如圖2所示。進(jìn)入MySQL數(shù)據(jù)庫(kù)有Django生成對(duì)應(yīng)的數(shù)據(jù)表并保存至數(shù)據(jù)庫(kù)中,方便隨時(shí)調(diào)用[6]。
本文選用成都市的氣候數(shù)據(jù)分布情況為例,得到氣候數(shù)據(jù)分布圖,可記錄溫度、濕度以及空氣質(zhì)量指數(shù)等,數(shù)據(jù)每隔15分鐘更新一次,不僅可以篩選時(shí)間,還可以篩選城市以及濕度和空氣質(zhì)量指數(shù)等。當(dāng)在篩選器中選擇成都、2017年12月23日時(shí),就會(huì)顯示成都市當(dāng)時(shí)的氣候分布情況。
大數(shù)據(jù)時(shí)代有效的數(shù)據(jù)對(duì)于任何企業(yè)、機(jī)構(gòu)的發(fā)展都至關(guān)重要,目前市場(chǎng)上大部分的系統(tǒng)功能都是獨(dú)立的,無(wú)法實(shí)現(xiàn)數(shù)據(jù)分析、挖掘以及展示一體化。本文為適應(yīng)時(shí)代發(fā)展,平臺(tái)發(fā)展需求,將數(shù)據(jù)分析、挖掘以及展示進(jìn)行集成化。首先基于API 和網(wǎng)絡(luò)爬蟲技術(shù)獲得原始數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行處理分析,最后將有價(jià)值的數(shù)據(jù)以可視化界面展示處理,實(shí)現(xiàn)數(shù)據(jù)的可視化并選用成都市的氣候數(shù)據(jù)分布情況為例,得到氣候數(shù)據(jù)分布圖,可記錄溫度、濕度以及空氣質(zhì)量指數(shù)等并進(jìn)行了數(shù)據(jù)化展示,驗(yàn)證了系統(tǒng)的可行性,為后續(xù)的平臺(tái)的進(jìn)一步數(shù)據(jù)指導(dǎo)提供良好的交互性。
圖1 項(xiàng)目流程
圖2 客戶端數(shù)據(jù)登錄鏈接