馮曉媛
摘要:近年來由于計(jì)算器技術(shù)和信息產(chǎn)業(yè)的快速發(fā)展,促使了相關(guān)的數(shù)據(jù)量也產(chǎn)生了極大的增長。然而面對(duì)這些龐大且雜亂的多維數(shù)據(jù)集,我們無法快速且有效的找到我們所需要的信息。因此我們必須要使用數(shù)據(jù)挖掘技術(shù)以從數(shù)據(jù)集中去提取我們所需要的資料,并且進(jìn)行分析與處理。在本中,將介紹大數(shù)據(jù)挖掘分析軟件 Rapidminer,并且與其他舊有的數(shù)據(jù)挖掘分析軟件來做一個(gè)功能性的比較。
關(guān)鍵詞:信息;Rapi;dMiner;大數(shù)據(jù);挖掘;應(yīng)用
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)01-0127-02
0引言
透過線性回歸、類神經(jīng)網(wǎng)絡(luò)、判定樹和支持向量機(jī),說明應(yīng)用Rapidminer進(jìn)行大數(shù)據(jù)挖掘分析的運(yùn)作流程,并介紹Rapidminer的操作接口跟分析方法。本篇論文采用Rapidminer的原因,主要是因?yàn)樗鼡碛蟹浅1憬莸膱D形化接口,而且使用者在操作上不需要再額外去學(xué)習(xí)其它的程序語法,只需要透過選取組件以及設(shè)定參數(shù)的方式就可以完成。而且在分析結(jié)果的顯示上也非常的多樣化,可以讓使用者自行選擇要觀看哪一種圖形顯示分析的結(jié)果。
1 數(shù)據(jù)探勘流程探討
1.1 資料清除
是過濾掉數(shù)據(jù)當(dāng)中的那些噪聲和無法判別的資料跟不一致的數(shù)據(jù),保留可用的且有效的數(shù)據(jù)。
1.2 數(shù)據(jù)的整合
不一定都來自相同的一個(gè)數(shù)據(jù)庫,所以必須做數(shù)據(jù)的整合,將來自不同數(shù)據(jù)庫的數(shù)據(jù)整合處理完后處理在我們的數(shù)據(jù)倉儲(chǔ)。
1.3 數(shù)據(jù)選擇
在數(shù)據(jù)探勘中是一個(gè)相當(dāng)重要的環(huán)節(jié),選到有用的數(shù)據(jù)可以提高分析預(yù)測(cè)的準(zhǔn)確度,但是選到無用的數(shù)據(jù)卻可能會(huì)拉低分析預(yù)測(cè)的準(zhǔn)確度,所以在做數(shù)據(jù)的選擇時(shí)必須先對(duì)這些數(shù)據(jù)有一定的認(rèn)識(shí),才能做出正確的選擇。
1.4 數(shù)據(jù)轉(zhuǎn)換
由于人類和計(jì)算機(jī)的溝通的語言不同,所以當(dāng)我們要讓計(jì)算機(jī)來處理事情時(shí),必須先將手頭的數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的資料格式,或合并成數(shù)據(jù)探勘所需的數(shù)據(jù)形式來讓計(jì)算機(jī)判讀,像是執(zhí)行匯總與聚合。
1.5 數(shù)據(jù)探勘引擎
數(shù)據(jù)探勘系統(tǒng)在數(shù)據(jù)探勘中算是非常重要的一個(gè)環(huán)節(jié),因?yàn)樗颂娇惫ぷ魉枰墓δ?,像是特征化、相關(guān)系數(shù)與相互關(guān)系分析、判別、預(yù)測(cè)、群組分析、分群、離異值分析與演化分析等等。
1.6 樣式評(píng)估
樣式評(píng)估根據(jù)某些有趣度量,來辨認(rèn)代表知識(shí)的有趣樣式,也可以說是評(píng)估數(shù)據(jù)跟數(shù)據(jù)之間的關(guān)聯(lián)性是否是有用的、重要的、是否正確。
1.7 用戶接口
這個(gè)模塊讓用戶可以與數(shù)據(jù)探勘系統(tǒng)進(jìn)行溝通,他允許使用者透過設(shè)定數(shù)據(jù)探勘查詢或工作與系統(tǒng)進(jìn)行互動(dòng)、提供訊息來幫助搜尋,對(duì)暫時(shí)數(shù)據(jù)探勘結(jié)果進(jìn)行探索性數(shù)據(jù)探勘。
2 數(shù)據(jù)探勘工具
2.1 Rapidminer
Rapidminer開源式框架,支持各種類型的數(shù)據(jù)挖掘像是文本、網(wǎng)絡(luò)、圖像或是鏈接開放式的數(shù)據(jù)挖掘[1]。透過它復(fù)雜的圖形用戶接口,數(shù)據(jù)挖掘的過程可以更加的簡潔且快速,直觀地實(shí)現(xiàn)和執(zhí)行,并且不需要額外的程序語言編輯技術(shù)。
2.2 Weka
WEKA用于數(shù)據(jù)挖掘任務(wù)的算法的集合,算法可以直接應(yīng)用在數(shù)據(jù)集上,也可以從自己設(shè)計(jì)的Jave代碼調(diào)用[2]。Weka它包含了數(shù)據(jù)的預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則和可視化的工具也就是圖形接口,Weka可以算是最古老,且最成功的開元數(shù)據(jù)挖掘庫和軟件,隨后被集成為Rapidminer和R的擴(kuò)充軟件,也因?yàn)镽apidminer和R的出現(xiàn),它們提供了使用者更加舒適且便利的使用環(huán)境,使得Weka的用戶開始大幅的下降。
2.3 KNIME
KNIME圖形接口的自由開源信息匯整系統(tǒng),它具有杰出的數(shù)據(jù)統(tǒng)合能力,并且可以運(yùn)用在數(shù)據(jù)查詢(DataMining)、數(shù)據(jù)處理、數(shù)據(jù)分析、流程繪制以及流程規(guī)劃與管理(Workflow)等等各方面。
3 數(shù)據(jù)探勘工具比較
Rapidminer:獨(dú)立平臺(tái);使用者:學(xué)習(xí)者、高級(jí)用戶、專業(yè)用戶、企業(yè)用戶;用戶接口:主要是透過圖形接口來做流程的設(shè)計(jì),也可以同時(shí)開啟多個(gè)窗口來做操作;功能:大于500種,可透過擴(kuò)展來新增額外的功能,且可擴(kuò)展WEKA和R作為它的擴(kuò)充元件,并進(jìn)行協(xié)同工作;操作接口:簡潔易懂的操作接口,不需要額外的學(xué)習(xí)程序語言的編輯能力,使用者只需要透過拉取所需的原件并且將其連接起來即可使用,使用者可自由配置操作接口;支持的輸入格式:CSV、Excel、XML、Access、AML、ARFF、XRFF、SPSS、SASDatabases、JDBC....;支持輸出模型格式:模型可以導(dǎo)出為不同的檔案格式,像是bmp、jpg、pdf、PostScript、raw、XML等各種文件格式。
WEKA:獨(dú)立開發(fā)平臺(tái);使用者:學(xué)習(xí)者、一般用戶;用戶接口:圖形接口;功能:約500種;操作接口:有四種模式可供使用者選擇使用,每種模式都各有其優(yōu)缺點(diǎn),使用者需挑選最合適的使用模式使用;支持的輸入格式:ARFF、CSV、C4.5、BSI、Localfile、URLs、JDBC..;支持輸出模型格式:不支援。
KNIME:Java平臺(tái);使用者:學(xué)習(xí)者、一般用戶;用戶接口:可在同一時(shí)間開啟四個(gè)不同的視窗,用來做不同的功能;功能:約100種;操作接口:簡潔易懂的使用接口,可以讓使用者很容易得學(xué)會(huì),也可以自由配置操作接口;支持的輸入格式:ARFF,CSV,PMML,localfiles,URLs、JDBC..;支持輸出模型格式:可以將檔案匯出成壓縮文件(ZIP),只有從KNIME導(dǎo)出的模型才可以再次匯入到KNIME中。
4 結(jié)語
現(xiàn)今是個(gè)信息科技的時(shí)代,幾乎所有事情都是可以用數(shù)字和數(shù)據(jù)來解釋的,每件事情的發(fā)生都會(huì)有它的前因后果,所以我們可以從這些數(shù)據(jù)當(dāng)中找出這些因果關(guān)系,并且加以利用就可以預(yù)測(cè)出我們所要的結(jié)果,單單只有一大堆的數(shù)據(jù)是沒用的,需要使用Rapidminer這個(gè)數(shù)據(jù)挖掘分析軟件,來從這些雜亂的數(shù)據(jù)庫中萃取出我們所需要的信息,也就是從數(shù)據(jù)進(jìn)行知識(shí)發(fā)掘,并且找出他們的相對(duì)應(yīng)關(guān)系為我們使用。
參考文獻(xiàn)
[1] 胡可云.數(shù)據(jù)挖掘理論與應(yīng)用[M].清華大學(xué)出版社,2008.
[2] 鄭茹菁.數(shù)據(jù)挖掘開源平臺(tái)性能分析[J].天津理工大學(xué)學(xué)報(bào),2015,31(04):33-38.
Abstract:In recent years, due to the rapid development of the calculator technology and the information industry, the amount of related data has also been greatly increased. However, in the face of these huge and messy cubes, we cannot quickly and efficiently find the information we need. Therefore, we must use data mining technology to extract the data we need from the data set, and analyze and process it. In this article, we will introduce the big data mining analysis software Rapidminer, and make a functional comparison with other old data mining analysis software.
Key words:information;Rapi;dMiner big data;mining;application