[摘 要] R軟件集成了多種數(shù)據(jù)分析和可視化方法,具有強大的分析能力和出色的擴展性,因此被廣泛應(yīng)用于數(shù)據(jù)挖掘之中。通過聚類分析和分類回歸樹方法給出了R軟件在數(shù)據(jù)挖掘中的應(yīng)用。從簡潔的腳本設(shè)計和出眾的分析效果展示了 R 軟件的基本特點及其在數(shù)據(jù)挖掘中的優(yōu)勢。
[關(guān) 鍵 詞] R軟件;數(shù)據(jù)挖掘;聚類分析;分類回歸樹
[中圖分類號] F407.67 [文獻標志碼] A [文章編號] 2096-0603(2017)18-0045-01
近年來,隨著電子商務(wù)、社交網(wǎng)站、移動終端應(yīng)用開發(fā)的興起,企業(yè)對用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息的掌握逐漸成為其在信息領(lǐng)域的核心競爭力,“用數(shù)據(jù)說話、用數(shù)據(jù)決策”已成為企業(yè)未來發(fā)展的基石。然而,傳統(tǒng)數(shù)據(jù)在全樣抽取時存在時效性差、不適合處理實時數(shù)據(jù)的缺陷,因此,如何從數(shù)據(jù)中挖掘出有價值的信息就顯得十分重要。
一、數(shù)據(jù)準備
數(shù)據(jù)文件包括通用型文件如純文本文件、Excel等,通過加載不同的功能模塊,R軟件還可以讀取多種數(shù)據(jù)文件。通過安裝 RODBC、RJDBC和RMySQL可以獲取對 ODBC、JDBC和Oracle 數(shù)據(jù)源的訪問能力。由于實際應(yīng)用中往往需要對異構(gòu)數(shù)據(jù)源進行挖掘,R 軟件提供的針對各種數(shù)據(jù)源的訪問接口具有很強的適用性。
二、數(shù)據(jù)挖掘建模
(一)聚類分析
k-means是經(jīng)典的基于劃分的聚類方法,其基本思想是使聚類性能指標最小化。所用的聚類準則函數(shù)是聚類集中每個樣本點到該類中心的距離平方之和,應(yīng)使其最小化。為此,首先根據(jù)給定聚類數(shù)K,為每個聚類確定一個初始聚類中心;其次將樣本集里的各個樣本按最小距離原則分配到最鄰近的聚類,并使用每個聚類中的樣本均值作為新的聚類中心,如此重復(fù)直到聚類中心不發(fā)生變化;最后可獲得K個聚類。
R軟件中可以用k-means()函數(shù)來進行聚類。聚類可視化采用判別投影繪制函數(shù)plotcluster(),把數(shù)據(jù)對象映射平面空間,展示聚類之間的異構(gòu)性。以數(shù)據(jù)集iris為例。所用代碼見表1。
(二)分類回歸樹分析
R軟件提供的分類回歸樹函數(shù)有很多種,為簡化獲得的分類回歸樹模型,避免產(chǎn)生過度擬合,常采用的分類回歸樹函數(shù)為rpart(),rpart()可以建立一個分類回歸樹,并且可以選擇最小誤差的預(yù)測。利用rpart包中的bodyfat數(shù)據(jù)集建立分類回歸樹,然后用該分類回歸樹預(yù)測,所用代碼見表2。
優(yōu)秀的數(shù)據(jù)挖掘工具一方面要求豐富的數(shù)據(jù)挖掘功能,另一方面也需要優(yōu)化的算法和用戶體驗,R軟件具備構(gòu)建實用性強的數(shù)據(jù)挖掘系統(tǒng)的各種條件,且具有開源的特點,交互方式提供可視化界面,還支持數(shù)據(jù)挖掘工作流的任務(wù)定義與執(zhí)行,簡化了編程人員的操作。此外,可通過自定義腳本來進行分析功能及其他諸如C語言、java語言的調(diào)用等。因此,R語言未來將在大數(shù)據(jù)的挖掘領(lǐng)域有更廣泛的應(yīng)用。
參考文獻:
邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.