侯亞君
(山西管理職業(yè)學(xué)院,山西臨汾 041051)
隨著近年來(lái)電子商務(wù)、社交網(wǎng)站、移動(dòng)終端應(yīng)用開發(fā)等行業(yè)的興起,企業(yè)對(duì)于用戶基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息的掌握逐漸成為其在信息領(lǐng)域的核心競(jìng)爭(zhēng)力,“用數(shù)據(jù)說話”、“用數(shù)據(jù)決策”等已經(jīng)成為各大企業(yè)倡導(dǎo)的未來(lái)發(fā)展基石。然而,傳統(tǒng)的數(shù)據(jù)全樣抽取、數(shù)據(jù)的隨機(jī)抽樣等分析統(tǒng)計(jì)方法不僅時(shí)效性差,不適應(yīng)對(duì)實(shí)時(shí)數(shù)據(jù)的處理,且由于分析手段的局限性,預(yù)測(cè)結(jié)果數(shù)據(jù)往往存在有效性差的問題,因此,如何利用海量的數(shù)據(jù)挖掘出有價(jià)值的信息,對(duì)于企業(yè)來(lái)說,是挑戰(zhàn),也是機(jī)遇。
圖1為自定義編寫的kmeans算法流程圖,首先生成繪制函數(shù)p.kmeans,然后為數(shù)據(jù)中的每個(gè)樣本分配聚類id號(hào),通過mid是中心數(shù)據(jù),c.core用于對(duì)數(shù)據(jù)進(jìn)行聚類的分類,
各個(gè)聚類的中心坐標(biāo)點(diǎn)位置由Mid.core函數(shù)來(lái)進(jìn)行計(jì)算,通過多個(gè)聚類中心點(diǎn)的計(jì)算,如果多次計(jì)算出的中心點(diǎn),則停止函數(shù)的循環(huán),否則繼續(xù)循環(huán),直到所有聚類的中心點(diǎn)都相同。
IGRAPH主要適用于社交網(wǎng)站、電商平臺(tái)等互動(dòng)平臺(tái),通過對(duì)站點(diǎn)的相關(guān)圖片信息進(jìn)行分析處理,獲取有價(jià)值的決策數(shù)據(jù)。首先通過線段與結(jié)點(diǎn)構(gòu)建圖片,并對(duì)線段和結(jié)點(diǎn)進(jìn)行賦值:如線段的指向權(quán)重,或無(wú)方向的權(quán)重分別為多少。IGRAPH自帶多種圖片的創(chuàng)建策略。如“隨機(jī)算法”是針對(duì)將任意兩點(diǎn)進(jìn)行連線生成圖片(如圖1所示),數(shù)據(jù)結(jié)構(gòu)中的“最小生成樹算法”也可應(yīng)用到圖片生成中,保證最小的連線權(quán)重?!按┎逅惴ā睍?huì)使得兩個(gè)結(jié)點(diǎn)的連接線也穿透第三個(gè)結(jié)點(diǎn),對(duì)于帶方向的圖片來(lái)說,兩個(gè)結(jié)點(diǎn)連通的充分必要條件M指向N,在無(wú)向圖中,M和N必須互相指向才能稱之為連通?!白疃搪窂剿惴ā笔菆D片創(chuàng)建中最常使用的一種算法,如果圖片中的權(quán)重值為負(fù)數(shù),則會(huì)使用到Bellman-ford算法,如果圖片中的所有權(quán)重都一樣,或者都為正數(shù)時(shí)會(huì)使用到Dijkstra算法。大量的連線和結(jié)點(diǎn)處理創(chuàng)建圖片,對(duì)于圖片的信息統(tǒng)計(jì)處理后即可看到圖片包含的所有信息。如圖片的連接線和結(jié)點(diǎn)的數(shù)量、圖片的各個(gè)結(jié)點(diǎn)是連通還是孤立的狀態(tài)、圖片中任意結(jié)點(diǎn)之間的距離、圖片的對(duì)稱程度、圖片的結(jié)點(diǎn)分布情況等等。以上信息對(duì)于進(jìn)行圖片的各類特征的統(tǒng)計(jì)提供基礎(chǔ)數(shù)據(jù),如圖片的密集點(diǎn)分布特性、方向分布特性等,并找出之間的關(guān)聯(lián)性。
Weka技術(shù)源于1992年開始的一個(gè)關(guān)于機(jī)器學(xué)習(xí)的新西蘭政府項(xiàng)目,包含關(guān)于機(jī)器學(xué)習(xí)的多種算法介紹,并提供圖形可視化編程環(huán)境,便于網(wǎng)絡(luò)編程人員的學(xué)習(xí),一方面可以將對(duì)數(shù)據(jù)的多個(gè)操作利用知識(shí)流功能進(jìn)行組合,包括數(shù)據(jù)的輸入輸出、數(shù)據(jù)的初始化、處理、數(shù)據(jù)的分類和回歸、數(shù)據(jù)的聚類、數(shù)據(jù)的關(guān)聯(lián)設(shè)置、數(shù)據(jù)的預(yù)估、數(shù)據(jù)的可視化等操作,另一方面也提供用命令來(lái)執(zhí)行另外一個(gè)命令的功能。
圖 1(a)隨機(jī)圖片 圖 1(b)偏好連接
數(shù)據(jù)初始化操作步驟是用來(lái)選擇數(shù)據(jù)的特征值,對(duì)數(shù)據(jù)進(jìn)行格式的統(tǒng)一化。涉及的函數(shù)有Normalize(),Discretize(),分別用于對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)和離散型數(shù)據(jù)進(jìn)行處理。
數(shù)據(jù)的分類用classifer實(shí)現(xiàn),通過訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集、交叉校驗(yàn)等方法進(jìn)行數(shù)據(jù)評(píng)價(jià)模型的搭建,最后通過Result list提供的可視化圖面查看分類的歷史數(shù)據(jù),最終通過classifer輸出分類結(jié)果,并對(duì)結(jié)果進(jìn)行驗(yàn)證,可清晰地查看正確分類與錯(cuò)誤分類的樣本信息,這個(gè)過程中涉及的關(guān)鍵算法有最相鄰分類算法IBk()、源數(shù)據(jù)樣本提取算法 Bagging()、決策樹算法 J48()、向量分類算法SMO()。
數(shù)據(jù)的聚類中關(guān)鍵的算法有以下幾種:
1.Cobweb():建立聚類,然后通過查找數(shù)據(jù)來(lái)適應(yīng)這個(gè)聚類,不適用于大型的數(shù)據(jù)庫(kù)。
2.FarthestFirst()、SimpleKMeans():均值算法。
3.XMeans():k均值優(yōu)化法,能夠進(jìn)行類別數(shù)自定義。
4.DBScan():對(duì)于將數(shù)據(jù)庫(kù)中含有噪聲的各類形狀形成聚類。
數(shù)據(jù)的關(guān)聯(lián)規(guī)則中關(guān)鍵的算法即Apriori(),可支持少量數(shù)據(jù)的處理。
預(yù)測(cè)和評(píng)估中的predict()算法用于基于分類和聚類分析結(jié)果預(yù)測(cè)新數(shù)據(jù)的情況。table()用于對(duì)任意兩個(gè)對(duì)象進(jìn)行比較,evaluate_Weka_classifier()算法用于執(zhí)行預(yù)估模型評(píng)估模型的執(zhí)行。
Holt-Winters是數(shù)據(jù)挖掘中一種基于時(shí)間序列的指數(shù)平常算法,時(shí)間序列是指以某個(gè)時(shí)間段為周期構(gòu)成的趨勢(shì)數(shù)據(jù),如下降、保持或上升趨勢(shì),而這些歷史數(shù)據(jù)則可以對(duì)未來(lái)的數(shù)據(jù)發(fā)展趨勢(shì)提供分析基礎(chǔ)。Holt-Winters算法是通過一次和二次指數(shù)平滑算法進(jìn)預(yù)測(cè)數(shù)據(jù)走勢(shì)。一次指數(shù)平滑算法的遞推關(guān)系為:mx=cbi+(1-c)mx-1,其中c是平滑參數(shù),mx是x個(gè)數(shù)據(jù)的平滑值,當(dāng)c接近1的時(shí)候,計(jì)算后的數(shù)據(jù)就越接近當(dāng)前的數(shù)值,通過一次和二次指數(shù),即可在坐標(biāo)相應(yīng)位置進(jìn)行記錄,通過累積三次指數(shù)的結(jié)果對(duì)于數(shù)據(jù)的季節(jié)性與趨勢(shì)能夠很好地保存,而通過將三次指數(shù)數(shù)據(jù)進(jìn)行累積相乘所得的趨勢(shì)信息更準(zhǔn)確。
無(wú)論是電子商務(wù)網(wǎng)站、門戶網(wǎng)站、在線游戲網(wǎng)站,還是社交網(wǎng)站,對(duì)于訪問網(wǎng)站的用戶群體、用戶訪問目的、訪問停留的時(shí)間、網(wǎng)站跳出比例、網(wǎng)站的流量、網(wǎng)站的投入產(chǎn)出比情況等通過信息匯總后進(jìn)行全面的了解,一方面幫助網(wǎng)站為用戶提供更有針對(duì)性的服務(wù),另外一方面也幫助網(wǎng)站運(yùn)維人員發(fā)現(xiàn)問題。對(duì)于網(wǎng)站產(chǎn)生的大量數(shù)據(jù),如果當(dāng)在某個(gè)區(qū)間流量基本沒有變化時(shí),我們需要進(jìn)行哪些操作與統(tǒng)計(jì)分析來(lái)獲取決策數(shù)據(jù)呢。
第一步,我們需要對(duì)于搜集到的數(shù)據(jù)進(jìn)行細(xì)分。此步驟可以使用專用分析工具Analytics,能夠?qū)α髁康膩?lái)源、流量的類型(付費(fèi)/免費(fèi))、自主搜索的流量/推薦鏈接流量均有細(xì)致的報(bào)告,同時(shí)還針對(duì)關(guān)鍵詞有細(xì)分?jǐn)?shù)據(jù)報(bào)告,可對(duì)關(guān)鍵詞的搜索頻率有非常清晰的了解。
第二步,需要對(duì)訪問網(wǎng)站的用戶群體進(jìn)行分析,包括老用戶的回訪率、新用戶的增長(zhǎng)率,同時(shí)還可以自行創(chuàng)建用戶群體類別,如按照性別、年齡段、學(xué)歷、從事行業(yè)等。不同類別的比率對(duì)于新市場(chǎng)的開拓將有很大的幫助。
第三步,對(duì)網(wǎng)站的流量有效性進(jìn)行評(píng)估。當(dāng)不同的時(shí)間段內(nèi)統(tǒng)計(jì)的訪問量相同的時(shí)候,需要對(duì)流量的有效性進(jìn)行分析,即是部分老用戶的反復(fù)回訪造成,還是多個(gè)用戶進(jìn)行初次訪問造成。這對(duì)于網(wǎng)站制定推廣宣傳政策將有所幫助。如果提高網(wǎng)站的有效性,R語(yǔ)言中提供了一種質(zhì)量控制圖方法,名為P控制圖,這種方法適用于已經(jīng)確定的數(shù)據(jù)類型的分析,且主要用于判斷“Yes/No”,例如某個(gè)時(shí)間段內(nèi)訪問用戶是否老用戶、用戶是否完成了購(gòu)買操作、流量是否由于老用戶的多次回訪生成……控制圖繪制成功后呈現(xiàn)的狀態(tài)判斷以上這些類型的比率是否正常,如出現(xiàn)異常,則找出造成異常的關(guān)鍵因子。這一方法要求數(shù)據(jù)足夠多,且分布情況趨于正太時(shí),需要突出一點(diǎn)的是,對(duì)于提供的數(shù)據(jù),針對(duì)每組數(shù)據(jù)都可以為其設(shè)置上、下限。P控制圖的計(jì)算公式如下:
第四步,對(duì)用戶訪問的目的進(jìn)行分析,由于網(wǎng)站的訪問量這個(gè)數(shù)字單獨(dú)的意義并不大,例如有1萬(wàn)次的訪問量,達(dá)成購(gòu)買和只是咨詢?cè)L問是大相徑庭的。因此需要對(duì)用戶訪問的目的進(jìn)行詳細(xì)分析,一是針對(duì)網(wǎng)站的重點(diǎn)內(nèi)容的訪問情況,二是對(duì)于站內(nèi)的關(guān)鍵詞的搜索頻率情況,通過這兩者的綜合分析,將對(duì)網(wǎng)站改版、新服務(wù)的制訂有所幫助。
最后,需要對(duì)網(wǎng)站的投入產(chǎn)出比進(jìn)行分析,即流量的成本與流量產(chǎn)生的價(jià)值的比率,在控制成本的前提下,最大限度地提高流量能產(chǎn)生的價(jià)值。
優(yōu)秀的數(shù)據(jù)挖掘工具一方面要求豐富的數(shù)據(jù)挖掘功能,另一方面也需要優(yōu)化的算法和用戶體驗(yàn),R語(yǔ)言集成了多種改進(jìn)后的數(shù)據(jù)挖掘算法和工具包,且具有開源的特點(diǎn),交互方式提供可神化界面,還支持?jǐn)?shù)據(jù)挖掘工作流的任務(wù)定義與執(zhí)行,極大地簡(jiǎn)化了編程人員的操作,此外,可通過自定義腳本來(lái)進(jìn)行分析功能及其它諸如C語(yǔ)言、java語(yǔ)言的調(diào)用等。綜合以上優(yōu)勢(shì),相信R語(yǔ)言未來(lái)將在大數(shù)據(jù)的挖掘領(lǐng)域有更為廣泛的應(yīng)用。
[1][葡]Luís Torgo.數(shù)據(jù)挖掘與 R 語(yǔ)言[M].北京:機(jī)械工業(yè)出版社,2013.
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.
[3]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.
[4]謝益輝.基于R軟件的包的分類與回歸樹應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2007(5).
[5]WILIAMSG.Rattle:a datamining GUI for R[J].The R journal,2009(1).
晉城職業(yè)技術(shù)學(xué)院學(xué)報(bào)2014年2期