• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種某高校網(wǎng)絡(luò)用戶上網(wǎng)形式的數(shù)據(jù)挖掘方法

      2008-04-26 03:32:16
      關(guān)鍵詞:數(shù)據(jù)挖掘

      康 健

      摘 要: 數(shù)據(jù)挖掘是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)某些模型和數(shù)據(jù)間關(guān)系的過(guò)程。如 何根據(jù)用戶上網(wǎng)日志發(fā)現(xiàn)用戶感興趣的信息和資源,幫助網(wǎng)絡(luò)中心科學(xué)地管理和規(guī)范其網(wǎng)絡(luò) 用戶,已經(jīng)成為一個(gè)迫切的問(wèn)題。本文通過(guò)問(wèn)題陳述、數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和 結(jié)論幾個(gè)步驟用SPSS軟件對(duì)某高校某一時(shí)段的網(wǎng)絡(luò)用戶上網(wǎng)日志進(jìn)行分析,為科學(xué)的網(wǎng)絡(luò)管 理提供依據(jù)。

      關(guān)鍵詞:數(shù)據(jù)挖掘; SPSS; 上網(wǎng)日志

      中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-1098(2008)03-0069-04

      數(shù)據(jù)挖掘是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的過(guò)程 ,它已經(jīng)成為各行各業(yè)對(duì)數(shù)據(jù)進(jìn)行分析的不可或缺的手段。過(guò)去,各企業(yè)、政府部門、學(xué)校 、科研機(jī)構(gòu)等往往投入大量資金去收集和存儲(chǔ)數(shù)據(jù),并把很多精力都放在提高存儲(chǔ)效率上。 事實(shí)上,在這些海量數(shù)據(jù)中,只有一部分是有用的?,F(xiàn)在,越來(lái)越多的企業(yè)認(rèn)識(shí)到,從他們 的客戶信息中挖掘出最有價(jià)值客戶,或者從這些信息中找出客戶消費(fèi)的某種規(guī)律,要比存儲(chǔ) 大量的歷史數(shù)據(jù)更有價(jià)值。 這就是數(shù)據(jù)挖掘(data mining), 即在“數(shù)據(jù)”的礦山中挖掘 出“金塊”。 數(shù)據(jù)挖掘可以在幫助企業(yè)減少不必要投資風(fēng)險(xiǎn)的同時(shí)提高資金收益, 它給企 業(yè)帶來(lái)的回報(bào)幾乎是無(wú)止境的。

      數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和 關(guān)系可以用來(lái)做出預(yù)測(cè)[1]83。其程序一般包括:陳述和闡明問(wèn)題、數(shù)據(jù)搜集、數(shù) 據(jù)預(yù)處理、模型評(píng)估、解釋模型和得出結(jié)論。具體過(guò)程如圖1數(shù)據(jù)挖掘過(guò)程所示。本文也將 根據(jù)這個(gè)流程,利用統(tǒng)計(jì)專業(yè)軟件SPSS對(duì)某高校網(wǎng)絡(luò)用戶上網(wǎng)行為模式進(jìn)行分析。

      1 SPSS簡(jiǎn)介

      SPSS(Statistical Package for the Social Science,社會(huì)科學(xué)統(tǒng)計(jì)軟件包)。 是為了強(qiáng)調(diào)它在社會(huì)科學(xué)應(yīng)用的一面(因?yàn)樯鐣?huì)科 學(xué)研究中的許多現(xiàn)象都是隨機(jī)的,要使用統(tǒng)計(jì)學(xué)來(lái)進(jìn)行研究),而實(shí)際上廣泛應(yīng)用于經(jīng)濟(jì)學(xué) 、社會(huì)學(xué)、生物學(xué)、教育學(xué)、心理學(xué)、醫(yī)學(xué)以及體育、工業(yè)、農(nóng)業(yè)、林業(yè)、商業(yè)和金融等各 個(gè)領(lǐng)域[2]14。

      SPSS集數(shù)據(jù)錄入、資料編輯、數(shù)據(jù)管理、統(tǒng)計(jì)分析、報(bào)表制作、圖形繪制為一體。SPS S統(tǒng)計(jì)分析過(guò)程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對(duì)數(shù)線 性模型、聚類分析、數(shù)據(jù)簡(jiǎn)化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類。SPSS也有專 門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形[2]15。

      目前為止,SPSS已具有適合于DOS、Windows、Unix、Macintosh、OS/2等多種操作系統(tǒng) 使用的產(chǎn)品,本文使用的是Windows版本。

      2 問(wèn)題陳述

      自從某高校校園網(wǎng)開(kāi)通以來(lái),其網(wǎng)絡(luò)用戶都是通過(guò)計(jì)費(fèi)上網(wǎng)的。這就使該校網(wǎng)絡(luò)中心 積累了大量的用戶上網(wǎng)日志,數(shù)據(jù)量不斷地迅速膨脹。 這些數(shù)據(jù)猶如茫茫的信息海洋,能 否 從中了解這些表面毫無(wú)關(guān)聯(lián)的數(shù)據(jù)之間是否存在或多或少的關(guān)系?怎樣才能找到這些關(guān)系并 運(yùn)用到網(wǎng)絡(luò)管理中呢?例如,能否有助于發(fā)現(xiàn)上網(wǎng)成癮而影響學(xué)習(xí)的同學(xué),為輔導(dǎo)員做好學(xué) 生工作提供幫助;對(duì)上網(wǎng)時(shí)間過(guò)長(zhǎng)的用戶加以適當(dāng)限制等。這就是數(shù)據(jù)挖掘要做的工作。

      本文會(huì)利用用戶信息文件User.txt和用戶上網(wǎng)日志文件Log.txt對(duì)網(wǎng)絡(luò)用戶的上網(wǎng)行為 模式進(jìn)行分析。

      2.1 數(shù)據(jù)搜集

      本文是對(duì)兩個(gè)數(shù)據(jù)文件進(jìn)行分析的,分別是用戶信息文件User.txt和用戶上網(wǎng)日志文 件Log.txt。其中User.txt 為用戶信息文件,主要包括:用戶名和用戶所在的用戶組,其中 102代表研究生組,103代表本科生組,104代表教職工組,105代表辦公用戶組。Log.txt為 用戶上網(wǎng)日志文件。

      2.2 數(shù)據(jù)分析方法

      要對(duì)數(shù)據(jù)進(jìn)行分析,首先要將這些數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中。因?yàn)樽畛醌@得的數(shù)據(jù)是.txt形 式的,所以要利用某種語(yǔ)言(如Java)編寫(xiě)的代碼將其導(dǎo)入數(shù)據(jù)庫(kù)的表中,或者直接利用某個(gè) 軟件直接將其導(dǎo)入庫(kù)中,如Microsoft SQL Server 2000 Enterprise Edition。本次分析 采用SPSS 15.0 for Windows。

      3 數(shù)據(jù)預(yù)處理

      (1) Log.txt數(shù)據(jù)導(dǎo)入 首先將Log.txt利用SPSS導(dǎo)入表中,可以發(fā)現(xiàn)總共有389 348條記 錄,每條記錄的格式如圖2所示。其中的屬性分別為用戶IP、用戶名、訪問(wèn)時(shí)間戳、端口、 訪問(wèn)方法、訪問(wèn)內(nèi)容(即URL) 、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送方式。在導(dǎo)入時(shí),此日 志是以空格作為分隔符的。

      (2) User.txt數(shù)據(jù)導(dǎo)入 User.txt導(dǎo)入后的格式如圖3所示,其中共有1 703條記錄,屬性分 別為用戶名(userid)和用戶組名(groupid)。其中:102代表研究生組,103代表本科生組,1 04代表教職工組,105代表辦公用戶組。

      4 數(shù)據(jù)挖掘

      4.1 用戶上網(wǎng)日志文件的分析

      [JP1]將Log.txt導(dǎo)入表中后,發(fā)現(xiàn)其中有一些屬性如端口、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送 方式等在挖掘過(guò)程中是幾乎沒(méi)有用途的,所以可以將它們略去以節(jié)省資源。圖4所示為用戶 上網(wǎng)頻數(shù)統(tǒng)計(jì)圖。

      從圖4中可以發(fā)現(xiàn)user1601至user1728之間有一用戶上網(wǎng)頻 數(shù)遙遙領(lǐng)先于其他用戶。再查頻數(shù)統(tǒng)計(jì)表可以發(fā)現(xiàn)此用戶為user1660,其上網(wǎng)頻數(shù)為11 959 ,占全部用戶總頻數(shù)的3.1%。從user表中可以查出此用戶屬于104組(教職工組)。

      對(duì)user1 660的上網(wǎng)記錄進(jìn)行分析,可以發(fā)現(xiàn)其記錄是按照秒為單位進(jìn)行計(jì)時(shí)的。此用戶瀏覽 的網(wǎng)址多以 .gif結(jié)尾,且包含一些政府部門的網(wǎng)站,可以推斷出:由于平時(shí)工作的繁 忙,該教師于2006年11月10日(周六休息日)在家或辦公室瀏覽一些新聞及圖片,了解國(guó)內(nèi)外的時(shí)事政治;此用戶還訪問(wèn)了一些論壇的網(wǎng)站,可以推斷該教師可能比較喜歡在論壇 上和朋友們一起對(duì)某時(shí)事或觀點(diǎn)發(fā)表言論;網(wǎng)站中還包含有“taobao”,推斷該教師可能喜 歡網(wǎng)上購(gòu)物,所以會(huì)訪問(wèn)諸如“淘寶”這類的大型網(wǎng)上購(gòu)物網(wǎng)站。

      4.2 用戶信息文件的分析

      表1所示為用戶信息頻數(shù)統(tǒng)計(jì)表,從表中看出用戶組除了有103至1 05外,還包含有1、14、61、101、108和65 534,這些組共包含記錄15條。將這15條記錄當(dāng) 作 錯(cuò)誤信息處理。 剩下的1 688條記錄中, 103(本科生組)的用戶最多, 共731條, 占總用 戶的42 .9%;其次是104(教職工組),共569條,占總用戶的33.4%;102(研究生組)共299條,占17.6 %;105(辦公用戶組)共89條,占5.2%。

      從這個(gè)表中可以發(fā)現(xiàn)本科生的上網(wǎng)用戶數(shù)最多,可以分析是由兩個(gè)原因造成的:一是 本科生在全校的人數(shù)最多,所占比例較大;二是2006年11月10日當(dāng)天為周六休息日,學(xué)生不 用上課,所以網(wǎng)絡(luò)用戶較多。其次是教職工組用戶,由于周六不是工作時(shí)間,所以這組用戶 所占比重居第二。辦公用戶組所占比重最小,因?yàn)橹芰皇寝k公時(shí)間,大多數(shù)工作人員都休 息。

      表2是用CHAID方法分析的決策樹(shù)模型信息摘要表。因?yàn)橛涗浱?多,所以只能抽樣對(duì)其進(jìn)行分析。從抽取的樣本中可以看出,大多數(shù)用戶上網(wǎng)時(shí)間較短???能因?yàn)楫?dāng)時(shí)是10/Nov/2006(周六),大多數(shù)用戶都會(huì)選擇周末給自己放個(gè)假,放松一星期上 班或上學(xué)疲憊的身心。預(yù)測(cè)隨著時(shí)間漸晚直到周日,上網(wǎng)用戶數(shù)會(huì)增長(zhǎng),用戶上網(wǎng)時(shí)間也會(huì) 增加。

      5 結(jié)論

      數(shù)據(jù)挖掘是在大量數(shù)據(jù)中由未知去發(fā)現(xiàn)知識(shí),屬于挖掘型分析的范疇。挖掘型分析又 分為描述性分析和預(yù)測(cè)型分析。描述性分析用于了解系統(tǒng)實(shí)際數(shù)據(jù)存在的特性,其目的是為 預(yù)測(cè)做準(zhǔn)備。預(yù)測(cè)型分析是在描述性分析得到結(jié)論的基礎(chǔ)上對(duì)系統(tǒng)的發(fā)展進(jìn)行估計(jì),通過(guò)預(yù) 測(cè)型分析得到最終需要的結(jié)果,能夠?yàn)闆Q策者提供直接的依據(jù)[1]85。

      描述性分析包含了關(guān)聯(lián)分析、序列分析、聚類分析和濾除分析等方法。預(yù)測(cè)型分析包 含分類型預(yù)測(cè)和統(tǒng)計(jì)回歸型預(yù)測(cè)。分類型預(yù)測(cè)是對(duì)某個(gè)事物可能歸屬于某個(gè)類別的概率進(jìn)行 度量?;貧w型預(yù)測(cè)是指預(yù)測(cè)一個(gè)變量值的變化。預(yù)測(cè)型分析常用的數(shù)學(xué)模型包括:決策樹(shù)模 型、規(guī)則推理模型和神經(jīng)元網(wǎng)絡(luò)模型[1]86。本文采用的是決策樹(shù)模型中的CHAID方 法。

      參考文獻(xiàn):

      [1] 林宇等.數(shù)據(jù)倉(cāng)庫(kù)原理與實(shí)踐[M].北京:人民郵電出版社,2003:83-86 .

      [2] 米紅,張文璋.實(shí)用現(xiàn)代統(tǒng)計(jì)分析方法與SPSS應(yīng)用[M].北京:當(dāng)代中國(guó)出 版社,2000:14-15.

      [3] 高祥寶,董寒青.數(shù)據(jù)分析與SPSS應(yīng)用[M].北京:清華大學(xué)出版社,2007.

      [4] 陳文偉,黃金才.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004.

      [5] 陳京民.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京.電子工業(yè)出版社,2002.

      (責(zé)任編輯:李 麗)

      猜你喜歡
      數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      锡林郭勒盟| 金川县| 栖霞市| 仁寿县| 疏附县| 巩留县| 萨嘎县| 腾冲县| 黔南| 喀什市| 江北区| 东源县| 大港区| 盐山县| 涿州市| 印江| 井冈山市| 安吉县| 鄱阳县| 莱阳市| 墨玉县| 雅江县| 崇仁县| 德惠市| 米林县| 于都县| 阜城县| 久治县| 荣成市| 邵东县| 兴和县| 龙游县| 威信县| 望奎县| 澄迈县| 威海市| 旺苍县| 门源| 东山县| 循化| 加查县|