• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類的Web日志挖掘

      2016-04-25 11:42:43令狐紅英
      中國科技博覽 2016年1期
      關(guān)鍵詞:means算法

      [摘 要]本文采用K-均值聚類算法對(duì)Web日志進(jìn)行挖掘,并將Web日志挖掘的知識(shí)用于網(wǎng)頁推薦。在網(wǎng)頁推薦環(huán)節(jié),我們采用了打分函數(shù),這個(gè)函數(shù)充分考慮了各種因素對(duì)用戶訪問的影響。

      [關(guān)鍵詞]K- means算法 Web日志挖掘 網(wǎng)頁推薦 打分函數(shù)

      中圖分類號(hào):TM121.1.3 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1009-914X(2016)01-0067-02

      1.引 言

      隨著全球經(jīng)濟(jì)一體化的發(fā)展,市場營銷策略已愈來愈強(qiáng)調(diào)面向市場的方式,企業(yè)想要在競爭中取得優(yōu)勢地位,重要的是按照不同用戶群體的特定需要,提供全面的服務(wù),精確滿足各個(gè)消費(fèi)群體的不同需求。Web聚類挖掘正是因?yàn)槟軌驅(qū)崿F(xiàn)這一目標(biāo)而成為當(dāng)前發(fā)展電子商務(wù)的一個(gè)重要課題。

      2.Web日志上的聚類挖掘

      2.1Web日志聚類的分類

      Web日志上的聚類有兩種:用戶聚類和頁面聚類。用戶聚類是對(duì)用戶的會(huì)話進(jìn)行分析。通過聚類分析的方法,將訪問模式相同的用戶聚在一起,將訪問模式不同的用戶區(qū)分開。頁面聚類是對(duì)被用戶訪問的頁面情況進(jìn)行分析,根據(jù)用戶訪問內(nèi)容,發(fā)現(xiàn)被相同用戶訪問的頁面,并將其歸為一組。

      2.2會(huì)話以及會(huì)話矩陣的表示

      這里采用向量的方式來表示會(huì)話,為了表示一個(gè)會(huì)話向量需要對(duì)網(wǎng)站中的所有網(wǎng)頁進(jìn)行編碼,從而將網(wǎng)頁用對(duì)應(yīng)的編碼來代替。設(shè)會(huì)話向量V=(U1,U2,U3……Un),其中Ui的值是對(duì)編號(hào)為i的網(wǎng)頁進(jìn)行訪問的次數(shù),如果編號(hào)為i的網(wǎng)頁沒有被瀏覽,Ui=0。有了會(huì)話向量,就可以將日志中所有的會(huì)話用向量的方式表示出來,然后就可以得到會(huì)話矩陣。

      2.3會(huì)話的相似度量方法

      2.3.1會(huì)話間的相似度

      這里用夾角余弦法來定義兩個(gè)會(huì)話i,j之間的相似度S(i,j),設(shè)會(huì)話i的會(huì)話Vi=(mi1,mi2, mi3……min),會(huì)話j的會(huì)話向量為Vj=(mj1,mj2, mj3……mjn),那么

      設(shè)相似矩陣為R=(rij)s*s,rij用來代替會(huì)話i和j的相似度:

      2.3.2相似度矩陣

      相似度矩陣:對(duì)于矩陣R,,其中rij=S(i,j),即會(huì)話i和j的相似度。矩陣R為會(huì)話集合的相似度矩陣。

      3.Web日志上的聚類分析算法

      3.1K-均值聚類算法

      我們選擇聚類算法中的K-均值聚類算法(k-means algorithm)來進(jìn)行Web上的用戶聚類和網(wǎng)頁聚類,K-均值聚類算法是無監(jiān)督分類中的一種基本方法,其也稱為C-均值算法,其基本思想是:通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。該算法必須在開始輸入一個(gè)K值,作為該算法在數(shù)據(jù)集上分割并計(jì)算后輸出聚類的數(shù)量。

      算法的開始是隨機(jī)的從聚類對(duì)象集合中取K個(gè)對(duì)象,最為最初的聚類中心,然后算法開始循環(huán)迭代,對(duì)每一個(gè)輸入的對(duì)象向量計(jì)算它與K個(gè)聚類中心的距離,找到距離對(duì)象最近的聚類,并將其歸為該聚類。重新計(jì)算聚類的中心,然后依次迭代,知道聚類的成員不再變化,或者用來衡量聚類質(zhì)量的目標(biāo)函數(shù)不存在明顯的變化,即變化小于一個(gè)可以認(rèn)可的值。

      4. Web日志聚類結(jié)果的應(yīng)用

      Web日志聚類結(jié)果最直接的用途就是網(wǎng)頁推薦。網(wǎng)頁推薦的過程,首先要提取用戶的訪問模式,然后對(duì)網(wǎng)站中的各個(gè)網(wǎng)頁進(jìn)行打分,按照得分的高低來排序,最后將得分較高的若干網(wǎng)頁推薦出去。網(wǎng)頁推薦最重要的一個(gè)環(huán)節(jié)就是對(duì)打分函數(shù)的設(shè)計(jì),即依據(jù)什么樣的函數(shù)來對(duì)網(wǎng)頁進(jìn)行打分。在定義打分函數(shù)之前我們先定義以下幾個(gè)概念:

      會(huì)話片段向量:對(duì)于一個(gè)當(dāng)前還結(jié)束的會(huì)話,構(gòu)造一個(gè)向量ui=(u1,u2, u3……un),其中n是經(jīng)過了預(yù)處理后網(wǎng)頁的總數(shù)目,ui的值是該會(huì)話對(duì)編號(hào)為i的網(wǎng)頁的訪問次數(shù),我們稱向量u為一個(gè)會(huì)話片段向量。

      網(wǎng)頁訪問向量:p=(p1,p2, p3……pn), 其中n是經(jīng)過了預(yù)處理后會(huì)話的總數(shù)目。pi是編號(hào)為i的會(huì)話對(duì)網(wǎng)頁p的訪問次數(shù)。

      聚類支持度函數(shù):S_cluster(u,p)=Projp(maxc(u,ci)),其中ci是對(duì)會(huì)話的聚類分析后聚類中編號(hào)為i的聚類簇的中心。maxc(u,ci)函數(shù)的值是同會(huì)話片段向量u相似度最大的中心向量。

      聚類支持函數(shù)是從用戶聚類的角度來考慮預(yù)期的推薦網(wǎng)頁,即用當(dāng)前的會(huì)話片段向量距離最近的聚類中心的屬性來考慮對(duì)網(wǎng)頁p的支持程度。

      點(diǎn)擊率:

      其中Ci是經(jīng)過預(yù)處理后,用戶對(duì)編號(hào)為i的網(wǎng)頁的總訪問次數(shù)。Cp是經(jīng)過預(yù)處理后,用戶對(duì)網(wǎng)頁p的總訪問次數(shù)。點(diǎn)擊率函數(shù)參照了網(wǎng)頁p原來被訪問的數(shù)據(jù),從概率的角度來考慮網(wǎng)頁p被再次訪問的可能性。

      打分函數(shù): f(p,pl,u)=S_cluster(u,p)×S_click(p)×sim(p,pl)

      其中pl是會(huì)話u最近訪問的頁面。p是當(dāng)前需要打分的頁面。sim(p,pl)是網(wǎng)頁p和網(wǎng)頁pl的相似度。

      有了打分函數(shù),就可以對(duì)一個(gè)具體的用戶推薦網(wǎng)頁。對(duì)于一個(gè)當(dāng)前需要推薦網(wǎng)頁的用戶,首先提取他的訪問會(huì)話片段向量u。然后,從數(shù)據(jù)庫中得到會(huì)話聚類分析的結(jié)果,計(jì)算出距離當(dāng)前用戶最近那一個(gè)聚類簇C,計(jì)算C的聚類中心,根據(jù)日志中的時(shí)間屬性,找到會(huì)話中的最后訪問網(wǎng)頁pl。假定網(wǎng)頁pl所屬的網(wǎng)頁聚類為K,對(duì)于推薦網(wǎng)頁集合中每一個(gè)網(wǎng)頁根據(jù)打分函數(shù)的定義,計(jì)算它的得分,最后按照得分的高低對(duì)所有打分后的網(wǎng)頁進(jìn)行排序,將排序在前面的網(wǎng)頁推薦給用戶U。

      5.總結(jié)

      本文采用K-均值聚類算法對(duì)Web日志中的用戶和頁面進(jìn)行聚類,并將聚類結(jié)果用戶網(wǎng)頁推薦。在網(wǎng)頁推薦過程我們運(yùn)用打分函數(shù)對(duì)網(wǎng)頁進(jìn)行排序,把分?jǐn)?shù)的較高的網(wǎng)頁推薦給網(wǎng)頁,這樣更能滿足用戶的需要。

      參考文獻(xiàn)

      [1] 陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社.2006.3

      [2] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù).北京:機(jī)械工業(yè)出版社.2004

      [3] 王春霞.基于Web日志的挖掘研究[D].鄭州大學(xué).2003

      [4] 范明.聚類算法在Web挖掘中的應(yīng)用[D].西北工業(yè)大學(xué).2007

      [5] 付國瑜. 基于Web日志的數(shù)據(jù)挖掘研究[D].重慶大學(xué).2007

      作者簡介:

      令狐紅英(1982—— ),女,貴州師范學(xué)院教師,講師,主要研究方向?yàn)閿?shù)據(jù)庫技術(shù)與軟件工程。

      猜你喜歡
      means算法
      機(jī)器學(xué)習(xí)中K—means聚類算法的分析和應(yīng)用
      應(yīng)用K—means聚類算法劃分曲面及實(shí)驗(yàn)驗(yàn)證
      K—Means算法及其在卷煙零售門店庫存聚類分析中的應(yīng)用
      SIFT算法在木材紋理分類上的應(yīng)用
      基于K—Means聚類算法入侵檢測系統(tǒng)研究
      基于聚類算法的DNS攻擊檢測
      基于譜聚類的網(wǎng)絡(luò)入侵檢測算法研究
      基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
      基于HSI顏色空間的小麥粉精度自動(dòng)識(shí)別研究
      基于百度地圖的改進(jìn)的K—means算法研究
      軟件(2016年1期)2016-03-08 18:48:49
      鄄城县| 抚顺县| 渭南市| 喀什市| 抚宁县| 河南省| 葫芦岛市| 怀柔区| 抚州市| 延安市| 石阡县| 井冈山市| 镇江市| 崇阳县| 渝中区| 望谟县| 淮南市| 石景山区| 修文县| 滨海县| 洪雅县| 五指山市| 娱乐| 朝阳市| 新和县| 安宁市| 微山县| 山东| 虞城县| 囊谦县| 沽源县| 南澳县| 北票市| 齐河县| 秦皇岛市| 镇坪县| 玉山县| 巴东县| 黄冈市| 陵川县| 琼海市|