• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的Web用戶識(shí)別與新聞智能推薦算法研究

      2016-05-14 15:48:59林中明李文敬
      軟件導(dǎo)刊 2016年5期

      林中明 李文敬

      摘要:為了解決大數(shù)據(jù)時(shí)代用戶閱讀時(shí)遇到的“信息過(guò)載”與“信息迷失”問(wèn)題,提出了基于Hadoop平臺(tái)的用戶準(zhǔn)確識(shí)別與新聞推薦算法。首先基于MAC地址識(shí)別用戶,通過(guò)對(duì)用戶瀏覽軌跡的離線和在線挖掘,建立用戶興趣模型。然后對(duì)新聞關(guān)鍵詞進(jìn)行聚類,結(jié)合協(xié)同過(guò)濾和啟發(fā)式方法,基于關(guān)鍵詞對(duì)用戶進(jìn)行新聞的智能推薦。實(shí)驗(yàn)結(jié)果表明,基于MAC地址的算法比基于IP地址的算法用戶識(shí)別率提高了30%。

      關(guān)鍵詞:云計(jì)算;新聞推薦;Web日志挖掘;Hadoop;MAC地址

      DOIDOI:10.11907/rjdk.161378

      中圖分類號(hào):TP312

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0027-03

      0 引言

      根據(jù)ZDNET《數(shù)據(jù)中心2013:硬件重構(gòu)與軟件定義》[1]年度技術(shù)報(bào)告顯示,2013年中國(guó)產(chǎn)生的數(shù)據(jù)總量超過(guò)0.8ZB,預(yù)計(jì)到2020年,產(chǎn)生的數(shù)據(jù)總量將是2013年的10倍。海量的Web信息讓人們感覺(jué)到信息過(guò)載和信息迷失,如何快速精準(zhǔn)地識(shí)別用戶并為其推薦感興趣的內(nèi)容成為了當(dāng)今的研究熱點(diǎn)[2]。根據(jù)新聞閱讀與設(shè)備使用情況的調(diào)查問(wèn)卷[3]數(shù)據(jù)顯示,95%的人都是在電腦、手機(jī)、平板等電子設(shè)備上獲取新聞資訊,而且80%的人在閱讀新聞時(shí)并未處于登錄狀態(tài),即無(wú)法通過(guò)用戶的登錄信息給用戶推薦相應(yīng)內(nèi)容。面對(duì)海量的新聞資訊,文獻(xiàn)[4]針對(duì)用戶識(shí)別存在的問(wèn)題提出了IASR(IP,Agent,Session and Referrer)算法,通過(guò)引入會(huì)話(Session)來(lái)識(shí)別用戶;文獻(xiàn)[5]提出了基于用戶瀏覽行為的建模,提高了同一個(gè)IP下用戶的識(shí)別率;文獻(xiàn)[6-8]提出了基于URL相似度的會(huì)話識(shí)別方法。但這些方法并不能改變IP對(duì)于識(shí)別用戶的限制,所以不能從本質(zhì)上提高用戶識(shí)別率。因此,利用Hadoop大數(shù)據(jù)平臺(tái),對(duì)無(wú)登錄信息的用戶進(jìn)行快速身份識(shí)別和新聞信息的個(gè)性化推薦,相關(guān)研究具有重要的現(xiàn)實(shí)意義和潛在的經(jīng)濟(jì)價(jià)值。

      1 海量Web日志與用戶識(shí)別

      MAC地址是網(wǎng)卡物理地址,由網(wǎng)絡(luò)設(shè)備制造商生產(chǎn)時(shí)寫在硬件內(nèi)部,因此世界上任意一個(gè)擁有48位MAC地址的網(wǎng)卡都有唯一標(biāo)識(shí)[9],且MAC地址與網(wǎng)絡(luò)無(wú)關(guān)。通過(guò)在Web日志中加入MAC地址,可以實(shí)現(xiàn)用戶的唯一性識(shí)別,增加用戶識(shí)別的準(zhǔn)確性。

      用戶識(shí)別是個(gè)性化新聞推薦的基礎(chǔ)和關(guān)鍵,詳細(xì)有用的用戶數(shù)據(jù)將決定新聞推薦的效果。由于Web日志中包含了訪問(wèn)主機(jī)IP、訪問(wèn)時(shí)間、訪問(wèn)頁(yè)面、請(qǐng)求方式等信息,詳細(xì)記錄了用戶的訪問(wèn)軌跡,生成巨大的數(shù)據(jù)量及數(shù)據(jù)類型,因此將通過(guò)Web日志作為用戶識(shí)別的數(shù)據(jù)源。本文將記錄分為長(zhǎng)期記錄和短期記錄,一般將10天以前的訪問(wèn)日志作為長(zhǎng)期記錄,最近10天的訪問(wèn)日志作為短期記錄。針對(duì)長(zhǎng)期記錄,通過(guò)Hadoop平臺(tái)進(jìn)行離線處理。短期記錄則在用戶使用過(guò)程當(dāng)中,以信息增量的形式補(bǔ)充到推薦算法中來(lái)。

      2 基于MAC地址的用戶識(shí)別算法

      2.1 算法基本思想

      Hadoop的核心是Map/Reduce。Map/Reduce是一個(gè)可用于大數(shù)據(jù)處理的離線計(jì)算模型,它將一個(gè)任務(wù)分成多個(gè)細(xì)粒度的子任務(wù),并將這些子任務(wù)分配到計(jì)算節(jié)點(diǎn)上進(jìn)行并行處理,以縮短任務(wù)完成時(shí)間。將Web日志等份劃分后,利用Map/Reduce對(duì)Web日志作長(zhǎng)期記錄處理。

      利用Hadoop平臺(tái)得到用戶長(zhǎng)期記錄下的每個(gè)MAC地址對(duì)應(yīng)用戶的集合文件,這是一個(gè)龐雜的文件,將通過(guò)基于URL相似性的用戶識(shí)別算法對(duì)集合文件進(jìn)行處理,得到此MAC對(duì)應(yīng)用戶的100條最感興趣頁(yè)面的排序文件。

      定義長(zhǎng)期記錄的日志文件為集合L={l1,l2,……,lm},通過(guò)map過(guò)程得到每個(gè)MAC對(duì)應(yīng)的集合文件K={k1,k2,……,kn},再通過(guò)reduce過(guò)程,得到對(duì)應(yīng)生成的用戶長(zhǎng)期訪問(wèn)文件為MAC={MAC1,MAC2,……,MACr},每個(gè)文件里包含了此MAC地址對(duì)應(yīng)用戶的所有長(zhǎng)期訪問(wèn)記錄。在K的每個(gè)文件中包含有訪問(wèn)時(shí)間、IP、URL、訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)次數(shù)字段。針對(duì)短期日志文件,根據(jù)最近10天該MAC地址用戶的所有訪問(wèn)記錄,同樣生成一個(gè)短期的訪問(wèn)記錄文件。在用戶進(jìn)入站點(diǎn)后,根據(jù)用戶的長(zhǎng)期和短期記錄生成一個(gè)綜合的用戶訪問(wèn)記錄文件,與用戶未讀新聞對(duì)比后進(jìn)行推薦。

      2.2 特征標(biāo)簽選擇

      由于一篇文章中經(jīng)常存在多個(gè)分頁(yè)形式,且每個(gè)分頁(yè)的訪問(wèn)次數(shù)和瀏覽時(shí)間基本相同,所以要將同屬一篇文章多個(gè)分頁(yè)的URL記錄合并。對(duì)ki中URL具有相似性的記錄進(jìn)行合并,cos(URLi,URLj)為兩條URL的余弦相似性,Smaxi為合并的記錄中訪問(wèn)次數(shù)最多的,i為合并的記錄中訪問(wèn)時(shí)間的平均值,numi為合并的記錄條數(shù)。

      3 基于關(guān)鍵詞的協(xié)同過(guò)濾智能推薦算法

      當(dāng)前有很多種智能推薦算法,主要有基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦和基于知識(shí)的推薦?;趦?nèi)容的推薦是提取對(duì)象中的特征屬性,通過(guò)用戶信息與待推薦對(duì)象的匹配程度進(jìn)行推薦,但這種算法對(duì)特征提取方法的依賴程度很高,無(wú)法準(zhǔn)確地描述用戶特征;協(xié)同過(guò)濾推薦是通過(guò)聚合待推薦用戶的相似用戶評(píng)價(jià)的所有對(duì)象,計(jì)算對(duì)象與用戶之間的效用值進(jìn)行推薦,對(duì)于新對(duì)象和新用戶都存在冷啟動(dòng)和稀疏性問(wèn)題;基于知識(shí)的推薦是在特定領(lǐng)域構(gòu)建規(guī)則來(lái)進(jìn)行基于規(guī)則和實(shí)例的推理,不存在冷啟動(dòng)和稀疏問(wèn)題,但知識(shí)很難建模。

      本文結(jié)合各推薦算法的優(yōu)缺點(diǎn),提出一種基于關(guān)鍵詞的協(xié)同過(guò)濾智能推薦算法。一般地,在系統(tǒng)中的每一篇文章都包含有最能體現(xiàn)這篇文章主題的關(guān)鍵詞。通過(guò)對(duì)關(guān)鍵詞的聚類,避免了項(xiàng)目的冷啟動(dòng)問(wèn)題,并去掉了項(xiàng)目特征提取的步驟。對(duì)從用戶模型中得到的此MAC用戶的100條最感興趣的記錄文件,對(duì)關(guān)鍵詞進(jìn)行聚類。得到關(guān)鍵詞聚合文件W={(w1,q1),(w2,q2),……,(wn,qn)},其中q為w的出現(xiàn)次數(shù)。利用啟發(fā)式方法,先計(jì)算文章關(guān)鍵詞之間的相似度,再對(duì)所有待推薦文章對(duì)此MAC用戶的效用值進(jìn)行計(jì)算,得到推薦子集。同時(shí)假設(shè)待推薦文章的關(guān)鍵詞為W'={w1',w2',……,wm'}。

      4 實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)在由5臺(tái)HP DL380G5服務(wù)器組成的集群上進(jìn)行,其中,一臺(tái)是主節(jié)點(diǎn),一臺(tái)是任務(wù)調(diào)度節(jié)點(diǎn),5臺(tái)都可以作為計(jì)算節(jié)點(diǎn)及數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)。同時(shí),采取Xen的虛擬化技術(shù),使同一節(jié)點(diǎn)上同時(shí)并發(fā)執(zhí)行多個(gè)MapReduce操作。5臺(tái)服務(wù)器均安裝hadoop-0.20.0和JDK。實(shí)驗(yàn)程序是在PHP集成開發(fā)環(huán)境中開發(fā)的。測(cè)試數(shù)據(jù)集來(lái)自某地方綜合新聞資訊網(wǎng)站的Web服務(wù)器日志。為了驗(yàn)證該Web日志分析平臺(tái)的有效性及高效性,做了以下2個(gè)實(shí)驗(yàn)。

      實(shí)驗(yàn)1:在Hadoop平臺(tái)上對(duì)Web日志中的MAC和IP地址數(shù)量分別進(jìn)行統(tǒng)計(jì)。通過(guò)比較發(fā)現(xiàn),基于MAC地址比基于IP地址辨別用戶的算法識(shí)別率高出了30%以上,且隨著記錄時(shí)間的變長(zhǎng),用戶的識(shí)別率還會(huì)繼續(xù)擴(kuò)大。這表明基于Web日志分析的新聞推薦使用基于MAC地址的用戶識(shí)別算法能夠準(zhǔn)確地識(shí)別用戶,且不依靠用戶前臺(tái)的數(shù)據(jù),減輕了前臺(tái)數(shù)據(jù)的處理壓力。

      從以上結(jié)果可以看出,利用MAC地址的唯一性來(lái)識(shí)別用戶是一個(gè)切實(shí)可行的方法。當(dāng)處理的數(shù)據(jù)量較小時(shí),基于Hadoop的Web日志分析平臺(tái)由于需要生成及傳輸中間文件和最終文件,開啟Hadoop也需要一定時(shí)間,因此并行運(yùn)算的總時(shí)間反而大于單機(jī)執(zhí)行時(shí)間。但隨著數(shù)據(jù)量增大,基于Hadoop的并行處理平臺(tái)將數(shù)據(jù)分割后分派給多個(gè)節(jié)點(diǎn)并行處理,使并行運(yùn)算的總時(shí)間小于單機(jī)執(zhí)行時(shí)間,且隨著輸入數(shù)據(jù)的增加,兩者執(zhí)行效率的差距也越來(lái)越大。從圖3可以看出,集群中擁有的節(jié)點(diǎn)數(shù)目越多,基于Hadoop的并行處理平臺(tái)效率越高。

      5 結(jié)語(yǔ)

      針對(duì)目前用戶閱讀新聞普遍遇到的信息過(guò)載問(wèn)題及用戶不登陸瀏覽的閱讀習(xí)慣,基于MAC的用戶識(shí)別算法提高了新聞推薦中的用戶識(shí)別率。同時(shí)針對(duì)運(yùn)行于單機(jī)集中平臺(tái)上的Web日志分析系統(tǒng)不能滿足海量數(shù)據(jù)處理的問(wèn)題,本文在對(duì)云計(jì)算的Hadoop集群框架研究的基礎(chǔ)上,給出了一種基于Hadoop集群框架的Web日志分析方法。實(shí)驗(yàn)結(jié)果表明,該平臺(tái)能夠獲取隱含的、有實(shí)用價(jià)值的信息,執(zhí)行效率高。

      參考文獻(xiàn):

      [1]張廣彬,盤駿,曾智強(qiáng).數(shù)據(jù)中心2013:硬件重構(gòu)與軟件定義[R].ZDNet企業(yè)解決方案中心,2013.

      [2]張誠(chéng),郭毅.數(shù)據(jù)挖掘與云計(jì)算——專訪中國(guó)科學(xué)院計(jì)算技術(shù)研究所何清博士[J].數(shù)字通信,2011(3):5-7.

      [3]新聞閱讀與設(shè)備使用情況的調(diào)查問(wèn)卷[EB/OL].http://www.lzm07.com/index.php?file=v.html.

      [4]吳永輝,王曉龍,丁宇新,等.基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J].電子學(xué)報(bào),2010(11):2620-2624.

      [5]何希真.基于用戶反饋信息的新聞推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].濟(jì)南:山東師范大學(xué),2015.

      [6]謝潤(rùn)泉.基于隱式專家的個(gè)性化新聞推薦[D].廈門:廈門大學(xué),2014.

      [7]宋科. Hadoop平臺(tái)下基于LDA的新聞推薦算法研究[D].成都:西南石油大學(xué),2015.

      [8]周松松,馬建紅.基于URL相似度的會(huì)話識(shí)別方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014(12):191-196.

      [9]謝俐,何勇,楊樂(lè).網(wǎng)卡MAC地址探究[J].今日科苑,2008(4):190.

      (責(zé)任編輯:黃 ?。?/p>

      梁山县| 临沂市| 昌图县| 农安县| 兴宁市| 尉犁县| 天峻县| 繁峙县| 泉州市| 颍上县| 东源县| 丁青县| 荥经县| 册亨县| 略阳县| 金昌市| 勐海县| 平果县| 上栗县| 平原县| 红原县| 甘谷县| 关岭| 甘孜| 太湖县| 罗江县| 云浮市| 葫芦岛市| 衡东县| 襄城县| 张家界市| 昌吉市| 鹤山市| 格尔木市| 西充县| 南溪县| 邢台县| 江华| 塘沽区| 华坪县| 诸城市|