• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類算法的電子商務(wù)日志挖掘商業(yè)智能研究

      2014-03-26 16:48:22廣西國際商務(wù)職業(yè)技術(shù)學(xué)院黃紹川
      中國商論 2014年1期
      關(guān)鍵詞:標(biāo)稱日志頁面

      廣西國際商務(wù)職業(yè)技術(shù)學(xué)院 黃紹川

      隨著計算機網(wǎng)絡(luò)技術(shù)、智能終端等的高速發(fā)展,國外的Amazon,國內(nèi)的淘寶、騰訊拍拍等電子商務(wù)網(wǎng)站都在以前所未有的速度在壯大。2012年6月11日,蘋果公司在全球開發(fā)者大會(WWDC)上宣布,iOS 6操作系統(tǒng)將提供名為Passbook的功能,該功能將整合來自各類服務(wù)的票據(jù),包括電影票、登機牌、積分卡和禮品卡等,這是電子商務(wù)與移動端最新的發(fā)展成果。相對于傳統(tǒng)的商務(wù)貿(mào)易形式,網(wǎng)絡(luò)購物憑借其足不出戶的購物體驗和極具競爭力的價格迅速網(wǎng)絡(luò)了一大批忠實擁躉,其中既有消費者也有商家。電子商務(wù)的異軍突起既為廣大商家提供了機會和巨大利潤空間,也帶來了一系列技術(shù)挑戰(zhàn)[1]。商家的經(jīng)營者希望網(wǎng)站能夠捕捉到海量訪問數(shù)據(jù)背后蘊藏的商機,但網(wǎng)站的設(shè)計者們通常是根據(jù)店面所需和自身技術(shù)經(jīng)驗來對網(wǎng)站進(jìn)行架構(gòu)設(shè)計與布局規(guī)劃,很少考慮到顧客本身的瀏覽行為并對其定量分析,使得所設(shè)計的網(wǎng)站并沒有“抓住”客戶,而是使其在不斷地尋找感興趣的商品的過程中失去耐心。不過在技術(shù)層面上,電子商務(wù)網(wǎng)站的Web服務(wù)器與數(shù)據(jù)庫會對訪問與交易信息進(jìn)行記錄,以Web日志形式進(jìn)行保存,而且這些日志結(jié)構(gòu)清晰,格式規(guī)范,從而為基于Web日志進(jìn)行商務(wù)挖掘提供了絕佳的數(shù)據(jù)基礎(chǔ)與無限可能。因此,如何采用計算機技術(shù)挖掘電子商務(wù)網(wǎng)站中日志信息并提取出用戶的興趣點,向用戶推薦商品,繼而為用戶提供個性化服務(wù),最終實現(xiàn)商家獲利,成為一個值得研究的具有理論和應(yīng)用價值的問題。

      1 應(yīng)用于網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘與聚類分析

      聚類分析是數(shù)據(jù)挖掘中的重要方法。近年來,采用標(biāo)稱數(shù)據(jù)的聚類方法成為計算機科研人員的主要研究內(nèi)容。標(biāo)稱數(shù)據(jù)是指由非數(shù)值型數(shù)據(jù)所組成的數(shù)據(jù)與屬性集合。例如,工作單位就可以作為一個標(biāo)稱屬性,其狀態(tài)可以為國家機關(guān)、企事業(yè)單位、民營經(jīng)濟實體等。類似的,Web電子商務(wù)用戶的會話也可以作為標(biāo)稱數(shù)據(jù)來處理。標(biāo)稱數(shù)據(jù)可以用整數(shù)、字母、符號來表示其屬性,但即使是用整數(shù)等數(shù)值形式,其各狀態(tài)間也不存在大小關(guān)系,因此,通常在標(biāo)稱數(shù)據(jù)上并不可以使用聚類算法中常用的距離衡量方法。

      針對Web日志的聚類包括頁面聚類和用戶聚類兩種方法。頁面聚類是對用戶訪問瀏覽的網(wǎng)頁歷史進(jìn)行挖掘提取,提取出相似的信息并分類,挖掘出不同用戶群體最關(guān)注的產(chǎn)品和服務(wù),從而對不同興趣和愛好的用戶提供滿足其需求的信息,這將大大提高用戶的回頭率和忠誠度。用戶聚類是根據(jù)用戶在網(wǎng)絡(luò)訪問時產(chǎn)生的會話與行為,判斷用戶行為模式的相近程度并進(jìn)行分類。

      在Web日志文件中,用戶訪問網(wǎng)站的原始信息得以記錄與保存,但是,通常情況下,這些數(shù)據(jù)是支離破碎的,或者含有噪聲數(shù)據(jù),即有的興趣點屬性缺少值,或只含有聚類數(shù)據(jù)。由于其不一致性,直接對其進(jìn)行數(shù)據(jù)挖掘是不易實現(xiàn)的。對網(wǎng)絡(luò)日志進(jìn)行挖掘產(chǎn)生的數(shù)據(jù)還需要經(jīng)過一系列數(shù)據(jù)預(yù)處理工作,包括數(shù)據(jù)分類、用戶提取、會話整理、路徑信息提取等。

      2 電子商務(wù)網(wǎng)站中用戶興趣表示的傳統(tǒng)方法

      目前,主要有兩種方法用于研究用戶訪問網(wǎng)站的興趣判斷與分析。第一種是對用戶訪問網(wǎng)站的URL信息進(jìn)行研究,根據(jù)訪問興趣建立有序關(guān)系及映射;第二種研究是將URL視作整體,不再對路徑進(jìn)行拆分分析,而是直接研究用戶訪問此URL的次數(shù)、時間、頻率等因子,并用這些因子度量該用戶對這個URL感興趣的程度。

      最近提出的一種度量用戶興趣的方法的研究對象不再僅僅參考用戶點擊的URL,而是汲取以上兩種精華,采用日志中的UriQuery項作為研究對象,主要出于以下兩種原因:

      首先,是用戶訪問商務(wù)網(wǎng)站進(jìn)行查詢時提交的具體參數(shù)為UriQuery,通過它可以直接定位到具體的資源。

      其次,相比于用戶訪問的參數(shù),其在網(wǎng)站上進(jìn)行搜索的信息與用戶興趣更加密切,因為在用戶打開商家頁面時,如果沒有發(fā)現(xiàn)其想要的信息,會通過“搜索”表單來進(jìn)行輸入并在數(shù)據(jù)庫中查詢目標(biāo)內(nèi)容,服務(wù)器會通過UriQuery屬性列保存此信息。因此,UriQuery項能更好地反映用戶的興趣是顯而易見的,適合作為Web日志挖掘的主要對象來對用戶興趣進(jìn)行度量和采集。

      3 一種新的頁面興趣度量方法

      本文中的數(shù)據(jù)來源于騰訊拍拍網(wǎng),騰訊公司建立拍拍網(wǎng)的目的也和淘寶網(wǎng)類似——建立商家與個人的C2B平臺。前文所述的頁面興趣度量算法應(yīng)用于這類復(fù)雜的C2B或者C2C模式的電商網(wǎng)站時,只是用頁面訪問、點擊以及搜索的歷史數(shù)據(jù)來對用戶的興趣點進(jìn)行衡量的話,并不能完全地作出全面準(zhǔn)確的反應(yīng)。因此,需要重新研究網(wǎng)絡(luò)日志中的各類電商用戶興趣的影響因素并設(shè)計一種可以全面、準(zhǔn)確的對用戶興趣進(jìn)行衡量與體現(xiàn)的方法。

      通過分析Web日志文件的結(jié)構(gòu)與內(nèi)容,可以發(fā)現(xiàn)對用戶頁面興趣度量的影響因素主要有:網(wǎng)絡(luò)用戶訪問頁面所花費的時間、服務(wù)器與接收的數(shù)據(jù)量的數(shù)據(jù)記錄(點擊次數(shù)不能在Web日志文件中直接以屬性列反映出來),具體數(shù)據(jù)如表1所示:

      8053 437 16566 230 8054 187 241 292 8055 15953 39249 172 8056 1250 19620 394 8057 156 380 698 8058 78 1399 876 8059 343 23700 244 8060 250 7971 291 8061 12109 26336 180 8062 265 343 438 8063 17843 20584 235 8064 234 415 661 8065 656 31823 300 8066 1968 343 706 8067 250 174 355 8068 250 174 634

      在數(shù)據(jù)分析軟件SPSS(Statistical Product and Service Solutions)里導(dǎo)入全部記錄,進(jìn)行分析,數(shù)據(jù)記錄共有75169條,經(jīng)過用SPSS軟件做數(shù)據(jù)相關(guān)性分析,通過Person Correlation分析得出如下分析結(jié)果如表2所示:

      表2 相關(guān)分析的描述統(tǒng)計表

      從以上表格與分析結(jié)果中可以發(fā)現(xiàn),用戶只需要1420.82毫秒的平均時間用于瀏覽頁面。這不到2秒鐘的極短時間里,所包含的可能行為是:(1)用戶提交搜索參數(shù),但沒有搜到所想要的興趣點內(nèi)容;(2)或者搜索結(jié)果呈現(xiàn)了其興趣點的鏈接,用戶第一時間轉(zhuǎn)至感興趣的頁面。而(2)是網(wǎng)站高效與所希冀得到的結(jié)果。

      從表格中還可以發(fā)現(xiàn),服務(wù)器平均發(fā)送19294.12字節(jié),遠(yuǎn)遠(yuǎn)大于平均接收的435.99個字節(jié)。即服務(wù)器在用戶發(fā)送請求后,會把相關(guān)的大量字節(jié)的數(shù)據(jù)信息反饋給用戶,其中既會有用戶所感興趣的內(nèi)容,也可能包括其他無效鏈接甚至廣告。

      通過對比Pearson相關(guān)系數(shù),可以發(fā)現(xiàn),服務(wù)器發(fā)送字節(jié)數(shù)、接收字節(jié)數(shù)以及用戶的瀏覽時間的系統(tǒng)都是在0~0.3之間,即它們是微弱相關(guān)的。換句話說,即用戶瀏覽頁面的時間幾乎不受服務(wù)器字節(jié)發(fā)送與接收的多少的影響。因此,本文在對用戶興趣度量因素進(jìn)行考慮時,也不需要考慮服務(wù)器發(fā)送接收字節(jié)數(shù)的影響。

      本文定義Pm×n為頁面興趣矩陣,計算方式如下:

      其中,Pij=tij/fij;

      i=1,2,3,……,m j=1,2,3,……,n;

      tij:用戶i瀏覽頁面j的消耗時間;

      fij:用戶i點擊頁面j的次數(shù);

      Pij=tij/fij:用戶i瀏覽頁面j的平均時間。

      經(jīng)過上述矩陣所計算得到的頁面興趣實質(zhì)上為第i個用戶瀏覽頁面j所花費的平均時間。此計算算法可以較好地排除用戶頁面興趣受偶然興趣的影響,因此可以較準(zhǔn)確地對用戶所感興趣的程度進(jìn)行反映。

      4 結(jié)語

      當(dāng)前已經(jīng)是計算機網(wǎng)絡(luò)主導(dǎo)的電子商務(wù)時代,其已經(jīng)在各行各業(yè)中得到了極為廣泛的應(yīng)用,并為廣大廠商與用戶帶來了巨大的利益與方便。而如何進(jìn)一步挖掘電子商務(wù)中所產(chǎn)生的海量數(shù)據(jù)信息,獲取到有用的隱性知識,是一個具有高度價值與前景的課題。集成了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)一體的商業(yè)智能,則為顯性知識中的隱性挖掘提供了良好的方式,為企業(yè)提供有價值的信息以支持決策。本文針對電商網(wǎng)站的訪問日志數(shù)據(jù),提出了一種改進(jìn)的有效指數(shù)K-Means算法,解決了傳統(tǒng)聚類算法的初始值問題,并進(jìn)行了相關(guān)的實驗驗證分析。實驗證明了算法的科學(xué)性與正確性,且具有較高的計算效率,可以較好地應(yīng)用于Web日志的挖掘分析中。

      [1] R.Cooley.Web Usage Mining:Discovery and Application of Interesting Patterns from Web data[D].PhD thesis,Dept.of Computer Science,University of Minnesota,May 2000.

      [2] 鄭先榮,湯澤瀅,曹先彬.適應(yīng)用戶興趣變化的非線性逐步遺:怎協(xié)同過濾算法[J].計算機輔助工程,2010,16(2).

      [3] 涂承勝,魯明羽,陸玉昌.Web挖掘研究綜述[J].計算機工程與應(yīng)用,2003(10).

      [4] 陸麗娜,楊怡玲,管旭東,魏恒義.Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J].計算機工程,2000,26(4).

      [5] 陳志敏,沈潔.基于W曲日志的混合挖掘模型研究[J].揚州大學(xué)學(xué)報(自然科學(xué)版),2007,10(3).

      [6] 王緒林,劉培剛.基于Web使用挖掘的用戶個性化服務(wù)研究[J].情報理論與實踐,2003,26(1).

      [7] 高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類[J].計算機工程與設(shè)計,2008,29(18).

      [8] 陳敏,苗奪謙,段其國.基于用戶瀏覽行為聚類Web用戶[J].計算機科學(xué),2008,35(3).

      猜你喜歡
      標(biāo)稱日志頁面
      大狗熊在睡覺
      刷新生活的頁面
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學(xué)日志
      柒牌、貴人鳥等標(biāo)稱商標(biāo)服裝商品上不合格名單
      中國纖檢(2016年10期)2016-12-13 18:04:20
      民航為啥“為難”充電寶
      一種基于粗集和SVM的Web日志挖掘模型
      同一Word文檔 縱橫頁面并存
      淺析ASP.NET頁面導(dǎo)航技術(shù)
      宜兰市| 武宁县| 抚顺市| 昂仁县| 曲松县| 资中县| 萝北县| 南江县| 玉环县| 如皋市| 长兴县| 道孚县| 大关县| 北票市| 左云县| 连云港市| 双峰县| 克拉玛依市| 寿光市| 青州市| 威宁| 梨树县| 深泽县| 剑河县| 高密市| 滦南县| 平罗县| 东辽县| 肇庆市| 华池县| 金寨县| 两当县| 青阳县| 连平县| 巫溪县| 堆龙德庆县| 临夏县| 鸡西市| 五原县| 册亨县| 黄冈市|