鄶淑娥
[摘 要] 隨著互聯(lián)網(wǎng)的發(fā)展及Web 2.0技術(shù)的廣泛應(yīng)用, 互聯(lián)網(wǎng)業(yè)務(wù)得到迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息、表達(dá)心情、交流意見的重要場(chǎng)所。在互聯(lián)網(wǎng)智能化的過程中,互聯(lián)網(wǎng)用戶行為分析是一項(xiàng)非常重要的工作?;ヂ?lián)網(wǎng)用戶行為分析,從廣義上講,涉及互聯(lián)網(wǎng)用戶的所有行為活動(dòng),包括互聯(lián)網(wǎng)心理活動(dòng)、互聯(lián)網(wǎng)社會(huì)活動(dòng)和互聯(lián)網(wǎng)訪問活動(dòng);從狹義上講,主要涉及用戶訪問互聯(lián)網(wǎng)的行為規(guī)律。本文主要對(duì)互聯(lián)網(wǎng)用戶行為進(jìn)行探索性的分析,闡述了用戶行為分析系統(tǒng)的基本需求、實(shí)現(xiàn)步驟和體系框架,以及設(shè)計(jì)和實(shí)現(xiàn)系統(tǒng)過程中應(yīng)用一些關(guān)鍵技術(shù)。
[關(guān)鍵詞] 互聯(lián)網(wǎng);用戶;信息;行為;分析
[中圖分類號(hào)] TP393.4 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2014)19- 0092- 03
1 引 言
互聯(lián)網(wǎng)用戶行為是指互聯(lián)網(wǎng)用戶的特點(diǎn)、構(gòu)成及其在互聯(lián)網(wǎng)應(yīng)用過程中行為活動(dòng)上所表現(xiàn)出來的規(guī)律?;ヂ?lián)網(wǎng)用戶行為分析是研究互聯(lián)網(wǎng)用戶行為的學(xué)科,它屬于互聯(lián)網(wǎng)知識(shí)發(fā)現(xiàn)的范疇。與現(xiàn)實(shí)社會(huì)中的社會(huì)行為相對(duì)應(yīng),我們把發(fā)生在虛擬社會(huì)中的行為稱為“互聯(lián)網(wǎng)行為”?;ヂ?lián)網(wǎng)行為可定義為:行為主體為了實(shí)現(xiàn)某種特定的目標(biāo),采用互聯(lián)網(wǎng)作為手段和方法而進(jìn)行的有意識(shí)的社會(huì)活動(dòng)。它具有社會(huì)行為的一般特征和基本要素。但由于互聯(lián)網(wǎng)行為存在于虛擬空間中,所以這種在互聯(lián)網(wǎng)中形成的信息交流空間又具有不同于物理空間的特殊性,故互聯(lián)網(wǎng)用戶行為有其自身的特點(diǎn)即知識(shí)含量高,升級(jí)快?;ヂ?lián)網(wǎng)行為的主體用戶,必然具有一定的互聯(lián)網(wǎng)技術(shù),具備利用互聯(lián)網(wǎng)的能力?;ヂ?lián)網(wǎng)上信息以數(shù)字化的形式存在,用戶在數(shù)據(jù)傳輸過程中改變信息的內(nèi)容和形式而不留任何痕跡。
互聯(lián)網(wǎng)用戶行為是一個(gè)廣義的概念,是用戶在互聯(lián)網(wǎng)上表現(xiàn)的活動(dòng)方式。關(guān)于互聯(lián)網(wǎng)用戶行為,一直沒有比較規(guī)范的定義和分類。根據(jù)研究的側(cè)重不同,可以從多個(gè)角度進(jìn)行分類?;ヂ?lián)網(wǎng)實(shí)驗(yàn)室就中國目前互聯(lián)網(wǎng)用戶群進(jìn)行研究,并從應(yīng)用角度對(duì)互聯(lián)網(wǎng)用戶行為進(jìn)行了分析和分類。互聯(lián)網(wǎng)用戶行為可分成五大類:信息獲取、溝通交流、休閑娛樂、電子服務(wù)、電子商務(wù)。依照上述行為分類,對(duì)互聯(lián)網(wǎng)用戶群體進(jìn)行細(xì)分得出10類互聯(lián)網(wǎng)用戶人群:純信息互聯(lián)網(wǎng)用戶、純溝通互聯(lián)網(wǎng)用戶、基本互聯(lián)網(wǎng)用戶、純娛樂互聯(lián)網(wǎng)用戶、典型娛樂互聯(lián)網(wǎng)用戶、信息娛樂互聯(lián)網(wǎng)用戶、泛娛樂互聯(lián)網(wǎng)用戶、互聯(lián)網(wǎng)工作互聯(lián)網(wǎng)用戶、次全能互聯(lián)網(wǎng)用戶以及全能互聯(lián)網(wǎng)用戶。
2 互聯(lián)網(wǎng)用戶行為分析的過程
2.1 互聯(lián)網(wǎng)用戶行為分析的3個(gè)階段
(1)預(yù)處理階段:預(yù)處理過程是指各種可利用數(shù)據(jù)源的使用記錄、互聯(lián)網(wǎng)內(nèi)容和結(jié)構(gòu)以及信息行為模式的數(shù)據(jù)的提取過程。預(yù)處理過程是整個(gè)行為分析過程的基礎(chǔ),主要包括使用記錄預(yù)處理、內(nèi)容信息預(yù)處理和結(jié)構(gòu)信息預(yù)處理。這個(gè)階段面臨很多難以解決的問題?;ヂ?lián)網(wǎng)用戶行為分析的常見模式如下:①統(tǒng)計(jì)分析;②關(guān)聯(lián)規(guī)則;③分類;④序列分析;⑤依賴模式;⑥聯(lián)系分析。
(2)模式分析階段:模式分析是處理的最后步驟,是對(duì)模式發(fā)現(xiàn)中不感興趣的規(guī)則或模式進(jìn)行過濾。最常用的分析方法是知識(shí)的查詢機(jī)制。
(3)互聯(lián)網(wǎng)用戶行為的模式建立階段。
2.2 互聯(lián)網(wǎng)用戶行為分析的詳細(xì)步驟
(1)明確互聯(lián)網(wǎng)行為分析的具體目標(biāo)。明確目標(biāo)就是確定分析的目的。對(duì)問題和目標(biāo)的明確描述是正確分析的先決條件。如果想提高直接郵件推銷的用戶回應(yīng),做法可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價(jià)值”,這兩做法采用的模型幾乎是完全不同的,必須做出選擇。
(2)建立行為數(shù)據(jù)庫。建立數(shù)據(jù)庫連同數(shù)據(jù)分析和數(shù)據(jù)準(zhǔn)備兩個(gè)步驟,構(gòu)成行為發(fā)現(xiàn)的核心。數(shù)據(jù)準(zhǔn)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目50%~90%的時(shí)間和精力??梢园呀?shù)據(jù)庫分成下面幾個(gè)部分:數(shù)據(jù)收集,數(shù)據(jù)描述,數(shù)據(jù)篩選,數(shù)據(jù)質(zhì)量評(píng)估,數(shù)據(jù)清理、合并與整合、構(gòu)建元數(shù)據(jù)、組建數(shù)據(jù)庫。
(3)分析數(shù)據(jù)。分析的目的是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段和導(dǎo)出字段。
(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步。主要包括選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量等工作。
(5)建立模型。建立模型是一個(gè)反復(fù)的過程。需要對(duì)不同的模型仔細(xì)考察,以判斷哪個(gè)模型對(duì)問題解決最有效。在尋找好的模型過程中學(xué)習(xí)到的東西會(huì)啟發(fā)對(duì)數(shù)據(jù)的修改和重組,甚至改變最初對(duì)問題的定義。
(6)評(píng)價(jià)和解釋模型。模型建立好之后,必須對(duì)其結(jié)果和價(jià)值做出評(píng)價(jià)。從測(cè)試中得到的準(zhǔn)確率只對(duì)建立模型的數(shù)據(jù)有意義。因?yàn)樵趯?shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會(huì)發(fā)生變化。
3 互聯(lián)網(wǎng)用戶行為分析系統(tǒng)設(shè)計(jì)
互聯(lián)網(wǎng)用戶行為分析系統(tǒng)是支持互聯(lián)網(wǎng)用戶行為的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)過程的工具。構(gòu)建合理的互聯(lián)網(wǎng)用戶行為分析系統(tǒng)模型是互聯(lián)網(wǎng)用戶行為分析首要考慮的問題。過去數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究重點(diǎn)往往放在局部的具體挖掘算法上,較少對(duì)整個(gè)系統(tǒng)構(gòu)建進(jìn)行分析。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)有機(jī)的整體,各個(gè)部分之間有著密切的關(guān)系,某種算法是為特定的數(shù)據(jù)挖掘模塊服務(wù)的,如果不認(rèn)真對(duì)系統(tǒng)結(jié)構(gòu)進(jìn)行分析,那么必然導(dǎo)致各種算法之間的重復(fù)工作,各種算法只有與其他模塊緊密結(jié)合,才能充分發(fā)揮作用。
3.1 基本目標(biāo)
(1)能夠?qū)Υ罅康臄?shù)據(jù)進(jìn)行分析處理。
(2)能夠?qū)Χ喾N類型的數(shù)據(jù)進(jìn)行分析處理。
(3)具有較高的效率。
(4)用戶能夠參與分析挖掘的全過程。
(5)具有動(dòng)態(tài)性。
(6)必須有效地組織和管理數(shù)據(jù)。
(7)能對(duì)所發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)價(jià)。
3.2 設(shè)計(jì)的原則
設(shè)計(jì)原則主要有6個(gè):開放性原則、規(guī)范性原則、擴(kuò)展性原則、安全性原則、方便性原則和高效性原則。
3.3 基本功能
(1)發(fā)現(xiàn)互聯(lián)網(wǎng)用戶行為的特定模式,形成有價(jià)值的知識(shí)。
(2)發(fā)現(xiàn)互聯(lián)網(wǎng)用戶行為形成、存在的特點(diǎn)和變化的規(guī)律,提高資源配置水平。
(3)發(fā)現(xiàn)互聯(lián)網(wǎng)用戶行為的特點(diǎn)和規(guī)律,提高互聯(lián)網(wǎng)服務(wù)水平。
4 互聯(lián)網(wǎng)用戶行為分析數(shù)據(jù)的收集與預(yù)處理
4.1 數(shù)據(jù)的收集
4.1.1 互聯(lián)網(wǎng)用戶行為分析的數(shù)據(jù)源
利用準(zhǔn)確全面可靠的目標(biāo)數(shù)據(jù)源是互聯(lián)網(wǎng)用戶行為分析的關(guān)鍵。在互聯(lián)網(wǎng)行為分析中,數(shù)據(jù)能從服務(wù)器端、客戶機(jī)端、代理服務(wù)器端以及其他組織好的數(shù)掘庫中獲取。對(duì)于調(diào)查問卷,Web數(shù)字可信度更大,也便于統(tǒng)計(jì)分析。我們可以將行為分析的數(shù)據(jù)源分為4種類型。①內(nèi)容數(shù)據(jù):Web頁面的真實(shí)數(shù)據(jù)。例如,Web頁面上用戶看到的數(shù)據(jù),包括文本、圖像和聲音等。②結(jié)構(gòu)數(shù)據(jù):描述內(nèi)容的組織結(jié)構(gòu)的數(shù)據(jù)。例如,一個(gè)頁面到另一個(gè)頁面的超鏈接信息。③用戶使用記錄數(shù)據(jù):描述Web頁面使用模式的數(shù)據(jù)。例如,IP地址、訪問的頁面和時(shí)間等。④用戶輪廓:提供用戶訪問站點(diǎn)的統(tǒng)計(jì)信息。
4.1.2 數(shù)據(jù)源的分類和獲取
4.1.2.1 分類
從不同數(shù)據(jù)源收集的使用記錄等數(shù)據(jù)可以視為代表了整個(gè)互聯(lián)網(wǎng)流量中不同的行為模式,即從單用戶、單站點(diǎn)的行為到多用戶、多站點(diǎn)的行為。為了分析用戶行為,首先我們采用IP地址來標(biāo)識(shí)互聯(lián)網(wǎng)用戶。這是一種常用且值得推薦的方法,它的優(yōu)點(diǎn)是:
(1)對(duì)于直接連接在互聯(lián)網(wǎng)上具有唯一IP地址的計(jì)算機(jī),IP地址可以準(zhǔn)確標(biāo)識(shí)計(jì)算機(jī)及其來源。
(2)利用IP地址跟蹤計(jì)算機(jī),文件(Cookie)跟蹤瀏覽器。同一IP地址的計(jì)算機(jī)有可能由于同時(shí)使用多種瀏覽器而保留有多個(gè)跟蹤文件(Cookie),因此IP地址更好地標(biāo)識(shí)了單獨(dú)的計(jì)算機(jī)。但通過IP地址識(shí)別用戶也存在一些問題。例如在下列情況中,通過IP地址可能難以區(qū)分用戶:?jiǎn)慰诘刂?多服務(wù)器會(huì)話(一個(gè)代理服務(wù)器可能會(huì)讓訪問同一網(wǎng)站的多個(gè)用戶使用同一IP地址);多IP地址/單服務(wù)器會(huì)話(一些ISP隨機(jī)指定一個(gè)用戶的每個(gè)請(qǐng)求一個(gè)IP地址):多IP地址/單用戶(一個(gè)用戶從不同機(jī)器訪問同一站點(diǎn));多代理/單用戶(一個(gè)用戶使用多于一個(gè)瀏覽器,甚至在同一機(jī)器上,也被看作是多用戶)。
4.1.2.2 獲取
(1)通過日志獲取互聯(lián)網(wǎng)用戶行為記錄。日志主要包括Web服務(wù)器端、代理服務(wù)器端和客戶端的系統(tǒng)審計(jì)日志與應(yīng)用日志。
(2)互聯(lián)網(wǎng)嗅探捕獲用戶的行為信息。在信息時(shí)代,捕獲互聯(lián)網(wǎng)數(shù)據(jù)包是收集互聯(lián)網(wǎng)信息的有效方法。目前攻擊計(jì)算機(jī)系統(tǒng)的行為多數(shù)是通過互聯(lián)網(wǎng)進(jìn)行的,通過監(jiān)控、查看出入系統(tǒng)的互聯(lián)網(wǎng)數(shù)據(jù)包,來捕獲口令或全部?jī)?nèi)容P數(shù)據(jù)包捕獲,也稱P數(shù)據(jù)包嗅探(互聯(lián)網(wǎng)嗅探器,Sniffer)或P數(shù)據(jù)包攔截。首先把網(wǎng)卡設(shè)置于混雜模式(Miscellaneous Mode),通過使用互聯(lián)網(wǎng)嗅探技術(shù)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上傳輸?shù)臄?shù)據(jù)包的捕獲與分析。
互聯(lián)網(wǎng)嗅探技術(shù)原理:互聯(lián)網(wǎng)嗅探作為一種特殊的互聯(lián)網(wǎng)通訊技術(shù),一般是通過對(duì)網(wǎng)卡的編程來實(shí)現(xiàn)互聯(lián)網(wǎng)通訊的,對(duì)網(wǎng)卡的編程通常使用套接字(Socket)方式來進(jìn)行。通常的套接字程序只能響應(yīng)與自己硬件地址相匹配的或是以廣播形式發(fā)出的數(shù)據(jù)幀,對(duì)于其他形式的數(shù)據(jù)幀,比如已到達(dá)互聯(lián)網(wǎng)接口但卻不是發(fā)給此地址的數(shù)據(jù)幀,互聯(lián)網(wǎng)接口在驗(yàn)證投遞地址并非自身地址之后將不引起響應(yīng),也就是說應(yīng)用程序無法收取到達(dá)的數(shù)據(jù)包。而互聯(lián)網(wǎng)嗅探技術(shù)的目的恰恰在于從網(wǎng)卡接收所有經(jīng)過它的數(shù)據(jù)包,這些數(shù)據(jù)包既可以是發(fā)給它自身的也可以是發(fā)往別處的。P包分析是通過原始套接字來實(shí)現(xiàn)的。捕獲到的數(shù)據(jù)包并不僅僅是單純的數(shù)據(jù)信息,而是包含IP頭、TCP頭等信息頭的最原始的數(shù)據(jù)信息,這些信息保留了它在互聯(lián)網(wǎng)傳輸時(shí)的原貌。通過對(duì)這些在低層傳輸?shù)脑夹畔⒌姆治隹梢缘玫接嘘P(guān)互聯(lián)網(wǎng)的一些信息。由于通過互聯(lián)網(wǎng)嗅探捕獲得到的數(shù)據(jù)包數(shù)據(jù)經(jīng)過了互聯(lián)網(wǎng)層和傳輸層的打包,因此需要根據(jù)其附加的幀頭對(duì)數(shù)據(jù)包進(jìn)行協(xié)議分析。從TCP/IP通信模型來看,Web的通信協(xié)議HTTP是處于應(yīng)用層,即HTTP的通信協(xié)議是封裝在TCP報(bào)文的“數(shù)據(jù)”項(xiàng)中,Web服務(wù)的默認(rèn)通信端口為80;因此通過對(duì)數(shù)據(jù)包記錄數(shù)據(jù)進(jìn)行解析,可探知Web訪問者的互聯(lián)網(wǎng)行為和進(jìn)行跟蹤。
4.2 數(shù)據(jù)的預(yù)處理
4.2.1 數(shù)據(jù)凈化
數(shù)據(jù)凈化,也稱數(shù)據(jù)精簡(jiǎn)。它是指刪除Web服務(wù)器日志中與行為分析無關(guān)的冗余的數(shù)據(jù)。
4.2.2 用戶身份識(shí)別
一般采用IP地址來標(biāo)識(shí)用戶。
4.2.3 會(huì)話識(shí)別
會(huì)話識(shí)別是為了發(fā)現(xiàn)同一用戶連續(xù)請(qǐng)求的頁面(瀏覽行為的片段)。
4.2.4 路徑補(bǔ)充
在識(shí)別會(huì)話過程中的一個(gè)問題是確定訪問日志中是不是有重要的請(qǐng)求沒有被記錄。這就是路徑補(bǔ)充所做的工作,解決的方法類似于用戶識(shí)別中的方法。
4.2.5 事務(wù)識(shí)別
一次用戶或服務(wù)器會(huì)話的任何語義上有意義的子集合被稱為一個(gè)事務(wù)。一般我們把Web頁分為兩類:內(nèi)容頁和導(dǎo)航頁。內(nèi)容頁是含有豐富內(nèi)容信息的頁面;導(dǎo)航頁是為快速找到所需信息而設(shè)置的路標(biāo)。
5 小 結(jié)
互聯(lián)網(wǎng)用戶行為分析是通過知識(shí)發(fā)現(xiàn)的方法從大量的互聯(lián)網(wǎng)信息中挖掘用戶的行為模式。它是一個(gè)比較新的研究領(lǐng)域,具有廣泛的應(yīng)用前景,許多問題還有待進(jìn)一步研究。筆者認(rèn)為互聯(lián)網(wǎng)用戶行為分析的研究方向重點(diǎn)應(yīng)放在內(nèi)在機(jī)制、挖掘目標(biāo)、數(shù)據(jù)集成、非結(jié)構(gòu)化的數(shù)據(jù)挖掘方法、挖掘系統(tǒng)體系結(jié)構(gòu)、分布式協(xié)作挖掘、挖掘效果的評(píng)價(jià)與可視化等問題上。
主要參考文獻(xiàn)
[1]王實(shí),高文,等.路徑聚類:在Web站點(diǎn)中的知識(shí)發(fā)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2001(4).
[2]馬力,焦李成,劉國營.一種基于路徑象類的Web用戶訪問模式發(fā)現(xiàn)算法[J].計(jì)算機(jī)科學(xué),2004(8).