吳清強(qiáng),鮑彬彬
(廈門(mén)大學(xué)軟件學(xué)院,廈門(mén) 361005)
用戶行為可靠性評(píng)價(jià)綜合框架*
吳清強(qiáng),鮑彬彬
(廈門(mén)大學(xué)軟件學(xué)院,廈門(mén) 361005)
用戶行為可靠性評(píng)價(jià)對(duì)于網(wǎng)絡(luò)服務(wù)的發(fā)展具有重要作用,已有研究分別從概率統(tǒng)計(jì)、用戶意圖、用戶行為模式以及數(shù)據(jù)挖掘等角度對(duì)其進(jìn)行廣泛研究。本文在定義網(wǎng)絡(luò)用戶行為的可靠性評(píng)價(jià)基礎(chǔ)上,梳理現(xiàn)有算法和模型,針對(duì)現(xiàn)有評(píng)價(jià)模型存在的問(wèn)題,提出一種包括用戶行為數(shù)據(jù)收集層、用戶行為劃分層、用戶行為模式訓(xùn)練層、不可靠用戶行為鑒別層以及用戶行為管理與控制層的用戶行為可靠性評(píng)價(jià)綜合模型框架,能夠在一定程度上解決用戶行為可靠性評(píng)價(jià)中的惡意機(jī)器人問(wèn)題。
用戶行為可靠性;可靠性評(píng)價(jià);可信用戶行為
隨著計(jì)算機(jī)技術(shù)發(fā)展,互聯(lián)網(wǎng)在人們生活中越來(lái)越普及,分析用戶網(wǎng)絡(luò)行為,挖掘用戶行為規(guī)律具有重要意義。然而,在開(kāi)放的網(wǎng)絡(luò)環(huán)境中,用戶行為數(shù)據(jù)的獲取通常伴隨網(wǎng)絡(luò)用戶非正常行為所產(chǎn)生的異常、惡意和噪聲數(shù)據(jù)(這些異常數(shù)據(jù)大部分來(lái)自爬蟲(chóng)機(jī)器人),影響用戶行為模型構(gòu)建及其可靠性評(píng)估。由于檢索引擎的需要(如百度和谷歌等,主要是為用戶提供更好的檢索服務(wù)),因此現(xiàn)實(shí)中會(huì)有大量爬蟲(chóng)機(jī)器人;但其中也存在大量惡意機(jī)器人,其目的是復(fù)制整個(gè)網(wǎng)站或從網(wǎng)站下載有價(jià)值信息以謀取暴利,對(duì)服務(wù)器進(jìn)行惡意攻擊使其崩潰或無(wú)法為用戶提供正常服務(wù),因此對(duì)機(jī)器人的不同行為需區(qū)別對(duì)待。
在可信網(wǎng)絡(luò)中,用戶身份可信并不等同用戶行為可信[1],高可信用戶也可能存在不可靠的、低可信的用戶行為,甚至將個(gè)人可信身份附在惡意機(jī)器人上,讓惡意機(jī)器人模擬用戶行為進(jìn)而產(chǎn)生大量不可信行為。對(duì)于這類用戶行為,需要進(jìn)行甄別并區(qū)分對(duì)待,甚至降低這類用戶身份的可信度。對(duì)用戶行為的可信度研究,不僅能降低或避免惡意用戶行為,也能降低監(jiān)控或阻止惡意用戶的成本,進(jìn)而提升服務(wù)水平和服務(wù)質(zhì)量。
對(duì)用戶行為可靠性進(jìn)行分析和評(píng)估,剔除不可靠的、不可信的用戶行為,對(duì)于提升網(wǎng)絡(luò)服務(wù)的水平和質(zhì)量有重要的作用。本文試圖在分析現(xiàn)有用戶行為可靠性評(píng)價(jià)模型的基礎(chǔ)上,總結(jié)歸納現(xiàn)有評(píng)價(jià)模型的不足,進(jìn)而提出一個(gè)有助于改善這些不足的評(píng)價(jià)綜合模型框架。
2.1 用戶行為及其可靠性
用戶行為指用戶在使用網(wǎng)絡(luò)服務(wù)過(guò)程中產(chǎn)生的瀏覽、點(diǎn)擊、下載等行為,是用戶使用網(wǎng)絡(luò)服務(wù)的體現(xiàn)。互聯(lián)網(wǎng)信息復(fù)雜多樣,用戶從中獲取有用信息,但卻很難獲得想要的信息。為給用戶提供更方便有效的增值服務(wù),使用戶能快速獲得網(wǎng)絡(luò)服務(wù)和所需信息,網(wǎng)絡(luò)機(jī)器人需發(fā)揮信息收集、整理和分析功能,利用處理后的信息為用戶提供針對(duì)性服務(wù)(如不同搜索引擎開(kāi)發(fā)的機(jī)器人爬蟲(chóng)[2])。但部分惡意機(jī)器人爬蟲(chóng),通過(guò)惡意或非法請(qǐng)求獲取各種資源,該行為對(duì)服務(wù)器產(chǎn)生巨大壓力和重大影響[3]。惡意機(jī)器人爬蟲(chóng)行為是不可靠的用戶行為,在具體工作中必須檢測(cè)出這類機(jī)器人并盡量阻止其訪問(wèn)服務(wù)器,以免因惡意行為造成服務(wù)器請(qǐng)求的負(fù)擔(dān),進(jìn)而影響其他用戶的網(wǎng)絡(luò)服務(wù)。
在可信網(wǎng)絡(luò)中,可信范圍主要包括三方面,服務(wù)提供者的可信、網(wǎng)絡(luò)信息傳輸?shù)目尚藕徒K端用戶的可信。其中,終端用戶的可信又分為終端用戶身份可信和終端用戶行為可信,終端用戶身份可信指終端用戶的身份真實(shí)有效,終端用戶行為可信指終端用戶的行為是否符合服務(wù)器對(duì)其的信任要求[4]。本文僅對(duì)可信網(wǎng)絡(luò)中的終端用戶行為可信進(jìn)行研究。
用戶行為的可信評(píng)價(jià)實(shí)質(zhì)是用戶行為可靠性的度量,可信行為等價(jià)于可靠用戶行為,不可信行為等價(jià)于不可靠用戶行為。因此,本文將用戶行為的可信評(píng)價(jià)等價(jià)于用戶行為的可靠性度量,這兩個(gè)概念是等價(jià)的、可相互替代的。
2.2 可靠性評(píng)價(jià)
網(wǎng)絡(luò)用戶行為可靠性評(píng)價(jià)是一個(gè)復(fù)雜的數(shù)據(jù)收集、分析和推理過(guò)程[5],也是與上下文和時(shí)間相關(guān)的一個(gè)動(dòng)態(tài)過(guò)程。用戶行為可靠性具有動(dòng)態(tài)性和模糊性特征,這是用戶行為可靠性評(píng)估的最大挑戰(zhàn),用戶行為所在的環(huán)境上下文也會(huì)隨著時(shí)間的推移而動(dòng)態(tài)變化,因而通常具有一定的時(shí)間滯后性。由于用戶自身的不可靠行為對(duì)服務(wù)器和用戶服務(wù)的影響相對(duì)較小,因此已有研究主要集中在由機(jī)器人產(chǎn)生的不可靠用戶行為上。部分不可靠的機(jī)器人用戶行為為了特殊目的(如建立山寨網(wǎng)站等)試圖下載整個(gè)網(wǎng)站資源,這些下載行為有時(shí)會(huì)對(duì)服務(wù)器造成巨大的壓力,致使服務(wù)器運(yùn)行緩慢、甚至宕機(jī)。但這些不可靠的機(jī)器人用戶行為通常隱藏在可靠的用戶或機(jī)器人用戶行為中,不容易被識(shí)別和阻止。
用戶行為的可靠性評(píng)價(jià)首先利用軟件和硬件設(shè)備收集用戶行為數(shù)據(jù);其次,設(shè)計(jì)用戶可靠性度評(píng)價(jià)模型,將收集的用戶行為數(shù)據(jù)作為評(píng)價(jià)模型的評(píng)價(jià)對(duì)象;最后,在模型中計(jì)算用戶行為可靠度,并將可靠度作為判斷用戶行為可靠性的標(biāo)準(zhǔn),同時(shí)剔除不可靠用戶行為。
2.3 用戶行為可靠性評(píng)價(jià)定義
用戶行為可靠性評(píng)價(jià)是一個(gè)行為規(guī)律問(wèn)題,通常很難憑借單次資源請(qǐng)求判斷用戶行為是否可靠,其通常利用整個(gè)會(huì)話(Session)信息,及該用戶或相關(guān)用戶請(qǐng)求/訪問(wèn)資源的歷史情況進(jìn)行判斷和甄別[6]。本文中用戶可靠性甄別和評(píng)價(jià)的形式化定義如下。
假定資源請(qǐng)求集合為R,對(duì)于每一次請(qǐng)求用r表示,則r∈R。一般情況下,r包括請(qǐng)求發(fā)起地址、被請(qǐng)求資源名稱和位置、響應(yīng)代碼以及用戶代理信息等。在對(duì)用戶行為可靠性進(jìn)行評(píng)價(jià)時(shí),需要通過(guò)用戶行為模式判斷該用戶行為的來(lái)源對(duì)象(人類用戶或機(jī)器人用戶)。由于機(jī)器人用戶行為具有連續(xù)性特征,因此,在對(duì)機(jī)器人用戶行為進(jìn)行識(shí)別時(shí)通常采用Session方式。假定一個(gè)Session S,S R是單個(gè)用戶訪問(wèn)產(chǎn)生的所有記錄sr的集合(對(duì)于所有sr,sr∈S),利用S判斷該Session是否由機(jī)器人用戶發(fā)起。如果是機(jī)器人用戶發(fā)起的,則進(jìn)一步檢測(cè)該機(jī)器人用戶行為的可靠性,判斷其是否為惡意機(jī)器人用戶。對(duì)于給定記錄集合R,通常包含一系列的“S={S1, S2, … ,Sn}”,并且這些Si是互斥的,即
在對(duì)用戶行為可靠性評(píng)價(jià)調(diào)研過(guò)程中,根據(jù)已有算法或模型,將其分為基于概率統(tǒng)計(jì)的用戶行為可靠性評(píng)價(jià)模型、基于用戶意圖的用戶行為可靠性評(píng)價(jià)模型、基于用戶行為模式的用戶行為可靠性評(píng)價(jià)模型和基于數(shù)據(jù)挖掘的用戶行為可靠性評(píng)價(jià)模型,四種模型的優(yōu)勢(shì)及問(wèn)題進(jìn)行歸納如下。
3.1 基于概率統(tǒng)計(jì)的用戶行為可靠性評(píng)價(jià)模型
在大量網(wǎng)絡(luò)用戶的行為中,特別是包含網(wǎng)絡(luò)爬蟲(chóng)等噪聲的用戶行為數(shù)據(jù)中,所產(chǎn)生事件具有一定數(shù)量規(guī)律,但在特定條件下部分事件的發(fā)生又具有一定隨機(jī)性,符合概率統(tǒng)計(jì)的特性。概率統(tǒng)計(jì)方法雖然無(wú)法得出精確結(jié)果,但可在特定概率條件下作出具體判斷,使其符合用戶行為可靠性的度量要求。
任立肖利用統(tǒng)計(jì)方法對(duì)網(wǎng)絡(luò)用戶行為進(jìn)行計(jì)量分析,通過(guò)計(jì)量指標(biāo)判斷網(wǎng)絡(luò)用戶行為是否正常、可靠[7];而岑榮偉[8]和梁?jiǎn)T寧[9]等利用大規(guī)模真實(shí)網(wǎng)絡(luò)用戶行為日志,對(duì)網(wǎng)絡(luò)用戶與搜索引擎系統(tǒng)的交互與決策過(guò)程展開(kāi)研究,通過(guò)對(duì)相關(guān)信息網(wǎng)絡(luò)用戶點(diǎn)擊和普通點(diǎn)擊分布狀況進(jìn)行比較,結(jié)合網(wǎng)絡(luò)用戶點(diǎn)擊行為的上下文背景特征進(jìn)行分析,從而完成網(wǎng)絡(luò)用戶行為可靠性度量;呂艷霞等利用模糊網(wǎng)絡(luò)分析法,利用模糊性對(duì)用戶行為的可靠性進(jìn)行量化,進(jìn)而區(qū)分和鑒別可靠用戶行為和不可靠用戶行為[10];Stassopoulou等采用概率方法描述了一個(gè)通過(guò)訪問(wèn)日志對(duì)惡意機(jī)器人用戶行為進(jìn)行檢測(cè)的模型,并使用貝葉斯網(wǎng)絡(luò)區(qū)分人類用戶、機(jī)器人爬蟲(chóng)與惡意機(jī)器人,通過(guò)用戶分類來(lái)鑒定用戶行為的可靠性[11]。研究者利用用戶行為的概率統(tǒng)計(jì)特性,在區(qū)分網(wǎng)絡(luò)用戶行為中爬蟲(chóng)、機(jī)器人等惡意行為起到重要的抑制或消除作用,同時(shí)對(duì)構(gòu)建可靠用戶行為數(shù)據(jù)集起到良好作用。但這些模型沒(méi)有深入研究實(shí)際數(shù)據(jù)中的概率分布應(yīng)用、閾值設(shè)定等問(wèn)題,也沒(méi)有考慮用戶行為主體間的相互作用和影響。
3.2 基于用戶意圖的用戶行為可靠性評(píng)價(jià)模型
用戶行為意圖包括用戶信息需求、查詢目標(biāo)、查詢動(dòng)機(jī)等。用戶的可靠性度量與用戶觀念及行為意圖息息相關(guān),相同用戶行為在不同用戶觀念和意圖下可能具有不同的可靠性。研究者在識(shí)別用戶行為意圖及其可靠性方面展開(kāi)大量研究工作。
羅成等首先通過(guò)采集用戶對(duì)網(wǎng)絡(luò)服務(wù)返回結(jié)果的不同點(diǎn)擊行為獲得與用戶行為相關(guān)聯(lián)的資源內(nèi)容,然后對(duì)采集的資源內(nèi)容進(jìn)行關(guān)聯(lián)分析和層次聚類,最后根據(jù)關(guān)聯(lián)分析和層次聚類結(jié)果定位和區(qū)分用戶的行為意圖[12]。張志強(qiáng)等利用用戶標(biāo)注的資源標(biāo)簽,識(shí)別和描述用戶感興趣的話題[13];用戶標(biāo)注的資源標(biāo)簽是由用戶主動(dòng)進(jìn)行的、在一定程度上體現(xiàn)用戶當(dāng)前的行為意圖,該方法可以用于補(bǔ)充或加強(qiáng)對(duì)用戶意圖的識(shí)別。
非正常網(wǎng)絡(luò)行為不包含用戶意圖,通常是遍歷式資源請(qǐng)求下載或無(wú)目的惡意攻擊,因此在對(duì)網(wǎng)絡(luò)用戶行為進(jìn)行分析時(shí),需識(shí)別出可靠用戶行為,剔除不可靠用戶行為。Tan等將網(wǎng)絡(luò)用戶日志中的機(jī)器人用戶行為模型化,從而過(guò)濾掉由機(jī)器人自動(dòng)化點(diǎn)擊造成的非正常網(wǎng)絡(luò)用戶行為[6];Craswell[14]和Guo[15]等提出瀑布模型模擬網(wǎng)絡(luò)用戶的點(diǎn)擊行為,并利用該模型來(lái)識(shí)別正常網(wǎng)絡(luò)用戶行為;蔡岳等提出一種基于網(wǎng)絡(luò)用戶行為聚類的方法,從網(wǎng)絡(luò)用戶行為日志中挖掘其行為意圖,并使用網(wǎng)絡(luò)用戶行為意圖提升檢索質(zhì)量和效率[16];Sadagopan等以單次用戶檢索行為為單位,通過(guò)對(duì)網(wǎng)絡(luò)用戶行為點(diǎn)擊流分析,并將該點(diǎn)擊流與預(yù)設(shè)不同檢索意圖下正常網(wǎng)絡(luò)用戶行為過(guò)程相匹配,進(jìn)而鑒別該次網(wǎng)絡(luò)用戶行為是否是真實(shí)可靠[17]。
這類模型引入用戶行為意圖概念,將用戶行為納入用戶意圖框架進(jìn)行可靠性度量,可有效剔除與用戶意圖不相關(guān)的非可靠用戶行為,降低不可靠用戶行為對(duì)模型結(jié)果的不利影響。但該類模型存在一定缺陷,即當(dāng)單次用戶行為具有多意圖時(shí),用戶可靠性行為的度量效果不顯著。
3.3 基于用戶行為模式的用戶行為可靠性評(píng)價(jià)模型
人類用戶和正常機(jī)器人爬蟲(chóng)的行為模式有規(guī)可循,研究者試圖利用已知用戶行為模式檢查和鑒別惡意用戶行為,并對(duì)用戶行為進(jìn)行可靠性度量。
通過(guò)對(duì)土壤數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì),甘肅省共有土壤亞類90個(gè),這樣的分類體系對(duì)于空間分辨率為500 m和1 000 m的MODIS數(shù)據(jù)來(lái)說(shuō)類別過(guò)于復(fù)雜,容易造成分類結(jié)果不理想,因此對(duì)各個(gè)類別的圖斑面積進(jìn)行統(tǒng)計(jì),最終舍棄了圖斑面積小于0.2 cm的35個(gè)亞類,剩余55個(gè)亞類。
用戶行為可靠性可以通過(guò)用戶行為模式建模技術(shù)進(jìn)行模擬和度量。余肖生等利用網(wǎng)絡(luò)用戶行為過(guò)程模型圖,通過(guò)網(wǎng)絡(luò)負(fù)載分析發(fā)現(xiàn)真實(shí)可靠的網(wǎng)絡(luò)用戶行為[18];Baeza-Yates[19]和Kammenhuber[20]等利用馬爾可夫過(guò)程假設(shè)模擬網(wǎng)絡(luò)用戶的檢索過(guò)程,進(jìn)而對(duì)網(wǎng)絡(luò)用戶行為進(jìn)行解釋,以識(shí)別出真實(shí)可靠的網(wǎng)絡(luò)用戶行為;Joachims等利用用戶決策過(guò)程模型,對(duì)用戶行為的有效性進(jìn)行分析,排除與決策行為無(wú)關(guān)的網(wǎng)絡(luò)用戶行為,保留真實(shí)可靠的網(wǎng)絡(luò)用戶行為,并使用可靠的網(wǎng)絡(luò)用戶行為提升檢索結(jié)果質(zhì)量[21];基于上述的研究成果, Agichtein等也提出利用群體網(wǎng)絡(luò)用戶行為解釋和分析網(wǎng)絡(luò)用戶行為的可靠性,并以此對(duì)檢索結(jié)果中排序偏置問(wèn)題進(jìn)行修正[22];Kwon等根據(jù)用戶交互過(guò)程中的資源請(qǐng)求類型,匹配與其相應(yīng)的用戶行為模式,并利用該方法將資源分類[23];本文將資源分類所得結(jié)果與資源請(qǐng)求同等對(duì)待的區(qū)分結(jié)果進(jìn)行對(duì)比,該方法對(duì)惡意機(jī)器人用戶行為識(shí)別能力更強(qiáng);Kwon等利用用戶在整個(gè)Session過(guò)程中行為模式的改變方式和速度區(qū)分人類用戶、機(jī)器人爬蟲(chóng)以及惡意機(jī)器人用戶,同時(shí)將該方法應(yīng)用于所有資源的請(qǐng)求和訪問(wèn)中[24];Hayati等提出在Web 2.0時(shí)代,惡意機(jī)器人用戶一般通過(guò)模擬人類行為模式逃避系統(tǒng)檢查,為解決這一問(wèn)題,可通過(guò)給定惡意機(jī)器人用戶無(wú)法模仿的人類用戶瀏覽行為模式,并使用有監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)檢測(cè)惡意機(jī)器人用戶行為,且達(dá)到96.24%的精確度[25]。
基于用戶行為模式的可靠性評(píng)價(jià)模型雖能在很大程度上識(shí)別已有惡意機(jī)器人,但該模型對(duì)未知的惡意機(jī)器人、或具有自主學(xué)習(xí)人類行為模式的惡意機(jī)器人識(shí)別能力較差,因此限制了這種用戶行為可靠性評(píng)價(jià)模型的推廣應(yīng)用。
3.4 基于數(shù)據(jù)挖掘的用戶行為可靠性評(píng)價(jià)模型
在用戶行為可靠性評(píng)價(jià)研究中,如果缺乏對(duì)用戶歷史行為的風(fēng)險(xiǎn)分析,就不能客觀地反映用戶行為可靠性。用戶歷史行為數(shù)據(jù)真實(shí)地反映用戶行為變化。如何從龐雜的用戶歷史行為數(shù)據(jù)中發(fā)現(xiàn)用戶的不可靠、不可信問(wèn)題,是研究用戶行為可靠性評(píng)價(jià)的關(guān)鍵。
武小年等提出利用數(shù)據(jù)挖掘方法對(duì)用戶行為可靠性進(jìn)行研究[26],指出用戶的大部分?jǐn)?shù)據(jù)是正常行為數(shù)據(jù),如果能有效地過(guò)濾正常行為數(shù)據(jù),就可大幅減少要分析的用戶歷史行為數(shù)據(jù)量,從而提高數(shù)據(jù)處理效率。邱宜輝等提出基于BP神經(jīng)網(wǎng)絡(luò)算法的用戶行為可信分析模型[27],該模型利用BP神經(jīng)網(wǎng)絡(luò)算法對(duì)用戶行為可信等級(jí)進(jìn)行預(yù)測(cè),得出用戶行為可信等級(jí)。Stevanovic等利用無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)模型鑒別網(wǎng)站惡意用戶和非惡意用戶,同時(shí)該模型還能正確區(qū)分不同用戶類型(包括惡意機(jī)器人爬蟲(chóng)用戶以及非惡意用戶等)[28]。另外, Stevanovic等還通過(guò)選用資源連續(xù)請(qǐng)求率、頁(yè)面訪問(wèn)深度等特征,通過(guò)二次分類方法識(shí)別可靠用戶行為和不可靠用戶行為[29-30];該二次分類模型首先通過(guò)Session將用戶分為人類用戶和機(jī)器人用戶,然后通過(guò)機(jī)器人用戶的Session特性,將機(jī)器人用戶分為機(jī)器人爬蟲(chóng)用戶和惡意機(jī)器人用戶。蔣澤等采用決策屬性衡量用戶行為可信度和可靠性[5],該模型能夠準(zhǔn)確評(píng)價(jià)網(wǎng)絡(luò)用戶行為的可信度和可靠性,并能反映網(wǎng)絡(luò)用戶行為的動(dòng)態(tài)變化特性。
這類模型利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶行為進(jìn)行建模,從海量的網(wǎng)絡(luò)用戶行為數(shù)據(jù)中過(guò)濾掉非正常用戶行為數(shù)據(jù)、并識(shí)別出可靠的用戶行為數(shù)據(jù),為基于用戶行為的檢索反饋系統(tǒng)提供可信數(shù)據(jù),但該類模型沒(méi)有考慮用戶行為可靠性評(píng)價(jià)的不確定性和模糊性問(wèn)題。
這四種模型在一定程度上能有效地解決不同環(huán)境下的用戶行為可靠性評(píng)價(jià)問(wèn)題,對(duì)于檢測(cè)惡意機(jī)器人用戶行為、減輕網(wǎng)絡(luò)服務(wù)負(fù)擔(dān)、提高正常用戶服務(wù)的質(zhì)量起到重要作用。但仍然有兩個(gè)問(wèn)題沒(méi)有得到有效解決。(1)惡意機(jī)器人常通過(guò)收集并模擬人類用戶的行為模式逃避模型檢測(cè)和系統(tǒng)檢查。即使惡意機(jī)器人模擬人類用戶行為,但人類行為具有主觀性(如在訪問(wèn)時(shí)序、對(duì)資源的請(qǐng)求和訪問(wèn)間隔頻率、對(duì)資源類型的需求等方面),機(jī)器人無(wú)法完全模擬,已有評(píng)價(jià)方法無(wú)法有效識(shí)別這些惡意的、不可靠的用戶行為。(2)在未知的、新型的惡意機(jī)器人檢測(cè)方面,由于這些惡意機(jī)器人可能綜合使用多種方式隱瞞其真實(shí)意圖,從而達(dá)到逃避檢測(cè)的目的。對(duì)于這類惡意機(jī)器人,由于用戶意圖不明確、沒(méi)有先驗(yàn)知識(shí),上述基于用戶意圖、概率統(tǒng)計(jì)以及有監(jiān)督的數(shù)據(jù)挖掘方法均對(duì)其無(wú)能為力,而無(wú)監(jiān)督的數(shù)據(jù)挖掘方法對(duì)新數(shù)據(jù)類型的分類效果也不夠理想。
通過(guò)上述分析發(fā)現(xiàn),在當(dāng)前的用戶行為可靠性評(píng)價(jià)模型中,存在無(wú)法有效識(shí)別模擬人類用戶行為的惡意機(jī)器人用戶行為、對(duì)未知新型的不可靠用戶行為識(shí)別能力不足、無(wú)法有效獲得學(xué)習(xí)訓(xùn)練數(shù)據(jù)、適應(yīng)多變復(fù)雜環(huán)境的能力較低以及無(wú)法區(qū)別用戶行為的模糊性和動(dòng)態(tài)性等缺點(diǎn)。其中有效獲取學(xué)習(xí)訓(xùn)練數(shù)據(jù)的問(wèn)題至今沒(méi)有一個(gè)很好的解決方案。因此,本文提出一個(gè)集多種評(píng)價(jià)方法的用戶行為可靠性評(píng)價(jià)綜合模型框架(見(jiàn)圖1)。
用戶行為可靠性評(píng)價(jià)綜合模型框架包含五個(gè)層次,分別是用戶行為數(shù)據(jù)收集層、用戶行為劃分層、用戶行為模式訓(xùn)練層、不可靠用戶行為鑒別層以及用戶行為管理與控制層。
(1)用戶行為數(shù)據(jù)收集層。該層負(fù)責(zé)用戶行為數(shù)據(jù)的收集,包括人類用戶行為數(shù)據(jù)和機(jī)器人用戶行為數(shù)據(jù)。該層主要負(fù)責(zé)收集所有用戶行為,抽取歸納用戶行為特征,將數(shù)據(jù)傳至用戶行為劃分模型,模型根據(jù)所接收的用戶行為特征對(duì)用戶行為進(jìn)行劃分。
(2)用戶行為劃分層。該層利用用戶行為數(shù)據(jù)收集層的用戶行為特征數(shù)據(jù),與現(xiàn)有用戶行為模式庫(kù)進(jìn)行對(duì)比分析,將用戶行為簡(jiǎn)單地劃分為人類用戶行為和機(jī)器人用戶行為。人類用戶和機(jī)器人用戶不僅在資源導(dǎo)航與請(qǐng)求模式、不同資源獲取方式等方面,而且在訪問(wèn)序列、訪問(wèn)間隔及再訪問(wèn)方式等特征上更具有明顯差異。如人類用戶的再訪問(wèn)一般通過(guò)導(dǎo)航或檢索模式進(jìn)行資源請(qǐng)求,而機(jī)器人具有記憶性,其再訪問(wèn)一般為直接訪問(wèn)資源。因此,在對(duì)用戶行為可靠性評(píng)價(jià)時(shí),可以先構(gòu)建行為模式鑒別模型,區(qū)分人類用戶行為和機(jī)器人用戶行為;然后,從機(jī)器人用戶行為中識(shí)別出惡意的、不可靠的用戶行為,完成用戶行為可靠性評(píng)價(jià)。
(3)用戶行為模式訓(xùn)練層。人類用戶行為模式和機(jī)器人用戶行為模式隨時(shí)間而發(fā)生變化,為促使用戶行為模式庫(kù)中的用戶行為模式能夠與真實(shí)用戶的行為變化相匹配,在該層利用行為模式學(xué)習(xí)器,學(xué)習(xí)新的用戶行為模式并更新至用戶行為模式庫(kù)。
(4)不可靠用戶行為鑒別層。不可靠的、惡意的用戶行為絕大部分來(lái)自惡意機(jī)器人,這些由不可靠用戶行為產(chǎn)生的惡意訪問(wèn)通常會(huì)對(duì)網(wǎng)絡(luò)服務(wù)器造成高負(fù)載壓力,進(jìn)而影響對(duì)正常用戶的服務(wù)能力。由于用戶行為可靠性評(píng)估方法無(wú)法適應(yīng)復(fù)雜多變的環(huán)境需求,在該層,本文集成多種不同用戶行為可靠性評(píng)價(jià)模型,形成一個(gè)綜合評(píng)價(jià)模型。該模型同時(shí)利用用戶行為模式、歷史數(shù)據(jù)以及訓(xùn)練數(shù)據(jù)對(duì)用戶行為進(jìn)行評(píng)估。
(5)用戶行為管理與控制層。該層通過(guò)綜合用戶行為評(píng)價(jià)模型,獲得用戶行為相關(guān)信息(包括用戶行為可靠性、用戶行為模式等)。在實(shí)際評(píng)價(jià)分析過(guò)程中,為遏制或消除惡意機(jī)器人用戶行為對(duì)網(wǎng)絡(luò)服務(wù)的影響,需對(duì)用戶行為進(jìn)行預(yù)測(cè)、管理和控制,使用戶行為可靠性評(píng)價(jià)綜合模型能在實(shí)際網(wǎng)絡(luò)服務(wù)中得以應(yīng)用。
該用戶行為可靠性評(píng)價(jià)模型在綜合考慮現(xiàn)有評(píng)價(jià)模型的基礎(chǔ)上,使用集成的評(píng)價(jià)方法,對(duì)提高用戶行為可靠性評(píng)價(jià)的準(zhǔn)確度具有積極作用。與單一模型相比,可靠性評(píng)價(jià)綜合模型在收集用戶行為模式庫(kù)的基礎(chǔ)上,通過(guò)用戶行為劃分模型與行為模式學(xué)習(xí)器,實(shí)時(shí)補(bǔ)充和完善最新的用戶行為模式,能有效解決不能較好地識(shí)別模擬人類用戶行為的惡意機(jī)器人以及其他未知的新型惡意機(jī)器人等問(wèn)題。但該模型對(duì)于獲取訓(xùn)練數(shù)據(jù)困難以及用戶可靠性中的模糊性、不確定性等問(wèn)題仍有待改善。
圖1 用戶行為可靠性評(píng)價(jià)綜合模型框架
網(wǎng)絡(luò)用戶行為蘊(yùn)含大量有價(jià)值的信息,可廣泛用于提升各種網(wǎng)絡(luò)服務(wù)的水平和質(zhì)量。但在開(kāi)放網(wǎng)絡(luò)環(huán)境中,用戶行為存在大量惡意的非正常行為,需要對(duì)用戶行為的可靠性進(jìn)行評(píng)價(jià)。目前對(duì)用戶行為可靠性評(píng)價(jià)的研究主要集中在概率統(tǒng)計(jì)、用戶行為意圖、用戶行為模式以及數(shù)據(jù)挖掘四個(gè)方面,這些評(píng)價(jià)模型對(duì)模擬人類用戶行為的惡意機(jī)器人、未知新型惡意機(jī)器人用戶行為的模糊性和動(dòng)態(tài)性等方面仍有不足。已有用戶行為可靠性評(píng)價(jià)方法無(wú)法適應(yīng)不同環(huán)境下的用戶可靠性評(píng)價(jià),本文針對(duì)該問(wèn)題提出一個(gè)集成多種評(píng)價(jià)方法的用戶行為可靠性評(píng)價(jià)綜合模型框架。該模型通過(guò)五個(gè)層次將用戶行為數(shù)據(jù)收集、用戶行為劃分、用戶行為模式訓(xùn)練、不可靠用戶行為鑒別以及用戶行為管理與控制聯(lián)系起來(lái),形成一個(gè)從數(shù)據(jù)、評(píng)價(jià)到管理控制的框架模型。
該綜合模型通過(guò)對(duì)用戶行為基礎(chǔ)分析和用戶行為模式識(shí)別,能夠有效區(qū)分機(jī)器人用戶和人類用戶;并利用用戶行為模式庫(kù),對(duì)新的用戶行為模式進(jìn)行學(xué)習(xí)訓(xùn)練,促使用戶行為模式庫(kù)中的用戶行為模式能夠與真實(shí)用戶的時(shí)間行為變化相匹配。在此基礎(chǔ)上,結(jié)合用戶行為模式和學(xué)習(xí)訓(xùn)練數(shù)據(jù),對(duì)機(jī)器人用戶行為中的惡意機(jī)器人行為進(jìn)行鑒別,為最終用戶控制與管理提供數(shù)據(jù)基礎(chǔ)。
針對(duì)該綜合模型中存在的用戶行為模糊性和動(dòng)態(tài)性等難題,后續(xù)研究擬引入模糊理論或粗糙集對(duì)用戶行為特征的模糊性進(jìn)行表示,并將該模糊性表示納入綜合評(píng)價(jià),對(duì)用戶行為的可靠性使用概率形式表示,以期獲得更接近實(shí)際用戶行為的評(píng)價(jià)結(jié)果。對(duì)于有效訓(xùn)練數(shù)據(jù)獲取的難題,后續(xù)研究擬考慮從數(shù)據(jù)集中抽取不同切片,嘗試從不同角度進(jìn)行詮釋和歸類。
[1]LIN C,TIAN L,WANG Y.Research on user behavior trust in trustworthy network[J].Journal of Computer Research & Development,2008,45(12):2033-2043.
[2]ARASU A,CHO J,GARCIA-MOLINA H.Searching the web[J].Acm Transactions on Internet Technology,2002,1(1):42-43.
[3]DORAN D,GOKHALE S S.Web robot detection techniques: overview and limitations[J].Data Mining and Knowledge Discovery, 2011,22(1):183-210.
[4]林闖,田立勤,王元卓.可信網(wǎng)絡(luò)中用戶行為可信的研究[J].計(jì)算機(jī)研究與發(fā)展,2008,45(12):2033-2043.
[5]蔣澤,李雙慶,尹程果.基于多維決策屬性的網(wǎng)絡(luò)用戶行為可信度評(píng)估[J].計(jì)算機(jī)應(yīng)用研究,2011,28(6):2289-2293,2320.
[6]TAN P N,KUMAR V.Discovery of web robot sessions based on their navigational patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9-35.
[7]任立肖.網(wǎng)絡(luò)用戶信息行為計(jì)量研究[D].蘭州:蘭州大學(xué),2006.
[8]岑榮偉,劉奕群,張敏,等.網(wǎng)絡(luò)檢索用戶行為可靠性分析[J].軟件學(xué)報(bào),2010,21(5):1055-1066.
[9]梁?jiǎn)T寧,陳建良,葉笠.云服務(wù)可靠性優(yōu)化方法研究[J].計(jì)算機(jī)科學(xué),2013,40(8):129-135.
[10]呂艷霞,田立勤,孫珊珊.云計(jì)算環(huán)境下基于FANP的用戶行為的可信評(píng)估與控制分析[J].計(jì)算機(jī)科學(xué),2013,40(1):132-135,138.
[11]STASSOPOULOU A,DIKAIAKOS M D.Web robot detection:a probabilistic reasoning approach[J].Computer Networks,2009,53 (3):265-278.
[12]羅成,劉奕群,張敏,等.基于用戶意圖識(shí)別的查詢推薦研究[J].中文信息學(xué)報(bào),2014,28(1):64-72.
[13]張志強(qiáng),彭晴晴,謝曉芹,等.面向查詢意圖的信息檢索技術(shù)[J].軟件學(xué)報(bào),2013,24(3):162-177.
[14]CRASWELL N,ZOETER O,TAYLOR M,et al.An experimental comparison of click position-bias models[C]//International Conference on Web Search and Data Mining.ACM,2008:87-94.
[15]GUO F,LIU C,WANG Y M.Efficient multiple-click models in web search[C]//International Conference on Web Search and Web Data Mining,WSDM 2009.Barcelona:DBLP,2009,84(2):124-131.
[16]蔡岳,袁津生.用戶行為聚類的搜索引擎算法與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(4):94-97.
[17]SADAGOPAN N, LI J.Characterizing typical and atypical user sessions in clickstreams[C]//International Conference on World Wide Web.Beijing:DBLP,2008,31(4):885-894.
[18]余肖生,馬費(fèi)成.網(wǎng)絡(luò)用戶行為模型的構(gòu)建方法研究[J].情報(bào)科學(xué), 2011(4):605-608.
[19]BAEZA-YATES R,HURTADO C,MENDOZA M,et al.Modeling user search behavior[C]//Latin American Web Congress.[S.1.]:IEEE,2005:10.
[20]KAMMENHUBER N,LUXENBURGER J,FELDMANN A,et al.Web search clickstreams[C]//ACM SIGCOMM Conference on Internet Measurement 2006.Rio:DBLP,2006:245-250.
[21]JOACHIMS T,GRANKA L,PAN B,et al.Accurately interpreting clickthrough data as implicit feedback[C]//International Acm Sigir Conference on Research & Development in Information Retrieval.[S.1.]: [s.n],2005:154-161.
[22]AGICHTEIN E,BRILL E,DUMAIS S,et al.Learning user interaction models for predicting web search result preferences[C]//International ACM SigirConference on Research and Development in Information Retrieval.[S.1.]:ACM,2006:3-10.
[23]KWON S,KIMY G,CHA S.Web robot detection based on patternmatching technique[J].Journal of Information Science,2012,38(2):118-126.
[24]KWON S,OH M,KIM D, et al.Web robot detection based on monotonous behavior[J].Proceedings of the Information Science and Industrial Applications,2012(4):43-48.
[25]HAYATI P,POTDAR V,CHAI K,et al.Web spambot detection based on web navigation behaviour[C]//Advanced Information Networking and Applications(AINA),2010 24th IEEE International Conference on.New York:IEEE,2010:797-803.
[26]武小年,周勝源.數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[C]//第十一屆保密通信與信息安全現(xiàn)狀研討會(huì)論文集.四川:信息安全與通信保密雜志社,2009(4):243-245.
[27]邱宜輝,陳志德,許力.基于BP神經(jīng)網(wǎng)絡(luò)的可信網(wǎng)絡(luò)用戶行為預(yù)測(cè)模型[J].福建電腦,2009,25(1):70-71.
[28]STEVANOVIC D,VLAJIC N,AN A.Detection of malicious and non-malicious website visitors using unsupervised neural network learning[J].Applied Soft Computing,2013,13(1):698-708.
[29]STEVANOVIC D,AN A,VLAJIC N.Feature evaluation for web crawler detection with data mining techniques[J].Expert Systems with Applications,2012,39(10):8707-8717.
[30]STEVANOVIC D,AN A,VLAJIC N.Detecting web crawlers from web server access logs with data mining classi fi ers[C]//Foundations of Intelligent Systems-International Symposium.Berlin:Springer Berlin Heidelberg,2011:483-489.
Integrated Framework of Reliability Evaluation Method of User Behavior
WU QingQiang, BAO BinBin
(Software School of Xiamen University, Xiamen 361005, China)
The reliability evaluation of user behavior is playing an important role on the development of network services.The current researches about reliability evaluation of user behavior include the probability statistics, user behavior intention, user behavior model and data mining.On the basis of the reliability evaluation of network user behavior, the de fi nition of network user behavior’s trust evaluation and the summary of the existing research, the paper aims at the existing problems in the current evaluation models, and tries to propose an integrated framework of reliability evaluation method of network user behavior.There are fi ve layers in this framework, which are data collection layer, user behavior division layer, user behavior training layer, unreliability behavior identi fi cation layer and user behavior management and control layer.This framework makes a positive effect in improving the solution to the problem of bad machine behaviors in the reliability evaluation of user behavior.
User Behavior Reliability; Reliability Evaluation; Trusted User Behavior
TP393
10.3772/j.issn.1673-2286.2017.05.008
吳清強(qiáng),男,1974年生,博士,副教授,研究方向:情報(bào)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)字圖書(shū)館,E-mail:wuqq@xmu.edu.com。
鮑彬彬,女,1992年生,碩士研究生,研究方向:數(shù)據(jù)挖掘。
2017-04-07)
* 本研究得到國(guó)家社會(huì)科學(xué)基金項(xiàng)目“面向檢索的網(wǎng)絡(luò)用戶行為可靠性度量研究”(編號(hào):13CTQ011)資助。