楊富華 彭鋼
摘要:研究基于訪問(wèn)日志挖掘的高校綜合信息門戶頁(yè)面推薦。從高校綜合信息門戶服務(wù)器日志中獲取用戶日志數(shù)據(jù),對(duì)日志數(shù)據(jù)中的“臟”數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)改進(jìn)的Kmeans聚類算法將用戶瀏覽興趣度數(shù)據(jù)集劃分為多個(gè)具有相近興趣度的用戶集合,憑此為用戶提供個(gè)性化的頁(yè)面推薦。實(shí)驗(yàn)結(jié)果表明,在高校綜合信息門戶頁(yè)面推薦方面具有不錯(cuò)的效果。
關(guān)鍵詞:用戶日志挖掘;高校綜合信息門戶;頁(yè)面推薦
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:This paper discussed a page recommendation of college synthetical information portals based on server logs mining. Firstly, the user log data was obtained from server logs, which were then pretreated with “dirty” data. Secondly, the interestmeasure of each user pairs was calculated by the processed data sets, and the data set of interestmeasure of each user pairs was divided into multiple classes with similar interestmeasure based on improved Kmeans clustering algorithm. Finally, personalized page recommendation method was provided to each user. The experimental results prove the effectiveness of the method in college information portals.
Key words:server logs mining; college synthetical information portals; page recommendation
1引言
通常,Web挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web日志挖掘[1]。目前,已有部分學(xué)者進(jìn)行了基于Web挖掘?qū)崿F(xiàn)網(wǎng)頁(yè)推薦的研究。如:Yan[2]等將用戶瀏覽網(wǎng)頁(yè)時(shí)間作為權(quán)值加入到基于關(guān)聯(lián)規(guī)則的網(wǎng)頁(yè)推薦系統(tǒng)中;楊正余等[3]提出了一種基于用戶訪問(wèn)序列的實(shí)時(shí)網(wǎng)頁(yè)推薦方法;解男男等[4]提出一種基于Web日志挖掘的個(gè)性化網(wǎng)頁(yè)推薦模型;吳瑞[5]討論了基于雙層聚類方法的網(wǎng)頁(yè)推薦模型。
本文研究了基于訪問(wèn)日志挖掘的網(wǎng)站頁(yè)面?zhèn)€性化推薦。以本校綜合信息門戶為例,從本校綜合信息門戶服務(wù)器日志中獲取用戶日志數(shù)據(jù),對(duì)日志數(shù)據(jù)中的“臟”數(shù)據(jù)進(jìn)行預(yù)處理,以適應(yīng)數(shù)據(jù)挖掘的需要,通過(guò)改進(jìn)的Kmeans聚類算法將用戶瀏覽興趣度數(shù)據(jù)集劃分為多個(gè)具有相近興趣度的用戶集合,憑此為用戶提供個(gè)性化的頁(yè)面推薦。
本文利用數(shù)據(jù)挖掘技術(shù)對(duì)日志數(shù)據(jù)進(jìn)行處理,通過(guò)分析大量日志數(shù)據(jù)發(fā)現(xiàn)用戶的偏好和需求,為用戶提供個(gè)性化頁(yè)面推薦[6],從而節(jié)省用戶搜索頁(yè)面的時(shí)間,提高用戶對(duì)學(xué)校綜合信息門戶的滿意度。
日志挖掘就是從大量的日志數(shù)據(jù)、文檔和活動(dòng)中發(fā)現(xiàn)用戶感興趣的潛在信息的過(guò)程。聚類是目前日志挖掘常用的方法[7]。本文在現(xiàn)有Kmeans算法的基礎(chǔ)上,提出一種改進(jìn)的Kmeans聚類算法,設(shè)計(jì)了高校綜合信息門戶頁(yè)面推薦的實(shí)現(xiàn)方案。該方案針對(duì)高校綜合信息門戶用戶提供個(gè)性化頁(yè)面主動(dòng)推薦, 幫助用戶更快獲取有用信息, 提高工作效率。
2總體方案
學(xué)校綜合信息門戶服務(wù)器日志是用來(lái)記錄用戶訪問(wèn)活動(dòng)的,是獲取用戶訪問(wèn)綜合信息門戶活動(dòng)情況的首要數(shù)據(jù)來(lái)源。服務(wù)器日志的基本信息包括用戶訪問(wèn)請(qǐng)求時(shí)間、訪問(wèn)某個(gè)頁(yè)面的次數(shù)、持續(xù)時(shí)間及該頁(yè)面長(zhǎng)度等。圖1為總體方案流程圖。具體過(guò)程如下:首先從高校綜合信息門戶服務(wù)器日志中獲取用戶日志數(shù)據(jù),然后對(duì)用戶日志數(shù)據(jù)進(jìn)行清理、識(shí)別等,為數(shù)據(jù)挖掘與分析奠定基礎(chǔ);接著從待處理的用戶日志數(shù)據(jù)集計(jì)算用戶瀏覽興趣度,并基于改進(jìn)的Kmeans聚類,將用戶瀏覽興趣度數(shù)據(jù)集劃分為多個(gè)具有相近興趣度的類,分析用戶的偏好和需求,為用戶提供個(gè)性化頁(yè)面推薦,最終使系統(tǒng)功能更加友好實(shí)用、善解人意。
在上述方案實(shí)現(xiàn)過(guò)程中,采用基于改進(jìn)的Kmeans聚類算法,考慮如下:由于現(xiàn)有的 Kmeans算法初始點(diǎn)是建立在隨機(jī)選取的基礎(chǔ)上的,如果初始化點(diǎn)選擇不好,一般很難跳出局部最優(yōu),而且產(chǎn)生的最終聚類結(jié)果也會(huì)很差[8]。因此,本文通過(guò)選取周圍密度最大 k個(gè)點(diǎn)作為初始化點(diǎn),該方式不僅能夠有效地解決Kmeans初始化點(diǎn)選擇問(wèn)題,而且也能有效地降低孤立點(diǎn)對(duì)Kmeans算法的影響,具體算法如4.2節(jié)所示。3日志數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是實(shí)施有效挖掘算法的前提, 在日志挖掘中具有非常重要的作用。主要因?yàn)椋簲?shù)據(jù)是來(lái)自多個(gè)數(shù)據(jù)源未被加工的、高維、冗余、含有噪音且非均勻分布的復(fù)雜數(shù)據(jù), 在數(shù)據(jù)模型、含義、模式、結(jié)構(gòu)和語(yǔ)義上存在不一致性和沖突,因此數(shù)據(jù)預(yù)處理是日志挖掘質(zhì)量保障的關(guān)鍵。數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)全等[9],具體過(guò)程如圖2所示[10]。
1) 數(shù)據(jù)清理:主要是清除 Web 服務(wù)器日志文件中無(wú)關(guān)數(shù)據(jù)項(xiàng)的過(guò)程。一般包括數(shù)據(jù)合并、刪除無(wú)關(guān)數(shù)據(jù)、處理代理訪問(wèn)、規(guī)范 URL 等。
2) 用戶識(shí)別:主要是識(shí)別訪問(wèn)學(xué)校綜合信息門戶的獨(dú)立用戶,當(dāng)用戶轉(zhuǎn)換使用瀏覽器或直接輸入 URL 時(shí),一般視為多個(gè)用戶; 而同一操作系統(tǒng)、同一IP、同一瀏覽器訪問(wèn)網(wǎng)站,且瀏覽頁(yè)面集合相同,一般視為同一個(gè)用戶。
3) 會(huì)話識(shí)別:用戶會(huì)話是指用戶從進(jìn)入站點(diǎn)到離開站點(diǎn)期間所訪問(wèn)的一系列頁(yè)面序列集合,通過(guò)研究這些序列,獲得用戶在站點(diǎn)中的瀏覽愛(ài)好或是訪問(wèn)模式。
4)路徑補(bǔ)全:由于本地緩存和代理服務(wù)器緩存的存在, 使得服務(wù)器的日志會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。在無(wú)法以客戶端進(jìn)行網(wǎng)頁(yè)瀏覽跟蹤的情況下, 可利用每個(gè)請(qǐng)求頁(yè)面內(nèi)容推斷出一些緩存網(wǎng)頁(yè)的瀏覽情況, 通過(guò)路徑補(bǔ)充將這些遺漏的請(qǐng)求補(bǔ)充到用戶會(huì)話中,使不完整的訪路徑變得完整??衫镁W(wǎng)站的拓?fù)浣Y(jié)構(gòu)信息填充路徑。
4高校綜合信息門戶頁(yè)面推薦
經(jīng)過(guò)數(shù)據(jù)預(yù)處理環(huán)節(jié)后,現(xiàn)在需要對(duì)這些日志數(shù)據(jù)進(jìn)行挖掘,本文首先建立用戶興趣度參數(shù)來(lái)衡量用戶對(duì)某個(gè)頁(yè)面的興趣大小,然后將按照用戶共同的訪問(wèn)習(xí)慣進(jìn)行聚類,最后基于聚類結(jié)果完成針對(duì)高校綜合信息門戶個(gè)性化頁(yè)面推薦。
4.1用戶興趣度計(jì)算
興趣度表示用戶對(duì)某事物感興趣的程度。但是在網(wǎng)絡(luò)訪問(wèn)領(lǐng)域興趣度的定義并不是十分明確。文獻(xiàn)[6,11]提出了用戶興趣度的概念,并給出了量化計(jì)算公式。本文用訪問(wèn)頻率系數(shù)F(i)和瀏覽時(shí)間系數(shù)C(i)進(jìn)行量化。
1)訪問(wèn)頻率系數(shù)F(i)
定義l 如果用戶u訪問(wèn)了某一頁(yè)面i,即認(rèn)為用戶u對(duì)i感興趣。用戶感興趣的程度即興趣度的計(jì)算依賴于用戶對(duì)頁(yè)面的訪問(wèn)頻度。設(shè)n為u訪問(wèn)i的次數(shù),total為u訪問(wèn)的所有頁(yè)面的總次數(shù),u對(duì)i的興趣度F(i)的計(jì)算方法如下[11]:
F(i)=n/total(1)
即F(i)表示頁(yè)面i在一次會(huì)話中被瀏覽次數(shù)與本次會(huì)話瀏覽的所有頁(yè)面總次數(shù)之比值, 細(xì)化為式(2):
F(i)=V(i)∑im∈SjV(im)(2)
上式中, V(i)表示頁(yè)面i在一次會(huì)話中被瀏覽次數(shù),Sj是一次會(huì)話瀏覽的頁(yè)面集合。
F(i)越大,則u對(duì)i越感興趣。
在定義l中給出的用戶興趣度計(jì)算公式,興趣度大小由點(diǎn)擊量確定。曾經(jīng),點(diǎn)擊量是衡量網(wǎng)站熱門程度的主要指標(biāo)。不過(guò),隨著AJAX技術(shù)的發(fā)展,百度、雅虎和Google等搜索網(wǎng)站因是瀏覽器首頁(yè)造成其點(diǎn)擊量較大,但往往不是用戶最感興趣的頁(yè)面。因此,僅僅以點(diǎn)擊量計(jì)算用戶興趣度有失偏頗。
2)瀏覽時(shí)間系數(shù) C(i)
用戶在一個(gè)頁(yè)面上瀏覽的時(shí)間越長(zhǎng),說(shuō)明用戶對(duì)該頁(yè)面越感興趣。用戶瀏覽時(shí)間應(yīng)作為衡量網(wǎng)站訪問(wèn)量的最好方式[6,11,12],改變傳統(tǒng)過(guò)度看重點(diǎn)擊量的做法。一個(gè)用戶在網(wǎng)站上瀏覽時(shí)間(在線時(shí)間)的長(zhǎng)短,反應(yīng)出一個(gè)網(wǎng)站的粘度和吸引用戶的能力。
用戶瀏覽時(shí)間,即用戶在網(wǎng)站頁(yè)面從打開到瀏覽內(nèi)容結(jié)束并關(guān)閉頁(yè)面的時(shí)間。用戶瀏覽頁(yè)面的時(shí)間長(zhǎng)短也與該頁(yè)面長(zhǎng)度有關(guān),因此需要將頁(yè)面的長(zhǎng)度與“瀏覽時(shí)間”聯(lián)系起來(lái)。 C(i)表示“瀏覽時(shí)間系數(shù)”,是瀏覽頁(yè)面i單位長(zhǎng)度上的所耗時(shí)間與本次會(huì)話瀏覽的所有網(wǎng)頁(yè)單位長(zhǎng)度上所耗的最長(zhǎng)時(shí)間的比值,如式(3)所示:
C(i)=T(i)/L(i)max im∈Sj(T(i)/L(i))(3)
上式中,T(i)表示用戶瀏覽頁(yè)面i所用時(shí)間,L(i)表示頁(yè)面i的長(zhǎng)度,Sj是一次會(huì)話瀏覽的頁(yè)面集合。
綜上,可以看出:用戶訪問(wèn)興趣度與用戶訪問(wèn)頻率和用戶瀏覽時(shí)間有關(guān),為了更準(zhǔn)確地反映用戶的興趣度,必須考慮將頻率和瀏覽時(shí)間結(jié)合起來(lái)計(jì)算。本文綜合F(i)和C(i),表示在某一會(huì)話中用戶對(duì)某個(gè)頁(yè)面i的興趣度 I(i),I(i)的定義如(4)式所示:
I(i)=2·F(i)·C(i)F(i)+C(i)(4)
上式表明,興趣度 I(i)只有在用戶訪問(wèn)頻率系數(shù)F(i)和瀏覽時(shí)間系數(shù) C(i)同時(shí)較高的情況下才會(huì)具有較高的值,換言之,若用戶頻繁訪問(wèn)某一頁(yè)面,并且瀏覽這個(gè)頁(yè)面的時(shí)間也較較長(zhǎng),則表明用戶對(duì)該頁(yè)面比較感興趣。有些頁(yè)面被用戶訪問(wèn)的次數(shù)比較少,不能反映用戶的興趣度,所以在進(jìn)行用戶頁(yè)面興趣度計(jì)算時(shí)需要設(shè)定一個(gè)最小的閾值,這樣可以排除訪問(wèn)總次數(shù)比較少的頁(yè)面,提高系統(tǒng)的處理速度,同時(shí)也提高頁(yè)面推薦的可用性。
4.2改進(jìn)的 Kmeans用戶聚類算法
將得到的用戶興趣度數(shù)據(jù)集進(jìn)行聚類,聚類結(jié)果則為多個(gè)用戶類(簇),每個(gè)類(簇)中的用戶訪問(wèn)習(xí)慣相近,稱為用戶訪問(wèn)模式。用戶訪問(wèn)模式是用來(lái)描述具有相同瀏覽訪問(wèn)特征的用戶組。由于多個(gè)不同用戶在其訪問(wèn)期間可能有相同的興趣,用戶訪問(wèn)模式能有效獲得這些用戶共同的興趣或共同的訪問(wèn)需求。此外,用戶訪問(wèn)模式也能將不同興趣的用戶區(qū)分開來(lái)。本文采用改進(jìn)的 Kmeans聚類算法獲得用戶訪問(wèn)模式,該算法下。
基于改進(jìn)的Kmeans用戶聚類算法
輸入:D={x1,x2,…,xn},k
//用戶興趣度數(shù)據(jù)集和期望的類數(shù)目
輸出:k個(gè)類集//用戶訪問(wèn)模式
1)初始化k個(gè)類別中心。
按照公式(5)選取密度最大的前k個(gè)數(shù)據(jù)作為初始聚類中心點(diǎn) C={c1, c2, …, ck},公式(5)如下:
density(xi)=∑nj=1ed(xi-xj)22σ2(5)
式中σ選取0.5。
2)對(duì)于數(shù)據(jù)集中其它每個(gè)對(duì)象xj,則根據(jù)它們與各個(gè)聚類中心點(diǎn)ci的距離,分別將它們分配給與其具有最小距離的聚類中心點(diǎn)的類中,形成k個(gè)類。
repeat
for j=1 to n do
將xj分配給距離最近的聚類中心所屬的聚類Ci
3)重新計(jì)算每個(gè)類的聚類中心。
for i=1 to k do
用當(dāng)前聚類Ci中所有樣本的質(zhì)心點(diǎn)更新聚類中心,即x′i=1Ci∑x∈Cix
4)計(jì)算誤差函數(shù)E=∑ki=1∑x∈Ci|x-x′i|2
UntilE不再明顯變化或聚類內(nèi)的數(shù)據(jù)點(diǎn)不再發(fā)生改變。即所有聚類中心點(diǎn)達(dá)到穩(wěn)定, 則結(jié)束聚類; 否則跳至步驟2), 重復(fù)執(zhí)行, 直至聚類中心點(diǎn)不再發(fā)生變化。
上述算法中,首先針對(duì)現(xiàn)有的Kmeans算法初始點(diǎn)選擇容易陷入局部最優(yōu)問(wèn)題[8,13,14],通過(guò)迭代的方式選取密度最大的前k個(gè)數(shù)據(jù)作為初始化聚類中心,該方式能夠有效地解決初始點(diǎn)敏感的問(wèn)題,而且降低了孤立點(diǎn)對(duì)Kmeans算法的影響;再依次計(jì)算初始數(shù)據(jù)集中每一個(gè)對(duì)象到各個(gè)聚類中心點(diǎn)的距離,并根據(jù)計(jì)算結(jié)果將數(shù)據(jù)對(duì)象逐個(gè)分派到其最近聚類中心點(diǎn)的類中去,然后重新計(jì)算接受新對(duì)象的類和失去對(duì)象類的均值,如此重復(fù),直到各類再無(wú)元素進(jìn)出。聚類結(jié)果得到用戶類集合 C={c1, c2,…, ck},其中每個(gè)類 ci是具有共同訪問(wèn)興趣的用戶集合。
4.3熱點(diǎn)頁(yè)面推薦
基于聚類算法找到的具有共同訪問(wèn)興趣的用戶集合,本節(jié)主要通過(guò)這些集合對(duì)網(wǎng)站頁(yè)面的訪問(wèn)興趣度進(jìn)行匹配,計(jì)算每個(gè)頁(yè)面的推薦度,按推薦度從大到小進(jìn)行排序,完成用戶個(gè)性化推薦。
主要通過(guò)以下方式進(jìn)行熱點(diǎn)頁(yè)面推薦。根據(jù)每一個(gè)類 ci的共同的用戶瀏覽興趣度,構(gòu)建面向用戶的熱點(diǎn)頁(yè)面推薦集合,選取Top 10個(gè)熱點(diǎn)頁(yè)面,當(dāng)用戶登錄到系統(tǒng)時(shí),將這10個(gè)熱點(diǎn)頁(yè)面以快捷方式推薦給該類用戶。
5實(shí)驗(yàn)結(jié)果
為了驗(yàn)證改進(jìn)的Kmeans聚類算法的有效性,本文選用了本校綜合信息門戶平臺(tái)中的用戶行為數(shù)據(jù)集,并選取 2015 年 3 月1 日至2015 年 6 月 30 日期間的用戶行為日志,具體包括2200個(gè)用戶、400個(gè)系統(tǒng)功能菜單以及805200條用戶點(diǎn)擊記錄。運(yùn)行環(huán)境為Win7 系統(tǒng),主頻3.5GHz,內(nèi)存8G,硬盤1000G,程序使用Java語(yǔ)言實(shí)現(xiàn)。用戶行為數(shù)據(jù)集包括了10類用戶,分別是:校領(lǐng)導(dǎo)、處級(jí)干部、科級(jí)干部、一般管理人員、院系領(lǐng)導(dǎo)、教研室主任、實(shí)驗(yàn)室主任、普通教師、研究生、本科生,并與K-means聚類算法進(jìn)行比較,實(shí)驗(yàn)中分別設(shè)置了400、700、1000、1300、1600 、1900以及2200個(gè)用戶作為比較對(duì)象,聚類結(jié)果如圖 3 所示。
在圖3中,橫軸為選取的用戶個(gè)數(shù),縱軸為聚類結(jié)果的準(zhǔn)確度。聚類結(jié)果準(zhǔn)確度在[0,1]之間,結(jié)果越大則說(shuō)明聚類效果越好。從上圖中可以看出采用改進(jìn)的 Kmeans 算法,聚類準(zhǔn)確度區(qū)間為[0.72,0.88],而一般的Kmeans算法的準(zhǔn)確度區(qū)間為[0.61,0.75],兩個(gè)算法的準(zhǔn)確度均隨著用戶個(gè)數(shù)的增加而增加,但改進(jìn)的Kmeans 算法要比一般的Kmeans算法性能更佳,因此使用改進(jìn)的Kmeans 算法聚類效率更高, 將該算法用在高校綜合信息門戶頁(yè)面推薦上將進(jìn)一步提高用戶工作效率及其滿意度。
6結(jié)語(yǔ)
基于服務(wù)器日志挖掘的網(wǎng)站頁(yè)面推薦服務(wù)研究,一方面協(xié)助用戶很快找到感興趣的頁(yè)面,另一方面能夠幫助信息系統(tǒng)內(nèi)容和結(jié)構(gòu)的個(gè)性化完善。本文首先建立用戶瀏覽興趣度計(jì)算模型,接著通過(guò)改進(jìn)的Kmeans算法對(duì)用戶進(jìn)行聚類,然后實(shí)現(xiàn)用戶興趣頁(yè)面推薦,最后通過(guò)實(shí)驗(yàn)驗(yàn)證算法的有效性。目前,信息系統(tǒng)基于用戶興趣的頁(yè)面推薦研究仍處在快速發(fā)展時(shí)期,研究更智能、更優(yōu)化的信息系統(tǒng)頁(yè)面推薦技術(shù)會(huì)有廣闊應(yīng)用前景。
參考文獻(xiàn)
[1]韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-414.
[2]YAN Liang,LI Chunping.Incorporating Pageview Weight into an AssociationRuleBased Web Recommendation System [M].Lecture Notes in Computer Science.Berlin:Springer,2006:577-586.
[3]楊正余,王衛(wèi)平.基于用戶訪問(wèn)序列的實(shí)時(shí)網(wǎng)頁(yè)推薦研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008,17(5):50-53.
[4]解男男,胡亮,努爾布力等.基于Web日志挖掘的網(wǎng)頁(yè)推薦方法[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2013,51(2):267-272.
[5]吳瑞.基于雙層聚類方法的網(wǎng)頁(yè)推薦模型[J].系統(tǒng)工程學(xué)報(bào),2013,28(2):265-270.
[6]郭巖.網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2004.
[7]呂佳.基于興趣度的Web用戶訪問(wèn)模式分析[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(10):2403-2407.
[8]趙晶晶.基于Web日志挖掘的用戶訪問(wèn)興趣研究[D].武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.5.
[9]楊鵬.Web日志挖掘數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)[D].北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院.2010.5.
[10]孫宇航,孫應(yīng)飛.基于網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘預(yù)處理改進(jìn)方法[J].系統(tǒng)工程與電子技術(shù).2009(12):2994-2996.
[11]張珠玉,劉培玉,朱振方,等.改進(jìn)的訪問(wèn)統(tǒng)計(jì)方法及對(duì)用戶興趣度的計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(2):424-426,627.
[12]邢東山,沈鈞毅.一個(gè)可以準(zhǔn)確反映Web瀏覽興趣的度量值—偏愛(ài)度[J].控制與決策,2004.19(3):307-310.
[13]邵必林,邊根慶,張維琪,等.采用k一均值聚類算法的資源搜索模型研究[J].西安交通大學(xué)學(xué)報(bào),2012.46(10):55-59.
[14]殷賢亮,張為.Web使用挖掘中的一種改進(jìn)的會(huì)話識(shí)別方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2006(7):33-35.