• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于最大頻繁項集的搜索引擎查詢結(jié)果聚類算法

    2010-07-18 03:11:44陳清才王曉龍孟憲軍
    中文信息學(xué)報 2010年2期
    關(guān)鍵詞:項集類別網(wǎng)頁

    蘇 沖,陳清才,王曉龍,孟憲軍

    (哈爾濱工業(yè)大學(xué)深圳研究生院智能計算研究中心,廣東深圳518055)

    1 引言

    隨著網(wǎng)絡(luò)信息的爆炸式增長,搜索引擎日益成為信息時代不可或缺的工具。現(xiàn)在大部分通用的搜索引擎將與用戶查詢相關(guān)的網(wǎng)頁按照其與用戶查詢的相關(guān)度進行排序,返回給用戶一個列表形式的網(wǎng)頁查詢結(jié)果,用戶需要對每個網(wǎng)頁逐一判斷是否滿足自己的要求。研究[1]表明大多數(shù)用戶使用非常短的不確定的搜索字符串,并且85%的用戶只查看第一頁的結(jié)果,78%的用戶從來不更改他們的查詢詞,另外由于用戶的知識背景不同,對結(jié)果的期望也不同。因此為了滿足日益增長的網(wǎng)絡(luò)用戶對查詢質(zhì)量的要求,必須提高搜索引擎查詢結(jié)果對用戶的可用性。

    聚類技術(shù)可以有效地解決這種由于查詢的模糊性而導(dǎo)致結(jié)果集合中主題分散的問題。文獻(xiàn)[2]提出了“聚類假設(shè)”,即緊密聯(lián)系的文檔傾向于與同一查詢相關(guān)。顯然,通過聚類技術(shù)把查詢相關(guān)的網(wǎng)頁按照不同的主題分組呈現(xiàn)給用戶,可以使用戶更快的定位自己需要的信息。然而,傳統(tǒng)的文本聚類算法大多基于向量空間模型和簡單的無序詞的集合(Bag-of-Words)進行聚類,不能更好的利用網(wǎng)頁作為文本所擁有的自然語言的特點,也很難生成高質(zhì)量的類別標(biāo)簽,因此準(zhǔn)確性不高,且無法生成好的聚類描述信息幫助用戶迅速把握各個聚類內(nèi)的主題內(nèi)容。

    為解決這一問題,研究者提出了后綴樹聚類算法(Suffix Tree Clustering)[3]和Lingo[4]等結(jié)合自然語言特點的聚類算法,這些算法提高了聚類的精度,更重要的是生成了描述性較好的標(biāo)簽。不過基于算法復(fù)雜性考慮,這兩類算法都只是針對網(wǎng)頁摘要進行處理,聚類效果難以獲得更大的提高。解決這種算法復(fù)雜性與聚類性能之間的矛盾的關(guān)鍵在于尋找一種更加準(zhǔn)確的網(wǎng)頁文本表示方法。頻繁項集是源自數(shù)據(jù)挖掘領(lǐng)域的概念,簡單地講就是在超過一定數(shù)目的網(wǎng)頁中出現(xiàn)的詞及詞的集合。頻繁項集的挖掘能很好的降低網(wǎng)頁維數(shù),并且在全文級別上挖掘出對聚類有貢獻(xiàn)的詞及詞的集合。最大頻繁項集是那些所有超集都不是頻繁項集的頻繁項集。采用最大頻繁項集能大大降低頻繁項集的規(guī)模,因此可以作為網(wǎng)頁集合的更緊湊表示。同時,基于最大頻繁項集的聚類也有可能進一步降低處理時間。正是基于這一概念,本文提出了一種基于網(wǎng)頁最大頻繁項集的查詢結(jié)果在線聚類算法。通過改進最大頻繁項集的挖掘算法,使其可以用于搜索引擎查詢結(jié)果的在線聚類。新的算法利用網(wǎng)頁集合對頻繁項集的共享關(guān)系進行聚類,同時對每個類別生成清晰明確的標(biāo)簽加以描述。實驗結(jié)果表明:基于最大頻繁項集的聚類降低了基于全文的聚類時間,同時聚類精度提高了15%左右。

    本文后續(xù)章節(jié)組織如下:第2節(jié)介紹了搜索引擎在線聚類的相關(guān)研究。第3節(jié)介紹了最大頻繁項集挖掘算法。第4節(jié)對基于最大頻繁項集的聚類算法進行了詳細(xì)描述。第5節(jié)介紹了類別標(biāo)簽詞的生成算法。最后給出了實驗及結(jié)果,并對研究工作做出總結(jié)和展望。

    2 相關(guān)研究

    傳統(tǒng)的文本聚類算法基于向量空間模型,將文檔當(dāng)作詞的集合,根據(jù)TFIDF計算每個詞的權(quán)重,以此計算文檔間的相似性。很多聚類算法都已經(jīng)被應(yīng)用到文本聚類中,比如 K-Means[5],BisetKMeans[5-6],遺傳算法[7],自組織映射算法(SOM)[8]等。但由于沒有利用文檔自身的自然語言的特點,傳統(tǒng)的聚類算法準(zhǔn)確度不高,且難以生成高質(zhì)量的標(biāo)簽信息。

    1997年Zamir和Etzioni[3]提出了后綴樹聚類算法(Su ffix Tree Clustering,STC),突破了傳統(tǒng)文本聚類算法應(yīng)用到文本聚類問題中的局限與不足。隨后研究者們提出了很多基于后綴樹算法的改進,比如,文獻(xiàn)[9]提出了ESTC(Ex tended STC)算法通過類別選擇來改進后綴樹聚類效果,文獻(xiàn)[10]提出GAHC(Group-average Agglomerative Hierarchical Clustering)算法,通過改進相似度度量來提高基于后綴樹的聚類效果。各種改進算法完善后綴樹聚類算法,提高了聚類精度,但是基于后綴樹的聚類算法在聚類應(yīng)用(特別是中文聚類應(yīng)用中)中有一些問題,主要包括:1)后綴樹模型是針對英語提出來的,對中文不能有效地提取關(guān)鍵短語,容易生成沒有意義的短語,比如“限公司”,“士學(xué)位”等;2)后綴樹聚類算法目前的應(yīng)用主要是基于網(wǎng)頁摘要進行聚類,由于不能對網(wǎng)頁進行降維,后綴樹算法基于網(wǎng)頁正文的聚類時間復(fù)雜度較高,難以滿足在線聚類的要求,所以聚類精度的提高有瓶頸。

    Lingo算法[4]著重于類別標(biāo)簽的提取,期望通過描有意義的標(biāo)簽來表達(dá)查詢返回結(jié)果中包含的核心概念,然后通過奇異值分解將網(wǎng)頁指派到不同標(biāo)簽對應(yīng)的集合中。Lingo算法優(yōu)勢在于標(biāo)簽的提取,同時也取得較高的聚類精度。但由于中文語言的特點,Lingo算法標(biāo)簽提取的效果不夠理想。

    將頻繁項集的思想用到網(wǎng)頁(文本)聚類中的動機在于同一主題的網(wǎng)頁在描述主題時會用到一些共同的詞語,比如對于“金剛”這一查詢詞,描述變形金剛動畫片中的網(wǎng)頁,“動畫,變形,科幻,擎天柱”等詞會經(jīng)常被用到;描述金剛石方面的網(wǎng)頁,“金剛石,磨料,砂輪,材料”等詞經(jīng)常出現(xiàn);而描述吉利公司金剛汽車的網(wǎng)頁,“汽車,價格,市場,吉利”等頻繁出現(xiàn)。反過來講,包含相同頻繁項集的網(wǎng)頁傾向于屬于同一類別。在基于頻繁項集的文檔聚類方面,FTC算法(Frequent T rem-based Clustering)[11]挖掘文檔集合的所有頻繁項集,由這些頻繁項集生成候選簇,通過一種貪心策略,每次選擇與其他候選簇重疊程度最小的簇來覆蓋文檔集合,直到所有文檔被覆蓋。文獻(xiàn)[12]則利用挖掘出來的最大頻繁項設(shè)定聚類的初始質(zhì)心,然后進行 K-Means聚類,提高了KM eans算法的聚類效果。FIHC(Frequent Item setbased Hierarchical Clustering)算法[13]先是生成每個頻繁項集對應(yīng)的簇,然后根據(jù)文檔與簇之間的緊密程度將文檔指派到最緊密的簇中,最后對簇進行選擇合并生成層次化的簇結(jié)構(gòu),同時依據(jù)頻繁項生成簇的標(biāo)簽。

    雖然與文檔聚類有很大的相似性,但搜索引擎查詢結(jié)果聚類并不等同于文檔聚類,事實上,查詢結(jié)果聚類是一種實時,動態(tài)的聚類,并且要求產(chǎn)生具有導(dǎo)航作用的標(biāo)簽。之前頻繁項集方面的聚類算法的時間復(fù)雜度較高不能滿足用戶在線需求,另外其產(chǎn)生的標(biāo)簽僅僅是頻繁項或者頻繁項的組合,可讀性不高,所以并不適用于查詢結(jié)果的在線聚類。

    另外,查詢結(jié)果聚類不同于文檔聚類還在于其處理的數(shù)據(jù)集是與用戶查詢詞相關(guān)的網(wǎng)頁集合,查詢詞本身對數(shù)據(jù)集具有很大指導(dǎo)作用。文獻(xiàn)[14]提出利用查詢詞來指導(dǎo)聚類過程,從基類的生成到合并,拆分,到最后的簇的選擇,取得了很好的聚類效果。本文借鑒了這種思想,在我們的聚類算法中利用了查詢詞本身對聚類的指導(dǎo)作用。

    目前大部分搜索引擎查詢結(jié)果聚類算法的研究是基于網(wǎng)頁摘要的,Zamir[15]研究表明基于全文的聚類要比基于摘要的聚類更準(zhǔn)確,但處理時間較長。經(jīng)過對頻繁項集挖掘算法的研究,我們發(fā)現(xiàn)在頻繁項集的挖掘中,只挖掘最大頻繁項集可以顯著降低挖掘時間;另一方面,長度越長的頻繁項集表達(dá)的意義越具體,對聚類的價值越大。因此通過挖掘全文最大頻繁項集進行聚類是一種有效利用全文內(nèi)容聚類的途徑。

    3 最大頻繁項集的挖掘

    3.1 頻繁項集的基本概念

    為了采用最大頻繁項集來作為基于全文的網(wǎng)頁在線聚類算法的基本特征,本節(jié)首先簡要給出頻繁項集的基本概念,有關(guān)頻繁項集的更詳細(xì)介紹請參見文獻(xiàn)[16]。

    定義1 設(shè) I={I1,I2,…,In}是n個不同項的集合。如果對一個集合X,有X?I且k=|X|,則X稱為k項集,或者簡單的稱為項集,X的長度為包含項的數(shù)目,即k。

    定義2 記D={T1,T2,…,Tm}是m個不同事務(wù)的集合,其中Ti?I。對于給定事務(wù)集合D,定義X的支持度為D中出現(xiàn)X的事務(wù)的數(shù)目,記為Sup(X)。用戶可以自己定義一最小支持度計數(shù)m in_supp,可以是絕對計數(shù),也可以是相對計數(shù)。

    定義3 給定事務(wù)集D和最小支持度計數(shù)m in_supp,對于項集X ?I,若Sup(X)>min_supp,則稱X為D中的頻繁項集,包含此頻繁項集的事務(wù)集合稱為頻繁項集覆蓋的事務(wù)集合。

    定義4 給定事務(wù)集D和最小支持度計數(shù)m in_supp,對于項集X ?I,若Sup(X)>min_supp,且對?(Y?I∧X?Y),均有 Sup(Y)

    在本文中,事務(wù)集即查詢返回結(jié)果的網(wǎng)頁集合,其中的每一篇網(wǎng)頁即一個事務(wù)。項集就是網(wǎng)頁中包含詞語的集合,網(wǎng)頁中的詞即事務(wù)中的項。

    最大頻繁項集是本文聚類算法的基礎(chǔ),下面將介紹挖掘最大頻繁項集采用的方法。

    3.2 最大頻繁項集挖掘算法

    頻繁項集的挖掘常用的算法是FP-Grow th算法[17]。算法首先構(gòu)造一種稱為FP-Tree(Frequent Pattern Tree)的線索樹形結(jié)構(gòu)存儲集合中的事務(wù)。FP-Tree的構(gòu)造首先要統(tǒng)計所有項的支持度,將支持度超過最小支持度計數(shù)的項按其支持度的降序排列在FP-T ree的Header table中;然后算法每次讀進一個事務(wù),將其映射到FP-T ree中的路徑中。圖1中給出了一個FP-Tree的例子(最小支持度為2),其中(a)為事務(wù)集合,(b)為構(gòu)造成的FP-Tree。圖中實線表示事務(wù)映射到樹中的路徑,虛線從Header Table開始指向項在樹中出現(xiàn)的位置,節(jié)點中的計數(shù)表示從root節(jié)點開始到當(dāng)前節(jié)點結(jié)束的路徑對應(yīng)項集的支持度,比如節(jié)點“品牌:2”表示{汽車,吉利,品牌}這一項集的支持度為2。

    構(gòu)造完 FP-Tree之后,FP-Grow th算法從Header table中最后一個項開始對每一個項,計算它的條件狀態(tài)基(Conditionalpattern base),再由條件狀態(tài)基構(gòu)造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當(dāng)前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細(xì)挖掘過程請參考文獻(xiàn)[17]。

    圖1 一個FP-Tree的例子(m in_supp=2)

    圖2 項“變形”的條件狀態(tài)基及對應(yīng)的FP-Tree

    最大頻繁項集的挖掘,要對挖掘出來的頻繁項集進行最大頻繁項集的判斷。比如現(xiàn)在已挖掘出最大頻繁項集{電影,變形,戰(zhàn)爭},而頻繁項集{電影,變形}是{電影,變形,戰(zhàn)爭}的子集,則不是最大頻繁項集。這種子集判斷的計算復(fù)雜度較高。為解決該問題,我們借鑒了Gosta等人提出的FPMax算法的基本思想[18]。FPMax算法的核心在于提出了一種M FI-Tree(Maximal Frequent Item-Tree)的數(shù)據(jù)結(jié)構(gòu),用來記錄以挖掘出的最大頻繁項集,降低了子集判斷的時間。

    3.3 面向查詢結(jié)果聚類應(yīng)用的改進

    上述最大頻繁項集的挖掘算法應(yīng)用到查詢結(jié)果聚類中的不足在于,對于某一給定的最小支持度計數(shù)(絕對計數(shù)10或者相對計數(shù)5%),不同的查詢詞的挖掘時間有較大差異。降低支持度計數(shù)會造成部分查詢詞的頻繁項集規(guī)模較小,提高支持度計數(shù)則造成部分查詢詞挖掘時間過長不能滿足用戶在線查詢的需要。本文通過取支持度最高的前N個詞,然后將第N個詞的支持度設(shè)為最小支持度計數(shù),使得不同查詢詞挖掘時間的差異顯著降低,更好地適用于查詢結(jié)果聚類。另一方面,不同于經(jīng)典聚類應(yīng)用中的標(biāo)準(zhǔn)數(shù)據(jù),網(wǎng)頁集合中包含的詞是語言學(xué)的基本單位,不同詞性的詞在表征文本的時候其貢獻(xiàn)不同[19]。本算法中為了提高聚類速度,我們只選擇名詞,動詞,形容詞等實詞,而將連詞,代詞,助詞等去掉。我們進行實驗發(fā)現(xiàn),進行詞性選擇后網(wǎng)頁平均長度降到之前的50%左右,聚類精度保持在95%左右。

    4 基于最大頻繁項集的查詢結(jié)果聚類算法

    在挖掘出頻繁項集之后,聚類途徑有兩種選擇:第一,用頻繁項集替代詞構(gòu)造網(wǎng)頁的特征向量,使用傳統(tǒng)的基于向量空間模型的聚類算法;第二,通過頻繁項集覆蓋網(wǎng)頁集合的關(guān)系進行聚類。前者的時間復(fù)雜度已被證明不能滿足在線聚類的需要,同時受限于傳統(tǒng)聚類算法的缺陷,聚類效果不理想。本文采用第二種途徑。

    算法[13]也采用了第二種聚類途徑,但它基于所有頻繁項集生成簇,然后依據(jù)統(tǒng)計信息對生成的簇進行評價,選擇出來最后的簇集合。一方面,由于頻繁項集的規(guī)模較大,相比于最大頻繁項集需要更多的挖掘時間。另一方面,相比于頻繁項集,最大頻繁項集是緊湊的表示,且長度較大,對聚類更有意義。例如,查詢詞“金剛”的一個最大頻繁項集{變形,電影,戰(zhàn)爭,汽車,擎天柱},表述了《變形金剛》電影這個方面的主題,其覆蓋的網(wǎng)頁集合相關(guān)性較大。顯然,這個最大頻繁項集的所有非空子集都是頻繁項集(共31個),比如{戰(zhàn)爭,汽車},其覆蓋的網(wǎng)頁集合的主題過于寬泛,可能包含多個類別的網(wǎng)頁。

    本文的聚類算法正是基于上面的想法,利用網(wǎng)頁共享最大頻繁項集的關(guān)系進行聚類。

    為后文描述方便,我們定義如下:記D={T1,T2,…,Tm}為所有事務(wù)的集合,在本文中即查詢網(wǎng)頁的集合。記I={I1,I2,…,In}為所有項的集合,即網(wǎng)頁集合中包含詞的集合。記Sm={M 1,M 2,…,Mn}為挖掘得到的所有最大頻繁項集的集合,一個最大頻繁項集Mi覆蓋的網(wǎng)頁集合(即包含這個頻繁項集的網(wǎng)頁集合)記做Pi,Pi?D。聚類的過程就是把網(wǎng)頁集合分成若干個簇,記C={C1,C2,…,Cl}為簇的集合,一個簇Ci包含的網(wǎng)頁集合記做CPi,CPi?D,包含的最大頻繁項集的集合記做CMi,CMi?Sm,包含的頻繁項的集合CIi,CIi?I(注:簇包含頻繁項的集合不是頻繁項集,是簇中所有最大頻繁項集包含頻繁項的并集,本身不是頻繁項集)。記Dc={T1,T2,…,Tk}為D中已被簇覆蓋的網(wǎng)頁集合。

    下面介紹聚類算法的核心步驟:Step 1 簇的生成

    頻繁項集的長度越長,其包含的詞越多,越能表達(dá)一個具體的話題,因此我們優(yōu)先選擇長的頻繁項集生成簇。

    將Sm中的頻繁項集按其長度排序,依次選擇最長的頻繁項集M i生成簇Ci,Ci包含的網(wǎng)頁集合CPi即Mi覆蓋的網(wǎng)頁集合Pi,記錄已被簇覆蓋的網(wǎng)頁集合D c=Dc∪Pi。為了提高簇生成的速度,減少后續(xù)合并過程中的傳遞效應(yīng),要對Sm中的頻繁項集做一步過濾。如果一個頻繁項集Mk覆蓋的網(wǎng)頁集合P k?Dc,說明Pk中所有網(wǎng)頁已被簇覆蓋過,不生成Mk對應(yīng)的簇Ck。

    Step 2 簇的合并

    初始生成的簇數(shù)量過多,且有很多重疊,需要進行合并生成最后的簇。簇的合并即把相似度較高的簇合并為一個,通常簇的相似度通過包含網(wǎng)頁集合的相似度來判斷?;陬l繁項集的聚類算法中簇包含的頻繁項是簇的重要特征,我們可以結(jié)合包含頻繁項的相似度進行簇的相似度計算,提高精確度。本文提出公式(1)進行簇相似度的計算:

    簇Ci與Cj的相似度記做Sim(Ci,Cj),包含網(wǎng)頁的相似度記為SimPij,包含頻繁項的相似度記為Sim Iij。

    Sim(Ci,Cj)越大,簇Ci與Cj相似度越高,越傾向于合并。

    這種依據(jù)集合的關(guān)系運算計算簇能夠?qū)Χ鄶?shù)簇正確合并,但仍有不足:第一,參數(shù)敏感,闕值的設(shè)定對不同的數(shù)據(jù)集有很大偏差;第二,傳遞效應(yīng),比如A與B相似,B與C相似,會把A,B,C三者合并,然而A和C可能不相似 。針對這一問題,算法深入結(jié)合簇中包含頻繁項的特征就行判斷。利用簇中頻繁項在另一簇中出現(xiàn)的頻率指導(dǎo)簇合并的判斷。

    共現(xiàn)率是指簇Ci中的頻繁項在簇包含的網(wǎng)頁中的平均出現(xiàn)次數(shù)。通過對方簇中網(wǎng)頁對自己簇中的頻繁項的“認(rèn)可度”指導(dǎo)簇的合并。本文引入公式(2),定義簇Ci在簇Cj中的共現(xiàn)率cf ij(簇 Cj在簇Ci中的共現(xiàn)率同理):

    其中t f(I,P)為項I在網(wǎng)頁P中出現(xiàn)的次數(shù)。

    共現(xiàn)率高說明簇之間包含網(wǎng)頁內(nèi)容上相近。

    結(jié)合共現(xiàn)率的概念,本文設(shè)計簇合并的判斷算法,在算法實現(xiàn)中,對于簇的相似度設(shè)定兩個闕值,強約束闕值Ts比如(比如1.1),弱約束闕值Tw(比如0.8),對共現(xiàn)率設(shè)定一個闕值Tc f(比如3)。算法如下:

    ·如果Sim(Ci,Cj)大于Ts,合并簇;

    ·如果Sim(Ci,Cj)小于Tw,不合并簇;

    ·如果Sim(Ci,Cj)在 Ts與Tw 之間,計算簇之間的共現(xiàn)率c fij,如果cfij大于Tc f,合并簇,否則不合并。

    合并過程將滿足上面條件的簇進行合并,生成最終簇的集合。對于可以合并的簇,將簇Cj對應(yīng)的CPj,CMj,CIj合并到簇Ci對應(yīng)的CPi,CMi,CIi中,然后將從簇Cj集合中刪除。

    Step 3 簇的凈化

    聚類可以分為硬聚類和軟聚類,硬聚類要求一個網(wǎng)頁只能屬于一個類別,軟聚類允許一個網(wǎng)頁屬于多個類別,相對于硬聚類能更好地反映現(xiàn)實情況。但由于簇合并過程的傳遞效應(yīng),簇中會包含一些不相關(guān)的網(wǎng)頁。如何識別簇中的網(wǎng)頁是無關(guān)網(wǎng)頁還是多類別網(wǎng)頁是關(guān)鍵問題。本文中無關(guān)網(wǎng)頁的識別是通過網(wǎng)頁相對簇的支持度判斷的。為此本文定義網(wǎng)頁P相對簇Ci的支持度如下:

    根據(jù)實驗我們可以獲得一個經(jīng)驗值,當(dāng)Supp(P,Ci)小于這一值時,認(rèn)為是簇?zé)o關(guān)網(wǎng)頁,將其從簇中刪除。

    基于頻繁項集的聚類,會有部分網(wǎng)頁因為未包含任何頻繁項集,而沒有被簇覆蓋,需要將這部分網(wǎng)頁分類到已有的簇中。

    5 簇標(biāo)簽的生成

    查詢返回網(wǎng)頁聚類的應(yīng)用中簇的標(biāo)簽詞是對簇內(nèi)容的標(biāo)示,指導(dǎo)用戶瀏覽結(jié)果和進一步查詢,有著非常重要的意義。

    基于頻繁項集的聚類算法生成的簇中,頻繁項是標(biāo)簽詞的候選。例如對于查詢詞“金剛”,生成的一個簇包含的頻繁項集{價格汽車 上市 吉利自主圖片轎車售價對比車型最低報價}。一方面具有較高的描述能力和可讀性的項(即詞)適合做簇的標(biāo)簽詞語,比如上面例子中“汽車”;另一方面,短語相對單個詞有更好的描述能力,為用戶查詢提供更好的提示,比如“吉利汽車”,“變形金剛”。

    本文的標(biāo)簽生成算法就從這兩個方面挖掘標(biāo)簽詞或短語,

    第一,選擇對簇內(nèi)容最有代表性的項??紤]的因素有:

    a.項的詞性。名詞比動詞,形容詞更適合做標(biāo)簽,同時動詞性名詞,形容詞性名詞也有較好的描述能力。根據(jù)項的詞性,選擇名詞,動詞性名詞及形容詞性名詞做標(biāo)簽候選;

    b.項在簇包含頻繁項集中的支持度。即有多少個頻繁項集包含這個項。項被越多的頻繁項集包含就越能表達(dá)簇的內(nèi)容;

    c.項在簇中包含網(wǎng)頁集合的統(tǒng)計數(shù)據(jù),即項在網(wǎng)頁集合的出現(xiàn)的頻率(TF)及項的逆文檔頻率(IDF)。這是借鑒傳統(tǒng)文本表征模型統(tǒng)計詞權(quán)重時采用的方法。

    綜上所述,本文引入公式(5)定義簇Ci中項Ij的標(biāo)簽得分:

    其中 posScore(W j)為項 W j詞性的得分,t fid f(Wj,Pk)為項Wj在網(wǎng)頁Pk中TFIDF值。

    第二,通過詞語間的順序關(guān)系,挖掘短語性標(biāo)簽。網(wǎng)頁不僅是詞的組合,詞語間順序出現(xiàn)的關(guān)系也是表達(dá)網(wǎng)頁內(nèi)容的重要特征,比如說“金剛”這個詞進行聚類后,其中一個簇是變形金剛動畫片相關(guān)的網(wǎng)頁,“變形”是其中一個很重要的標(biāo)簽詞,直接用“變形”做標(biāo)簽比較生硬。通過挖掘標(biāo)簽詞與查詢詞緊鄰出現(xiàn)的關(guān)系,可以生成可讀性更好的標(biāo)簽,比如“變形金剛”。短語標(biāo)簽的挖掘是通過統(tǒng)計的方法獲得的,具體做法:如果兩個詞的順序組合在簇中半數(shù)以上的網(wǎng)頁摘要中出現(xiàn),則可做為短語標(biāo)簽。

    綜上所述,本文算法標(biāo)簽詞生成算法步驟如下:

    1)選擇詞性為名詞,動詞性名詞,形容詞性名詞的項做標(biāo)簽候選;

    2)根據(jù)公式(7)計算項對于簇的標(biāo)簽得分;

    3)從標(biāo)簽候選中選擇得分最高的項開始,檢查是否可與查詢詞組成短語標(biāo)簽。如果可以,則以此短語標(biāo)簽做簇的標(biāo)簽;否則把項從標(biāo)簽候選中刪除,重復(fù)步驟3),如果標(biāo)簽候選為空,轉(zhuǎn)到步驟4);

    4)如果所有項都不能與查詢詞組成短語,選擇得分最高的兩個項做類別標(biāo)簽。

    這里采用的簇標(biāo)簽生成算法不僅有效地利用了全文挖掘的深層次內(nèi)容,還借鑒了后綴樹算法生成標(biāo)簽的思想,生成質(zhì)量更高的標(biāo)簽,對基于頻繁項集的文本聚類標(biāo)簽生成算法是一個重要改進。

    6 實驗結(jié)果與分析

    6.1 實驗環(huán)境與實驗數(shù)據(jù)

    實驗所用機器配置為Intel(R)Pentium D CPU 3.00GH z,2G內(nèi)存,操作系統(tǒng)為 Linux Fedora Core 4。

    實驗所用數(shù)據(jù)是選擇8個有查詢歧義的查詢詞對應(yīng)的數(shù)據(jù)集。對每個查詢詞取得相應(yīng)的百度以及Google返回結(jié)果的前100條,取并集,然后對網(wǎng)頁進行分詞和詞性標(biāo)注,建立索引后保留網(wǎng)頁的分詞結(jié)果以備后面算法需要。上述工作離線完成,為在線查詢聚類準(zhǔn)備數(shù)據(jù)。

    我們對網(wǎng)頁集合進行人工的類別標(biāo)注,每個查詢詞網(wǎng)頁集合標(biāo)注了若干類別。

    由于K-M eans算法需要設(shè)定k值,我們分別設(shè)定4次K值(5,6,7,8)進行實驗,對每個查詢?nèi)?次實驗結(jié)果中F值最高的做為最終結(jié)果。STC算法,Lingo算法,MFIC算法自動生成不定數(shù)目的類別,同時會有一些只包含2,3篇網(wǎng)頁的簇,而實際應(yīng)用中通常會只顯示包含網(wǎng)頁較多的簇,結(jié)合實際應(yīng)用我們把包含網(wǎng)頁數(shù)目小于5的類歸為其他類。實驗中我們通過調(diào)整參數(shù)使得這三種算法的類別數(shù)目分布在5~10范圍內(nèi)。

    6.2 聚類算法時間

    本文實驗比較了基于全文的M FIC算法和K-Means算法,同時比較了基于摘要的后綴樹聚類算法(STC)的聚類時間(圖3)。由于STC對網(wǎng)頁全文聚類時間太長(實驗數(shù)據(jù)顯示在10秒以上)不能用做在線聚類,在此不做詳細(xì)展示。另外由于Lingo算法使用的是開源的Java實驗,其他算法是C++實現(xiàn),這里沒做比較。

    從圖中看出M FIC聚類時間優(yōu)于K-Means聚類的時間。由于M FIC聚類是基于網(wǎng)頁全文,聚類時間長于基于摘要的STC在預(yù)料之中。實驗結(jié)果表明MFIC聚類時間基本控制在2秒左右,可以滿足在線聚類需要。為了進一步提高系統(tǒng)反應(yīng),在具體應(yīng)用中可以通過設(shè)置聚類結(jié)果緩存,減少用戶等待時間。

    圖3 聚類算法時間對比

    6.3 聚類評測標(biāo)準(zhǔn)

    檢索結(jié)果聚類系統(tǒng)的評價不同于一般的文本聚類評價,除了對文檔在類別中的分布進行評價外,還需要對類別標(biāo)簽進行評價。其中對文檔在類別中的分布進行評價,常用的兩個指標(biāo)為:純度[20]與F值[6]。

    對于聚類后形成的任意類別r,聚類的純度定義為:

    整個聚類結(jié)果的純度定義為:

    其中n是預(yù)定義類別的個數(shù),k是聚類類別的個數(shù),nr為聚類類別r中的文檔個數(shù),是屬于預(yù)定義類別i且被分配到聚類類別r的文檔個數(shù)。

    F值的定義則參照信息檢索的評測方法,將每個聚類結(jié)果看作是搜索的結(jié)果,從而對于最終的某一個聚類類別r和原來的預(yù)定類別i有:

    其中ni是預(yù)定義類別i的文檔個數(shù),其他定義同前。則聚類r和類別i之間的FMeasure值計算如下:

    聚類結(jié)果總的F值為:

    對類別標(biāo)簽進行評價常用的方法是P@N[20],P@N定義為前N個結(jié)果中的精度,即:

    其中R是聚類算法返回的前N個標(biāo)簽詞集合,C是人工標(biāo)注的標(biāo)簽詞集合。

    6.4 聚類評測結(jié)果

    在純度的比較方面,M FIC算法純度明顯優(yōu)于其他算法(見圖4(a))。這跟MFIC算法的特點有關(guān):第一,MFIC算法通過最大頻繁項集確定簇,最大頻繁項集包含較多的頻繁項(比如,金剛這個查詢詞對應(yīng)的一個最大頻繁項集{電影導(dǎo)演上映 全球票房}),對網(wǎng)頁集合具有較高的區(qū)分度,共同包含一較長頻繁項集的網(wǎng)頁基本都屬于一個類別;第二,通過共現(xiàn)率概念的引入,提高了簇合并過程的精度。這一特點,使得M FIC算法能給用戶帶來更好的搜索體驗。比如金剛這一查詢詞生成了四個類別“變形金剛”,“吉利金剛”,“電影 劇情”,“金剛石”等,其中少數(shù)“電影 劇情”方面的網(wǎng)頁錯分到了“變形金剛”類中,其他類別包含的網(wǎng)頁幾乎全是類別相關(guān)的。

    STC通過將共享同一字串的網(wǎng)頁歸為一個類別,也能生成純度較高的類別,不過可能會產(chǎn)生較多的類別,類別的合并可依據(jù)的內(nèi)容較少,聚類精度會受影響[9]。Lingo算法首先尋找重復(fù)出現(xiàn)的,描述性強的標(biāo)簽,依據(jù)這些標(biāo)簽生成簇,然后通過奇異值分解將網(wǎng)頁劃分到簇中[4]。Lingo算法的純度值優(yōu)于STC算法,但由于效果較依賴于第一步中尋找出的標(biāo)簽,如果標(biāo)簽本身區(qū)分度差,該標(biāo)簽生成的簇的純度就會受影響。K-M eans算法因為對初始參數(shù)和噪音較為敏感,有時會造成聚類結(jié)果失衡,即生成的簇的大小差異很大,所以其聚類的純度明顯差于其他算法[22]。

    圖4 聚類算法純度和F值對比

    在F-M easure的比較上MFIC算法明顯優(yōu)于其他算法(見圖4(b))。K-M eans算法受初始參數(shù)影響較大,且對噪音敏感。查詢結(jié)果的聚類難以準(zhǔn)確的設(shè)置初始參數(shù),同時噪音信息較多,影響了K-Means的聚類效果,使得K-Means算法不適合用來做查詢結(jié)果的聚類,實驗數(shù)據(jù)也說明了這一點。

    STC算法和 Lingo算法因為只根據(jù)搜索引擎查詢結(jié)果中的摘要進行聚類,可靠性差,且受限于摘要的質(zhì)量,精確度不如MFIC算法。另外相對于Lingo算法,STC算法F值較差,原因在于僅僅根據(jù)摘要中的共享字符串來聚集查詢結(jié)果,會造成很多網(wǎng)頁未被任何挖掘出來的共享字符串覆蓋,使得這些網(wǎng)頁不能被正確的聚類;而Lingo算法,通過奇異值分解方法,即使網(wǎng)頁不包含相同詞,也可能被聚集到一起。

    MFIC算法相對與STC算法與Lingo算法的優(yōu)勢還在于算法的可改進性,因為其依據(jù)的是網(wǎng)頁全文內(nèi)容,在頻繁項集的選擇和類別的合并,凈化等過程可以采用嘗試很多算法來優(yōu)化整體效果。

    6.5 聚類標(biāo)簽效果

    聚類標(biāo)簽的評測我們采用的P@N方法。表1是對查詢詞標(biāo)注的類別:

    表1 人工標(biāo)注的類別標(biāo)簽詞

    我們分別對所選聚類算法的每次查詢計算P@3,P@5,P@8值,取8個查詢詞的平均值做為評價標(biāo)簽質(zhì)量的依據(jù),最終結(jié)果見下表。

    表2 聚類算法類別標(biāo)簽P@10值比較

    由于M FIC算法基于全文且考慮了多種因素,挖掘出的標(biāo)簽更能表征網(wǎng)頁集合的內(nèi)容與主題,比如“歷史” 、“電腦” 、“小說”等,這是STC 算法和Lingo算法較難挖掘的。

    STC和Lingo算法擅長挖掘頻繁出現(xiàn)的字串,即短語標(biāo)簽,比如“霸王條款”、“變形金剛”、“詹姆斯”,而本文的算法也借鑒這種思想進行了改進,挖掘標(biāo)簽詞和查詢詞之間的順序關(guān)系,可以生成短語性標(biāo)簽,改進了基于頻繁項集聚類的標(biāo)簽生成。改進后的標(biāo)簽挖掘算法可以挖掘出“變形金剛”、“霸王條款”形式的標(biāo)簽,然而由于M FIC算法依賴分詞結(jié)果,對于詞典中不存在的詞(比如“詹姆斯”)無法生成標(biāo)簽。

    7 結(jié)論

    本文提出了一種基于全文最大頻繁項集的搜索引擎返回結(jié)果聚類算法。首先我們研究了頻繁項集的挖掘算法,結(jié)合FPMax算法對最大頻繁項集的挖掘進行了改進,提高了最大頻繁項集的挖掘速度。然后提出了一種基于最大頻繁項集聚類的算法M FIC。M FIC主要包括三步,(1)由挖掘出的最大頻繁項集生成簇;(2)結(jié)合頻繁項集的相似度和簇包含文檔集合的相似度進行簇的合并判斷;(3)最后對生成的簇提出了一種結(jié)合頻繁項集與詞語順序的標(biāo)簽生成算法。

    實驗結(jié)果表明MFIC算法聚類效果優(yōu)于其他算法,聚類時間優(yōu)于同樣基于全文的K-M eans算法,且能滿足在線聚類的需要。

    通過本文研究發(fā)現(xiàn),基于頻繁項集的聚類算法在全文聚類方面有較大優(yōu)勢,不僅能對網(wǎng)頁很好的降維,同時產(chǎn)生的頻繁項集可以做為標(biāo)簽的候選。另一方面基于頻繁項集的聚類算法還有許多可以改進的地方:第一,中間簇的合并過程,線性的合并不能很好的代表網(wǎng)頁之間的類別聯(lián)系,可以嘗試通過圖的模型進行簇的合并;第二,標(biāo)簽詞的生成,如何判斷識別較高概念層次的詞,生成更智能的標(biāo)簽也是一項有研究價值的課題。

    [1] Lan H uang.A Survey on Web Information Retrieval Technologies[EB/OL].ECSL Technical Report,State University of New York,2000.

    [2] C.J van Rijsbergen.In formation Retrieval[M].London:Butterw orths,1979.

    [3] Oren Zamir,O ren Etzioni.Web document clustering:A Feasibility Demonstration[C]//Research and Development in In formation Retrieval,1998:46-54.

    [4] Stanislaw Osinski,Jerzy Stefanowski,and Dawid Weiss.Lingo:Search Results Clustering A lgorithm Based on Singular Value Decomposition[C]//Proceedings o f the International IIS:Intelligent In formation Processing and Web M ining Conference,Advances in SoftCom puting,2004:359-368.

    [5] Liping Jing,Michael K.Ng,and Joshua Zhexue H uang.An Entropy Weighting k-M eans A lgorithm for Subspace Clustering of H igh-Dimensional Sparse Data[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1026-1040.

    [6] M ichael Steinbach,George Karypis,Vipin Kumar.A Comparison of Document Clustering Techniques[EB/OL].Technical Report,University of M innesota,2000.

    [7] Wei Song;Soon Cheol Park.Genetic algorithm-based tex t clustering technique:Automatic evolution of clustes with high efficientcy[C]//Seventh International Conference on Web-Age Information Management Workshops.H ong Kong 2006:17-17.

    [8] Richard Freeman,Hu jun Yin.Self-Organising M aps for Hierarchical Tree V iew DocumentClustering Using Contextual In formation[C]//Proceedings o f the IEEE International Joint Con ference on Neural Networks.2002:123-128.

    [9] Daniel Crabtree,Xiaoying Gao,Peter Andreae.Imp roving Web Clustering by Cluster Selection[C]//The 2005 IEEE/WIC/ACM International Conference on Web Intelligence.2005:172-178.

    [10] Hung Chim,Xiaotie Deng.A New Suffix T ree Sim ilarity Measure for Document Clustering[C]//World W ide Web Conference Comm ittee.2007:121-129.

    [11] Florian Beil,Martin Ester,Xiaow ei Xu,Frequent Term-Based Text Clustering[C]//Proceedings of ACM SIGKDD International Con ference on Know ledge Discovery and Data M ining.2002:436-442.

    [12] Ling Zhuang,Honghua Dai.A Maximal Frequent Itemset Approach For Web Document Clustering[C]//Proceedings of the Fourth International Conference on Computer and Information Technology.2004:970-977.

    [13] Benjam in C.M.Fung,Ke Wang,Martin Ester.H ierarchical Document Clustering Using Frequent Itemsets[C]//Proceedings of SIAM Internationa l Conference on Data M ining.2003:59-69.

    [14] Daniel Crabtree,Peter And reae,X iaoying Gao.Query Directed W eb Page Clustering[C]//Proceedings of the IEEE/W IC/ACM International Con ference on W eb Intelligence.2006:202-210.

    [15] O ren Zamir.Clustering Web Documents:A Phrase-Based Method for Grouping Search Engine Resu lts[D].PhD Thesis,University of Washington,1999.

    [16] Jiawei H an,H ong Cheng,Dong Xin,Xifeng Yan.Frequent pattern m ining:Current status and future directions.Data M ining and Know ledge Discovery[J].10th Anniversary Issue,2007,15(1):55-86.

    [17] Jiawei H an,Jian Pei,Yiwen Yin,Runying Mao.M ining Frequent PatternsW ithout Candidate Generation[C]//Proceeding o f Special Interest G roup on Management of Data.2000:1-12.

    [18] Gosta Grahne,Jianfei Zhu.High Performance M ining of M aximal Frequent Itemsets[C]//Proceedings of the 6th SIAM International Workshop on H igh Performance Data M ining.2003:311-337.

    [19] K rishna Kummamuru,Rohit Lotlikar,Shourya Roy.A H ierarchical Monothetic Document Clustering A lgorithm for Summarization and Brow sing Search Resu lts[C]//Proceedings of the 13th Internationa l Conference on W or ld Wide Web.2004:658-665.

    [20] Ying Zhao,George Karypis.Criterion Functions for Document Clustering:Experiments and Analysis[EB/OL].TechnicalReport,Department of ComputerScience,University of M innesota,2001,01-40.

    [21] Huajun Zeng,Qicai He,Zheng Chen,et al.Learn to cluster web search resu lts[C]//Proceedings of Sheffield SIGIR.2004:210-217.

    [22] Zhe Zhang,Junxi Zhang,H uifeng Xue.Imp roved K-means Clustering A lgorithm[J].Journal of Southeast University.2007,23(3):435-438.

    [23] 劉遠(yuǎn)超,王曉龍,等.文檔聚類綜述[J].中文信息學(xué)報,2006,20(3):55-62.

    [24] 趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學(xué)報,2007,21(2):58-62.

    [25] 邱志宏,宮雷光.利用上下文提高文本聚類的效果[J].中文信息學(xué)報,2007,21(6):109-113.

    [26] 李紅梅,丁振國,周水生,等.搜索引擎中的聚類瀏覽技術(shù)[J].中文信息學(xué)報,2008,22(3):56-63

    [27] 駱雄武,萬小軍,楊建武,等.基于后綴樹的W eb檢索結(jié)果聚類標(biāo)簽生成方法[J].中文信息學(xué)報,2009,23(2):83-88.

    猜你喜歡
    項集類別網(wǎng)頁
    基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
    電子測試(2015年18期)2016-01-14 01:22:58
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
    卷宗(2014年5期)2014-07-15 07:47:08
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    10個必知的網(wǎng)頁設(shè)計術(shù)語
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    一種頻繁核心項集的快速挖掘算法
    計算機工程(2014年6期)2014-02-28 01:26:12
    聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
    草草在线视频免费看| 老熟妇乱子伦视频在线观看| 欧美日韩一级在线毛片| 变态另类丝袜制服| 婷婷精品国产亚洲av| 欧美另类亚洲清纯唯美| 欧美黑人巨大hd| 国产av一区二区精品久久| 成人高潮视频无遮挡免费网站| 日韩欧美国产在线观看| 两性夫妻黄色片| 亚洲中文av在线| 国产精品影院久久| 亚洲成av人片在线播放无| 丰满人妻熟妇乱又伦精品不卡| 欧美成狂野欧美在线观看| 99在线人妻在线中文字幕| 国产一区二区在线观看日韩 | 啦啦啦观看免费观看视频高清| 美女 人体艺术 gogo| 听说在线观看完整版免费高清| 天天躁狠狠躁夜夜躁狠狠躁| 国产伦一二天堂av在线观看| 99热这里只有是精品50| 欧美日韩福利视频一区二区| 午夜福利在线观看吧| 亚洲无线在线观看| 午夜免费成人在线视频| 一本综合久久免费| 日韩欧美国产在线观看| 久久久国产成人精品二区| 亚洲国产欧美一区二区综合| 国产精品,欧美在线| 在线视频色国产色| 亚洲精品在线美女| 欧美日韩国产亚洲二区| 亚洲精品国产一区二区精华液| 高清毛片免费观看视频网站| 国产亚洲精品久久久久5区| 久久久水蜜桃国产精品网| 久久婷婷人人爽人人干人人爱| 成人国产一区最新在线观看| 精品福利观看| 久久 成人 亚洲| 三级毛片av免费| 欧美成人性av电影在线观看| 欧美黄色片欧美黄色片| 18禁观看日本| 欧美 亚洲 国产 日韩一| 亚洲精品美女久久久久99蜜臀| 亚洲乱码一区二区免费版| 精品国产亚洲在线| 少妇熟女aⅴ在线视频| 免费在线观看日本一区| 精品久久久久久久久久久久久| 亚洲人成伊人成综合网2020| 久久性视频一级片| 亚洲中文av在线| 日韩欧美一区二区三区在线观看| 日韩成人在线观看一区二区三区| 黄色 视频免费看| 国语自产精品视频在线第100页| 91九色精品人成在线观看| 中文在线观看免费www的网站 | 国产亚洲精品av在线| 观看免费一级毛片| 欧美极品一区二区三区四区| 高清毛片免费观看视频网站| 久久中文字幕人妻熟女| 18禁国产床啪视频网站| 亚洲真实伦在线观看| 日韩欧美 国产精品| 国产乱人伦免费视频| 亚洲成av人片在线播放无| 高潮久久久久久久久久久不卡| 伦理电影免费视频| 欧美日韩亚洲国产一区二区在线观看| 十八禁人妻一区二区| 69av精品久久久久久| 亚洲av成人av| 日韩成人在线观看一区二区三区| 久久久久久九九精品二区国产 | 丰满人妻一区二区三区视频av | 熟女电影av网| 久久久久久久久中文| 欧美一级a爱片免费观看看 | 又粗又爽又猛毛片免费看| 欧美不卡视频在线免费观看 | 香蕉av资源在线| 国产一区二区在线观看日韩 | 日韩欧美 国产精品| 午夜日韩欧美国产| 国产精品久久电影中文字幕| 日本一区二区免费在线视频| 别揉我奶头~嗯~啊~动态视频| 欧美日韩福利视频一区二区| 99riav亚洲国产免费| 91成年电影在线观看| 欧美一区二区国产精品久久精品 | 久久久国产精品麻豆| 国产欧美日韩一区二区三| 国产不卡一卡二| 亚洲真实伦在线观看| 老司机靠b影院| 午夜激情av网站| 欧美精品亚洲一区二区| 婷婷亚洲欧美| 欧美 亚洲 国产 日韩一| 久久久久免费精品人妻一区二区| 免费一级毛片在线播放高清视频| 九色国产91popny在线| 婷婷丁香在线五月| 免费在线观看黄色视频的| 欧美zozozo另类| 成在线人永久免费视频| 国产午夜精品久久久久久| 国产av一区二区精品久久| 国产免费av片在线观看野外av| 国产高清激情床上av| av国产免费在线观看| 精品久久久久久,| 18禁观看日本| 亚洲精品中文字幕在线视频| 悠悠久久av| 国产精品亚洲一级av第二区| 免费无遮挡裸体视频| 国产精品一区二区精品视频观看| 亚洲欧美日韩东京热| 免费无遮挡裸体视频| 两性午夜刺激爽爽歪歪视频在线观看 | 日本一二三区视频观看| 九色成人免费人妻av| 高清毛片免费观看视频网站| 叶爱在线成人免费视频播放| 久久中文字幕一级| 国产亚洲精品久久久久5区| 亚洲熟妇熟女久久| 国产av不卡久久| 欧美日韩中文字幕国产精品一区二区三区| 亚洲国产欧洲综合997久久,| АⅤ资源中文在线天堂| 免费在线观看完整版高清| 久久天堂一区二区三区四区| 婷婷六月久久综合丁香| 999精品在线视频| 亚洲一区二区三区色噜噜| 欧美成人午夜精品| 妹子高潮喷水视频| 精品不卡国产一区二区三区| 中文资源天堂在线| 久久精品亚洲精品国产色婷小说| 99精品在免费线老司机午夜| 国产在线精品亚洲第一网站| 校园春色视频在线观看| 久久精品国产亚洲av高清一级| 天天添夜夜摸| 极品教师在线免费播放| a级毛片a级免费在线| 一个人免费在线观看的高清视频| 黄频高清免费视频| 亚洲九九香蕉| 18禁美女被吸乳视频| 亚洲九九香蕉| 午夜福利免费观看在线| 午夜亚洲福利在线播放| 亚洲狠狠婷婷综合久久图片| 中文字幕熟女人妻在线| 久久香蕉国产精品| 国产精品日韩av在线免费观看| 成人午夜高清在线视频| 99riav亚洲国产免费| 精品一区二区三区四区五区乱码| 久久午夜亚洲精品久久| 欧美中文日本在线观看视频| 无人区码免费观看不卡| 女警被强在线播放| 国产真实乱freesex| 免费看十八禁软件| 亚洲黑人精品在线| cao死你这个sao货| 日本a在线网址| 免费观看人在逋| 老汉色av国产亚洲站长工具| 久久国产乱子伦精品免费另类| 亚洲一区中文字幕在线| 欧美 亚洲 国产 日韩一| 国产乱人伦免费视频| 欧美不卡视频在线免费观看 | 美女免费视频网站| 2021天堂中文幕一二区在线观| 亚洲自拍偷在线| 国产主播在线观看一区二区| 精品国产美女av久久久久小说| 亚洲av电影在线进入| 性色av乱码一区二区三区2| 两个人视频免费观看高清| 免费搜索国产男女视频| 欧美色视频一区免费| 99久久国产精品久久久| 99热6这里只有精品| 男人的好看免费观看在线视频 | av超薄肉色丝袜交足视频| 搡老妇女老女人老熟妇| 亚洲国产欧美人成| 男女床上黄色一级片免费看| 亚洲国产欧美人成| 琪琪午夜伦伦电影理论片6080| 日本精品一区二区三区蜜桃| 亚洲精品国产精品久久久不卡| 香蕉丝袜av| 在线永久观看黄色视频| 天天躁夜夜躁狠狠躁躁| 特级一级黄色大片| 欧美日韩国产亚洲二区| 久久国产精品人妻蜜桃| 一本大道久久a久久精品| 老司机在亚洲福利影院| 亚洲欧美精品综合一区二区三区| 女同久久另类99精品国产91| 一区二区三区激情视频| 精品人妻1区二区| 色噜噜av男人的天堂激情| 亚洲国产看品久久| 久久天堂一区二区三区四区| 国产精品一区二区三区四区久久| 成在线人永久免费视频| 男女之事视频高清在线观看| 狠狠狠狠99中文字幕| 国产精品 国内视频| 欧美人与性动交α欧美精品济南到| 精品欧美一区二区三区在线| www.999成人在线观看| 欧美日本亚洲视频在线播放| 亚洲美女黄片视频| 日本 av在线| 丰满人妻一区二区三区视频av | 久久国产精品影院| av福利片在线观看| 妹子高潮喷水视频| 少妇人妻一区二区三区视频| 麻豆国产97在线/欧美 | 香蕉av资源在线| АⅤ资源中文在线天堂| 国内毛片毛片毛片毛片毛片| 日韩大码丰满熟妇| xxxwww97欧美| 欧美日韩亚洲国产一区二区在线观看| 观看免费一级毛片| 久久久久久久久免费视频了| 亚洲国产欧美网| 曰老女人黄片| 亚洲中文字幕一区二区三区有码在线看 | 国内揄拍国产精品人妻在线| 国产免费av片在线观看野外av| 国产欧美日韩一区二区三| 一二三四社区在线视频社区8| 国产91精品成人一区二区三区| 最近视频中文字幕2019在线8| 国产成人精品无人区| 亚洲精品久久国产高清桃花| 免费搜索国产男女视频| 夜夜夜夜夜久久久久| 熟女少妇亚洲综合色aaa.| 日日夜夜操网爽| 国产精品乱码一区二三区的特点| 亚洲欧美日韩东京热| 国产精品久久久久久久电影 | 一区福利在线观看| 国产主播在线观看一区二区| 亚洲av美国av| 女生性感内裤真人,穿戴方法视频| 国产成人精品无人区| 两性夫妻黄色片| 精品一区二区三区四区五区乱码| 国产v大片淫在线免费观看| 亚洲男人的天堂狠狠| 精品久久久久久久人妻蜜臀av| 91在线观看av| 小说图片视频综合网站| 国产一级毛片七仙女欲春2| 国产亚洲精品第一综合不卡| 亚洲男人天堂网一区| 天天添夜夜摸| 午夜福利在线观看吧| 国产单亲对白刺激| 亚洲欧洲精品一区二区精品久久久| 黄色毛片三级朝国网站| 激情在线观看视频在线高清| 欧美激情久久久久久爽电影| 黑人巨大精品欧美一区二区mp4| 身体一侧抽搐| 久久人人精品亚洲av| 久久天堂一区二区三区四区| 国产伦人伦偷精品视频| 欧美日韩福利视频一区二区| 校园春色视频在线观看| 看免费av毛片| 久久伊人香网站| 午夜日韩欧美国产| 国产黄片美女视频| 嫩草影视91久久| 亚洲美女黄片视频| 床上黄色一级片| 99国产精品一区二区蜜桃av| 免费在线观看黄色视频的| 精品欧美一区二区三区在线| 精品一区二区三区av网在线观看| 国产黄片美女视频| 大型黄色视频在线免费观看| av天堂在线播放| 91麻豆精品激情在线观看国产| 一级片免费观看大全| 黄频高清免费视频| tocl精华| 成人18禁高潮啪啪吃奶动态图| 看黄色毛片网站| 白带黄色成豆腐渣| 久久香蕉精品热| 91字幕亚洲| 男女下面进入的视频免费午夜| 在线永久观看黄色视频| 90打野战视频偷拍视频| 久久天躁狠狠躁夜夜2o2o| 亚洲人成伊人成综合网2020| 中文字幕高清在线视频| 久久国产精品影院| 国产成人系列免费观看| 亚洲熟妇熟女久久| 最近在线观看免费完整版| 国产成人av激情在线播放| 999久久久精品免费观看国产| 一区福利在线观看| 性色av乱码一区二区三区2| 男人的好看免费观看在线视频 | 国产黄色小视频在线观看| 国产69精品久久久久777片 | 国产97色在线日韩免费| 久久久国产成人精品二区| 久久久精品大字幕| 中文亚洲av片在线观看爽| 亚洲成人精品中文字幕电影| 欧美午夜高清在线| 99在线人妻在线中文字幕| 成在线人永久免费视频| 岛国视频午夜一区免费看| 亚洲欧美一区二区三区黑人| 18美女黄网站色大片免费观看| 久久久国产成人免费| 成年免费大片在线观看| 在线观看舔阴道视频| 久久久久精品国产欧美久久久| 国产亚洲精品一区二区www| 国产爱豆传媒在线观看 | a级毛片a级免费在线| www.www免费av| 女人被狂操c到高潮| 看免费av毛片| 亚洲国产精品合色在线| 国产高清视频在线播放一区| 日韩精品青青久久久久久| 久久精品aⅴ一区二区三区四区| 制服丝袜大香蕉在线| 成人av在线播放网站| 亚洲欧美精品综合久久99| 亚洲av五月六月丁香网| 亚洲真实伦在线观看| 长腿黑丝高跟| 欧美性猛交╳xxx乱大交人| 午夜福利视频1000在线观看| 黄片大片在线免费观看| 99久久精品国产亚洲精品| 一级毛片女人18水好多| 欧美激情久久久久久爽电影| 亚洲国产精品sss在线观看| 亚洲精品国产精品久久久不卡| 国产亚洲av嫩草精品影院| 国产av一区在线观看免费| 变态另类成人亚洲欧美熟女| 一进一出好大好爽视频| 性色av乱码一区二区三区2| 亚洲人成伊人成综合网2020| 免费观看精品视频网站| 亚洲精品在线观看二区| 久久久水蜜桃国产精品网| 又大又爽又粗| 色尼玛亚洲综合影院| 手机成人av网站| 久久国产乱子伦精品免费另类| 淫秽高清视频在线观看| 免费在线观看黄色视频的| 欧美日韩国产亚洲二区| 天天躁夜夜躁狠狠躁躁| 十八禁网站免费在线| 一本久久中文字幕| 啦啦啦观看免费观看视频高清| 国产一区二区三区视频了| 宅男免费午夜| 亚洲黑人精品在线| 国产片内射在线| 国语自产精品视频在线第100页| 久久精品人妻少妇| 久久久水蜜桃国产精品网| 日韩三级视频一区二区三区| 国产精品美女特级片免费视频播放器 | √禁漫天堂资源中文www| 久久精品国产综合久久久| 国产99白浆流出| 国产三级在线视频| 久久久久久大精品| 99久久精品国产亚洲精品| 婷婷亚洲欧美| 亚洲片人在线观看| 老熟妇仑乱视频hdxx| 国产免费男女视频| 国产一区二区在线观看日韩 | 国产亚洲精品第一综合不卡| 久久久久久大精品| 久久久久九九精品影院| 欧美黄色淫秽网站| 一二三四在线观看免费中文在| 国产高清激情床上av| 国产精品爽爽va在线观看网站| 亚洲成人久久爱视频| 精品久久久久久久人妻蜜臀av| 国产男靠女视频免费网站| 黄色视频不卡| 别揉我奶头~嗯~啊~动态视频| 国产99久久九九免费精品| 免费看a级黄色片| 在线观看美女被高潮喷水网站 | 国产久久久一区二区三区| 欧洲精品卡2卡3卡4卡5卡区| 少妇熟女aⅴ在线视频| 熟妇人妻久久中文字幕3abv| 老司机靠b影院| 听说在线观看完整版免费高清| 欧美另类亚洲清纯唯美| 精品一区二区三区视频在线观看免费| 午夜福利免费观看在线| 欧美黄色淫秽网站| 变态另类成人亚洲欧美熟女| 亚洲精品国产精品久久久不卡| 欧美一级毛片孕妇| 精品国产超薄肉色丝袜足j| 国产精品九九99| 欧美中文日本在线观看视频| 亚洲人成网站在线播放欧美日韩| 88av欧美| 午夜精品在线福利| 特级一级黄色大片| 久久中文看片网| 亚洲欧美激情综合另类| av免费在线观看网站| 女生性感内裤真人,穿戴方法视频| 国产97色在线日韩免费| 一边摸一边做爽爽视频免费| 19禁男女啪啪无遮挡网站| 欧美3d第一页| 欧美成人午夜精品| 国产午夜精品久久久久久| 女人被狂操c到高潮| 精品少妇一区二区三区视频日本电影| 亚洲精品美女久久av网站| 可以免费在线观看a视频的电影网站| 精品少妇一区二区三区视频日本电影| 一二三四社区在线视频社区8| 久久久久久亚洲精品国产蜜桃av| 亚洲专区国产一区二区| 19禁男女啪啪无遮挡网站| 成人亚洲精品av一区二区| 成人av一区二区三区在线看| 性色av乱码一区二区三区2| 一级毛片女人18水好多| 99re在线观看精品视频| 最近在线观看免费完整版| 99国产精品一区二区三区| 精品国产美女av久久久久小说| 在线看三级毛片| 999久久久精品免费观看国产| 免费观看人在逋| 国产精品一区二区免费欧美| 无遮挡黄片免费观看| 午夜免费激情av| 亚洲自偷自拍图片 自拍| 日韩欧美三级三区| 欧美中文日本在线观看视频| 色哟哟哟哟哟哟| 岛国在线免费视频观看| 99热这里只有是精品50| 一级a爱片免费观看的视频| 制服诱惑二区| 成人高潮视频无遮挡免费网站| 亚洲av成人av| 一卡2卡三卡四卡精品乱码亚洲| 日本免费一区二区三区高清不卡| 午夜福利在线观看吧| 久久久久免费精品人妻一区二区| 欧美黑人欧美精品刺激| 成熟少妇高潮喷水视频| 国产三级中文精品| www.www免费av| 无限看片的www在线观看| 一二三四社区在线视频社区8| 可以免费在线观看a视频的电影网站| 色哟哟哟哟哟哟| 夜夜爽天天搞| 91九色精品人成在线观看| 亚洲成人国产一区在线观看| 又爽又黄无遮挡网站| 亚洲成人久久性| 精品久久久久久久末码| 少妇熟女aⅴ在线视频| 变态另类丝袜制服| 中文字幕最新亚洲高清| 亚洲成人精品中文字幕电影| 日韩有码中文字幕| 国产视频一区二区在线看| 久久精品国产亚洲av高清一级| 精品久久久久久久人妻蜜臀av| 精品乱码久久久久久99久播| 色综合欧美亚洲国产小说| 国产精品影院久久| 日本一二三区视频观看| 日韩精品中文字幕看吧| 成在线人永久免费视频| 欧美最黄视频在线播放免费| 国产av一区二区精品久久| 成人国语在线视频| 国内少妇人妻偷人精品xxx网站 | 一二三四社区在线视频社区8| 蜜桃久久精品国产亚洲av| 亚洲自拍偷在线| 无人区码免费观看不卡| 一进一出抽搐gif免费好疼| a在线观看视频网站| 欧美日韩精品网址| av在线天堂中文字幕| 天堂av国产一区二区熟女人妻 | 99国产综合亚洲精品| 久久 成人 亚洲| 精品乱码久久久久久99久播| 成年人黄色毛片网站| 亚洲av成人一区二区三| 中文字幕人妻丝袜一区二区| 一进一出抽搐动态| 亚洲欧美日韩东京热| 在线观看美女被高潮喷水网站 | 亚洲七黄色美女视频| 黑人操中国人逼视频| 亚洲精品美女久久久久99蜜臀| 制服人妻中文乱码| 久久婷婷人人爽人人干人人爱| 色综合欧美亚洲国产小说| 精品久久久久久,| 亚洲一区高清亚洲精品| 好男人电影高清在线观看| 久久久国产成人免费| 国产午夜福利久久久久久| 91国产中文字幕| 动漫黄色视频在线观看| 中亚洲国语对白在线视频| 岛国在线观看网站| 日本a在线网址| 日本熟妇午夜| 精品国产乱码久久久久久男人| 亚洲国产欧美网| 90打野战视频偷拍视频| 亚洲精品av麻豆狂野| 亚洲18禁久久av| 欧美一级a爱片免费观看看 | 午夜老司机福利片| 日韩欧美国产一区二区入口| 亚洲男人天堂网一区| 中文字幕久久专区| videosex国产| 91在线观看av| 亚洲欧美一区二区三区黑人| 777久久人妻少妇嫩草av网站| 中亚洲国语对白在线视频| 一级黄色大片毛片| 国产精品久久久久久人妻精品电影| 欧美日本视频| 欧美日韩中文字幕国产精品一区二区三区| 看免费av毛片| 日韩三级视频一区二区三区| 国产99久久九九免费精品| 久久久久久久久久黄片| 成人18禁高潮啪啪吃奶动态图| 精品乱码久久久久久99久播| 高潮久久久久久久久久久不卡| 亚洲18禁久久av| 最近最新中文字幕大全电影3| 天堂动漫精品| 成人一区二区视频在线观看| www.www免费av| 亚洲国产高清在线一区二区三| a在线观看视频网站| 国产亚洲精品久久久久久毛片| 黄片大片在线免费观看| 精品国产亚洲在线| 欧美色视频一区免费| 国产爱豆传媒在线观看 | 手机成人av网站| 人成视频在线观看免费观看| 777久久人妻少妇嫩草av网站| 欧美在线一区亚洲| www日本在线高清视频| 大型av网站在线播放| 欧美精品亚洲一区二区| 18美女黄网站色大片免费观看| 三级男女做爰猛烈吃奶摸视频| 丝袜人妻中文字幕| 亚洲一区二区三区色噜噜| 亚洲色图 男人天堂 中文字幕| 午夜福利高清视频|