• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

    2014-04-14 08:52:38田雪筠
    圖書(shū)與情報(bào) 2014年5期
    關(guān)鍵詞:爬蟲(chóng)情報(bào)網(wǎng)頁(yè)

    田雪筠

    (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 北京 100190)

    (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

    ·交流與探索·

    網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)主題采集技術(shù)研究

    田雪筠

    (1.中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 北京 100190)

    (2.中國(guó)科學(xué)院大學(xué) 北京 100049)

    文章設(shè)計(jì)與實(shí)現(xiàn)了一種網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)的主題采集系統(tǒng)。該系統(tǒng)在進(jìn)行主題預(yù)測(cè)時(shí)采用的基于改進(jìn)的樸素貝葉斯算法提高了主題判斷準(zhǔn)確率,在進(jìn)行鏈接預(yù)測(cè)時(shí)采用的基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問(wèn)題。與寬度優(yōu)先的采集技術(shù)相比,通過(guò)實(shí)驗(yàn)驗(yàn)證該方法具有明顯的優(yōu)越性。

    競(jìng)爭(zhēng)情報(bào)主題爬蟲(chóng)鏈接過(guò)濾主題過(guò)濾

    1 引言

    網(wǎng)絡(luò)信息資源日益成為企業(yè)和政府部門(mén)的最重要的競(jìng)爭(zhēng)情報(bào)來(lái)源,如何有效地、快速地從海量的網(wǎng)絡(luò)信息資源中獲取有價(jià)值的情報(bào),是一個(gè)嚴(yán)重的問(wèn)題。當(dāng)前,很多企業(yè)和政府部門(mén)已經(jīng)采用了競(jìng)爭(zhēng)情報(bào)采集系統(tǒng),所使用的情報(bào)采集技術(shù)主要有基于搜索引擎的情報(bào)采集、基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集和基于主題的情報(bào)采集。基于搜索引擎的情報(bào)采集通過(guò)關(guān)鍵詞硬匹配方法借助搜索引擎獲取情報(bào)資源,實(shí)現(xiàn)雖然簡(jiǎn)單,但情報(bào)采集準(zhǔn)確率不高;基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集較為適合在行業(yè)網(wǎng)站、專(zhuān)題網(wǎng)站、已知競(jìng)爭(zhēng)對(duì)手網(wǎng)站等范圍內(nèi)情報(bào)采集,準(zhǔn)確率較高,但同時(shí)也會(huì)漏掉很多分散的情報(bào)信息以及未知的相關(guān)網(wǎng)站,采集召回率較差;基于主題的情報(bào)采集通過(guò)事先確定的主題模型,只采集與特定主題相關(guān)的網(wǎng)頁(yè),能夠在全網(wǎng)獲取所需的信息頁(yè)面,采集準(zhǔn)確率和召回率均較高,該方式也是目前網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集的主流技術(shù),本文也針對(duì)該方式提出了一種基于鏈接和內(nèi)容預(yù)測(cè)的主題采集技術(shù)。

    鏈接預(yù)測(cè)和正文內(nèi)容預(yù)測(cè)是主題爬蟲(chóng)技術(shù)的核心部分,對(duì)應(yīng)地也面臨著兩個(gè)主要問(wèn)題:(1)在進(jìn)行URL主題預(yù)測(cè)時(shí),可用的信息非常少,一般URL的錨文本平均長(zhǎng)度只有3~4個(gè)單詞,如果使用URL的上下文,又必然會(huì)引入噪聲數(shù)據(jù);(2)在進(jìn)行正文內(nèi)容預(yù)測(cè)時(shí),多采用基于關(guān)鍵詞的向量空間模型方法,準(zhǔn)確率不高。

    本文針對(duì)這兩個(gè)問(wèn)題,提出了一種新的基于主題爬蟲(chóng)的競(jìng)爭(zhēng)情報(bào)采集方法。在進(jìn)行鏈接預(yù)測(cè)時(shí),采用基于規(guī)則與錨文本主題相似度結(jié)合的算法,避免了URL錨文本較短和噪聲的問(wèn)題;在進(jìn)行主題預(yù)測(cè)時(shí),采用基于改進(jìn)的樸素貝葉斯分類(lèi)算法,可以有效提高主題判斷準(zhǔn)確率。

    2 相關(guān)工作

    主題爬蟲(chóng)最早是由Chakrabarti等人于1999年提出的,其后的幾年對(duì)主題爬蟲(chóng)的研究進(jìn)入了空前繁榮的時(shí)期,目前已成為面向領(lǐng)域的開(kāi)源信息分析和搜索引擎的信息采集的核心技術(shù)。學(xué)術(shù)界對(duì)于主題爬蟲(chóng)的研究主要集中在兩個(gè)熱點(diǎn):一是主題的表示方法,即用戶如何表示自己所需的主題;二是頁(yè)面的采集策略,即如何高效的采集高質(zhì)量的頁(yè)面。第一個(gè)問(wèn)題的研究主要采用文本分類(lèi)、知識(shí)表示等技術(shù),在此不再贅述;第二個(gè)問(wèn)題的研究本質(zhì)是主題相關(guān)度的判別,目前主要有基于內(nèi)容評(píng)價(jià)的爬行策略、基于鏈接關(guān)系的爬行策略和基于分類(lèi)器的爬行策略等。

    基于內(nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法利用網(wǎng)頁(yè)內(nèi)容、URL、錨文本等網(wǎng)頁(yè)文本信息來(lái)評(píng)價(jià)鏈接的等級(jí),從而決定其爬行策略。這類(lèi)的搜索算法主要有Best first search方法、Fish search方法和Shark search方法等。這類(lèi)爬蟲(chóng)容易產(chǎn)生主題漂移。

    基于鏈接關(guān)系的主題爬蟲(chóng)算法通過(guò)分析Web的鏈接關(guān)系,利用頁(yè)面間的鏈接關(guān)系預(yù)測(cè)待爬行URL,代表性算法有PageRank或其改進(jìn)和HITS或其改進(jìn)。由于算法的復(fù)雜性,這類(lèi)爬蟲(chóng)的計(jì)算量較大,且網(wǎng)頁(yè)中也包含很多無(wú)關(guān)連接,容易爬取到很多無(wú)關(guān)頁(yè)面。

    基于分類(lèi)器的主題爬蟲(chóng)算法從分類(lèi)的角度來(lái)描述采集主題,判斷待采URL的主題相關(guān)度。從主題相關(guān)度判別的力度上大致有兩類(lèi)網(wǎng)頁(yè)鏈接預(yù)測(cè)方法,一種是通過(guò)鏈接的錨文本的內(nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè);另一種是以鏈接所在網(wǎng)頁(yè)的全部?jī)?nèi)容與主題的相關(guān)度對(duì)鏈接進(jìn)行預(yù)測(cè)。這兩種方法都有不足之處,基于鏈接錨文本的鏈接預(yù)測(cè)會(huì)導(dǎo)致一些與主題相關(guān)的網(wǎng)頁(yè)鏈接被識(shí)別為主題無(wú)關(guān)的鏈接,而基于網(wǎng)頁(yè)全部?jī)?nèi)容的鏈接預(yù)測(cè)則會(huì)導(dǎo)致大量的與主題無(wú)關(guān)的鏈接被下載。

    從各類(lèi)主題爬蟲(chóng)算法采用的主題相關(guān)性特征上主要有:網(wǎng)頁(yè)內(nèi)容特征、URL錨文本特征、頁(yè)面分塊特征、URL鏈接關(guān)系?;趦?nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法僅采用了網(wǎng)頁(yè)內(nèi)容特征,忽視了URL鏈接關(guān)系;基于鏈接關(guān)系的主題爬蟲(chóng)算法僅采用了鏈接關(guān)系特征,忽視了網(wǎng)頁(yè)內(nèi)容特征和錨文本特征。此外,在鏈接預(yù)測(cè)時(shí),由于錨文本長(zhǎng)度一般都很短,僅用單鏈接的錨文本特征會(huì)產(chǎn)生較大的錯(cuò)誤率。本文綜合考慮網(wǎng)頁(yè)和URL的特征:在網(wǎng)頁(yè)內(nèi)容主題預(yù)測(cè)上,首先進(jìn)行網(wǎng)頁(yè)類(lèi)型進(jìn)行分類(lèi),然后對(duì)主題型頁(yè)面進(jìn)行內(nèi)容分類(lèi);在鏈接預(yù)測(cè)上,首先對(duì)與主題相關(guān)的網(wǎng)頁(yè)進(jìn)行頁(yè)面分塊,利用頁(yè)面規(guī)則進(jìn)行第一次過(guò)濾,然后利用分塊錨文本的相似度進(jìn)行第二次過(guò)濾。

    3 基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型

    3.1 體系架構(gòu)

    基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型如圖1所示:

    (1)URL管理器:URL管理器的作用是保證一臺(tái)采集主機(jī)上同時(shí)只有一個(gè)線程采集同一Web站點(diǎn),從而實(shí)現(xiàn)了對(duì)網(wǎng)站的“禮貌”采集。

    (2)采集器:通過(guò)Http協(xié)議、ftp協(xié)議等采集URL鏈接所指向的頁(yè)面。

    (3)網(wǎng)頁(yè)類(lèi)型分析器:負(fù)責(zé)判斷已采網(wǎng)頁(yè)的類(lèi)型,Web頁(yè)面分為鏈接型(或目錄型)頁(yè)面和主題型頁(yè)面。針對(duì)鏈接型頁(yè)面,需要提取相關(guān)鏈接和指向鏈接型頁(yè)面的鏈接;針對(duì)主題型頁(yè)面,需要進(jìn)一步判斷頁(yè)面的主題相關(guān)性以及提取相關(guān)鏈接。

    (4)頁(yè)面分析器:利用HTML Tag標(biāo)簽特征、視覺(jué)特征和文本內(nèi)容特征,對(duì)頁(yè)面進(jìn)行分塊,使得同一分塊內(nèi)的內(nèi)容是語(yǔ)義相關(guān)的。

    (5)頁(yè)面過(guò)濾器:對(duì)分塊后的正文進(jìn)行主題預(yù)測(cè),去除與采集主題無(wú)關(guān)的頁(yè)面。

    (6)URL解析器:對(duì)分塊后的鏈接進(jìn)行鏈接提取、標(biāo)準(zhǔn)化,并提取錨文本。

    (7)URL過(guò)濾器:對(duì)從頁(yè)面解析出的鏈接進(jìn)行預(yù)測(cè),去除與采集主題無(wú)關(guān)的鏈接,以避免采集過(guò)程出現(xiàn)“主題漂移”問(wèn)題。

    (8)主題分類(lèi)模型:存儲(chǔ)競(jìng)爭(zhēng)情報(bào)主題的特征模型,需要事先提供一定數(shù)量的主題樣本,采用Na?ve Bayes分類(lèi)器訓(xùn)練獲得。

    (9)URL庫(kù):存儲(chǔ)初始URL種子以及爬行過(guò)程中提取的相關(guān)鏈接,由URL管理器負(fù)責(zé)維護(hù)。其中,初始URL種子由用戶指定。

    3.2 采集策略

    本系統(tǒng)中的采集策略如圖2所示:

    (1)離線訓(xùn)練頁(yè)面過(guò)濾器。事先收集競(jìng)爭(zhēng)情報(bào)主題的訓(xùn)練樣例(一般為幾百篇),進(jìn)行訓(xùn)練;

    (2)指定初始URL種子,注入U(xiǎn)RL庫(kù)中;

    (3)采集器從URL管理器中獲取待爬行的URL,連接對(duì)應(yīng)URL下載該網(wǎng)頁(yè),并將該URL放入已采隊(duì)列。從該步驟開(kāi)始,系統(tǒng)進(jìn)入在線爬行階段,在線爬行階段將循環(huán)執(zhí)行步驟3-7,一般爬蟲(chóng)是永不停止的,在實(shí)際中可根據(jù)需要設(shè)置一定的停止條件;

    (4)網(wǎng)頁(yè)類(lèi)型分析器對(duì)新采網(wǎng)頁(yè)進(jìn)行類(lèi)型識(shí)別,如果為主題型頁(yè)面轉(zhuǎn)步驟5,如果為鏈接型頁(yè)面則轉(zhuǎn)步驟6;

    (5)頁(yè)面過(guò)濾器對(duì)主題性網(wǎng)頁(yè)進(jìn)行頁(yè)面分析、分類(lèi),計(jì)算與主題的相關(guān)度,如果相關(guān)度小于事先設(shè)定的閾值,則丟棄該頁(yè)面;反之則進(jìn)入步驟6;

    (6)對(duì)網(wǎng)頁(yè)中的URL及對(duì)應(yīng)的錨文本進(jìn)行提取,如果是尚未訪問(wèn)過(guò)的URL,則進(jìn)入步驟7;反之則丟棄該URL;

    (7)URL過(guò)濾器對(duì)提取的URL進(jìn)行相關(guān)度計(jì)算,若與主題相關(guān)或者該URL指向的是鏈接型頁(yè)面,則存入U(xiǎn)RL庫(kù);反之則丟棄該URL。

    圖1 體系架構(gòu)

    4 主題相關(guān)性判斷算法

    主題相關(guān)性判斷是最重要的部分,負(fù)責(zé)判斷頁(yè)面內(nèi)容和頁(yè)面鏈接的相關(guān)度,決定著主題采集的準(zhǔn)確率和競(jìng)爭(zhēng)情報(bào)的可用度。

    4.1 網(wǎng)頁(yè)類(lèi)型分析器

    網(wǎng)頁(yè)分為主題型頁(yè)面和鏈接型頁(yè)面:主題型頁(yè)面是指具有一個(gè)或多個(gè)主題的頁(yè)面,描述了某些有意義的事件,如新聞頁(yè)面;鏈接型網(wǎng)頁(yè),也叫目錄型網(wǎng)頁(yè),本身沒(méi)有實(shí)際意義,但包含了指向其他網(wǎng)頁(yè)的鏈接,如網(wǎng)站首頁(yè)就是典型的鏈接型網(wǎng)頁(yè)。

    這兩類(lèi)頁(yè)面的主題相關(guān)性判斷方式是不同的:(1)對(duì)于主題型頁(yè)面,一般認(rèn)為主題相關(guān)的頁(yè)面會(huì)包含與主題相關(guān)的鏈接,而與主題不相關(guān)的頁(yè)面不會(huì)包含與主題相關(guān)的鏈接。因此,需要對(duì)主題型頁(yè)面進(jìn)行正文抽取和頁(yè)面過(guò)濾,如果與主題相關(guān)則進(jìn)一步抽取相關(guān)鏈接,否則就可以直接丟棄該頁(yè)面。(2)對(duì)于鏈接型頁(yè)面,本身沒(méi)有正文,只需找到頁(yè)面中的主題相關(guān)鏈接。除此之外,還需抽取該頁(yè)面包含的一些指向鏈接型頁(yè)面的URL,這些URL一般是主題型頁(yè)面的入口,可以直接當(dāng)作相關(guān)鏈接。

    鏈接型頁(yè)面和主題型頁(yè)面的特點(diǎn)很鮮明,如表1所示。因此,本文采用標(biāo)點(diǎn)符號(hào)(如句號(hào)、逗號(hào)等)個(gè)數(shù)、URL的長(zhǎng)度、文件名、鏈接數(shù)與文字?jǐn)?shù)比等作為判別特征,并設(shè)置相應(yīng)的閾值判斷頁(yè)面類(lèi)型。

    4.2 頁(yè)面主題預(yù)測(cè)

    圖2 競(jìng)爭(zhēng)情報(bào)采集策略

    本系統(tǒng)采用一種改進(jìn)的樸素貝葉斯算法對(duì)采集的頁(yè)面內(nèi)容進(jìn)行主題預(yù)測(cè)。

    在樸素貝葉斯分類(lèi)算法中,文本向量的主題相關(guān)性公式為:

    表1 兩種類(lèi)型頁(yè)面的特點(diǎn)

    其中,{Topic}是系統(tǒng)所需采集的主題集合,F(xiàn)是待預(yù)測(cè)網(wǎng)頁(yè)D的特征集合,Pr(f|Topic)使用主題樣本集合中第j個(gè)主題Topic類(lèi)內(nèi)特征fi出現(xiàn)的樣本數(shù)與Topic類(lèi)內(nèi)的樣本總數(shù)之比來(lái)估計(jì),Pr(Topic)由Topic類(lèi)的樣本頻數(shù)得到,而Pr(f|D)則使用D中特征f出現(xiàn)的次數(shù)和D中總詞頻數(shù)的比值來(lái)計(jì)算。

    可見(jiàn),D中f與D的相關(guān)性僅體現(xiàn)在詞頻上,但對(duì)于一些相近類(lèi)別,如在“足球”和“籃球”兩類(lèi)中可能會(huì)有很多相似的特征,且某些特征在這兩類(lèi)中出現(xiàn)的概率也較為均衡,特征對(duì)類(lèi)別的區(qū)分度較差。為此,x本文特征將作為加權(quán)用來(lái)增強(qiáng)特征詞在不同類(lèi)別中的區(qū)分度,x特征可以體現(xiàn)f對(duì)Topic貢獻(xiàn)的大小,同時(shí)可以體現(xiàn)該特征與其他特征對(duì)Topic的分類(lèi)貢獻(xiàn)。為此,將特征作為加權(quán)因子引入進(jìn)分類(lèi)公式中,得到:

    x(f,Topic)是特征f與第j個(gè)主題Topic類(lèi)的x統(tǒng)計(jì)值。

    預(yù)先設(shè)定閾值T,如果H(D)小于T,則認(rèn)為該網(wǎng)頁(yè)與采集主題列表無(wú)關(guān),系統(tǒng)將其過(guò)濾掉。

    為了確保主題判斷的正確性,對(duì)其進(jìn)行了測(cè)試。首先在新浪、搜狐網(wǎng)站的二級(jí)欄目下采集網(wǎng)頁(yè),經(jīng)過(guò)人工篩選后,最終確定了10個(gè)類(lèi)別作為訓(xùn)練集和測(cè)試集。其中,每個(gè)類(lèi)別的訓(xùn)練集包含800篇網(wǎng)頁(yè),各類(lèi)別的測(cè)試集包含500個(gè)網(wǎng)頁(yè)。測(cè)試結(jié)果如表2所示。

    4.3 鏈接預(yù)測(cè)

    相比于頁(yè)面的主題預(yù)測(cè),鏈接預(yù)測(cè)非常困難。原因是可用的判斷特征非常少,目前主要使用的特征有:URL之間的關(guān)系(如父子關(guān)系、兄弟關(guān)系等);錨文本以及錨文本周?chē)奈谋?;URL所在頁(yè)面的分塊特征。因?yàn)閁RL之間的關(guān)系需要存儲(chǔ)大量的相關(guān)信息,且噪聲現(xiàn)象比較嚴(yán)重。本文采用后兩種特征,設(shè)計(jì)了基于頁(yè)面規(guī)則與錨文本主題相似度結(jié)合的算法。對(duì)與主題相關(guān)的網(wǎng)頁(yè)進(jìn)行頁(yè)面分塊,首先利用頁(yè)面規(guī)則進(jìn)行第一次過(guò)濾,然后利用錨文本相似度進(jìn)行第二次過(guò)濾,最后抽取出相關(guān)鏈接。

    4.3.1 頁(yè)面分塊規(guī)則過(guò)濾

    據(jù)文獻(xiàn)[12]研究發(fā)現(xiàn),頁(yè)面中的主題相關(guān)鏈接通常具有以下特點(diǎn):

    圖3 URL過(guò)濾過(guò)程

    表2 分類(lèi)測(cè)試結(jié)果

    (1)相關(guān)鏈接經(jīng)常是成塊出現(xiàn)的,包含多條鏈接;(2)網(wǎng)頁(yè)作者希望瀏覽者能夠繼續(xù)點(diǎn)擊相關(guān)鏈接,因此相關(guān)鏈接中的錨文本長(zhǎng)度一般比較長(zhǎng)(20~30Byte);而無(wú)關(guān)鏈接的錨文本長(zhǎng)度一般較短(4~10Byte);

    (3)相關(guān)鏈接的地址一般是站內(nèi)地址,而主題無(wú)關(guān)的鏈接地址通常為站外地址;

    (4)相關(guān)鏈接的錨文本與網(wǎng)頁(yè)征文的標(biāo)題一般有相同的有實(shí)際意義的詞。

    因此,基于以上特征,制定了以下規(guī)則用來(lái)過(guò)濾無(wú)關(guān)鏈接:

    (1)如果鏈接錨文本的平均長(zhǎng)度小于10,則該鏈接塊為無(wú)關(guān)鏈接塊;

    (2)如果鏈接塊中的鏈接錨文本與正文標(biāo)題含有相同詞(必須是實(shí)詞)的平均個(gè)數(shù)小于設(shè)定的閾值時(shí),該鏈接塊為無(wú)關(guān)鏈接塊;

    (3)如果鏈接塊中的站內(nèi)地址與站外地址之比小于設(shè)定的閾值時(shí),該鏈接塊為無(wú)關(guān)鏈接塊。

    從4.2節(jié)的網(wǎng)頁(yè)語(yǔ)料庫(kù)中各選100篇,共1000篇作為測(cè)試數(shù)據(jù),用上述規(guī)則對(duì)這1000篇網(wǎng)頁(yè)進(jìn)行相關(guān)鏈接抽取。采用準(zhǔn)確率和召回率進(jìn)行評(píng)價(jià),其中準(zhǔn)確率是過(guò)濾無(wú)關(guān)鏈接正確的數(shù)目與所有過(guò)濾出的無(wú)關(guān)鏈接數(shù)目之比,召回率是過(guò)濾無(wú)關(guān)鏈接正確的數(shù)目與頁(yè)面中包含的無(wú)關(guān)鏈接數(shù)目之比。因?yàn)楦?jìng)爭(zhēng)情報(bào)系統(tǒng)希望能夠獲取盡可能多的情報(bào)信息,因此過(guò)濾的主要目標(biāo)是在保證過(guò)濾準(zhǔn)確率的情況下,盡量提升過(guò)濾召回率,最終統(tǒng)計(jì)分析得出當(dāng)閾值為0.6時(shí)效果最好。測(cè)試結(jié)果如表3所示。

    表3 規(guī)則過(guò)濾測(cè)試結(jié)果

    從表3可看出,經(jīng)過(guò)第一層過(guò)濾,可過(guò)濾掉50.8%的無(wú)關(guān)鏈接,同時(shí)能夠保證99.4%的過(guò)濾準(zhǔn)確率。

    4.3.2 錨文本主題相似度過(guò)濾

    經(jīng)過(guò)頁(yè)面分塊規(guī)則過(guò)濾后的鏈接塊,仍有49.2%的無(wú)關(guān)鏈接,需要經(jīng)過(guò)錨文本主題相似度進(jìn)行第二層過(guò)濾。因?yàn)閱蝹€(gè)鏈接的錨文本長(zhǎng)度都很短,在統(tǒng)計(jì)意義上價(jià)值不大。而一般處在同一分塊內(nèi)的鏈接在語(yǔ)義上是比較接近的,因此本文將整個(gè)鏈接塊中錨文本集合在一起,使用4.2節(jié)的頁(yè)面過(guò)濾器進(jìn)行過(guò)濾。如果鏈接塊與主題的相似度小于某個(gè)閾值時(shí),則認(rèn)為鏈接塊中的所有鏈接均為無(wú)關(guān)鏈接,從而進(jìn)行過(guò)濾。

    5 系統(tǒng)實(shí)驗(yàn)結(jié)果分析

    軟硬件環(huán)境:Windows 7系統(tǒng),CPU:Intel Core i5 2.8GHZ,內(nèi)存2G,硬盤(pán)容量為500GB,系統(tǒng)開(kāi)發(fā)環(huán)境為Myeclipse,開(kāi)發(fā)語(yǔ)言為Java,數(shù)據(jù)庫(kù)采用Mysql。采用收獲率作為評(píng)價(jià)指標(biāo)。其中,收獲率是指與主題相關(guān)的已爬取網(wǎng)頁(yè)數(shù)與已爬取的網(wǎng)頁(yè)總數(shù)之比,當(dāng)收獲率較高時(shí),說(shuō)明主題爬蟲(chóng)的過(guò)濾性能較好,能夠有效過(guò)濾與主題無(wú)關(guān)的網(wǎng)頁(yè)。

    為了實(shí)現(xiàn)主題的情報(bào)采集技術(shù)的實(shí)驗(yàn),我們選取中國(guó)食品安全網(wǎng)(http://foodsafety.ce.cn/)、新浪網(wǎng)(http:// www.sina.com.cn)、搜狐(http://www.sohu.com)、網(wǎng)易(http://www.163.com)為種子URL,以“食品安全”為主題,每采集一定數(shù)量的網(wǎng)頁(yè),就統(tǒng)計(jì)一次收獲率,從而掌握收獲率與采集網(wǎng)頁(yè)數(shù)的關(guān)系。

    在4.2節(jié)的頁(yè)面主題預(yù)測(cè)公式中,TH為預(yù)設(shè)的閾值用來(lái)確定頁(yè)面是否為無(wú)關(guān)頁(yè)面。為了確定最佳的閾值,對(duì)TH取0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09和0.1,在不同的取值下利用本文的算法采集5000個(gè)網(wǎng)頁(yè),網(wǎng)頁(yè)收獲率如圖3所示。

    圖3 不同閾值下的收獲率

    從圖3可以看出,在TH為0.06時(shí),該算法的主題收獲率最高。在后續(xù)實(shí)驗(yàn)中,TH取值為0.06。

    為了對(duì)比本系統(tǒng)的性能,與傳統(tǒng)的網(wǎng)絡(luò)采集(寬度優(yōu)先算法)、基于內(nèi)容評(píng)價(jià)的主題爬蟲(chóng)算法(Best first search算法)、基于鏈接關(guān)系的主題爬蟲(chóng)算法(PageRank算法)、標(biāo)準(zhǔn)關(guān)鍵詞算法進(jìn)行了實(shí)驗(yàn)比較,圖4為收獲率對(duì)比。

    圖4表明,在采集初始,各種算法的網(wǎng)頁(yè)收獲率都較高,但隨著采集網(wǎng)頁(yè)數(shù)量的增多,寬度優(yōu)先、標(biāo)準(zhǔn)關(guān)鍵詞、PageRank、Best First Search算法的收獲率下降較快,其中,寬度優(yōu)先的收獲率最低,因?yàn)閷挾葍?yōu)先未對(duì)主題進(jìn)行處理;標(biāo)準(zhǔn)關(guān)鍵詞算法只考慮了關(guān)鍵詞的匹配,在主題的匹配度上較為有限,收獲率也較低;PageRank算法在采集初期效果不好,因?yàn)镻ageRank需要積累一定量的網(wǎng)頁(yè)才會(huì)有效,在采集后期的效果較好;Best First Search算法比標(biāo)準(zhǔn)關(guān)鍵詞考慮的文字內(nèi)容更多,效果也比標(biāo)準(zhǔn)關(guān)鍵詞算法好。本文算法綜合利用了網(wǎng)頁(yè)內(nèi)容特征、URL錨文本特征和頁(yè)面分塊特征,通過(guò)鏈接預(yù)測(cè)和網(wǎng)頁(yè)內(nèi)容預(yù)測(cè)雙重過(guò)濾,能夠保證采集頁(yè)面與主題的相關(guān)度,因此收獲率較高。但本文算法的收獲率在后期也有一定下降,從采集日志中分析采集到的不相關(guān)頁(yè)面,主要是由于在鏈接預(yù)測(cè)中的有些不相關(guān)鏈接會(huì)被錯(cuò)判成主題相關(guān)鏈接,產(chǎn)生錯(cuò)誤的主要原因是為了能夠采集到更多的頁(yè)面,鏈接與主題相關(guān)度的閾值設(shè)置的較低,導(dǎo)致會(huì)下載較多的無(wú)關(guān)頁(yè)面。

    此外,對(duì)各方法的時(shí)間也進(jìn)行了比較,如圖5所示。

    圖4 網(wǎng)頁(yè)收獲率對(duì)比圖

    圖5 時(shí)間對(duì)比圖

    圖5表明,本文的爬蟲(chóng)消耗的系統(tǒng)時(shí)間最多,其原因是頁(yè)面需要經(jīng)過(guò)鏈接過(guò)濾和頁(yè)面過(guò)濾,但是與其他算法相比,本文的爬蟲(chóng)過(guò)濾的無(wú)關(guān)頁(yè)面數(shù)更多,采集了更多主題相關(guān)的頁(yè)面,因此綜合來(lái)看還是可行的。

    6 結(jié)語(yǔ)

    本文介紹了一種基于主題的網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集模型,詳細(xì)闡述了其體系結(jié)構(gòu)、采集策略和關(guān)鍵技術(shù)。該系統(tǒng)相比于基于網(wǎng)絡(luò)爬蟲(chóng)的情報(bào)采集,縮小了情報(bào)采集的范圍,能夠有效減少采集頁(yè)面的數(shù)量,提高了采集的頁(yè)面利用效率。鏈接預(yù)測(cè)和主題預(yù)測(cè)是本系統(tǒng)的核心技術(shù),采用了基于規(guī)則與錨文本主題相似度結(jié)合的算法進(jìn)行鏈接預(yù)測(cè),避免了URL錨文本較短以及擴(kuò)展錨文本帶來(lái)的噪聲問(wèn)題。采用基于改進(jìn)的樸素貝葉斯算法進(jìn)行主題預(yù)測(cè),實(shí)驗(yàn)驗(yàn)證了其準(zhǔn)確率。

    [1]吳金紅,張玉峰,王翠波.基于本體的競(jìng)爭(zhēng)情報(bào)采集模型研究[J].情報(bào)理論與實(shí)踐,2007,30(5):577-580.

    [2]張玉峰,朱瑩.基于Web文本挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)獲取方法研究[J].情報(bào)理論與實(shí)踐,2006,29(5):563-566.

    [3]馬靜,倪輝峰.基于模式匹配抽取技術(shù)的網(wǎng)上產(chǎn)品情報(bào)獲?。跩].情報(bào)理論與實(shí)踐,2007,30(2):228-231.

    [4]陳黎,李志蜀,琚生根,等.基于SVM預(yù)測(cè)的金融主題爬蟲(chóng)[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,47(3):493-497.

    [5]王輝,左萬(wàn)利,王暉昱,等.基于質(zhì)心向量的增量式主題爬行[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):217-224.

    [6]Soumen Chakrabarti,Martin van den Berg,Byron Dom. Focused crawling:a new approach to topic-specific Web resourcediscovery[J].ComputerNetworks,1999,1623-1640.

    [7]Junghoo Cho,Hector Garcia-Molina,Lawrence Page.Efficient Crawling Through URL Ordering[J].Computer Networks and ISDN Systems,1998,30(1-7):161-172.

    [8]Luo Lin-bo,Chen Qi,Wu Qing-xiu.Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm[J].Computer Technology and Development,2010,20(11):76-79.

    [9]劉朋,林泓,高德威.基于內(nèi)容和鏈接分析的主題爬蟲(chóng)策略[J].計(jì)算機(jī)與數(shù)字工程,2009,37(1):22-24.

    [10]張長(zhǎng)利.面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D].長(zhǎng)春:吉林大學(xué),2011.

    [11]李衛(wèi),劉建毅,何華燦,等.基于主題的智能Web信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006,(2):163-166

    [12]苗苗.基于頁(yè)面分塊的網(wǎng)頁(yè)內(nèi)容提取的研究與實(shí)現(xiàn)[D].武漢:武漢理工大學(xué),2010.

    Focused Crawler Based Network Competitive Intelligence Acquisition

    This paper designs and implements the network competitive intelligence acquisition system based on focused craw ler.The W ebpage's topic is predicted by an improved Nave Bayes algorithm,which can improve the accuracy rate. The URL's topic is predicted by the rule and anchor text sim ilarity combined algorithm,which can avoid the problems of URL anchor text short and noise.Compared w ith the breadth-first acquisition techniques,experimental results show that the method has obvious advantages.

    competitive intelligence;focused craw ler;URL filtering;topic filtering

    G250.2

    :A

    :1003-6938(2014)05-0132-06

    田雪筠(1981-),女,中國(guó)科學(xué)院大學(xué)、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心博士研究生。

    2014-05-20;責(zé)任編輯:魏志鵬

    猜你喜歡
    爬蟲(chóng)情報(bào)網(wǎng)頁(yè)
    利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
    情報(bào)
    情報(bào)
    情報(bào)
    基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
    基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    亚洲av成人一区二区三| 欧美午夜高清在线| 亚洲av美国av| 国产色视频综合| 国产精品久久久久成人av| 男女高潮啪啪啪动态图| 啪啪无遮挡十八禁网站| 久久久欧美国产精品| 日韩成人在线观看一区二区三区| 精品国产一区二区三区四区第35| 久久狼人影院| www.999成人在线观看| 露出奶头的视频| 亚洲九九香蕉| 日本a在线网址| 国产精品偷伦视频观看了| 视频在线观看一区二区三区| 国产黄频视频在线观看| 亚洲国产av新网站| svipshipincom国产片| 国产av国产精品国产| 啦啦啦中文免费视频观看日本| 变态另类成人亚洲欧美熟女 | 男女免费视频国产| 成人国产av品久久久| 国产一卡二卡三卡精品| 国产精品久久久久久人妻精品电影 | 色综合婷婷激情| 免费在线观看影片大全网站| 久久中文看片网| 色94色欧美一区二区| 国产精品久久久av美女十八| 大片电影免费在线观看免费| 国产一区二区在线观看av| 母亲3免费完整高清在线观看| 国产一区二区三区在线臀色熟女 | 中亚洲国语对白在线视频| 欧美黑人欧美精品刺激| 国产欧美亚洲国产| 黄色视频,在线免费观看| 久久久久久久精品吃奶| a在线观看视频网站| 女警被强在线播放| 老司机午夜福利在线观看视频 | 丰满少妇做爰视频| 精品国产乱子伦一区二区三区| 一级毛片电影观看| 亚洲精品国产一区二区精华液| 亚洲欧洲日产国产| 五月天丁香电影| 欧美av亚洲av综合av国产av| 叶爱在线成人免费视频播放| 欧美精品一区二区免费开放| 男女下面插进去视频免费观看| 精品少妇黑人巨大在线播放| 美女午夜性视频免费| av在线播放免费不卡| 久久天堂一区二区三区四区| 91精品三级在线观看| 国产欧美日韩精品亚洲av| 女同久久另类99精品国产91| 国产免费视频播放在线视频| 啦啦啦中文免费视频观看日本| 精品国内亚洲2022精品成人 | 美女主播在线视频| 性少妇av在线| 老司机福利观看| 午夜免费鲁丝| 精品国产国语对白av| a级毛片黄视频| 黄网站色视频无遮挡免费观看| www.自偷自拍.com| 久久精品aⅴ一区二区三区四区| 成年动漫av网址| 香蕉丝袜av| 日本wwww免费看| 国产精品电影一区二区三区 | 欧美午夜高清在线| 久久性视频一级片| 国产高清国产精品国产三级| 麻豆乱淫一区二区| 国产高清激情床上av| 在线看a的网站| 自拍欧美九色日韩亚洲蝌蚪91| 成人永久免费在线观看视频 | 正在播放国产对白刺激| 国产视频一区二区在线看| 一进一出好大好爽视频| 久久精品成人免费网站| 我的亚洲天堂| 超碰97精品在线观看| 亚洲久久久国产精品| 久9热在线精品视频| 欧美大码av| 亚洲熟女毛片儿| 国产91精品成人一区二区三区 | 韩国精品一区二区三区| 久久人妻福利社区极品人妻图片| 首页视频小说图片口味搜索| 欧美 亚洲 国产 日韩一| 色在线成人网| 大型av网站在线播放| 夫妻午夜视频| 激情视频va一区二区三区| 中文字幕人妻丝袜一区二区| 欧美人与性动交α欧美精品济南到| 久久青草综合色| 91字幕亚洲| 午夜福利免费观看在线| 在线av久久热| 久久久久网色| 国产av一区二区精品久久| 久久免费观看电影| 国产激情久久老熟女| 手机成人av网站| 80岁老熟妇乱子伦牲交| 欧美人与性动交α欧美精品济南到| 啦啦啦视频在线资源免费观看| 男人舔女人的私密视频| 国产免费福利视频在线观看| 色尼玛亚洲综合影院| 麻豆成人av在线观看| 考比视频在线观看| 高清毛片免费观看视频网站 | 久久性视频一级片| 国精品久久久久久国模美| 久久精品国产a三级三级三级| 午夜福利免费观看在线| 亚洲国产欧美在线一区| 在线观看免费视频日本深夜| 亚洲精品美女久久av网站| 一进一出抽搐动态| 欧美人与性动交α欧美软件| 两个人免费观看高清视频| 一级,二级,三级黄色视频| 欧美久久黑人一区二区| 久久婷婷成人综合色麻豆| 色94色欧美一区二区| 成人国语在线视频| 亚洲色图av天堂| 少妇被粗大的猛进出69影院| 午夜精品久久久久久毛片777| 少妇猛男粗大的猛烈进出视频| 新久久久久国产一级毛片| 黄频高清免费视频| 制服人妻中文乱码| 日韩制服丝袜自拍偷拍| 欧美在线一区亚洲| 青青草视频在线视频观看| 女人被躁到高潮嗷嗷叫费观| 叶爱在线成人免费视频播放| 丰满人妻熟妇乱又伦精品不卡| 日韩中文字幕欧美一区二区| 成人免费观看视频高清| 熟女少妇亚洲综合色aaa.| 亚洲欧美日韩另类电影网站| 国产欧美亚洲国产| av网站在线播放免费| 一级a爱视频在线免费观看| 日韩欧美三级三区| 亚洲一卡2卡3卡4卡5卡精品中文| 午夜福利影视在线免费观看| h视频一区二区三区| 汤姆久久久久久久影院中文字幕| 丁香六月欧美| 免费黄频网站在线观看国产| 日韩大码丰满熟妇| 久久ye,这里只有精品| 午夜福利影视在线免费观看| 国产av一区二区精品久久| 亚洲九九香蕉| 2018国产大陆天天弄谢| 国产无遮挡羞羞视频在线观看| 天天添夜夜摸| 伦理电影免费视频| 成人国产一区最新在线观看| 久久精品人人爽人人爽视色| 精品福利观看| 国产免费现黄频在线看| 亚洲色图 男人天堂 中文字幕| 高清av免费在线| 亚洲av日韩在线播放| avwww免费| 捣出白浆h1v1| 在线观看一区二区三区激情| 国产在线视频一区二区| 久久性视频一级片| 我的亚洲天堂| 国产一区二区三区视频了| 国产一区二区三区综合在线观看| 中文欧美无线码| 国产高清国产精品国产三级| 动漫黄色视频在线观看| 欧美激情极品国产一区二区三区| 最黄视频免费看| 欧美久久黑人一区二区| 一级黄色大片毛片| 久久精品国产亚洲av香蕉五月 | 亚洲av电影在线进入| 午夜精品久久久久久毛片777| 午夜免费鲁丝| 亚洲精品中文字幕在线视频| 国产精品九九99| 亚洲精华国产精华精| 99热网站在线观看| 中文字幕最新亚洲高清| 老熟妇乱子伦视频在线观看| 亚洲少妇的诱惑av| 美女高潮到喷水免费观看| 99香蕉大伊视频| 啦啦啦视频在线资源免费观看| 999久久久精品免费观看国产| 国产91精品成人一区二区三区 | 岛国在线观看网站| 少妇精品久久久久久久| 少妇裸体淫交视频免费看高清 | 大片免费播放器 马上看| 嫩草影视91久久| 欧美激情极品国产一区二区三区| 国产成人免费观看mmmm| 麻豆乱淫一区二区| 国产精品自产拍在线观看55亚洲 | 岛国在线观看网站| 亚洲中文av在线| 欧美日韩亚洲国产一区二区在线观看 | 热99国产精品久久久久久7| 欧美激情 高清一区二区三区| 日本vs欧美在线观看视频| 久热爱精品视频在线9| 国产精品一区二区在线观看99| 美女扒开内裤让男人捅视频| 伊人久久大香线蕉亚洲五| 母亲3免费完整高清在线观看| 男男h啪啪无遮挡| av欧美777| 一进一出抽搐动态| 亚洲欧美精品综合一区二区三区| 丝袜美腿诱惑在线| 丰满迷人的少妇在线观看| 蜜桃国产av成人99| 一二三四社区在线视频社区8| 中亚洲国语对白在线视频| 三级毛片av免费| 国产高清videossex| 亚洲午夜精品一区,二区,三区| av在线播放免费不卡| 中国美女看黄片| 午夜免费鲁丝| 亚洲三区欧美一区| 国产亚洲精品第一综合不卡| 极品教师在线免费播放| 女人精品久久久久毛片| 美国免费a级毛片| 黑人巨大精品欧美一区二区蜜桃| 国产亚洲欧美在线一区二区| 视频区图区小说| 一区二区三区国产精品乱码| 亚洲 国产 在线| 俄罗斯特黄特色一大片| av又黄又爽大尺度在线免费看| 超碰成人久久| 男女无遮挡免费网站观看| 男女边摸边吃奶| www.熟女人妻精品国产| 在线观看www视频免费| 国产午夜精品久久久久久| 欧美一级毛片孕妇| 国产深夜福利视频在线观看| 后天国语完整版免费观看| 午夜免费鲁丝| 他把我摸到了高潮在线观看 | 搡老岳熟女国产| 亚洲人成电影观看| 色婷婷久久久亚洲欧美| 成人亚洲精品一区在线观看| 精品国产乱子伦一区二区三区| 国产淫语在线视频| 日韩一卡2卡3卡4卡2021年| 国产精品久久久久久精品古装| 纵有疾风起免费观看全集完整版| 在线观看舔阴道视频| 人人妻人人爽人人添夜夜欢视频| 国产男女内射视频| 少妇精品久久久久久久| 女人精品久久久久毛片| 国产欧美日韩一区二区三区在线| 18在线观看网站| 亚洲欧美一区二区三区久久| av有码第一页| 国产精品一区二区免费欧美| 亚洲成人免费av在线播放| 国产黄频视频在线观看| 曰老女人黄片| 中文字幕另类日韩欧美亚洲嫩草| 国产精品电影一区二区三区 | 在线看a的网站| 一级毛片精品| 午夜福利,免费看| 大码成人一级视频| 99久久人妻综合| 一区二区三区精品91| 我要看黄色一级片免费的| 精品人妻熟女毛片av久久网站| 777米奇影视久久| 欧美成人午夜精品| 99re6热这里在线精品视频| 国产av又大| 国产成人啪精品午夜网站| 女人爽到高潮嗷嗷叫在线视频| 在线观看一区二区三区激情| 一级片免费观看大全| 亚洲国产中文字幕在线视频| 又紧又爽又黄一区二区| 精品人妻在线不人妻| 午夜福利影视在线免费观看| 亚洲专区中文字幕在线| 久久精品人人爽人人爽视色| 久久这里只有精品19| 成人永久免费在线观看视频 | 日本撒尿小便嘘嘘汇集6| 午夜日韩欧美国产| 精品亚洲成国产av| 最近最新中文字幕大全免费视频| 国产成人啪精品午夜网站| 日韩中文字幕欧美一区二区| 国产在线视频一区二区| 亚洲人成伊人成综合网2020| 岛国在线观看网站| 人妻一区二区av| 国产麻豆69| 一边摸一边抽搐一进一出视频| 人妻一区二区av| av片东京热男人的天堂| 亚洲欧美日韩另类电影网站| 女人久久www免费人成看片| 一级片'在线观看视频| 黑人巨大精品欧美一区二区蜜桃| 一进一出抽搐动态| 日韩制服丝袜自拍偷拍| 三级毛片av免费| 黄色 视频免费看| 国产精品偷伦视频观看了| 国产精品98久久久久久宅男小说| 亚洲国产欧美一区二区综合| 九色亚洲精品在线播放| 久久精品成人免费网站| 精品少妇一区二区三区视频日本电影| 亚洲精品自拍成人| 亚洲精品成人av观看孕妇| 亚洲精华国产精华精| a级毛片黄视频| 免费女性裸体啪啪无遮挡网站| 亚洲av成人一区二区三| 国产欧美日韩综合在线一区二区| 日日摸夜夜添夜夜添小说| 欧美国产精品一级二级三级| 怎么达到女性高潮| 亚洲国产看品久久| 亚洲人成电影免费在线| 97人妻天天添夜夜摸| 国产精品一区二区在线观看99| 制服人妻中文乱码| 亚洲国产毛片av蜜桃av| 夜夜爽天天搞| 色视频在线一区二区三区| 精品人妻1区二区| 精品国产乱码久久久久久男人| 国产日韩一区二区三区精品不卡| 国产精品久久久av美女十八| 久久这里只有精品19| 亚洲五月色婷婷综合| 女性生殖器流出的白浆| 国产人伦9x9x在线观看| 亚洲成人免费av在线播放| 国产亚洲精品久久久久5区| 婷婷丁香在线五月| 亚洲av片天天在线观看| 两个人看的免费小视频| 动漫黄色视频在线观看| 久久国产精品大桥未久av| 成人18禁在线播放| 欧美日韩黄片免| 国产有黄有色有爽视频| www.熟女人妻精品国产| 久久精品国产a三级三级三级| 午夜福利在线观看吧| 亚洲 欧美一区二区三区| 国产又色又爽无遮挡免费看| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美 亚洲 国产 日韩一| 精品人妻熟女毛片av久久网站| e午夜精品久久久久久久| 丰满饥渴人妻一区二区三| 欧美日韩亚洲综合一区二区三区_| 国产日韩一区二区三区精品不卡| 丝袜喷水一区| 这个男人来自地球电影免费观看| 9191精品国产免费久久| 欧美激情 高清一区二区三区| 亚洲成国产人片在线观看| 国产无遮挡羞羞视频在线观看| 51午夜福利影视在线观看| 久久青草综合色| 欧美黑人精品巨大| 精品熟女少妇八av免费久了| 亚洲熟女精品中文字幕| 女人爽到高潮嗷嗷叫在线视频| 亚洲视频免费观看视频| 久久久久视频综合| 午夜视频精品福利| 亚洲一码二码三码区别大吗| 国产av国产精品国产| 一进一出好大好爽视频| 国产熟女午夜一区二区三区| 免费在线观看视频国产中文字幕亚洲| 免费在线观看完整版高清| 久9热在线精品视频| 精品福利观看| 丝袜美腿诱惑在线| 色视频在线一区二区三区| 亚洲国产毛片av蜜桃av| 成人手机av| 99九九在线精品视频| 热99久久久久精品小说推荐| 国产精品久久久av美女十八| 色94色欧美一区二区| 夫妻午夜视频| 精品国产超薄肉色丝袜足j| 亚洲人成77777在线视频| 亚洲欧洲日产国产| 国产欧美日韩一区二区三区在线| 欧美精品人与动牲交sv欧美| 国产av国产精品国产| av在线播放免费不卡| 亚洲一卡2卡3卡4卡5卡精品中文| 曰老女人黄片| 天天添夜夜摸| 色视频在线一区二区三区| 亚洲国产看品久久| 亚洲色图 男人天堂 中文字幕| 免费在线观看视频国产中文字幕亚洲| 十八禁网站免费在线| 国产人伦9x9x在线观看| 精品国产一区二区三区四区第35| 狠狠婷婷综合久久久久久88av| 久久人人爽av亚洲精品天堂| 国产精品久久久av美女十八| 日本撒尿小便嘘嘘汇集6| 超碰97精品在线观看| 纵有疾风起免费观看全集完整版| 我的亚洲天堂| 亚洲精品久久成人aⅴ小说| 性少妇av在线| 妹子高潮喷水视频| 精品国产乱码久久久久久男人| 我的亚洲天堂| 亚洲第一av免费看| 亚洲国产精品一区二区三区在线| 午夜免费鲁丝| 久久精品国产亚洲av香蕉五月 | 人成视频在线观看免费观看| 亚洲中文日韩欧美视频| 欧美老熟妇乱子伦牲交| 18禁裸乳无遮挡动漫免费视频| 在线亚洲精品国产二区图片欧美| 中国美女看黄片| 国产老妇伦熟女老妇高清| 国产av精品麻豆| 日本av手机在线免费观看| 亚洲第一av免费看| av片东京热男人的天堂| 丝袜在线中文字幕| 大型av网站在线播放| 啦啦啦视频在线资源免费观看| 久久精品熟女亚洲av麻豆精品| 成人黄色视频免费在线看| 99国产精品一区二区三区| 欧美激情极品国产一区二区三区| 亚洲国产中文字幕在线视频| 老熟女久久久| 欧美精品一区二区免费开放| 亚洲一区中文字幕在线| 老汉色av国产亚洲站长工具| www.熟女人妻精品国产| 日本五十路高清| 日本av免费视频播放| 亚洲色图av天堂| 人人妻人人澡人人爽人人夜夜| 丰满人妻熟妇乱又伦精品不卡| 精品亚洲成国产av| 中文字幕人妻熟女乱码| 中文字幕制服av| 菩萨蛮人人尽说江南好唐韦庄| 欧美精品高潮呻吟av久久| 法律面前人人平等表现在哪些方面| 国产91精品成人一区二区三区 | 欧美激情极品国产一区二区三区| 我要看黄色一级片免费的| av网站免费在线观看视频| 亚洲熟女毛片儿| av福利片在线| 一个人免费看片子| 久久久精品94久久精品| www.999成人在线观看| 午夜91福利影院| 亚洲av日韩在线播放| 又紧又爽又黄一区二区| 99精品久久久久人妻精品| 精品亚洲成a人片在线观看| 大片电影免费在线观看免费| 91精品三级在线观看| 咕卡用的链子| 国产黄色免费在线视频| 男人舔女人的私密视频| 熟女少妇亚洲综合色aaa.| 捣出白浆h1v1| 热99国产精品久久久久久7| 十八禁人妻一区二区| 国产深夜福利视频在线观看| www.精华液| 美女高潮到喷水免费观看| 欧美国产精品va在线观看不卡| 免费看十八禁软件| 韩国精品一区二区三区| 亚洲欧洲日产国产| 19禁男女啪啪无遮挡网站| 欧美性长视频在线观看| 香蕉国产在线看| 国产野战对白在线观看| 正在播放国产对白刺激| 90打野战视频偷拍视频| 一级黄色大片毛片| 久久这里只有精品19| 欧美黑人精品巨大| 男男h啪啪无遮挡| 国产精品久久久久久人妻精品电影 | 极品教师在线免费播放| 亚洲五月色婷婷综合| 久久久精品国产亚洲av高清涩受| 在线观看免费视频网站a站| 久久青草综合色| 51午夜福利影视在线观看| 激情视频va一区二区三区| 首页视频小说图片口味搜索| 日韩欧美三级三区| 午夜福利影视在线免费观看| 亚洲人成电影观看| 久久久国产欧美日韩av| 亚洲情色 制服丝袜| 黑丝袜美女国产一区| 亚洲欧美日韩另类电影网站| 国产区一区二久久| 欧美激情 高清一区二区三区| 亚洲国产欧美网| 亚洲一区二区三区欧美精品| av线在线观看网站| www.熟女人妻精品国产| 一个人免费在线观看的高清视频| 侵犯人妻中文字幕一二三四区| 国产麻豆69| 18禁国产床啪视频网站| av电影中文网址| 嫁个100分男人电影在线观看| 波多野结衣av一区二区av| 91老司机精品| 99国产精品一区二区蜜桃av | 亚洲av日韩精品久久久久久密| 手机成人av网站| 无人区码免费观看不卡 | 中文字幕av电影在线播放| 国产福利在线免费观看视频| 飞空精品影院首页| √禁漫天堂资源中文www| 久久精品人人爽人人爽视色| 一级黄色大片毛片| 免费不卡黄色视频| 国产精品二区激情视频| www日本在线高清视频| 中文字幕人妻熟女乱码| 久久亚洲精品不卡| 国产1区2区3区精品| 又大又爽又粗| 十八禁高潮呻吟视频| 国产精品一区二区在线不卡| 欧美日韩亚洲综合一区二区三区_| 欧美日韩黄片免| 精品午夜福利视频在线观看一区 | 国产精品一区二区在线不卡| 叶爱在线成人免费视频播放| 精品一区二区三区视频在线观看免费 | 精品国产一区二区三区四区第35| 99精品在免费线老司机午夜| 久久久久久久久久久久大奶| 日韩欧美国产一区二区入口| 9色porny在线观看| 久久99一区二区三区| 丝瓜视频免费看黄片| 久久午夜综合久久蜜桃| 大陆偷拍与自拍| 激情视频va一区二区三区| 十分钟在线观看高清视频www| 日本黄色日本黄色录像| 久热爱精品视频在线9| 18禁裸乳无遮挡动漫免费视频| 精品少妇黑人巨大在线播放| 亚洲va日本ⅴa欧美va伊人久久| 久久午夜亚洲精品久久| av欧美777| 美国免费a级毛片| 欧美日韩福利视频一区二区| 1024香蕉在线观看| 国产精品久久久久成人av| 视频区图区小说| 深夜精品福利| 亚洲色图av天堂|