• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)

    2014-07-28 18:40:08董日壯郭曙超
    電腦知識(shí)與技術(shù) 2014年17期
    關(guān)鍵詞:網(wǎng)絡(luò)爬蟲搜索引擎

    董日壯 郭曙超

    摘要:隨著社會(huì)的飛速發(fā)展,互聯(lián)網(wǎng)上信息容量急劇增加,人們對(duì)搜索引擎的依賴愈發(fā)強(qiáng)烈。網(wǎng)絡(luò)爬蟲是搜索引擎的關(guān)鍵技術(shù)之一,同時(shí)也是快速獲取網(wǎng)絡(luò)上可用資源的有效工具。為了能夠?qū)W(wǎng)絡(luò)爬蟲更深入的了解并熟練合理的應(yīng)用于各種的應(yīng)用和系統(tǒng)中,經(jīng)過對(duì)網(wǎng)絡(luò)爬蟲的框架、基本工作流程、抓取策略的分析和了解,使用Java與HTML解析工具jsoup以及MySQL數(shù)據(jù)庫(kù)實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲,簡(jiǎn)單爬取京東的圖書數(shù)據(jù),用于用戶喜好的分析及購(gòu)買傾向的判斷,為用戶提供個(gè)性化的服務(wù)。

    關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;抓取策略;Java;jsoup;MySQL

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)17-3986-03

    Design and Implementation of Web Crawler

    DONG Ri-zhuang1, GUO Shu-chao2

    (1.School of Computer Engineering, Qingdao Technological University, Qingdao 266033, China; 2.Shandong Entry-Exit Inspection and Quarantine Bureau, Qingdao 266000, China)

    Abstract: With the rapid development of society, a sharp increase in information capacity on the Internet, people rely on search engines is growing. As one of the key technologies of Web crawler search engines, but also an effective tool for quick access to the available resources on the network. In order to understand web crawler better and apply it into various applications and systems more skillful and reasonably. After analyze and understand the framework, basic workflow, grab strategy of web crawler, use programming language of Java and HTML parsing tools jsoup and MySQL database implements a web crawler, crawling Jingdong book data simply in order to analysis users preferences and purchase predisposition, so that to provide users with personalized service.

    Key words: search engine; Web crawler; grab analyze; Java; jsoup; MySQL

    1 概述

    隨著社會(huì)發(fā)展與時(shí)代進(jìn)步,信息社會(huì)的發(fā)展速度超出了絕大多數(shù)人的想象,與此同時(shí),互聯(lián)網(wǎng)容量已經(jīng)達(dá)到了一個(gè)空前的規(guī)模。據(jù)搜索引擎巨頭Google透露,在2012年時(shí)候,Google的網(wǎng)頁(yè)爬蟲Googlebot每天都會(huì)經(jīng)過大約200億個(gè)網(wǎng)頁(yè)[1],并且追蹤著約300億個(gè)獨(dú)立的URL鏈接。此外,Google每個(gè)月的搜索請(qǐng)求接近1000億次。由此可以看出,互聯(lián)網(wǎng)信息量龐大,搜索引擎應(yīng)用廣泛。但是海量的信息要求搜索引擎給出更快的反饋。

    網(wǎng)絡(luò)爬蟲[2,3,4](Web Crawler)作為搜索引擎的重要組成部分,同樣也需要更快的發(fā)展,以應(yīng)對(duì)迅速增長(zhǎng)的互聯(lián)網(wǎng)容量。網(wǎng)絡(luò)爬蟲通常又被稱作網(wǎng)絡(luò)蜘蛛[5](Web Spider),是一個(gè)可以自動(dòng)在互聯(lián)網(wǎng)上漫游并可以自動(dòng)下載網(wǎng)頁(yè)的程序或腳本。由于其功能多樣,網(wǎng)絡(luò)爬蟲可以被用于多種場(chǎng)合中,比如微博上有眾多的用戶與其他用戶之間的聯(lián)系的信息;淘寶和京東上有大量用戶的購(gòu)買信息及對(duì)商品的評(píng)論。這些信息對(duì)于分析用戶的購(gòu)物行為和偏好及其社會(huì)關(guān)系有著重要的作用,蘊(yùn)藏著巨大的價(jià)值。

    為了能夠更好的理解與使用網(wǎng)絡(luò)爬蟲,文中對(duì)爬蟲的基本結(jié)構(gòu)、工作流程、以及爬取策略等進(jìn)行了一定的分析與介紹,并使用現(xiàn)有技術(shù)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)網(wǎng)絡(luò)爬蟲,爬取了京東圖書的數(shù)據(jù),用于用戶的興趣偏好和潛在購(gòu)買行為等數(shù)據(jù)挖掘工作。

    2 爬蟲的結(jié)構(gòu)

    2.1 網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)

    通用的網(wǎng)絡(luò)爬蟲框架圖[6]如圖1所示。

    2.2 網(wǎng)絡(luò)爬蟲的基本工作流程

    網(wǎng)絡(luò)爬蟲的基本工作流程[7]如下:

    1)首先選取一些高質(zhì)量的URL作為種子URL;

    2)將選取的種子URL放入到待抓取URL中;

    3)依次從待抓取URL隊(duì)列中取出URL,對(duì)URL的DNS進(jìn)行解析,獲得主服務(wù)器IP,并將網(wǎng)頁(yè)下載下來,保存到數(shù)據(jù)庫(kù)中。然后將該URL放入已抓取URL隊(duì)列中;

    4)分析已抓取URL隊(duì)列中的URL,得到另一些URL,再次放入待抓取URL隊(duì)列,從而繼續(xù)循環(huán)下去。

    2.3 爬蟲對(duì)互聯(lián)網(wǎng)的劃分

    對(duì)應(yīng)網(wǎng)絡(luò)爬蟲的工作流程,可以從爬蟲的角度,將互聯(lián)網(wǎng)頁(yè)面分為如圖2的五部分[8]:

    1)已下載但未過期網(wǎng)頁(yè);

    2)已下載但已過期網(wǎng)頁(yè):抓取時(shí)頁(yè)面與當(dāng)前頁(yè)面不再相同,此時(shí),該部分部分抓取到的網(wǎng)頁(yè)就變?yōu)橐堰^期的網(wǎng)頁(yè);endprint

    3)待下載網(wǎng)頁(yè):表示存在于待抓取隊(duì)列中的URL;

    4)可知網(wǎng)頁(yè):還未進(jìn)行抓取,也未存在于待抓取URL隊(duì)列中,但是可以通過分析已抓取頁(yè)面或者待抓取URL對(duì)應(yīng)頁(yè)面得到,即可知網(wǎng)頁(yè);

    5)不可知網(wǎng)頁(yè):有一部分網(wǎng)頁(yè)無法被爬蟲直接抓取,稱為不可知網(wǎng)頁(yè)。

    2.4 爬蟲抓取策略

    在整個(gè)爬蟲系統(tǒng)里,最重要的部分是怎樣得到待抓取URL隊(duì)列。同時(shí)待抓取URL隊(duì)列中的URL如何排列同樣是爬蟲的關(guān)鍵問題,因?yàn)檫@涉及到頁(yè)面抓取的先后順序問題,直接決定爬蟲爬取頁(yè)面的質(zhì)量。而決定URL排列和抓取順序的方法,稱為抓取策略[9]。主要的抓取策略有:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、反向鏈接數(shù)策略、Partial PageRank策略、OPIC策略、大站優(yōu)先策略等。

    深度優(yōu)先遍歷策略即圖的深度優(yōu)先遍歷。網(wǎng)絡(luò)爬蟲會(huì)從起始URL開始,跟蹤每個(gè)URL,直到該URL處理結(jié)束,轉(zhuǎn)到下一個(gè)URL繼續(xù)跟蹤。

    寬度優(yōu)先遍歷策略的則是將網(wǎng)頁(yè)中發(fā)現(xiàn)的URL直接加入待抓取URL隊(duì)列中。

    反向鏈接數(shù)是指一個(gè)網(wǎng)頁(yè)被其他URL指向的數(shù)量,通常用來評(píng)價(jià)網(wǎng)頁(yè)的重要程度。

    Partial PageRank策略,即最佳優(yōu)先搜索策略,分析當(dāng)前URL與目標(biāo)網(wǎng)頁(yè)主題的相關(guān)性,優(yōu)先選擇評(píng)價(jià)好的URL進(jìn)行抓取。

    OPIC策略也是對(duì)頁(yè)面進(jìn)行重要性進(jìn)行評(píng)估,確定重要性。

    大站優(yōu)先策略是根據(jù)網(wǎng)站的分類,優(yōu)先下載頁(yè)面數(shù)多的網(wǎng)站。

    不管網(wǎng)絡(luò)爬蟲采用何種爬取策略,其基本目標(biāo)是一致的:優(yōu)先爬取重要的網(wǎng)頁(yè)。

    3 實(shí)現(xiàn)

    經(jīng)過對(duì)網(wǎng)絡(luò)爬蟲的框架、基本工作流程、抓取策略的分析,對(duì)網(wǎng)絡(luò)爬蟲有了一定的認(rèn)識(shí)和了解,接下來我們簡(jiǎn)單實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲。

    3.1 技術(shù)儲(chǔ)備

    開發(fā)語(yǔ)言采用Java,原因是可移植性良好,同時(shí)有較多的開源工具可供使用。

    數(shù)據(jù)庫(kù)采用MySQL,以上兩個(gè)工具作為開源工具的代表,被廣泛的用于很多項(xiàng)目。

    數(shù)據(jù)源采用京東的圖書數(shù)據(jù),包括圖書的信息、用戶對(duì)該書的評(píng)價(jià)、打分情況,有實(shí)際的使用價(jià)值。

    HTML解析工具采用jsoup[10],原因如下:

    jsoup 是一個(gè)較為著名的使用Java 開發(fā)的 HTML解析器,能夠?qū)RL地址或HTML文本直接解析出需要的數(shù)據(jù)。同時(shí)為開發(fā)人員提供了極其方便的API,能夠通過DOM、CSS甚至可以用類似 jQuery的方法來解析和操作HTML。同時(shí)由于jsoup 是基于 MIT 協(xié)議發(fā)布的,可用于商業(yè)項(xiàng)目。

    3.2 數(shù)據(jù)頁(yè)面分析

    首先對(duì)京東圖書的頁(yè)面圖書數(shù)據(jù)進(jìn)行分析,主要是分析其網(wǎng)頁(yè)和URL的結(jié)構(gòu),我們可以得到,所有圖書的分類在一個(gè)頁(yè)面中全部列出(http://book.jd.com/booksort.html),所以我們可以寬度優(yōu)先遍歷策略取出所有的圖書分類的URL,將其加入待爬取URL隊(duì)列,然后根據(jù)URL的結(jié)構(gòu)依次對(duì)待爬取隊(duì)列中的URL使用寬度優(yōu)先遍歷策略進(jìn)行爬取,取出其中的所有圖書URL加入到待爬取URL隊(duì)列中,最后從待爬取URL取出圖書的URL,下載圖書頁(yè)面,分析獲取到其中的圖書相關(guān)的信息以及打分和評(píng)論。

    3.3 代碼實(shí)現(xiàn)要點(diǎn)

    由于涉及的代碼眾多,在此只給出難點(diǎn)的解決方案。

    1)獲取圖書URL

    在整個(gè)頁(yè)面中包含的標(biāo)簽和內(nèi)容非常多,我們需要從大量的信息中取出圖書的URL,此處我們使用正則表達(dá)式[11]的方式。正則表達(dá)式是一種可以用于模式匹配和替換的規(guī)范,通常由普通字符和有特殊意義的元字符組成。作為一個(gè)模板,正則表達(dá)式可以將某個(gè)模式與所需查詢的字符串進(jìn)行匹配。使用正則表達(dá)式的方法可以輕松高效的獲取到頁(yè)面所有的圖書URL,并將其存儲(chǔ)于數(shù)據(jù)庫(kù)中。

    比如正則表達(dá)式(Java語(yǔ)言規(guī)范,轉(zhuǎn)義字符需\\):

    http\\://item.jd.com\\/[0-9]{8,9}\\.html

    是匹配京東的商品鏈接的正則表達(dá)式,可以匹配類似http://item.jd.com/10057446.html的商品鏈接。

    2)防止異常中斷問題

    每個(gè)頁(yè)面的爬取都可能遇到錯(cuò)誤。在爬取了部分網(wǎng)頁(yè)的時(shí)候可能會(huì)出現(xiàn)連接超時(shí)的問題,所以在每個(gè)頁(yè)面的爬取都加入爬取成功的驗(yàn)證:如果該頁(yè)面爬取成功,則繼續(xù)爬取下一個(gè)頁(yè)面;如果失敗,則重新爬取該頁(yè)面,如果達(dá)到設(shè)定閾值還沒有爬取成功,跳過該頁(yè)面的爬取,將該URL加入到待爬取隊(duì)列尾部。

    3)評(píng)論內(nèi)容獲取

    由于評(píng)論內(nèi)容采用的是AJAX的方式獲取,直接使用jsoup獲取到的HTML中不包括詳細(xì)評(píng)論內(nèi)容,但是包含AJAX請(qǐng)求的URL,請(qǐng)求該URL會(huì)返回以json封裝的數(shù)據(jù),所以我們可以直接獲取到URL然后請(qǐng)求得到j(luò)son,使用json解析工具解析json對(duì)象即可獲取到每個(gè)用戶對(duì)該商品的詳細(xì)評(píng)論內(nèi)容及打分情況,存儲(chǔ)于數(shù)據(jù)庫(kù)即可。分頁(yè)也是與此類似。

    4 結(jié)論

    文中通過對(duì)網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)、基本工作流程以及對(duì)抓取策略進(jìn)行了分析,并使用Java以及jsoup實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲系統(tǒng),對(duì)京東的圖書數(shù)據(jù)進(jìn)行了爬取,分析了其中可能遇到的問題及解決方法,獲得的圖書信息以及評(píng)論信息,用于用戶興趣的分析和圖書的推薦等。該文提出的爬蟲的實(shí)現(xiàn)方法有一定的通用性,有很多需要進(jìn)行優(yōu)化和改進(jìn)的地方[12],比如使用多線程和分布式以提高爬取效率;使用事務(wù)提高數(shù)據(jù)庫(kù)操作效率等,但是網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)是需要結(jié)合自身需要,同時(shí)也可以采用多種并行的設(shè)計(jì)和實(shí)現(xiàn)方法,以達(dá)到更好的效果。

    參考文獻(xiàn):

    [1] http://news.mydrivers.com/1/237/237222.htm

    [2] Lawrence, Steve; C. Lee Giles (1999). "Accessibility of information on the web". Nature 400 (6740): 107. doi:10.1038/21987.

    [3] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29.

    [4] Thelwall M.A web crawler design for data mining[J]. Journal of Information Science,2001,27(5): 319-325.

    [5] 王嘉杰.面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.

    [6] 曾偉輝,李淼.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008,17(5):122-125.

    [7] 姚琪.垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D].上海:上海交通大學(xué),2008.

    [8] 王巖.搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J].電信快報(bào):網(wǎng)絡(luò)與通信,2008 (10):20-22.

    [9] Thelwall M.A web crawler design for data mining[J].Journal of Information Science,2001,27(5): 319-325.

    [10] http://jsoup.org/

    [11] 胡軍偉,秦奕青,張偉.正則表達(dá)式在 Web 信息抽取中的應(yīng)用[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,26(6): 86-89.

    [12] Shkapenyuk V,Suel T.Design and implementation of a high-performance distributed web crawler[C]//Data Engineering, 2002. Proceedings. 18th International Conference on. IEEE,2002:357-368.endprint

    3)待下載網(wǎng)頁(yè):表示存在于待抓取隊(duì)列中的URL;

    4)可知網(wǎng)頁(yè):還未進(jìn)行抓取,也未存在于待抓取URL隊(duì)列中,但是可以通過分析已抓取頁(yè)面或者待抓取URL對(duì)應(yīng)頁(yè)面得到,即可知網(wǎng)頁(yè);

    5)不可知網(wǎng)頁(yè):有一部分網(wǎng)頁(yè)無法被爬蟲直接抓取,稱為不可知網(wǎng)頁(yè)。

    2.4 爬蟲抓取策略

    在整個(gè)爬蟲系統(tǒng)里,最重要的部分是怎樣得到待抓取URL隊(duì)列。同時(shí)待抓取URL隊(duì)列中的URL如何排列同樣是爬蟲的關(guān)鍵問題,因?yàn)檫@涉及到頁(yè)面抓取的先后順序問題,直接決定爬蟲爬取頁(yè)面的質(zhì)量。而決定URL排列和抓取順序的方法,稱為抓取策略[9]。主要的抓取策略有:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、反向鏈接數(shù)策略、Partial PageRank策略、OPIC策略、大站優(yōu)先策略等。

    深度優(yōu)先遍歷策略即圖的深度優(yōu)先遍歷。網(wǎng)絡(luò)爬蟲會(huì)從起始URL開始,跟蹤每個(gè)URL,直到該URL處理結(jié)束,轉(zhuǎn)到下一個(gè)URL繼續(xù)跟蹤。

    寬度優(yōu)先遍歷策略的則是將網(wǎng)頁(yè)中發(fā)現(xiàn)的URL直接加入待抓取URL隊(duì)列中。

    反向鏈接數(shù)是指一個(gè)網(wǎng)頁(yè)被其他URL指向的數(shù)量,通常用來評(píng)價(jià)網(wǎng)頁(yè)的重要程度。

    Partial PageRank策略,即最佳優(yōu)先搜索策略,分析當(dāng)前URL與目標(biāo)網(wǎng)頁(yè)主題的相關(guān)性,優(yōu)先選擇評(píng)價(jià)好的URL進(jìn)行抓取。

    OPIC策略也是對(duì)頁(yè)面進(jìn)行重要性進(jìn)行評(píng)估,確定重要性。

    大站優(yōu)先策略是根據(jù)網(wǎng)站的分類,優(yōu)先下載頁(yè)面數(shù)多的網(wǎng)站。

    不管網(wǎng)絡(luò)爬蟲采用何種爬取策略,其基本目標(biāo)是一致的:優(yōu)先爬取重要的網(wǎng)頁(yè)。

    3 實(shí)現(xiàn)

    經(jīng)過對(duì)網(wǎng)絡(luò)爬蟲的框架、基本工作流程、抓取策略的分析,對(duì)網(wǎng)絡(luò)爬蟲有了一定的認(rèn)識(shí)和了解,接下來我們簡(jiǎn)單實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲。

    3.1 技術(shù)儲(chǔ)備

    開發(fā)語(yǔ)言采用Java,原因是可移植性良好,同時(shí)有較多的開源工具可供使用。

    數(shù)據(jù)庫(kù)采用MySQL,以上兩個(gè)工具作為開源工具的代表,被廣泛的用于很多項(xiàng)目。

    數(shù)據(jù)源采用京東的圖書數(shù)據(jù),包括圖書的信息、用戶對(duì)該書的評(píng)價(jià)、打分情況,有實(shí)際的使用價(jià)值。

    HTML解析工具采用jsoup[10],原因如下:

    jsoup 是一個(gè)較為著名的使用Java 開發(fā)的 HTML解析器,能夠?qū)RL地址或HTML文本直接解析出需要的數(shù)據(jù)。同時(shí)為開發(fā)人員提供了極其方便的API,能夠通過DOM、CSS甚至可以用類似 jQuery的方法來解析和操作HTML。同時(shí)由于jsoup 是基于 MIT 協(xié)議發(fā)布的,可用于商業(yè)項(xiàng)目。

    3.2 數(shù)據(jù)頁(yè)面分析

    首先對(duì)京東圖書的頁(yè)面圖書數(shù)據(jù)進(jìn)行分析,主要是分析其網(wǎng)頁(yè)和URL的結(jié)構(gòu),我們可以得到,所有圖書的分類在一個(gè)頁(yè)面中全部列出(http://book.jd.com/booksort.html),所以我們可以寬度優(yōu)先遍歷策略取出所有的圖書分類的URL,將其加入待爬取URL隊(duì)列,然后根據(jù)URL的結(jié)構(gòu)依次對(duì)待爬取隊(duì)列中的URL使用寬度優(yōu)先遍歷策略進(jìn)行爬取,取出其中的所有圖書URL加入到待爬取URL隊(duì)列中,最后從待爬取URL取出圖書的URL,下載圖書頁(yè)面,分析獲取到其中的圖書相關(guān)的信息以及打分和評(píng)論。

    3.3 代碼實(shí)現(xiàn)要點(diǎn)

    由于涉及的代碼眾多,在此只給出難點(diǎn)的解決方案。

    1)獲取圖書URL

    在整個(gè)頁(yè)面中包含的標(biāo)簽和內(nèi)容非常多,我們需要從大量的信息中取出圖書的URL,此處我們使用正則表達(dá)式[11]的方式。正則表達(dá)式是一種可以用于模式匹配和替換的規(guī)范,通常由普通字符和有特殊意義的元字符組成。作為一個(gè)模板,正則表達(dá)式可以將某個(gè)模式與所需查詢的字符串進(jìn)行匹配。使用正則表達(dá)式的方法可以輕松高效的獲取到頁(yè)面所有的圖書URL,并將其存儲(chǔ)于數(shù)據(jù)庫(kù)中。

    比如正則表達(dá)式(Java語(yǔ)言規(guī)范,轉(zhuǎn)義字符需\\):

    http\\://item.jd.com\\/[0-9]{8,9}\\.html

    是匹配京東的商品鏈接的正則表達(dá)式,可以匹配類似http://item.jd.com/10057446.html的商品鏈接。

    2)防止異常中斷問題

    每個(gè)頁(yè)面的爬取都可能遇到錯(cuò)誤。在爬取了部分網(wǎng)頁(yè)的時(shí)候可能會(huì)出現(xiàn)連接超時(shí)的問題,所以在每個(gè)頁(yè)面的爬取都加入爬取成功的驗(yàn)證:如果該頁(yè)面爬取成功,則繼續(xù)爬取下一個(gè)頁(yè)面;如果失敗,則重新爬取該頁(yè)面,如果達(dá)到設(shè)定閾值還沒有爬取成功,跳過該頁(yè)面的爬取,將該URL加入到待爬取隊(duì)列尾部。

    3)評(píng)論內(nèi)容獲取

    由于評(píng)論內(nèi)容采用的是AJAX的方式獲取,直接使用jsoup獲取到的HTML中不包括詳細(xì)評(píng)論內(nèi)容,但是包含AJAX請(qǐng)求的URL,請(qǐng)求該URL會(huì)返回以json封裝的數(shù)據(jù),所以我們可以直接獲取到URL然后請(qǐng)求得到j(luò)son,使用json解析工具解析json對(duì)象即可獲取到每個(gè)用戶對(duì)該商品的詳細(xì)評(píng)論內(nèi)容及打分情況,存儲(chǔ)于數(shù)據(jù)庫(kù)即可。分頁(yè)也是與此類似。

    4 結(jié)論

    文中通過對(duì)網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)、基本工作流程以及對(duì)抓取策略進(jìn)行了分析,并使用Java以及jsoup實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲系統(tǒng),對(duì)京東的圖書數(shù)據(jù)進(jìn)行了爬取,分析了其中可能遇到的問題及解決方法,獲得的圖書信息以及評(píng)論信息,用于用戶興趣的分析和圖書的推薦等。該文提出的爬蟲的實(shí)現(xiàn)方法有一定的通用性,有很多需要進(jìn)行優(yōu)化和改進(jìn)的地方[12],比如使用多線程和分布式以提高爬取效率;使用事務(wù)提高數(shù)據(jù)庫(kù)操作效率等,但是網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)是需要結(jié)合自身需要,同時(shí)也可以采用多種并行的設(shè)計(jì)和實(shí)現(xiàn)方法,以達(dá)到更好的效果。

    參考文獻(xiàn):

    [1] http://news.mydrivers.com/1/237/237222.htm

    [2] Lawrence, Steve; C. Lee Giles (1999). "Accessibility of information on the web". Nature 400 (6740): 107. doi:10.1038/21987.

    [3] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29.

    [4] Thelwall M.A web crawler design for data mining[J]. Journal of Information Science,2001,27(5): 319-325.

    [5] 王嘉杰.面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.

    [6] 曾偉輝,李淼.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008,17(5):122-125.

    [7] 姚琪.垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D].上海:上海交通大學(xué),2008.

    [8] 王巖.搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J].電信快報(bào):網(wǎng)絡(luò)與通信,2008 (10):20-22.

    [9] Thelwall M.A web crawler design for data mining[J].Journal of Information Science,2001,27(5): 319-325.

    [10] http://jsoup.org/

    [11] 胡軍偉,秦奕青,張偉.正則表達(dá)式在 Web 信息抽取中的應(yīng)用[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,26(6): 86-89.

    [12] Shkapenyuk V,Suel T.Design and implementation of a high-performance distributed web crawler[C]//Data Engineering, 2002. Proceedings. 18th International Conference on. IEEE,2002:357-368.endprint

    3)待下載網(wǎng)頁(yè):表示存在于待抓取隊(duì)列中的URL;

    4)可知網(wǎng)頁(yè):還未進(jìn)行抓取,也未存在于待抓取URL隊(duì)列中,但是可以通過分析已抓取頁(yè)面或者待抓取URL對(duì)應(yīng)頁(yè)面得到,即可知網(wǎng)頁(yè);

    5)不可知網(wǎng)頁(yè):有一部分網(wǎng)頁(yè)無法被爬蟲直接抓取,稱為不可知網(wǎng)頁(yè)。

    2.4 爬蟲抓取策略

    在整個(gè)爬蟲系統(tǒng)里,最重要的部分是怎樣得到待抓取URL隊(duì)列。同時(shí)待抓取URL隊(duì)列中的URL如何排列同樣是爬蟲的關(guān)鍵問題,因?yàn)檫@涉及到頁(yè)面抓取的先后順序問題,直接決定爬蟲爬取頁(yè)面的質(zhì)量。而決定URL排列和抓取順序的方法,稱為抓取策略[9]。主要的抓取策略有:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、反向鏈接數(shù)策略、Partial PageRank策略、OPIC策略、大站優(yōu)先策略等。

    深度優(yōu)先遍歷策略即圖的深度優(yōu)先遍歷。網(wǎng)絡(luò)爬蟲會(huì)從起始URL開始,跟蹤每個(gè)URL,直到該URL處理結(jié)束,轉(zhuǎn)到下一個(gè)URL繼續(xù)跟蹤。

    寬度優(yōu)先遍歷策略的則是將網(wǎng)頁(yè)中發(fā)現(xiàn)的URL直接加入待抓取URL隊(duì)列中。

    反向鏈接數(shù)是指一個(gè)網(wǎng)頁(yè)被其他URL指向的數(shù)量,通常用來評(píng)價(jià)網(wǎng)頁(yè)的重要程度。

    Partial PageRank策略,即最佳優(yōu)先搜索策略,分析當(dāng)前URL與目標(biāo)網(wǎng)頁(yè)主題的相關(guān)性,優(yōu)先選擇評(píng)價(jià)好的URL進(jìn)行抓取。

    OPIC策略也是對(duì)頁(yè)面進(jìn)行重要性進(jìn)行評(píng)估,確定重要性。

    大站優(yōu)先策略是根據(jù)網(wǎng)站的分類,優(yōu)先下載頁(yè)面數(shù)多的網(wǎng)站。

    不管網(wǎng)絡(luò)爬蟲采用何種爬取策略,其基本目標(biāo)是一致的:優(yōu)先爬取重要的網(wǎng)頁(yè)。

    3 實(shí)現(xiàn)

    經(jīng)過對(duì)網(wǎng)絡(luò)爬蟲的框架、基本工作流程、抓取策略的分析,對(duì)網(wǎng)絡(luò)爬蟲有了一定的認(rèn)識(shí)和了解,接下來我們簡(jiǎn)單實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲。

    3.1 技術(shù)儲(chǔ)備

    開發(fā)語(yǔ)言采用Java,原因是可移植性良好,同時(shí)有較多的開源工具可供使用。

    數(shù)據(jù)庫(kù)采用MySQL,以上兩個(gè)工具作為開源工具的代表,被廣泛的用于很多項(xiàng)目。

    數(shù)據(jù)源采用京東的圖書數(shù)據(jù),包括圖書的信息、用戶對(duì)該書的評(píng)價(jià)、打分情況,有實(shí)際的使用價(jià)值。

    HTML解析工具采用jsoup[10],原因如下:

    jsoup 是一個(gè)較為著名的使用Java 開發(fā)的 HTML解析器,能夠?qū)RL地址或HTML文本直接解析出需要的數(shù)據(jù)。同時(shí)為開發(fā)人員提供了極其方便的API,能夠通過DOM、CSS甚至可以用類似 jQuery的方法來解析和操作HTML。同時(shí)由于jsoup 是基于 MIT 協(xié)議發(fā)布的,可用于商業(yè)項(xiàng)目。

    3.2 數(shù)據(jù)頁(yè)面分析

    首先對(duì)京東圖書的頁(yè)面圖書數(shù)據(jù)進(jìn)行分析,主要是分析其網(wǎng)頁(yè)和URL的結(jié)構(gòu),我們可以得到,所有圖書的分類在一個(gè)頁(yè)面中全部列出(http://book.jd.com/booksort.html),所以我們可以寬度優(yōu)先遍歷策略取出所有的圖書分類的URL,將其加入待爬取URL隊(duì)列,然后根據(jù)URL的結(jié)構(gòu)依次對(duì)待爬取隊(duì)列中的URL使用寬度優(yōu)先遍歷策略進(jìn)行爬取,取出其中的所有圖書URL加入到待爬取URL隊(duì)列中,最后從待爬取URL取出圖書的URL,下載圖書頁(yè)面,分析獲取到其中的圖書相關(guān)的信息以及打分和評(píng)論。

    3.3 代碼實(shí)現(xiàn)要點(diǎn)

    由于涉及的代碼眾多,在此只給出難點(diǎn)的解決方案。

    1)獲取圖書URL

    在整個(gè)頁(yè)面中包含的標(biāo)簽和內(nèi)容非常多,我們需要從大量的信息中取出圖書的URL,此處我們使用正則表達(dá)式[11]的方式。正則表達(dá)式是一種可以用于模式匹配和替換的規(guī)范,通常由普通字符和有特殊意義的元字符組成。作為一個(gè)模板,正則表達(dá)式可以將某個(gè)模式與所需查詢的字符串進(jìn)行匹配。使用正則表達(dá)式的方法可以輕松高效的獲取到頁(yè)面所有的圖書URL,并將其存儲(chǔ)于數(shù)據(jù)庫(kù)中。

    比如正則表達(dá)式(Java語(yǔ)言規(guī)范,轉(zhuǎn)義字符需\\):

    http\\://item.jd.com\\/[0-9]{8,9}\\.html

    是匹配京東的商品鏈接的正則表達(dá)式,可以匹配類似http://item.jd.com/10057446.html的商品鏈接。

    2)防止異常中斷問題

    每個(gè)頁(yè)面的爬取都可能遇到錯(cuò)誤。在爬取了部分網(wǎng)頁(yè)的時(shí)候可能會(huì)出現(xiàn)連接超時(shí)的問題,所以在每個(gè)頁(yè)面的爬取都加入爬取成功的驗(yàn)證:如果該頁(yè)面爬取成功,則繼續(xù)爬取下一個(gè)頁(yè)面;如果失敗,則重新爬取該頁(yè)面,如果達(dá)到設(shè)定閾值還沒有爬取成功,跳過該頁(yè)面的爬取,將該URL加入到待爬取隊(duì)列尾部。

    3)評(píng)論內(nèi)容獲取

    由于評(píng)論內(nèi)容采用的是AJAX的方式獲取,直接使用jsoup獲取到的HTML中不包括詳細(xì)評(píng)論內(nèi)容,但是包含AJAX請(qǐng)求的URL,請(qǐng)求該URL會(huì)返回以json封裝的數(shù)據(jù),所以我們可以直接獲取到URL然后請(qǐng)求得到j(luò)son,使用json解析工具解析json對(duì)象即可獲取到每個(gè)用戶對(duì)該商品的詳細(xì)評(píng)論內(nèi)容及打分情況,存儲(chǔ)于數(shù)據(jù)庫(kù)即可。分頁(yè)也是與此類似。

    4 結(jié)論

    文中通過對(duì)網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)、基本工作流程以及對(duì)抓取策略進(jìn)行了分析,并使用Java以及jsoup實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲系統(tǒng),對(duì)京東的圖書數(shù)據(jù)進(jìn)行了爬取,分析了其中可能遇到的問題及解決方法,獲得的圖書信息以及評(píng)論信息,用于用戶興趣的分析和圖書的推薦等。該文提出的爬蟲的實(shí)現(xiàn)方法有一定的通用性,有很多需要進(jìn)行優(yōu)化和改進(jìn)的地方[12],比如使用多線程和分布式以提高爬取效率;使用事務(wù)提高數(shù)據(jù)庫(kù)操作效率等,但是網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)是需要結(jié)合自身需要,同時(shí)也可以采用多種并行的設(shè)計(jì)和實(shí)現(xiàn)方法,以達(dá)到更好的效果。

    參考文獻(xiàn):

    [1] http://news.mydrivers.com/1/237/237222.htm

    [2] Lawrence, Steve; C. Lee Giles (1999). "Accessibility of information on the web". Nature 400 (6740): 107. doi:10.1038/21987.

    [3] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29.

    [4] Thelwall M.A web crawler design for data mining[J]. Journal of Information Science,2001,27(5): 319-325.

    [5] 王嘉杰.面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.

    [6] 曾偉輝,李淼.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008,17(5):122-125.

    [7] 姚琪.垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D].上海:上海交通大學(xué),2008.

    [8] 王巖.搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J].電信快報(bào):網(wǎng)絡(luò)與通信,2008 (10):20-22.

    [9] Thelwall M.A web crawler design for data mining[J].Journal of Information Science,2001,27(5): 319-325.

    [10] http://jsoup.org/

    [11] 胡軍偉,秦奕青,張偉.正則表達(dá)式在 Web 信息抽取中的應(yīng)用[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,26(6): 86-89.

    [12] Shkapenyuk V,Suel T.Design and implementation of a high-performance distributed web crawler[C]//Data Engineering, 2002. Proceedings. 18th International Conference on. IEEE,2002:357-368.endprint

    猜你喜歡
    網(wǎng)絡(luò)爬蟲搜索引擎
    煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
    主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
    淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    廣告主與搜索引擎的雙向博弈分析
    搜索,也要“深搜熟濾”
    亚洲性夜色夜夜综合| 一边摸一边抽搐一进一小说| 麻豆成人午夜福利视频| 色视频www国产| 日韩欧美在线二视频| 国产伦在线观看视频一区| 国产在线男女| 久久精品国产亚洲av涩爱 | 成年女人永久免费观看视频| 免费人成视频x8x8入口观看| 国模一区二区三区四区视频| 51国产日韩欧美| 少妇人妻精品综合一区二区 | a在线观看视频网站| 久久久色成人| 久久草成人影院| 成熟少妇高潮喷水视频| 日韩大尺度精品在线看网址| 久久久久精品国产欧美久久久| 国产精品亚洲美女久久久| 99视频精品全部免费 在线| 亚洲人成网站在线播放欧美日韩| 国产精品无大码| 久久精品国产亚洲av香蕉五月| 在线观看美女被高潮喷水网站| 夜夜爽天天搞| 国产在视频线在精品| 18+在线观看网站| 免费av观看视频| 日韩欧美 国产精品| 少妇人妻一区二区三区视频| 美女高潮喷水抽搐中文字幕| 欧美zozozo另类| 男插女下体视频免费在线播放| 亚洲精品久久国产高清桃花| 国产视频内射| 欧美一级a爱片免费观看看| 尾随美女入室| 日本黄色视频三级网站网址| 少妇被粗大猛烈的视频| 国产精品爽爽va在线观看网站| 一进一出好大好爽视频| 精品久久久久久久末码| 韩国av在线不卡| 日本三级黄在线观看| av专区在线播放| 又黄又爽又免费观看的视频| 99国产极品粉嫩在线观看| 色哟哟哟哟哟哟| 久久久久久九九精品二区国产| avwww免费| 久久精品影院6| 一夜夜www| 久久久色成人| 亚洲av电影不卡..在线观看| 黄色欧美视频在线观看| 少妇高潮的动态图| 97碰自拍视频| 精品一区二区免费观看| 亚洲av第一区精品v没综合| 最后的刺客免费高清国语| 美女 人体艺术 gogo| 99热这里只有精品一区| 欧美日本视频| 午夜福利在线观看免费完整高清在 | 亚洲精品日韩av片在线观看| 国产国拍精品亚洲av在线观看| 最近最新免费中文字幕在线| 免费看日本二区| 精品一区二区三区av网在线观看| 日韩,欧美,国产一区二区三区 | 精品国产三级普通话版| 久久精品综合一区二区三区| 欧美xxxx黑人xx丫x性爽| 一级黄片播放器| 黄色丝袜av网址大全| 在线播放无遮挡| 国产老妇女一区| 国产精品无大码| 亚洲av美国av| 国产高清有码在线观看视频| 1024手机看黄色片| 久久国产精品人妻蜜桃| 欧美激情国产日韩精品一区| 亚洲成人免费电影在线观看| 99国产极品粉嫩在线观看| 十八禁网站免费在线| 男女之事视频高清在线观看| 最近在线观看免费完整版| 老司机福利观看| 国产伦精品一区二区三区四那| 真人做人爱边吃奶动态| av.在线天堂| 深夜精品福利| 午夜老司机福利剧场| 亚洲人与动物交配视频| 日韩国内少妇激情av| 99久久久亚洲精品蜜臀av| 国产免费av片在线观看野外av| 国国产精品蜜臀av免费| 午夜福利视频1000在线观看| 中文字幕高清在线视频| 亚洲中文字幕一区二区三区有码在线看| 91av网一区二区| 热99在线观看视频| 男人和女人高潮做爰伦理| 亚洲av不卡在线观看| 国产激情偷乱视频一区二区| 亚洲电影在线观看av| 国产高潮美女av| 日韩欧美三级三区| 精品久久久久久久末码| 国产v大片淫在线免费观看| 精品人妻一区二区三区麻豆 | 久久久国产成人精品二区| 亚洲精品乱码久久久v下载方式| 国产精品人妻久久久久久| 九九在线视频观看精品| 搡老岳熟女国产| 哪里可以看免费的av片| 久久午夜亚洲精品久久| 韩国av在线不卡| 91狼人影院| 一区二区三区高清视频在线| 国产欧美日韩精品亚洲av| 男女之事视频高清在线观看| 日本撒尿小便嘘嘘汇集6| 欧美3d第一页| 免费一级毛片在线播放高清视频| 91在线观看av| 一级a爱片免费观看的视频| 天堂√8在线中文| 欧美成人a在线观看| 99精品久久久久人妻精品| 久久久久精品国产欧美久久久| 亚洲性久久影院| 精品人妻1区二区| 成年女人永久免费观看视频| 免费在线观看成人毛片| 亚洲av五月六月丁香网| 午夜福利18| 免费高清视频大片| 国产欧美日韩一区二区精品| 人妻久久中文字幕网| 校园春色视频在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲成人中文字幕在线播放| 噜噜噜噜噜久久久久久91| 午夜老司机福利剧场| 99热这里只有精品一区| 免费无遮挡裸体视频| 亚洲自拍偷在线| 亚洲国产欧美人成| 很黄的视频免费| 午夜激情欧美在线| 麻豆精品久久久久久蜜桃| 黄色一级大片看看| 国产午夜精品久久久久久一区二区三区 | 国产av一区在线观看免费| 国产亚洲精品久久久久久毛片| 男人舔奶头视频| 男女边吃奶边做爰视频| 久久久国产成人免费| 精品人妻熟女av久视频| 91狼人影院| 在线观看av片永久免费下载| 在线观看66精品国产| 少妇丰满av| 欧美日韩乱码在线| 成人亚洲精品av一区二区| 免费观看在线日韩| 他把我摸到了高潮在线观看| 欧美日韩乱码在线| 成熟少妇高潮喷水视频| 国内精品一区二区在线观看| 国产欧美日韩精品亚洲av| 桃红色精品国产亚洲av| 亚洲男人的天堂狠狠| 亚洲欧美日韩高清在线视频| 国产午夜精品论理片| 婷婷精品国产亚洲av在线| 99在线人妻在线中文字幕| 99久久精品国产国产毛片| 观看免费一级毛片| 国产一级毛片七仙女欲春2| 高清日韩中文字幕在线| 久久国内精品自在自线图片| 级片在线观看| 亚洲成人免费电影在线观看| 亚洲精品亚洲一区二区| 精品久久国产蜜桃| 亚洲av免费高清在线观看| 国产欧美日韩精品一区二区| 亚洲中文字幕一区二区三区有码在线看| 日韩欧美三级三区| 好男人在线观看高清免费视频| 亚洲在线观看片| 日韩中文字幕欧美一区二区| 美女黄网站色视频| 成年免费大片在线观看| 欧美日本视频| 亚洲成人中文字幕在线播放| 日本 欧美在线| 精品人妻一区二区三区麻豆 | 国产免费一级a男人的天堂| 嫩草影院精品99| x7x7x7水蜜桃| 国产伦在线观看视频一区| 亚洲欧美日韩无卡精品| 噜噜噜噜噜久久久久久91| 久久久久性生活片| 特级一级黄色大片| 搡老岳熟女国产| 久久久久久久精品吃奶| 国内精品久久久久久久电影| 国产精品久久久久久久电影| 日本精品一区二区三区蜜桃| 69av精品久久久久久| 老司机午夜福利在线观看视频| 国产免费男女视频| 男女下面进入的视频免费午夜| 舔av片在线| 露出奶头的视频| 在现免费观看毛片| 国内精品久久久久精免费| 欧美日韩综合久久久久久 | 亚洲欧美日韩无卡精品| 亚洲av第一区精品v没综合| 欧美丝袜亚洲另类 | 观看免费一级毛片| 欧美日韩精品成人综合77777| 高清毛片免费观看视频网站| 欧美最黄视频在线播放免费| 22中文网久久字幕| a级毛片免费高清观看在线播放| 国产日本99.免费观看| 色5月婷婷丁香| 欧美日本亚洲视频在线播放| 久久6这里有精品| 中文字幕免费在线视频6| 国产精品人妻久久久久久| 国产精品亚洲一级av第二区| 精品一区二区三区视频在线观看免费| 久久久精品欧美日韩精品| 精品欧美国产一区二区三| 91精品国产九色| 国产精品综合久久久久久久免费| 极品教师在线免费播放| 欧美xxxx性猛交bbbb| x7x7x7水蜜桃| 免费无遮挡裸体视频| 麻豆成人午夜福利视频| 精品一区二区三区视频在线观看免费| 亚洲五月天丁香| 女的被弄到高潮叫床怎么办 | 日日干狠狠操夜夜爽| 蜜桃亚洲精品一区二区三区| 伦精品一区二区三区| 欧美日韩综合久久久久久 | 久久久久性生活片| 成年女人永久免费观看视频| 久久人人爽人人爽人人片va| 欧美激情在线99| 无人区码免费观看不卡| 亚洲天堂国产精品一区在线| 国产伦在线观看视频一区| 国产高潮美女av| 亚洲一级一片aⅴ在线观看| 校园人妻丝袜中文字幕| 亚洲四区av| 欧洲精品卡2卡3卡4卡5卡区| 中文字幕久久专区| 白带黄色成豆腐渣| 1000部很黄的大片| 成人国产麻豆网| 精品乱码久久久久久99久播| 亚洲精品粉嫩美女一区| 偷拍熟女少妇极品色| 狠狠狠狠99中文字幕| 无人区码免费观看不卡| 国产精品亚洲美女久久久| 一a级毛片在线观看| 99riav亚洲国产免费| 99热这里只有是精品50| 一进一出抽搐gif免费好疼| 3wmmmm亚洲av在线观看| 午夜亚洲福利在线播放| 国产单亲对白刺激| 国产精品99久久久久久久久| 美女免费视频网站| 亚洲精品成人久久久久久| 国产蜜桃级精品一区二区三区| 免费不卡的大黄色大毛片视频在线观看 | 久久热精品热| 国内少妇人妻偷人精品xxx网站| 国产精品福利在线免费观看| 欧美日韩精品成人综合77777| 国产高清视频在线观看网站| 校园人妻丝袜中文字幕| 99在线人妻在线中文字幕| 欧美日韩乱码在线| 亚洲欧美日韩高清专用| 亚洲成人久久爱视频| 哪里可以看免费的av片| 女人十人毛片免费观看3o分钟| videossex国产| 麻豆精品久久久久久蜜桃| 欧美色视频一区免费| 亚洲av不卡在线观看| 搞女人的毛片| 老司机深夜福利视频在线观看| 精品日产1卡2卡| 精品日产1卡2卡| 极品教师在线视频| 窝窝影院91人妻| 不卡视频在线观看欧美| 在线观看66精品国产| 国产高清视频在线播放一区| 在线播放无遮挡| 18+在线观看网站| 国产老妇女一区| 亚洲乱码一区二区免费版| 日韩一本色道免费dvd| 亚洲专区国产一区二区| 日本黄大片高清| 丰满的人妻完整版| 日韩中字成人| 国产精品久久久久久精品电影| 一级毛片久久久久久久久女| 久久久久国内视频| 99久久无色码亚洲精品果冻| 精品人妻熟女av久视频| 久久人妻av系列| 欧美激情国产日韩精品一区| 一区二区三区高清视频在线| www.色视频.com| 国产一区二区在线av高清观看| 色哟哟·www| 一夜夜www| 三级毛片av免费| 日本在线视频免费播放| 国产精品久久久久久久久免| 天堂网av新在线| 国产极品精品免费视频能看的| 一卡2卡三卡四卡精品乱码亚洲| 精品久久久久久久人妻蜜臀av| 亚洲一区二区三区色噜噜| 精品人妻视频免费看| 久久精品影院6| 国模一区二区三区四区视频| 亚洲人成网站高清观看| 窝窝影院91人妻| 国产亚洲精品久久久久久毛片| 午夜福利18| 亚洲美女视频黄频| 欧美性感艳星| 国产精品嫩草影院av在线观看 | 亚洲成人免费电影在线观看| 日韩中字成人| 免费不卡的大黄色大毛片视频在线观看 | 国产精品人妻久久久久久| 欧美最新免费一区二区三区| 亚洲精品成人久久久久久| 亚洲国产欧洲综合997久久,| 亚洲五月天丁香| 国产日本99.免费观看| 最新在线观看一区二区三区| 日本一二三区视频观看| 特大巨黑吊av在线直播| 国产伦在线观看视频一区| 此物有八面人人有两片| АⅤ资源中文在线天堂| 久久国内精品自在自线图片| 俄罗斯特黄特色一大片| 男插女下体视频免费在线播放| 在线播放国产精品三级| 真人做人爱边吃奶动态| 波多野结衣高清无吗| 床上黄色一级片| 在现免费观看毛片| 亚洲精华国产精华精| 国产精品久久电影中文字幕| 亚洲最大成人中文| 一级a爱片免费观看的视频| 99久久精品热视频| 日韩欧美免费精品| 午夜老司机福利剧场| 在现免费观看毛片| 中文在线观看免费www的网站| 一个人看视频在线观看www免费| 成年版毛片免费区| 日韩人妻高清精品专区| 我的女老师完整版在线观看| 久久久久国内视频| 亚洲人成伊人成综合网2020| 欧美最黄视频在线播放免费| 极品教师在线视频| 伊人久久精品亚洲午夜| 看十八女毛片水多多多| 亚洲精品亚洲一区二区| 99九九线精品视频在线观看视频| 午夜爱爱视频在线播放| 国产av麻豆久久久久久久| 亚洲一区二区三区色噜噜| 亚洲精品在线观看二区| 狂野欧美激情性xxxx在线观看| 精品人妻熟女av久视频| 亚洲美女搞黄在线观看 | 婷婷丁香在线五月| 成人特级黄色片久久久久久久| 日韩欧美免费精品| 午夜精品一区二区三区免费看| 精品一区二区三区视频在线观看免费| 乱人视频在线观看| 成年女人毛片免费观看观看9| 国产亚洲精品久久久久久毛片| 俄罗斯特黄特色一大片| 人妻丰满熟妇av一区二区三区| 亚洲 国产 在线| a在线观看视频网站| 亚洲性久久影院| 在线免费观看的www视频| 蜜桃亚洲精品一区二区三区| 国产视频一区二区在线看| 天美传媒精品一区二区| 久久久精品大字幕| 黄片wwwwww| 在线免费十八禁| 少妇高潮的动态图| 黄色视频,在线免费观看| av在线老鸭窝| 国产 一区精品| 精品欧美国产一区二区三| 日韩精品中文字幕看吧| 九九热线精品视视频播放| 亚洲天堂国产精品一区在线| 精品人妻1区二区| 好男人在线观看高清免费视频| 99久久九九国产精品国产免费| 精品久久国产蜜桃| 国产久久久一区二区三区| 午夜影院日韩av| 亚洲成人久久爱视频| 全区人妻精品视频| 男女之事视频高清在线观看| 看片在线看免费视频| 亚洲av.av天堂| 亚洲av不卡在线观看| 国产毛片a区久久久久| 极品教师在线免费播放| 免费在线观看日本一区| 最新中文字幕久久久久| 国产精品女同一区二区软件 | 亚洲美女搞黄在线观看 | 精品久久久久久久久亚洲 | 12—13女人毛片做爰片一| 午夜福利在线观看吧| 国产伦一二天堂av在线观看| 精品乱码久久久久久99久播| 亚洲人成网站在线播| 久久欧美精品欧美久久欧美| 亚洲五月天丁香| 亚洲中文日韩欧美视频| 亚洲精品色激情综合| 蜜桃亚洲精品一区二区三区| 熟女电影av网| 少妇猛男粗大的猛烈进出视频 | 亚洲av.av天堂| 欧美国产日韩亚洲一区| 日韩欧美国产一区二区入口| 亚洲av免费高清在线观看| 国产乱人伦免费视频| 18禁在线播放成人免费| 成人综合一区亚洲| 久久中文看片网| 中文字幕免费在线视频6| 欧美一区二区精品小视频在线| 中亚洲国语对白在线视频| 国产精品电影一区二区三区| 国产精品人妻久久久影院| 亚洲精品乱码久久久v下载方式| 3wmmmm亚洲av在线观看| 桃色一区二区三区在线观看| 亚洲av中文av极速乱 | 人妻夜夜爽99麻豆av| 嫩草影院入口| 久久久久久久久久成人| 欧美一区二区亚洲| 波多野结衣巨乳人妻| 国产男人的电影天堂91| 精品久久久久久成人av| 国产真实伦视频高清在线观看 | 免费av观看视频| 国产高清视频在线观看网站| 成人亚洲精品av一区二区| av天堂中文字幕网| av在线天堂中文字幕| 中文字幕av在线有码专区| 国产一区二区激情短视频| 国产 一区 欧美 日韩| 亚洲美女黄片视频| 少妇人妻精品综合一区二区 | 日韩欧美三级三区| 校园春色视频在线观看| 午夜免费成人在线视频| 无人区码免费观看不卡| 国产精品综合久久久久久久免费| 99riav亚洲国产免费| 婷婷精品国产亚洲av| 日本精品一区二区三区蜜桃| 乱码一卡2卡4卡精品| 日韩中字成人| 麻豆av噜噜一区二区三区| 欧美又色又爽又黄视频| 亚洲人成伊人成综合网2020| 97碰自拍视频| bbb黄色大片| 国内精品美女久久久久久| 99riav亚洲国产免费| 看免费成人av毛片| 两个人视频免费观看高清| 亚洲三级黄色毛片| 长腿黑丝高跟| 男女那种视频在线观看| 亚洲精品色激情综合| av在线老鸭窝| 欧美黑人欧美精品刺激| 真实男女啪啪啪动态图| 97超视频在线观看视频| 日韩欧美国产在线观看| 在线免费观看的www视频| 别揉我奶头 嗯啊视频| 久久久成人免费电影| 欧美极品一区二区三区四区| 久久亚洲精品不卡| 亚洲国产精品久久男人天堂| 丰满的人妻完整版| 国产在视频线在精品| 国产成年人精品一区二区| 精品久久久久久久久久免费视频| 亚洲av美国av| 成人一区二区视频在线观看| 十八禁网站免费在线| 免费人成在线观看视频色| 国产高清视频在线观看网站| 国产成人a区在线观看| 国产精品一区二区三区四区久久| 精品久久久噜噜| 亚洲熟妇中文字幕五十中出| 欧美一级a爱片免费观看看| 国产欧美日韩精品亚洲av| 成人综合一区亚洲| 亚州av有码| 久久人妻av系列| 十八禁网站免费在线| 如何舔出高潮| 欧美一区二区精品小视频在线| 欧美性猛交黑人性爽| 亚洲欧美日韩高清专用| 国产 一区 欧美 日韩| 久久久久久九九精品二区国产| 国产一区二区激情短视频| 99在线视频只有这里精品首页| 午夜福利成人在线免费观看| 欧美3d第一页| 色综合婷婷激情| 国产真实伦视频高清在线观看 | 日韩一区二区视频免费看| 在线免费观看的www视频| 亚洲天堂国产精品一区在线| 久久99热这里只有精品18| 精品久久久久久成人av| 免费电影在线观看免费观看| 亚洲第一电影网av| 日日撸夜夜添| 精品久久久噜噜| 国产一区二区亚洲精品在线观看| av专区在线播放| 国产精品一及| 国产精品电影一区二区三区| 可以在线观看毛片的网站| 成人国产麻豆网| 精品久久久久久久久久久久久| 热99在线观看视频| 亚洲第一电影网av| 国产不卡一卡二| 亚洲久久久久久中文字幕| 久久99热这里只有精品18| 亚洲欧美日韩高清在线视频| 国产一区二区在线av高清观看| 91在线观看av| 亚洲aⅴ乱码一区二区在线播放| 一个人看的www免费观看视频| 中国美女看黄片| 99久久久亚洲精品蜜臀av| 精品无人区乱码1区二区| 少妇被粗大猛烈的视频| 国内久久婷婷六月综合欲色啪| 婷婷色综合大香蕉| 黄色丝袜av网址大全| 99久久中文字幕三级久久日本| 可以在线观看毛片的网站| 美女xxoo啪啪120秒动态图| 国产精品无大码| 国产精品久久久久久av不卡| 又黄又爽又免费观看的视频| 99久久无色码亚洲精品果冻| 国产一级毛片七仙女欲春2| 99在线视频只有这里精品首页| 亚洲真实伦在线观看| 成人二区视频| 久久久久久伊人网av| 最近最新中文字幕大全电影3| 日本精品一区二区三区蜜桃| 成人精品一区二区免费|