• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于R軟件的網(wǎng)絡(luò)數(shù)據(jù)搜集方法

    2019-03-05 06:01:18陳晉泰
    統(tǒng)計與決策 2019年2期
    關(guān)鍵詞:信息

    金 林,李 研,陳晉泰

    (中南財經(jīng)政法大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,武漢430073)

    0 引言

    當(dāng)前在統(tǒng)計學(xué)和大數(shù)據(jù)領(lǐng)域流行的R軟件具備強大獲取數(shù)據(jù)的能力,而且表現(xiàn)出高效性、方便性和針對性等特點。R中擁有大量與網(wǎng)絡(luò)數(shù)據(jù)收集相關(guān)的包,通過調(diào)用電腦系統(tǒng)的組件,可以完成各種數(shù)據(jù)搜集的工作,十分高效。從方便性的角度說,搜集到的數(shù)據(jù)還可以直接在R的平臺上處理,簡化了整個數(shù)據(jù)分析工作流程;同時,R還善于處理數(shù)據(jù)的存儲,RMySQL和RHadoop等包可以與MySQL、Hadoop等數(shù)據(jù)庫進行交互,為大規(guī)模數(shù)據(jù)存儲和提取提供了條件;與當(dāng)下一些流行的菜單式操作的爬蟲軟件相比,R的數(shù)據(jù)搜集工作更具有針對性,旨在搜集特定網(wǎng)站的特定數(shù)據(jù),而并非像有些爬蟲在網(wǎng)頁中跳躍,跟蹤網(wǎng)絡(luò)足跡等,這樣一來收集到的數(shù)據(jù)就可以更好地為后面的統(tǒng)計分析服務(wù)。

    1 網(wǎng)頁數(shù)據(jù)自動化搜集流程

    使用R進行數(shù)據(jù)的自動化搜集,主要涉及兩個方面的工作:一是如何在不同情況下,從網(wǎng)絡(luò)服務(wù)器中檢索到所要的資源,這個工作涉及到的關(guān)鍵技術(shù)是HTTP協(xié)議的相關(guān)知識;二是如何從已經(jīng)得到的資源中提取信息,大部分表現(xiàn)為對網(wǎng)絡(luò)文檔的操作。但是,不論抓取的信息有多么復(fù)雜,抓取的流程都離不開以下基本步驟:

    (1)資源識別

    資源識別是決定搜集策略的前提。資源識別需要做以下幾個工作:確定目標(biāo)數(shù)據(jù)所在網(wǎng)頁及形式——是通過API獲取還是通過URL訪問網(wǎng)頁獲??;若是后者,其具體的URL(網(wǎng)頁地址)是什么,存在于單個網(wǎng)頁還是需要翻頁;如需翻頁,是否改變URL,抑或只能通過JavaScript控制翻頁。而若是利用API獲取的方法,API接口是免費開源的還是需要OAuth授權(quán)的。

    當(dāng)成功登陸網(wǎng)站之后,目標(biāo)數(shù)據(jù)是否以存在于現(xiàn)成的下載鏈接中?若其他情形,要視其數(shù)據(jù)存在于表格、列表中?是否需要通過表單的提交來獲取數(shù)據(jù)?

    當(dāng)這些都確定了之后,還需要判斷的是,是否目標(biāo)信息在某個網(wǎng)絡(luò)文檔的節(jié)點中?還是在某個節(jié)點中的某個屬性里?甚至僅僅是某個節(jié)點或者某個屬性的一部分?

    除此之外,還有一些細節(jié)的信息,例如網(wǎng)站數(shù)據(jù)的編碼形式。這些細節(jié)則貫穿于每一個步驟中,需要數(shù)據(jù)搜集者留意。當(dāng)了解了這些信息以后,資源識別才算基本完成。

    (2)策略選擇

    資源識別之后,需要根據(jù)資源識別結(jié)果選擇數(shù)據(jù)搜集的方法。一般而言,這些方法離不開一些網(wǎng)絡(luò)相關(guān)工具的基礎(chǔ)知識:例如HTTP和FTP協(xié)議的訪問知識,HTML網(wǎng)頁的結(jié)構(gòu)、XML文檔結(jié)構(gòu)、JSON文檔結(jié)構(gòu)的基本知識以及處理方式;當(dāng)目標(biāo)信息值在于某個節(jié)點、節(jié)點屬性、甚至是節(jié)點屬性的一部分中,還需要掌握XPath,正則表達式等提取工具的相關(guān)知識。

    (3)信息抓取

    當(dāng)確定了策略,并確定使用R進行數(shù)據(jù)搜集,還需掌握R語言基礎(chǔ),R的XML,RCurl,RSelenium,httr,rvest等軟件包,以及其中的函數(shù)。每一個函數(shù)都有對應(yīng)的功能,注意其中的參數(shù)細節(jié)會左右抓取最終結(jié)果。

    (4)通用化設(shè)計

    通用化設(shè)計是一個比較高的層次。數(shù)據(jù)信息往往分散在不同頁面或者同一頁面的某幾處,如何抓住其特征來制定可通用的搜集方式,需要操作者細致的觀察和過硬的技術(shù)。經(jīng)過通用化設(shè)計,一段代碼可以重復(fù)運行于不同網(wǎng)頁,可以極大減輕工作量。

    其完整流程可以用圖1表示。

    圖1 R軟件網(wǎng)絡(luò)數(shù)據(jù)搜集流程圖

    2 網(wǎng)頁基礎(chǔ)知識與網(wǎng)頁文檔處理技術(shù)

    (1)HTTP協(xié)議

    HTTP是超文本傳輸協(xié)議(HyperText Transfer Protocol),是互聯(lián)網(wǎng)中最廣泛使用的傳輸協(xié)議。此外,常用的傳輸協(xié)議還有FTP(文件傳輸協(xié)議)等。HTTP幾乎可以傳輸任何形式的資源。在HTTP傳輸?shù)男畔⒅?,需要?shù)據(jù)搜集操作者注意的是,其網(wǎng)頁信息獲?。ɑ蛱峤唬┑姆椒ㄖ?,最常用的有兩種:GET方法和POST方法。GET方法的特點是數(shù)據(jù)的傳輸都是通過URL,所以長度有所限制,但也因為如此較為方便;POST方法傳輸是通過文檔正文傳輸?shù)?,容量較大。HTTP傳輸協(xié)議在傳輸過程中,需要與服務(wù)器交換包括訪問者、訪問平臺、來源、訪問記錄、網(wǎng)頁狀態(tài)結(jié)果等各種信息。在R中,具體可以通過RCurl包中的getCurlHandle()函數(shù)來構(gòu)造并提交信息。

    (2)XML包對HTML的基本處理

    HTML是網(wǎng)頁結(jié)構(gòu)標(biāo)準架構(gòu),全稱是超文本標(biāo)記語言(Hyper Text Markup Language),用于展示網(wǎng)頁結(jié)構(gòu)內(nèi)容,其特色是嵌套式的標(biāo)記結(jié)構(gòu)。HTML的標(biāo)記結(jié)構(gòu)將網(wǎng)頁文本組織起來,用以指定文本中的某些特定結(jié)構(gòu)部分:如標(biāo)題、鏈接、內(nèi)容、表格等,用來告訴“網(wǎng)頁解析器”(用于解析網(wǎng)頁源代碼)網(wǎng)頁文檔各個部分的作用和展示方式,仿佛是承載整個網(wǎng)頁信息的“貨架”。要看懂HTML,重要的是要看懂它的標(biāo)簽——各個標(biāo)簽通過層層嵌套或并列的方式組織了HTML。常見的HTML標(biāo)簽有

    處理HTML和XML一樣,常常可以解析為DOM樹。DOM樹全稱是文檔對象模型(Document Object Model),可以被簡單理解為“用樹形圖的形式將節(jié)點元素標(biāo)簽組織起來”。它將網(wǎng)頁中的各個元素看作各個對象,故而能被單獨提取和編輯。基于這個特點,對于節(jié)點標(biāo)簽的操作,常常將其解析為DOM樹。

    XML包是R中網(wǎng)頁信息提取的主要軟件包,有著各類網(wǎng)絡(luò)文檔處理函數(shù)。對于HTML,常見的處理方式有節(jié)點選擇與丟棄。將HTML解析為DOM以后,將無用的節(jié)點丟棄,就得到有用的節(jié)點。例如想得到網(wǎng)頁源代碼的

    (3)XML包對XML文檔的基本處理

    XML文檔和HTML文檔作用不同:HTML主要用于展示數(shù)據(jù),XML文檔則主要是用以存放數(shù)據(jù)。但從形式上看,二者十分相似,都是層層嵌套的形式,不允許交叉嵌套。不同的是XML標(biāo)簽內(nèi)容可以自定義。任何標(biāo)簽名稱都是允許的,只要將他們按照層次嵌套起來即可。只要理解了HTML,理解XML文檔相當(dāng)容易。

    同HTML一樣,XML也可以解析為DOM樹,再通過操作每一個節(jié)點標(biāo)簽內(nèi)的內(nèi)容完成提取。R中XML文檔專用的解析函數(shù)是xmlParse()。此外,XML還有一個特殊的函數(shù):xmlRoot(),它通過尋找根節(jié)點的方式將解析后的XML結(jié)構(gòu)化,按照其標(biāo)簽嵌套層次將XML細分。這樣節(jié)點層次、節(jié)點數(shù)量、嵌套模式,十分清晰:每一個節(jié)點都被清楚的分離便于定位,因此操作也變得相當(dāng)容易。

    (4)RJOSNIO包對JOSN文檔的基本處理

    JSON文檔同XML文檔一樣,都可以用于存儲網(wǎng)絡(luò)數(shù)據(jù),JSON常用于網(wǎng)絡(luò)應(yīng)用接口API,一般比XML更輕量。相比之下,XML格式統(tǒng)一,更容易與其他系統(tǒng)進行遠程交互和數(shù)據(jù)共享,但XML文件更龐大而且結(jié)構(gòu)復(fù)雜,需要占用更多的存儲空間。JSON的格式數(shù)據(jù)較簡單,方便網(wǎng)絡(luò)存儲和讀取。

    R中的RJOSNIO、rjson、jsonlite包都可以用來處理JOSN格式的文檔,其中RJOSNIO最為常用。RJOSNIO中的fromJSON()函數(shù)可以用來將JSON的內(nèi)容,按照其結(jié)構(gòu)層次劃分為列表,且每個層次都支持編輯。當(dāng)訪問列表中的每一層,便能找到所需要的信息。

    不論是HTML,XML還是JSON,都是有一定結(jié)構(gòu)層次的文檔。而R軟件在解析它們并提取數(shù)據(jù)的時候,不論面對何種文檔、使用何種方法,無不是建立在其結(jié)構(gòu)性特點的基礎(chǔ)上,將他們按照結(jié)構(gòu)節(jié)點分離成列表或其他形式,讓這些部分都接受直接編輯,而使得操作者可以獲得所需信息。

    (5)正則表達式

    正則表達式將文本視為無規(guī)則結(jié)構(gòu)(即直接看成是字符的堆疊),按照正則表達式的匹配規(guī)則,從文檔中匹配出其符合規(guī)則的內(nèi)容。正則表達式有各種元字符,如、^、$、?等。是否使用正則表達式需關(guān)注:目標(biāo)數(shù)據(jù)之間是否由明顯的共同點,而與非目標(biāo)數(shù)據(jù)之間是否由明顯的區(qū)別。

    正則表達式抓取網(wǎng)頁內(nèi)容有其獨特優(yōu)點:它能對非標(biāo)準格式的網(wǎng)頁源代碼進行處理;另外,也能適用于網(wǎng)頁抓取后的冗雜信息處理工作。從另一角度看,正則表達式的使用的劣勢在于,當(dāng)“網(wǎng)頁結(jié)構(gòu)”也是必要信息時,正則表達式在操作過程中將其破壞了。因此,正則表達式的最佳使用場景應(yīng)該是在常規(guī)辦法無能為力的不規(guī)則網(wǎng)頁中與數(shù)據(jù)形態(tài)清理工作,如字符替換、字符刪除、字符串拆分等。在實際應(yīng)用中,網(wǎng)頁文檔結(jié)構(gòu)不完整,甚至結(jié)構(gòu)錯誤是常有的,平時之所以不明顯,是因為瀏覽器有一定的容錯能力。但R軟件中的網(wǎng)頁解析器卻沒有這樣的功能,在這種情況下就可以使用正則表達式來處理網(wǎng)頁內(nèi)容。

    (6)Xpath工具

    Xpath是XML文檔路徑語言。其抓取數(shù)據(jù)的細節(jié)與正則表達式相似,但Xpath是建立在文檔的結(jié)構(gòu)性的基礎(chǔ)上的,可以理解為:Xpath通過網(wǎng)絡(luò)文檔的結(jié)構(gòu)描述目標(biāo)的“地址”。關(guān)于Xpath的具體方法有很多,常用的是絕對路徑、相對路徑和謂語。絕對路徑,是按照結(jié)構(gòu)層次一層不落的索引到目標(biāo)標(biāo)簽上的;而相對路徑,則是缺省了某個或某些層次,一般用“//”或“/*/”符號代替。相對路徑因為有缺省,故而可能有多個節(jié)點滿足,則Xpath會同時定位到多個節(jié)點上。使用絕對路徑相對有個優(yōu)點就是返回結(jié)果是唯一的,當(dāng)定位成功后查找便終止;而相對路徑書寫輕松,卻會遍歷整個DOM樹。

    3 不同情境下網(wǎng)絡(luò)數(shù)據(jù)搜集策略

    3.1 通過R訪問到目的信息所在的網(wǎng)站

    (1)操作URL訪問多個界面

    這是R軟件進行網(wǎng)絡(luò)數(shù)據(jù)搜集的主要應(yīng)用場景。批量下載數(shù)據(jù)是一種重復(fù)性的工作,往往是對多個界面中某些有規(guī)律信息的下載。操作者可以通過觀察URL規(guī)律,手動構(gòu)造URL進行數(shù)據(jù)訪問。例如,很多URL,都有“page=xxxx”這樣的形式,通過提交page參數(shù)來決定URL返回到某頁。又例如,很多新聞網(wǎng)站,都有著“/2016/”“/2017/”這些有規(guī)律的字樣。這些都是URL提交的參數(shù),用以返回特定的搜索結(jié)果。而理解這樣的參數(shù)并不難??梢哉业竭@樣的規(guī)律,通過stringr包的幫助,手動構(gòu)建URL集合,實現(xiàn)對多個界面的訪問。

    (2)動態(tài)網(wǎng)頁和RSelenium包

    很多網(wǎng)頁應(yīng)用了動態(tài)頁面技術(shù),即AJAX技術(shù)。AJAX即異步JavaScript和XML,是一種動態(tài)網(wǎng)站的構(gòu)建技術(shù),即使用JavaScript控制,可以只更新網(wǎng)頁部分內(nèi)容的一種技術(shù)。在網(wǎng)頁數(shù)據(jù)搜集的工作中,這門技術(shù)給設(shè)置的障礙最大的地方常常是翻頁和頁面滾動等。例如一些購物網(wǎng)站的商品評價,翻頁之后,內(nèi)容改變了,URL卻是不改變。又如部分網(wǎng)站剛剛打開界面時頁面是不全的,之后把頁面下拉至底部的時候,其余部分才會加載。

    對于翻頁問題,有兩個常用方法。由于動態(tài)網(wǎng)頁是有數(shù)據(jù)庫支持的,故而可通過查看JavaScript代碼找到數(shù)據(jù)庫,直接訪問數(shù)據(jù)庫。另一個方法是模擬瀏覽器的方法。第一個方法的可行性不高,幾乎沒有任何正規(guī)網(wǎng)站會愿意讓訪客直接訪問其數(shù)據(jù)庫。相對而言,第二個方法比較簡單可行。

    而使用第二種方法工作,需要下載Selenium軟件。Selenium服務(wù)器是用于測試瀏覽器①一般,Selenium只能用于檢測Firefox,chrome,IE等部分瀏覽器,而非全部。的。它的測試方式是通過JavaScript模擬真實用戶對瀏覽器進行操作。而這個特性,正好滿足第二種方法的需求。只要利用R調(diào)用Selenium服務(wù)器,便可以間接控制瀏覽器,模擬真實用戶運行瀏覽器。RSelenium軟件包會幫助操作者實現(xiàn)對Selenium軟件的調(diào)用。

    當(dāng)R代碼運行的時候,瀏覽器會如同有人操作一般自動彈出一個新窗口,并跟隨代碼命令而動。如果同時打開命令界面,可以看到命令界面工作的過程。這種模擬瀏覽器的方式的特點是方便,它也可用于操作靜態(tài)頁面。但是靜態(tài)頁面是不建議這樣做的,因為這種操作方式的速度較慢。

    3.2 通過API檢索數(shù)據(jù)

    API的全稱為應(yīng)用程序編程接口,是有些平臺如新浪微博、推特等,用于方便程序員搭建應(yīng)用時從平臺獲取數(shù)據(jù)。API有兩個標(biāo)準,一個是表征狀態(tài)轉(zhuǎn)移REST和簡單對象訪問協(xié)議SOAP。現(xiàn)在一般是使用REST。其中,表征文檔是HTML、XML、JSON等實際存儲數(shù)據(jù)的文檔,而交流的方式和網(wǎng)頁交流的方式一樣,一般為GET或POST。簡單的說,就是通過GET或POST(有時還有PUT和DELECT)這樣的方式,來交換數(shù)據(jù)信息。而這樣的數(shù)據(jù)信息,存在于各表征文檔中。

    通過API訪問網(wǎng)站數(shù)據(jù)可以分為無需密碼的API訪問和需要身份驗證的API訪問。無需密碼的API訪問:對于一個REST式API的GET請求,和網(wǎng)頁的GET請求的不同之處,在于API響應(yīng)的只有數(shù)據(jù)文檔內(nèi)容。對于API得到的文件,可以由其具體的形式確定處理辦法。目前,JSON文檔成為了API中信息的主流存儲模式。只要訪問API成功,剩下的工作就視其文檔類型而定。有些時候,API獲取信息會遇到身份驗證,這就是OAuth身份驗證。訪問者需提供消費者密鑰,用以限制權(quán)限,訪問量以及追蹤數(shù)據(jù)。OAuth是個重要的授權(quán)標(biāo)準,例如新浪微博API就采取了OAuth驗證。為了獲取API的OAuth,操作者可以事先申請一個應(yīng)用,通過這個應(yīng)用申請OAuth密鑰。這是一個比較直接的方法。R包“httr”中有一套組件是用于OAuth證書申請的。利用這些函數(shù),可以進行OAuth驗證的相關(guān)操作。

    3.3 從網(wǎng)頁中獲取信息

    (1)下載鏈接中現(xiàn)成可閱的文件

    有些重要的數(shù)據(jù),網(wǎng)站會提供鏈接以供下載,下載后便是例如PDF、csv等可閱讀的文件。R參與這種情景,往往是因為鏈接很多或分布在各個界面。XML包里有一個合適的工作函數(shù)即getHTMLLinks(),可以用來在HTML網(wǎng)頁里識別鏈接。通過這個函數(shù),便可利用R中的download.file()或者getBinaryURL()(試用二進制數(shù)據(jù),例如PDF,圖片等)進行下載。操作者還可以使用FTP協(xié)議。利用FTP進行文件下載,會自動的略去HTML的布局等無關(guān)信息。同樣,F(xiàn)TP協(xié)議下的網(wǎng)頁也可以直接使用getURL函數(shù)訪問。

    (2)從HTML網(wǎng)頁采集列表、表格信息及其他信息

    R軟件搜集位于網(wǎng)頁源代碼中的數(shù)據(jù),往往是有價值,因此,專業(yè)的網(wǎng)站設(shè)計者也會用列表、表格等清晰的展現(xiàn)形式。所以,下載網(wǎng)頁中的表格是十分常見的工作,故而R中有一套專門采集這些信息的組件、函數(shù)。XML包中有著readHTMLLis(t)函數(shù)和getHTMLTable()函數(shù),它們分別可用于鏈接獲取和表格獲取。

    不過,在同一個網(wǎng)頁中,列表或者表格多達到數(shù)十個甚是數(shù)百個是很正常的,而且,很多表格沒有名稱,所以Xpath對所在表格進行定位是很必要的。Xpath路徑可以通過參數(shù)的傳遞被函數(shù)所使用,從而對象(表格、列表、鏈接)獲取固定在某個子范圍內(nèi)。當(dāng)有些信息不存在與表格或列表中,可以按照前文HTML文檔處理的方式進行搜集。

    (3)處理HTML表單

    有時信息需要通過站內(nèi)搜索或者全網(wǎng)搜索來獲取。這就是HTML表單的處理。表單對話的方式很多,但是可以這樣簡單的理解:訪問者提交某些參數(shù),服務(wù)器篩選后返回符合這些參數(shù)的結(jié)果集合給訪問者。只不過,常用的提交方法GET和POST的區(qū)別在于,GET提交方法中,參數(shù)被用于組合成一定形式的URL,而POST提交方法中這些參數(shù)是通過正文發(fā)送而已。所要做的,找到表單(即找到表單的節(jié)點標(biāo)簽

    一個網(wǎng)頁表單是GET請求的還是POST請求的,可以通過標(biāo)簽

    而POST傳輸風(fēng)格大致有兩種,一種是url-encoded,優(yōu)點是方便快捷,另一種是multipart,特長在于傳輸大文件。它們在

    因為表單操作的常見,有人開發(fā)了RHTMLForms包(或rvest包中的html_form()函數(shù)),可以迅速處理它。利用這兩個組件進行表單的處理,事實上與經(jīng)過瀏覽器解析的可視化的網(wǎng)頁內(nèi)容無異,只是展示方式有變化而已,但仍然十分易于理解。rvest包處理表單和RHTMLForms包相比,差別只在于顯示了hidden的參數(shù)也寫了出來。

    (4)常用軟件包的選擇

    R軟件網(wǎng)絡(luò)數(shù)據(jù)搜集的工具函數(shù)包常用的有XML,rvest,httr和RCurl。其中,功能最強大的是XML包,它幾乎可以完成所有任務(wù)。而rvest包相對簡單易懂,按照樹形結(jié)構(gòu)一層一層往下搜索,利用符號“%>%”連接各層,直至到達目的資源處。目前,使用最多的是XML和rvest。但是他們又各有不可替代的地方。rvest最大的問題在于其只能作用于靜態(tài)網(wǎng)頁,且rvest對于網(wǎng)頁編碼混亂的網(wǎng)頁處理能力稍弱。而httr適合用于API中的OAuth身份驗證。

    4 實例

    下面以搜集中國土地網(wǎng)的市場信息數(shù)據(jù)為例展示利用R收集網(wǎng)絡(luò)數(shù)據(jù)的過程。

    (1)資源識別:打開中國土地網(wǎng)網(wǎng)址(http://www.landchina.com/default.aspx?tabid=264&ComName=default),可以看到基本結(jié)構(gòu):表格展示了市場交易信息的標(biāo)題以及所在鏈接,共有200頁開放可閱,每頁有30條記錄。翻頁的時候是通過JavaScript控制的,且URL不變。通過表格中的鏈接到新的網(wǎng)頁頁面,可以獲取每個交易的具體信息,而具體信息又是以網(wǎng)頁表格形式存在的。這里,中文編碼方式為GB2312。

    (2)策略選擇:A。使用RSelenium中remoteDriver()遠程調(diào)用Firefox瀏覽器,并打開URL→B。獲取并解析網(wǎng)頁源代碼→C.readHTMLTable()獲取表格,設(shè)置參數(shù)elfun=getHTMLLinks,獲取鏈接→D。使用write.table()將鏈接保存到URI.txt中,為了將鏈接放置同一個文檔中,便于調(diào)用,設(shè)置參數(shù)append=T,quote=F→E。使用Relenium中的findElemen(t)函數(shù)找到翻頁按鈕。

    循環(huán)CDE三個步驟200次,便可獲取所有鏈接。當(dāng)搜集到所有鏈接之后,通過設(shè)置函數(shù)批量訪問鏈接,使用readHTMLTable獲取表格內(nèi)容,并逐一保存為csv。

    (3)信息搜集。按上述步驟進行收集,發(fā)現(xiàn)兩個問題:使用RSelenium翻頁失敗之后鏈接獲取失敗??梢圆扇∶糠撘淮蔚却?秒:Sys.sleep(5)來解決。使用readHTMLTable()之后出現(xiàn)亂碼。使用rvest包進行搜集:代碼主干 為“l(fā)and_content>%html_node(“table.theme”)% >%html_table(header=T,trim=F,fill=T)”。

    這樣可搜集到市場交易信息200×30=6000條,包括了土地交易金額,地點,交易時間,用途等有用信息。這些信息可以用于統(tǒng)計分析,例如土地價格的影響因素、土地價格的分布情況等問題。

    5 結(jié)束語

    本文概述了使用R軟件進行網(wǎng)絡(luò)數(shù)據(jù)搜索的方法以及常用軟件包及其函數(shù),并展示了一個搜集示例。一般而言,這些方法可以收集95%以上的網(wǎng)絡(luò)信息抓取。目前,R軟件對于需要驗證碼的網(wǎng)頁登錄尚能力不足。在網(wǎng)絡(luò)數(shù)據(jù)搜集的過程中可以發(fā)現(xiàn),很多網(wǎng)頁都不歡迎爬蟲,因為爬蟲會增加服務(wù)器的工作負荷,或涉及商業(yè)利益相關(guān)的信息。

    合法合理的操作者應(yīng)該仔細閱讀網(wǎng)絡(luò)機器人排除協(xié)議robots.txt,它規(guī)定了一些禁止抓取的信息。除此之外,在搜集數(shù)據(jù)的工作中,要養(yǎng)成良好習(xí)慣:能手動搜集則不動用爬蟲,有API先用API;當(dāng)確定要在網(wǎng)頁中搜集時,盡量使用R軟件包搜集;不能使用R軟件包搜集的,再自己創(chuàng)造包裝函數(shù);搜集盡量少的數(shù)據(jù)以節(jié)約網(wǎng)站流量,切勿大包大攬。

    還有一個常見的問題是在中文爬蟲的過程中經(jīng)常出現(xiàn)的亂碼問題。網(wǎng)頁傳輸?shù)男畔⒍冀?jīng)過了編碼,要閱讀這些信息則需要解碼。在這個過程中,包括獲取網(wǎng)頁信息,解析網(wǎng)頁等一系列過程,如果出現(xiàn)了問題,就會出現(xiàn)亂碼。亂碼原因常見的有,編碼與解碼規(guī)則不同。中文編碼一般有UTF-8,GB2312,GB18030,UBK等,編碼模式可以在網(wǎng)頁中的

    猜你喜歡
    信息
    訂閱信息
    中華手工(2017年2期)2017-06-06 23:00:31
    展會信息
    中外會展(2014年4期)2014-11-27 07:46:46
    信息超市
    展會信息
    展會信息
    展會信息
    展會信息
    展會信息
    信息
    健康信息
    祝您健康(1987年3期)1987-12-30 09:52:32
    99国产综合亚洲精品| 日韩国内少妇激情av| 纯流量卡能插随身wifi吗| 妹子高潮喷水视频| 欧美日韩黄片免| 精品一区二区三区视频在线观看免费| 国产一区二区三区视频了| 男人舔女人的私密视频| 亚洲伊人色综图| 啦啦啦免费观看视频1| 男人舔女人下体高潮全视频| 午夜福利一区二区在线看| 美女高潮喷水抽搐中文字幕| 88av欧美| 国产成人精品在线电影| 男女下面插进去视频免费观看| 香蕉丝袜av| 久久久久久久久久久久大奶| 一边摸一边抽搐一进一小说| tocl精华| 亚洲人成伊人成综合网2020| 老司机午夜福利在线观看视频| 国产精品一区二区在线不卡| 18美女黄网站色大片免费观看| 两个人视频免费观看高清| 亚洲久久久国产精品| 久久久国产精品麻豆| 亚洲欧美一区二区三区黑人| 中国美女看黄片| 日韩有码中文字幕| 欧美中文日本在线观看视频| 国产av一区在线观看免费| 黄片播放在线免费| 国产1区2区3区精品| 中文字幕精品免费在线观看视频| 侵犯人妻中文字幕一二三四区| 每晚都被弄得嗷嗷叫到高潮| 欧美日本亚洲视频在线播放| 男人舔女人下体高潮全视频| 亚洲熟妇中文字幕五十中出| videosex国产| 久久精品国产亚洲av高清一级| 在线观看午夜福利视频| 在线观看日韩欧美| 在线av久久热| 午夜成年电影在线免费观看| 50天的宝宝边吃奶边哭怎么回事| 久久久久久久久中文| 激情在线观看视频在线高清| 国产99白浆流出| 亚洲精品一区av在线观看| 精品一品国产午夜福利视频| 国产精品二区激情视频| 国产精品自产拍在线观看55亚洲| 欧美在线一区亚洲| 国产av又大| 成人国语在线视频| 一二三四社区在线视频社区8| 一个人免费在线观看的高清视频| 久久久久久久久久久久大奶| 久久久精品国产亚洲av高清涩受| 日本在线视频免费播放| 日日爽夜夜爽网站| 精品卡一卡二卡四卡免费| 老熟妇乱子伦视频在线观看| 老汉色∧v一级毛片| 国产男靠女视频免费网站| 久热这里只有精品99| 国产亚洲欧美在线一区二区| 高清黄色对白视频在线免费看| 又大又爽又粗| 非洲黑人性xxxx精品又粗又长| 国产亚洲欧美精品永久| 久久国产精品人妻蜜桃| netflix在线观看网站| 国产乱人伦免费视频| 欧美+亚洲+日韩+国产| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲第一青青草原| 亚洲精品美女久久av网站| 日本免费a在线| 成人手机av| 成年女人毛片免费观看观看9| 国产日韩一区二区三区精品不卡| 91在线观看av| 久久香蕉精品热| 久久国产乱子伦精品免费另类| 亚洲成人国产一区在线观看| 亚洲狠狠婷婷综合久久图片| 午夜福利在线观看吧| 久久这里只有精品19| 成人18禁在线播放| 精品久久久精品久久久| 国产亚洲av高清不卡| 午夜福利18| 人人妻人人爽人人添夜夜欢视频| 日本免费a在线| 好男人在线观看高清免费视频 | 国产成人精品久久二区二区91| 国产欧美日韩一区二区精品| 欧美国产日韩亚洲一区| 亚洲精品av麻豆狂野| 熟妇人妻久久中文字幕3abv| 亚洲欧美激情在线| 97碰自拍视频| 欧美午夜高清在线| 免费高清在线观看日韩| 久久久久久久久久久久大奶| bbb黄色大片| 亚洲男人的天堂狠狠| 可以在线观看毛片的网站| 女人爽到高潮嗷嗷叫在线视频| 夜夜看夜夜爽夜夜摸| 美女大奶头视频| 亚洲一码二码三码区别大吗| 高清在线国产一区| 丝袜在线中文字幕| 亚洲精品国产精品久久久不卡| 成年人黄色毛片网站| 精品国内亚洲2022精品成人| 搡老岳熟女国产| 日本 欧美在线| 欧美大码av| 亚洲精品国产区一区二| 日韩视频一区二区在线观看| 午夜成年电影在线免费观看| 18禁观看日本| 亚洲国产欧美一区二区综合| 99精品在免费线老司机午夜| 国产三级在线视频| 这个男人来自地球电影免费观看| 亚洲中文日韩欧美视频| 在线观看免费视频网站a站| 麻豆av在线久日| 高潮久久久久久久久久久不卡| 一进一出抽搐gif免费好疼| 国产成人精品在线电影| 亚洲精品国产色婷婷电影| 亚洲精品国产区一区二| 亚洲av熟女| 91大片在线观看| 一进一出抽搐gif免费好疼| 俄罗斯特黄特色一大片| 久久伊人香网站| 精品国产亚洲在线| 叶爱在线成人免费视频播放| 欧洲精品卡2卡3卡4卡5卡区| 日韩精品青青久久久久久| 制服丝袜大香蕉在线| 多毛熟女@视频| 动漫黄色视频在线观看| 久久人妻福利社区极品人妻图片| 成人三级做爰电影| 女同久久另类99精品国产91| 91精品三级在线观看| 在线观看午夜福利视频| 女警被强在线播放| 日韩精品免费视频一区二区三区| 99精品欧美一区二区三区四区| 亚洲一码二码三码区别大吗| www.www免费av| 黄色视频不卡| 1024香蕉在线观看| 老鸭窝网址在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 搡老熟女国产l中国老女人| 波多野结衣高清无吗| 色综合站精品国产| 欧美日韩一级在线毛片| 怎么达到女性高潮| 激情视频va一区二区三区| 欧美乱色亚洲激情| 熟女少妇亚洲综合色aaa.| 热99re8久久精品国产| 啪啪无遮挡十八禁网站| 啦啦啦 在线观看视频| 视频区欧美日本亚洲| 99国产综合亚洲精品| 视频在线观看一区二区三区| 国产区一区二久久| 精品国内亚洲2022精品成人| 亚洲欧美日韩另类电影网站| 啦啦啦免费观看视频1| 大陆偷拍与自拍| 国产成人一区二区三区免费视频网站| xxx96com| 老熟妇乱子伦视频在线观看| 亚洲美女黄片视频| 欧美日韩亚洲综合一区二区三区_| 桃色一区二区三区在线观看| 欧美日韩黄片免| 精品国产乱码久久久久久男人| 最新美女视频免费是黄的| 亚洲伊人色综图| 中亚洲国语对白在线视频| 中文字幕久久专区| 村上凉子中文字幕在线| 国产亚洲av嫩草精品影院| 国产亚洲精品综合一区在线观看 | 久久久久国产精品人妻aⅴ院| 男人舔女人下体高潮全视频| 欧美在线一区亚洲| 久久伊人香网站| 亚洲国产欧美日韩在线播放| 母亲3免费完整高清在线观看| 日韩大尺度精品在线看网址 | 91大片在线观看| 人人妻,人人澡人人爽秒播| 18美女黄网站色大片免费观看| 波多野结衣巨乳人妻| 精品人妻在线不人妻| 国产成人av教育| 欧美不卡视频在线免费观看 | 日韩欧美一区视频在线观看| 免费不卡黄色视频| 久久婷婷成人综合色麻豆| 亚洲欧美一区二区三区黑人| 久久国产亚洲av麻豆专区| 99re在线观看精品视频| 可以在线观看的亚洲视频| 亚洲av五月六月丁香网| 中文字幕另类日韩欧美亚洲嫩草| 怎么达到女性高潮| 日韩欧美一区视频在线观看| 中文字幕色久视频| 此物有八面人人有两片| 久久九九热精品免费| 久久精品亚洲熟妇少妇任你| 视频区欧美日本亚洲| 正在播放国产对白刺激| 美女免费视频网站| 在线观看免费视频日本深夜| 91成年电影在线观看| 亚洲精品国产色婷婷电影| 国产男靠女视频免费网站| 午夜福利视频1000在线观看 | 大香蕉久久成人网| 色老头精品视频在线观看| 亚洲中文av在线| 91麻豆av在线| 久久人人97超碰香蕉20202| 老鸭窝网址在线观看| 精品国产国语对白av| 日韩欧美三级三区| 色尼玛亚洲综合影院| 国产精品久久久久久亚洲av鲁大| 午夜精品久久久久久毛片777| 亚洲一区中文字幕在线| 丝袜美腿诱惑在线| 国产精品野战在线观看| 免费在线观看完整版高清| 久久精品国产99精品国产亚洲性色 | 国产精品99久久99久久久不卡| 久久久久久大精品| 精品国内亚洲2022精品成人| 岛国视频午夜一区免费看| 99久久综合精品五月天人人| 亚洲美女黄片视频| 国产麻豆成人av免费视频| 中文亚洲av片在线观看爽| 欧美激情高清一区二区三区| 中文字幕高清在线视频| 长腿黑丝高跟| 国产在线精品亚洲第一网站| 精品一品国产午夜福利视频| 亚洲欧美精品综合久久99| 欧美一区二区精品小视频在线| 久久亚洲真实| 午夜福利影视在线免费观看| 亚洲av电影在线进入| 91大片在线观看| 中文字幕人成人乱码亚洲影| 操美女的视频在线观看| 黑人巨大精品欧美一区二区蜜桃| 久99久视频精品免费| 国产亚洲精品久久久久久毛片| 欧美日韩乱码在线| 韩国av一区二区三区四区| 91麻豆精品激情在线观看国产| 99在线视频只有这里精品首页| 久久热在线av| 后天国语完整版免费观看| 色综合欧美亚洲国产小说| 日韩精品中文字幕看吧| 在线永久观看黄色视频| 成人免费观看视频高清| 在线观看免费视频网站a站| 国产极品粉嫩免费观看在线| 一边摸一边抽搐一进一出视频| 男女床上黄色一级片免费看| 免费不卡黄色视频| 动漫黄色视频在线观看| 露出奶头的视频| 欧美另类亚洲清纯唯美| 中文亚洲av片在线观看爽| 欧美日韩中文字幕国产精品一区二区三区 | 午夜福利视频1000在线观看 | 久久精品影院6| 欧美色视频一区免费| 黄片播放在线免费| 黑人巨大精品欧美一区二区蜜桃| 午夜亚洲福利在线播放| 亚洲av电影不卡..在线观看| 久热爱精品视频在线9| 国产精品一区二区三区四区久久 | 性色av乱码一区二区三区2| 少妇的丰满在线观看| 久久国产精品影院| 久久久水蜜桃国产精品网| 日本撒尿小便嘘嘘汇集6| 老熟妇乱子伦视频在线观看| 欧美黑人欧美精品刺激| 国产成人一区二区三区免费视频网站| 欧美不卡视频在线免费观看 | 一边摸一边做爽爽视频免费| 国产成人精品无人区| 精品国产国语对白av| 女生性感内裤真人,穿戴方法视频| 国产aⅴ精品一区二区三区波| 亚洲精品在线观看二区| 久久天躁狠狠躁夜夜2o2o| 最近最新中文字幕大全电影3 | 久久久久久久久免费视频了| 久久精品91蜜桃| 亚洲九九香蕉| 99香蕉大伊视频| 亚洲成国产人片在线观看| 又黄又粗又硬又大视频| 999久久久精品免费观看国产| 亚洲狠狠婷婷综合久久图片| 国产成人啪精品午夜网站| 动漫黄色视频在线观看| 国产精品爽爽va在线观看网站 | 亚洲人成电影观看| 成人精品一区二区免费| 精品国产一区二区三区四区第35| 亚洲精品久久国产高清桃花| 99国产精品99久久久久| 久久久久久大精品| 黑人操中国人逼视频| 视频区欧美日本亚洲| 国产激情欧美一区二区| 日韩三级视频一区二区三区| 日日摸夜夜添夜夜添小说| 国产一区二区三区综合在线观看| 可以在线观看毛片的网站| www.999成人在线观看| 制服人妻中文乱码| 欧美老熟妇乱子伦牲交| av天堂久久9| 男女做爰动态图高潮gif福利片 | 免费看a级黄色片| 99香蕉大伊视频| 悠悠久久av| 久久九九热精品免费| 激情视频va一区二区三区| 高清毛片免费观看视频网站| 亚洲中文字幕一区二区三区有码在线看 | 搡老熟女国产l中国老女人| 一个人免费在线观看的高清视频| 色播在线永久视频| 香蕉丝袜av| av电影中文网址| 极品教师在线免费播放| 欧美 亚洲 国产 日韩一| 国产伦人伦偷精品视频| 亚洲一区中文字幕在线| 久久天躁狠狠躁夜夜2o2o| 国产精品98久久久久久宅男小说| 18禁裸乳无遮挡免费网站照片 | 好男人电影高清在线观看| 好男人在线观看高清免费视频 | 亚洲精品美女久久av网站| 91老司机精品| 精品一品国产午夜福利视频| av福利片在线| av天堂在线播放| 99香蕉大伊视频| 纯流量卡能插随身wifi吗| 国产欧美日韩一区二区精品| 亚洲 国产 在线| 99精品久久久久人妻精品| 久久婷婷成人综合色麻豆| 精品欧美国产一区二区三| 欧美亚洲日本最大视频资源| 中国美女看黄片| 久热爱精品视频在线9| 这个男人来自地球电影免费观看| 不卡一级毛片| 18禁黄网站禁片午夜丰满| 午夜福利高清视频| e午夜精品久久久久久久| 国产三级在线视频| 色av中文字幕| 少妇被粗大的猛进出69影院| 最新美女视频免费是黄的| 中文字幕人成人乱码亚洲影| 国产成人一区二区三区免费视频网站| 成人特级黄色片久久久久久久| 性色av乱码一区二区三区2| 啦啦啦观看免费观看视频高清 | 性少妇av在线| 又紧又爽又黄一区二区| 少妇裸体淫交视频免费看高清 | 精品电影一区二区在线| 久久亚洲真实| 91九色精品人成在线观看| 国产精品免费一区二区三区在线| 两人在一起打扑克的视频| 亚洲中文字幕一区二区三区有码在线看 | 国产一区二区三区在线臀色熟女| 国产精品 欧美亚洲| 人人妻人人澡欧美一区二区 | 成人特级黄色片久久久久久久| av视频在线观看入口| 亚洲午夜理论影院| 长腿黑丝高跟| 欧洲精品卡2卡3卡4卡5卡区| 久久久国产欧美日韩av| 欧美黄色淫秽网站| 美女午夜性视频免费| 亚洲精品国产一区二区精华液| 久久精品aⅴ一区二区三区四区| 多毛熟女@视频| 国产精品免费一区二区三区在线| 日日摸夜夜添夜夜添小说| 日韩视频一区二区在线观看| 日韩精品中文字幕看吧| 嫁个100分男人电影在线观看| 精品国产超薄肉色丝袜足j| 99香蕉大伊视频| 亚洲伊人色综图| 中文字幕色久视频| 欧美午夜高清在线| 成人欧美大片| 午夜亚洲福利在线播放| 一二三四在线观看免费中文在| 亚洲欧美精品综合一区二区三区| 国产精品爽爽va在线观看网站 | 久热爱精品视频在线9| a级毛片在线看网站| 精品国产超薄肉色丝袜足j| 精品熟女少妇八av免费久了| av中文乱码字幕在线| 午夜老司机福利片| 亚洲国产精品sss在线观看| www.精华液| 久久中文看片网| 亚洲精品av麻豆狂野| 俄罗斯特黄特色一大片| 国产精品99久久99久久久不卡| 禁无遮挡网站| 亚洲专区中文字幕在线| 首页视频小说图片口味搜索| 久久亚洲精品不卡| 一级毛片女人18水好多| 嫩草影院精品99| 亚洲国产精品合色在线| 十八禁人妻一区二区| 99久久久亚洲精品蜜臀av| 国产成人av教育| 一级a爱片免费观看的视频| 亚洲国产中文字幕在线视频| 男女床上黄色一级片免费看| 91在线观看av| 最近最新免费中文字幕在线| 久久久久久人人人人人| 少妇的丰满在线观看| 丰满的人妻完整版| 黄色毛片三级朝国网站| 欧美成人性av电影在线观看| 日韩中文字幕欧美一区二区| 女警被强在线播放| 精品国产一区二区三区四区第35| 91老司机精品| 国内毛片毛片毛片毛片毛片| 麻豆成人av在线观看| 后天国语完整版免费观看| av中文乱码字幕在线| 国产成人啪精品午夜网站| 中文字幕人妻丝袜一区二区| 国产熟女xx| 一级片免费观看大全| 国产一级毛片七仙女欲春2 | 搞女人的毛片| 麻豆av在线久日| 国产精品综合久久久久久久免费 | ponron亚洲| 可以免费在线观看a视频的电影网站| 少妇被粗大的猛进出69影院| 国产1区2区3区精品| а√天堂www在线а√下载| 国产视频一区二区在线看| 国产麻豆成人av免费视频| 久久国产精品男人的天堂亚洲| 亚洲欧洲精品一区二区精品久久久| 久久香蕉国产精品| 日韩精品中文字幕看吧| 好男人在线观看高清免费视频 | 18禁美女被吸乳视频| 午夜两性在线视频| 性少妇av在线| 欧美午夜高清在线| 亚洲午夜理论影院| 视频在线观看一区二区三区| 此物有八面人人有两片| 国产精品 欧美亚洲| 国产午夜精品久久久久久| 国产精品乱码一区二三区的特点 | 91成人精品电影| 正在播放国产对白刺激| 国产一区二区三区在线臀色熟女| 黄色成人免费大全| 久久久精品国产亚洲av高清涩受| 男女做爰动态图高潮gif福利片 | 88av欧美| 国产免费男女视频| 欧美成狂野欧美在线观看| 亚洲美女黄片视频| 黑人欧美特级aaaaaa片| 中文字幕另类日韩欧美亚洲嫩草| 夜夜看夜夜爽夜夜摸| av片东京热男人的天堂| 在线永久观看黄色视频| 国产亚洲精品综合一区在线观看 | 日本免费a在线| 夜夜看夜夜爽夜夜摸| 国产亚洲欧美98| 久久精品国产清高在天天线| 韩国av一区二区三区四区| 丝袜人妻中文字幕| 亚洲av成人不卡在线观看播放网| 亚洲第一欧美日韩一区二区三区| 十八禁网站免费在线| 成人永久免费在线观看视频| www.www免费av| 国产男靠女视频免费网站| 中文字幕最新亚洲高清| 精品一区二区三区视频在线观看免费| 桃色一区二区三区在线观看| 国产91精品成人一区二区三区| 韩国av一区二区三区四区| a在线观看视频网站| 国产亚洲精品第一综合不卡| 欧美久久黑人一区二区| 日韩欧美免费精品| 成人特级黄色片久久久久久久| 最新在线观看一区二区三区| 男女床上黄色一级片免费看| 在线十欧美十亚洲十日本专区| 成年人黄色毛片网站| 亚洲第一av免费看| 91大片在线观看| 精品国产乱码久久久久久男人| 在线观看www视频免费| 少妇的丰满在线观看| 老汉色av国产亚洲站长工具| 欧美国产精品va在线观看不卡| tocl精华| av欧美777| 国产成人精品久久二区二区免费| 午夜福利在线观看吧| 免费看a级黄色片| 两个人看的免费小视频| 日韩欧美免费精品| 老汉色∧v一级毛片| 亚洲精品国产一区二区精华液| 精品乱码久久久久久99久播| 亚洲 欧美一区二区三区| or卡值多少钱| 欧美 亚洲 国产 日韩一| 亚洲av熟女| 亚洲欧美日韩另类电影网站| 两性夫妻黄色片| 此物有八面人人有两片| www国产在线视频色| 国产精品香港三级国产av潘金莲| 日韩欧美在线二视频| 日韩欧美三级三区| 一级毛片精品| 国产精品爽爽va在线观看网站 | 美女扒开内裤让男人捅视频| 国产精品,欧美在线| 中文字幕久久专区| 黄色视频,在线免费观看| 曰老女人黄片| 成年人黄色毛片网站| 神马国产精品三级电影在线观看 | 99在线人妻在线中文字幕| 欧美乱码精品一区二区三区| 日韩av在线大香蕉| 一边摸一边做爽爽视频免费| av福利片在线| 天天躁狠狠躁夜夜躁狠狠躁| 色尼玛亚洲综合影院| 亚洲av成人av| 国产成+人综合+亚洲专区| 亚洲精品久久国产高清桃花| 天天躁夜夜躁狠狠躁躁| 国产精品一区二区在线不卡| а√天堂www在线а√下载| 男人舔女人的私密视频| 久久影院123| 大型av网站在线播放| 久久久久亚洲av毛片大全| 国产成人av激情在线播放| 久久久久久久久久久久大奶| 国产三级在线视频| 啦啦啦韩国在线观看视频| 久久精品91无色码中文字幕| 欧美av亚洲av综合av国产av| 91精品国产国语对白视频| 在线观看免费日韩欧美大片| 午夜a级毛片| 国产熟女xx|