葉煉煉?
【摘要】??? 水產(chǎn)養(yǎng)殖在改善民生、增加農(nóng)民收入方面發(fā)揮了重要作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞,及憑經(jīng)驗(yàn)養(yǎng)殖的老辦法,在生產(chǎn)實(shí)踐中卻存在種種弊端,所生產(chǎn)的水產(chǎn)品難以滿足市場(chǎng)需求。本文介紹利用基于python的網(wǎng)絡(luò)爬蟲技術(shù)如何從各大電商網(wǎng)站獲取水產(chǎn)品價(jià)格數(shù)據(jù),為以后進(jìn)一步實(shí)現(xiàn)基于水產(chǎn)價(jià)格的大數(shù)據(jù)分析預(yù)測(cè)系統(tǒng)做數(shù)據(jù)收集準(zhǔn)備。
【關(guān)鍵詞】??? 水產(chǎn)養(yǎng)殖??? python??? 水產(chǎn)品價(jià)格??? 網(wǎng)絡(luò)爬蟲技術(shù)
前言:隨著大數(shù)據(jù)時(shí)代的來臨,信息技術(shù)領(lǐng)域的重點(diǎn)由“計(jì)算”轉(zhuǎn)為“數(shù)據(jù)”,不少計(jì)算機(jī)科學(xué)領(lǐng)域的著名學(xué)者或大師逐漸轉(zhuǎn)變成數(shù)據(jù)科學(xué)家。有學(xué)者認(rèn)為,數(shù)據(jù)科學(xué)將成為科學(xué)研究、認(rèn)識(shí)世界的第四范式隨著時(shí)間的推移和時(shí)代的不斷改革創(chuàng)新,“大數(shù)據(jù)”在很多的社會(huì)性工作當(dāng)中都得到了一定的應(yīng)用。我國是水產(chǎn)養(yǎng)殖大國,水產(chǎn)養(yǎng)殖產(chǎn)量占到了全世界的73%。在漁業(yè)發(fā)展中,傳統(tǒng)的養(yǎng)殖模式曾對(duì)我國水產(chǎn)品產(chǎn)量的快速增長起了重大作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞,及憑經(jīng)驗(yàn)養(yǎng)殖的老辦法,在生產(chǎn)實(shí)踐中卻存在種種弊端,所生產(chǎn)的水產(chǎn)品難以滿足市場(chǎng)需求。所以雖然在互聯(lián)網(wǎng)上有著豐富的水產(chǎn)品信息資源,但要成為有用的數(shù)據(jù),卻面臨著數(shù)據(jù)抓取和處理分析的難題。本文對(duì)大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行詳盡的闡述和分析,有利于后續(xù)水產(chǎn)價(jià)格的大數(shù)據(jù)分析預(yù)測(cè)系統(tǒng)的研究。
一、基于python的網(wǎng)絡(luò)爬蟲技術(shù)的基本敘述
1、網(wǎng)絡(luò)爬蟲技術(shù)的基本概念。所謂的網(wǎng)絡(luò)爬蟲技術(shù)(經(jīng)過實(shí)際調(diào)查可以發(fā)現(xiàn),這項(xiàng)技術(shù)又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),其實(shí)就是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲[1]。用簡單一點(diǎn)的方式來說,這項(xiàng)技術(shù)其實(shí)就是能夠利用網(wǎng)頁的連接地址,從而能夠完成自動(dòng)獲取網(wǎng)頁內(nèi)容,而用更加形象一點(diǎn)的方式進(jìn)行闡述的話,可以將如今的互聯(lián)網(wǎng)比作為一個(gè)巨大無比的蜘蛛網(wǎng),在此蜘蛛網(wǎng)當(dāng)中具有海量的信息和網(wǎng)頁,而網(wǎng)絡(luò)爬蟲技術(shù)能夠運(yùn)用自身的優(yōu)勢(shì),從而獲取到所有網(wǎng)頁的內(nèi)容。2、基于python的網(wǎng)絡(luò)爬蟲技術(shù)。所謂Python,其實(shí)就是一種跨平臺(tái)的計(jì)算機(jī)程序設(shè)計(jì)語言,是一種面向?qū)ο蟮膭?dòng)態(tài)類型語言,最初被設(shè)計(jì)用于編寫自動(dòng)化腳本(shell),隨著版本的不斷更新和語言新功能的添加,越來越多被用于獨(dú)立的、大型項(xiàng)目的開發(fā),而網(wǎng)絡(luò)爬蟲技術(shù)就屬于一種大型的項(xiàng)目,因此,在大數(shù)據(jù)的環(huán)境下進(jìn)行網(wǎng)絡(luò)爬蟲技術(shù)的研究和分析,python計(jì)算機(jī)程序語言可以說是一種最優(yōu)解了,如果可以將它的優(yōu)勢(shì)發(fā)揮出來,那么即使面對(duì)的是海量的信息檢索要求,這項(xiàng)技術(shù)也能夠在很短的時(shí)間內(nèi)完成工作,以此就說明,大環(huán)境數(shù)據(jù)下基于python的網(wǎng)絡(luò)爬蟲技術(shù)具有良好的抓取數(shù)據(jù)的能力[2]。
二、大數(shù)據(jù)環(huán)境下python網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用
1、爬蟲主程序模塊。在大數(shù)據(jù)的基本環(huán)境下,基于python的網(wǎng)絡(luò)爬蟲技術(shù)的主程序是非常重要的,此主程序模塊進(jìn)行細(xì)致區(qū)分的話,還包括三個(gè)模塊;首先是url管理器,這一模塊在實(shí)際的運(yùn)行過程當(dāng)中主要負(fù)責(zé)的是對(duì)網(wǎng)絡(luò)爬蟲url地址的精準(zhǔn)提取,然后根據(jù)搜索用戶的需求,來完成對(duì)已經(jīng)提取完成的url地址的處理(例如編輯以及刪除等等操作);其次就是網(wǎng)頁下載器模塊了,這一模塊主要負(fù)責(zé)的其實(shí)就是將rul管理器處理且編輯好的網(wǎng)頁下載(來自于萬維網(wǎng)),這樣用戶在下載完成之后,就能夠獲取到網(wǎng)頁當(dāng)中的內(nèi)容[3];最后就是解析器模塊了,這一模塊能夠?qū)崿F(xiàn)對(duì)網(wǎng)頁的信息的處理,并且能夠識(shí)別出其中最具有價(jià)值的內(nèi)容,當(dāng)信息的提取條件和用戶的搜索需求大致相對(duì)等的時(shí)候,網(wǎng)絡(luò)爬蟲就可以停止自身的工作了,在停止之后還能夠有效地保證獲取到的信息的質(zhì)量。
2、爬蟲實(shí)現(xiàn)流程。為了有效說明在大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)流程,本文將會(huì)舉出實(shí)際的事例以佐證爬蟲的實(shí)現(xiàn)流程;首先,要選取相應(yīng)的網(wǎng)絡(luò)地址作為爬蟲的處理對(duì)象[4],在這一步的操作當(dāng)中,需要模擬用戶的工作人員點(diǎn)擊網(wǎng)站當(dāng)中需要點(diǎn)進(jìn)去的頁面,并且,用戶還需要將檢索的要求輸入進(jìn)去,這樣爬蟲主程序模塊就能夠進(jìn)行分析的工作,隨后在短時(shí)間之內(nèi)利用python網(wǎng)絡(luò)爬蟲技術(shù),能夠?qū)崿F(xiàn)信息提取請(qǐng)求的發(fā)送,網(wǎng)頁下載打開之后,爬蟲就能夠?qū)⒕W(wǎng)頁當(dāng)中的各種信息進(jìn)行提取,在這一步操作之后,用戶可以將需要的信息保存至文件(格式多數(shù)為TXT或XLS),這樣就基本實(shí)現(xiàn)了爬蟲的實(shí)際工作流程了。在網(wǎng)絡(luò)爬蟲實(shí)際工作的過程當(dāng)中,所有爬蟲程序中的庫都去要進(jìn)行相關(guān)的導(dǎo)入處理。
結(jié)論:綜上所述,就是目前為止的大數(shù)據(jù)環(huán)境下基于python網(wǎng)絡(luò)爬蟲技術(shù)的大致敘述了,筆者在文中對(duì)python以及網(wǎng)絡(luò)爬蟲技術(shù)都進(jìn)行了一定的闡述和分析,并且還將網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)流程進(jìn)行了一定的介紹。在世界乃至國內(nèi),網(wǎng)絡(luò)技術(shù)的發(fā)展都是非常迅速的,在這種情況之下,大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)就更要進(jìn)行一定整理改進(jìn),這樣才能夠滿足水產(chǎn)品價(jià)格大數(shù)據(jù)環(huán)境下的數(shù)據(jù)需求。
參? 考? 文? 獻(xiàn)
[1]李培.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(6):1415-1420,1496.DOI:10.3969/j.issn.1672-9722.2019.06.028.
[2]陳樂.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J].電子世界,2018,(16):163,165.
[3]潘巧智,張磊.淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018,(5):41-42. DOI:10.3969/j.issn.1009-6833.2018.05.025.
[4]王碧瑤.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2017,(5):76.