• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究

    2020-08-13 11:26:55文成香李璋林
    數(shù)碼世界 2020年6期
    關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)站

    文成香 李璋林

    摘要:網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)也得到了廣泛普及和應(yīng)用。更多的用戶開(kāi)展運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)去獲取自身所需的信息,而過(guò)多的網(wǎng)絡(luò)爬蟲(chóng)會(huì)對(duì)網(wǎng)站的運(yùn)行造成一定的負(fù)擔(dān)和壓力。因此,信息時(shí)代背景下,為了更好的提升網(wǎng)站訪問(wèn)體驗(yàn)感和速度,降低網(wǎng)絡(luò)爬蟲(chóng)技術(shù)給網(wǎng)絡(luò)帶來(lái)的影響,從而提出有效的反爬蟲(chóng)技術(shù)和手段,滿足用戶對(duì)各種數(shù)據(jù)和信息的需求,給人們提供一個(gè)良好的網(wǎng)絡(luò)環(huán)境。本文根據(jù)網(wǎng)絡(luò)爬蟲(chóng)的內(nèi)涵,闡述了網(wǎng)站中常見(jiàn)的反爬蟲(chóng)技術(shù),并且提出了網(wǎng)絡(luò)爬蟲(chóng)應(yīng)對(duì)“反爬”網(wǎng)站的爬取對(duì)策。這樣能夠從根源上去杜絕惡意爬蟲(chóng)去網(wǎng)址訪問(wèn),這樣對(duì)網(wǎng)址的穩(wěn)定運(yùn)行以及數(shù)據(jù)保護(hù)有著重要的作用和意義。

    關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng) “反爬”網(wǎng)站 爬取策略

    引言

    信息技術(shù)的革新,現(xiàn)如今搜索引擎成為了人類獲取信息和數(shù)據(jù)的主要途徑。在搜索引擎過(guò)程中,釋放出來(lái)的網(wǎng)絡(luò)爬蟲(chóng)會(huì)占用大量的互聯(lián)網(wǎng)寬帶,并且造成網(wǎng)站訪問(wèn)速度變慢,甚至進(jìn)入網(wǎng)站“癱瘓”的狀態(tài),直接降低用戶對(duì)網(wǎng)站的訪問(wèn)體驗(yàn)感。針對(duì)上述問(wèn)題和現(xiàn)狀,很多網(wǎng)站都開(kāi)始采取一些有效手段去攔截網(wǎng)絡(luò)爬蟲(chóng)的爬取,由此誕生出反爬蟲(chóng)技術(shù),進(jìn)而為網(wǎng)站的正常運(yùn)行奠定基礎(chǔ)保障。

    一、網(wǎng)絡(luò)爬蟲(chóng)的內(nèi)涵

    1.網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)析

    所謂的網(wǎng)絡(luò)爬蟲(chóng)又稱之為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人。它是一個(gè)自動(dòng)獲取網(wǎng)頁(yè)的程序,作為搜索引擎的重要組成部分,可以隨時(shí)在特定網(wǎng)站上下載用戶所需的信息,其中涉及到了招聘、二手買賣信息等。網(wǎng)絡(luò)爬蟲(chóng)之所以叫網(wǎng)頁(yè)蜘蛛,是因?yàn)樗怯珊芏嗟某溄訕?gòu)成,所形成的完整網(wǎng),每進(jìn)入到一個(gè)網(wǎng)頁(yè)就可以獲取新的超鏈接,再進(jìn)行下一步的爬行搜索,獲取新的線索。信息時(shí)代的普及和發(fā)展,雖然滿足了人們對(duì)數(shù)據(jù)的需求,但是人們更加渴求于網(wǎng)絡(luò)爬蟲(chóng)的程序,比如企業(yè)信息爬蟲(chóng)、論文網(wǎng)站爬蟲(chóng)等。網(wǎng)絡(luò)爬蟲(chóng)給我們帶來(lái)了很多便利,在獲取所需數(shù)據(jù)時(shí),非搜索引擎也給網(wǎng)絡(luò)造成了不利的影響,直接降低了網(wǎng)絡(luò)運(yùn)行速度。首先,網(wǎng)絡(luò)爬蟲(chóng)程序訪問(wèn)網(wǎng)站的速度比起一般的網(wǎng)站訪問(wèn)速度要高的多,我們開(kāi)始設(shè)想如果大部分的用戶都去使用一個(gè)網(wǎng)站的數(shù)據(jù),并且同時(shí)運(yùn)用爬蟲(chóng)程序的獲取目標(biāo)網(wǎng)站,可想而知?jiǎng)荼貢?huì)增加網(wǎng)站的服務(wù)器的符合,也會(huì)導(dǎo)致目標(biāo)網(wǎng)絡(luò)擁堵,甚至產(chǎn)生網(wǎng)絡(luò)直接崩潰的現(xiàn)象,影響用戶對(duì)網(wǎng)站的體驗(yàn)。此外,大部分網(wǎng)絡(luò)里面的收益都來(lái)自于數(shù)據(jù),如果網(wǎng)站所有的數(shù)據(jù)被他人輕易提取且實(shí)用,那么會(huì)直接降低網(wǎng)站的收益。因此采取適當(dāng)?shù)木W(wǎng)站反爬手段和措施尤為重要。

    2.網(wǎng)絡(luò)爬蟲(chóng)搜索對(duì)策

    網(wǎng)絡(luò)爬蟲(chóng)在正常運(yùn)行過(guò)程中,其中URL隊(duì)列抓取是其中關(guān)鍵的一部分。其中抓取的先后順序十分重要,其中涉及到先抓取和后抓取哪個(gè)頁(yè)面,我們將排列URL順序的方法,稱之為抓取對(duì)策。其中最為常見(jiàn)的是廣度優(yōu)先搜索對(duì)策,在抓取中,以節(jié)點(diǎn)開(kāi)始,完成現(xiàn)目前層次搜索后再直接跳轉(zhuǎn)到下一個(gè)層次搜索。該種策略的實(shí)現(xiàn)方式十分簡(jiǎn)單。其次,關(guān)于深度搜索策略,這種策略的主要思想是從起始頁(yè)開(kāi)始,每條鏈接緊跟著一個(gè)鏈接,處理完成后線路后直接跳轉(zhuǎn)到下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。此外,反向鏈接策略指的是一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指定的數(shù)量,反向鏈接數(shù)的網(wǎng)頁(yè)內(nèi)容很容易受到其他推薦內(nèi)容的影響。因此,搜索引擎抓取系統(tǒng)會(huì)根據(jù)這個(gè)指標(biāo)去評(píng)價(jià)網(wǎng)頁(yè)的重要度,最終去確定網(wǎng)頁(yè)抓取的先后順序。

    二、網(wǎng)站中常見(jiàn)的反爬蟲(chóng)技術(shù)

    首先,我國(guó)網(wǎng)站中最常見(jiàn)的則是關(guān)于涉及到驗(yàn)證碼的反爬蟲(chóng)技術(shù),現(xiàn)有80%以上的網(wǎng)絡(luò)都會(huì)設(shè)置驗(yàn)證碼,其設(shè)置的目的是為了區(qū)分人類和計(jì)算機(jī)操作的行為,最早接觸的是圖片、數(shù)字以及滑動(dòng)驗(yàn)證碼。其次,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,提出了一種限制用戶行為的反爬蟲(chóng)技術(shù),現(xiàn)如今部分網(wǎng)站都會(huì)根據(jù)用戶的操作行為去判斷爬蟲(chóng)程序,如果在短暫的時(shí)間內(nèi)對(duì)一個(gè)網(wǎng)址進(jìn)行多次的訪問(wèn),又是同一個(gè)用戶反復(fù)的操作和訪問(wèn),亦或是訪問(wèn)的頁(yè)面固定,簡(jiǎn)單而言,就是直接體現(xiàn)出不像用戶訪問(wèn)的狀態(tài)。最后,通過(guò)分析日志的方式去判斷網(wǎng)頁(yè)爬蟲(chóng)不是一個(gè)實(shí)時(shí)的反爬蟲(chóng)手段,可以通過(guò)設(shè)置網(wǎng)站的流量瀏覽記錄去反映出用戶的真實(shí)訪問(wèn)狀態(tài),對(duì)于短期內(nèi)出現(xiàn)大量方位行為可以流量系統(tǒng)記錄的參考,在結(jié)合人工判斷的前提下,將惡意的爬蟲(chóng)訪問(wèn)拉入黑名單。此外,還可以通過(guò)設(shè)置網(wǎng)絡(luò)路由器、防火墻等方式,去約束網(wǎng)站被訪問(wèn)的網(wǎng)段。但是通過(guò)網(wǎng)絡(luò)設(shè)備去識(shí)別IP,這樣可能會(huì)提升誤傷的概率。

    三、網(wǎng)絡(luò)爬蟲(chóng)應(yīng)對(duì)“反爬”網(wǎng)站的爬取對(duì)策

    1.驗(yàn)證碼辨別技術(shù)

    由于驗(yàn)證碼技術(shù)具有隨機(jī)性較強(qiáng)、簡(jiǎn)單的特點(diǎn),能夠在一定程度上阻礙網(wǎng)絡(luò)上惡意行為的訪問(wèn),在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的應(yīng)用。其次,圖片驗(yàn)證碼是通過(guò)爬蟲(chóng)獲取到所需要的樣本圖片,將圖片里面的文字和字母分開(kāi),通過(guò)神經(jīng)網(wǎng)絡(luò)算法去識(shí)別驗(yàn)證碼。關(guān)于滑動(dòng)驗(yàn)證碼,一般情況下,人類在操作滑動(dòng)這個(gè)步驟時(shí),會(huì)有一個(gè)延時(shí)的動(dòng)作,然后才進(jìn)行滑塊拖動(dòng),滑塊移動(dòng)時(shí)快慢不一致,最后再進(jìn)行微微調(diào)整。拖動(dòng)的路徑基本上符合BETA分布這樣的偏態(tài)分布,同時(shí),人的行為也比較符合隨機(jī)性和規(guī)律性特點(diǎn),大體上符合BETA分布的規(guī)律,但是固定時(shí)間和間隔移動(dòng)的長(zhǎng)度是隨機(jī)設(shè)置的。

    2.降低訪問(wèn)請(qǐng)求頻率

    在對(duì)網(wǎng)絡(luò)進(jìn)行訪問(wèn)的過(guò)程中,網(wǎng)絡(luò)爬蟲(chóng)會(huì)對(duì)目標(biāo)站點(diǎn)發(fā)送大量的請(qǐng)求,這樣的爬蟲(chóng)機(jī)制不僅會(huì)增加中小型網(wǎng)站的荷載力,還會(huì)浪費(fèi)大量的網(wǎng)站資源,甚至導(dǎo)致整個(gè)網(wǎng)站完全崩潰,因此很多網(wǎng)站都提出了反爬蟲(chóng)的機(jī)制和策略。比如通過(guò)判斷爬蟲(chóng)的USER-AGENT信息去直接訪問(wèn)請(qǐng)求,或者通過(guò)網(wǎng)站流量統(tǒng)計(jì)和日志分析去識(shí)別爬蟲(chóng),這樣對(duì)網(wǎng)站進(jìn)行全方位的實(shí)時(shí)監(jiān)控,提升反爬蟲(chóng)策略的效果和作用。為了不被站點(diǎn)判定為爬蟲(chóng)而被拒絕訪問(wèn)網(wǎng)站,我們可以直接降低網(wǎng)站訪問(wèn)請(qǐng)求頻率,這樣不會(huì)遭受到網(wǎng)站的封殺和拒絕訪問(wèn)。最主要的方法是在訪問(wèn)URL的程序當(dāng)中,將訪問(wèn)請(qǐng)求設(shè)置一段休眠時(shí)間段。具體的休眠時(shí)間是根據(jù)實(shí)際需求而定的,以毫秒為準(zhǔn),這種反爬策略的優(yōu)勢(shì)是有效的降低了目標(biāo)網(wǎng)站的時(shí)間負(fù)載,但是缺陷是爬蟲(chóng)反爬的效率比較低。

    3.設(shè)置代理服務(wù)器

    設(shè)置代理服務(wù)器,以提升爬蟲(chóng)效率為主,實(shí)際上就是對(duì)網(wǎng)絡(luò)的反爬蟲(chóng)機(jī)制進(jìn)行阻止,降低訪問(wèn)請(qǐng)求頻率較高的網(wǎng)絡(luò)地址。為了改善這一問(wèn)題,我們可以使用代理服務(wù)器,去改變IP和服務(wù)器端口,直接限制訪問(wèn)頻率較高的主機(jī)對(duì)站點(diǎn)的訪問(wèn)。只要具備足夠的IP條件符合爬取的條件,這樣就能保證爬蟲(chóng)不被站點(diǎn)所限制和封殺。但是設(shè)置代理服務(wù)器,不僅會(huì)消耗大量的時(shí)間和資源,還會(huì)給站點(diǎn)帶來(lái)較大的負(fù)載,加大延遲,提升了失敗率。

    四、結(jié)束語(yǔ)

    綜上所述,為了有效的避免爬蟲(chóng)被限制,最為有效的辦法則是偽裝成正常用戶,只要堅(jiān)持這個(gè)原則,總能解決問(wèn)題。如果能夠深入的了解到反爬蟲(chóng)技術(shù)的原理和策略,就可以針對(duì)實(shí)際問(wèn)題,提出反爬蟲(chóng)爬取策略和手段,進(jìn)而在保證網(wǎng)站穩(wěn)定安全運(yùn)行的同時(shí),也能提升網(wǎng)絡(luò)爬蟲(chóng)的效率,為人們提供更加優(yōu)質(zhì)的網(wǎng)絡(luò)服務(wù)。

    參考文獻(xiàn)

    [1]伏康,杜振鵬.網(wǎng)站反爬蟲(chóng)策略的分析與研究[J].電腦知識(shí)與技術(shù),2019,15(28):28-30.

    [2]胡俊瀟,陳國(guó)偉.網(wǎng)絡(luò)爬蟲(chóng)反爬策略研究[J].科技創(chuàng)新與應(yīng)用,2019(15):137-138+140.

    [3]劉清.網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略分析[J].信息與電腦(理論版),2019(03):23-24.

    [4]鄒科文,李達(dá),鄧婷敏,李嘉振,陳義明.網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究[J].電腦知識(shí)與技術(shù),2016,12(07):61-63.

    猜你喜歡
    網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)站
    煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    試論電子商務(wù)網(wǎng)站的平面設(shè)計(jì)原則
    基于我國(guó)政府信息公開(kāi)的電子政務(wù)研究
    河洛文化旅游資源外宣網(wǎng)站日譯現(xiàn)狀調(diào)查及對(duì)策研究
    文管綜合實(shí)踐教學(xué)中心網(wǎng)站建設(shè)與維護(hù)
    淺析企業(yè)建立網(wǎng)站VI系統(tǒng)的必要性探討
    提升高校網(wǎng)站在學(xué)校發(fā)展中的作用
    基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
    主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)研究
    淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)流量
    萍乡市| 从江县| 灌云县| 库车县| 环江| 英山县| 德保县| 芒康县| 霸州市| 五峰| 行唐县| 锦州市| 桓台县| 连城县| 公安县| 灌云县| 乌恰县| 贺兰县| 天全县| 富宁县| 长沙市| 新野县| 阿尔山市| 怀安县| 洛浦县| 贡觉县| 四子王旗| 晴隆县| 平远县| 南安市| 金平| 南宁市| 杭锦后旗| 嘉义市| 乳山市| 壶关县| 都江堰市| 洞头县| 贵州省| 锡林郭勒盟| 吴堡县|