余志瑋 何月順
摘? 要: 暗網(wǎng)中存在大量毒品、軍火、貨幣等非法交易網(wǎng)站,對網(wǎng)絡(luò)環(huán)境造成嚴(yán)重危害,為了對暗網(wǎng)進行探測和監(jiān)控,提出一種基于Scrapy分布式的暗網(wǎng)探測爬蟲方法。將暗網(wǎng)使用的socks5協(xié)議轉(zhuǎn)化為爬蟲支持的http協(xié)議,再利用Python的Scrapy爬蟲框架對暗網(wǎng)站點進行探測和爬取。使用該方法已發(fā)現(xiàn)數(shù)以萬計的暗網(wǎng)站點信息,包括網(wǎng)站標(biāo)題、源代碼、網(wǎng)站類型等。將暗網(wǎng)代理環(huán)境和Python爬蟲相結(jié)合,能夠讓程序?qū)Π稻W(wǎng)的站點進行探測和爬取,對暗網(wǎng)環(huán)境進行很好的探測和監(jiān)控。
關(guān)鍵詞: 暗網(wǎng); 代理環(huán)境; Scrapy爬蟲框架; 站點
中圖分類號:TP393.0? ? ? ? ? 文獻標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)04-21-05
Building dark web probe crawler with Scrapy-redis
Yu Zhiwei, He Yueshun
(School of Information Engineering, East China University of Technology, Nanchang, Jiangxi 330013, China)
Abstract: There are a large number of illegal trading websites such as drugs, arms, and currencies in the dark web, which cause serious harm to the Internet environment. In order to detect and monitor the dark web, this paper proposes a dark web detection crawling method using distributed Scrapy. The socks5 protocol used by the dark web is converted into the http protocol supported by the crawler, and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python. This method finds tens of thousands of dark website point information, including website title, source code, website type, and so on. The combination of the dark web proxy environment and the Python crawler allows the program to detect and crawl the dark website, and to detect and monitor the dark web environment.
Key words: dark web; proxy environment; Scrapy crawler framework; website
0 引言
針對互聯(lián)網(wǎng)信息泄露問題,人們開始研究并使用匿名網(wǎng)絡(luò)通信技術(shù),而暗網(wǎng)就是隨之發(fā)展起來的匿名技術(shù)之一。不同于絕大部分明網(wǎng),暗網(wǎng)的站點都不能被尋常訪問,也沒有被baidu、google等搜索引擎收錄,要想使用暗網(wǎng)匿名技術(shù),就需要使用特定的軟件,跳過幾個中間節(jié)點,來達到匿名和防止監(jiān)測的效果。由于暗網(wǎng)良好的匿名性,被不法分子利用從事地下黑暗交易,如人口販賣,毒品,情色,軍火等[1],大大危害了社會安全。
暗網(wǎng)匿名技術(shù)最早是在上世紀(jì)90年代被提出,由于其良好的匿名保護效果,不斷被研究機構(gòu)和互聯(lián)網(wǎng)公司研究和完善,而數(shù)字貨幣-比特幣的出現(xiàn),對暗網(wǎng)上的交易提供了更隱藏的服務(wù)機制?,F(xiàn)如今,暗網(wǎng)各個站點絕大部分都支持使用比特幣來進行各種買賣/交易,買賣雙方只知道對方的暗網(wǎng)id,對其他信息一點都不了解。隨著近些年互聯(lián)網(wǎng)和自媒體的發(fā)展,暗網(wǎng)逐漸出現(xiàn)在大眾人們的視野中,影視劇中對使用暗網(wǎng)販賣人口等犯罪行為就有過大量的揭露。許多人出于好奇在網(wǎng)絡(luò)中尋找進入暗網(wǎng)的方法。所以如何對暗網(wǎng)信息進行探測和爬取監(jiān)控就顯得非常重要。
1 暗網(wǎng)研究現(xiàn)狀
發(fā)展至今,暗網(wǎng)中隱藏服務(wù)的站點和資源在數(shù)量和質(zhì)量上已經(jīng)高于明網(wǎng),對暗網(wǎng)的探測及研究已經(jīng)意義重大。但是由于暗網(wǎng)本身的特性:多中間節(jié)點跳躍的隱蔽性;頻繁更換站點導(dǎo)致的探測不穩(wěn)定性;沒有被百度、谷歌等搜索引擎收錄致站點難發(fā)現(xiàn)性等問題,導(dǎo)致暗網(wǎng)在橫向的數(shù)量和縱向的深度都難以探測。國內(nèi)外許多專家和機構(gòu)都對暗網(wǎng)做過相關(guān)研究。
暗網(wǎng)的相關(guān)研究主要分為兩個方面:一個是基于暗網(wǎng)匿名通信技術(shù)本身,通過不斷優(yōu)化匿名通信技術(shù),提升暗網(wǎng)的匿名性、效率性和穩(wěn)定性等,使得暗網(wǎng)能夠有更好的發(fā)展;另一個研究方向則是基于暗網(wǎng)的技術(shù)原理,尋找暗網(wǎng)空間資源探測的方法和技術(shù)[2]。
就暗網(wǎng)空間資源探測的研究方面,上海交通大學(xué)的楊溢[3]等人設(shè)計出了Tor域名地址采集系統(tǒng),優(yōu)化了暗網(wǎng)的訪問效率,從明網(wǎng)和暗網(wǎng)采集站點域名;郭晗[4]等人針對Freenet的暗網(wǎng)資源探測進行了研究,freenet是一種分布式的匿名信息存儲和檢索系統(tǒng),發(fā)展時間比tor洋蔥路由還早;湯艷君[5]等人通過分析暗網(wǎng)通訊的技術(shù)原理,利用selenium對暗網(wǎng)進行爬取,探測后的暗網(wǎng)信息能夠幫助公安部門監(jiān)控和分析暗網(wǎng)中的有害內(nèi)容,加大網(wǎng)絡(luò)監(jiān)控力度。
[2] Nunes E,Diab A,Gunn A,et al.Darknet and DeepnetMining for Proactive Cybersecurity Thread Intelligence[C].IEEE Conference on Intelligence and Security Informatics,2017:7-12
[3] 楊溢,郭晗,王軼駿,薛質(zhì).基于Tor的暗網(wǎng)空間資源探測[J].通信技術(shù),2017.50(10):2304-2309
[4] 郭晗,王軼駿,薛質(zhì).基于Freenet的暗網(wǎng)空間資源探測[J].通信技術(shù),2017.50(9):2017-2023
[5] 湯艷君,安俊霖.基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設(shè)計與實現(xiàn)[J].信息安全研究,2019.5(9):798-804
[6] 李亞.暗網(wǎng)數(shù)據(jù)源分類算法的研究和實現(xiàn)[D].成都理工大學(xué),2013.
[7] Biryukov A,Pustogarov I,Weinmann R P.Trawling for TorHidden Servics:Detection,Measurement,Deanonymization[C].Security and Privacy,2013:80-94
[8] Guitton C.A review of the available content on Tor hiddenservices:The case against further development[J].Computers in Human Behavior,2013.29(6):2805-2815
[9] 趙志云,張旭,羅錚.“暗網(wǎng)”應(yīng)用情況及監(jiān)管方法研究[J].知識管理論壇,2016.2.
[10] 林海倫,熊錦華,王博等.基于領(lǐng)域知識抽樣的深網(wǎng)資源采集方法[J].中文信息學(xué)報,2016.2:175-181
[11] Li K, Liu P, Tan Q, et al. Out-of-band discovery andevaluation for tor hidden services[J]. SAC,2016:2057-2062