張藝蘭,梁晶,喬亞男,馮雪昱
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著家庭網(wǎng)絡(luò)的普及,網(wǎng)吧經(jīng)營(yíng)變得艱難,由此部分網(wǎng)吧出現(xiàn)了接納未成年人上網(wǎng)等非法運(yùn)營(yíng)現(xiàn)象,這些黑網(wǎng)吧通常設(shè)施簡(jiǎn)陋、隱蔽性強(qiáng),吸引了大量未成年人、外來務(wù)工人員(流動(dòng)人口)前往,這類人群受經(jīng)濟(jì)、法律規(guī)定、家庭禁止等因素限制成為黑網(wǎng)吧的主要消費(fèi)群體[1]。黑網(wǎng)吧的存在,一方面違反國(guó)家法律,另一方面嚴(yán)重危害未成年人身心健康、影響社會(huì)公共安全。為此,長(zhǎng)期以來全國(guó)公安機(jī)關(guān)都在組織開展打擊黑網(wǎng)吧行動(dòng)。然而,網(wǎng)吧數(shù)目巨大給執(zhí)法部門的執(zhí)法帶來困難,且現(xiàn)有的派遣專門人員挨個(gè)排查網(wǎng)吧的傳統(tǒng)執(zhí)法方式耗時(shí)耗力,給了非法網(wǎng)吧規(guī)避查處的可趁之機(jī)。在這樣的情況下,一套能可視化的檢測(cè)和分析網(wǎng)吧非法運(yùn)營(yíng)行為的處理流程就很有必要性了。
網(wǎng)吧非法運(yùn)營(yíng)現(xiàn)象種類繁多,但這篇文章僅對(duì)網(wǎng)吧未成年人上網(wǎng)接納情況、流動(dòng)人口上網(wǎng)行為分析、青年犯罪團(tuán)伙檢測(cè)等幾類代表性的網(wǎng)吧非法運(yùn)營(yíng)行為進(jìn)行分析研究,其他的網(wǎng)吧非法運(yùn)營(yíng)情況分析將會(huì)是將來的研究工作。
結(jié)合了相關(guān)部門的實(shí)際需求以及初步調(diào)研,本文確定了以下四個(gè)可視分析任務(wù),分別是:
任務(wù)一,找出用于接納未成年人上網(wǎng)的成年人信息,并分析網(wǎng)吧未成年人上網(wǎng)接納情況。
任務(wù)二,檢測(cè)在網(wǎng)吧上網(wǎng)的流動(dòng)人口,并分析其行為特點(diǎn)。
任務(wù)三,發(fā)現(xiàn)在網(wǎng)吧上網(wǎng)的青年犯罪團(tuán)伙。
任務(wù)四,對(duì)網(wǎng)吧主要上網(wǎng)人群進(jìn)行用戶畫像。
為了完成以上分析任務(wù),本文提出了一套完整的、有效的可視化分析流程,能夠讓執(zhí)法部門從網(wǎng)吧上網(wǎng)登記數(shù)據(jù)中識(shí)別不同上網(wǎng)人群,分析上網(wǎng)人群的時(shí)空行為特征,進(jìn)行網(wǎng)吧非法上網(wǎng)行為、團(tuán)伙上網(wǎng)行為的有效檢測(cè)[2],該分析流程有助于提高執(zhí)法效率、維護(hù)社會(huì)治安,為打擊網(wǎng)吧非法運(yùn)營(yíng)行為領(lǐng)域提供了新的分析思路,該可視化分析流程的提出是本文的最大貢獻(xiàn)。
網(wǎng)吧非法運(yùn)營(yíng)行為可視化檢測(cè)分析流程主要分為三個(gè)階段,第一階段進(jìn)行數(shù)據(jù)預(yù)處理工作,第二階段根據(jù)問題需求進(jìn)行可視化方案的設(shè)計(jì)與實(shí)現(xiàn),第三階段針對(duì)可視化結(jié)果進(jìn)行分析總結(jié)。這三個(gè)階段是層層遞進(jìn)的關(guān)系。
本文用到的數(shù)據(jù)是重慶市3000多個(gè)網(wǎng)吧的基本信息數(shù)據(jù)及2016年三個(gè)月約1600萬行上網(wǎng)記錄數(shù)據(jù),數(shù)據(jù)大小為1.7GB[2]。其中,網(wǎng)吧的基本信息數(shù)據(jù)是公安機(jī)關(guān)備案的網(wǎng)吧開業(yè)時(shí)的基本信息,包括網(wǎng)吧編號(hào)、名稱、地理位置信息(經(jīng)度、緯度)。網(wǎng)吧的上網(wǎng)記錄數(shù)據(jù)指客人來網(wǎng)吧上網(wǎng)時(shí),網(wǎng)吧工作人員根據(jù)身份證等有效證件實(shí)名登記的上網(wǎng)人信息,包括上網(wǎng)人編號(hào)、網(wǎng)吧編號(hào)、姓名、性別、籍貫、出生日期、上線時(shí)間、下線時(shí)間。
原始數(shù)據(jù)中存在一定的異常數(shù)據(jù),文章通過對(duì)網(wǎng)吧基本信息數(shù)據(jù),以及總上網(wǎng)記錄數(shù)據(jù)量12%(上網(wǎng)記錄數(shù)據(jù)分17個(gè)子文件,隨機(jī)抽取了兩個(gè)子文件)的數(shù)據(jù)進(jìn)行初步分析,發(fā)現(xiàn)了四類主要異常情況,如表1所示。
表1 數(shù)據(jù)異常類型表
為了避免異常數(shù)據(jù)對(duì)分析結(jié)果的干擾,在數(shù)據(jù)預(yù)處理環(huán)節(jié)對(duì)表1的數(shù)據(jù)重復(fù)問題進(jìn)行了去重處理;對(duì)外鍵缺失問題,通過兩張數(shù)據(jù)表的數(shù)據(jù)連接,去除缺失外鍵的數(shù)據(jù)項(xiàng);對(duì)其余兩類問題數(shù)據(jù)進(jìn)行了刪除整行錯(cuò)誤數(shù)據(jù)的處理。
為了增加數(shù)據(jù)的可解釋性、豐富語義,通過開源的全國(guó)行政區(qū)劃數(shù)據(jù)為原始數(shù)據(jù)增加籍貫地理信息屬性,即輸入網(wǎng)吧的位置經(jīng)緯度,通過數(shù)據(jù)庫連接全國(guó)行政區(qū)劃數(shù)據(jù)表,輸出該網(wǎng)吧所處省市名稱。
預(yù)處理后的數(shù)據(jù)以CSV的格式存儲(chǔ)在MySQL[3]數(shù)據(jù)庫中。
根據(jù)確定的四個(gè)可視分析任務(wù)來設(shè)計(jì)可視化方案,并基于 D3.js[4]、ECharts[5]、Leaflet[6]、Node.js[7]等技術(shù)進(jìn)行方案實(shí)現(xiàn)。本文設(shè)計(jì)的可視化方案能清晰簡(jiǎn)潔地解決四個(gè)可視分析任務(wù)所對(duì)應(yīng)的問題,能幫助公安部門快速分析網(wǎng)吧運(yùn)營(yíng)行為,發(fā)現(xiàn)已有的和潛在的存在非法運(yùn)營(yíng)行為的網(wǎng)吧,是可視化技術(shù)在實(shí)際應(yīng)用領(lǐng)域的一次良好運(yùn)用。
根據(jù)統(tǒng)計(jì)發(fā)現(xiàn),1600多萬條上網(wǎng)記錄中同一個(gè)上網(wǎng)人編號(hào)出現(xiàn)兩次及以上的人數(shù)共計(jì)190萬條,因此利用條件篩選得到非法網(wǎng)吧共計(jì)2289個(gè),非法使用的成年人信息約86萬。本文通過散點(diǎn)地圖,日歷熱力圖與地區(qū)圖說明未成年人的上網(wǎng)接納情況。
首先通過散點(diǎn)地圖呈現(xiàn)非法網(wǎng)吧的地理位置分布情況,如圖1所示,一個(gè)藍(lán)點(diǎn)表示一個(gè)非法網(wǎng)吧。點(diǎn)擊某一網(wǎng)吧顯示該網(wǎng)吧名稱以及所接納未成年人人數(shù)信息。從圖1中明顯看出非法網(wǎng)吧存在群聚現(xiàn)象,因此推斷該區(qū)域可能由于監(jiān)管不當(dāng)導(dǎo)致未成年人上網(wǎng)現(xiàn)象泛濫。
圖1 接納未成年人的網(wǎng)吧散點(diǎn)地圖
日歷-熱力圖表示不同時(shí)間粒度(日,周,月)下所有網(wǎng)吧接收未成年人上網(wǎng)的人次情況,如圖2所示。方格表示具體的某一天,圓圈大小表示人次的多少,并且以顏色加深和波紋效果表示人次最多的12天。圖2表明在月粒度下,11月份未成年人上網(wǎng)次數(shù)較其他月份較多,推斷這一時(shí)期可能正值期中考試結(jié)束,學(xué)業(yè)壓力較小。
圖2 所有網(wǎng)吧未成年人上網(wǎng)人次統(tǒng)計(jì)熱力圖
最后通過地區(qū)圖展示所有非法成年人身份證信息歸屬地情況,如圖3所示,顏色深淺表示非法成年人身份證歸屬地人數(shù),餅圖表示男女比例。圖3顯示非法成年人身份證大多來自于重慶市的相鄰省份,例如四川省、湖南省。因此重慶市公安人員可以與相鄰省份合作,共同打擊網(wǎng)吧非法使用成年人信息的現(xiàn)象。
圖3 非法使用的成年人籍貫信息地區(qū)圖
流動(dòng)人口是指籍貫不在給定城市的人。本文用到的網(wǎng)吧數(shù)據(jù)是重慶市的,重慶市的籍貫編號(hào)前兩位是50,因此將上網(wǎng)記錄信息表中上網(wǎng)人籍貫編號(hào)(AreaID)非50的上網(wǎng)人初步確定為流動(dòng)人口。但是在得到初步數(shù)據(jù)之后,發(fā)現(xiàn)數(shù)據(jù)中仍然存在屬于重慶市的人口。按照國(guó)家制定的籍貫歸屬表,50代表重慶市,但是因?yàn)橹貞c市曾經(jīng)歸屬于四川省,籍貫編號(hào)為5102的人口也屬于重慶市人口。因此進(jìn)一步將篩選條件修改為AreaID非50及非5102的上網(wǎng)人確定為流動(dòng)人口。
根據(jù)篩選條件(上網(wǎng)人籍貫編號(hào)非50以及非5102)獲得上網(wǎng)記錄信息表中流動(dòng)人口列表,網(wǎng)吧中流動(dòng)人口比例高達(dá)88%。通過地區(qū)圖,熱力圖與柱狀圖展示流動(dòng)人口行為特點(diǎn)。
首先以中國(guó)地區(qū)圖和各個(gè)省地區(qū)圖表示網(wǎng)吧流動(dòng)人口數(shù)量,顏色深淺表示省或者市的流動(dòng)人口數(shù)量。如圖4所示,流動(dòng)人口的籍貫與地理位置,省自身經(jīng)濟(jì)發(fā)展?fàn)顩r相關(guān)。例如湖北省、貴州省在地理上與重慶市的距離相差不大,但是貴州省的流動(dòng)人口是湖北省的兩倍左右,因此可以推斷是因?yàn)橘F州省發(fā)展相對(duì)緩慢閉塞,所以更多的人選擇外出打工。
為了觀察流動(dòng)人口的上網(wǎng)時(shí)段情況,本文選擇了柱狀圖,如圖5所示。橫軸表示一天的24個(gè)小時(shí),縱軸表示對(duì)應(yīng)的流動(dòng)人口數(shù)量。從上網(wǎng)時(shí)段上來看,高峰期分別在11點(diǎn)與19點(diǎn)。由此推斷,部分流動(dòng)人口可能存在失業(yè)或者工作時(shí)間不穩(wěn)定的情況,因此選擇中午上網(wǎng),然后大約在19點(diǎn)以后陸續(xù)離開網(wǎng)吧,開始工作。同時(shí)流動(dòng)人口中也存在一般的上班族,主要是下班后進(jìn)入網(wǎng)吧,從而解釋了柱狀圖中19點(diǎn)的頂峰現(xiàn)象。
圖4 網(wǎng)吧流動(dòng)人口籍貫信息地區(qū)圖
圖5 上網(wǎng)時(shí)間段與上網(wǎng)人數(shù)柱狀圖
最后通過熱力圖展示流動(dòng)人口的上網(wǎng)時(shí)長(zhǎng)與年齡特點(diǎn),如圖6所示。其中橫軸表示上網(wǎng)時(shí)長(zhǎng),縱軸表示年齡,顏色深淺表示對(duì)應(yīng)條件下的流動(dòng)人口數(shù)量。圖6說明流動(dòng)人口中18-35歲的人群是主力軍,大部分流動(dòng)人口的上網(wǎng)時(shí)長(zhǎng)集中在4-8小時(shí),此外隨著年齡增大,上網(wǎng)人數(shù)也呈遞減趨勢(shì)。
圖6 與上網(wǎng)時(shí)長(zhǎng)、年齡相關(guān)的上網(wǎng)人數(shù)熱力圖
《聯(lián)合國(guó)打擊跨國(guó)有組織犯罪公約》[8]將3人或多人視作一個(gè)團(tuán)伙,因此本文將網(wǎng)吧中社團(tuán)定義為人數(shù)超過兩人,且成員之間的上下線時(shí)間接近的集合。本文將上下線時(shí)間差小于5分鐘的上網(wǎng)記錄,人數(shù)大于2的集合確定為一個(gè)社團(tuán),并且通過可縮放的圓形打包圖表示網(wǎng)吧的社團(tuán)分布情況,如圖7所示,其中最大圓表示一個(gè)網(wǎng)吧,次大圓聚集相同人數(shù)的社團(tuán),最小圓表示一個(gè)上網(wǎng)人。
圖7 網(wǎng)吧社團(tuán)可放縮圓形打包圖
通過選取多個(gè)網(wǎng)吧查看其社團(tuán)情況,發(fā)現(xiàn)單個(gè)社團(tuán)人數(shù)一般不超過10人。網(wǎng)吧社團(tuán)個(gè)數(shù)不定,個(gè)別網(wǎng)吧的社團(tuán)個(gè)數(shù)偏多,可達(dá)200-300個(gè),而且大型社團(tuán)(8人以上)的個(gè)數(shù)比一般網(wǎng)吧多。進(jìn)一步結(jié)合地圖發(fā)現(xiàn)此類網(wǎng)吧一般分布在網(wǎng)吧聚集程度較為密集的區(qū)域,可以推斷由于這些區(qū)域上網(wǎng)人數(shù)較多,因此更容易形成社團(tuán)。
主要針對(duì)三類代表性網(wǎng)吧用戶描述其用戶畫像:未成年人、流動(dòng)人口及網(wǎng)吧社團(tuán)。網(wǎng)吧未成年人具有地理傾向性和上網(wǎng)時(shí)間周期性。根據(jù)接納未成年人的網(wǎng)吧群聚現(xiàn)象推斷未成年人是有選擇行的去某一區(qū)域上網(wǎng);在上網(wǎng)時(shí)間周期性上,未成人上網(wǎng)的高峰時(shí)期是節(jié)假日、正常教學(xué)周的休息日以及考試剛結(jié)束時(shí)期。流動(dòng)人口在網(wǎng)吧上網(wǎng)總?cè)藬?shù)所占比例高達(dá)88%,大多來自于鄰接省市,并且呈現(xiàn)低齡性,多為18-35歲的青壯年。流動(dòng)人口具有上網(wǎng)時(shí)間周期性,主要集中在中午11點(diǎn)及晚上18點(diǎn)之后,且平均時(shí)長(zhǎng)為4-5小時(shí)。網(wǎng)吧社團(tuán)以3-4人的社團(tuán)最為常見,其人數(shù)與地域也存在一定關(guān)系,總數(shù)超過5人以上的社團(tuán)所在的網(wǎng)吧一般存在于網(wǎng)吧分布較密集的區(qū)域。
根據(jù)本文所設(shè)計(jì)及實(shí)現(xiàn)的可視化分析方案,在非法網(wǎng)吧搜尋與整治方面,可以通過網(wǎng)吧散點(diǎn)地圖找出網(wǎng)吧密集區(qū)域,對(duì)大量網(wǎng)吧群聚區(qū)域進(jìn)行重點(diǎn)治理。此外,還可以根據(jù)未成年人上網(wǎng)行為特征,對(duì)未成年人上網(wǎng)集中時(shí)段做針對(duì)性監(jiān)管等。流動(dòng)人口是犯罪的高發(fā)人群,通過流動(dòng)人口的上網(wǎng)時(shí)間特性可以幫助公安集中關(guān)注并嚴(yán)格審查流動(dòng)人口較為密集的、流動(dòng)人口出現(xiàn)的高峰時(shí)段。并且建議重點(diǎn)關(guān)注18-25歲的上網(wǎng)人群。在網(wǎng)吧犯罪團(tuán)伙刑偵與預(yù)防方面,建議定期檢查整治網(wǎng)吧密集區(qū)域,預(yù)防大型犯罪團(tuán)伙的形成;同時(shí)建議結(jié)合上網(wǎng)上下線時(shí)間和籍貫信息綜合判斷3-4人社團(tuán)中的犯罪團(tuán)伙難度。
本文基于可視化對(duì)網(wǎng)吧上網(wǎng)記錄進(jìn)行分析,提出了一套系統(tǒng)性的可視化檢測(cè)分析網(wǎng)吧非法運(yùn)營(yíng)行為的處理流程,能有效提高公安部門查處非法網(wǎng)吧的執(zhí)法效率,也能進(jìn)一步分析前往網(wǎng)吧上網(wǎng)的未成年人、流動(dòng)人口及青年犯罪團(tuán)伙的時(shí)空行為特征,具有較大實(shí)際意義。