王 彬
(河南警察學院犯罪學系 河南 鄭州 450046)
犯罪偵查中的大數(shù)據(jù)應用分析
王 彬
(河南警察學院犯罪學系 河南 鄭州 450046)
為提高犯罪偵查效率,保障偵查行為的客觀性,大數(shù)據(jù)被廣泛應用于偵查領域。通過對公安機關自有數(shù)據(jù)系統(tǒng)和社會面數(shù)據(jù)系統(tǒng)中各種大數(shù)據(jù)的搜索、查詢、比對與分析,能夠發(fā)現(xiàn)犯罪線索、查獲犯罪證據(jù)、抓獲犯罪嫌疑人、偵破犯罪案件。但是,大數(shù)據(jù)在犯罪偵查中的應用也存在“數(shù)據(jù)孤島”、大數(shù)據(jù)技術落后、大數(shù)據(jù)專家不足、侵犯公民隱私權和威脅國家安全等問題。因此,應當打破數(shù)據(jù)壁壘,破解“數(shù)據(jù)孤島”困境,發(fā)展大數(shù)據(jù)技術,培養(yǎng)大數(shù)據(jù)人才,加強大數(shù)據(jù)信息立法,保護公民隱私和國家安全。
犯罪偵查 大數(shù)據(jù) 應用分析
目前,大數(shù)據(jù)作為一種技術,一種思維變革方式和方法論,被廣泛應用于政府治理和社會管理,以及公民生產(chǎn)、生活的各個領域。在犯罪偵查領域,偵查人員也廣泛應用內(nèi)外部數(shù)據(jù)庫中之大數(shù)據(jù),查找犯罪線索、搜集犯罪證據(jù)和查獲犯罪嫌疑人。但是,對于什么是“大數(shù)據(jù)”,如何合法、合理和有效運用“大數(shù)據(jù)”等方面,則存在著一些需要亟待解決的問題。因此,有必要對這些問題加以厘清與分析,以服務于我國犯罪偵查之理論與實踐。
1.1 大數(shù)據(jù)內(nèi)涵與特征分析
一般認為,廣義上,大數(shù)據(jù)是指從各種海量信息中迅速獲得有價值信息的能力;狹義上,大數(shù)據(jù)是指“無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”[1]13。筆者認為,大數(shù)據(jù)包括海量數(shù)據(jù)集合、數(shù)據(jù)分析技術及大數(shù)據(jù)分析結(jié)果三層涵義。首先,大數(shù)據(jù)是海量數(shù)據(jù)的集合,它們構成了大數(shù)據(jù)分析的基礎,并且這些數(shù)據(jù)具有量大、結(jié)構多樣等特征;其次,大數(shù)據(jù)是一種以數(shù)據(jù)挖掘為核心的數(shù)據(jù)分析技術,只有通過數(shù)據(jù)挖掘分析技術,才能夠挖掘出數(shù)據(jù)背后存在的價值;最后,大數(shù)據(jù)還強調(diào)經(jīng)過分析、處理后所獲取的數(shù)據(jù)結(jié)果,它們常常能夠反映出數(shù)據(jù)背后的各種規(guī)律,是大數(shù)據(jù)所具有的價值和精髓所在。
此外,在理解大數(shù)據(jù)時,還應當注意以下幾點:一是大數(shù)據(jù)的基礎在于“數(shù)據(jù)化”。從大數(shù)據(jù)的視角來看,任何事物、現(xiàn)象和行為都是由數(shù)據(jù)構成的,通過數(shù)據(jù)的描述可以還原出任何現(xiàn)象、行為及其背后的存在規(guī)律。因此,“數(shù)據(jù)化”原理是大數(shù)據(jù)運用的前提與基礎;二是大數(shù)據(jù)的數(shù)據(jù)之“大”是相對的。大數(shù)據(jù)最顯著特征就是數(shù)據(jù)之“大”,這是相對于小數(shù)據(jù)而言的。在傳統(tǒng)的小數(shù)據(jù)時代,受數(shù)據(jù)采集技術條件所限,人們只能采取抽樣調(diào)查法,選取一定的樣本進行對象分析。在大數(shù)據(jù)時代,收集所有數(shù)據(jù)成為可能,完全可以通過相關技術收集到與某一事物相關的所有數(shù)據(jù),達到“樣本=全體”的數(shù)量級別;三是大數(shù)據(jù)的核心在于數(shù)據(jù)背后蘊藏的價值。大數(shù)據(jù)本身并不意味著大價值,如果不對數(shù)據(jù)進行挖掘、處理和分析,大數(shù)據(jù)只能是一堆枯燥乏味的“數(shù)據(jù)集合體”。只有對各種大數(shù)據(jù)進行挖掘、處理和分析,才能找出大數(shù)據(jù)背后的各種規(guī)律、特征,真正發(fā)揮大數(shù)據(jù)的應有作用。
大數(shù)據(jù)具有4“V”特征,即“Volume”(海量數(shù)據(jù))、“Variety”(多型多樣)、“Velocity”(存儲處理高速)、“Value/Veracity”(價值與真實性)。
(1)Volume(海量數(shù)據(jù))。大數(shù)據(jù)的起始計量單位往往至少是PB(1024TB=1PB)級別乃至EB(1024PB=1EB)、ZB(1024EB=1ZB)級別,而傳統(tǒng)數(shù)據(jù)在量上通常以MB、GB為處理單位。“未來10年全球數(shù)據(jù)將以40%以上的速度增長,2020年全球數(shù)據(jù)量將達到35ZB,為2009年(0.8ZB)的44倍”[1]14。
(2)Variety(多型多樣)。大數(shù)據(jù)是非結(jié)構化數(shù)據(jù)和半結(jié)構化數(shù)據(jù),數(shù)據(jù)類型豐富,主要表現(xiàn)為文檔、圖片、音頻、視頻、日志、鏈接等;數(shù)據(jù)來源廣泛,主要表現(xiàn)為社交網(wǎng)站、門戶網(wǎng)站、電子郵件、微博等。在數(shù)據(jù)模型的選擇上,大數(shù)據(jù)逐漸向著not noly(NoSQL)發(fā)展,且呈現(xiàn)出“立體化”特點。傳統(tǒng)數(shù)據(jù)(小數(shù)據(jù))則多為結(jié)構化數(shù)據(jù),數(shù)據(jù)處理模型為結(jié)構化查詢語言(Structure Query Language),即SQL,且呈現(xiàn)出“平面化”特點。
(3)Velocity(存儲處理高速)。在大數(shù)據(jù)條件下,計算機設備可在極短時間內(nèi)快速處理各種數(shù)據(jù)流。大數(shù)據(jù)的高速化處理,需要處理者對時間具有高度的敏感性,對現(xiàn)代決策者的素質(zhì)、決策能力提出了新的更高要求。
(4)Value/Veracity(價值與真實性)。IBM認為,大數(shù)據(jù)具有真實性(Veracity),真實性將會推動人們運用先進的數(shù)學方法和數(shù)據(jù)融合技術,進一步提高數(shù)據(jù)的質(zhì)量,創(chuàng)造出更高的價值。IDC認為,大數(shù)據(jù)具有高價值性(Value),而這種高價值更多地蘊含在碎片化的低價值度的數(shù)據(jù)之中,所以,在大數(shù)據(jù)時代,亟待人們解決的最大難題是如何通過強大的機器運算,更迅速高效地完成大數(shù)據(jù)之價值“提純”[2]。
1.2 思維、方法:大數(shù)據(jù)與“小數(shù)據(jù)”比較
從方法論的角度解讀,大數(shù)據(jù)與傳統(tǒng)“小數(shù)據(jù)”相比,除上述4“V”特征方面的差異外,在思維模式、思維方法上也存在著很大的不同。
首先,大數(shù)據(jù)分析與某事物相關的所有數(shù)據(jù),即全數(shù)據(jù)模式,而不是依靠分析少量的數(shù)據(jù)樣本。小數(shù)據(jù)采取隨機采樣,通過抽樣數(shù)據(jù)獲得最大化信息。長期以來,由于受到科技水平發(fā)展限制,人們形成并習慣于采用隨機抽樣法,用最少量的數(shù)據(jù)去獲得更多的研究結(jié)果。大量的事實也證明,隨機采樣在現(xiàn)代社會,特別是現(xiàn)代測量領域取得了巨大成功,成為不可或缺的測量分析方法。“統(tǒng)計學的一個目的就是用盡可能少的數(shù)據(jù)證實盡可能重大的發(fā)現(xiàn)”[3]29。隨機采樣依賴于采樣的絕對隨機性,一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠。在大數(shù)據(jù)時代,海量數(shù)據(jù)的涌現(xiàn),數(shù)據(jù)挖掘與處理技術的根本變化,導致隨機采樣的適應范圍變得越來越狹窄,對大數(shù)據(jù)背后之微觀細節(jié)的探究也顯得力有不逮。大數(shù)據(jù)不采用隨機分析法這樣的路徑,而是采用所有數(shù)據(jù)的方法,即全數(shù)據(jù)模式,從“總體”上去研究、分析事物的微觀深層次信息。
其次,大數(shù)據(jù)接受數(shù)據(jù)的紛繁復雜,不再追求精確性。小數(shù)據(jù)則強調(diào)追求精確。對“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯誤,保證質(zhì)量。因為收集的信息量比較少,所以必須確保記錄下來的數(shù)據(jù)盡量精確。在采樣的時候,對精確度的要求就更高更苛刻。在大數(shù)據(jù)時代,大量的數(shù)據(jù)表現(xiàn)為非結(jié)構化、半結(jié)構數(shù)據(jù),如果不接受混雜,將有95%的非結(jié)構化數(shù)據(jù)無法利用?!按髷?shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實現(xiàn)精確性?!邮軘?shù)據(jù)的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界?!盵3]56要想獲得大數(shù)據(jù)帶來的好處,混雜應該是一種標準途徑,而不應該是竭力避免的。
再次,大數(shù)據(jù)強調(diào)“是什么”而不是“為什么”。小數(shù)據(jù)強調(diào)“為什么”的因果關系,相關關系的探求僅限于“線性”。在小數(shù)據(jù)時代,相關關系分析和因果關系分析是探究世界的兩個基本路徑,都要經(jīng)歷“建立假設→進行實驗→假設要么被證實要么被推翻”這一復雜過程。但是,由于受到分析者偏見,相關關系分析數(shù)據(jù)難以取得,以及收集這些數(shù)據(jù)耗資巨大的影響,大部分相關關系分析僅限于尋求“線性關系”,而非發(fā)現(xiàn)數(shù)據(jù)的“非線性關系”。在大數(shù)據(jù)時代,海量數(shù)據(jù)的存在,分析思路和分析工具、方法的更新,開闊了人們的視野,使人們注意到很多以前不曾注意到的各種聯(lián)系,掌握了以前無法理解的復雜技術和社會動態(tài)。更為重要的是“通過去探求‘是什么’而不是‘為什么’,相關關系幫助我們更好地了解了這個世界。”[3]83
2.1 大數(shù)據(jù)之數(shù)據(jù)來源
在犯罪偵查中,大數(shù)據(jù)之來源主要有兩個:一是社會面的大數(shù)據(jù);二是公安機關自有的大數(shù)據(jù)。
(1)社會面的大數(shù)據(jù)。近年來,信息技術飛速發(fā)展,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術深入社會生活的方方面面,形成了各種不同形式的社會面大數(shù)據(jù)源。
第一,來自互聯(lián)網(wǎng)的大數(shù)據(jù)。這些數(shù)據(jù)大多存儲在:Oracle、DB2、SQL server等數(shù)據(jù)庫;Excel、電子郵件服務器等數(shù)據(jù)源;Hadoop(分布式處理平臺)系統(tǒng),如ApcheCloudea等;NoSQL數(shù)據(jù)庫,如Cassandra等。此外,云平臺,如Salesforce.com;社會網(wǎng)站,如新浪微博、搜狐微博、騰訊微博等,也存儲有海量數(shù)據(jù)[1]23。近年來,偵查人員在偵查思維、偵查決策,以及偵查路徑的選擇等方面,受來自社會面大數(shù)據(jù)的影響越來越大,甚至有些案件偵破的信息或者線索都是直接來源于社會面的大數(shù)據(jù)。
第二,來自官方的大數(shù)據(jù)。在公權力運行過程中,官方機構(黨政機關、司法機關、群團機關等)為實施有效管理,通過各種內(nèi)設系統(tǒng)輸入和輸出的話語、文件、口號、音頻、視頻等數(shù)據(jù),構成了來自官方的大數(shù)據(jù)。來自官方的大數(shù)據(jù),可分為三類:一類是惠及民生、免費公開的數(shù)據(jù);二是有償公開、有價值的數(shù)據(jù);三是不能公開的數(shù)據(jù)。這些數(shù)據(jù)是公權力運行的實際表現(xiàn),因而也成為公眾了解公共事務所依賴的大數(shù)據(jù)。目前,中國有用數(shù)據(jù)信息的80%由不同的官方機構掌控,對于犯罪偵查來說,它是一個重要的數(shù)據(jù)來源。
第三,來自企業(yè)的大數(shù)據(jù)。企業(yè)是大數(shù)據(jù)的重要來源,如交通運輸、銀行、通信、房地產(chǎn)、物流、中介等行業(yè),幾乎每時每刻都在產(chǎn)生海量數(shù)據(jù)。根據(jù)我國相關立法規(guī)定,這些數(shù)據(jù)一般不允許對外公開、外流和丟失。此外,從行業(yè)機密考慮,企業(yè)也不允許隨意公開、外流和丟失其經(jīng)營數(shù)據(jù),因而,企業(yè)的數(shù)據(jù)積累是最為全面、最為詳細的。更為重要的是,為了防范風險,知名企業(yè)大多會通過建立容災系統(tǒng),以保護企業(yè)的數(shù)據(jù)。即使是發(fā)生了重大自然災害,企業(yè)的有關數(shù)據(jù)也能夠被完好保存下來。企業(yè)的數(shù)據(jù)積累也是犯罪偵查中大數(shù)據(jù)的重要來源。
第四,來自公民個人的大數(shù)據(jù)。公民個人的大數(shù)據(jù),涉及到公民個人的學習、生活、生產(chǎn)、工作、婚姻、家庭及個人隱私等方面,如健康狀況、電話號碼、銀行賬號等;涉及到公民個人在日常生活中的活動行程,包括上網(wǎng)、電子郵件、短信、博客、微博、微信等自媒體數(shù)據(jù)。此外,還有公民個人在其職業(yè)活動中形成的各種數(shù)據(jù),如寫作、科研、發(fā)明等。因此,公民個人的基本數(shù)據(jù)是犯罪偵查中大數(shù)據(jù)的重要來源之一。
(2)公安機關的大數(shù)據(jù)。長期以來,我國公安機關十分重視數(shù)據(jù)信息系統(tǒng)建設。1999年1月公安部啟動“金盾工程”項目,2006年11月,“金盾工程”一期順利完成驗收。2008年2月22日,“金盾工程”二期項目由國家發(fā)改委立項建設。
目前,我國公安機關已建成了多個數(shù)據(jù)查詢功能的信息系統(tǒng)。此外,公安部還建成一些專門的數(shù)據(jù)信息系統(tǒng)。綜合來看,公安機關已經(jīng)建成的自有數(shù)據(jù)信息系統(tǒng)中,涵蓋了如人口類、刑偵類、治安類、監(jiān)管類、交通類等多類別數(shù)據(jù)信息。社會面數(shù)據(jù)信息系統(tǒng)和公安機關自有數(shù)據(jù)信息系統(tǒng)中存儲了與人、事、物、證、案(事)件、行為軌跡、電磁信息有關的各種海量數(shù)據(jù),它們對于尋找犯罪線索、收集犯罪證據(jù),查獲犯罪嫌疑人,偵破犯罪案件,具有巨大的數(shù)據(jù)支撐和保障作用。
2.2 犯罪偵查中大數(shù)據(jù)之應用
大數(shù)據(jù)時代,“我們時刻都暴露在‘第三只眼睛’之下:谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習慣,亞馬遜監(jiān)視著我們的購物習慣,而微博什么都知道,不僅竊聽到我們心中的‘TA’,還有我們的社交關系網(wǎng)”,“我們的隱私被第二次利用了”[3]193。大數(shù)據(jù)具有強大的數(shù)據(jù)搜集、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)重組、預測功能。基于上述的強大功能,大數(shù)據(jù)在犯罪偵查中的作用和地位日益凸顯,用于發(fā)現(xiàn)犯罪線索、犯罪證據(jù),偵破案件。
(1)數(shù)據(jù)庫搜索。社會面數(shù)據(jù)庫和公安機關自有數(shù)據(jù)庫,在建庫時都根據(jù)數(shù)據(jù)庫本身的內(nèi)容,建立了相應的查詢功能及站內(nèi)搜索功能。通過對庫內(nèi)海量數(shù)據(jù)的查詢、搜索和比對,能夠發(fā)現(xiàn)犯罪線索、犯罪證據(jù),甚至偵破案件。例如,在偵查未知名尸體案件時,由于偵查之初并不知曉被害人是誰,除在新聞媒體上發(fā)布尸體認領通報,組織排查和辨認外,還可以將提取到的死者指紋、DNA檢驗結(jié)果,通過指紋數(shù)據(jù)庫、DNA數(shù)據(jù)庫進行檢索、比對,認定死者身源;也可以將死者的DNA檢驗結(jié)果與其親屬的DNA進行比對,認定死者身源。
(2)互聯(lián)網(wǎng)搜索?;ヂ?lián)網(wǎng)數(shù)據(jù)以文本、圖像、視頻、音頻等形式分散在各個網(wǎng)頁,需要應用搜索引擎技術。在犯罪偵查中,通常是將與案件或者犯罪嫌疑人有關的關鍵詞輸入互聯(lián)網(wǎng)進行搜索,并根據(jù)互聯(lián)網(wǎng)反饋信息進行多次搜索分析。輸入的檢索信息越多,搜索結(jié)果的范圍就越精確。通過基本的互聯(lián)網(wǎng)搜索,一般可以了解某個人的工作、生活等基本信息,如果再進一步搜索就能夠找到某個人的手機號、郵箱號、網(wǎng)絡賬號等較為私密的信息。這種利用相關關系進行的搜索,對發(fā)現(xiàn)犯罪線索、犯罪證據(jù),抓獲犯罪嫌疑人非常有用。例如,在盜竊案件中,犯罪嫌疑人常常利用網(wǎng)絡進行銷贓,偵查人員在互聯(lián)網(wǎng)上輸入被盜物品的規(guī)格、型號、特征等,就可能找到犯罪線索、犯罪證據(jù),甚至直接查獲犯罪嫌疑人。但需要說明的是,互聯(lián)網(wǎng)上的信息豐富且混雜,不少信息可能是不真實的或者是過時的,這就需要偵查人員根據(jù)案件情況對網(wǎng)絡信息的真實性進行分析判斷。
(3)數(shù)據(jù)碰撞。數(shù)據(jù)碰撞是指偵查人員以社會面大數(shù)據(jù)和公安機關自有的大數(shù)據(jù)為基礎,選取一種或者幾種數(shù)據(jù)為標識數(shù)據(jù)進行碰撞,并利用時空數(shù)據(jù)縮小碰撞范圍,從而發(fā)現(xiàn)犯罪線索、犯罪證據(jù),偵破案件。在偵查實踐中,作為數(shù)據(jù)碰撞基礎的數(shù)據(jù)庫主要有社會面數(shù)據(jù)庫和公安機關自有的數(shù)據(jù)庫。數(shù)據(jù)碰撞的類型有話單數(shù)據(jù)碰撞、網(wǎng)絡通信數(shù)據(jù)(如QQ、微信、微博等)碰撞、軌跡數(shù)據(jù)碰撞、交易數(shù)據(jù)碰撞等[4]。
(4)數(shù)據(jù)挖掘?!皵?shù)據(jù)就像一個神奇的鉆石礦,當它的首要價值被發(fā)揮后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下?!盵3]127數(shù)據(jù)挖掘是大數(shù)據(jù)的核心技術,數(shù)據(jù)挖掘的精髓在于對海量數(shù)據(jù)進行二次、甚至多次挖掘與分析,發(fā)現(xiàn)事物、現(xiàn)象背后所隱藏的深層次信息、線索和規(guī)律。犯罪偵查中,常用的數(shù)據(jù)挖掘分析技術主要有以下幾種:一是關聯(lián)性分析,它能夠發(fā)現(xiàn)不同數(shù)據(jù)項之間的關系;二是分類分析,即根據(jù)數(shù)據(jù)的特征,分別建立每個數(shù)據(jù)類別之模型,然后根據(jù)數(shù)據(jù)的屬性,將數(shù)據(jù)分配到不同特征的級別之中;三是聚類分析,即將具有相似性的數(shù)據(jù)整合在一起;四是時序分析,即對時間因素的關聯(lián)性進行分析,找出數(shù)據(jù)在時間上所呈現(xiàn)的規(guī)律;五是異常分析,即找出數(shù)據(jù)集中明顯不同于既定數(shù)據(jù)模式的數(shù)據(jù)。
(5)數(shù)據(jù)畫像。犯罪偵查中,面對海量數(shù)據(jù),偵查人員借助各種分析軟件,運用數(shù)據(jù)挖掘等方法,可對犯罪嫌疑人或者相關人員的身份、行為特征、興趣愛好、人際關系等情況進行深入分析,給犯罪嫌疑人“數(shù)據(jù)畫像”。在大數(shù)據(jù)畫像技術下,犯罪嫌疑人會成為大數(shù)據(jù)下的“透明人”,其身份信息、行為軌跡、消費習慣、經(jīng)濟狀況、家庭關系、興趣愛好、人際交往等特征一般都會完整地展現(xiàn)出來。
(6)犯罪網(wǎng)絡關系分析。犯罪網(wǎng)絡關系是指以某一位或者幾位犯罪嫌疑人、以某一種或者幾種犯罪、以某一類或者幾類犯罪為中心,根據(jù)該一位或者幾位犯罪嫌疑人與其他網(wǎng)絡用戶的聯(lián)系頻率、互動頻率、興趣相似度、共同好友數(shù)量等指標,或者圍繞著某一種或者幾種犯罪,或者某一類或者幾類犯罪,各個犯罪嫌疑人的聯(lián)系頻率、互動頻率、共同好友關系等指標,建立起來的網(wǎng)絡聯(lián)系關系網(wǎng)。
許多犯罪,特別是一些集團犯罪、團伙犯罪,都具有群體性特點,犯罪成員呈現(xiàn)組織化、團伙化形式,犯罪成員之間有著明確的分工、各司其職、互相配合。對這種犯罪成員之間通過網(wǎng)絡的相互聯(lián)系、分工合作關系的分析,就是“犯罪網(wǎng)絡分析”。犯罪網(wǎng)絡分析方法適用于所有的有組織犯罪,如恐怖組織犯罪、帶有黑社會性質(zhì)的組織犯罪等。特別是在網(wǎng)絡犯罪呈擴大化趨勢的今天,很多犯罪分子都通過網(wǎng)絡進行串聯(lián),為犯罪網(wǎng)絡分析提供了便利的“數(shù)據(jù)”條件,通過犯罪嫌疑人的即時通信數(shù)據(jù)、社交數(shù)據(jù)等,可以還原出犯罪網(wǎng)絡關系圖,掌握犯罪嫌疑人的全面信息及犯罪組織成員之間的分工合作關系,并以此為突破口,挖掘進一步的犯罪網(wǎng)絡關系,直到最后偵破犯罪案件。
3.1 面臨的問題
大數(shù)據(jù)在犯罪偵查中的廣泛應用,促進了偵查思維、偵查模式和偵查方法的深刻變化,提高了偵查效率,但大數(shù)據(jù)在犯罪偵查的廣泛應用也面臨著以下亟待解決的問題:
(1)犯罪偵查中的“數(shù)據(jù)孤島”問題?!皵?shù)據(jù)孤島”是指因數(shù)據(jù)標準不一致等問題,造成不同機構、部門之間的信息系統(tǒng)無法兼容,數(shù)據(jù)無法互相利用,而形成了一個個相對孤立的數(shù)據(jù)區(qū)域。利用大數(shù)據(jù)進行犯罪偵查,需要各種信息系統(tǒng)之間的彼此開放和聯(lián)通互通?!耙环矫嬲莆罩罅亢诵臄?shù)據(jù),占數(shù)據(jù)總量95%以上的非結(jié)構化數(shù)據(jù)被束之高閣;另一方面,一些企業(yè)擁有專業(yè)數(shù)據(jù)分析應用技術,卻只能望寶山興嘆。”[5]66
從社會面大數(shù)據(jù)來說,現(xiàn)有的各種數(shù)據(jù)系統(tǒng)分別歸屬于中央、地方的各級黨政機關、人大機關、政協(xié)機關、法院系統(tǒng)和檢察院系統(tǒng),以及各個獨立的企事業(yè)單位、社會團體和組織,且各種數(shù)據(jù)信息尚未實現(xiàn)互聯(lián)互通,“數(shù)據(jù)孤島”困境十分突出。同時,上述機關、企事業(yè)單位、社會團體和組織公開數(shù)據(jù)的程度也非常低,且有數(shù)據(jù)碎片化、數(shù)據(jù)割據(jù)之嫌。這些都嚴重影響偵查機關對各種數(shù)據(jù)的深度挖掘和比對分析。
從公安機關自身的大數(shù)據(jù)來說,公安部建立了與犯罪偵查有關的各種數(shù)據(jù)信息系統(tǒng),并且出臺了一些部門規(guī)章和內(nèi)部規(guī)定以規(guī)范各種數(shù)據(jù)信息的收集、錄入,但與犯罪偵查的現(xiàn)實需要相比,數(shù)據(jù)在“量”上還存在很大不足。同時,大量的無用、虛假數(shù)據(jù)信息被收集、錄入公安部的數(shù)據(jù)信息系統(tǒng),導致數(shù)據(jù)在“質(zhì)”上也難以滿足犯罪偵查的需求。在數(shù)據(jù)信息系統(tǒng)的互聯(lián)互通方面,基本上實現(xiàn)了全國層面的互聯(lián)互通,以及數(shù)據(jù)查詢與比對分析,但全國地方的省、市、縣公安機關之間,以及同一行政區(qū)域的公安機關內(nèi)部的不同警種之間,數(shù)據(jù)信息系統(tǒng)并不能互聯(lián)互通,各種數(shù)據(jù)仍然無法實現(xiàn)共享。
(2)大數(shù)據(jù)技術落后,“數(shù)據(jù)專家”不足。與其他數(shù)據(jù)技術發(fā)達國家相比,在數(shù)據(jù)獲取、挖掘、整合、使用等技術方面,我國整體上相對比較落后,現(xiàn)有的技術儲備已經(jīng)不能滿足運用大數(shù)據(jù)之現(xiàn)實需要,這導致在犯罪偵查中大數(shù)據(jù)的價值無法得到充分體現(xiàn)。大數(shù)據(jù)時代,數(shù)據(jù)類型呈現(xiàn)結(jié)構化、半結(jié)構化、非結(jié)構化相融合特征,海量數(shù)據(jù)帶來了存儲方式的變化。怎樣才能有效地把有用數(shù)據(jù)從海量的混雜數(shù)據(jù)中剝離出來,數(shù)據(jù)技術,特別是數(shù)據(jù)挖掘、分析技術在其中起著十分關鍵的作用。
數(shù)據(jù)收集、挖掘、整合與分析,是一個非常復雜的工作過程,需要一大批既具有本專業(yè)或者相關研究領域的專業(yè)知識,又精通大數(shù)據(jù)技術的專門人才或者專家?,F(xiàn)階段,我國公安機關缺乏將偵查專業(yè)知識與大數(shù)據(jù)專業(yè)知識相結(jié)合的專家,偵查人員根本不了解大數(shù)據(jù)專業(yè)知識,技術人員也僅僅掌握一般的大數(shù)據(jù)專業(yè)知識,而非大數(shù)據(jù)領域的“數(shù)據(jù)專家”。由于缺乏“數(shù)據(jù)專家”,無法在犯罪偵查中有效地收集、挖掘和分析大數(shù)據(jù),導致大量的有用數(shù)據(jù)處于“休眠”狀態(tài),無法在犯罪偵查中發(fā)揮其應有作用。面對大數(shù)據(jù),如果不能進行挖掘、分析,犯罪偵查中大數(shù)據(jù)的作用就難以發(fā)揮;如果挖掘不深入、全面,分析錯誤,就會導致偵查決策出現(xiàn)失誤,導致偵查方向出現(xiàn)錯誤。
(3)大數(shù)據(jù)應用與個人隱私保護問題。大數(shù)據(jù)時代,個人生活的方方面面都被高度數(shù)據(jù)化,個人乘車(機)記錄、消費記錄、通信記錄、網(wǎng)上瀏覽記錄、住宿記錄等數(shù)據(jù),都能勾勒出一個人的社會行為軌跡和社會活動軌跡,通過對個人軌跡的全面、深入挖掘與分析,可以了解一個人的全部社會活動情況,甚至能夠把握一個人的行為特征和心理特征。
大數(shù)據(jù)在犯罪偵查中的應用,推動了偵查人員思維方式和偵查方法的變革,增強了偵查機關的破案能力。但對數(shù)據(jù)信息系統(tǒng)中海量數(shù)據(jù)的挖掘、分析和利用,也導致了公民個人隱私權的克減與損害?!按髷?shù)據(jù)挖掘分析得越精準、應用領域越廣闊,個人隱私和數(shù)據(jù)安全保護就會變得越緊迫?!盵5]111與犯罪偵查有關的大數(shù)據(jù)涉及到普通公民、公職人員的一切社會行為和社會活動,以及與其有過交集的其他社會組織和普通公民的一切社會行為和社會活動,偵查過程中對上述領域數(shù)據(jù)的挖掘、分析和利用,必然會給社會成員的正常生活帶來嚴重影響,造成社會成員隱私權的嚴重克減和侵害。
(4)大數(shù)據(jù)應用與國家安全問題。在安全層面,“大數(shù)據(jù)安全”已經(jīng)影響到國家戰(zhàn)略安全。大數(shù)據(jù)時代,網(wǎng)絡空間中,諸多涉及國家安全機密數(shù)據(jù)的潛在威脅與日俱增。
“大數(shù)據(jù)直接影響到國家安全和社會穩(wěn)定,是一個國家數(shù)字主權的體現(xiàn),是關系到國家安全的戰(zhàn)略性問題?!盵6]《中華人民共和國網(wǎng)絡安全法》①《中華人民共和國網(wǎng)絡安全法》,2016年11月7日第十二屆全國人大常務委員會第十二四次會議通過,該法于2017年6月1日施行。第28條規(guī)定:“網(wǎng)絡運營者應當為公安機關、國家安全機關依法維護國家安全和偵查犯罪的活動提供技術支持和協(xié)助?!痹摋l規(guī)定表明,在維護國家安全和偵查犯罪時,公安機關、國家安全機關有權使用網(wǎng)絡中的各種數(shù)據(jù)。在犯罪偵查中,大數(shù)據(jù)的應用必然涉及到社會面數(shù)據(jù)信息系統(tǒng)和公安機關自有數(shù)據(jù)信息系統(tǒng)中各種數(shù)據(jù)的挖掘、分析和應用,而各種信息系統(tǒng)中的不同數(shù)據(jù)則涉及到不同國家機關、社會團體、企業(yè)事業(yè)單位、公職人員和普通公民的相關信息和行為記錄。對這些數(shù)據(jù)的挖掘、分析和利用,如果不能做到嚴格規(guī)范和保密,就很可能泄露出去,為西方敵對勢力及敵對分子所掌握和利用,進而影響到我國的國家安全。
3.2 解決之道
解決犯罪偵查中大數(shù)據(jù)應用中面臨的問題,應從多方入手,綜合施策。
(1)建立數(shù)據(jù)共享機制,打破數(shù)據(jù)壁壘,破解“數(shù)據(jù)孤島”困境。當下,解決犯罪偵查中大數(shù)據(jù)應用中面臨的問題,當務之急是打破數(shù)據(jù)壁壘、促進公安機關與社會面數(shù)據(jù)庫之間的共享,促進公安機關內(nèi)部數(shù)據(jù)庫之間的共享。國務院《促進大數(shù)據(jù)發(fā)展綱要》的核心內(nèi)容就是建立數(shù)據(jù)共享和開放機制,強調(diào)要加強數(shù)據(jù)的跨部門、跨區(qū)域共享,加強政府數(shù)據(jù)與社會數(shù)據(jù)的匯聚整合,加強執(zhí)法部門之間的數(shù)據(jù)流通。打破數(shù)據(jù)壁壘,破解數(shù)據(jù)孤島,建立數(shù)據(jù)共享機制,應當從兩個方面入手:一是公安機關內(nèi)部要建立數(shù)據(jù)共享機制,從縱向上打破各級偵查機關的數(shù)據(jù)壁壘,橫向上打破不同地域偵查機關之間的數(shù)據(jù)壁壘,實現(xiàn)公安機關自有各種信息系統(tǒng)的互聯(lián)互通,建立數(shù)據(jù)共享、查詢渠道。二是建立公安機關與社會面數(shù)據(jù)共享機制,依法共享諸如工商、稅務、銀行、通信、房地產(chǎn)、車輛、證券、股票、電力、網(wǎng)絡、醫(yī)療、社保、物流等行業(yè)的數(shù)據(jù)。在現(xiàn)階段,偵查機關可以通過與相關行業(yè)簽署共建協(xié)議、合作協(xié)議等方式,通過開放接口或者拷貝的形式獲取進入社會面數(shù)據(jù)庫的部分權限。
(2)實施大數(shù)據(jù)國家戰(zhàn)略,發(fā)展大數(shù)據(jù)技術,培養(yǎng)大數(shù)據(jù)專家。大數(shù)據(jù)是一場革命,“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新,這將給國家治理方式帶來根本性變革。”[5]81為此,世界各國都制定了自己的大數(shù)據(jù)國家戰(zhàn)略,強力發(fā)展大數(shù)據(jù)技術,培養(yǎng)大數(shù)據(jù)人才?!皵?shù)字治國”、循“數(shù)”管理已成為發(fā)達國家發(fā)展的基本思路。為實施大數(shù)據(jù)國家戰(zhàn)略,國務院發(fā)布了《關于積極推進“互聯(lián)網(wǎng)+”行動的指導意見》《關于運用大數(shù)據(jù)加強對市場主體服務和監(jiān)管的若干意見》《促進大數(shù)據(jù)發(fā)展行動綱要》,強調(diào)發(fā)展大數(shù)據(jù)國家戰(zhàn)略,以及大數(shù)據(jù)技術的發(fā)展與大數(shù)據(jù)人才的培養(yǎng)。
在我國,大數(shù)據(jù)在犯罪偵查中的應用已十分普遍,但由于受到小數(shù)據(jù)時代偵查思維、偵查觀念的影響,公安機關并未真正將犯罪偵查中的大數(shù)據(jù)應用提高到戰(zhàn)略層面,在大數(shù)據(jù)技術的發(fā)展、大數(shù)據(jù)人才的培養(yǎng)方面,也存在著較大差距。因此,公安機關應當制定自己的大數(shù)據(jù)偵查發(fā)展戰(zhàn)略,推進公安大數(shù)據(jù)技術發(fā)展,利用普通高等院校、科研院所,以及部屬公安院校和地方公安院校等,大量培養(yǎng)大數(shù)據(jù)專門人才。特別要以《促進大數(shù)據(jù)發(fā)展行動綱要》為指導,不斷建立健全各種支撐犯罪偵查的數(shù)據(jù)信息系統(tǒng)、構建犯罪偵查分析模型,通過各種方式和途徑為各級公安機關培養(yǎng)一批既通曉偵查專業(yè)知識,又具有大數(shù)據(jù)專業(yè)知識的“業(yè)務專家”或者專門人才,為大數(shù)據(jù)在犯罪偵查中的深度應用提供人才和專業(yè)智力支撐。
(3)加強信息立法,規(guī)范大數(shù)據(jù)應用,保障個人隱私安全。大數(shù)據(jù)時代,“第三只眼”無處不在,每個人都身處監(jiān)控之下,個人隱私隨時隨地都可能受到侵害。如何規(guī)范大數(shù)據(jù)應用成為一個必須解決的問題。為此,《中華人民共和國網(wǎng)絡安全法》第42條、第44條、第45條,對網(wǎng)絡運營者、個人和組織、依法負有網(wǎng)絡安全監(jiān)督管理職責的部門及相關工作人員保護公民個人信息安全的義務和責任做出了明確規(guī)定?!缎谭ㄐ拚浮罚ň牛⒎欠ǐ@取公民個人信息罪取消,規(guī)定為侵犯公民個人信息罪,在一定程度上體現(xiàn)了對公民個人信息的保護,同時也為打擊該類犯罪提供了重要的法律依據(jù)。
但是,我國犯罪偵查領域的個人信息保護尚處于法律真空狀態(tài),造成了犯罪偵查過程中公民個人隱私保障的缺失。因此,應當通過修改刑事訴訟法或者其他相關法律、法規(guī),增加犯罪偵查中個人信息查詢、挖掘、比對等內(nèi)容,明確信息數(shù)據(jù)的擁有者、使用者和管理者的法律權利、義務與責任,給“第三只眼”戴上“法律”眼罩,以保障大數(shù)據(jù)在犯罪偵查中應用的合理、合法。
此外,為了保障國家安全,保障國家“數(shù)據(jù)主權”,除加強貫徹實施《中華人民共和國國家安全法》《中華人民共和國反恐怖主義法》《中華人民共和國網(wǎng)絡安全法》,以及刑法對數(shù)據(jù)信息保護的規(guī)定外,還應當制定一部《中華人民共和國信息安全法》,設專章規(guī)定“國家信息安全保護”,規(guī)范包括偵查機關在內(nèi)的不同主體對自有和社會面大數(shù)據(jù)的應用,切實保護國家的“數(shù)據(jù)主權”。
[1]楊正洪.智慧城市:大數(shù)據(jù)、物聯(lián)網(wǎng)和去計算之應用[M].北京:清華大學出版社,2014:13-14.
[2]IBM Center for The Business of Government.Realizing the Promise of Big Data:Implementing Big Date Projects[R/ OL].(2014-05-10)[2016-12-9].http:www.aisixiang.com/ data/20760.html.
[3]維克多·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:29,56,83,193,127.
[4]斯進.手機話單分析信息碰撞技戰(zhàn)法的應用研究[J].信息網(wǎng)絡安全,2011(7):63-64+68.
[5]新玉言,李克.大數(shù)據(jù):政府治理新時代[M].北京:臺海出版社,2016:66,111,81.
[6]李國杰,程學琪.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012(06):647-657.
(責任編輯:孟凡騫)
Analysis of Big data Applications in Criminal Investigation
WANG Bin
(Department of Criminology of Henan Police Collage Henan Zhengzhou 450046)
In order to improve the efficiency of criminal investigation and ensure the objectivity of investigation behavior, big data are widely used in investigation. According to the searching, querying, comparing and analyzing all kinds of big data in the data system and social data systems of public security organs, it is possible to fnd clues to the crime, seize criminal evidences, arrest the suspect, and detect criminal cases. However, there are problems in the application of big data in criminal investigation: “data island”, technology backwardness of big data, lack of big data experts, infringing upon citizens’ privacy rights and threats to national security. Therefore, we should break data barriers, crack the dilemma of “data island” , develop big data technology, train big data talents, strengthen the legislation of big data information, and protect the privacy of citizens and national security.
Crime investigation Big data Applied analysis
D918
A
2095-7939(2017)04-0031-07
10.14060/j.issn.2095-7939.2017.04.005
2017-01-17
河南省哲學社會科學規(guī)劃項目(編號:2016BSH007)。
王彬(1967-),男,河南淮濱人,河南警察學院犯罪學系主任、教授,博士,主要從事犯罪偵查與犯罪證據(jù)研究。