◆蔡昆 陳凱
網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺建設
◆蔡昆 陳凱
(重慶科技學院智能技術與工程學院 重慶 400000)
目前,網(wǎng)絡賭博犯罪模式變化多端,證據(jù)往往難以追蹤和提取,不但需要偵查人員具備高超的信息刑偵手段,而且需要在海量的數(shù)據(jù)中提取有用信息,耗費大量時間與人力。機器學習方法是一套基于數(shù)據(jù)的特征提取方法,在分類識別和預測擬合中被廣泛運用。基于此,本文結(jié)合重慶科技學院智能計算與模式識別團隊搭建的網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺,從總體架構、功能架構、技術結(jié)構等探討大數(shù)據(jù)平臺的建設。
網(wǎng)絡賭博;數(shù)據(jù)集成;自助研判;大數(shù)據(jù)平臺
賭博會造成嚴重的后果,它借用網(wǎng)絡正在無休止地在網(wǎng)絡傳播,無論什么年齡什么層次的人群都會接觸到,加上監(jiān)管難度大,網(wǎng)絡賭博已經(jīng)危害到了整個社會的和諧。
本平臺意在為公安辦公人員,肅清涉案資金來源及流向,通過自然人日常行為交易數(shù)據(jù)集成,設定模型進行研判,對可疑犯罪嫌疑人進行預警,輔助公安機關對案件的研判處理。對已經(jīng)犯案的人員進行智能研判,對可能在未來犯案的人員進行預警,對“家族”集群式犯案團伙進行連根拔起。避免更多的無辜群眾的利益受到損傷,樹立良好的社會風氣,有利于社會發(fā)展,維護社會和諧穩(wěn)定。有利于在網(wǎng)絡賭博活動高度集團化,分支機構和代理人員眾多的情況下,精準合理確定打擊范圍。
目前,網(wǎng)絡賭博犯罪模式變化多端,證據(jù)往往難以追蹤和提取,不但需要偵查人員具備高超的信息刑偵手段,而且需要在海量的數(shù)據(jù)中提取有用信息,耗費大量時間與人力。當前,在研判網(wǎng)絡賭博案件中,在對數(shù)據(jù)的集中、融合及聯(lián)動研判方面面臨以下困難。
信息數(shù)據(jù)是網(wǎng)絡賭博案件研判的核心,是完成案件研判、行為人分析的基礎與根基。
目前,網(wǎng)絡賭博案件的原始數(shù)據(jù),在公安機關的調(diào)度收集下已達到一定規(guī)模,較為豐富,但仍未打通各數(shù)據(jù)集合的數(shù)據(jù)庫。例如,某案件需要分析該嫌疑人銀行卡交易數(shù)據(jù),支付寶消費數(shù)據(jù),淘寶消費數(shù)據(jù)。該嫌疑人涉及數(shù)據(jù)將會集合存儲。同時該嫌疑人涉及的犯罪團伙涉案人員數(shù)據(jù)又將進行二次存儲。因此這樣的數(shù)據(jù),將不再能夠?qū)崿F(xiàn)大數(shù)據(jù)分析能力。
受信息源不同及網(wǎng)絡賭博案件特征的影響,原始數(shù)據(jù)數(shù)據(jù)量大,數(shù)據(jù)特征復雜,實時性強,難以建立適用的數(shù)學模型,不同數(shù)據(jù)的存儲格式不盡相同,業(yè)務對不同數(shù)據(jù)的采集、治理、分析等相關需求也不相同。這就使得龐大的數(shù)據(jù)集難以實現(xiàn)互相融合,成為無效數(shù)據(jù)。網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺在底層架構時就將數(shù)據(jù)進行統(tǒng)一規(guī)范,引入研判專家經(jīng)驗數(shù)據(jù)倉庫,將特定犯罪模式由思維化轉(zhuǎn)變?yōu)槌绦蚧?,這將使得原本表面毫無關聯(lián)的數(shù)據(jù)交織出潛在關聯(lián)。
在系統(tǒng)聯(lián)動控制層面,現(xiàn)有系統(tǒng)大都采用傳統(tǒng)架構模式,缺點是支持功能單一、數(shù)據(jù)處理效率低下、聯(lián)動性差、功能分支孤島效應較為明顯。系統(tǒng)之間數(shù)據(jù)共享能力較薄弱,無法進行拓展運用;數(shù)據(jù)價值多限于單一案件,而對其他案件的借鑒意義不大。數(shù)據(jù)中心可對采集到的信息數(shù)據(jù)進行匯聚和分析,但是就數(shù)據(jù)的分析、各業(yè)務系統(tǒng)之間的聯(lián)動控制層面而言,系統(tǒng)之間數(shù)據(jù)的橫向縱向聯(lián)動控制效果并不佳。這將導致案件的最終判定依舊是依靠經(jīng)驗豐富的研判人員,并未實現(xiàn)真正意義上的信息自主化。
網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺的價值,主要體現(xiàn)在對來自銀行、淘寶、拼多多、公安機關等多源信息,進行數(shù)據(jù)標準化、統(tǒng)一化管理,在進行聯(lián)動分析處理時實現(xiàn)共治與共享,減少單個信息源孤島。同時,平臺價值還體現(xiàn)在,克服單個行為人信息源孤獨分散、信息離散化導致的數(shù)據(jù)約束、聯(lián)動分析的困難。為了充分發(fā)揮大數(shù)據(jù)在現(xiàn)代化網(wǎng)絡賭博案件偵破的優(yōu)勢,對平臺架構的合理性、實用性、穩(wěn)定性、時效性、安全性應著重考慮。本文,以大數(shù)據(jù)智能控制一體化平臺及其體系架構[1]的建設為例,對網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺架構、功能、技術架構等進行分析。
當前,網(wǎng)絡賭博甄別與預防案件種類繁多,且目前國內(nèi)類似案件偵查大都為人工拉網(wǎng)式排查,效率普遍較低,偶有的信息化處理也大都為關鍵詞鎖定。案件涉及數(shù)據(jù)包含結(jié)構化、非結(jié)構化、時序等不同類型數(shù)據(jù),對數(shù)據(jù)的采集、治理、分析、共享等的需求均有較高要求。本文搭建的一體化大數(shù)據(jù)平臺首先應具備對不同類型數(shù)據(jù)的存儲能力,其次是治理、服務和應用的能力。網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺,由基礎層設備(物理存儲設備、私有云、虛擬化等)、計算機存儲資源池(Hadoop、MySQL、圖數(shù)據(jù)庫等)、公共服務層(數(shù)控平臺、系統(tǒng)管理、通用計算與調(diào)度等)、數(shù)據(jù)中心(大數(shù)據(jù)信息資源池、數(shù)據(jù)自助分析服務模塊、數(shù)據(jù)治理服務模塊)、安全平臺、研判平臺、可視化平臺、應用層(個人軌跡追蹤、異常轉(zhuǎn)賬預警、境外IP預警等)等構成,總體架構如圖1所示。
圖1 網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺總體架構
基礎設施層為業(yè)務層提供數(shù)據(jù)存儲服務,網(wǎng)絡通訊服務及實時數(shù)據(jù)導入服務。在基礎設施層之上,構建基礎數(shù)據(jù)平臺層,提供Hadoop技術的大數(shù)據(jù)并行計算及流式計算,包括對結(jié)構化數(shù)據(jù)、非結(jié)構化數(shù)據(jù)、數(shù)據(jù)倉庫的存儲及調(diào)度。在基礎數(shù)據(jù)平臺層之上,構建公共基礎服務,結(jié)合當下主流大數(shù)據(jù)技術,提供數(shù)據(jù)混合存儲管理,統(tǒng)一調(diào)度管理,并發(fā)限流管理等功能。
數(shù)據(jù)中心,作為網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺的核心,由大數(shù)據(jù)信息資源湖、數(shù)據(jù)自主分析模塊服務模塊、數(shù)據(jù)修整服務模塊組成,為數(shù)據(jù)的儲存、分析、共享、計算、特征提取等提供了服務與基礎??梢暬脚_基于數(shù)據(jù)中心,對預處理及初步分析后的數(shù)據(jù)進行信息可視化展示,為應用層的具體業(yè)務進行數(shù)據(jù)準備。
網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺的功能架構采用分層模式,主要由基礎設備、平臺層、應用層等構成,如圖2所示。
基礎資源層的功能主要包括系統(tǒng)服務器、虛擬化資源、研判專家資源、第三方授權數(shù)據(jù)等。數(shù)據(jù)存儲將會實現(xiàn)對結(jié)構化數(shù)據(jù)、非結(jié)構化數(shù)據(jù)、實時動態(tài)數(shù)據(jù)、經(jīng)驗倉庫數(shù)據(jù)進行低成本存儲,滿足操作人員及項目需求,進行高性能訪問,將各數(shù)據(jù)單元進行關聯(lián),克服信息孤島的閉塞困難。平臺層的主要功能包括數(shù)據(jù)治理服務、大數(shù)據(jù)湖服務、可視化開發(fā)服務等,通過對平臺的集中統(tǒng)一化管理、數(shù)據(jù)規(guī)范、統(tǒng)一認證等基礎服務能力,實現(xiàn)平臺整體服務的協(xié)同性,削弱以往信息孤島現(xiàn)象。在應用層的功能主要包括,面向業(yè)務需求,具備信息可視化與支撐犯罪場景的數(shù)據(jù)挖掘工作能力。實現(xiàn)對指定犯罪人員的用戶畫像、犯罪模式特征分析、嫌疑人生活圖譜、資金流向追蹤等應用業(yè)務提供計算結(jié)果。
圖2 網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺功能架構
網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺的技術架構可分為數(shù)據(jù)集、數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)業(yè)務應用、業(yè)務應用及安全控制(圖3)。
圖3 網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺技術架構
首先,在數(shù)據(jù)收集階段,平臺將多渠道多類型數(shù)據(jù)源進行收集,根據(jù)各類數(shù)據(jù)的不同特性及后續(xù)實際使用需求,采取不同的方式進行存儲,包含數(shù)字、字符、語句、音頻、視頻、IP等行為人所產(chǎn)生的數(shù)據(jù)源。其中“破案人員”的三方信息包含,后續(xù)研判的特定閾值及固定化模式程序文件。在數(shù)據(jù)分析階段,通過特定的數(shù)據(jù)分析工具(pandas、jieba、numpy等)及方法(PCA、聚類、關聯(lián)度等),進行數(shù)據(jù)的整理及挖掘。將處理后的數(shù)據(jù)進行歸類存檔,構建時序、語義、經(jīng)驗、特殊值等倉庫,供平臺可視化展示及后續(xù)自主研判使用。在數(shù)據(jù)中心中,采用流式計算及批量計算等模式,對處理后的數(shù)據(jù)構建犯罪用戶畫像數(shù)據(jù)集。并利用深度學習與機器學習的方法對處理后數(shù)據(jù)集進行建模仿真。應用層包含了業(yè)務所需的犯罪模式特征、行為人時空刻畫、網(wǎng)絡賭博預警、嫌疑人生活圖譜等具體功能。在整套流程中,分別對應用、數(shù)據(jù)、操作、設備及系統(tǒng),設置了對應的安全平臺,用以提升系統(tǒng)穩(wěn)定性。
在公安機關信息化破案中,網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺建設,有助于克服現(xiàn)有模式下的數(shù)據(jù)集中、系統(tǒng)拓展、數(shù)據(jù)共享、信息孤島等困難,可為智慧預警、自主決策、數(shù)據(jù)可視化、關聯(lián)性分析等業(yè)務提供數(shù)據(jù)及計算服務。目前,重慶科技學院智能計算與模式識別團隊對網(wǎng)絡賭博實時甄別一體化大數(shù)據(jù)平臺的建設仍在不斷推進和完善。在平臺建設中,要考慮各數(shù)據(jù)類型存在潛在關聯(lián)與區(qū)別,也要結(jié)合實際情況對數(shù)據(jù)進行現(xiàn)實感情賦值,不能用純粹的理論知識來進行判案決策,團隊將進一步打造和完善符合監(jiān)控網(wǎng)絡涉賭的一體化大數(shù)據(jù)平臺,以推進相關項目落地,為破獲網(wǎng)絡化犯罪等方面革新。
[1]郭亦文,耿林霄,胡勇,等.大數(shù)據(jù)智能控制一體化平臺及其體系架構[J].熱力發(fā)電,2019,48(09):22-27.
2021年重慶市研究生科研創(chuàng)新項目“基于多源信息集成模型的網(wǎng)絡賭博偵防研究”(CYS21506),蔡昆;重慶科技學院研究生創(chuàng)新訓練項目“基于多源信息集成模型的網(wǎng)絡賭博偵防研究”(YKJCX2020805),蔡昆;重慶科技學院“基于集成學習的信用卡欺詐檢測方法研究”(YKJCX2020803)陳凱