薛亞龍,劉梓濘
(寧夏警官職業(yè)學(xué)院,寧夏 銀川 750021)
開源數(shù)據(jù)在提升人們生活質(zhì)量效能和工作效率的同時,也給數(shù)據(jù)犯罪情勢的生存與發(fā)展提供了必要的“土壤”條件。尤其是數(shù)據(jù)犯罪情勢中犯罪手段、犯罪工具、犯罪時空等近年來呈現(xiàn)出跳躍式的發(fā)展態(tài)勢,犯罪目標(biāo)對象的選擇和侵害也越來越虛擬化和動態(tài)化,致使犯罪行為由傳統(tǒng)的實體犯罪情勢向開源數(shù)據(jù)驅(qū)動創(chuàng)新時代的數(shù)據(jù)犯罪情勢所轉(zhuǎn)型。鑒于此,迫切需要引入基于開源數(shù)據(jù)的情報偵查方法研究范式。這不僅使偵查人員能夠?qū)?shù)據(jù)犯罪情勢的生存與發(fā)展態(tài)勢展開快速高效的算法解析和促進(jìn)不同開源數(shù)據(jù)情報源之間的互相融合,而且還能夠幫助其提升情報偵查價值需求深挖的協(xié)同性和情報偵查決策應(yīng)用的同配性,全面提高挖掘與分析算法的準(zhǔn)確度和精確度,從而實現(xiàn)開源數(shù)據(jù)情報偵查的應(yīng)然價值和實然效果。
目前,越來越多的犯罪行為呈現(xiàn)出虛擬化、智能化、數(shù)據(jù)化等數(shù)據(jù)犯罪情勢的發(fā)展態(tài)勢,造成傳統(tǒng)的情報偵查方法出現(xiàn)力不從心的局面,往往致使案件出現(xiàn)偵查錯誤或陷入情報偵查僵局。[1]誠然,將開源數(shù)據(jù)的內(nèi)涵屬性與現(xiàn)代情報偵查工作的特殊價值需求互相融合,不僅是開源數(shù)據(jù)廣泛應(yīng)用于社會各行業(yè)領(lǐng)域的必然趨勢,而且還是現(xiàn)代情報偵查工作變革和轉(zhuǎn)型的內(nèi)在本質(zhì)需求,更是預(yù)防和打擊數(shù)據(jù)犯罪情勢生存與發(fā)展的實然迫切應(yīng)對措施。因此,在開源數(shù)據(jù)驅(qū)動創(chuàng)新時代應(yīng)該賦予開源數(shù)據(jù)情報偵查新的內(nèi)涵與屬性。
在開源數(shù)據(jù)驅(qū)動創(chuàng)新時代,隨著開源數(shù)據(jù)呈現(xiàn)出指數(shù)級的迅猛產(chǎn)生和發(fā)展,促使其表現(xiàn)出數(shù)據(jù)含量巨大、價值密度低、類別形態(tài)多樣以及數(shù)據(jù)傳輸速度快等顯著特征,[2]給現(xiàn)代情報偵查工作帶來了巨大的機(jī)遇和挑戰(zhàn)。尤其在開源數(shù)據(jù)的斂散存儲、匯集范圍、服務(wù)對象、分析人員、技術(shù)處理過程等方面,給現(xiàn)代情報偵查工作能夠創(chuàng)新提供新的途徑和方法。[3]顯然,依據(jù)開源數(shù)據(jù)的特點(diǎn)和算法價值優(yōu)勢,一方面,有利于情報偵查源搜集從限定數(shù)據(jù)源向全范圍數(shù)據(jù)延伸和情報偵查途徑從封閉性途徑向開放性途徑拓展;另一方面,還有利于情報偵查人員從固定人員向?qū)I(yè)情報偵查人員轉(zhuǎn)變和情報偵查挖掘分析過程從傳統(tǒng)實體空間線性模式向開源數(shù)據(jù)驅(qū)動創(chuàng)新時代的循環(huán)模式變革,從而全面提高現(xiàn)代情報偵查工作的高效性、客觀性、精確性。鑒于此,我們認(rèn)為,開源數(shù)據(jù)情報偵查的內(nèi)涵為:偵查人員以數(shù)據(jù)犯罪情勢中各種海量復(fù)雜的開源數(shù)據(jù)情報源為基礎(chǔ)和依據(jù),以案件情報偵查的價值需求感知獲取為前提,根據(jù)不同開源數(shù)據(jù)情報源的類別形態(tài)和屬性結(jié)構(gòu)而采取與其相適應(yīng)的各種SP-IECLAT 并行關(guān)聯(lián)算法、分簇?zé)o線傳感數(shù)據(jù)融合算法、并行聚類CLUBS 算法、引力搜索GSA算法等開源數(shù)據(jù)挖掘分析算法,從而幫助偵查人員實現(xiàn)預(yù)防和打擊數(shù)據(jù)犯罪情勢生存與發(fā)展變化態(tài)勢的應(yīng)然價值和實然效果,屬于開源數(shù)據(jù)驅(qū)動創(chuàng)新時代的一種新型數(shù)據(jù)情報偵查方法。
1.數(shù)據(jù)來源的復(fù)雜性
開源數(shù)據(jù)情報偵查的全部過程都離不開對開源數(shù)據(jù)的挖掘與分析,但是大部分的開源數(shù)據(jù)都處于斂散化、碎片化、層次化等的記錄和存儲狀態(tài),并且還呈現(xiàn)出索引不規(guī)范、格式標(biāo)準(zhǔn)不統(tǒng)一、情報價值不確定等現(xiàn)象。[4]雖然偵查人員對符號型、數(shù)值型、文本型、圖片型等不同的開源數(shù)據(jù)能夠采取不同的數(shù)據(jù)算法展開挖掘分析,但是在整個開源數(shù)據(jù)情報偵查的過程中缺乏全局性的數(shù)據(jù)情報來源鑒別,并沒有對其形成精確性的識別技術(shù)方法。所以,數(shù)據(jù)來源的復(fù)雜性是開源數(shù)據(jù)情報偵查的首要內(nèi)在屬性?;诖耍环矫?,需要偵查人員對不同來源的開源數(shù)據(jù)進(jìn)行快速高效聚類分析,并及時構(gòu)建和形成開源數(shù)據(jù)的頻繁項目聚類子集;另一方面,需要偵查人員提高對不同開源數(shù)據(jù)與涉案數(shù)據(jù)犯罪情勢之間關(guān)聯(lián)性挖掘分析的精確度,從而提升開源數(shù)據(jù)情報偵查的科學(xué)性和客觀性。
2.數(shù)據(jù)驗證的難度性
由于偵查人員發(fā)現(xiàn)和獲取開源數(shù)據(jù)的情報偵查途徑有所不同,造成對其來源的有效性和客觀性就必然需要進(jìn)行驗證和篩選過濾,以便提高開源數(shù)據(jù)情報偵查預(yù)測和決策的優(yōu)質(zhì)性和嚴(yán)謹(jǐn)性。雖然偵查人員采取MapServer 算法、Map 算法等開源數(shù)據(jù)算法能夠使開源數(shù)據(jù)情報偵查挖掘與分析應(yīng)用過程實現(xiàn)智能化和聯(lián)動化,但是開源數(shù)據(jù)的數(shù)據(jù)含量巨大、價值密度低、類別形態(tài)多樣以及數(shù)據(jù)傳輸速度快等特征也難以完全避免和消除對其驗證的難度性。[5]所以,數(shù)據(jù)驗證的難度性是開源數(shù)據(jù)情報偵查挖掘與分析應(yīng)用過程中必然的屬性之一。因此,針對開源數(shù)據(jù)情報偵查的數(shù)據(jù)驗證難度性屬性,需要偵查人員增強(qiáng)對開源數(shù)據(jù)進(jìn)行驗證的收斂速度和數(shù)據(jù)融合的深度,從而全面提升開源數(shù)據(jù)情報偵查應(yīng)用的有效性和精確性。
3.數(shù)據(jù)情報的融合性
從開源數(shù)據(jù)情報偵查協(xié)作共享和資源開放的角度出發(fā),可以將其數(shù)據(jù)情報的融合性屬性分為兩個方面即開源數(shù)據(jù)的內(nèi)部融合和非開源數(shù)據(jù)的外部融合。其中,開源數(shù)據(jù)的內(nèi)部融合是開源數(shù)據(jù)情報偵查中最為重要的一個流程環(huán)節(jié),主要目標(biāo)將偵查人員通過不同情報偵查途徑所發(fā)現(xiàn)和獲取的開源數(shù)據(jù)進(jìn)行數(shù)據(jù)集成和數(shù)據(jù)聚類,以其聚類初始中心閾值為數(shù)據(jù)距離構(gòu)建和形成開源數(shù)據(jù)的頻繁項目聚類子集,從而形成類別形態(tài)、格式標(biāo)準(zhǔn)等相同或相似的開源數(shù)據(jù)倉庫集合。而非開源數(shù)據(jù)的外部融合主要表現(xiàn)為偵查人員將公開獲取的開源數(shù)據(jù)與非公開獲取的開源數(shù)據(jù)進(jìn)行互相融合,進(jìn)而有利于實現(xiàn)內(nèi)部型開源數(shù)據(jù)與外部型開源數(shù)據(jù)的互相聯(lián)動和資源共享。[6]顯然,如果公開獲取的開源數(shù)據(jù)和非公開獲取的開源數(shù)據(jù)沒有實現(xiàn)數(shù)據(jù)融合,不但不利于開源數(shù)據(jù)情報偵查互相協(xié)作功能價值的實現(xiàn),而且還會嚴(yán)重制約和影響開源數(shù)據(jù)情報偵查應(yīng)用的高效性和合理性。[7]誠然,開源數(shù)據(jù)情報偵查的數(shù)據(jù)情報融合性屬性,不僅有利于將內(nèi)部型和外部型的開源數(shù)據(jù)進(jìn)行互相整合和實現(xiàn)數(shù)據(jù)資源的聯(lián)動共享,而且還有利于增強(qiáng)其展開情報偵查協(xié)作的廣度和深度。
依據(jù)開源數(shù)據(jù)情報偵查的內(nèi)涵與屬性和其流程模型構(gòu)建原則與內(nèi)容,提出開源數(shù)據(jù)情報偵查的平臺設(shè)計方案,從而增強(qiáng)開源數(shù)據(jù)情報偵查挖掘與分析的準(zhǔn)確性和提升其情報偵查預(yù)測與決策的精確性。基于此,可以將開源數(shù)據(jù)情報偵查的平臺自下而上設(shè)計為開源數(shù)據(jù)情報基礎(chǔ)層、開源數(shù)據(jù)情報匯集層、開源數(shù)據(jù)情報處理層以及開源數(shù)據(jù)情報應(yīng)用層等四個功能架構(gòu)層。(如圖1)
圖1 開源數(shù)據(jù)情報偵查的平臺設(shè)計方案
首先,開源數(shù)據(jù)情報基礎(chǔ)層是整個開源數(shù)據(jù)情報偵查平臺設(shè)計的基礎(chǔ)和前提,主要包括對涉案不同開源數(shù)據(jù)情報源的數(shù)據(jù)分類存儲、數(shù)據(jù)并行計算、數(shù)據(jù)索引查詢以及數(shù)據(jù)調(diào)度管理等基礎(chǔ)平臺服務(wù),其主要價值在于全面幫助偵查人員提升對各種開源數(shù)據(jù)情報源進(jìn)行并行運(yùn)算的執(zhí)行率和準(zhǔn)確率。然后,開源數(shù)據(jù)情報匯集層主要根據(jù)涉案符號型開源數(shù)據(jù)、數(shù)值型開源數(shù)據(jù)、文本型開源數(shù)據(jù)以及圖片型開源數(shù)據(jù)等不同開源數(shù)據(jù)情報源的類別形態(tài)和格式標(biāo)準(zhǔn),對其采取數(shù)據(jù)匯集管理、數(shù)據(jù)分類匯集、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)倉庫構(gòu)建等技術(shù)應(yīng)用方法,促使涉案數(shù)值數(shù)據(jù)情報、圖片數(shù)據(jù)情報、文本數(shù)據(jù)情報以及符號數(shù)據(jù)情報等不同開源數(shù)據(jù)情報源之間能夠自動實現(xiàn)數(shù)據(jù)集成和數(shù)據(jù)融合。
其次,開源數(shù)據(jù)情報處理層主要是依據(jù)開源數(shù)據(jù)情報偵查過程中的不同情報價值需求導(dǎo)向,偵查人員及時對涉案的各種開源數(shù)據(jù)情報源進(jìn)行數(shù)據(jù)特征提取和數(shù)據(jù)特征識別,而形成頻繁項目子集和數(shù)據(jù)聚類報告等開源數(shù)據(jù)情報偵查的各種數(shù)據(jù)加權(quán)閾值,從而為挖掘分析其與涉案數(shù)據(jù)犯罪情勢之間各種內(nèi)在關(guān)聯(lián)數(shù)理關(guān)系提供不同的開源數(shù)據(jù)相鄰加權(quán)系數(shù)的支持和保障。
最后,開源數(shù)據(jù)情報的應(yīng)用層主要是根據(jù)涉案數(shù)據(jù)犯罪情勢的生存與發(fā)展態(tài)勢,幫助偵查人員能夠快速高效提供諸如數(shù)值數(shù)據(jù)情報、圖像數(shù)據(jù)情報以及符號數(shù)據(jù)情報等各種具有情報偵查價值的關(guān)聯(lián)開源數(shù)據(jù)情報。誠然,在開源數(shù)據(jù)情報偵查的平臺設(shè)計方案中,各個功能架構(gòu)層不僅具有不同的技術(shù)應(yīng)用價值功能和特殊任務(wù),而且其在整個開源數(shù)據(jù)情報偵查應(yīng)用過程中能夠?qū)崿F(xiàn)互相銜接和互相聯(lián)動,促使后續(xù)偵查人員對開源數(shù)據(jù)情報偵查的流程模型構(gòu)建更加具有科學(xué)性和高效性。
結(jié)合開源數(shù)據(jù)算法的價值優(yōu)勢和情報偵查的價值需求導(dǎo)向,依據(jù)開源數(shù)據(jù)情報偵查的平臺設(shè)計方案,偵查人員應(yīng)該根據(jù)涉案不同數(shù)據(jù)犯罪情勢的生存與發(fā)展態(tài)勢變化而構(gòu)建與其相適應(yīng)的開源數(shù)據(jù)情報偵查的流程模型,從而有利于實現(xiàn)開源數(shù)據(jù)情報偵查的應(yīng)然價值和實然效果。
從開源數(shù)據(jù)情報偵查的價值需求導(dǎo)向預(yù)設(shè)而言,開源數(shù)據(jù)情報源的匯集流程主要包括三個方面:第一,開源數(shù)據(jù)情報源的匯集對象。根據(jù)涉案數(shù)據(jù)犯罪情勢的生存與發(fā)展態(tài)勢變化趨勢,開源數(shù)據(jù)情報源的匯集對象既包括網(wǎng)絡(luò)數(shù)據(jù)庫、物聯(lián)網(wǎng)數(shù)據(jù)、社交數(shù)據(jù)等結(jié)構(gòu)化開源數(shù)據(jù),又包括搜索引擎數(shù)據(jù)、類別形態(tài)數(shù)據(jù)、虛擬空間數(shù)據(jù)等非結(jié)構(gòu)化或半結(jié)構(gòu)化開源數(shù)據(jù)。[8]顯然,偵查人員應(yīng)該根據(jù)偵查情勢的發(fā)展變化需求而匯集具有針對性、價值性等高質(zhì)量的各種開源數(shù)據(jù)情報源。第二,開源數(shù)據(jù)情報源的匯集方法。根據(jù)預(yù)設(shè)的開源數(shù)據(jù)情報偵查價值需求導(dǎo)向和其不同的匯集對象,偵查人員可以采取技術(shù)驅(qū)動數(shù)據(jù)、對象驅(qū)動數(shù)據(jù)、任務(wù)驅(qū)動數(shù)據(jù)等匯集技術(shù)方法。例如,面對不同開源數(shù)據(jù)情報偵查的價值需求導(dǎo)向必須采取有利于偵查情勢發(fā)展的匯集方法,如偵查人員可以采用定向計量獲取、網(wǎng)絡(luò)關(guān)系矩陣、虛擬時空熱點(diǎn)等匯集方法;[9]從開源數(shù)據(jù)的數(shù)據(jù)路徑、數(shù)據(jù)結(jié)構(gòu)而言,可以采取類別數(shù)據(jù)倉庫構(gòu)建、檢索引擎識別、數(shù)據(jù)鏈路預(yù)測等可視化的匯集方法;從提高開源數(shù)據(jù)情報偵查的高效性而言,還可以采取區(qū)塊鏈智能合約、關(guān)聯(lián)聚類算法挖掘等匯集方法。[10]第三,開源數(shù)據(jù)情報源的匯集原則。結(jié)合開源數(shù)據(jù)的閾值加權(quán)系數(shù)和相似度的相鄰系數(shù)等特征屬性,為了保障開源數(shù)據(jù)情報源的科學(xué)性和客觀性,偵查人員在對開源數(shù)據(jù)情報源進(jìn)行匯集的過程中應(yīng)該遵循全面性、客觀性、融合性、預(yù)測性等重要原則,從而為后續(xù)開源數(shù)據(jù)情報偵查的流程模型構(gòu)建提供重要的支持和保障。
開源數(shù)據(jù)情報源的質(zhì)量高低會直接決定開源數(shù)據(jù)情報偵查應(yīng)用的應(yīng)然價值和實際效果,所以偵查人員應(yīng)當(dāng)對已匯集的涉案不同開源數(shù)據(jù)情報源進(jìn)行檢查和驗證等質(zhì)量評估,進(jìn)而確保開源數(shù)據(jù)情報偵查流程模型構(gòu)建的準(zhǔn)確性和高效性。從挖掘分析其與涉案數(shù)據(jù)犯罪情勢具有內(nèi)在關(guān)聯(lián)的數(shù)理關(guān)系角度出發(fā),偵查人員需要采取對不同結(jié)構(gòu)屬性、類別形態(tài)的多源數(shù)據(jù)情報源進(jìn)行不確定性、數(shù)據(jù)融合的可行性以及關(guān)聯(lián)聚類性等質(zhì)量評估,從而幫助其能夠快速高效的發(fā)現(xiàn)隱藏在開源數(shù)據(jù)情報源中的冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、離群數(shù)據(jù)等異常數(shù)據(jù)。[11]同時,偵查人員還可采取不同數(shù)據(jù)挖掘與分析算法對存儲在數(shù)據(jù)倉庫中的各種離散、孤立、片段等的開源數(shù)據(jù)情報源進(jìn)行質(zhì)量檢驗和評估,進(jìn)而幫助其全面提升對開源數(shù)據(jù)情報源進(jìn)行質(zhì)量評估的準(zhǔn)確性和高效性。誠然,在開源數(shù)據(jù)情報源的質(zhì)量評估流程模塊中,偵查人員應(yīng)該根據(jù)涉案數(shù)據(jù)犯罪情勢的生存與發(fā)展變化趨勢采取有利于案件偵查情勢發(fā)展的不同質(zhì)量評估技術(shù)方法,從而確保開源數(shù)據(jù)情報偵查流程模型構(gòu)建的同配屬性。
開源數(shù)據(jù)情報源的聚合流程是整個開源數(shù)據(jù)情報偵查流程模型構(gòu)建的核心環(huán)節(jié),偵查人員可以依據(jù)開源數(shù)據(jù)的聚合原理和聚合算法,按照不同的情報偵查價值導(dǎo)向需求閾值而對其進(jìn)行數(shù)據(jù)聚合。從對開源數(shù)據(jù)情報源的聚合構(gòu)成要素出發(fā),可以將其具體分為開源數(shù)據(jù)匯集、開源數(shù)據(jù)描述、開源數(shù)據(jù)聚合、開源數(shù)據(jù)展示等四個環(huán)節(jié)。第一,開源數(shù)據(jù)匯集。該環(huán)節(jié)主要是對數(shù)值型、圖片型、文字型、符號型等不同的開源數(shù)據(jù)情報源進(jìn)行搜集和數(shù)據(jù)倉庫構(gòu)建。第二,開源數(shù)據(jù)描述。該環(huán)節(jié)任務(wù)是對涉案不同開源數(shù)據(jù)的閾值進(jìn)行挖掘與分析,主要包括各個開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)、數(shù)據(jù)路徑、數(shù)據(jù)距離以及數(shù)據(jù)連邊等。第三,開源數(shù)據(jù)聚合。開源數(shù)據(jù)聚合是開源數(shù)據(jù)情報源聚合流程的關(guān)鍵性環(huán)節(jié),主要包括對開源數(shù)據(jù)的結(jié)構(gòu)聚合、屬性聚合、類別聚合、關(guān)聯(lián)聚合以及相似聚合、級別聚合等內(nèi)容。第四,開源數(shù)據(jù)展示。開源數(shù)據(jù)展示是偵查人員對開源數(shù)據(jù)進(jìn)行挖掘交互的重要環(huán)節(jié),主要包括對涉案開源數(shù)據(jù)的鏈路交互、融合交互、關(guān)聯(lián)交互、聚類交互以及連邊交互和挖掘交互等內(nèi)容。(如圖2)
圖2 開源數(shù)據(jù)情報源的聚合流程
誠然,在開源數(shù)據(jù)情報源的聚合流程中,偵查人員應(yīng)該根據(jù)涉案不同開源情報源的來源途徑、類別形態(tài)、屬性結(jié)構(gòu)等條件因素,采取與其相適應(yīng)的聚合原理和聚合算法,避免或降低開源數(shù)據(jù)情報源數(shù)據(jù)倉庫構(gòu)建的冗余性和離散性,從而確保開源數(shù)據(jù)情報源聚合流程模型構(gòu)建的關(guān)聯(lián)高效性和聚類精確性。
開源數(shù)據(jù)情報源挖掘分析流程模塊的核心價值在于構(gòu)建和展示開源數(shù)據(jù)挖掘與分析的過程和步驟,重點(diǎn)強(qiáng)調(diào)的是其所賦予和包含的情報偵查功能與任務(wù)。為了實現(xiàn)開源數(shù)據(jù)情報源挖掘分析流程模型構(gòu)建的循環(huán)反饋和螺旋式精確求精的任務(wù)價值,偵查人員應(yīng)該采取具有循環(huán)型的流程模型構(gòu)建方法,主要包括開源數(shù)據(jù)搜集、開源數(shù)據(jù)處理、開源數(shù)據(jù)分析、開源數(shù)據(jù)生產(chǎn)等四個部分。
第一,開源數(shù)據(jù)搜集階段。該階段主要對不同的開源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)存儲以及數(shù)據(jù)倉庫構(gòu)建,進(jìn)而為對開源數(shù)據(jù)情報源的挖掘分析奠定數(shù)據(jù)支持基礎(chǔ)。第二,開源數(shù)據(jù)處理階段。該階段的任務(wù)是對存儲在數(shù)據(jù)倉庫中的各種開源數(shù)據(jù)進(jìn)行處理,主要包括數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)融合等技術(shù)處理方法。第三,開源數(shù)據(jù)分析階段。該階段主要目的是對涉案開源數(shù)據(jù)情報源進(jìn)行數(shù)據(jù)驗證和數(shù)據(jù)評估,通過數(shù)據(jù)聚類等關(guān)聯(lián)算法對其與涉案數(shù)據(jù)犯罪情勢具有潛在關(guān)聯(lián)性的各種數(shù)理關(guān)系展開分析和研判。第四,開源數(shù)據(jù)生產(chǎn)階段。該階段主要是將對開源數(shù)據(jù)進(jìn)行挖掘分析后所形成具有情報偵查價值的數(shù)據(jù)產(chǎn)品提供給辦案的偵查人員,具有指導(dǎo)開源數(shù)據(jù)情報偵查預(yù)測和決策的重要功能價值,從而確保開源數(shù)據(jù)情報偵查應(yīng)用質(zhì)量和效率的優(yōu)質(zhì)性、準(zhǔn)確性。
開源數(shù)據(jù)情報源的應(yīng)用反饋流程核心價值在于強(qiáng)調(diào)偵查人員在開源數(shù)據(jù)情報偵查流程模型構(gòu)建過程中的反饋率和參與度,并能夠依據(jù)涉案數(shù)據(jù)犯罪情勢的發(fā)展變化趨勢而快速高效的對其進(jìn)行檢驗和修正。在構(gòu)建開源數(shù)據(jù)情報源的應(yīng)用反饋流程模型過程中,偵查人員不僅需要將開源數(shù)據(jù)情報偵查的價值導(dǎo)向需求、開源數(shù)據(jù)的權(quán)重加權(quán)系數(shù)閾值、開源數(shù)據(jù)的挖掘分析算法等重要構(gòu)成要素納入其流程模型構(gòu)建中,而且還需要考慮開源數(shù)據(jù)的匯集和數(shù)據(jù)倉庫構(gòu)建、開源數(shù)據(jù)不同數(shù)據(jù)節(jié)點(diǎn)的相似度系數(shù)、開源數(shù)據(jù)內(nèi)在關(guān)聯(lián)數(shù)理關(guān)系挖掘分析等重要相關(guān)要素。同時,偵查人員還應(yīng)該根據(jù)不同的應(yīng)用反饋檢驗等評估結(jié)果及時對開源數(shù)據(jù)情報偵查的價值導(dǎo)向需求閾值、平臺設(shè)計方案以及挖掘分析算法等進(jìn)行重建或調(diào)整。顯然,偵查人員在開源數(shù)據(jù)情報源應(yīng)用反饋流程中的反饋率和參與度越高,就會越來越使開源數(shù)據(jù)情報源的應(yīng)用反饋流程模型朝有利于數(shù)據(jù)偵查情勢的態(tài)勢發(fā)展,從而提高開源數(shù)據(jù)情報偵查預(yù)測和決策的高效性和準(zhǔn)確性。
在探討開源數(shù)據(jù)情報偵查應(yīng)用方法的過程中,不僅需要考慮開源數(shù)據(jù)情報偵查的內(nèi)涵屬性、平臺設(shè)計方案以及流程模型構(gòu)建等,而且還需要考慮涉案不同開源數(shù)據(jù)之間的數(shù)據(jù)節(jié)點(diǎn)相似度、數(shù)據(jù)權(quán)重加權(quán)系數(shù)、數(shù)據(jù)頻繁項目子集等相關(guān)要素。因此,在開源數(shù)據(jù)驅(qū)動創(chuàng)新時代應(yīng)該賦予開源數(shù)據(jù)情報偵查新的應(yīng)用方法,一方面,這是實現(xiàn)開源數(shù)據(jù)情報偵查應(yīng)然價值的內(nèi)在本質(zhì)要求;另一方面,還是預(yù)防和打擊涉案數(shù)據(jù)犯罪情勢生存與態(tài)勢發(fā)展變化的實然應(yīng)對選擇,從而提高開源數(shù)據(jù)情報偵查預(yù)測和決策的準(zhǔn)確性和精確性。
SP-IECLAT并行關(guān)聯(lián)算法是一種基于Spark運(yùn)算和構(gòu)建關(guān)聯(lián)規(guī)則模型的數(shù)據(jù)挖掘分析算法,結(jié)合涉案開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)相似度、數(shù)據(jù)權(quán)重加權(quán)系數(shù)等閾值屬性和情報偵查的價值需求導(dǎo)向預(yù)設(shè),可將開源數(shù)據(jù)情報偵查的SP-IECLAT 并行關(guān)聯(lián)算法具體分為以下步驟:
第一步,開源數(shù)據(jù)的預(yù)處理。首先,偵查人員需要從加載數(shù)據(jù)的HDFS 系統(tǒng)數(shù)據(jù)倉庫中讀取和選擇情報偵查價值所需的各種開源數(shù)據(jù),并將獲取的開源數(shù)據(jù)采取數(shù)據(jù)融合和構(gòu)建關(guān)聯(lián)聚類初始中心等進(jìn)行數(shù)據(jù)聚合。然后,使用數(shù)據(jù)集成、數(shù)據(jù)歸約技術(shù)處理方法將數(shù)據(jù)聚合后的開源數(shù)據(jù)直接轉(zhuǎn)換為具有垂直性的數(shù)據(jù)倉庫。其次,將給定開源數(shù)據(jù)節(jié)點(diǎn)的最小相似度系數(shù)與其預(yù)設(shè)的最小相似度閾值進(jìn)行分析和比較。若預(yù)設(shè)開源數(shù)據(jù)節(jié)點(diǎn)相似度的閾值小于給定的最小相似度系數(shù),那么所獲得的垂直性數(shù)據(jù)倉庫就屬于開源數(shù)據(jù)的頻繁項目集合;反之,則屬于開源數(shù)據(jù)的頻繁項目1-集合。
第二步,運(yùn)算開源數(shù)據(jù)的頻繁項目K-集合。鑒于涉案開源數(shù)據(jù)情報源的動態(tài)性、層次性、復(fù)雜性等特點(diǎn),偵查人員可以采取前綴劃分策略的挖掘運(yùn)算方式。例如,偵查人員可以采用Cluster Manager 的前綴劃分策略對開源數(shù)據(jù)的頻繁項目K-集合進(jìn)行運(yùn)算,通過觸發(fā)Dirver Program 的數(shù)據(jù)節(jié)點(diǎn)來制約和影響整個開源數(shù)據(jù)頻繁項目K-集合的控制點(diǎn),從而起到提高開源數(shù)據(jù)頻繁項目K-集合的運(yùn)算效率和降低其運(yùn)算耗時成本等價值作用。[12]
第三步,調(diào)入前綴劃分策略。依據(jù)預(yù)設(shè)前綴閾值的相同或相似原則,將開源數(shù)據(jù)頻繁項目K-集合劃分為FRE-K 個塊數(shù)。假設(shè)S 個不同前綴閾值的頻繁項目K-集合表示為FRE -K={fre-k1,fre-k2,…,fre-ks},那么該集合被調(diào)入前綴后即可表示為FRE-K={fre-k1-2,fre-k2-2,…,fre-ks-2}。顯然,所獲取的每個頻繁項目K-集合加上其調(diào)入前綴就是涉案所有開源數(shù)據(jù)頻繁項目(K+1)-的集合,并且該前綴的頻繁項目集合支持度也就是其全部開源數(shù)據(jù)頻繁項目(K+1)-集合的支持度。
第四步,運(yùn)算開源數(shù)據(jù)的頻繁項目K(K>2)集合。在獲取到開源數(shù)據(jù)的頻繁項目K-集合之后,偵查人員首先需要判斷該頻繁項目K-集合是否為空。如果為空,那么就立刻停止對其的運(yùn)算;反之,則需要繼續(xù)對其進(jìn)行采取前綴劃分。然后,偵查人員可以將具有相同或相似前綴的開源數(shù)據(jù)采取自下而上的數(shù)據(jù)迭代挖掘算法,促使形成情報偵查價值所需的頻繁項目(K+1)集合。其次,偵查人員還需要對所獲的頻繁項目(K+1)集合再次進(jìn)行前綴劃分,并將通過數(shù)據(jù)算法挖掘獲取的結(jié)果存儲在犯罪行為與非犯罪行為的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫中。最后,當(dāng)開源數(shù)據(jù)的頻繁項目(K-1)集合被成功前綴劃分之后,此時具有前綴劃分屬性的頻繁項目集合即為(K-2)。同時,還需偵查人員將后續(xù)剩余的頻繁項目集合2-再添加到開源數(shù)據(jù)的頻繁項目K(K>2)集合進(jìn)行算法挖掘,一直重復(fù)添加運(yùn)算直到?jīng)]有符合滿足的條件即可完成對開源數(shù)據(jù)頻繁項目K(K>2)集合的運(yùn)算。
從EEDFA 算法的價值優(yōu)勢和開源數(shù)據(jù)情報偵查的價值需求導(dǎo)向預(yù)設(shè)角度出發(fā),開源數(shù)據(jù)情報偵查的EEDFA 算法可分為以下步驟:
第一步,開源數(shù)據(jù)的時間向量降維。涉案不同開源數(shù)據(jù)情報源Dp 經(jīng)過控制和匯集之后,需要偵查人員依據(jù)時間排序?qū)⑵浣y(tǒng)一存儲到已構(gòu)建的數(shù)據(jù)倉庫緩存中,進(jìn)而形成開源數(shù)據(jù)的時間向量表示即Vit={d1,d2,d3,...,dp}。其中i 表示開源數(shù)據(jù)的不同數(shù)據(jù)節(jié)點(diǎn),t 表示具有時隙特征的數(shù)據(jù)挖掘周期,而p 則表示開源數(shù)據(jù)所包含的時隙特征系數(shù)閾值。顯然,若p 的時隙特征系數(shù)閾值越大,那么不同開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)時隙距離就越小,就說明這兩個不同開源數(shù)據(jù)具有關(guān)聯(lián)數(shù)理關(guān)系的概率就越高;反之,則說明所具有的關(guān)聯(lián)數(shù)理關(guān)系概率就越低。為了提升開源數(shù)據(jù)的時間向量降維質(zhì)量和準(zhǔn)確度,偵查人員可以采取APCA 算法中的自適應(yīng)數(shù)據(jù)分段相似法。一方面,能夠幫助偵查人員按照開源數(shù)據(jù)的時間向量表示進(jìn)行自適應(yīng)的數(shù)據(jù)挖掘降維處理;另一方面,還可以幫助其全面降低開源數(shù)據(jù)時間向量降維過程中的誤差閾值Terror。
第二步,開源數(shù)據(jù)節(jié)點(diǎn)的可靠性評估。在開源數(shù)據(jù)情報偵查的EEDFA 算法過程中,偵查人員可能會受到各種來自情報偵查外部環(huán)境的干擾而出現(xiàn)制約和影響對數(shù)據(jù)進(jìn)行挖掘與分析情況,造成其算法挖掘結(jié)果可能存在一定程度的不確定性和不可靠性,所以急需偵查人員對開源數(shù)據(jù)節(jié)點(diǎn)的可靠性展開檢驗和評估。依據(jù)開源數(shù)據(jù)情報偵查EEDFA 算法的價值優(yōu)勢,偵查人員可以采用數(shù)據(jù)區(qū)間二型模糊系統(tǒng)對開源數(shù)據(jù)節(jié)點(diǎn)的可靠性展開評估。(如圖3)
圖3 區(qū)間二型模糊系統(tǒng)流程模型
第三步,開源數(shù)據(jù)的關(guān)聯(lián)性挖掘。一方面,當(dāng)偵查人員完成對開源數(shù)據(jù)節(jié)點(diǎn)的可靠性評估之后,就需要將其發(fā)送到EEDFA 算法流程中的數(shù)據(jù)簇頭進(jìn)行數(shù)據(jù)融合。由于同一數(shù)據(jù)簇頭內(nèi)不同開源數(shù)據(jù)之間的數(shù)據(jù)節(jié)點(diǎn)相似度系數(shù)差異性較小,造成部分簇頭內(nèi)存在大量的冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、離群數(shù)據(jù)等異常數(shù)據(jù),所以在對開源數(shù)據(jù)進(jìn)行數(shù)據(jù)融合之前需要對其采取去除各種異常數(shù)據(jù)的數(shù)據(jù)清洗和數(shù)據(jù)集成。[13]另一方面,當(dāng)各種開源數(shù)據(jù)經(jīng)過時間向量降維處理之后,必然會造成出現(xiàn)其時間向量長度差異較大的現(xiàn)象,就迫切需要偵查人員對其進(jìn)行時間向量的延伸和擴(kuò)展,進(jìn)而提高對開源數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘分析的精確度。
誠然,在開源數(shù)據(jù)情報偵查的EEDFA 算法過程中,不僅能夠幫助偵查人員降低或者消除冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、離群數(shù)據(jù)等異常數(shù)據(jù)的制約和影響,而且還能夠幫助其提高對關(guān)聯(lián)數(shù)理關(guān)系挖掘分析的準(zhǔn)確性和客觀性。
并行聚類CLUBS算法是一種基于快速分層的無參數(shù)中心聚類算法,主要融合了數(shù)據(jù)裂變和數(shù)據(jù)凝聚兩種算法價值優(yōu)勢。[14]結(jié)合涉案開源數(shù)據(jù)的內(nèi)涵屬性和情報偵查的價值需求導(dǎo)向,我們認(rèn)為,開源數(shù)據(jù)情報偵查的并行聚類CLUBS 算法具體可分為四個階段:
第一,開源數(shù)據(jù)的裂變階段。并行聚類CLUBS 算法采用自上而下的二叉空間分割技術(shù)將開源數(shù)據(jù)的頻繁項目集合分割為系列性的數(shù)據(jù)簇,根據(jù)開源數(shù)據(jù)挖掘分析的貪婪原則和最小數(shù)據(jù)簇WCSS 平方和的要求,再采用數(shù)據(jù)迭代算法對其進(jìn)行數(shù)據(jù)融合,促使數(shù)據(jù)簇內(nèi)不同開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)相似度系數(shù)能夠?qū)崿F(xiàn)互相接近或相同。
第二,開源數(shù)據(jù)的調(diào)整階段。經(jīng)過開源數(shù)據(jù)的裂變階段之后,其調(diào)整階段的任務(wù)主要包括兩個方面:一方面,將數(shù)據(jù)簇中的簇頭進(jìn)行分離。偵查人員先將數(shù)據(jù)簇按照升維的模式重新進(jìn)行遞增排序,然后依據(jù)是否含有噪聲塊的條件從新獲取的升維數(shù)據(jù)簇中將簇頭進(jìn)行分離;另一方面,構(gòu)建新的數(shù)據(jù)橢圓簇。偵查人員可以采取基于數(shù)據(jù)密度的數(shù)據(jù)節(jié)點(diǎn)相似度檢測算法計算不同數(shù)據(jù)節(jié)點(diǎn)到預(yù)設(shè)橢圓簇中心的數(shù)據(jù)距離,如果所測數(shù)據(jù)距離符合的預(yù)設(shè)距離之內(nèi),則屬于數(shù)據(jù)橢圓簇范疇;反之,則重新進(jìn)行數(shù)據(jù)調(diào)整,直到不符合到預(yù)設(shè)橢圓簇的中心數(shù)據(jù)距離為止。
第三,開源數(shù)據(jù)的凝聚階段。開源數(shù)據(jù)凝聚階段的主要任務(wù)是對數(shù)據(jù)橢圓簇進(jìn)行合并,進(jìn)而改進(jìn)與提升對開源數(shù)據(jù)挖掘分析的質(zhì)量和效率。如果數(shù)據(jù)橢圓簇合并使CH 指標(biāo)體系數(shù)呈增長上升趨勢,那么則繼續(xù)合并且代替原來的兩個數(shù)據(jù)橢圓簇。反之CH 指標(biāo)系數(shù)呈減少下降趨勢,則取消合并和結(jié)束開源數(shù)據(jù)的凝聚階段。
第四,開源數(shù)據(jù)的挖掘完善階段。偵查人員對合并后重新獲取的數(shù)據(jù)橢圓簇進(jìn)行挖掘與分析,從而獲取到其與涉案數(shù)據(jù)犯罪情勢具有內(nèi)在關(guān)聯(lián)性的各種數(shù)理關(guān)系。同時,為了確保開源數(shù)據(jù)情報偵查并行聚類CLUBS算法的客觀性和準(zhǔn)確性,還需要對所獲取的各種關(guān)聯(lián)性數(shù)理關(guān)系進(jìn)行檢驗和修正。若符合涉案數(shù)據(jù)犯罪情勢的客觀實際且有利于數(shù)據(jù)偵查情勢的態(tài)勢發(fā)展,那么說明其具有客觀性和準(zhǔn)確性。反之,則需要偵查人員將獲取的數(shù)據(jù)橢圓數(shù)據(jù)重新進(jìn)入開源數(shù)據(jù)的調(diào)整階段進(jìn)行調(diào)整和修正。
誠然,在開源數(shù)據(jù)情報偵查并行聚類CLUBS 算法的應(yīng)用過程中,不僅能夠幫助偵查人員實現(xiàn)對涉案不同開源數(shù)據(jù)之間的同步并行運(yùn)算處理,而且還能夠幫助其提高開源數(shù)據(jù)情報偵查挖掘與分析的高效性和精確性。
引力搜索GSA 算法的主要原理為預(yù)設(shè)數(shù)據(jù)的可能解考慮為代理數(shù)據(jù)集合,代理數(shù)據(jù)的質(zhì)量決定代理數(shù)據(jù)的性能。[15]鑒于不同數(shù)據(jù)節(jié)點(diǎn)之間引力的制約和影響,不同代理數(shù)據(jù)之間會進(jìn)行相互融合和歸約,促使各種代理數(shù)據(jù)會朝著具有更大關(guān)聯(lián)數(shù)理關(guān)系的代理數(shù)據(jù)進(jìn)行集成聚類。從實現(xiàn)提升開源數(shù)據(jù)情報偵查的應(yīng)然價值和實然效果而言,可以將開源數(shù)據(jù)情報偵查的引力搜索GSA 算法具體分為以下步驟:
第一步,代理開源數(shù)據(jù)的初始化。依據(jù)已存儲在數(shù)據(jù)倉庫中不同開源數(shù)據(jù)的類別形態(tài)和屬性結(jié)構(gòu),偵查人員需要隨機(jī)選擇預(yù)設(shè)的開源數(shù)據(jù)進(jìn)行代理的初始化設(shè)置,確定其在不同開源數(shù)據(jù)維度空間中的具體數(shù)據(jù)維度位置。第二步,尋找代理開源數(shù)據(jù)的最優(yōu)適應(yīng)度。在挖掘分析各種代理開源數(shù)據(jù)最優(yōu)適應(yīng)度的數(shù)據(jù)迭代運(yùn)算過程中,首先偵查人員需要分別選擇最優(yōu)和最差適應(yīng)度的運(yùn)算方法,然后運(yùn)算分別獲取代理開源數(shù)據(jù)的最優(yōu)適應(yīng)度閾值和最差適應(yīng)度閾值。第三步,計算和獲取開源數(shù)據(jù)的引力常量。預(yù)設(shè)開源數(shù)據(jù)的時間引力常量為Gc(t),那么其計算公式為其中,G0和a 表示計算開源數(shù)據(jù)的引力常量,而Tmax則代表對其進(jìn)行計算的最大數(shù)據(jù)迭代次數(shù)。[16]第四步,計算和獲取代理開源數(shù)據(jù)的引力質(zhì)量。根據(jù)計算和獲取代理開源數(shù)據(jù)引力常量的運(yùn)算方式,可以將用Massi(T)來表示代理開源數(shù)據(jù)的引力質(zhì)量,為了提升計算代理開源數(shù)據(jù)引力常量的高效性,偵查人員可以采用公式來計算和獲取。第五步,計算和獲取代理開源數(shù)據(jù)的引力與加速度。為了提升計算代理開源數(shù)據(jù)引力與加速度的精確度,偵查人員可以采用基于歐氏距離的數(shù)據(jù)迭代運(yùn)算方法,進(jìn)而獲取代理開源數(shù)據(jù)在歐氏距離[0,1]區(qū)間分布的最優(yōu)適應(yīng)度引力與加速度。第六步,代理開源數(shù)據(jù)關(guān)聯(lián)聚類的終止條件。依據(jù)開源數(shù)據(jù)情報偵查中犯罪行為與非犯罪行為的關(guān)聯(lián)構(gòu)建規(guī)則,偵查人員需要通過從第一步到第五步的步驟來挖掘分析其與涉案數(shù)據(jù)犯罪情勢之間存在具有內(nèi)在關(guān)聯(lián)性的各種數(shù)理關(guān)系,直到符合預(yù)設(shè)代理開源數(shù)據(jù)關(guān)聯(lián)聚類的終止條件為止。
誠然,在開源數(shù)據(jù)情報偵查的引力搜索GSA算法應(yīng)用過程中,不僅有利于偵查人員提升獲取代理開源數(shù)據(jù)適應(yīng)度的效率和降低挖掘分析算法的耗時復(fù)雜性,而且還有利于其提高對開源數(shù)據(jù)進(jìn)行關(guān)聯(lián)聚類挖掘的精確性和準(zhǔn)確性,從而全面提升開源數(shù)據(jù)情報偵查挖掘分析應(yīng)用的高效性。
多目標(biāo)決策時序數(shù)據(jù)算法是以數(shù)據(jù)的時間為計算邏輯節(jié)點(diǎn),通過分析該邏輯節(jié)點(diǎn)在數(shù)據(jù)路徑、數(shù)據(jù)距離以及數(shù)據(jù)連邊等中的時間排序和計算不同數(shù)據(jù)在其中所存在的數(shù)據(jù)歸屬度系數(shù)閾值,從而挖掘分析出各種時序數(shù)據(jù)的關(guān)聯(lián)聚類特征、權(quán)重加權(quán)系數(shù)、節(jié)點(diǎn)相似度系數(shù)等發(fā)展態(tài)勢。[17]結(jié)合涉案開源數(shù)據(jù)的數(shù)據(jù)熵權(quán)時序權(quán)重閾值和關(guān)聯(lián)聚類的挖掘分析敏感系數(shù),可以將開源數(shù)據(jù)情報偵查的多目標(biāo)決策時序數(shù)據(jù)算法劃分為具體五個步驟:
第一步,構(gòu)建開源數(shù)據(jù)的初始矩陣。首先,在涉案開源數(shù)據(jù)的數(shù)據(jù)倉庫中尋找和選擇M 個開源數(shù)據(jù)的評價指標(biāo)和N 個開源數(shù)據(jù)的評價對象。然后,將M 個開源數(shù)據(jù)的評價指標(biāo)和N 個開源數(shù)據(jù)的評價對象重新組合構(gòu)建開源數(shù)據(jù)的初始矩陣,并且在該矩陣中包含多目標(biāo)決策時序數(shù)據(jù)算法的效用指標(biāo)系數(shù)和效益指標(biāo)系數(shù)兩部分。第二步,確定開源數(shù)據(jù)的AHP 權(quán)重指標(biāo)系數(shù)。鑒于確定開源數(shù)據(jù)AHP 權(quán)重指標(biāo)系數(shù)時主觀因素所占比重較大的原因,偵查人員可以采取一致性開源數(shù)據(jù)檢測的方法對其進(jìn)行運(yùn)算,盡量保障獲取開源數(shù)據(jù)AHP 權(quán)重指標(biāo)系數(shù)結(jié)果的客觀性和全面性。例如,偵查人員可以采取一致性開源數(shù)據(jù)檢測的挖掘公式CR=CI RI,其中CR 表示開源數(shù)據(jù)的AHP 權(quán)重指標(biāo)系數(shù),RI 表示隨機(jī)的一致性開源數(shù)據(jù)檢測系數(shù)。若CR<0.1,那么表明其通過了一致性開源數(shù)據(jù)的檢測,并具備成為多目標(biāo)決策時序數(shù)據(jù)算法的評價矩陣條件。第三步,獲取開源數(shù)據(jù)的加權(quán)標(biāo)準(zhǔn)化矩陣。結(jié)合開源數(shù)據(jù)的初始矩陣和開源數(shù)據(jù)的AHP 權(quán)重指標(biāo)系數(shù),可知開源數(shù)據(jù)的加權(quán)標(biāo)準(zhǔn)化矩陣應(yīng)該具有正理想屬性的同配解為,即可獲得開源數(shù)據(jù)加權(quán)標(biāo)準(zhǔn)化矩陣的計算方式為第四步,開源數(shù)據(jù)的時序處理。在開源數(shù)據(jù)情報偵查的多目標(biāo)決策時序數(shù)據(jù)算法過程中,如果開源數(shù)據(jù)的數(shù)據(jù)熵權(quán)時序權(quán)重閾值越大,那么其與涉案數(shù)據(jù)犯罪情勢之間存在內(nèi)在關(guān)聯(lián)數(shù)理關(guān)系的可能性就越小。基于此,偵查人員可以采取線性加權(quán)的數(shù)據(jù)熵權(quán)時序運(yùn)算方法。若通過運(yùn)算所得開源數(shù)據(jù)的數(shù)據(jù)熵權(quán)時序權(quán)重閾值在[0,1]之間,那么就表示該開源數(shù)據(jù)與涉案數(shù)據(jù)犯罪情勢之間存在內(nèi)在關(guān)聯(lián)數(shù)理關(guān)系的可能性就越大。反之,則表示可能性越小。第五步,開源數(shù)據(jù)的聚類挖掘。依據(jù)第一步所確立的多目標(biāo)決策時序數(shù)據(jù)算法的效用指標(biāo)系數(shù)和效益指標(biāo)系數(shù),偵查人員可對通過第一步到第四步所獲取的開源數(shù)據(jù)進(jìn)行時序的聚類挖掘分析。例如,偵查人員可以采取基于加速比的開源數(shù)據(jù)時序聚類挖掘分析算法即其中p 代表開源數(shù)據(jù)時序聚類挖掘的數(shù)量,T1代表對開源數(shù)據(jù)進(jìn)行時序聚類挖掘的所需時間,Tp代表對p 個開源數(shù)據(jù)采取時序算法所消耗的并行執(zhí)行時間。
顯然,在開源數(shù)據(jù)情報偵查的多目標(biāo)決策時序數(shù)據(jù)算法應(yīng)用過程中,不僅能夠幫助偵查人員降低挖掘分析的耗時量和提升關(guān)聯(lián)聚類的加速比,而且還能夠幫助其全面提高開源數(shù)據(jù)情報偵查算法應(yīng)用的可拓展性和魯棒性。
在開源數(shù)據(jù)情報偵查的輪廓系數(shù)K-means 聚類算法中,K 值代表數(shù)據(jù)倉庫中開源數(shù)據(jù)的聚類簇數(shù)量,且K 值閾值的大小會直接影響到對開源數(shù)據(jù)進(jìn)行聚類結(jié)果的精確性和準(zhǔn)確性。從輪廓系數(shù)K-means 聚類算法中K 值的選取和情報偵查的價值需求導(dǎo)向預(yù)設(shè)角度出發(fā),我們認(rèn)為,可以將其分為六個具體應(yīng)用步驟:
第一步,初始化開源數(shù)據(jù)的K 值和平均輪廓系數(shù)S。為了全面提升開源數(shù)據(jù)情報偵查價值需求深挖的協(xié)同性和情報偵查決策應(yīng)用的同配性,偵查人員可以先將輪廓系數(shù)K-means 聚類算法的K 值初始化預(yù)設(shè)為2,以便促使其能夠從最小的聚類簇開始運(yùn)算和挖掘。鑒于平均輪廓系數(shù)S 還尚未展開運(yùn)算,故可將其初始化的值預(yù)設(shè)為-1。[18]同時,為了提高后續(xù)輪廓系數(shù)K-means 聚類算法步驟的高效性,還需要偵查人員尋找和選取涉案開源數(shù)據(jù)的兩個數(shù)據(jù)節(jié)點(diǎn)作為其聚類簇初始化的質(zhì)心節(jié)點(diǎn)。第二步,開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)完成聚類任務(wù)。首先,利用開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)I 計算其與所屬聚類簇之間的質(zhì)心距離,選擇質(zhì)心距離閾值最小的聚類簇為其所需要的簇;然后,對開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)與其質(zhì)心之間的平均路徑距離進(jìn)行計算,并將質(zhì)心距離與最接近其平均距離的數(shù)據(jù)節(jié)點(diǎn)設(shè)置為新的開源數(shù)據(jù)質(zhì)心;最后,計算和獲取開源數(shù)據(jù)新質(zhì)心距離與其舊質(zhì)心距離之間的差異閾值。若所得差異閾值小于輪廓系數(shù)K-means 聚類算法中關(guān)于聚類條件的最小系數(shù),那么就完成該數(shù)據(jù)節(jié)點(diǎn)的聚類任務(wù)。反之,則繼續(xù)以新質(zhì)心為重新開始的開源數(shù)據(jù)聚類任務(wù),直到完成為止。第三步,計算開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)凝聚度。在完成開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)聚類任務(wù)后,偵查人員可以利用輪廓系數(shù)對開源數(shù)據(jù)的聚類初始K 值進(jìn)行運(yùn)算和挖掘分析,進(jìn)而獲取該數(shù)據(jù)節(jié)點(diǎn)與其聚類簇內(nèi)其他數(shù)據(jù)節(jié)點(diǎn)之間的平均數(shù)據(jù)路徑距離即數(shù)據(jù)節(jié)點(diǎn)凝聚度。第四步,計算開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)分離度。開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)分離度是指該數(shù)據(jù)節(jié)點(diǎn)Xi與其聚類簇Cm內(nèi)所有數(shù)據(jù)節(jié)點(diǎn)的平均距離。[19]偵查人員可以利用開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)Xi到某個開源數(shù)據(jù)聚類簇內(nèi)所有數(shù)據(jù)節(jié)點(diǎn)的平均數(shù)據(jù)路徑距離作為衡量和測算其到該聚類簇的數(shù)據(jù)路徑距離,而計算和獲取的最小平均數(shù)據(jù)路徑距離即為該開源數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)分離度。第五步,挖掘獲取開源數(shù)據(jù)的平均輪廓系數(shù)。在開源數(shù)據(jù)情報偵查的輪廓系數(shù)K-means 聚類算法挖掘與分析過程中,數(shù)據(jù)節(jié)點(diǎn)的凝聚度表示開源數(shù)據(jù)聚類簇的數(shù)據(jù)密度程度,而數(shù)據(jù)節(jié)點(diǎn)的分離度則表示其聚類簇內(nèi)的數(shù)據(jù)路徑距離。顯然,在對開源數(shù)據(jù)進(jìn)行聚類的過程中,如果數(shù)據(jù)節(jié)點(diǎn)的凝聚度越小,那么其聚類簇的數(shù)據(jù)路徑距離就越遠(yuǎn),而對開源數(shù)據(jù)的聚類效果就越好。鑒于此,偵查人員可以采取開源數(shù)據(jù)平均輪廓系數(shù)的運(yùn)算公式即,其中Si代表開源數(shù)據(jù)中數(shù)據(jù)節(jié)點(diǎn)i 的輪廓系數(shù),S 代表開源數(shù)據(jù)中所有數(shù)據(jù)節(jié)點(diǎn)的平均輪廓系數(shù),且S 的閾值取值范圍為[-1,1]。顯而易見,開源數(shù)據(jù)的平均輪廓系數(shù)S 的閾值越大,那就表示對其進(jìn)行聚類效果越好。[20]第六步,開源數(shù)據(jù)聚類簇數(shù)量K 值的調(diào)整。偵查人員可以重復(fù)第二步到第五步的運(yùn)算步驟,便可以實現(xiàn)K 值增加的效果。當(dāng)開源數(shù)據(jù)被采取輪廓系數(shù)K-means 聚類算法進(jìn)行N 次數(shù)據(jù)迭代以后,可選取其平均輪廓系數(shù)S 最大的閾值作為開源數(shù)據(jù)聚類簇的K 值,而計算所挖掘到的聚類結(jié)果就是最終的運(yùn)算結(jié)果。
誠然,在開源數(shù)據(jù)情報偵查的輪廓系數(shù)K-means 聚類算法過程中,不僅能夠幫助偵查人員提高對開源數(shù)據(jù)關(guān)聯(lián)聚類的準(zhǔn)確率和降低其不同類別形態(tài)、屬性結(jié)構(gòu)的制約與影響,而且還能夠幫助其提升開源數(shù)據(jù)情報偵查價值需求深挖的協(xié)同性和情報偵查決策應(yīng)用的同配性,從而有利于提高開源數(shù)據(jù)情報偵查挖掘與分析應(yīng)用的準(zhǔn)確度和精確度。
基于開源數(shù)據(jù)的情報偵查方法是開源數(shù)據(jù)驅(qū)動創(chuàng)新時代的一種新型數(shù)據(jù)情報偵查方法,主要包括SP-IECLAT 并行關(guān)聯(lián)算法、分簇?zé)o線傳感數(shù)據(jù)融合算法、并行聚類CLUBS 算法、引力搜索GSA算法、多目標(biāo)決策時序數(shù)據(jù)算法以及輪廓系數(shù)K-means 聚類算法等多種開源數(shù)據(jù)情報偵查方法,且不同的開源數(shù)據(jù)情報偵查方法都有著不同的應(yīng)用算法優(yōu)勢。基于此,引入基于開源數(shù)據(jù)的情報偵查方法研究范式。以開源數(shù)據(jù)情報偵查的內(nèi)涵與屬性為研究邏輯起點(diǎn),提出開源數(shù)據(jù)情報偵查的平臺設(shè)計方案,構(gòu)建開源數(shù)據(jù)情報偵查的流程模型,并對開源數(shù)據(jù)情報偵查的應(yīng)用方法展開探討。這不僅使偵查人員能夠?qū)?shù)據(jù)犯罪情勢的生存與發(fā)展態(tài)勢展開快速高效的算法解析和促進(jìn)不同開源數(shù)據(jù)情報源之間的互相融合,而且還能夠幫助其提升情報偵查價值需求深挖的協(xié)同性和情報偵查決策應(yīng)用的同配性,全面提高挖掘與分析算法的準(zhǔn)確度和精確度,從而實現(xiàn)開源數(shù)據(jù)情報偵查的應(yīng)然價值和實然效果。