王 慧, 秦 靜, 鄭 濤
(中國人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院, 北京 100038)
量化概念格上網(wǎng)絡(luò)盜竊行為擬合預(yù)測(cè)
王 慧, 秦 靜, 鄭 濤
(中國人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院, 北京 100038)
時(shí)間序列挖掘是在經(jīng)典的數(shù)據(jù)關(guān)聯(lián)分析過程中加入時(shí)間戳印記,從而發(fā)現(xiàn)一定時(shí)間間隔內(nèi)事物對(duì)象不同行為模式之間的關(guān)聯(lián)關(guān)系。網(wǎng)絡(luò)盜竊是一針對(duì)不特定多數(shù)人實(shí)施的短期多發(fā)性犯罪活動(dòng),其原始數(shù)據(jù)記錄形式為多屬性關(guān)聯(lián)信息表,數(shù)據(jù)分布因具有時(shí)間順序特征而符合時(shí)間序列挖掘分析的基本條件,為對(duì)該類數(shù)據(jù)進(jìn)行頻繁序列模式提取。首先論述了建立量化概念格數(shù)學(xué)模型的知識(shí)表示優(yōu)勢(shì),證明了該格結(jié)構(gòu)對(duì)原始數(shù)據(jù)表的完備性,其次提出了量化概念格上的頻繁序列生成算法AMSP,最后在網(wǎng)絡(luò)盜竊行為的擬合分析中對(duì)AMSP算法加以驗(yàn)證,說明該算法對(duì)于時(shí)間序列分析具有直觀高效性,同樣可應(yīng)用于與網(wǎng)絡(luò)盜竊案件具有相似數(shù)據(jù)特征的其他網(wǎng)絡(luò)犯罪行為的預(yù)測(cè)分析。
網(wǎng)絡(luò)盜竊; 概念格; 序列挖掘; 關(guān)聯(lián)規(guī)則
伴隨著網(wǎng)絡(luò)經(jīng)濟(jì)的迅速崛起,個(gè)人網(wǎng)絡(luò)交易數(shù)量急劇增長,網(wǎng)絡(luò)交易安全倍受關(guān)注,由于個(gè)人財(cái)產(chǎn)在網(wǎng)絡(luò)空間主要體現(xiàn)為電子資金、網(wǎng)絡(luò)服務(wù)、虛擬物品等電子數(shù)據(jù)形式,網(wǎng)絡(luò)盜竊案件的犯罪對(duì)象也集中于這些具有價(jià)值屬性的電子數(shù)據(jù),侵害對(duì)象圍繞不特定多數(shù)群體,與傳統(tǒng)盜竊相比,網(wǎng)絡(luò)盜竊犯罪的涉案總金額大,社會(huì)影響極其惡劣。網(wǎng)絡(luò)盜竊是指采取非正當(dāng)手段在網(wǎng)絡(luò)空間將他人有形或無形財(cái)物據(jù)為己有的行為[1],網(wǎng)絡(luò)為其獲利來源,網(wǎng)絡(luò)盜竊具有跨地域性、侵犯對(duì)象隨機(jī)性、犯罪實(shí)施短期性等特點(diǎn),但其發(fā)生發(fā)展的時(shí)間規(guī)律性較強(qiáng),在案件涉及的人、地、物、事件、組織5要素中,網(wǎng)絡(luò)盜竊案件的地域環(huán)節(jié)對(duì)案件的影響極大減弱,而物、組織、事件環(huán)節(jié)均存在于網(wǎng)絡(luò)環(huán)境,其中組織、事件屬性的主要特征均具有時(shí)間印記,涉案人員常在短期內(nèi)多次連鎖盜竊,作案手段時(shí)間規(guī)律性強(qiáng),因此,在案件偵破、證據(jù)鏈?zhǔn)崂磉^程進(jìn)行時(shí)間序列預(yù)測(cè), 尋找網(wǎng)絡(luò)盜竊行為之間的高頻度犯罪特征模式,可為案件的取證偵查工作提供新的思路。
時(shí)間序列分析是圍繞歷史行為的客觀記錄預(yù)測(cè)未來活動(dòng)的數(shù)據(jù)處理方法,在事務(wù)數(shù)據(jù)庫中挖掘頻繁序列模式的目的在于發(fā)現(xiàn)研究對(duì)象在某段時(shí)間內(nèi)的行為變化規(guī)律[2],揭示研究對(duì)象在某段時(shí)間間隔內(nèi)具有行為X之后與實(shí)施行為Y的關(guān)聯(lián)程度[3],序列分析是關(guān)聯(lián)規(guī)則與時(shí)間維度的結(jié)合體,以事務(wù)數(shù)據(jù)庫為基礎(chǔ)建立序列分析數(shù)學(xué)模型是關(guān)鍵[4]。為了發(fā)現(xiàn)事物之間及屬性之間的時(shí)間關(guān)聯(lián)性,引入量化概念格數(shù)學(xué)模型,完備的量化概念格可以完整體現(xiàn)事務(wù)數(shù)據(jù)庫的基本特征,由量化概念集所導(dǎo)出的子集偏序關(guān)系可形成Hasse圖,基于Hasse圖的頻繁時(shí)間序列發(fā)掘更加簡(jiǎn)潔直觀。網(wǎng)絡(luò)盜竊案件的原始數(shù)據(jù)記錄形式為多屬性關(guān)聯(lián)信息表,案件在信息表中以事物對(duì)象形式出現(xiàn),案件基本特征表現(xiàn)為屬性,同一涉案人員的多次盜竊活動(dòng)在信息表中已經(jīng)按照案發(fā)時(shí)間順序記錄,數(shù)據(jù)記錄格式具備時(shí)間序列分析的基本條件。對(duì)網(wǎng)絡(luò)盜竊犯罪行為進(jìn)行時(shí)間序列挖掘可從微觀上展現(xiàn)作案過程的基本特征、電子證據(jù)的分布特點(diǎn)等規(guī)律,對(duì)于網(wǎng)絡(luò)盜竊案件的偵破工作具有實(shí)際意義。
概念格由德國數(shù)學(xué)家Rudolf Wille于1982年提出[5],該格結(jié)構(gòu)是事務(wù)數(shù)據(jù)庫中對(duì)象與屬性之間二元關(guān)系所建立的層次概念結(jié)構(gòu),格中每一概念均由外延與內(nèi)涵組成,描述了對(duì)象與屬性之間的聯(lián)系。概念格定義于給定的形式背景之上,設(shè)給定形式背景表示為T=(D,A,R),其中D={x1,x2,…xn}為描述對(duì)象集合;A={a1,a2,…am}為屬性集合;R為D和A之間的二元關(guān)系,R?D×A,其中若〈x,a〉∈R,則稱x具有屬性a,若〈x,a〉?R,則稱x不具有屬性a。若在形式背景T上定義如下運(yùn)算:
X*={a|a∈A,?x∈X,〈x,a〉∈R}
Y*={x|x∈D,?a∈Y,〈x,a〉∈R}
其中,X?D,Y?A,則X*表示對(duì)象集X中所有對(duì)象具有的共同屬性集合,Y*表示具有Y中所有屬性的對(duì)象集合,此時(shí)形式背景T的知識(shí)表示形式與數(shù)據(jù)信息表一致,而信息表是進(jìn)行時(shí)間序列分析的基礎(chǔ)。
定義1 設(shè)T=(D,A,R)為給定形式背景,二元組〈X,Y〉滿足X*=Y且X=Y*,則稱C〈X,Y〉為一概念,其中X為概念的外延,Y為概念的內(nèi)涵。該形式背景下全體概念形成概念格,也稱為Galois格,記為L(D,A,R)[6]。
定義2 設(shè)C〈X,Y〉為一概念,稱C′〈|X|,Y〉為真實(shí)概念C所對(duì)應(yīng)的量化概念,其中|X|為外延的基數(shù),由量化概念所構(gòu)成的格稱為量化概念格[6]。
定理1 形式背景T=(D,A,R)下的概念格為一完備格。
定理2 量化概念格與其所對(duì)應(yīng)的真實(shí)概念格同構(gòu)且具有完備性。
證明:由定義2可知,量化概念格與其對(duì)應(yīng)的真實(shí)概念格屬于同一形式背景,設(shè)C1〈X1,Y1〉、C2〈X2,Y2〉為該形式背景T=(D,A,R)下任意真實(shí)概念,C′1〈|X1|,Y1〉、C′2〈|X2|,Y2〉為其對(duì)應(yīng)量化概念,由定理1知,X1?X2?Y2?Y1,所以C1≤C2,該形式背景下所定義的偏序關(guān)系可以只根據(jù)概念內(nèi)涵間的子集關(guān)系確定而不會(huì)改變?cè)窠Y(jié)構(gòu),將概念的外延量化并不影響同一形式背景下概念格的結(jié)構(gòu),所以量化概念格與其所對(duì)應(yīng)的真實(shí)概念格同構(gòu),量化概念間的關(guān)系取決于與其對(duì)應(yīng)真實(shí)概念間的關(guān)系:C′1≤C′2當(dāng)且僅當(dāng)C1≤C2。又因?yàn)槿炕拍睢磡D|,?〉與空量化概念〈0,A〉屬于該格結(jié)構(gòu),所以量化概念格為一完備格。證畢。
由上述證明可知,概念格可以體現(xiàn)數(shù)據(jù)信息表的全部?jī)?nèi)容,同一形式背景下的量化概念格與其對(duì)應(yīng)的真實(shí)概念格同構(gòu)且包含了時(shí)間序列分析所需的支持度計(jì)數(shù)值,針對(duì)數(shù)據(jù)信息表的時(shí)間序列關(guān)聯(lián)分析可在量化概念格結(jié)構(gòu)上進(jìn)行,其格結(jié)構(gòu)的完備性可保證數(shù)據(jù)信息量的完整性。
時(shí)間序列挖掘分析的目的在于發(fā)現(xiàn)事物數(shù)據(jù)庫中描述對(duì)象在不同時(shí)間戳下的頻繁行為模式,設(shè)事物數(shù)據(jù)庫D={t1,t2,…,tn},每一事物ti由標(biāo)識(shí)符tid與屬性子集Ai表示,Ai?A,其中屬性集A={a1,a2,…,am}為所有屬性值的集合,時(shí)間序列挖掘就是以事物數(shù)據(jù)庫為依托在給定支持度約束下尋找屬性子集的有序列表[7],該列表與時(shí)間維度相關(guān)。鑒于概念格簡(jiǎn)潔完備的知識(shí)表示結(jié)構(gòu),形式背景之上偏序關(guān)系所對(duì)應(yīng)格結(jié)構(gòu)的存在使得概念之間的包含關(guān)系可以用Hasse圖直觀表示,概念格L(D,A,R)中各概念間的關(guān)系體現(xiàn)在Hasse圖層間結(jié)點(diǎn)的連接關(guān)系。在支持度閾值約束下,屬性集上序列模式的發(fā)現(xiàn)問題可表達(dá)為Hasse圖中內(nèi)涵上以外延基數(shù)為約束的子樹序列發(fā)現(xiàn)問題。
對(duì)于給定的事務(wù)數(shù)據(jù)庫,常規(guī)關(guān)聯(lián)規(guī)則挖掘問題是尋找在屬性A出現(xiàn)的條件之下屬性B出現(xiàn)的可能性,而序列挖掘在事務(wù)數(shù)據(jù)庫所形成的序列數(shù)據(jù)庫上進(jìn)行,在序列數(shù)據(jù)庫中尋找高頻次出現(xiàn)的序列模式,該序列由若干子序列構(gòu)成,子序列是若干屬性值的集合。依據(jù)用戶給定的最小支持度將滿足支持度閾值限制的序列稱為頻繁序列,也稱該序列為一序列模式,是關(guān)聯(lián)規(guī)則挖掘中的頻繁屬性集列表[7]。序列模式挖掘的形式化描述如下:
定義3[8]設(shè)序列S={S1,S2,…,Sn},元素Si為屬性子集Ai,序列所包含的所有屬性值的個(gè)數(shù)稱為序列的長度。序列S在序列數(shù)據(jù)集D上的支持度(Support)是D中包含S的序列個(gè)數(shù),即,
簡(jiǎn)記為sup(S),由用戶指定的最小支持度稱為序列S的支持度閾值。
定義4 序列S={S1,S2,…,Sn}是序列T={T1,T2,…,Tm}(n≤m)的子序列指對(duì)于任意整數(shù)i≤n,總存在j≤m使得Si?Tj,記為S?T。
序列模式挖掘過程中的序列子集是屬性集合,表示某一事務(wù)中屬性序列的出現(xiàn)狀況,當(dāng)事務(wù)數(shù)據(jù)庫D所包含的屬性均為二值屬性時(shí),屬性集即屬性值的集合。在序列模式生成過程中,對(duì)于給定的支持度閾值ζ,若sup(S)≥ζ,則該序列為頻繁序列,實(shí)際挖掘過程更關(guān)注最大頻繁序列,根據(jù)序列空間理論,頻繁序列的子集仍然是頻繁序列。由于序列的支持度計(jì)數(shù)值直接影響頻繁序列的生成,體現(xiàn)在量化概念格中的結(jié)點(diǎn)C′〈|X|,Y〉的量化外延,這種通過對(duì)概念外延的量化表示獲得的量化概念形式更簡(jiǎn)潔,更便于支持度計(jì)算,更有利于直觀地進(jìn)行序列模式挖掘。
鑒于量化概念格直觀的知識(shí)表示形式及其與序列模式生成過程的緊密聯(lián)系,根據(jù)最小支持度閾值可直接生成所有頻繁量化概念并以Hasse圖形式輸出,圖中包含所有頻繁序列集,由于在頻繁序列集生成過程中去除了原有序列數(shù)據(jù)庫對(duì)應(yīng)概念格中的非頻繁概念,因此頻繁量化序列集所對(duì)應(yīng)的Hasse圖已不是完全意義上的格結(jié)構(gòu),僅保留其偏序特性[9]。
考慮概念格上子集偏序關(guān)系本身的次序性,在序列數(shù)據(jù)庫所對(duì)應(yīng)的量化概念格Hasse圖中,序列模式為Hasse圖中外延基數(shù)大于支持度閾值的結(jié)點(diǎn)內(nèi)涵。量化概念格上的頻繁序列生成算法AMSP(the Algorithm Mining Sequential Pattern based on the Concept Lattice Quantified)如下:
輸入:事物數(shù)據(jù)集D及支持度閾值ζ
輸出:序列模式集Smax
步驟1:對(duì)事務(wù)數(shù)據(jù)集D以事物標(biāo)識(shí)tid為主要關(guān)鍵詞以事物發(fā)生時(shí)間為次要關(guān)鍵詞排序,將事務(wù)數(shù)據(jù)庫轉(zhuǎn)化為序列數(shù)據(jù)庫C;
步驟2:創(chuàng)建Hasse圖的L0層結(jié)點(diǎn)Root,標(biāo)記為〈|C|,?〉,根據(jù)支持度閾值ζ掃描序列數(shù)據(jù)庫C,獲得長度為1的頻繁子序列L1,將L1作為初始種子集Seed;記錄包含L1的序列數(shù)|X|,并按|X|值降序排列,生成Hasse圖的第1層;
步驟3:i=1;
步驟4:根據(jù)Li,通過連接與剪枝運(yùn)算形成候選序列Si+1,掃描序列數(shù)據(jù)庫C,計(jì)算sup(Si+1),產(chǎn)生長度為i+1的頻繁子序列Li+1,形成Hasse圖的第i+1層,更新種子集Seed,若種子集無變化轉(zhuǎn)向步驟6;
步驟5:i=i+1,轉(zhuǎn)向步驟4;
∥步驟4形成Hasse圖的Lj(j>1)層
步驟6:為相鄰層間具有遮蓋關(guān)系的結(jié)點(diǎn)連邊并輸出葉子結(jié)點(diǎn)的外延集。
根據(jù)AMSP算法,序列模式的發(fā)現(xiàn)是在經(jīng)典關(guān)聯(lián)規(guī)則提取過程中加入時(shí)間維度,為提取最大序列,頻繁子序列集生成過程融剪枝策略于一體,選取表1所示數(shù)據(jù)庫驗(yàn)證AMSP算法的執(zhí)行過程。
表1 示例數(shù)據(jù)庫
在表1中,事物tid已經(jīng)按照時(shí)間順序排列,因此可忽略事物發(fā)生的時(shí)間戳,將事物tid相同的記錄合并后,可得表2所示的序列數(shù)據(jù)庫。
表2 序列數(shù)據(jù)庫
設(shè)給定最小支持度閾值為2時(shí),示例數(shù)據(jù)庫所對(duì)應(yīng)的頻繁量化序列Hasse圖如圖1所示。
圖1 示例數(shù)據(jù)庫的頻繁量化序列Hasse圖
由圖1可知,當(dāng)給定支持度閾值為2時(shí),序列(ACD)、(BCD)為最大頻繁序列,所包含子序列都是重要屬性值。
圖2 網(wǎng)絡(luò)盜竊行為所生成頻繁概念集上的Hasse圖
網(wǎng)絡(luò)盜竊案件的立案依據(jù)主要是刑法的二百六十四條[1],立案標(biāo)準(zhǔn)參照最高人民法院及最高人民檢察院關(guān)于盜竊刑事案件的相關(guān)解釋,其中盜竊價(jià)值1 000至3 000元以上的公私財(cái)物已屬于刑法二百六十四條規(guī)定的“數(shù)額較大”環(huán)節(jié),而網(wǎng)絡(luò)盜竊犯罪是在一定時(shí)間階段爆發(fā)的多次盜竊活動(dòng),涉案金額往往在“數(shù)額較大”環(huán)節(jié)之上,為驗(yàn)證AMSP算法對(duì)于網(wǎng)絡(luò)盜竊案件的分析效果,在XX市刑事案例庫中隨機(jī)抽取網(wǎng)絡(luò)盜竊案件200例,共涉及嫌疑人56位,為查明侵入、控制計(jì)算機(jī)信息系統(tǒng)的程序工具、網(wǎng)絡(luò)盜竊行為的具體作案手段及受害人的網(wǎng)絡(luò)使用習(xí)慣之間的關(guān)系,相關(guān)業(yè)務(wù)指標(biāo)選取如下[10]。
案件基本信息:涉案人員姓名、案發(fā)時(shí)間;
作案人基本信息:涉案人員姓名、籍貫、受教育程度、是否具有軟件編程經(jīng)驗(yàn)、基本收入狀況、是否存在盜竊前科、是否存在盜取個(gè)人信息行為、是否曾經(jīng)買賣個(gè)人信息、與受害人是否相識(shí)、是否盜竊虛擬財(cái)產(chǎn)、是否分工式作案、是否進(jìn)行非法所得資金轉(zhuǎn)移;
受害人基本信息:涉案人員姓名、性別、職業(yè)背景、居住區(qū)域、是否為失竊物品報(bào)警、是否經(jīng)常網(wǎng)購、是否經(jīng)常運(yùn)行網(wǎng)絡(luò)游戲、是否存在訪問惡意網(wǎng)頁現(xiàn)象、是否存在掃描陌生二維碼現(xiàn)象;
作案工具基本信息:涉案人員姓名、涉案計(jì)算機(jī)是否存在木馬黑客程序、是否存在網(wǎng)絡(luò)嗅探工具、計(jì)算機(jī)中是否存在間歇性打包發(fā)送軟件、計(jì)算機(jī)中是否存在Hook抓屏工具、是否曾進(jìn)行郵件恢復(fù);
根據(jù)案件分析的關(guān)注點(diǎn)選取上述屬性形成的事物數(shù)據(jù)庫,因?yàn)榫W(wǎng)絡(luò)盜竊常常是同一作案人的多次重復(fù)操作,依關(guān)注點(diǎn)所導(dǎo)出的事務(wù)數(shù)據(jù)庫已經(jīng)按照涉案人員姓名、案發(fā)時(shí)間順序排列,可直接由事務(wù)數(shù)據(jù)庫生成序列數(shù)據(jù)庫。在所形成的序列數(shù)據(jù)庫中給定支持度閾值sup(S)=40時(shí),根據(jù)AMSP算法,輸出頻繁概念集上的Hasse圖,由于網(wǎng)絡(luò)盜竊行為數(shù)據(jù)庫中涉及屬性較多,其Hasse圖局部如圖2所示。
根據(jù)圖2,植入木馬程序、盜取個(gè)人信息、存在Hook自動(dòng)抓頻工具、盜竊虛擬財(cái)產(chǎn)、掃描陌生二維碼是最大頻繁序列,該種網(wǎng)絡(luò)盜竊活動(dòng)往往通過推送二維碼種植木馬程序于受害人終端設(shè)備,再由自動(dòng)抓屏工具盜取網(wǎng)游空間或交互平臺(tái)的用戶名與密碼,實(shí)現(xiàn)對(duì)虛擬財(cái)產(chǎn)的盜竊。仿真分析結(jié)果局部如圖3所示。
圖3 網(wǎng)絡(luò)盜竊行為序列挖掘結(jié)果圖
從圖2、圖3分析可知,網(wǎng)絡(luò)盜竊犯罪是一針對(duì)不特定多數(shù)人群實(shí)施的短期團(tuán)伙作案行為,竊取目標(biāo)不僅僅是以電子數(shù)據(jù)形式存在的現(xiàn)實(shí)財(cái)產(chǎn),還包括虛擬財(cái)產(chǎn)。傳統(tǒng)盜竊是圍繞財(cái)物所在物理場(chǎng)所一步實(shí)施的非法獲取過程,而網(wǎng)絡(luò)盜竊表現(xiàn)為兩步竊取,第一步是竊取個(gè)人網(wǎng)絡(luò)身份認(rèn)證信息,第二步是利用他人身份認(rèn)證信息登錄賬戶竊取財(cái)物,每一步盜竊所具有的基本特征之間存在時(shí)間關(guān)聯(lián)性,第一步是盜竊的基礎(chǔ),其危害性常大于第二步實(shí)際財(cái)物的盜竊,在2017年6月頒布實(shí)施的《中華人民共和國網(wǎng)絡(luò)安全法》中,將個(gè)人信息的基本范圍及網(wǎng)絡(luò)服務(wù)商對(duì)個(gè)人信息的保護(hù)責(zé)任進(jìn)行了明確規(guī)制,增強(qiáng)個(gè)人基本信息的保護(hù)可有效遏制網(wǎng)絡(luò)盜竊犯罪活動(dòng)的發(fā)生。
如何有針對(duì)性地對(duì)短期多發(fā)性網(wǎng)絡(luò)犯罪行為的業(yè)務(wù)數(shù)據(jù)進(jìn)行科學(xué)分析,提取網(wǎng)絡(luò)犯罪活動(dòng)的整體特征,有效指導(dǎo)防控部署,成為當(dāng)前網(wǎng)絡(luò)空間安全領(lǐng)域面臨的主要問題之一。網(wǎng)絡(luò)盜竊活動(dòng)是典型階段多發(fā)性網(wǎng)絡(luò)犯罪,具有案發(fā)周期短、作案過程時(shí)間分布集中等特點(diǎn),針對(duì)網(wǎng)絡(luò)盜竊活動(dòng)的數(shù)據(jù)分析目標(biāo)與時(shí)間序列挖掘的主旨相一致,同時(shí)網(wǎng)絡(luò)盜竊案件的數(shù)據(jù)記錄格式符合時(shí)間序列分析的基本條件,因此可將商業(yè)領(lǐng)域已成功應(yīng)用的時(shí)間序列挖掘分析算法改進(jìn)優(yōu)化并作為網(wǎng)絡(luò)盜竊犯罪行為的數(shù)據(jù)分析工具。實(shí)例驗(yàn)證表明:量化概念格上的頻繁子序列生成算法AMSP可對(duì)網(wǎng)絡(luò)盜竊行為成功擬合,其預(yù)測(cè)結(jié)果將為網(wǎng)絡(luò)犯罪案件的偵破工作提供新的思維模式。
如何有針對(duì)性地對(duì)短期多發(fā)性網(wǎng)絡(luò)犯罪行為的業(yè)務(wù)數(shù)據(jù)進(jìn)行科學(xué)分析,提取網(wǎng)絡(luò)犯罪活動(dòng)的整體特征,有效指導(dǎo)防控部署,成為當(dāng)前網(wǎng)絡(luò)空間安全領(lǐng)域面臨的主要問題之一。網(wǎng)絡(luò)盜竊活動(dòng)是典型階段多發(fā)性網(wǎng)絡(luò)犯罪,具有案發(fā)周期短、作案過程時(shí)間分布集中等特點(diǎn),針對(duì)網(wǎng)絡(luò)盜竊活動(dòng)的數(shù)據(jù)分析目標(biāo)與時(shí)間序列挖掘的主旨相一致,同時(shí)網(wǎng)絡(luò)盜竊案件的數(shù)據(jù)記錄格式符合時(shí)間序列分析的基本條件,因此可將商業(yè)領(lǐng)域已成功應(yīng)用的時(shí)間序列挖掘分析算法改進(jìn)優(yōu)化并作為網(wǎng)絡(luò)盜竊犯罪行為的數(shù)據(jù)分析工具。實(shí)例驗(yàn)證表明:量化概念格上的頻繁子序列生成算法AMSP可對(duì)網(wǎng)絡(luò)盜竊行為成功擬合,其預(yù)測(cè)結(jié)果將為網(wǎng)絡(luò)犯罪案件的偵破工作提供新的思維模式。
[1] 趙秉志.中華人民共和國刑法修正案(九)理解與適用[M].北京:中國法制出版社,2016.
[2] 呂鋒,張煒瑋.4種序列模式挖掘算法的特性研究[J].武漢理工大學(xué)學(xué)報(bào).2006,28(2):57-60.
[3] 雷東,王韜,馬云飛.基于AC算法的比特流頻繁序列挖掘[J].計(jì)算機(jī)科學(xué).2017,44(1):128-133.
[4] AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[C]∥Proceedings of the ACM SIGMOD Iinternational Conference on Management of Data, 1993:207-216.
[5] GANIER B, WILLE R. Formal concept analysis: mathematical foundations[M]. Berlin: Springer-Verlag,1999:161-180.
[6] WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[C]∥Proceedings of the 7th International Conference on Formal Concept Analysis, 2009: 214-339.
[7] AGRAWAL R, SRIKANT R. Mining sequential patterns[C]∥Proceedings of the 11th International Conference on Data Engineering, 1995: 3-14.
[8] 毛國君,段麗娟,王實(shí),等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
[9] 王慧,王京.FP-tree上頻繁概念格的無冗余關(guān)聯(lián)規(guī)則提取[J].計(jì)算機(jī)工程與應(yīng)用,2012, 48(15):12-15.
[10] 王慧,郭紅濤.基于約簡(jiǎn)決策表的網(wǎng)絡(luò)犯罪行為關(guān)聯(lián)分析[J].中國人民公安大學(xué)學(xué)報(bào),2015(2):67-70.
(責(zé)任編輯 陳小明)
公安理論及軟科學(xué)研究計(jì)劃項(xiàng)目(2016LLYJGADX003)“面向公安大數(shù)據(jù)的融合智能網(wǎng)絡(luò)建設(shè)研究”。
王 慧(1973—),女,內(nèi)蒙古人,博士,副教授。研究方向?yàn)榫W(wǎng)絡(luò)信息技術(shù)。
D917.7