◆張輝 周成祖
(1.北京市公安局網(wǎng)絡(luò)安全保衛(wèi)總隊(duì)北京 100000;2.廈門(mén)市美亞柏科信息股份有限公司福建 361008)
社會(huì)網(wǎng)點(diǎn)與傳統(tǒng)的互聯(lián)網(wǎng)站點(diǎn)有所不同,無(wú)論是微博,還是人人網(wǎng),都是為了滿足用戶的需要運(yùn)行的。社會(huì)網(wǎng)點(diǎn)主要的資源是用戶,一個(gè)用于將自己個(gè)人的狀態(tài)與其他的用戶分享,每個(gè)人所呈現(xiàn)出來(lái)的狀態(tài)有所不同。為微博作為社會(huì)網(wǎng)站,其主要的作用是傳播公共信息,其傳播效率是非常高的,可以做到實(shí)時(shí)傳播,可以使得整個(gè)的網(wǎng)絡(luò)在短時(shí)間內(nèi)被引爆。所以,微博中信息是非常值得采集的,特別是的用戶信息、用戶所發(fā)布的信息以及用戶之間所建立的關(guān)系網(wǎng)等等方面的信息都要采集?,F(xiàn)在微博技術(shù)已經(jīng)成熟,在平臺(tái)上采集數(shù)據(jù)信息是可行的,確保實(shí)驗(yàn)數(shù)據(jù)更加集中,所獲得的數(shù)據(jù)具有權(quán)威性[1]。與國(guó)外的微博相比較,中國(guó)的微博出現(xiàn)時(shí)間短,雖然借鑒了國(guó)外的一些微博平臺(tái),而且也將一些新技術(shù)引進(jìn)來(lái),但是,API接口沒(méi)有完全開(kāi)放,就會(huì)出現(xiàn)信息采集效率不高的問(wèn)題,導(dǎo)致覆蓋性差不是很好。
移動(dòng)終端的發(fā)展速度不斷加快,我們迎來(lái)了大數(shù)據(jù)時(shí)代,各種數(shù)據(jù)呈現(xiàn)出指數(shù)增長(zhǎng)態(tài)勢(shì),每一條數(shù)據(jù)中都所涵蓋的信息都有一定的價(jià)值,還包括關(guān)鍵信息,諸如用戶的虛擬身份賬號(hào)、用戶的手機(jī)號(hào)捆綁身份證號(hào)以及銀行卡號(hào)等等。如果將這些數(shù)據(jù)收集起來(lái)存儲(chǔ)在數(shù)據(jù)庫(kù)中,就可對(duì)用戶的需求全面了解,這也是大數(shù)據(jù)所發(fā)揮的重要價(jià)值[2]。在進(jìn)行數(shù)據(jù)提取中,由于數(shù)據(jù)提取方法存在特殊性,特別是自適應(yīng)匹配和可變滑動(dòng)窗口的數(shù)據(jù),要將其中有價(jià)值的數(shù)據(jù)信息提取出來(lái),就要運(yùn)用自適應(yīng)匹配算法,所提取的數(shù)據(jù)信息才能有較高的精準(zhǔn)度,如果采用可變滑動(dòng)窗口算法,可以比對(duì)原始數(shù)據(jù),即便不知道屬于那種類型,也可以通過(guò)循環(huán)比對(duì),直到獲得有價(jià)值的數(shù)據(jù)。采用這種提取方式,被漏提的有價(jià)值數(shù)據(jù)所占有的比例減少,大數(shù)據(jù)分析定位能力有所提升,對(duì)于核心線索能夠快速準(zhǔn)確定位。
(1)數(shù)據(jù)提取技術(shù)的不足之處
由于原始數(shù)據(jù)有很多,而且數(shù)據(jù)的結(jié)構(gòu)非常復(fù)雜,從當(dāng)前的數(shù)據(jù)提取方法來(lái)看,主要是采用模板方法提取或者采用正則表達(dá)式提取有價(jià)值的數(shù)據(jù)。這些數(shù)據(jù)提取方法雖然存在優(yōu)勢(shì),但是也有諸多的不足。主要體現(xiàn)在如下方面。
其一,在數(shù)據(jù)的匹配通常應(yīng)用單一的模板,或者采用正則表達(dá)式,進(jìn)行匹配,如果是在復(fù)雜特征場(chǎng)景下的數(shù)據(jù),要將有價(jià)值信息提取出來(lái)是存在一定的難度的。
其二,根據(jù)數(shù)據(jù)分析所獲得的結(jié)果對(duì)于數(shù)據(jù)匹配的范圍進(jìn)行分析,從中能夠認(rèn)識(shí)到,進(jìn)行匹配的數(shù)據(jù)往往是每行所呈現(xiàn)出來(lái)的原始數(shù)據(jù),或者對(duì)特定范圍內(nèi)所讀取的數(shù)據(jù)匹配,而起局限于原始數(shù)據(jù)的匹配。
其三,如果數(shù)據(jù)分布在不同的范圍內(nèi),有價(jià)值的數(shù)據(jù)就不能用這種方法提取出來(lái)[3]。
(2)改進(jìn)方案
對(duì)于數(shù)據(jù)提取所存在的不足之處,需要采取有效的措施解決,所采用的提取方法是,采用自適應(yīng)匹配算法將自適應(yīng)匹配提取出來(lái),采用可變滑動(dòng)窗口算法提取可變滑動(dòng)窗口的數(shù)據(jù),可以將更多有價(jià)值的數(shù)據(jù)信息提取出來(lái),可以提高數(shù)據(jù)提取的準(zhǔn)確率,大數(shù)據(jù)技術(shù)得以充分利用起來(lái)[4]。
采用這種方法提取數(shù)據(jù),不同的數(shù)據(jù)匹配方法,采用自適應(yīng)匹配算法可以獲得良好的效果。具體操作中,將類型不同的原始數(shù)據(jù)動(dòng)態(tài)調(diào)整,能夠?qū)⒏嘤袃r(jià)值的數(shù)據(jù)提取出來(lái),而且保證數(shù)據(jù)提取的準(zhǔn)確率。
屬于不同的數(shù)據(jù)匹配范圍,在數(shù)據(jù)提取的時(shí)候使用可變滑動(dòng)窗口算法,可以循環(huán)匹配特征引擎以及原始數(shù)據(jù)內(nèi)容,將有關(guān)的記錄放到內(nèi)存中,組合附近匹配結(jié)果,有價(jià)值的數(shù)據(jù)盡管屬于不同的類型,也可以提取出來(lái)[5]。
(1)提取的數(shù)據(jù)結(jié)構(gòu)
要提高數(shù)據(jù)分析效果以及數(shù)據(jù)提取能力,可以發(fā)揮分析程序的作用,使用提取引擎將有價(jià)值的數(shù)據(jù)信息提取出來(lái),將可變滑動(dòng)窗口充分利用起來(lái),對(duì)于所屬類型不同的數(shù)據(jù)信息提取。在數(shù)據(jù)提取的過(guò)程中,還在特征規(guī)則庫(kù)和數(shù)據(jù)塊庫(kù)的基礎(chǔ)上展開(kāi)(表 1:特征規(guī)則庫(kù);表2:數(shù)據(jù)塊庫(kù))。
表1 特征規(guī)則庫(kù)
表2 數(shù)據(jù)塊庫(kù)
在對(duì)數(shù)據(jù)信息分析的過(guò)程中需要按照流程進(jìn)行,具體分析流程見(jiàn)圖1。原始數(shù)據(jù)量非常大,要從中將有價(jià)值數(shù)據(jù)信息提取出來(lái),就需要將相應(yīng)的場(chǎng)景建立起來(lái)[6]。本研究所采用的數(shù)據(jù)提取技術(shù)是發(fā)揮自適應(yīng)匹配算法和可變滑動(dòng)窗口算法,如果數(shù)據(jù)為已知類型,使用自動(dòng)匹配提取引擎就可以將有價(jià)值信息提取出來(lái), 不僅提取的速度快,而且精確度高。對(duì)于不同類型的數(shù)據(jù)采用多種提取,比如在運(yùn)用引擎循環(huán)方法的時(shí)候,就可以將某一特征的數(shù)據(jù)信息提取出來(lái),這樣,有價(jià)值的數(shù)據(jù)信息就可以準(zhǔn)確地被提取出來(lái),大數(shù)據(jù)分析能力提高,對(duì)于核心數(shù)據(jù)的定位能力也加快[7](圖1:數(shù)據(jù)信息分析流程)。
圖1 數(shù)據(jù)信息分析流程
(2)提取數(shù)據(jù)的方案
采用這種數(shù)據(jù)提取方法所獲得的有價(jià)值信息更多。對(duì)這種方法進(jìn)行分析需要使用模型。
使用自適應(yīng)匹配算法的時(shí)候,通常原始數(shù)據(jù)的格式比較復(fù)雜,其復(fù)雜特征通常超過(guò)兩個(gè),在一個(gè)文件中很有可能會(huì)涵蓋多個(gè)特征,諸如視頻特征、音頻特征、圖像特征和文本特征等等。如果特征匹配方式比較單一,就會(huì)降低執(zhí)行效率,會(huì)存在數(shù)據(jù)提取不全的問(wèn)題,運(yùn)用概率分布算法,對(duì)于特征不同數(shù)據(jù)可以計(jì)算,即便處于不同業(yè)務(wù)場(chǎng)景,也會(huì)有同時(shí)出現(xiàn)的概率,采用自動(dòng)匹配的方法對(duì)引擎處理,使得復(fù)雜特征數(shù)據(jù)中提取有價(jià)值數(shù)據(jù)的效率更高[8](圖2:自適應(yīng)匹配方法提取數(shù)據(jù)需要遵循的流程)。
圖2 自適應(yīng)匹配方法提取數(shù)據(jù)需要遵循的流程
在對(duì)信息進(jìn)行提取的時(shí)候,需要依據(jù)數(shù)據(jù)聚類標(biāo)識(shí)的類型標(biāo)簽,還要結(jié)合特征規(guī)則庫(kù),將相應(yīng)的特征處理引擎Cn予以調(diào)用,識(shí)別引擎之后返回Cn,將結(jié)構(gòu)數(shù)據(jù)提取出來(lái)。
運(yùn)用關(guān)聯(lián)引擎算法,就是在相同業(yè)務(wù)場(chǎng)景中,數(shù)據(jù)類型相同的情況下,包含的特征有較大概率一樣,所以執(zhí)行達(dá)到設(shè)置閥值,且去掉關(guān)聯(lián)比例為 0的關(guān)聯(lián)引擎,就可以較低資源代價(jià)提取出更多的有價(jià)值數(shù)據(jù)。
算法描述:如果特征規(guī)則庫(kù)中Cn有關(guān)聯(lián)比例已經(jīng)超過(guò)引擎Cm,即其甚至閥值的25%,就可以將Cm調(diào)取,提取數(shù)據(jù);如果一些新特征引擎與Cn沒(méi)有關(guān)聯(lián)性,或者特征引擎與Cn之間的關(guān)聯(lián)性介于5%至25%之間,比對(duì)特征;如果與Cn之間的關(guān)聯(lián)比例是0%-5%的特征引擎,則不需要進(jìn)行比對(duì)[9]。
采用合并關(guān)聯(lián)引擎算法將特征處理引擎調(diào)用,所獲得的操作結(jié)果可以看作是最終的結(jié)果集,將所獲得的數(shù)據(jù)信息存儲(chǔ)在數(shù)據(jù)庫(kù)當(dāng)中。
應(yīng)用可變滑動(dòng)窗口算法,就是從海量數(shù)據(jù)流中提取有價(jià)值數(shù)據(jù),具體而言,是通過(guò)運(yùn)用數(shù)據(jù)塊標(biāo)識(shí)的方法、特征模糊匹配的方法以及可變滑動(dòng)窗口的方法,將有關(guān)聯(lián)的數(shù)據(jù)塊進(jìn)行合并之后提取,提取效率提高了,而且保證了準(zhǔn)確性[10](圖3:可變滑動(dòng)窗口提取流程算法的運(yùn)行流程)。
數(shù)據(jù)塊:對(duì)數(shù)據(jù)流的內(nèi)容進(jìn)行分析,明確前1K和最后1K是可以截取的內(nèi)容,與數(shù)據(jù)流的長(zhǎng)度結(jié)合起來(lái),對(duì)MD5值予以計(jì)算,所獲得的結(jié)果就是數(shù)據(jù)流的唯一標(biāo)識(shí) ID,在分塊的時(shí)候,每次 10000行的頻率都要按照規(guī)定的順序操作,數(shù)據(jù)集合S就能夠獲得,在數(shù)據(jù)塊表中存儲(chǔ)標(biāo)識(shí)ID存儲(chǔ),還要將順序號(hào)編號(hào)。
特征匹配:循環(huán)遍歷數(shù)據(jù)集合 S,使用特征引擎充比如集合 Sn的特征要素,計(jì)算Sn的特征要素與特征規(guī)則庫(kù)之間所存在的一致性,如果從吻合度到設(shè)置閥值超過(guò)50%,就要將滑動(dòng)窗口啟動(dòng),實(shí)施特征比對(duì)。
滑動(dòng)窗口:按照數(shù)據(jù)流標(biāo)識(shí)ID和順序號(hào),將各個(gè)數(shù)據(jù)集合Sn合并,將下一個(gè)數(shù)據(jù)集合Sn+1以及上一個(gè)數(shù)據(jù)集合Sn-1都納入其中,就可以形成Mn,此為新的數(shù)據(jù)集合,將特征引擎合理運(yùn)用,對(duì)Mn的特征要素進(jìn)行比對(duì),將Mn的特征要素與特征規(guī)則庫(kù)之間的吻合度計(jì)算出來(lái),即計(jì)算出upSinilarity,如果兩者之間的吻合度upSinilarity計(jì)算結(jié)果是“算結(jié),就可以進(jìn)入到下一個(gè)環(huán)節(jié),即信息提取環(huán)節(jié),如果吻合度沒(méi)有達(dá)到“就可,就意味新的數(shù)據(jù)集合Mn還需要繼續(xù)合并,將Sn-2和Sn+2都結(jié)合起來(lái),如此循環(huán)往復(fù)地執(zhí)行。
信息提?。涸谔崛⌒畔⒌臅r(shí)候,需要將特征提取引擎充分利用起來(lái),提取新數(shù)據(jù)集合Mn中的有價(jià)值信息,保存結(jié)果。
圖3 可變滑動(dòng)窗口提取流程算法的運(yùn)行流程
通過(guò)上面的研究可以明確,現(xiàn)在的互聯(lián)網(wǎng)環(huán)境中,信息挖掘已經(jīng)成為重點(diǎn)研究的問(wèn)題。在對(duì)微博數(shù)據(jù)信息的挖掘技術(shù)分析中,需要考慮網(wǎng)絡(luò)挖掘技術(shù)的應(yīng)用,做到全面采集,對(duì)于所采集的方法全面了解,予以分析,掌握用戶的個(gè)人信息以及用戶關(guān)注信息,并對(duì)垃圾信息有效處理,提高信息的價(jià)值。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2020年12期