摘 要:本文首先介紹了計算機文本挖掘技術(shù)和網(wǎng)絡(luò)安全問題的相關(guān)概念和現(xiàn)狀,其次分析了計算機文本挖掘技術(shù)的工作原理,最后闡述了計算機文本挖掘技術(shù)在解決網(wǎng)絡(luò)安全問題中的應(yīng)用。
關(guān)鍵詞:計算機文本挖掘技術(shù);網(wǎng)絡(luò)安全;垃圾信息;網(wǎng)絡(luò)環(huán)境;應(yīng)用
DOI:10.16640/j.cnki.37-1222/t.2018.11.119
1 計算機文本挖掘技術(shù)和網(wǎng)絡(luò)安全的概述
1.1 計算機文本挖掘技術(shù)
1.1.1 計算機文本挖掘技術(shù)的概念
計算計文本挖掘技術(shù)簡單來說就是對計算機中文本信息的處理,因此,文本挖掘技術(shù)的主要操作對象即計算機中的文本信息,這一技術(shù)在計算機的數(shù)據(jù)處理中處于非常重要的位置。詳細來說,計算機文本挖掘技術(shù)就是從海量的文本信息中挖掘、識別有用的信息,是從抽象內(nèi)容提取出具體、可理解信息的過程,其中海量的信息包括各類文本信息,這些文本信息應(yīng)該在計算機執(zhí)行文本挖掘技術(shù)之前進行人工處理,這樣在執(zhí)行文本挖掘技術(shù)時,會降低處理難度,提升處理的準確性和效率。
1.1.2 計算機文本挖掘技術(shù)的重要意義
通過計算機文本挖掘技術(shù),挖掘網(wǎng)絡(luò)中有價值、安全的信息,實現(xiàn)對網(wǎng)絡(luò)信息垃圾的分類并攔截,打造一個無垃圾信息的網(wǎng)絡(luò)環(huán)境,大大提升了網(wǎng)絡(luò)空間的安全性。
1.2 網(wǎng)絡(luò)安全
1.2.1 網(wǎng)絡(luò)安全的概念
網(wǎng)絡(luò)安全是眾多信息安全事故的罪魁禍首,網(wǎng)絡(luò)安全的受到威脅大多是由于黑客的盛行。為了防范網(wǎng)絡(luò)風險,保護個人隱私和財產(chǎn)安全,及時解決網(wǎng)絡(luò)安全問題的工作是不可或缺的,因此,為了實現(xiàn)對對網(wǎng)絡(luò)安全的控制,首先我們要運用文本挖掘技術(shù)實現(xiàn)對垃圾信息的阻隔,規(guī)避網(wǎng)絡(luò)安全風險。
1.2.2 造成網(wǎng)絡(luò)安全問題的原因
首先網(wǎng)絡(luò)安全問題的誘發(fā)原因最主要的就是系統(tǒng)的復(fù)雜性造成的,由于網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性,造成難以全面的掌控系統(tǒng)安全,極易產(chǎn)生系統(tǒng)的風險性。通過復(fù)雜的系統(tǒng),計算機病毒極易入侵系統(tǒng),造成大規(guī)模的系統(tǒng)風險,因此,系統(tǒng)的復(fù)雜性是導致計算機漏洞產(chǎn)生的原因之一。其實還有很多因素都會導致網(wǎng)絡(luò)安全問題的出現(xiàn),本文需要研究的網(wǎng)絡(luò)安全類型是由于大量文本垃圾所導致的網(wǎng)絡(luò)擁堵,用戶不小心激活某一條垃圾信息,都會造成計算機防火墻系統(tǒng)的崩潰,從而造成網(wǎng)絡(luò)安全問題的出現(xiàn),針對該網(wǎng)絡(luò)安全問題,針對性的措施就是實現(xiàn)計算機文本挖掘技術(shù),識別有效信息,攔截垃圾信息。常見的代碼設(shè)計同基礎(chǔ)操作系統(tǒng)的設(shè)計缺陷原因類似,都是由于前期的系統(tǒng)設(shè)計問題遺留的隱患,如不能有效的避免這些設(shè)計缺陷,會加大后期計算機使用過程中的安全性較低的概率。如在代碼的設(shè)計時,設(shè)計過程較為簡單,缺少針對用戶登錄時的有效驗證:不對用戶輸入進行全面有效的驗證,可能會被攻擊者利用來執(zhí)行惡意代碼,最常見的緩沖區(qū)溢出、注入都是利用這一方式。
有網(wǎng)絡(luò)的地方不可避免的就會出現(xiàn)網(wǎng)絡(luò)安全問題,網(wǎng)絡(luò)安全問題是不可避免的,只要及時防范和及時補救計算機網(wǎng)絡(luò)風險的工作到位,就可以規(guī)避風險把損失降到最小。只有充分研究造成網(wǎng)絡(luò)風險的原因,才能從源頭上把握網(wǎng)絡(luò)風險的補救原理,以不變應(yīng)萬變。
1.2.3 實現(xiàn)網(wǎng)絡(luò)安全重要意義
隨著社會的發(fā)展和信息技術(shù)的進步 ,在這個信息化的時代下,計算機的應(yīng)用頻率越來越高。伴隨計算機應(yīng)用產(chǎn)生的各種軟件也都不盡相同,計算機和網(wǎng)絡(luò)的出現(xiàn)改變了人們傳統(tǒng)的交流方式,人們可以不需要通過面對面的方式也可以實現(xiàn)在虛擬網(wǎng)絡(luò)中的交流。信息化時代的到來催生了電商平臺的發(fā)展,人們可以通過網(wǎng)上購物、付款的方式,實現(xiàn)方便快捷的線上購物。雖然網(wǎng)絡(luò)豐富方便了我們的生活,但是網(wǎng)絡(luò)安全問題同時會危及我們的信息、財產(chǎn)安全,提升網(wǎng)絡(luò)環(huán)境的安全性,創(chuàng)造干凈、安全的網(wǎng)絡(luò)空間,已經(jīng)成為信息化時代下我們信息工作者的重要任務(wù),解決網(wǎng)絡(luò)安全問題刻不容緩。
2 計算機文本挖掘技術(shù)的方法
2.1 重視文本數(shù)據(jù)來源
數(shù)據(jù)挖掘不僅要挖掘二維數(shù)據(jù)表數(shù)據(jù) , 還要挖掘文本數(shù)據(jù)、多媒體數(shù)據(jù)和萬維網(wǎng)數(shù)據(jù),要重視可視化、使用可視化的方法進行的數(shù)據(jù)挖掘,同時,使用背景知識無疑會幫助在數(shù)據(jù)挖掘中建模的準確度。
2.2 鄰近分類法
鄰近分類法屬于重要的文本分類方法之一,同時也是比較簡單、易于操作的文本挖掘方法。他的工作原理即它可以組建c個分類方案,并將這些方案與即將進行文本挖掘技術(shù)的對象進行比較,通過比較發(fā)現(xiàn)選擇出最接近的方案來定義文本的屬性。在鄰近分類法的操作過程中,首先要確定方案所描述的情況,對這些情況要進行特征的分類,然后才能更為快捷的提取出特征相似的地方,從而找出那兩者之間更具有鄰近性。臨近分類方法雖然操作簡單,效果也十分便捷、有限,但是它也存在著一定的缺點,那就是雖然已經(jīng)對挖掘?qū)ο蟪醪降倪M行了相似性的分類,但是還是有極大可能會出現(xiàn)不同分類下的平行、共線的情況,從而會導致挖掘結(jié)果的不準確性,造成文本挖掘操作的失敗。
基于傳統(tǒng)鄰近分類法下的不同分類對象的共線問題,進行了改進,改進的主要內(nèi)容包括了解貢獻對象之間的明顯特征,對這些極易引發(fā)共線問題的特征進行合并,盡可能的壓縮特征向量的維度,保證鄰近分類法的操作成功率,提高鄰近分類法的準確率和算法執(zhí)行速度,提升文本挖掘的效率。
3 計算機文本挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用
3.1 文本挖掘在網(wǎng)絡(luò)新聞及輿情信息分析中的應(yīng)用
網(wǎng)絡(luò)輿情的信息已經(jīng)成為非常重要的網(wǎng)絡(luò)安全問題,網(wǎng)絡(luò)輿情信息的泄露會導致商業(yè)機密、個人隱私等信息的泄露,嚴重危害了計算機用戶信息和財產(chǎn)安全。因此,需要對網(wǎng)絡(luò)信息即輿論情報等方面的信息進行數(shù)據(jù)挖掘,具體的技術(shù)應(yīng)用包括:將網(wǎng)絡(luò)輿情信息分析內(nèi)容分為對網(wǎng)絡(luò)輿情進行描述、對網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進行分析、對網(wǎng)絡(luò)輿情信息的真實性進行判斷分析、對網(wǎng)絡(luò)輿情的產(chǎn)生原因進行分析、預(yù)測和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢五個部分,同時建立網(wǎng)絡(luò)輿情信息挖掘分析模型。
3.2 文本挖掘在專利信息分析中的應(yīng)用研究
專利信息的安全也涉及到商業(yè)機密的泄露與安全問題,屬于重要的財產(chǎn)信息,需要重點保護。因此,需要對網(wǎng)絡(luò)信息即專利信息等方面的信息進行數(shù)據(jù)挖掘,具體的技術(shù)應(yīng)用包括:登記調(diào)查專利權(quán)、挖掘?qū)@乃袡?quán)、挖掘?qū)@氖褂眉皺?quán)屬等,之后的步驟為確定特定技術(shù)部門的共同開發(fā)傾向、確定特定技術(shù)領(lǐng)域共同的開發(fā)動向、發(fā)現(xiàn)專利技術(shù)的種子技術(shù)以及最新研究熱點等。
3.3 文本挖掘在醫(yī)療健康分析中的應(yīng)用研究
中文信息的分析比較特殊,在中醫(yī)藥研究中可以充分體現(xiàn)出文本挖掘在中文信息分析應(yīng)用中的優(yōu)勢,因此,文本挖掘在醫(yī)學健康中有著較為廣泛的應(yīng)用,具體應(yīng)用技術(shù)包括:使用文本挖掘技術(shù)探索高血壓中成藥、西藥的用藥規(guī)律;將數(shù)字信息資源進行整合、集成和使用,從而構(gòu)建起專業(yè)的醫(yī)學專業(yè)學科門戶;采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計的數(shù)據(jù)分層算法探索注射用雙黃連注射液的研究現(xiàn)狀等等。
3.4 文本挖掘在其他領(lǐng)域中的應(yīng)用研究
除上述領(lǐng)域,文本挖掘在其他領(lǐng)域也有廣泛應(yīng)用和發(fā)展,如信息檢索、企業(yè)市場營銷、個性化推薦等。在傳統(tǒng)的信息檢索領(lǐng)域,文本挖掘已經(jīng)具有較為成熟的應(yīng)用。例如,在企業(yè)的市場營銷方面,企業(yè)通過文本挖掘技術(shù)可以實現(xiàn)對市場大數(shù)據(jù)的挖掘,挖掘有效信息,信息的來源必然是最新的、最全面的,具備時效性,所獲取到的信息同樣是具有價值的、可以在同行之間提升企業(yè)競爭力的信息,可以幫助企業(yè)實現(xiàn)個性化發(fā)展,總而言之,通過文本挖掘技術(shù)可以實現(xiàn)對市場的有效調(diào)研,企業(yè)運用文本挖掘技術(shù),使得企業(yè)市場營銷的實現(xiàn)方便快捷,降低企業(yè)的經(jīng)營成本。在個性化推薦方面,主要需求者是提供綜合信息服務(wù)的網(wǎng)站,其面向的對象時廣大的消費者,提供綜合信息服務(wù)的網(wǎng)站通過對不同的用戶進行使用記錄的文本挖掘,可以和快速的找到有效信息,從而是實現(xiàn)精準的個性化推薦,等等。
3.5 基于新方法的文本挖掘應(yīng)用研究
隨著社會的發(fā)展和經(jīng)濟水平的提高,我國已經(jīng)進入信息化時代,因此近些年,文本挖掘的方法不斷得到發(fā)展和創(chuàng)新,順應(yīng)信息化時代的潮流,實現(xiàn)網(wǎng)絡(luò)技術(shù)與具體領(lǐng)域的緊密和廣泛的結(jié)合,隨之出現(xiàn)的互聯(lián)網(wǎng)+等等,是網(wǎng)絡(luò)與具體實物的深度融合,體現(xiàn)在基于語義的方法、基于領(lǐng)域本體的方法等模型上。
4 總結(jié)
21 世紀,人類已步入信息社會時代。計算機廣泛地應(yīng)用于人們生活的各個方面。為了適應(yīng)現(xiàn)代網(wǎng)絡(luò)安全問題的要求,計算機文本挖掘技術(shù)的掌握工作顯得尤為重要。一方面可以維護網(wǎng)絡(luò)環(huán)境的安全穩(wěn)定,另一方面可以有效打擊網(wǎng)絡(luò)犯罪,保護人民的個人隱私和財產(chǎn)的安全。因此,解決網(wǎng)絡(luò)安全問題刻不容緩。通過計算機文本挖掘技術(shù),挖掘網(wǎng)絡(luò)中有價值、安全的信息,實現(xiàn)對網(wǎng)絡(luò)信息垃圾的分類并攔截,打造一個無垃圾信息的網(wǎng)絡(luò)環(huán)境,大大提升了網(wǎng)絡(luò)空間的安全性。
參考文獻:
[1]羅躍國.基于數(shù)據(jù)挖掘入侵檢測模型的設(shè)計[J].西安文理學院學報(自然科學版),2010(03):112-113.
[2]朱海霞.數(shù)據(jù)挖掘在入侵檢測中的應(yīng)用[J].科技資訊,2009(05) :89-90.
[2]喻小光,陳維斌,陳榮鑫.一種數(shù)據(jù)規(guī)約的近似挖掘方法的實現(xiàn)[J].華僑大學學報(自然科學版),2008,29(03):370-374.
作者簡介:邢翀(1980-),女,吉林長春人,副教授,研究方向:智能計算。