石子言 趙國林 劉劍豪
摘要:當今手機短信不僅給人們帶來了方便,同時也帶來了安全隱患,主要安全問題體現(xiàn)在手機使用者安全防范意識不強,短信內(nèi)容涉及一些安全敏感信息,如企業(yè)內(nèi)部資料信息,政府保密資料等。該文主要介紹了一個面向android手機的涉密短信監(jiān)控與分析系統(tǒng)的設(shè)計與實現(xiàn),該系統(tǒng)采用了一種積極主動的防御思想,構(gòu)建了由手機客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)構(gòu)成的短信監(jiān)控和分析平臺,如何對手機短信的發(fā)送情況進行有效的監(jiān)控和管理,實現(xiàn)高效訪問是本文的研究重點。
關(guān)鍵詞:Android;手機短息;保密安全
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)36-8664-02
隨著移動通信技術(shù)的發(fā)展,各種智能移動終端越來越融入人們的生活,尤其是手機終端。然而,在許多手機使用用戶中,部分從事涉密崗位的人員很可能因為種種原因會將一些含有涉密敏感信息的內(nèi)容,如企業(yè)內(nèi)部資料信息,政府保密資料等非法泄露。針對這些問題,設(shè)計了面向Android手機的涉密短信監(jiān)控與分析系統(tǒng),實現(xiàn)服務(wù)端電腦對客戶端手機短信的實時監(jiān)控和管理,大大提高了監(jiān)控管理人員的工作效率。
1 系統(tǒng)結(jié)構(gòu)設(shè)計
1.1 系統(tǒng)工作流程
本系統(tǒng)具體工作處理步驟如下:用戶從手機發(fā)送短信,由手機客戶端系統(tǒng)程序?qū)Χ绦艃?nèi)容進行檢測是否涉密。若不涉密,短信直接發(fā)送出去;若涉密,詢問用戶是否繼續(xù)發(fā)送;若用戶取消對涉密短信的發(fā)送,則返回;若用戶選擇繼續(xù)發(fā)送,則將短信正常發(fā)送出去,同時,手機客戶端程序會將涉密短信及短信相關(guān)內(nèi)容傳送到服務(wù)器端;監(jiān)控管理人員可對涉密短信的發(fā)送情況進行監(jiān)控和分析,并由系統(tǒng)自動對所監(jiān)控的涉密崗位人員的短信發(fā)送情況進行評分。具體如圖1所示。
1.2 系統(tǒng)結(jié)構(gòu)設(shè)計
本系統(tǒng)主要由客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)兩部分構(gòu)成。具體結(jié)構(gòu)設(shè)計如圖2所示。
2 系統(tǒng)功能設(shè)計
本系統(tǒng)包括客戶端的短信安全監(jiān)測和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)。功能模塊介紹如下:
2.1 短信安全監(jiān)測子系統(tǒng)功能模塊設(shè)計
1) 短信發(fā)送內(nèi)容檢測模塊:在用戶編輯短信,點擊短信“發(fā)送”按鈕的同時,根據(jù)敏感詞庫,判斷出短信敏感內(nèi)容風險等級。
2) 用戶評分信息接收和查看模塊:每一周,客戶端手機可接收服務(wù)端發(fā)送來的用戶評分信息。
3) 安全教育信息接收和查看模塊:服務(wù)端更新安全教育內(nèi)容時,客戶端會相應(yīng)同步保密教育內(nèi)容。
2.2 涉密短信監(jiān)控與分析子系統(tǒng)功能模塊設(shè)計
1) 登錄管理模塊:在打開系統(tǒng)時,應(yīng)輸入用戶名和密碼,只有驗證成功后方能進入并使用本系統(tǒng)。
2) 敏感詞庫管理模塊:該模塊可根據(jù)具體環(huán)境、時事政治信息及時更新敏感詞庫,對敏感詞庫進行增刪改查操作,更新結(jié)果會實時推送給客戶端手機。
3) 安全教育信息管理模塊:用戶可通過本系統(tǒng)對安全教育信息進行添加和查詢。
4) 敏感短信發(fā)送情況監(jiān)控模塊:服務(wù)器端對接收到的數(shù)據(jù)做如下整理和統(tǒng)計:敏感關(guān)鍵詞熱點統(tǒng)計、風險短信分等級數(shù)量統(tǒng)計、個體用戶活動規(guī)律時間統(tǒng)計、、個體用戶聯(lián)絡(luò)關(guān)系的統(tǒng)計、群體活躍情況統(tǒng)計、用戶活躍度統(tǒng)計。
5) 涉密短信發(fā)送情況分析模塊:從數(shù)據(jù)庫中統(tǒng)計的數(shù)據(jù)情況評定出各用戶本周內(nèi)的保密意識分數(shù)。
3 系統(tǒng)關(guān)鍵技術(shù)
3.1 基于BM算法的短信發(fā)送內(nèi)容檢測
在手機客戶端程序可自動用戶短信發(fā)送內(nèi)容的監(jiān)測和評估,本系統(tǒng)采用的是BM匹配算法。BM 算法的基本思想是從左向右在文本中移動模式,而每一趟模式匹配的字符比較順序從右向左進行。
BM的具體算法如下:
首先,作如下定義:
字符集:C={c|c 在正文中出現(xiàn)};正文串P:P[1..m];模式 T:T[1..n],n BM 算法的關(guān)鍵是定義一個從字符到正整數(shù)的映射函數(shù) dist,也稱滑動距離函數(shù),dist 函數(shù)給出了正文中可能出現(xiàn)的任意字符 c 在模式 T 中的位置。dist 函數(shù)的具體定義: distc=n c?T||c=Tm&且c≠Pi,1≤i≤m-1 n-i i=max{i|P[i]=c,1≤i≤m-1} BM 算法dist 函數(shù)的java實現(xiàn)如圖3所示: 圖3 BM 算法dist 函數(shù)的java實現(xiàn) 3.2 熱點敏感關(guān)鍵詞發(fā)現(xiàn)模型 系統(tǒng)最終采用中科院計算所漢語詞法分析系統(tǒng)ICTCLAS提供的的一套完整的API接口和相應(yīng)的概率詞典,實現(xiàn)文本的分詞,生成短信文本D的向量空間Di=ti1,wi1,ti2,wi2,……,tin,win,其中tij為特征詞條,wij為特征項的權(quán)重,wij的取值區(qū)間是0,1,表示該詞在文本中的重要程度,權(quán)重越大,反應(yīng)了該詞表示Di的能力越好,越具有代表性,反之,權(quán)重越小反應(yīng)該詞表示Di的能力越差。其中詞條tij的特征項權(quán)重wij的計算,我們采用了一種基于敏感詞級別判定的TF-IDF算法。該算法可以用如下公式(1) 來描述: wij=0.5Twij+0.5TFijTFmax×IDF (1) 其中wij代表Di短信文本中tij的特征權(quán)重,TFij代表的是術(shù)語詞tij在該文本中出現(xiàn)的次數(shù),而TFmax代表的是在一批文本集合D=D1,D2,……,Dn中術(shù)語tij在單篇文本中出現(xiàn)的最大次數(shù);Twij是對于術(shù)語詞tij進行的敏感等級判別后的權(quán)重,取值范圍為0,1,如果tij是動詞、形容詞等非實體詞,將該權(quán)重置為0,若tij是不屬于敏感詞集合的實體詞,則該Twij置為0.2,若tij的敏感詞風險等級為低,則將Twij置為0.4,若tij的敏感詞風險等級為一般,則將Twij置為0.6,若tij的敏感詞風險等級為高,則將Twij置為0.8,若tij的敏感詞風險等級為極高,則將Twij置為1。IDF代表倒文檔頻率,它的計算公式(2) 為: IDF=logNDFij (2) 其中N代表D集合中的文本總數(shù),DFij則代表了這批文本集合中出現(xiàn)過術(shù)語tij的總數(shù)。 由此,計算出tij在文本集合D中的權(quán)重值Wj,計算公式為(3) : Wj=i=0NwijN (3) 根據(jù)不同詞在文本集合D中的權(quán)重值Wj排名,可以統(tǒng)計出當前最熱的幾個敏感短信關(guān)鍵詞。 4 結(jié)論 現(xiàn)階段,我們已經(jīng)基本完成軟件的設(shè)計工作,并進行了初步測試,達到了設(shè)計初期的各項功能任務(wù).但是,我們開發(fā)的這款軟件只是單一的對短信中可能出現(xiàn)的保密安全信息進行了監(jiān)控攔截.功能相對比較單一,下一階段,我們將重點對Android系統(tǒng)進行研究分析,力爭將更多的軟件功能在系統(tǒng)中實現(xiàn)。 參考文獻: [1] 張健,陳松喬.基于特征值的多模式匹配算法[J].信息安全與通信保密,2005(9):96-98. [2] 田淼.用Android開發(fā)手機應(yīng)用[J].程序員,2008(1):25-27. [3] Enck W,Ongtang M,McDaniel P.Understanding Android security[J].IEEE Security&Privacy Magazine,2009,7(1):10-17.
摘要:當今手機短信不僅給人們帶來了方便,同時也帶來了安全隱患,主要安全問題體現(xiàn)在手機使用者安全防范意識不強,短信內(nèi)容涉及一些安全敏感信息,如企業(yè)內(nèi)部資料信息,政府保密資料等。該文主要介紹了一個面向android手機的涉密短信監(jiān)控與分析系統(tǒng)的設(shè)計與實現(xiàn),該系統(tǒng)采用了一種積極主動的防御思想,構(gòu)建了由手機客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)構(gòu)成的短信監(jiān)控和分析平臺,如何對手機短信的發(fā)送情況進行有效的監(jiān)控和管理,實現(xiàn)高效訪問是本文的研究重點。
關(guān)鍵詞:Android;手機短息;保密安全
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)36-8664-02
隨著移動通信技術(shù)的發(fā)展,各種智能移動終端越來越融入人們的生活,尤其是手機終端。然而,在許多手機使用用戶中,部分從事涉密崗位的人員很可能因為種種原因會將一些含有涉密敏感信息的內(nèi)容,如企業(yè)內(nèi)部資料信息,政府保密資料等非法泄露。針對這些問題,設(shè)計了面向Android手機的涉密短信監(jiān)控與分析系統(tǒng),實現(xiàn)服務(wù)端電腦對客戶端手機短信的實時監(jiān)控和管理,大大提高了監(jiān)控管理人員的工作效率。
1 系統(tǒng)結(jié)構(gòu)設(shè)計
1.1 系統(tǒng)工作流程
本系統(tǒng)具體工作處理步驟如下:用戶從手機發(fā)送短信,由手機客戶端系統(tǒng)程序?qū)Χ绦艃?nèi)容進行檢測是否涉密。若不涉密,短信直接發(fā)送出去;若涉密,詢問用戶是否繼續(xù)發(fā)送;若用戶取消對涉密短信的發(fā)送,則返回;若用戶選擇繼續(xù)發(fā)送,則將短信正常發(fā)送出去,同時,手機客戶端程序會將涉密短信及短信相關(guān)內(nèi)容傳送到服務(wù)器端;監(jiān)控管理人員可對涉密短信的發(fā)送情況進行監(jiān)控和分析,并由系統(tǒng)自動對所監(jiān)控的涉密崗位人員的短信發(fā)送情況進行評分。具體如圖1所示。
1.2 系統(tǒng)結(jié)構(gòu)設(shè)計
本系統(tǒng)主要由客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)兩部分構(gòu)成。具體結(jié)構(gòu)設(shè)計如圖2所示。
2 系統(tǒng)功能設(shè)計
本系統(tǒng)包括客戶端的短信安全監(jiān)測和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)。功能模塊介紹如下:
2.1 短信安全監(jiān)測子系統(tǒng)功能模塊設(shè)計
1) 短信發(fā)送內(nèi)容檢測模塊:在用戶編輯短信,點擊短信“發(fā)送”按鈕的同時,根據(jù)敏感詞庫,判斷出短信敏感內(nèi)容風險等級。
2) 用戶評分信息接收和查看模塊:每一周,客戶端手機可接收服務(wù)端發(fā)送來的用戶評分信息。
3) 安全教育信息接收和查看模塊:服務(wù)端更新安全教育內(nèi)容時,客戶端會相應(yīng)同步保密教育內(nèi)容。
2.2 涉密短信監(jiān)控與分析子系統(tǒng)功能模塊設(shè)計
1) 登錄管理模塊:在打開系統(tǒng)時,應(yīng)輸入用戶名和密碼,只有驗證成功后方能進入并使用本系統(tǒng)。
2) 敏感詞庫管理模塊:該模塊可根據(jù)具體環(huán)境、時事政治信息及時更新敏感詞庫,對敏感詞庫進行增刪改查操作,更新結(jié)果會實時推送給客戶端手機。
3) 安全教育信息管理模塊:用戶可通過本系統(tǒng)對安全教育信息進行添加和查詢。
4) 敏感短信發(fā)送情況監(jiān)控模塊:服務(wù)器端對接收到的數(shù)據(jù)做如下整理和統(tǒng)計:敏感關(guān)鍵詞熱點統(tǒng)計、風險短信分等級數(shù)量統(tǒng)計、個體用戶活動規(guī)律時間統(tǒng)計、、個體用戶聯(lián)絡(luò)關(guān)系的統(tǒng)計、群體活躍情況統(tǒng)計、用戶活躍度統(tǒng)計。
5) 涉密短信發(fā)送情況分析模塊:從數(shù)據(jù)庫中統(tǒng)計的數(shù)據(jù)情況評定出各用戶本周內(nèi)的保密意識分數(shù)。
3 系統(tǒng)關(guān)鍵技術(shù)
3.1 基于BM算法的短信發(fā)送內(nèi)容檢測
在手機客戶端程序可自動用戶短信發(fā)送內(nèi)容的監(jiān)測和評估,本系統(tǒng)采用的是BM匹配算法。BM 算法的基本思想是從左向右在文本中移動模式,而每一趟模式匹配的字符比較順序從右向左進行。
BM的具體算法如下:
首先,作如下定義:
字符集:C={c|c 在正文中出現(xiàn)};正文串P:P[1..m];模式 T:T[1..n],n BM 算法的關(guān)鍵是定義一個從字符到正整數(shù)的映射函數(shù) dist,也稱滑動距離函數(shù),dist 函數(shù)給出了正文中可能出現(xiàn)的任意字符 c 在模式 T 中的位置。dist 函數(shù)的具體定義: distc=n c?T||c=Tm&且c≠Pi,1≤i≤m-1 n-i i=max{i|P[i]=c,1≤i≤m-1} BM 算法dist 函數(shù)的java實現(xiàn)如圖3所示: 圖3 BM 算法dist 函數(shù)的java實現(xiàn) 3.2 熱點敏感關(guān)鍵詞發(fā)現(xiàn)模型 系統(tǒng)最終采用中科院計算所漢語詞法分析系統(tǒng)ICTCLAS提供的的一套完整的API接口和相應(yīng)的概率詞典,實現(xiàn)文本的分詞,生成短信文本D的向量空間Di=ti1,wi1,ti2,wi2,……,tin,win,其中tij為特征詞條,wij為特征項的權(quán)重,wij的取值區(qū)間是0,1,表示該詞在文本中的重要程度,權(quán)重越大,反應(yīng)了該詞表示Di的能力越好,越具有代表性,反之,權(quán)重越小反應(yīng)該詞表示Di的能力越差。其中詞條tij的特征項權(quán)重wij的計算,我們采用了一種基于敏感詞級別判定的TF-IDF算法。該算法可以用如下公式(1) 來描述: wij=0.5Twij+0.5TFijTFmax×IDF (1) 其中wij代表Di短信文本中tij的特征權(quán)重,TFij代表的是術(shù)語詞tij在該文本中出現(xiàn)的次數(shù),而TFmax代表的是在一批文本集合D=D1,D2,……,Dn中術(shù)語tij在單篇文本中出現(xiàn)的最大次數(shù);Twij是對于術(shù)語詞tij進行的敏感等級判別后的權(quán)重,取值范圍為0,1,如果tij是動詞、形容詞等非實體詞,將該權(quán)重置為0,若tij是不屬于敏感詞集合的實體詞,則該Twij置為0.2,若tij的敏感詞風險等級為低,則將Twij置為0.4,若tij的敏感詞風險等級為一般,則將Twij置為0.6,若tij的敏感詞風險等級為高,則將Twij置為0.8,若tij的敏感詞風險等級為極高,則將Twij置為1。IDF代表倒文檔頻率,它的計算公式(2) 為: IDF=logNDFij (2) 其中N代表D集合中的文本總數(shù),DFij則代表了這批文本集合中出現(xiàn)過術(shù)語tij的總數(shù)。 由此,計算出tij在文本集合D中的權(quán)重值Wj,計算公式為(3) : Wj=i=0NwijN (3) 根據(jù)不同詞在文本集合D中的權(quán)重值Wj排名,可以統(tǒng)計出當前最熱的幾個敏感短信關(guān)鍵詞。 4 結(jié)論 現(xiàn)階段,我們已經(jīng)基本完成軟件的設(shè)計工作,并進行了初步測試,達到了設(shè)計初期的各項功能任務(wù).但是,我們開發(fā)的這款軟件只是單一的對短信中可能出現(xiàn)的保密安全信息進行了監(jiān)控攔截.功能相對比較單一,下一階段,我們將重點對Android系統(tǒng)進行研究分析,力爭將更多的軟件功能在系統(tǒng)中實現(xiàn)。 參考文獻: [1] 張健,陳松喬.基于特征值的多模式匹配算法[J].信息安全與通信保密,2005(9):96-98. [2] 田淼.用Android開發(fā)手機應(yīng)用[J].程序員,2008(1):25-27. [3] Enck W,Ongtang M,McDaniel P.Understanding Android security[J].IEEE Security&Privacy Magazine,2009,7(1):10-17.
摘要:當今手機短信不僅給人們帶來了方便,同時也帶來了安全隱患,主要安全問題體現(xiàn)在手機使用者安全防范意識不強,短信內(nèi)容涉及一些安全敏感信息,如企業(yè)內(nèi)部資料信息,政府保密資料等。該文主要介紹了一個面向android手機的涉密短信監(jiān)控與分析系統(tǒng)的設(shè)計與實現(xiàn),該系統(tǒng)采用了一種積極主動的防御思想,構(gòu)建了由手機客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)構(gòu)成的短信監(jiān)控和分析平臺,如何對手機短信的發(fā)送情況進行有效的監(jiān)控和管理,實現(xiàn)高效訪問是本文的研究重點。
關(guān)鍵詞:Android;手機短息;保密安全
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)36-8664-02
隨著移動通信技術(shù)的發(fā)展,各種智能移動終端越來越融入人們的生活,尤其是手機終端。然而,在許多手機使用用戶中,部分從事涉密崗位的人員很可能因為種種原因會將一些含有涉密敏感信息的內(nèi)容,如企業(yè)內(nèi)部資料信息,政府保密資料等非法泄露。針對這些問題,設(shè)計了面向Android手機的涉密短信監(jiān)控與分析系統(tǒng),實現(xiàn)服務(wù)端電腦對客戶端手機短信的實時監(jiān)控和管理,大大提高了監(jiān)控管理人員的工作效率。
1 系統(tǒng)結(jié)構(gòu)設(shè)計
1.1 系統(tǒng)工作流程
本系統(tǒng)具體工作處理步驟如下:用戶從手機發(fā)送短信,由手機客戶端系統(tǒng)程序?qū)Χ绦艃?nèi)容進行檢測是否涉密。若不涉密,短信直接發(fā)送出去;若涉密,詢問用戶是否繼續(xù)發(fā)送;若用戶取消對涉密短信的發(fā)送,則返回;若用戶選擇繼續(xù)發(fā)送,則將短信正常發(fā)送出去,同時,手機客戶端程序會將涉密短信及短信相關(guān)內(nèi)容傳送到服務(wù)器端;監(jiān)控管理人員可對涉密短信的發(fā)送情況進行監(jiān)控和分析,并由系統(tǒng)自動對所監(jiān)控的涉密崗位人員的短信發(fā)送情況進行評分。具體如圖1所示。
1.2 系統(tǒng)結(jié)構(gòu)設(shè)計
本系統(tǒng)主要由客戶端的短信安全監(jiān)測子系統(tǒng)和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)兩部分構(gòu)成。具體結(jié)構(gòu)設(shè)計如圖2所示。
2 系統(tǒng)功能設(shè)計
本系統(tǒng)包括客戶端的短信安全監(jiān)測和服務(wù)端的涉密短信監(jiān)控與分析子系統(tǒng)。功能模塊介紹如下:
2.1 短信安全監(jiān)測子系統(tǒng)功能模塊設(shè)計
1) 短信發(fā)送內(nèi)容檢測模塊:在用戶編輯短信,點擊短信“發(fā)送”按鈕的同時,根據(jù)敏感詞庫,判斷出短信敏感內(nèi)容風險等級。
2) 用戶評分信息接收和查看模塊:每一周,客戶端手機可接收服務(wù)端發(fā)送來的用戶評分信息。
3) 安全教育信息接收和查看模塊:服務(wù)端更新安全教育內(nèi)容時,客戶端會相應(yīng)同步保密教育內(nèi)容。
2.2 涉密短信監(jiān)控與分析子系統(tǒng)功能模塊設(shè)計
1) 登錄管理模塊:在打開系統(tǒng)時,應(yīng)輸入用戶名和密碼,只有驗證成功后方能進入并使用本系統(tǒng)。
2) 敏感詞庫管理模塊:該模塊可根據(jù)具體環(huán)境、時事政治信息及時更新敏感詞庫,對敏感詞庫進行增刪改查操作,更新結(jié)果會實時推送給客戶端手機。
3) 安全教育信息管理模塊:用戶可通過本系統(tǒng)對安全教育信息進行添加和查詢。
4) 敏感短信發(fā)送情況監(jiān)控模塊:服務(wù)器端對接收到的數(shù)據(jù)做如下整理和統(tǒng)計:敏感關(guān)鍵詞熱點統(tǒng)計、風險短信分等級數(shù)量統(tǒng)計、個體用戶活動規(guī)律時間統(tǒng)計、、個體用戶聯(lián)絡(luò)關(guān)系的統(tǒng)計、群體活躍情況統(tǒng)計、用戶活躍度統(tǒng)計。
5) 涉密短信發(fā)送情況分析模塊:從數(shù)據(jù)庫中統(tǒng)計的數(shù)據(jù)情況評定出各用戶本周內(nèi)的保密意識分數(shù)。
3 系統(tǒng)關(guān)鍵技術(shù)
3.1 基于BM算法的短信發(fā)送內(nèi)容檢測
在手機客戶端程序可自動用戶短信發(fā)送內(nèi)容的監(jiān)測和評估,本系統(tǒng)采用的是BM匹配算法。BM 算法的基本思想是從左向右在文本中移動模式,而每一趟模式匹配的字符比較順序從右向左進行。
BM的具體算法如下:
首先,作如下定義:
字符集:C={c|c 在正文中出現(xiàn)};正文串P:P[1..m];模式 T:T[1..n],n BM 算法的關(guān)鍵是定義一個從字符到正整數(shù)的映射函數(shù) dist,也稱滑動距離函數(shù),dist 函數(shù)給出了正文中可能出現(xiàn)的任意字符 c 在模式 T 中的位置。dist 函數(shù)的具體定義: distc=n c?T||c=Tm&且c≠Pi,1≤i≤m-1 n-i i=max{i|P[i]=c,1≤i≤m-1} BM 算法dist 函數(shù)的java實現(xiàn)如圖3所示: 圖3 BM 算法dist 函數(shù)的java實現(xiàn) 3.2 熱點敏感關(guān)鍵詞發(fā)現(xiàn)模型 系統(tǒng)最終采用中科院計算所漢語詞法分析系統(tǒng)ICTCLAS提供的的一套完整的API接口和相應(yīng)的概率詞典,實現(xiàn)文本的分詞,生成短信文本D的向量空間Di=ti1,wi1,ti2,wi2,……,tin,win,其中tij為特征詞條,wij為特征項的權(quán)重,wij的取值區(qū)間是0,1,表示該詞在文本中的重要程度,權(quán)重越大,反應(yīng)了該詞表示Di的能力越好,越具有代表性,反之,權(quán)重越小反應(yīng)該詞表示Di的能力越差。其中詞條tij的特征項權(quán)重wij的計算,我們采用了一種基于敏感詞級別判定的TF-IDF算法。該算法可以用如下公式(1) 來描述: wij=0.5Twij+0.5TFijTFmax×IDF (1) 其中wij代表Di短信文本中tij的特征權(quán)重,TFij代表的是術(shù)語詞tij在該文本中出現(xiàn)的次數(shù),而TFmax代表的是在一批文本集合D=D1,D2,……,Dn中術(shù)語tij在單篇文本中出現(xiàn)的最大次數(shù);Twij是對于術(shù)語詞tij進行的敏感等級判別后的權(quán)重,取值范圍為0,1,如果tij是動詞、形容詞等非實體詞,將該權(quán)重置為0,若tij是不屬于敏感詞集合的實體詞,則該Twij置為0.2,若tij的敏感詞風險等級為低,則將Twij置為0.4,若tij的敏感詞風險等級為一般,則將Twij置為0.6,若tij的敏感詞風險等級為高,則將Twij置為0.8,若tij的敏感詞風險等級為極高,則將Twij置為1。IDF代表倒文檔頻率,它的計算公式(2) 為: IDF=logNDFij (2) 其中N代表D集合中的文本總數(shù),DFij則代表了這批文本集合中出現(xiàn)過術(shù)語tij的總數(shù)。 由此,計算出tij在文本集合D中的權(quán)重值Wj,計算公式為(3) : Wj=i=0NwijN (3) 根據(jù)不同詞在文本集合D中的權(quán)重值Wj排名,可以統(tǒng)計出當前最熱的幾個敏感短信關(guān)鍵詞。 4 結(jié)論 現(xiàn)階段,我們已經(jīng)基本完成軟件的設(shè)計工作,并進行了初步測試,達到了設(shè)計初期的各項功能任務(wù).但是,我們開發(fā)的這款軟件只是單一的對短信中可能出現(xiàn)的保密安全信息進行了監(jiān)控攔截.功能相對比較單一,下一階段,我們將重點對Android系統(tǒng)進行研究分析,力爭將更多的軟件功能在系統(tǒng)中實現(xiàn)。 參考文獻: [1] 張健,陳松喬.基于特征值的多模式匹配算法[J].信息安全與通信保密,2005(9):96-98. [2] 田淼.用Android開發(fā)手機應(yīng)用[J].程序員,2008(1):25-27. [3] Enck W,Ongtang M,McDaniel P.Understanding Android security[J].IEEE Security&Privacy Magazine,2009,7(1):10-17.