◆顧天一 朱昊 董寧 張國軍 梁滿志
行業(yè)與應用安全
基于支持向量機的信息化檔案管理方法研究
◆顧天一 朱昊 董寧 張國軍 梁滿志
(66139部隊 北京 100144)
隨著科技的迅速發(fā)展,當今社會已經(jīng)全面進入信息化、數(shù)字化、網(wǎng)絡化的時代。檔案信息的跨地區(qū)、跨部門利用日趨頻繁,而傳統(tǒng)檔案管理面臨著嚴峻的考驗,因其使用效率較低,已適應不了新形勢下社會發(fā)展的需要,在信息化條件下采用支持向量機的方法進行檔案管理可以有效提高工作效率。
信息化;檔案管理;支持向量機
近年來,在信息技術的大力推動下,各個單位都在進行檔案信息化、數(shù)字化的工作,并將建設數(shù)字檔案館、提高各級檔案管理信息化水平擺在重要位置。檔案信息化是在國家檔案建設管理部門的統(tǒng)一規(guī)劃和組織下,在檔案管理的活動中全面應用現(xiàn)代信息技術,對檔案信息資源進行數(shù)字化管理和提供利用。檔案管理模式從以檔案實體保管和利用為重點,轉(zhuǎn)向檔案信息的數(shù)字化存儲和提供服務為重心,從而使檔案工作進一步走向規(guī)范化、數(shù)字化、網(wǎng)絡化、社會化。
圖1 檔案管理系統(tǒng)
預歸檔庫:預歸檔的方法是對歸檔文件進行初步處理,建立預歸檔庫,管理人員對日?;厥盏募堎|(zhì)文檔和電子文檔進行初步收集整理,首先對已回收的紙質(zhì)文件按照發(fā)文字號進行排序,然后將每一份文件,按照年度、全宗號、標題、發(fā)文字號、發(fā)文單位、頁數(shù)(張數(shù))、責任人、保管期限等字段信息錄入預歸檔數(shù)據(jù)庫,將紙質(zhì)文件和電子文件分別保存于檔案柜或數(shù)據(jù)庫硬盤中,形成預歸檔庫,待文件全部回收后,進行數(shù)據(jù)歸檔工作。
圖2 預歸檔模塊
數(shù)據(jù)歸檔:將預歸檔庫中的文檔錄入至檔案庫。
檔案檢索:在搜索框中可通過輸入關鍵詞來實現(xiàn)搜索。
檔案使用:在通過檢索找到需要的檔案后申請使用,經(jīng)過審批后可以進行借閱或者復印。
使用查詢:查詢使用檔案的歷史記錄。
在預歸檔的過程中,我們通過使用SVM算法對檔案文本進行分類,并將分類信息錄入預歸檔庫中。
檔案文本特征提取的過程如圖3所示,該模型各部分功能如下:
檔案文本分詞處理:在經(jīng)過去停用詞處理后,對檔案文本進行提取關鍵詞,我們采用 TF-IDF方法選取關鍵詞。
提取特征:提取樣本特征,待識別的文本通過提取出的特征來進行識別。
文本向量表示:本文采用布爾型向量空間模型來表示文本信息,將這些提取出來的關鍵詞存儲在一個數(shù)組中,將關鍵詞轉(zhuǎn)化為向量的形式。
得到特征向量值:通過對特征進行標記得到一篇檔案文本的特征向量值。
圖3 檔案文本特征提取過程
由于檔案文本的內(nèi)容很多,因此找出其主要的分類關鍵詞尤為關鍵,在找出關鍵詞后就可以用這些關鍵詞對郵件進行特征標記,也就是如果關鍵詞在這篇文本中標記為1或-1,不出現(xiàn)則標記為0。為了防止出現(xiàn)偏差并提高效果,對于任何詞,無論它是否在文檔中出現(xiàn),都賦一個基礎值0.0001。然后進行向量歸一化的操作,消除文檔長度對于關鍵詞出現(xiàn)頻率的影響。
我們使用SVM中l(wèi)inear核的SVC函數(shù)進行訓練最終得到svm_module訓練模型并存儲為train_model.m,利用訓練好的模型進行測試。首先將郵件中提取出關鍵詞用向量表示,并用predict函數(shù)進行預測,得到返回值ret。
對txt文本文件和字符串的分詞代碼如圖4所示:
圖4 對txt文本文件進行分詞
對提取出的關鍵詞分別存儲在yiqing_key_words.txt和ham_key_words.txt中,內(nèi)容如圖5所示。
標記郵件的特征向量值代碼如圖6所示。
訓練分類模型并保存如圖7所示。
圖5 關鍵詞提取結果
圖6 標記郵件的特征向量值
圖7 訓練模型
本文對信息化檔案管理系統(tǒng)進行了設計,使用SVM算法對檔案本文進行分類,能夠滿足日常檔案管理的信息化需求,得出科學的結論,為有效提高檔案歸檔整理和查詢使用的效率提供方法。
[1]全國檔案信息化建設實施綱要檔發(fā)〔2002〕8號.
[2]唐雪妍.淺談電子檔案的管理[J].蘭臺世界,2006(15).
[3]霍琳.淺論檔案信息化及檔案信息化建設[J].商情,2009(27).
[4]廖愛忠.從檔案管理軟件淺談檔案信息化建設[J].卷宗,2016(02).
[5]龔雅峰.信息化技術在檔案管理中心的應用分析[J].華章,2012(02).
[6]張潔.改進支持向量機的電子郵件分類[J]. 現(xiàn)代電子技術,2017(01).