劉 星 謝 磊 劉 迅 池少寧 張均成
(1.國網(wǎng)湖南省電力有限公司信息通信分公司;2.國家電網(wǎng)有限公司信息通信分公司;3.福建億榕信息技術(shù)有限公司)
眾所周知,傳統(tǒng)公文存檔方法大多以紙質(zhì)原件居多,經(jīng)整理與裝訂之后,通常會保存于檔案局等特殊機關(guān)中,以提高公文的穩(wěn)定性與可查性。不過,在歸還的公文量逐步增多時,公文搜索的效果會大幅度降低,特別是在對于所要求檢索的公文的具體年份、標題等內(nèi)容并不清晰時,查找起來困難重重,不僅浪費了大量的時間,也浪費了大量的人力資源,所以,紙質(zhì)歸檔公文并不能實現(xiàn)基于內(nèi)容的模糊查詢。因此,越來越多的政府相關(guān)部門開始選用公文管理系統(tǒng)。所謂公文管理系統(tǒng)是指公文的創(chuàng)建、處理和管理。
據(jù)相關(guān)調(diào)查,現(xiàn)階段,對于公文的應(yīng)用一般會有兩方面問題。一方面規(guī)范化程度較低。系統(tǒng)處理公文信息內(nèi)容和范圍,與公文管理的有關(guān)規(guī)定和準則有著相當距離,且系統(tǒng)共享性和通用性還不夠。由于管理的電子文檔格式可以有純文字(txt)、超文本(HTML)、word、Excel、PDF、WPS等,已成為政府辦公自動化管理系統(tǒng)中的主要內(nèi)容,但怎樣管理和共享電子數(shù)據(jù)檔案尚有待進一步研究與完善。這也是辦公自動化向知識管理方向發(fā)展的最大阻礙所在。另一方面則主要局限于公文的傳遞、受理、記錄和簡單的檢索功能,不支持公文運行的全過程。另外,系統(tǒng)穩(wěn)定性也不好。如不能提供一種較為完善的安全管理機制,將無法從保護文件流轉(zhuǎn)簽名、文件信息存取權(quán)限、對抗網(wǎng)絡(luò)黑客和計算機病毒攻擊等方面,給文件管理信息系統(tǒng)提供更高效的安全保證。
(1)擬稿和核稿環(huán)節(jié)。系統(tǒng)需要依據(jù)預(yù)設(shè)的公文詞庫與規(guī)則庫,實現(xiàn)公文內(nèi)容關(guān)鍵字、敏感內(nèi)容智能校核,提示進行公文密級標識。
(2)文字處理環(huán)節(jié)。實現(xiàn)與WPS文字處理軟件集成,以方便用戶日常工作中的使用。因此,對于公文輔助定密的方法需要涉及到控件及WPS相關(guān)API修改。
(3)公文內(nèi)容識別。公文內(nèi)容的校對是不可或缺的功能,在校對的過程中,需要發(fā)現(xiàn)公文內(nèi)的問題,因此,需要利用先進的校對計算技術(shù),對公文正文內(nèi)容進行文本轉(zhuǎn)換及分詞處理。使公文的表達變得更加通順流暢。
(4)詞庫管理。在公文的寫作中,輔助定密的核心在于建立強大的基礎(chǔ)詞庫,包括設(shè)置通用詞庫(地名、公司領(lǐng)導(dǎo)排序、領(lǐng)導(dǎo)職務(wù)、單位名稱及排序)、電力行業(yè)專業(yè)詞庫等維護管理功能。并且這個詞庫需要在應(yīng)用過程中需不斷豐富并積累成為新的詞匯庫,以適應(yīng)工作人員不斷更新的寫作需求。
Word2vec,是一種用于數(shù)字向量運算的開源工具。Word2vec不但能夠在成百上千萬字典和數(shù)億個數(shù)據(jù)集上開展有效的練習,還能夠獲得重要訓(xùn)練成果——詞向量,并能夠很好地度量大量詞間的相似性。
(1)Word2Vec的優(yōu)勢
Word2Vec是一種比較常用的訓(xùn)練工具,常被用于語義分析引擎當中,其具備的優(yōu)勢是相當明顯的,其中,最受歡迎的是以下兩個優(yōu)勢:首先,word2vec解決了分類器難以處理離散數(shù)據(jù)的問題。其次,word2vec也在一定程度上起到了擴展功能的作用,使語義分析能夠更加準確,無論是開發(fā)者還是使用者,都大大提高了效率。
(2)Word2Vec的缺點
雖然Word2Vec在語義分析當中發(fā)揮著重要的作用,然而,文本特征表示存在著明顯的問題。首先,這是一種不考慮詞匯之間次序信息的詞袋模式(文本中單詞的順序信息也是非常重要的);第二,它假設(shè)了詞匯的相互獨立(在大多數(shù)情況下,詞語相互影響);第三,它得到的特征是離散稀疏的。
目前,在Word2Vec中包括了多種訓(xùn)練模式,但是常用的一般分為兩種,CBOW和Skip-gram。所謂Skip-gram訓(xùn)練模式,簡單來說就是通過當前的詞組來進行上下文的預(yù)測,從而進行語義的分析,而CBOW訓(xùn)練模式則恰恰相反,會通過分析上下文來預(yù)測當前的詞組,而兩種模型的選擇和運用需要結(jié)合不同的環(huán)境來進行。而本次使用的公文輔助定密的模型,則選用CBOW模型,運行過程如下:首先,需要收集原始語料庫,即已定密的公文歷史數(shù)據(jù),通過文本抽取技術(shù)抽取出正文中的文本數(shù)據(jù)。其次,通過自然語言處理技術(shù),對每一條正文文本進行分析處理,經(jīng)過去停用詞、濾重、中文分詞、詞性標注等處理后,抽取出關(guān)鍵詞,形成一個個分詞文本,并按密級行分類。最后,通過Word2Vec工具并采用CBOW模型對所有的分詞文本進行訓(xùn)練,得到用于定密的模型文件,如圖1所示。
圖1 Word2Vec的訓(xùn)練模式
文本分類技術(shù)主要涉及詞匹配、認知工程,以及機器學習。目前,最常見的文本分類主要為機器學習。
(1)詞匯匹配文章分類,僅通過文章中是否出現(xiàn)了帶有同類名的單詞,或者同義詞來確定文章是不是歸屬于某個類型。顯然,這些過于簡化的方式?jīng)]有產(chǎn)生很好的分類效果。
(2)知識工程文本分類方法雖然增加了人工確定因素,也明顯增加了劃分的準確度,但同時也面臨著許多缺點,例如:主觀因素較多、建立規(guī)范的人力物力多和成本高等。
(3)機器學習的文本分類方法也屬于自監(jiān)督學習,它是目前最常用的文本分類方法。其中訓(xùn)練階段,主要取決于一些標記的文本,或確定類別的文本。運用了文本結(jié)構(gòu)和類型之間的關(guān)聯(lián)模型,提出了文本類型規(guī)則集,即分類器。在分類階段,通過分類器對待測試文本并進行分類。事實上,通過機器學習的文本分析就相當于數(shù)學中的映射原理。
在本系統(tǒng)中,對于公文進行自動定密處理是非常重要的,其過程如圖2所示,簡單來說,會分為以下幾步驟:首先,通過文本抽取服務(wù)抽取出當前文件的正文內(nèi)容,生成普通文本,并提交至HANLP自然語言處理服務(wù)。其次,通過自然語言服務(wù)對正文文本進行處理,經(jīng)過去停用詞、濾重、中文分詞、詞性標注等處理后,抽取出關(guān)鍵詞形成分詞文本。最后,分詞文本與定密規(guī)則庫進行匹配,如果符合具體的規(guī)則,則直接返回對應(yīng)的密級。此外,如果不符合規(guī)則庫的規(guī)則,則將分詞文本中提交至定密模型文件中進行處理,并返回對應(yīng)的密級。
圖2 自動定密處理過程
依據(jù)國網(wǎng)公司及湖北公司相關(guān)文件,梳理核心商密、普通商密、工作秘密等定密范圍,結(jié)合近年來公司歷史文件定密情況,梳理形成輔助定密基礎(chǔ)規(guī)則。
當通過規(guī)則庫無法匹配到密級時,系統(tǒng)自動記錄輔助定密日志,提供統(tǒng)一的視圖進行展現(xiàn),每周對輔助定密情況進行分析總結(jié),補充完善規(guī)則庫。后期當歷史文件積累到一定數(shù)量,通過機器學習不斷自動完善規(guī)則庫,逐步替代人工干預(yù),提升輔助定密準確度。
結(jié)語:綜上所述,公文分類問題逐漸提上議事日程,依靠計算機對電子公文進行分類,不僅是現(xiàn)實的迫切需要,也是科技進步的必然產(chǎn)物。本文提出解決傳統(tǒng)手工加密的新舊問題,保證加密的效率、準確性和智能性。