陸春祥 王偉
【摘 要】 近年來,互聯(lián)網(wǎng)泄密事件逐漸增多,傳統(tǒng)人工檢查方法難以應(yīng)對海量信息的合規(guī)審查,本文通過一種基于圖文識別OCR的方法,通過分布式部署互聯(lián)網(wǎng)檢查設(shè)備,可以快速發(fā)現(xiàn)互聯(lián)網(wǎng)違規(guī)發(fā)布的涉密文件,大幅提升互聯(lián)網(wǎng)涉密信息檢查能力。
【關(guān)鍵詞】 互聯(lián)網(wǎng) 海量信息 OCR
1 引言
近年來,在各級機(jī)關(guān)的保密檢查中發(fā)現(xiàn)通過互聯(lián)網(wǎng)違規(guī)發(fā)布涉密文件資料的案件逐年增多。其中涉密文件為圖片格式的案件比例呈現(xiàn)更加明顯的上升趨勢。相關(guān)人員通過截圖等形式,便可輕易的傳遞一些不合規(guī)的信息,而不被現(xiàn)有的設(shè)備檢查出來,致使互聯(lián)網(wǎng)信息管控存在嚴(yán)重的漏洞。
如何才能堵上這一傳播不合規(guī)信息的漏洞呢?依靠傳統(tǒng)的方法即采用人工查看的方式在互聯(lián)網(wǎng)上搜索到圖片格式的涉密文件,費時費力,無異于大海撈針。利用圖文識別技術(shù),又稱為OCR(Optical Character Recognition,光學(xué)字符識別),則能夠較好地解決該問題。 OCR的原理主要是指利用各種識別算法分析圖像中包含的文字形態(tài)特征,判斷出文字的標(biāo)準(zhǔn)編碼,并按通用格式存儲在信息化設(shè)備中。
2 方法介紹
下面結(jié)合實例,對利用OCR技術(shù)進(jìn)行互聯(lián)網(wǎng)涉密檢查的技術(shù)方案進(jìn)行描述。場景為采用分布式部署實現(xiàn)互聯(lián)網(wǎng)檢查設(shè)備中對圖片中文字內(nèi)容的審計。互聯(lián)網(wǎng)檢查設(shè)備由2臺設(shè)備組成,一臺負(fù)責(zé)對內(nèi)部網(wǎng)絡(luò)連接到互聯(lián)網(wǎng)的數(shù)據(jù)流進(jìn)行采集、分析和識別,并將采集的圖片文件,通過網(wǎng)絡(luò)發(fā)送給單獨部署的另一臺OCR服務(wù)器進(jìn)行圖片檢查,以實現(xiàn)對圖片中文字的內(nèi)容審計。
(1)互聯(lián)網(wǎng)檢查服務(wù)器(簡稱“檢測器”)。
互聯(lián)網(wǎng)檢查服務(wù)器負(fù)責(zé)對內(nèi)部網(wǎng)絡(luò)連接到互聯(lián)網(wǎng)的數(shù)據(jù)流進(jìn)行采集、分析和識別,并將采集到的圖片文件,發(fā)送給后端的互聯(lián)網(wǎng)檢查OCR服務(wù)器。
(2)互聯(lián)網(wǎng)檢查OCR服務(wù)器(簡稱“OCR服務(wù)器”)。
互聯(lián)網(wǎng)檢查OCR服務(wù)器負(fù)責(zé)接收前端互聯(lián)網(wǎng)檢查服務(wù)器傳送來的圖片,并使用其上的OCR組件解析出圖片上的文字信息。而后,對照用戶設(shè)定的關(guān)鍵詞策略,判斷該圖片是否含有不合規(guī)的信息。
(3)以下以BDOCR協(xié)議舉例說明互聯(lián)網(wǎng)檢查服務(wù)器與互聯(lián)網(wǎng)檢查OCR服務(wù)器之間的通信。1)BDOCR:指藍(lán)盾互聯(lián)網(wǎng)檢查設(shè)備中互聯(lián)網(wǎng)檢查服務(wù)器與互聯(lián)網(wǎng)檢查OCR服務(wù)器之間的TCP通信協(xié)議。2)前端互聯(lián)網(wǎng)檢查服務(wù)器負(fù)責(zé)從交換機(jī)抓取數(shù)據(jù)包,而后將采集到的圖片文件傳送給后端互聯(lián)網(wǎng)檢查1)OCR服務(wù)器,由其負(fù)責(zé)進(jìn)行圖片所含文字部分的檢查。3)報文規(guī)格。BDOCR協(xié)議為TCP協(xié)議的載荷,協(xié)議包包含兩部分,頭部及BDOCR協(xié)議的載荷部分。
下面給出BDOCR協(xié)議包的封裝格式(如圖1):
各字段的含義如下:
版本:2字節(jié),表示BDOCR協(xié)議版本。其中高8位為主版本號,低8位為次版本號。
流程ID:2字節(jié),標(biāo)示該BDOCR數(shù)據(jù)包的類型及具體的請求動作。其中:
關(guān)鍵詞策略下發(fā)報文: 0x01
圖片下發(fā)報文: 0x02
中標(biāo)回復(fù)報文: 0x04
異常通報報文: 0x08
ID:4字節(jié),事務(wù)標(biāo)志,同一事務(wù)的所有通信包其ID保持一致??梢允褂靡粋€無符號整數(shù)表示,每構(gòu)建一個事務(wù),該值加1,保證在4G個包內(nèi)其ID值是唯一的。
時間:4字節(jié),構(gòu)造、發(fā)送數(shù)據(jù)包時的時間,標(biāo)示從1970年1月1日0時0分0秒至今的秒數(shù)
載荷長度:4字節(jié),標(biāo)示該BDOCR數(shù)據(jù)包載荷部分的數(shù)據(jù)長度。
載荷:根據(jù)報文類型具備不同的長度。
關(guān)鍵詞策略下發(fā)報文:由檢測器向OCR服務(wù)器下發(fā)關(guān)鍵詞策略。載荷內(nèi)容如圖2所示:
策略ID:4個字節(jié)。各策略的ID互不相同,用于標(biāo)示各策略。策略名長度:4個字節(jié)。標(biāo)示策略名部分的數(shù)據(jù)長度。策略名:不定長。用于在界面上顯示策略,策略名也是唯一的。策略長度:4個字節(jié)。標(biāo)示策略內(nèi)容部分的數(shù)據(jù)長度。策略內(nèi)容:不定長。用戶設(shè)定的關(guān)鍵詞策略,用于匹配信息(圖片所含文字部分)是否合規(guī)。
圖片下發(fā)報文:由檢測器向OCR服務(wù)器下發(fā)圖片文件。載荷內(nèi)容如圖3所示:
圖片ID:4個字節(jié)。各圖片的ID互不相同,用于標(biāo)示各圖片。圖片類型:4個字節(jié)。標(biāo)示圖片的不同類型,如JPEG、BMP、TIFF、GIF、PNG等。文件長度:4個字節(jié)。標(biāo)示圖片文件部分的數(shù)據(jù)長度。
圖片文件:不定長。需要進(jìn)行內(nèi)容檢查的圖片文件。
中標(biāo)回復(fù)報文:當(dāng)OCR服務(wù)器檢查發(fā)現(xiàn)有不合規(guī)的圖片文件,向檢測器回復(fù)中標(biāo)信息。載荷內(nèi)容如圖4所示:
圖片ID:4個字節(jié)。各圖片的ID互不相同,用于標(biāo)示各圖片。中標(biāo)策略數(shù):4個字節(jié)。標(biāo)示該圖片匹配到的策略個數(shù)。中標(biāo)策略ID:4個字節(jié)。各策略的ID互不相同,用于標(biāo)示各策略。
異常通報報文:當(dāng)某設(shè)備本身發(fā)生異常,向另一臺設(shè)備通報自身異常。如設(shè)備發(fā)生多類異常,則都需一一進(jìn)行通報。載荷內(nèi)容如圖5所示:
異常ID:4個字節(jié)。用于標(biāo)示各類異常。異常情況:4個字節(jié)。0x0000:標(biāo)示設(shè)備已恢復(fù)正常;0x0001:標(biāo)示設(shè)備發(fā)生異常。
3 結(jié)語
本文實現(xiàn)的互聯(lián)網(wǎng)檢查方法,除了可以監(jiān)控一般的文字信息外,還可以對以圖片形式出現(xiàn)的文字內(nèi)容進(jìn)行檢查??梢钥焖侔l(fā)現(xiàn)互聯(lián)網(wǎng)違規(guī)發(fā)布的涉密文件,大幅提升互聯(lián)網(wǎng)涉密信息檢查能力。當(dāng)然,這些方法只是治標(biāo)之策,唯有增強(qiáng)相關(guān)人員保密意識,加強(qiáng)信息公開保密審查,實現(xiàn)辦公網(wǎng)絡(luò)與互聯(lián)網(wǎng)物理隔離等措施多管齊下,才能及時發(fā)現(xiàn)和有效防范互聯(lián)網(wǎng)泄密行為,保護(hù)國家秘密。
參考文獻(xiàn)
[1]蔣俊杰.身份識別與接入控制系統(tǒng)的研究與應(yīng)用[J].信息與電腦(理論版),2010年12期.
[2]孫羽菲.低質(zhì)量文本圖像OCR技術(shù)的研究[D].中國科學(xué)院研究生院(計算技術(shù)研究所),2005年.
[3]閻彩英.淺析電子政務(wù)外網(wǎng)互聯(lián)網(wǎng)出口的安全技術(shù)構(gòu)架[J].中國信息界.2011年02期.
[4]劉海波,顧國昌,張國印.Internet信息涉密檢查系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)工程與應(yīng)用,2004年09期.endprint