[蔡金青]
隨著通信工程勘察設(shè)計(jì)數(shù)智化的發(fā)展,勘察設(shè)計(jì)審核過(guò)程逐步引入平臺(tái)化流轉(zhuǎn)模式,但是仍舊存在圖紙審核過(guò)程為人工審核,人工記錄設(shè)計(jì)圖紙中的關(guān)鍵工程參數(shù)、站點(diǎn)信息。且多以辦公軟件或者小型數(shù)據(jù)庫(kù)形式記錄,并與后期勘察設(shè)計(jì)庫(kù)中的信息進(jìn)行校驗(yàn),校驗(yàn)方法采用辦公軟件公式方法解決。人工審核存在效率低下、工作強(qiáng)度大、易錯(cuò)等缺點(diǎn)。在后期二階段工程參數(shù)、站點(diǎn)信息數(shù)據(jù)庫(kù)過(guò)程中也多以數(shù)據(jù)庫(kù)校驗(yàn)方式判斷綜合資管平臺(tái)數(shù)據(jù)庫(kù)是否存在入庫(kù)錯(cuò)誤等問(wèn)題。
本方法通過(guò)OCR 深度學(xué)習(xí)方式提取圖紙關(guān)鍵信息,并與平臺(tái)勘察設(shè)計(jì)模塊中人工錄入數(shù)據(jù)、綜合資管平臺(tái)數(shù)據(jù)進(jìn)行自動(dòng)校驗(yàn),大幅提升省端站點(diǎn)信息數(shù)據(jù)審核效率、正確率。
本方法實(shí)現(xiàn)原理主要包括圖紙關(guān)鍵字識(shí)別、OCR(Optical Character Recognition,光學(xué)字符識(shí)別)深度學(xué)習(xí)及關(guān)鍵字入庫(kù)校驗(yàn)3 個(gè)部分。
圖紙關(guān)鍵字識(shí)別部分首先將可能在文字的區(qū)域檢測(cè)出來(lái),然后再進(jìn)行識(shí)別。本質(zhì)是識(shí)別圖片中的文字,即在復(fù)雜的圖片背景下對(duì)所需目標(biāo)文字進(jìn)行識(shí)別提取。
OCR 深度學(xué)習(xí)針對(duì)基站設(shè)計(jì)圖紙,采用基于AI 訓(xùn)練的圖片文字識(shí)別模型,對(duì)識(shí)別的文本框坐標(biāo)進(jìn)行檢測(cè)。該算法結(jié)合了CNN(卷積神經(jīng)網(wǎng)絡(luò))和LSTM(循環(huán)神經(jīng)網(wǎng)絡(luò))的技術(shù),通過(guò)CNN 提取深度特征,LSTM 用于序列的特征識(shí)別。基于AI 訓(xùn)練的OCR 模型與調(diào)用在線OCR 接口相結(jié)合處理模式。平臺(tái)具體架構(gòu)如圖1 所示。
圖1 OCR 深度學(xué)習(xí)的自動(dòng)化站點(diǎn)審核平臺(tái)架構(gòu)
本方法采用對(duì)DXF(圖紙格式)的OCR 深度學(xué)習(xí),最終自動(dòng)采集圖紙信息,采用DXF 文件相較于原始DWG文件的好處在于:DXF 是Autodesk 公司開發(fā)的用于AutoCAD 與其它軟件之間進(jìn)行CAD 數(shù)據(jù)交換的CAD 數(shù)據(jù)文件格式。DXF 是一種開放的矢量數(shù)據(jù)格式,可以分為兩類:ASCII 格式和二進(jìn)制格式;ASCII 具有可讀性好,但占有空間較大;二進(jìn)制格式占有空間小、讀取速度快。由于AutoCAD 現(xiàn)在是最流行的CAD 系統(tǒng),DXF 也被廣泛使用,成為事實(shí)上的標(biāo)準(zhǔn)。DWG 的來(lái)繪圖更直觀(DXF圖紙中線條的相交處都會(huì)有個(gè)小圓),而用于數(shù)控加工的圖紙則必須是DXF 文件(操作者必須把DWG 轉(zhuǎn)換成DXF 后才可加工)。DXF 是工業(yè)標(biāo)準(zhǔn)格式的一種。
關(guān)鍵字抓取入庫(kù)將識(shí)別出的工程參數(shù)、站點(diǎn)信息數(shù)據(jù)與平臺(tái)存儲(chǔ)的值進(jìn)行校驗(yàn),校驗(yàn)的結(jié)果會(huì)在勘察設(shè)計(jì)小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過(guò)系統(tǒng)查看出不一致字段。其中牽涉到工程參數(shù)、站點(diǎn)信息一次校驗(yàn)、二次校驗(yàn)流程。具體流程如圖2 所示。
圖2 OCR 深度學(xué)習(xí)的自動(dòng)化站點(diǎn)審核平臺(tái)流程
在時(shí)效方面,基于OCR 深度學(xué)習(xí)的自動(dòng)化站點(diǎn)審核方法將原有站點(diǎn)審核校驗(yàn)回填時(shí)間由10 min 縮短至20 s(以單站實(shí)驗(yàn)結(jié)果),效率提升97%。隨著站點(diǎn)數(shù)的增加(OCR 圖紙深度學(xué)習(xí)模塊以多線程并行服務(wù)運(yùn)行,暫時(shí)開啟8 線程并行服務(wù)),效率值會(huì)更進(jìn)一步提升。
OCR 深度學(xué)習(xí)是檢測(cè)、識(shí)別的基礎(chǔ)。首先將文字的區(qū)域檢測(cè)出來(lái),然后再進(jìn)行識(shí)別。本質(zhì)是識(shí)別圖片中的文字,即在復(fù)雜的圖片背景下對(duì)所需目標(biāo)文字進(jìn)行識(shí)別提取。
文字識(shí)別可應(yīng)用于許多領(lǐng)域,如閱讀、翻譯、文獻(xiàn)資料的檢索、信件和包裹的分揀、稿件的編輯和校對(duì)、大量統(tǒng)計(jì)報(bào)表和卡片的匯總與分析、銀行支票的處理、商品發(fā)票的統(tǒng)計(jì)匯總、商品編碼的識(shí)別、商品倉(cāng)庫(kù)的管理,以及水、電、煤氣、房租、人身保險(xiǎn)等費(fèi)用的征收業(yè)務(wù)中的大量信用卡片的自動(dòng)處理和辦公室打字員工作的局部自動(dòng)化等。以及文檔檢索,各類證件識(shí)別,方便用戶快速錄入信息,提高各行各業(yè)的工作效率。
(1)文字區(qū)域:檢測(cè)存在文字的區(qū)域。
(2)文字檢測(cè):識(shí)別區(qū)域中的文字。
對(duì)文字存在區(qū)域的檢測(cè)方法,與目標(biāo)檢測(cè)領(lǐng)域的常用檢測(cè)方法相當(dāng),分為一步和二步二種方法,后續(xù)也可以考慮使用無(wú)標(biāo)記方法對(duì)文字區(qū)域進(jìn)行檢測(cè)。
(1)在文字識(shí)別領(lǐng)域,常用的二步方法為快速RCNN,單階段方法。相比之下,前者的精度更好,后者速度更快。
(2)在文字識(shí)別領(lǐng)域,與傳統(tǒng)目標(biāo)檢測(cè)的不同還在于文字的方向、扭曲程度等。
對(duì)于水平文字的檢測(cè)。水平文字文本框是規(guī)則的四邊形(4 個(gè)自由度),類似于物體檢測(cè)。水平文字檢測(cè)效果較好的算法為CTPN。
文本框是不規(guī)則的四邊形,擁有8 個(gè)自由度,傾斜文字檢測(cè)較好的算法由cvpr2017 提出。一般的檢測(cè)套路為:檢測(cè)文本框,采用拉東變換、霍夫變換等方法進(jìn)行文本矯正,通過(guò)投影直方圖分割單行文本圖片,對(duì)單行文本進(jìn)行OCR。
文字采用分類模式,可以對(duì)字符進(jìn)行分割后單獨(dú)識(shí)別,也可以進(jìn)行序列識(shí)別,顯然易見(jiàn)的是,序列識(shí)別才是真正有意義的。
(1)定長(zhǎng)文字:各個(gè)字符之間是獨(dú)立的,需事先選定可預(yù)測(cè)的序列的最大長(zhǎng)度,比較適用于門牌檢測(cè)或車牌號(hào)碼檢測(cè)。
(2)不定長(zhǎng)文字:可以產(chǎn)生任意長(zhǎng)度的文字。
將文字檢測(cè)和識(shí)別放在一個(gè)網(wǎng)絡(luò)中進(jìn)行聯(lián)合訓(xùn)練,目前主流的兩種模型。
①CNN 與RNN/LSTM/GRU 與CTC:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)/長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)/門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)與時(shí)序類分類(Connectionist Temporal Classification,CTC)。
②引入注意力機(jī)制(CNN+RNN+Attention):其中注意力機(jī)制可以分為硬模式和軟模式。其中硬模式能夠直接給出硬定位,通常是直觀展現(xiàn)文字區(qū)域的位置。軟模式通常采用RNN/LSTM/GRU。
將設(shè)計(jì)圖紙文字提取出來(lái)后,拼接為整個(gè)文本串,再?gòu)奈谋敬凶R(shí)別提取關(guān)鍵字如掛高、天線方位角、電調(diào)下傾角、機(jī)械下傾角、經(jīng)緯度等,最后從關(guān)鍵字前后識(shí)別非中文字符得到對(duì)應(yīng)的關(guān)鍵數(shù)據(jù)。并通過(guò)文字識(shí)別校驗(yàn),實(shí)現(xiàn)工程參數(shù)、站點(diǎn)信息關(guān)鍵核驗(yàn)功能。
部分代碼如圖3 所示。
圖3 文字識(shí)別部分關(guān)鍵代碼
具體技術(shù)原理及步驟包括3 步。
(1)設(shè)計(jì)人員將CAD 圖紙的存儲(chǔ)為更易識(shí)別的DXF 格式(DXF 是一種開放的矢量數(shù)據(jù)格式,易解析),并上傳至規(guī)劃審核平臺(tái)的勘察設(shè)計(jì)模塊。
(2)勘察設(shè)計(jì)模塊上傳CAD 圖紙的同時(shí),系統(tǒng)會(huì)同時(shí)啟動(dòng)OCR 深度學(xué)習(xí)模塊提取關(guān)鍵信息功能,將圖紙中所需的工程參數(shù)、站點(diǎn)信息數(shù)據(jù)自動(dòng)識(shí)別(調(diào)用DXFparser 模塊模糊找出DXF 中需要讀取標(biāo)記的字段,存儲(chǔ)在內(nèi)存中),并且與勘察設(shè)計(jì)中人工錄入的參數(shù)信息進(jìn)行校驗(yàn)。
(3)將識(shí)別出的工程參數(shù)、站點(diǎn)信息數(shù)據(jù)與平臺(tái)存儲(chǔ)的值進(jìn)行校驗(yàn),校驗(yàn)的結(jié)果會(huì)在勘察設(shè)計(jì)小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過(guò)系統(tǒng)查看出不一致字段。
圖紙中關(guān)鍵工程參數(shù)、站點(diǎn)信息如圖4 所示。
圖4 關(guān)鍵工程參數(shù)、站點(diǎn)信息提取
勘察設(shè)計(jì)模塊上傳CAD 圖紙的同時(shí),系統(tǒng)會(huì)同時(shí)啟動(dòng)啟動(dòng)OCR 深度學(xué)習(xí)模塊提取關(guān)鍵信息功能,將圖紙中所需的工程參數(shù)、站點(diǎn)信息數(shù)據(jù)自動(dòng)識(shí)別抓取入庫(kù)與勘察信息庫(kù)進(jìn)行關(guān)鍵信息校驗(yàn)。具體校驗(yàn)如圖5 所示。
圖5 關(guān)鍵工程參數(shù)、站點(diǎn)信息入庫(kù)
將識(shí)別出的工程參數(shù)、站點(diǎn)信息數(shù)據(jù)與勘察信息庫(kù)的值進(jìn)行校驗(yàn),校驗(yàn)的結(jié)果會(huì)在勘察設(shè)計(jì)小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過(guò)系統(tǒng)查看出不一致字段。具體比對(duì)如圖6 所示。
圖6 關(guān)鍵工程參數(shù)、站點(diǎn)信息校驗(yàn)比對(duì)
后期待施工完成入網(wǎng)后,再將關(guān)鍵信息與綜合資管平臺(tái)進(jìn)行二次校驗(yàn),并保證站點(diǎn)信息全平臺(tái)準(zhǔn)確唯一。
一種基于OCR 深度學(xué)習(xí)的自動(dòng)化站點(diǎn)審核方法,該方法通過(guò)數(shù)智化手段針對(duì)站點(diǎn)圖紙通過(guò)OCR 深度學(xué)習(xí)的方法提取設(shè)計(jì)圖紙中的關(guān)鍵工程參數(shù)、站點(diǎn)信息(掛高、天線方位角、電調(diào)下傾角、機(jī)械下傾角、經(jīng)緯度、區(qū)域位置、環(huán)境描述等)入庫(kù)。將從圖紙中提取出的站點(diǎn)關(guān)鍵工程參數(shù)、站點(diǎn)信息與勘察設(shè)計(jì)庫(kù)中的信息比對(duì)以校驗(yàn)審核設(shè)計(jì)階段出現(xiàn)的工程參數(shù)、站點(diǎn)信息錯(cuò)誤,以及后期資管平臺(tái)關(guān)鍵信息錯(cuò)誤。