劉豐威 潘煒
(廣東電網(wǎng)有限責任公司廣州供電局 廣東省廣州市 510620)
企業(yè)在使用信息化系統(tǒng)處理關(guān)鍵業(yè)務(wù)時,要求上傳附件資料,以備后用。針對這部分資料的核查確認,傳統(tǒng)處理方式是事后人工抽查,核查效率低、覆蓋面有限,容易錯漏。
本文針對電力行業(yè),針對附件這類非結(jié)構(gòu)化數(shù)據(jù),提出一種“基于場景的圖像文字稽核系統(tǒng)”,可替代傳統(tǒng)的事后人工稽核機制,及時糾正各類風(fēng)險發(fā)生,降低風(fēng)險因素累計和減少風(fēng)險發(fā)生率。
如今,企業(yè)普遍重視信息化建設(shè),通過計算機技術(shù)的部署來提高企業(yè)的生產(chǎn)運營效率,降低運營風(fēng)險和成本,從而提高企業(yè)整體管理水平和持續(xù)經(jīng)營的能力。企業(yè)在使用信息化系統(tǒng)辦理業(yè)務(wù)時,在管理上會要求同步將業(yè)務(wù)相關(guān)附件一并上傳存儲,這部分數(shù)據(jù)大部分是掃描件等圖像文字。為保證上傳附件符合規(guī)范和要求,企業(yè)還會對其做核查確認,這項工作對企業(yè)防范風(fēng)險來說很重要,稽核工作量也比較大。因此,研究基于場景,使用OCR 技術(shù)實現(xiàn)圖像文本的快速識別,將解決上述存在難題,很有意義。
目前,企業(yè)對單據(jù)附件等圖像文字核查時,往往采用事后人工稽核機制。以電力營銷業(yè)務(wù)為例,在辦理業(yè)擴報裝業(yè)務(wù)時,需核對客戶相關(guān)資料,例如營業(yè)執(zhí)照、居民身份證、房產(chǎn)證等,業(yè)務(wù)辦理過程中將相關(guān)資料掃描上傳系統(tǒng),為后續(xù)業(yè)務(wù)執(zhí)行提供基本信息。為保障用電申請合法合規(guī),業(yè)務(wù)辦理后,會要求營銷稽查人員對業(yè)務(wù)抽樣,稽核用戶提供的資料是否與用電申請一致。這部分工作之前都是使用人工抽樣查閱核實,但由于附件數(shù)量大,操作效率低、覆蓋面有限,容易錯漏,風(fēng)險防范能力也有限。
一般不同業(yè)務(wù)場景,上傳資料的稽核項也會不同。以電力營銷業(yè)務(wù)為例,其業(yè)務(wù)組成如表1。
表1 給出了一個高壓新裝流程的部分環(huán)節(jié),每個環(huán)節(jié)要求上傳的附件均有不同,每個業(yè)務(wù)環(huán)節(jié)對應(yīng)一個業(yè)務(wù)場景,而一個企業(yè)一般會有多個業(yè)務(wù)場景。因為,需提供一種可數(shù)據(jù)化定義場景的規(guī)范,通過配置實現(xiàn)場景構(gòu)建。本文設(shè)計了一種場景構(gòu)建的基本規(guī)范,每種場景由基本屬性、數(shù)據(jù)范圍、識別項目和關(guān)聯(lián)問題4 項組成。
如圖1,基本屬性確定場景使用的流程和環(huán)節(jié);數(shù)據(jù)范圍依據(jù)選擇的流程和環(huán)節(jié),顯示對應(yīng)的附件讓用戶勾選;針對勾選的每一項附件配置需識別的關(guān)鍵信息;對應(yīng)這些識別的關(guān)鍵信息,從問題規(guī)則庫中勾選對應(yīng)的問題選項,四項之間有先后邏輯關(guān)系,最后以JSON 結(jié)構(gòu)存儲。在后續(xù)圖像文本識別時,按定義場景批量執(zhí)行,輸出問題數(shù)據(jù),最后在系統(tǒng)界面展示出來。表2 為識別項目的結(jié)構(gòu)示意。
圖1:場景定義示意圖
圖2:識別處理流程
以電力營銷業(yè)務(wù)為例,為提高系統(tǒng)稽核工單上傳附件的效率,本文將圖像文本的識別過程分解為五個步驟:預(yù)識別處理、快速分類、全文識別、匹配識別項目、輸出稽核結(jié)果。每一個待識別的附件載入后進行調(diào)整,然后按高度比例分割為上(30%)下(70%)二層,其工作流程如圖2所示。
附件調(diào)整包括對附件方向、斜角、清晰度不夠等不規(guī)范的圖片調(diào)整,使其符合識別的基本參數(shù)要求,不合格的附件輸出不合格清單,通過人工方式處理;余下分為2 個批次快速分類識別,第1 個批次,僅對附件上部分30%的部分進行識別,快速匹配對應(yīng)的場景,輸出稽核結(jié)果;第2 個批次對第一個批次剩下的做全文識別后匹配場景,輸出稽核結(jié)果。因為,一般附件在上部分都會說明附件名稱,例如身份證、營業(yè)執(zhí)照、裝拆工單等。通過以上處理,第1 批次將會覆蓋95%以上附件,從而提高了稽核速度。
在算法層面,針對文本分類采用了基于深度學(xué)習(xí)的混合模型的文本分類器。該混合模型主要由三部分組成,前兩層使用稀疏自動編碼器來構(gòu)造,中間使用一個三層的深度置信網(wǎng)絡(luò),最后用Softmax 回歸作為分類層。在圖像文字識別方面,組合使用CNN、CTPN、CRNN 算法,提高識別準確度。
表1:業(yè)務(wù)場景表
表2:識別項目結(jié)構(gòu)
采用B/S 三層架構(gòu)模式,采用JAVA 語言設(shè)計,中間件采用weblogic,場景規(guī)則和稽核結(jié)果采用JSON 描述。
如圖3,系統(tǒng)由場景構(gòu)建、自動稽核和OCR 圖像識別接口3個部分組成。
目前,基于場景的圖像文字稽核系統(tǒng)已在廣州供電局稽查中心穩(wěn)定運行,已實現(xiàn)了按場景配置批量自動稽核上傳附件的能力,目前構(gòu)建“計量裝拆工單體外循環(huán)識別”、“基本電費中封停設(shè)備異常識別”、“業(yè)擴報裝附件合規(guī)性識別”3 個場景。通過使用,機器識別相比人工識別,效率提升了10 倍以上,稽核準確度達到95%以上。系統(tǒng)識別界面如圖4所示。
圖3:系統(tǒng)總體架構(gòu)關(guān)系圖
圖4:系統(tǒng)識別界面
本文針對電力行業(yè),設(shè)計了一種場景構(gòu)建規(guī)范,通過可視化的場景構(gòu)建,將企業(yè)的業(yè)務(wù)流程與需稽核的項目做配置關(guān)聯(lián)。在對附件等圖像文字的快速分類和批量識別時,調(diào)用配置場景,自動匹配,輸出稽核結(jié)果。系統(tǒng)實現(xiàn)了機器代人,7*24 小時運行,全量業(yè)務(wù)附件自動掃描核查,相比人工,效率高,花費少,基本替代了傳統(tǒng)的事后人工稽核機制,使得企業(yè)降本增效,有較好的推廣應(yīng)用價值。