曹 菁,陳 康,齊 寧,夏鵬程,邱 渝
1.江蘇省聯(lián)合征信有限公司,江蘇南京210000
2.南京大學(xué)軟件學(xué)院,江蘇南京210093
在金融業(yè)務(wù)數(shù)字化的過(guò)程中,企業(yè)所提交的蓋章文書(shū)圖像是十分重要的。通常,蓋章文書(shū)圖像中含有兩種類(lèi)型的信息,一種是以印章的形式出現(xiàn),一種是以表格文檔[1]的形式出現(xiàn)。相較于一般表格來(lái)說(shuō),蓋章文書(shū)圖像表格的格式更為復(fù)雜,內(nèi)容繁多。隨著金融業(yè)務(wù)數(shù)字化的快速發(fā)展,蓋章文書(shū)圖像的數(shù)量快速增加,現(xiàn)有的人工審核方式無(wú)法及時(shí)處理與日俱增的蓋章文書(shū)圖像審核工作,另外由于早期自動(dòng)審核功能的缺失,蓋章文書(shū)圖像審核工作保有很大一部分存量,就江蘇省某項(xiàng)目為例,待審核蓋章文書(shū)圖像數(shù)量已達(dá)30 萬(wàn)幅。此外,在對(duì)審核人員調(diào)研中了解到長(zhǎng)時(shí)間重復(fù)性的審核工作,容易出現(xiàn)工作效率降低、審核錯(cuò)誤率升高等問(wèn)題,因此提供快速高效且有準(zhǔn)確率保障的蓋章文書(shū)圖像自動(dòng)審核線(xiàn)上服務(wù)十分迫切。
隨著人工智能的發(fā)展,蓋章文書(shū)圖像審核領(lǐng)域有一定的研究成果,主要應(yīng)用在金融和醫(yī)療領(lǐng)域,但對(duì)制式表格蓋章文書(shū)圖像自動(dòng)審核尚無(wú)成熟的應(yīng)用。隨著深度學(xué)習(xí)的興起,自動(dòng)審核功能主要依托的文字識(shí)別(optical character recognition,OCR)[2]和印章識(shí)別技術(shù)也得以飛速發(fā)展。目前文字識(shí)別應(yīng)用主要有阿里OCR、百度OCR、騰訊OCR、華為OCR 等,均提供不同場(chǎng)景的文字識(shí)別接口,主要針對(duì)受控場(chǎng)景,如票據(jù)、卡證、車(chē)牌等。表格文字識(shí)別主要應(yīng)用于無(wú)印章的通用表格,針對(duì)帶印章制式表格的文字識(shí)別效果并不好??紤]到蓋章文書(shū)圖像為人為拍攝或掃描上傳,其中存在文字自身的復(fù)雜性問(wèn)題(非水平、角度傾斜),文本檢測(cè)有一定難度,針對(duì)此類(lèi)場(chǎng)景文獻(xiàn)[3] 提出了一種漢字檢測(cè)算法(detecting text in natural image with connectionist text proposal network,CTPN)。此算法可以有效地檢測(cè)水平或略微傾斜的文本行,但對(duì)于一些旋轉(zhuǎn)的文本行,其檢測(cè)效果比較一般,并且文本線(xiàn)的構(gòu)造也是局限在矩形,當(dāng)文本出現(xiàn)傾斜時(shí),文本線(xiàn)的構(gòu)造就不夠精準(zhǔn)。文獻(xiàn)[4] 提出了一種適用于自然場(chǎng)景中的短文本的文本檢測(cè)算法,對(duì)于旋轉(zhuǎn)文本行的檢測(cè)效果較好,但對(duì)蓋章文書(shū)圖像中存在的部分長(zhǎng)文本的檢測(cè)不夠準(zhǔn)確,并且模型的經(jīng)驗(yàn)相對(duì)有限,這直接影響后面文本識(shí)別的準(zhǔn)確性。目前針對(duì)水平文本的識(shí)別算法主要分為兩種,一種是文獻(xiàn)[5] 提出的基于attention 機(jī)制識(shí)別算法,主要應(yīng)用于不規(guī)則排列的文字識(shí)別問(wèn)題;另一種為文獻(xiàn)[6] 提出的端到端的不定長(zhǎng)文字識(shí)別算法,主要應(yīng)用于不定長(zhǎng)的規(guī)則排列的文字識(shí)別問(wèn)題。印章識(shí)別包括印章檢測(cè)和印章文字識(shí)別。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,識(shí)別印章是否存在以及確定印章位置已有大量的研究成果[7],國(guó)內(nèi)不少公司也開(kāi)發(fā)用于公章識(shí)別的SDK,例如阿里、易道博識(shí)等,但一旦圖像質(zhì)量不高或者有較大的形變,印章文字識(shí)別的效果不大理想。
為了解決上述問(wèn)題,本文結(jié)合文字識(shí)別和印章識(shí)別技術(shù)設(shè)計(jì)和實(shí)現(xiàn)了帶印章的蓋章文書(shū)圖像自動(dòng)審核方法。該方法主要包含3 個(gè)部分:文字識(shí)別、印章識(shí)別和表格內(nèi)容審核。其中文字識(shí)別部分包括帶有角度的文本檢測(cè)算法SegLink[8]以及卷積遞歸神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN);印章識(shí)別部分包括印章識(shí)別與提取算法YOLOv3[9]和印章內(nèi)容識(shí)別方法極坐標(biāo)變換法;表格內(nèi)容審核部分根據(jù)預(yù)設(shè)的規(guī)則對(duì)表格內(nèi)容進(jìn)行完備性和正確性檢測(cè)。
本文提出的蓋章文書(shū)圖像自動(dòng)審核方法包含3 個(gè)部分,分別為文字識(shí)別、印章識(shí)別和表格內(nèi)容審核,圖1 為蓋章文書(shū)圖像樣本;圖2 為該方法的具體流程圖。
圖1 蓋章文書(shū)圖像樣本Figure 1 Sample image of stamped document
圖2 自動(dòng)審核流程圖Figure 2 Process diagram of automated checking
自動(dòng)審核具體步驟如下:
步驟1判定原始圖像是否含有印章且位置正確,如滿(mǎn)足繼續(xù)進(jìn)行文字識(shí)別;
步驟2根據(jù)預(yù)先設(shè)置的文本檢測(cè)算法SegLink 確定文本框位置,然后使用預(yù)先設(shè)置的文字識(shí)別算法CRNN 識(shí)別文本內(nèi)容;
步驟3對(duì)能夠檢測(cè)到關(guān)鍵字的圖像再根據(jù)文本框的角度進(jìn)行微調(diào),至表格橫向框線(xiàn)處于水平位置,然后識(shí)別表格所有單元格內(nèi)容,判斷是否完備;
步驟4對(duì)于不滿(mǎn)足以上任意一個(gè)條件的圖像判為內(nèi)容不完備,并不通過(guò)審核;
步驟5比對(duì)識(shí)別出的單元格內(nèi)容和預(yù)設(shè)值是否相同,若相同,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別,作極坐標(biāo)變換,再比對(duì)其預(yù)設(shè)內(nèi)容是否一致,若一致,則判斷為通過(guò)審核。
首先,根據(jù)預(yù)設(shè)的印章顏色、形狀和位置判定原始圖像是否含有印章且位置正確,如滿(mǎn)足條件則繼續(xù)對(duì)蓋章文書(shū)圖像進(jìn)行文字識(shí)別,如果其不包含預(yù)定義的內(nèi)容關(guān)鍵字,可能是因?yàn)閳D像位置不正,則對(duì)圖像進(jìn)行不超過(guò)3 次的90?旋轉(zhuǎn),直到能夠識(shí)別到關(guān)鍵字;
其次,對(duì)能夠檢測(cè)到關(guān)鍵字的圖像再根據(jù)文本框的角度進(jìn)行微調(diào),至表格橫向框線(xiàn)處于水平位置,然后識(shí)別表格所有單元格內(nèi)容,根據(jù)預(yù)設(shè)規(guī)則識(shí)別表格必填項(xiàng)的名稱(chēng)和內(nèi)容,判斷是否完備,對(duì)于不滿(mǎn)足以上任意一個(gè)條件的圖像判為內(nèi)容不完備,并不通過(guò)審核;
最后,對(duì)內(nèi)容完備的表格進(jìn)行正確性檢查,包括:比對(duì)識(shí)別出的單元格內(nèi)容和預(yù)設(shè)值是否相同,若相同,則截取印章,作極坐標(biāo)變換,再通過(guò)文字識(shí)別技術(shù)獲取印章內(nèi)容,比對(duì)其與預(yù)設(shè)內(nèi)容是否一致,若一致,則判為通過(guò)審核。
文字識(shí)別方法部分可分為3 個(gè)階段:圖像預(yù)處理、文本檢測(cè)和文字識(shí)別。
在圖像預(yù)處理階段,由于表格蓋章文書(shū)圖像模板設(shè)計(jì)為上半部分填寫(xiě)信息,下半部分為權(quán)利、義務(wù)條款,所以在進(jìn)行文字識(shí)別之前會(huì)對(duì)圖像進(jìn)行截取上半部分的操作。
在文本檢測(cè)階段,針對(duì)本項(xiàng)目的實(shí)際場(chǎng)景,采用了一種可以檢測(cè)任意角度文本的檢測(cè)算法SegLink,其主要特點(diǎn)是更改了原先指定一個(gè)目標(biāo)的位置的參數(shù)數(shù)量,由原先的4 個(gè)參數(shù)替換為5 個(gè)參數(shù),增加了的參數(shù)為文本框的旋轉(zhuǎn)角度。
在文字識(shí)別階段,考慮到蓋章文書(shū)圖像文字排列規(guī)則且字符數(shù)量不定,選擇端對(duì)端的不定長(zhǎng)文字識(shí)別網(wǎng)絡(luò)CRNN。它借鑒了語(yǔ)音識(shí)別中的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)[10]結(jié)合聯(lián)接時(shí)間分類(lèi)器(connectionist temporal classifier,CTC)[11]的建模方法,使用CNN 網(wǎng)絡(luò)提取的圖像特征向量代替語(yǔ)音領(lǐng)域的聲學(xué)特征作為L(zhǎng)STM 的輸入。LSTM 單元的結(jié)構(gòu)如圖3 所示,主要由3 個(gè)部分組成:輸入門(mén)(Input Gate)、遺忘門(mén)(Forget Gate)和輸出門(mén)(Output Gate)。
圖3 LSTM 單元結(jié)構(gòu)Figure 3 LSTM unit structure
由于文字變形或文字間隔不相同等問(wèn)題,同一段文字可能會(huì)出現(xiàn)不同的表現(xiàn)形式,圖4為CTC 識(shí)別示意圖,具體的識(shí)別步驟如下:
圖4 CTC 識(shí)別流程Figure 4 CTC identification process
步驟1將輸入的圖像按照進(jìn)行分塊,得到屬于某個(gè)字符的概率,其中無(wú)法識(shí)別的特殊字符用“-”標(biāo)記;
步驟2按照規(guī)則去掉重復(fù)字符和間隔字符,如果同一字符連續(xù)出現(xiàn),則表示字符重復(fù),保留1 個(gè)字符,如果中間有間隔字符,則表示該字符不重復(fù),保留所有字符。
印章識(shí)別方法部分可分為兩個(gè)階段,即印章識(shí)別和印章內(nèi)容識(shí)別。
在印章識(shí)別階段,本項(xiàng)目采用端對(duì)端的目標(biāo)檢測(cè)模型YOLOv3。它是目標(biāo)檢測(cè)最經(jīng)典的網(wǎng)絡(luò)之一,相較于之前的版本,它對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整,借鑒了殘差網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)在部分層中間設(shè)置快捷鏈路的方式形成更深的網(wǎng)絡(luò)層次。除此之外,它還增加對(duì)象檢測(cè)的特征尺度,將對(duì)象分類(lèi)方法由SoftMax 變?yōu)長(zhǎng)ogistic,使得小物體檢測(cè)效果得到一定提升。
在印章內(nèi)容識(shí)別階段,采用極坐標(biāo)變換法將截取的圓形印章文字拉伸至水平。首先,根據(jù)模型輸出的印章位置確定印章的中心點(diǎn)位置(x,y) 和半徑r,然后將直角坐標(biāo)系轉(zhuǎn)化為極坐標(biāo)系,圖5 為具體變換示意圖。
圖5 極坐標(biāo)變換示意圖Figure 5 Polar coordinate transformation diagram
其中src 為輸入圖像,dst 為輸出圖像,輸入圖像的原點(diǎn)在為圖像正中心,輸出圖像原點(diǎn)為左上角,首先根據(jù)原圖像分別計(jì)算出縮放比例
2019年7月9日,萬(wàn)科物流繼續(xù)開(kāi)啟并購(gòu)模式,與太古實(shí)業(yè)舉行并購(gòu)簽約儀式,將太古實(shí)業(yè)旗下太古冷鏈物流資產(chǎn)包收入囊中,具體包括上海、廣州、南京、成都、廈門(mén)、廊坊、寧波在內(nèi)的7座冷庫(kù)。作為可口可樂(lè)的冷鏈運(yùn)營(yíng)商,太古冷鏈物流成立于2010年,其倉(cāng)庫(kù)設(shè)施基于國(guó)際領(lǐng)先的冷庫(kù)技術(shù)設(shè)計(jì)、并依據(jù)中國(guó)有關(guān)技術(shù)標(biāo)準(zhǔn)建設(shè),所有倉(cāng)庫(kù)均能作為區(qū)域倉(cāng)儲(chǔ)中心,并具備分揀配送服務(wù)功能,設(shè)多溫區(qū)存儲(chǔ)以滿(mǎn)足不同產(chǎn)品對(duì)溫控倉(cāng)儲(chǔ)服務(wù)的需求。
式中:src.cols 為原圖像的長(zhǎng);src.rows 為原圖像的寬;maxRadius 為最大圓半徑。然后根據(jù)縮放比例計(jì)算出極坐標(biāo)系下點(diǎn)的坐標(biāo)
其中
式中:center.x和center.y為圓中心點(diǎn)坐標(biāo)。經(jīng)過(guò)變換后,印章圖像如圖6 所示。
圖6 極坐標(biāo)變換后印章示意圖Figure 6 Schematic diagram of seal after polar coordinate transformation
在表格內(nèi)容審核階段,主要是對(duì)前面識(shí)別出的表格內(nèi)容以及印章內(nèi)容根據(jù)預(yù)先定義的規(guī)則進(jìn)行完備性和正確性的檢測(cè),具體規(guī)則如表1 所示。
表1 完備性和正確性檢測(cè)規(guī)則表Table 1 Completeness and correctness inspection rule table
表格完備性檢測(cè)包括表格是否包含印章,表格內(nèi)容是否填寫(xiě)齊全。使用印章識(shí)別模型對(duì)圖像進(jìn)行識(shí)別,判斷是否包含印章。一般來(lái)說(shuō),填寫(xiě)表格信息只有兩種方式,一種是電腦填寫(xiě),一種是手寫(xiě),這兩種方式絕大多數(shù)字體都會(huì)是黑色,根據(jù)這一顏色特性,使用文字識(shí)別模型提取出表格內(nèi)容關(guān)鍵字,如“公司名稱(chēng)、公司法人統(tǒng)一社會(huì)信用代碼”等字樣,獲取其文本框信息,通過(guò)設(shè)定的范圍獲取填寫(xiě)區(qū)域,計(jì)算該區(qū)域的黑色像素的數(shù)量,與預(yù)設(shè)的閾值進(jìn)行比較,大于閾值則表示已填寫(xiě)。
表格正確性檢測(cè)包括印章位置是否正確、印章類(lèi)型是否正確、表格所填信息是否匹配。印章位置判斷主要是為了審核部分未按規(guī)定將印章蓋至規(guī)定區(qū)域的圖像,由于指定區(qū)域?yàn)橛疑辖?,首先截取右上角區(qū)域,然后根據(jù)印章的顏色特性,將圖由RGB 模型改為HSV 模型,其中H表示色調(diào)、S表示飽度、V表示亮度,根據(jù)紅色和藍(lán)色的取值范圍,確定圖像中是否包含紅色和藍(lán)色的區(qū)域,所述紅色取值范圍為H(156~180)、S(43~255)、V(46~255),藍(lán)色的取值范圍為H(0~10)、S(43~255)、V(46~255),像素點(diǎn)閾值為100,超過(guò)100 個(gè)像素點(diǎn)則表示圖像中包含有紅色或藍(lán)色的區(qū)域,根據(jù)該區(qū)域紅色像素的數(shù)量進(jìn)行判斷。印章類(lèi)型通過(guò)印章識(shí)別模型輸出的類(lèi)型進(jìn)行判斷。表格所填信息的正確性是將表格所填文字的內(nèi)容和印章文字的內(nèi)容與預(yù)設(shè)的正確內(nèi)容進(jìn)行字符串匹配,然后根據(jù)匹配結(jié)果確定,匹配則正確,不匹配則錯(cuò)誤。
由于金融業(yè)務(wù)中的蓋章文書(shū)圖像屬于企業(yè)經(jīng)營(yíng)的關(guān)鍵信息,安全管控要求較高,真實(shí)樣本數(shù)據(jù)較少,通過(guò)網(wǎng)絡(luò)收集、人工模擬和少量真實(shí)樣本構(gòu)建一個(gè)印章圖像數(shù)據(jù)集。其中真實(shí)樣本數(shù)量為20,人工模擬數(shù)量為80,網(wǎng)絡(luò)收集并人工標(biāo)注數(shù)量為900,總數(shù)量為1 000。該數(shù)據(jù)集包含了印章和法人章兩種類(lèi)型,其中印章類(lèi)695 幅,法人類(lèi)305 幅,印章都為紅色圓形,法人為藍(lán)色矩形。隨后,按照Pascal VOC[12]數(shù)據(jù)集的格式對(duì)印章圖像數(shù)據(jù)集進(jìn)行標(biāo)注,便于后期的網(wǎng)絡(luò)訓(xùn)練與測(cè)試。
為驗(yàn)證印章識(shí)別方法的有效性,在印章圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練與測(cè)試。所有網(wǎng)絡(luò)模型的訓(xùn)練與測(cè)試均在服務(wù)器上進(jìn)行,服務(wù)器配置為CPU: i7-8700/GPU: RTX 2080Ti,使用的操作系統(tǒng)為ubuntu 18.04,采用的深度學(xué)習(xí)架構(gòu)為Pytorch。因本文構(gòu)建的印章圖像數(shù)據(jù)集中樣本圖像較少,為保證訓(xùn)練集、驗(yàn)證集樣本分布一致,將1 000 條數(shù)據(jù)按標(biāo)簽、類(lèi)別以0.7/0.3 的比例切分為訓(xùn)練集與驗(yàn)證集。為檢驗(yàn)?zāi)P头夯芰Γ瑢?biāo)注數(shù)據(jù)按三折交叉檢驗(yàn)方法,劃分為共3 組訓(xùn)練集與驗(yàn)證集。表2 為最終數(shù)據(jù)集分布情況。
表2 數(shù)據(jù)集分布Table 2 Data set distribution
查全率R的計(jì)算公式為
F1 分?jǐn)?shù)的計(jì)算公式為
式中:TP(True Positive)為真正例;TN(True Negative)為真負(fù)例;FP(False Positive)為假正例;FN(False Negative)為假負(fù)例。
本文在印章圖像數(shù)據(jù)集上使用YOLOv3 進(jìn)行測(cè)試,測(cè)試結(jié)果如表3 所示。圖7 展示本文印章識(shí)別方法YOLOv3 取得的PR 曲線(xiàn),根據(jù)曲線(xiàn)計(jì)算面積得到兩類(lèi)印章的平均精確度(mAP) 為87.6%,證明了本方法能夠有效地對(duì)蓋章文書(shū)圖像印章進(jìn)行提取。
表3 測(cè)試結(jié)果Table 3 Test result %
圖7 印章識(shí)別方法PR 曲線(xiàn)Figure 7 PR curve of seal recognition method
在進(jìn)行實(shí)驗(yàn)之前,需要對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行部署,服務(wù)器數(shù)量為10,每臺(tái)服務(wù)器配置為6 核,內(nèi)存為8 G,操作系統(tǒng)為CentOS。本文在上述環(huán)境下,對(duì)真實(shí)蓋章文書(shū)圖像數(shù)據(jù)集進(jìn)行了自動(dòng)審核,該數(shù)據(jù)集包含130 277 幅蓋章文書(shū)圖像,其中審核結(jié)果通過(guò)的數(shù)量為42 682,審核結(jié)果不通過(guò)的數(shù)量為62 545,審核結(jié)果待定的數(shù)量為25 000。待定主要是指不能保證識(shí)別結(jié)果一定正確或者非正確的部分,例如判斷必填項(xiàng)是否缺失,印章中文字是否為公司名稱(chēng)等誤判率較高的情況。
本文通過(guò)準(zhǔn)確率(Accuracy)來(lái)評(píng)估蓋章文書(shū)圖像自動(dòng)審核功能的性能,計(jì)算公式為
本文采用隨機(jī)分層抽樣方法,對(duì)審核結(jié)果為“通過(guò)”和“不通過(guò)”的蓋章文書(shū)圖像從0 開(kāi)始進(jìn)行編號(hào),將其各分成1 000 個(gè)區(qū)間,在每個(gè)區(qū)間利用隨機(jī)數(shù)抽取1 個(gè)樣本,最終結(jié)果如表4 所示。
表4 隨機(jī)分層抽樣結(jié)果表Table 4 Random stratified sampling result table
由隨機(jī)分層抽樣結(jié)果計(jì)算得到自動(dòng)審核的準(zhǔn)確率為98.3%,本文所提出的自動(dòng)審核功能的準(zhǔn)確率高,能夠滿(mǎn)足自動(dòng)審核的要求。
早期的蓋章文書(shū)全部依靠人工審核,存在效率低下、成本高、長(zhǎng)時(shí)間審核容易出錯(cuò)等問(wèn)題。人工審核效率慢,與蓋章文書(shū)增長(zhǎng)速率不匹配,導(dǎo)致積壓待審核文書(shū)十余萬(wàn)份。為了解決這個(gè)問(wèn)題,本文提出了一種基于OCR 和圖像檢測(cè)的蓋章文書(shū)圖像自動(dòng)審核方法。本文對(duì)蓋章文書(shū)的特征進(jìn)行分析,使用目標(biāo)檢測(cè)算法和文字識(shí)別技術(shù),實(shí)現(xiàn)了蓋章文書(shū)的自動(dòng)審核:1)基于數(shù)字圖像處理的常用方法對(duì)蓋章文書(shū)圖像進(jìn)行預(yù)處理,包括截半、旋轉(zhuǎn)等。2)將經(jīng)過(guò)預(yù)處理的蓋章文書(shū)圖像使用SegLink 模型來(lái)確定其文本信息。3)基于深度學(xué)習(xí)的CRNN 模型對(duì)文本信息進(jìn)行識(shí)別,輸出文字內(nèi)容信息。4)通過(guò)基于深度學(xué)習(xí)的YOLOv3 模型對(duì)蓋章文書(shū)圖像進(jìn)行印章識(shí)別,確定印章類(lèi)型和位置。5)將提取出的印章使用極坐標(biāo)變換法使印章文字轉(zhuǎn)為水平,之后通過(guò)文字識(shí)別模型得到印章內(nèi)容。6)根據(jù)預(yù)設(shè)的內(nèi)容審核規(guī)則對(duì)蓋章文書(shū)圖像內(nèi)容進(jìn)行審核,最終輸出審核結(jié)果。
在設(shè)置處理步驟順序過(guò)程中,考慮到蓋章文書(shū)特性、各步驟性能,將印章檢測(cè)步驟放在最前,一方面是因?yàn)槁┥w、錯(cuò)蓋印章的負(fù)例比例較大,另一方面YOLOv3 模型檢測(cè)印章速率遠(yuǎn)大于文本識(shí)別速率,因此能夠快速篩選掉不符合要求的蓋章文書(shū)。
由于該方法應(yīng)用于金融領(lǐng)域的蓋章文書(shū)識(shí)別,對(duì)于準(zhǔn)確率要求較高。因此在審核結(jié)果中設(shè)置了待定選項(xiàng),例如印章文字識(shí)別步驟錯(cuò)誤率高,如果識(shí)別出的文字不能完全對(duì)應(yīng)公司名稱(chēng),則將審核結(jié)果判別為待定,交由人工審核。這樣能夠保障審核結(jié)果的準(zhǔn)確率,符合應(yīng)用領(lǐng)域要求。
目前基于本方法的自動(dòng)審核功能運(yùn)行穩(wěn)定,審核方法審核準(zhǔn)確率較高。在此基礎(chǔ)上,針對(duì)神經(jīng)網(wǎng)絡(luò)模型還將引入學(xué)習(xí)功能,根據(jù)上傳的蓋章文書(shū)圖像文件對(duì)文字識(shí)別和印章識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重,進(jìn)而學(xué)習(xí)到更準(zhǔn)確的特征;在業(yè)務(wù)完善方面,信息比對(duì)功能正在開(kāi)發(fā)中,審核人員可以對(duì)上傳的蓋章文書(shū)圖像和識(shí)別的文字內(nèi)容在界面上進(jìn)行比對(duì),讓審核人員能在系統(tǒng)中更加直觀地了解審核情況,方便后續(xù)做出相應(yīng)的處理。