國網(wǎng)福建省電力有限公司信息通信分公司 陳嚴紓 林彧茜 蔡宇翔 方略斌
福建億榕信息技術有限公司 盧偉龍 蔡映紅
生活中有很多文檔數(shù)據(jù)都是以圖像的方式儲存在網(wǎng)絡系統(tǒng)中,而如何將這些非結構化的圖像數(shù)據(jù)轉換成結構化內容是實際發(fā)展的重難點。本文研究選用了改進后的區(qū)域卷積神經(jīng)網(wǎng)絡,也就是Faster- CNN結構的深度學習網(wǎng)絡模型,并利用投影計算算法對數(shù)字研發(fā)系統(tǒng)中非結構化的文檔圖像實施版面內容進行自動分類和定位,并針對識別、獲取轉換非結構化文檔圖像當中的表格,最終得到非結構化數(shù)據(jù)的融合方法。
對非結構化的文檔圖像而言,其是由前景因素與背景因素兩部分構成,而二值化的根本目的在于利用計算圖像當中包含的像素值,將一副圖像轉變?yōu)橹淮嬖诤诎變煞N像素點的圖像,以此提取圖像當中的前景因素。此時,所對應二值化的變化函數(shù)公式為:
其中,T代表閾值,同樣也是計算二值化最重要的一步。除此之外,也有其他方法進行處理,例如全局閾值法、局域閾值法以及自適應閾值法等。本文研究所選閾值法,設非結構化文檔圖片是I(x,y),圖像大小是W×H,分割前景圖像和背景圖像之間的閾值為T,前景像素點數(shù)量和整體圖像的像素點數(shù)量之間的比例為η0,而背景像素點數(shù)量和整體圖像的像素點數(shù)量之間的比例是η1,且圖像的總體灰度數(shù)值為λ,前景背景的灰度數(shù)值為λ0,背景像素的灰度數(shù)值為λ1。對比圖像當中的灰度值和閾值可知,低于獲取閾值的像素點數(shù)量是a,超過閾值的像素點數(shù)量是a,方差可以記作ω。
而在降噪中,一般會利用不同類型的低通濾波器清除圖像當中的高頻,促使圖像在一定意義上變得更加模糊,最終達成降噪的目標。在實際操作中,最常見的降噪方法有很多種,例如中值濾波、均值濾波等。本文研究以均值濾波為例,在實際操作過程中就是利用一個具備歸一化特點的卷積框在模版窗口覆蓋范圍內所有像素之間獲取的平均數(shù)值取代原有圖像中的像素點灰度值。假設處理圖像I(x,y),圖像當中某點噪聲坐標為(x0,y0),灰度數(shù)值是g(xn,yn)。運用大小是a×a的卷積框實施降噪,其中灰度值的計算公式為:
將表格圖像按照豎直方向劃分成五分高度相等的矩形,可以用Ri來表示,其中i=0,1,2,3,4,且高度都是Htable/ 5,寬度是Wtable。根據(jù)投影計算得到的數(shù)值,將其放在水平投影數(shù)組中,且N=5,那么其中所包含的所有元素sp[i]的數(shù)值就是Ri,且i=0,1,2,3,4,這也代表全部前景像素的總數(shù)。
Faster R- CNN作為定位非結構化文檔中各類結構的有效手段,在目標檢測算法操作中,F(xiàn)aster R- CNN是相對運算速度更快和精度更高的一種應用算法。從實際角度來看,F(xiàn)aster R- CNN有效整合了Region Proposal Network(RPN)網(wǎng)絡和Faster R- CNN網(wǎng)絡,并由此構建了網(wǎng)絡結構,相對應的損失函數(shù)公式為:
其中,Ncls運用ni-batch size對256對分類損失函數(shù)Lcls實施標準化處理,具體可以表示為:
且Nreg利用錨點數(shù)量為2400個對回歸損失函數(shù)Lreg實施標準化處理,具體公式為:
其中,R函數(shù)是指:
為了確保表格可以被快速轉換為Excel格式的文檔,從而對其中包含的內容實施可編輯操作,而后對識別表格進行分類操作,且利用更為精準的圖像算法進行輔助操作,再對不同類型表格在圖像處理層面進行科學處理,進而降低轉換的錯誤率。在對表格識別分類時,最重要的是明確表格的明顯特征,并利用加工處理達成實驗目標。在本文研究中,按照現(xiàn)階段大部分表格的表現(xiàn)形式,并按照表格的基本線性特點分離處理表格,例如,全線表格、純橫線表格、色彩相間的表格、無限表格等。通過利用HSV通道,正確區(qū)分相同色系下不同類顏色,并根據(jù)通道的明度數(shù)值進行研究。
針對非結構文檔版面的豎直和水平兩種方向,有效結合投影計算和深度學習網(wǎng)絡Faster R- CNN的操作方式,幫助整體系統(tǒng)利用最少的計算方式,對圖片、表格以及文字的位置進行準確定位和分類。一方面為了便于后續(xù)計算分析,需要先對非結構文檔實施預處理,從而促使其可以轉化成可操作的圖片,運用Python代碼當中的Java接口轉換文檔,這種方法在應用期間并不會出現(xiàn)多余的文件占據(jù)系統(tǒng)內存;另一方面可以減少轉換和計算時間,能充分處理容量龐大的文檔系統(tǒng)。
結合Faster R- CNN識別得到的結果分析,真實數(shù)值和預測數(shù)值之間的關系如圖1所示。
圖1 關系圖
通過觀察圖1可以發(fā)現(xiàn),在loU數(shù)值接近1的情況下,本文研究數(shù)字研發(fā)系統(tǒng)的預測結果更接近于真實數(shù)值。在Faster R- CNN網(wǎng)絡訓練,利用自主構建的數(shù)據(jù),在標記中完成訓練。以3000張圖片為例,按照6:1的概率隨機分配到訓練集和測試集中,并統(tǒng)計分析圖片當中包含的文本、表格等數(shù)據(jù)量,而后完成訓練驗證。
在研究分析中,如果預測數(shù)據(jù)和真實數(shù)據(jù)的交并比閾值是0.7,在完成30000次迭代訓練之后,m AP的指數(shù)是71.3,且損失函數(shù)非常接近于0.01。
觀察圖1發(fā)現(xiàn),在完成訓練之后的非結構化文檔圖片的識別結果,綠色邊框代表文字內容,黃色邊框代表表格內容,再對比實驗數(shù)據(jù)內容后發(fā)現(xiàn),實際識別結果非常有效,且沒有出現(xiàn)過于嚴重的錯誤情況,和其他算法相比,分類的準確性雖然不高,但整體結果的滿意度非常高。
在本文概述實驗中,準確識別并轉換出的文檔形式圖片的表格樣本數(shù)量是100張,實際轉換率可以達到92%,相比同類文獻識別概率分析可知,其他所選方法的準確識別率只有86.97%。由此可知,針對非結構化數(shù)據(jù)的文字、圖片以及表格等進行全面分類和定位,并統(tǒng)一分析其中的識別數(shù)值和轉換概率,不僅能發(fā)現(xiàn)其中存在的問題,而且可以為后續(xù)實驗分析和探索提供更多依據(jù)。
結語:綜上所述,在分析數(shù)字研發(fā)系統(tǒng)中非結構化數(shù)據(jù)融合方法時,利用Faster R- CNN和圖像算法有效結合餓的方式對其進行全面分析,能在準確定位和識別的基礎上,完成版面分析工作。需要注意的是,因為Faster R- CNN算法對數(shù)據(jù)集的要求過低,且不需要利用過于繁瑣的圖像算法進行操作,所以可以能充分保障文檔圖片當中定位分類的有效性和精確性。同時,根據(jù)識別分類所獲取的信息,對橫縱線不完善的表格進行優(yōu)化,以此完成所有單元格的切分儲存,并按照Excel格式進行內容重新構建。另外,本文利用圖像算法和Faster R- CNN進行表格識別,可以提升實際識別效率,并對表格分類進行逐一細化,而后優(yōu)化不同類型表格的算法識別處理工作。