廣東電網(wǎng)有限責(zé)任公司廣州供電局 梁林森
近年來,全國醫(yī)療服務(wù)的就診人數(shù)持續(xù)提高,數(shù)量高達(dá)幾十億,很多企業(yè)收到的醫(yī)療收費報銷單據(jù)也在迅速增長,然而這類醫(yī)療收費票據(jù)的處理依然停留在傳統(tǒng)的人工處理方式階段,難以滿足企業(yè)工作需要?,F(xiàn)在借助成熟的OCR文字識別技術(shù)實現(xiàn)醫(yī)療收費報銷單據(jù)的自動錄入,將極大的提高財務(wù)人員的工作效率,縮短報銷時間。
技術(shù)簡述:OCR中文叫做光學(xué)字符識別,是利用光學(xué)技術(shù)和計算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計算機(jī)能夠接受、人又可以理解的格式。這項技術(shù)已經(jīng)比較成熟,應(yīng)用風(fēng)險也低。OCR一般可分為手寫體識別和印刷體識別,識別內(nèi)容則包括漢字、英文字母、阿拉伯?dāng)?shù)字、常用標(biāo)點符號等。一套OCR處理流程基本可分為版面分析、預(yù)處理、行列切割、字符識別、后處理識別矯正共計5個步驟。
技術(shù)特點:基于OCR技術(shù)建立的各種圖像識別應(yīng)用系統(tǒng)大都可歸納為特征提取、文字定位、光學(xué)識別、語言模型四個方面。在建立的識別應(yīng)用系統(tǒng)中,原始圖像的數(shù)據(jù)質(zhì)量影響最終的識別結(jié)果。例如:拍照或掃描模糊,有斜角、反向等,這些都需要在特征提取前做好預(yù)處理。同時OCR有一個識別正確率的限制,并不會完全100%識別準(zhǔn)確,目前對印刷體的識別率可達(dá)到99.8%,手寫體一般最高可達(dá)90%。因此,實現(xiàn)基于OCR技術(shù)的醫(yī)療收費票據(jù)自動錄入功能時需要考慮識別準(zhǔn)確率的情況,做好數(shù)據(jù)的后期矯正[1-2]。
當(dāng)前,醫(yī)療收費票據(jù)基本都是打印的紙質(zhì)票據(jù),需通過票據(jù)掃描設(shè)備轉(zhuǎn)化為影像掃描件。然后通過OCR識別技術(shù)進(jìn)行票據(jù)信息的提取,最后錄入財務(wù)相關(guān)系統(tǒng),機(jī)器或人工審核后執(zhí)行后續(xù)企業(yè)內(nèi)部報銷流程。圖1為票據(jù)數(shù)據(jù)流向的分析示意圖。
如圖1所示,原始紙質(zhì)票據(jù)轉(zhuǎn)化為掃描件圖像后,經(jīng)過預(yù)處理后分為兩類數(shù)據(jù):一是分割和規(guī)范化的單個字符的圖像;另一個是經(jīng)過校正去燥等處理的完整的票據(jù)圖像(圖1中處理后圖像分支)。分割后的圖像送入OCR識別器中識別,提取票據(jù)數(shù)據(jù)信息;處理后的圖像可按票據(jù)種類、日期、單位、醫(yī)院類型、住院(科室)等數(shù)據(jù)項進(jìn)行分類壓縮存放,可保存在磁帶、光盤等大容量存儲介質(zhì)上,供查詢和重新識別使用[3]。
實現(xiàn)醫(yī)療收費票據(jù)的自動錄入功能需構(gòu)建四大應(yīng)用模塊,按數(shù)據(jù)的流向,依次為票據(jù)影像自動獲取、票據(jù)識別、數(shù)據(jù)自動錄入(圖2)、人機(jī)數(shù)據(jù)審核。其中人機(jī)數(shù)據(jù)審核尤為重要,因為涉及到相關(guān)人員的報銷資金,如果以萬份錯誤率為功能符合度的指標(biāo),我們認(rèn)為萬份錯誤率<0.01%。通過人機(jī)數(shù)據(jù)審核功能,建立“機(jī)器+人工”的雙層核查機(jī)制,具體設(shè)計如下:
圖1 票據(jù)數(shù)據(jù)流向示意圖
創(chuàng)建系統(tǒng)自查自糾的數(shù)據(jù)約束規(guī)則,先由系統(tǒng)根據(jù)規(guī)則對錄入系統(tǒng)的數(shù)據(jù)進(jìn)行第一次核查,對發(fā)現(xiàn)的異常數(shù)據(jù)提交人工核查;人工對系統(tǒng)對提交的異常數(shù)據(jù)進(jìn)行識別,將正確的數(shù)據(jù)錄入系統(tǒng),提交后臺規(guī)則學(xué)習(xí)模型中進(jìn)行訓(xùn)練;人工對系統(tǒng)全部錄入的數(shù)據(jù)進(jìn)行隨機(jī)抽查,抽查發(fā)現(xiàn)錯誤的數(shù)據(jù),將正確的數(shù)據(jù)錄入系統(tǒng),提交后臺規(guī)則學(xué)習(xí)模型中進(jìn)行訓(xùn)練;通過上述三個過程的循環(huán)應(yīng)用,逐步提高系統(tǒng)自查自糾的能力,降低人工參與的機(jī)會,最終實現(xiàn)系統(tǒng)采集、識別、錄入、校對的全過程自動化處理。
圖2 醫(yī)療收費票據(jù)自動錄入輔助應(yīng)用結(jié)構(gòu)圖
目前,基于OCR技術(shù)的醫(yī)療收費票據(jù)自動錄入系統(tǒng)已在廣東電網(wǎng)公司廣州供電局財務(wù)共享中心上線運行,應(yīng)用效果也比較好,主要體現(xiàn)在以下兩點:
工作效率極大提升。系統(tǒng)上線運行前,對于財務(wù)人員來說最頭疼的就是發(fā)票的錄入和整理。人工錄入耗時低效、易出錯,人工校驗、糾正也會花費大量的時間?,F(xiàn)在發(fā)票通過掃描儀即可實現(xiàn)發(fā)票的識別、數(shù)據(jù)自動錄入、發(fā)票驗真等工作。以前1個月的發(fā)票錄入工作,現(xiàn)在3個小時內(nèi)可全部錄入系統(tǒng),工作效率得到了極大提升。
圖3 系統(tǒng)操作界面
與報銷系統(tǒng)高度集成,報銷時效大幅度縮短。這套醫(yī)療票據(jù)自錄入系統(tǒng)可以本地部署也可以云部署,直接對接企業(yè)財務(wù)共享中心,企業(yè)各地的員工通過手機(jī)客戶端即可完成發(fā)票的采集、識別、驗真[4]。后續(xù),員工出差后不需要回到辦公室貼發(fā)票、提交報銷單,隨時隨地都可以提交報銷申請,享受到了高效的醫(yī)療報銷體驗。
綜上,針對醫(yī)療收費票據(jù)報銷業(yè)務(wù),充分借鑒了OCR識別技術(shù)、移動應(yīng)用技術(shù),以及人工智能技術(shù),與之前傳統(tǒng)的票據(jù)人工錄入工作模式相比,通過系統(tǒng)識別自錄入功能的使用,極大的降低醫(yī)療發(fā)票錄入和整理的時間成本,提高了財務(wù)人員的業(yè)務(wù)專注度,也提高了財務(wù)報銷工作的及時率,準(zhǔn)確度,有比較好的推廣應(yīng)用價值。