摘要:為進一步優(yōu)化政務(wù)服務(wù)提升行政效能,通過模式創(chuàng)新和數(shù)據(jù)賦能等途徑,在不同業(yè)務(wù)場景實現(xiàn)高效辦理和有效數(shù)據(jù)治理是當今時代賦予政務(wù)服務(wù)改革的命題。政務(wù)服務(wù)大廳通常面臨系統(tǒng)數(shù)據(jù)不互通、各種系統(tǒng)要求審批信息多次錄入的情況,這增加審批人員負擔,阻礙了數(shù)據(jù)的有效共享。文章以昆山市為例,闡述了政務(wù)服務(wù)“數(shù)字員工”系統(tǒng)設(shè)計,包括數(shù)據(jù)采集、自動化填報、智能輔助審批、基于政務(wù)服務(wù)平臺的數(shù)據(jù)共享和后臺管理監(jiān)督功能,為提升政務(wù)服務(wù)效能、促進數(shù)據(jù)共享提供了一個有效的途徑。
關(guān)鍵詞:Python;數(shù)字員工;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)采集
中圖分類號:TP391.9 文獻標識碼:A
文章編號:1009-3044(2024)27-0038-04
0 引言
隨著我國在政務(wù)服務(wù)領(lǐng)域改革不斷深入,一網(wǎng)通辦建設(shè)對數(shù)據(jù)共享應(yīng)用方面需求越來越大,這要求數(shù)據(jù)的標準化、橫向系統(tǒng)整合和業(yè)務(wù)高度協(xié)同。同時各部門信息系統(tǒng)也在自身業(yè)務(wù)需求上快速迭代更新,這就帶來了問題:異構(gòu)信息系統(tǒng)數(shù)據(jù)共享困難,一線審批人員對每筆業(yè)務(wù)需要在多個系統(tǒng)進行填報錄入,數(shù)據(jù)歸集存在完整性、正確性和及時性上的質(zhì)量問題。當業(yè)務(wù)量大時容易發(fā)生錄入錯誤,同時也影響了工作效率,不利于政務(wù)服務(wù)領(lǐng)域數(shù)據(jù)治理。對于通過軟件層面開發(fā)對接功能來實現(xiàn)數(shù)據(jù)共享是一種途徑,但費時費力成本高,且不適用于業(yè)務(wù)的動態(tài)變化。
本文主要面向政務(wù)服務(wù)大廳審批人員在日常審批服務(wù)時,需要多個系統(tǒng)重復錄入的問題,展開機器人數(shù)據(jù)搬運的應(yīng)用設(shè)計,將“數(shù)字員工”和政務(wù)服務(wù)相結(jié)合,實現(xiàn)數(shù)據(jù)采集上報、智能輔助審核及其他管理系統(tǒng)間共享等應(yīng)用,將工作人員從煩瑣的信息報送操作中解放出來,提升工作效率和數(shù)據(jù)共享便捷度。
1 相關(guān)技術(shù)概念
1.1 RPA 智能機器人
RPA智能機器人是通過計算機軟件編制,面向有規(guī)則、重復任務(wù)場景,實現(xiàn)操作自動化處理的程序或腳本,具有低代碼、非入侵等特性,可快速部署投產(chǎn),是一種數(shù)字化的勞動力。目前主流的RPA產(chǎn)品有Ui?Path、Blue Prism、Automation Anywhere、UiBot 等[1],技術(shù)功能成熟,但是商用收費性質(zhì),且在數(shù)據(jù)二次開發(fā)利用、個性功能定制等方面存在不足。
1.2 基于Python 的爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲是面向互聯(lián)網(wǎng)網(wǎng)頁,可模擬瀏覽器訪問行為,通過獲取網(wǎng)頁代碼,再解析信息,對網(wǎng)頁上的其他鏈接地址可根據(jù)不同算法進行隊列訪問,實現(xiàn)自動化處理的程序[2]。Python 是一款功能強大的編程語言,美國電氣和電子工程師學會會刊將其評為2023年度編程語言排行榜之首[3],,擁有豐富的功能庫支持,在人工智能開發(fā)方面被廣泛應(yīng)用[4]?;赑ython網(wǎng)絡(luò)爬蟲包括了URL管理、網(wǎng)頁下載和解析、數(shù)據(jù)存儲和數(shù)據(jù)分析等功能[5],常用功能庫包括用于網(wǎng)頁請求的Urllib、Requests、Httpx,用于網(wǎng)頁數(shù)據(jù)解析的庫lxml、pyquery、BeautifulSoup、parsel等,用于數(shù)據(jù)分析的Mat?plotlib、Pandas、NumPy等;Scrapy是Python開發(fā)的爬蟲框架,基于Twisted 異步架構(gòu),部署靈活,支持深度定制開發(fā),適用于多業(yè)務(wù)環(huán)境下高并發(fā)的復雜操作[6]。
2 業(yè)務(wù)需求分析
在政務(wù)服務(wù)領(lǐng)域,審批工作面臨著普遍特性:1) 多次錄入。大部分許可類業(yè)務(wù)都基于部門條線業(yè)務(wù)系統(tǒng)操作。政務(wù)服務(wù)中心參照“互聯(lián)網(wǎng)+政務(wù)服務(wù)”技術(shù)標準建設(shè)的政務(wù)服務(wù)平臺,主要作用是統(tǒng)一受理和辦件信息歸集共享,兩類系統(tǒng)在數(shù)據(jù)結(jié)構(gòu)標準上存在差異,且系統(tǒng)因跨部門、跨行政層級等問題無法對接;部分業(yè)務(wù)在基層審批系統(tǒng)操作完后需要在省級管理平臺再錄入;作為橫向部門的信用信息公示、“互聯(lián)網(wǎng)+監(jiān)管”等基于綜合管理要求,須將審批數(shù)據(jù)實時地報送。這就造成了審批人員的多系統(tǒng)操作錄入;2) 網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)特性。除公安等系統(tǒng)要求運行于專網(wǎng)物理隔離外,其余審批服務(wù)類系統(tǒng)運行于電子政務(wù)外網(wǎng),數(shù)據(jù)層面審批工作在業(yè)務(wù)系統(tǒng)錄入審核數(shù)據(jù),對應(yīng)字段范圍是相對固定;3) 智能助審可行性。對于申請材料信息格式化提取后,可基于規(guī)則由程序來進行判定,實現(xiàn)機器審核。但從法理上行政審批須由審批人員基于行政職能來實施,因此機器審核結(jié)果可以作為審批工作的參考,發(fā)揮輔助性作用,從此視角可以開發(fā)智能助審功能。
基于上述特性,面向政務(wù)服務(wù)的“數(shù)字員工”系統(tǒng)設(shè)計采用以下的技術(shù)路線:1) 采用基于Python的爬蟲技術(shù)實現(xiàn)定向數(shù)據(jù)搬運,系統(tǒng)運行于電子政務(wù)外網(wǎng)環(huán)境;2) 結(jié)合業(yè)務(wù)審核規(guī)則,對數(shù)據(jù)進行機器解析判別,為審批業(yè)務(wù)提供輔助功能;3) 發(fā)揮政務(wù)服務(wù)平臺樞紐作用,對采集數(shù)據(jù)進行格式化后,共享給其他管理類系統(tǒng),減少審批人員工作量;4) 對爬取數(shù)據(jù)進行沉淀,實現(xiàn)一定程度統(tǒng)計分析管理。
3 系統(tǒng)架構(gòu)設(shè)計
政務(wù)服務(wù)“數(shù)字員工”系統(tǒng)設(shè)計包括了:基于客戶端的數(shù)據(jù)抓取和填報模塊,基于服務(wù)端數(shù)據(jù)共享服務(wù)、智能輔助審核、狀態(tài)監(jiān)控和可視化分析模塊,基于政務(wù)服務(wù)平臺辦件信息管理和共享應(yīng)用,系統(tǒng)框架設(shè)計如圖1所示:
1) 客戶端數(shù)據(jù)抓取是面向被抓取原系統(tǒng),通過設(shè)置參數(shù),系統(tǒng)定位到數(shù)據(jù)展示頁面,爬取數(shù)據(jù)后存入本機和服務(wù)端數(shù)據(jù)庫。數(shù)據(jù)填報是面向不可對接、需要二次錄入的目標系統(tǒng),對需要人工干預(yù)場景提供插件式觸發(fā)填報,無須人工干預(yù)場景實現(xiàn)自動化填報。
2) 服務(wù)端除數(shù)據(jù)庫存儲外,共享服務(wù)提供了向第三方系統(tǒng)的辦件推送;智能審核管理則根據(jù)獲取的申報材料和審核規(guī)則提供文字解析和輔助性預(yù)審能力;機器人狀態(tài)監(jiān)控對客戶端部署的機器人實施可用性檢測;可視化統(tǒng)計則對爬取數(shù)據(jù)提供可視化圖表展示功能。
3) 政務(wù)服務(wù)平臺則發(fā)揮了數(shù)據(jù)和應(yīng)用的樞紐,提供個性化業(yè)務(wù)申報和受理功能,通過調(diào)用服務(wù)端智能助審能力來展示機器分析結(jié)果,實現(xiàn)智能助審。同時通過辦件數(shù)據(jù)的再次交換向其他管理類軟件實現(xiàn)數(shù)據(jù)報送,減少審批人員的多次錄入。
4 關(guān)鍵功能設(shè)計
4.1 受理信息采集
面向一些業(yè)務(wù)由本級系統(tǒng)受理審批,但需要向條線管理系統(tǒng)進行信息報送,且系統(tǒng)無法對接的場景,采用的策略是由機器人進行受理系統(tǒng)的信息抓取和填報。信息采集的流程如圖2所示:
1) 模擬登錄。采集動作的發(fā)起由操作人員或可以設(shè)置成系統(tǒng)自動運行。程序運行首選要加載Re?quests、BeautifulSoup、xlwt等功能庫,初始化爬取訪問會話Session,設(shè)置模擬訪問頭部用戶代理User-Agent 信息,定位業(yè)務(wù)系統(tǒng)登錄地址LOG_URL,將用戶名和密碼設(shè)置到登錄參數(shù)后,調(diào)用會話Post方法登錄系統(tǒng),并通過會話模式保持登錄狀態(tài)。
對運行于電子政務(wù)網(wǎng)的業(yè)務(wù)系統(tǒng),通常情況僅限于用戶名和賬號登錄認證,不設(shè)置登錄驗證碼。對于需要登錄驗證碼識別的情況,可引入基于tesserocr庫的OCR圖像識別、基于opencv-python庫滑動窗口識別功能,但識別效率不高,不適用于自動模擬登錄,對此情況則由操作人員人工完成登錄。
2) 計算關(guān)鍵字列表。登錄業(yè)務(wù)系統(tǒng)后,系統(tǒng)的統(tǒng)計頁面可查詢受理記錄,并分頁顯示,頁面地址特性在查詢頁面地址通過后綴參數(shù):&page=‘頁數(shù)’來分頁,每條記錄顯示主要關(guān)鍵字信息。對此構(gòu)建統(tǒng)計頁地址LIST_URL‘, 頁數(shù)’作為變量參數(shù),通過采用分頁循環(huán)的方式,利用會話Get方式獲取頁面源碼、Beauti?fulSoup.find_all方式解析記錄列表值,通過字段解析形成關(guān)鍵字數(shù)據(jù)列表。列表中受理記錄的受理時間、記錄編號都是遞增和降序排列,通過比較數(shù)據(jù)庫中歷史業(yè)務(wù)受理時間,截取形成最新受理記錄關(guān)鍵字列表need_List。
3) 建立記錄屬性數(shù)據(jù)集。在統(tǒng)計頁面點擊鏈接可打開記錄詳情頁面,地址特性是系統(tǒng)地址后綴參數(shù):&id=‘記錄編號’來表示,構(gòu)建記錄詳情頁面的 URL 地址(Detail_URL) ,使用記錄編號(id) 作為變量參數(shù)。在遍歷need_List列表時,通過每條記錄的編號屬性定位到對應(yīng)的詳情頁面,并解析記錄的各個屬性值,從而形成本次采集的數(shù)據(jù)集。最后,將數(shù)據(jù)提交到數(shù)據(jù)庫保存,并利用xlwt庫將數(shù)據(jù)寫入客戶端的 Excel 文件。
4.2 辦件信息填報
1) 全自動填報。對于采集記錄各屬性值完全符合在目標系統(tǒng)填報,而無須人工干預(yù)的情況,基于Py?thon技術(shù)實現(xiàn)自動填報處理。開啟自動填報流程后,系統(tǒng)首先完成自動登錄目標業(yè)務(wù)系統(tǒng),處理方式同數(shù)據(jù)采集模塊,登錄后系統(tǒng)通過時間段和采集狀態(tài),讀取比對數(shù)據(jù)庫記錄,形成本次需要填報的記錄數(shù)據(jù)集put_List。然后進行遍歷put_List,根據(jù)記錄item的業(yè)務(wù)分類屬性確定目標系統(tǒng)業(yè)務(wù)提交的頁面地址PUT_URL_X,對頁面表單中屬性值進行對應(yīng)item數(shù)據(jù)賦值,然后通過會話的Post方法提交數(shù)據(jù)記錄,并訪問數(shù)據(jù)庫對記錄填報狀態(tài)值進行標記,以此來完成數(shù)據(jù)集數(shù)據(jù)全部自動填報,辦理信息填報流程如圖3所示。
2) 半自動填報。對于只需要將指定的采集記錄進行目標系統(tǒng)填報,或通過采集記錄填報后,存在若干屬性值需人工補充填報的情況,則利用JavaScript 技術(shù)構(gòu)建瀏覽器插件方式實現(xiàn)半自動填報。首先需要用戶人工登錄目標業(yè)務(wù)系統(tǒng),定位到系統(tǒng)填報頁面,然后通過瀏覽器“管理擴展功能”打開JS插件,插件功能實現(xiàn)通過人工輸入記錄編號等關(guān)鍵字信息,向服務(wù)器調(diào)取記錄的全部屬性值,通過JS技術(shù)向頁面的各文本框組件進行賦值,對須補充填報的信息,由人工進行填報,再人工點擊提交按鈕完成半自動填報。
4.3 輔助審核
在政務(wù)服務(wù)領(lǐng)域,對于事項的審核聚焦在附件表格字段信息比對,當字段信息取值范圍確定,比對規(guī)則固定,則可以引入機器審核的功能,通過智能化字段信息解析比對,實現(xiàn)材料附件的要素審核,其審核的結(jié)果可應(yīng)用在政務(wù)服務(wù)平臺,作為輔助性審核參考依據(jù),以此來減輕審核人員的工作強度,提高審批效率。在服務(wù)端建立輔助審核模塊,同政務(wù)服務(wù)平臺進行數(shù)據(jù)協(xié)同應(yīng)用,實現(xiàn)平臺的智能化輔助審核,工作流程如圖4所示。
1) 申報人員通過政務(wù)服務(wù)網(wǎng)統(tǒng)一用戶認證進行登錄,定位到申報事項后進入申報頁面,在申報頁面上傳材料附件,附件在政務(wù)服務(wù)網(wǎng)辦事指南中有樣本可下載,用戶須按樣本要求進行填報。
2) 政務(wù)服務(wù)平臺在接收到材料附件后,傳送至服務(wù)端的輔助審核模塊處理;模塊首先進行附件材料解析,不同事項對應(yīng)上傳附件材料不同,通過對事項的樣本材料建立解析讀取功能,形成事項整個材料解析規(guī)則功能集合,用于解析環(huán)節(jié)調(diào)用。模塊應(yīng)用到Python-docx、Pandas、Pytesseract等庫對Word、Excel和圖片進行讀取。
3) 審核功能環(huán)節(jié),通過對關(guān)鍵字信息的取值范圍的比對設(shè)計功能函數(shù),形成附件審核要點的規(guī)則功能庫。附件審核時對解析字段信息調(diào)用審核規(guī)則功能,獲取該要點審核結(jié)果記錄,所有要點審核完成后反饋政務(wù)服務(wù)平臺,后者以提示信息的方式將機器審核的結(jié)果記錄列表進行展示,供審批人員進行比對參考。
4.4 政務(wù)服務(wù)平臺應(yīng)用
基于“數(shù)字員工”系統(tǒng)數(shù)據(jù)采集后,可將辦件信息歸集至政務(wù)服務(wù)平臺,平臺可發(fā)揮樞紐作用,實現(xiàn)政務(wù)服務(wù)管理及信息二次復用,其流程如圖5所示。
1) 辦件信息歸集,政務(wù)服務(wù)平臺要求完成本級政務(wù)服務(wù)事項辦件信息歸集,“數(shù)字員工”對部門業(yè)務(wù)系統(tǒng)進行數(shù)據(jù)采集后,可以通過API接口方式,將辦件信息推送至政務(wù)服務(wù)平臺,后者對辦件數(shù)據(jù)的格式定義是基于統(tǒng)一標準格式。存在部門業(yè)務(wù)系統(tǒng)字段信息同政務(wù)服務(wù)平臺標準不一致的情況,如政務(wù)服務(wù)平臺對事項名稱和編碼是根據(jù)全省統(tǒng)一的政務(wù)服務(wù)事項庫定義,要求三級四同,但業(yè)務(wù)系統(tǒng)的業(yè)務(wù)名稱根據(jù)部門自定義,此時需要政務(wù)服務(wù)平臺進行數(shù)據(jù)的修正。
2) 政務(wù)服務(wù)管理,對于從“數(shù)字員工”系統(tǒng)獲取的辦件信息,政務(wù)服務(wù)平臺實現(xiàn)管理功能,一是完成辦件歸集上報,辦件存入辦件庫,并同步至上級政務(wù)服務(wù)平臺;二是辦件信息公示,在政務(wù)服務(wù)網(wǎng)的旗艦店提供辦件信息公示,提供按事項名稱、編碼、申請人等信息查詢辦理狀態(tài)的功能;三是大廳管理,對辦件信息進行統(tǒng)計分析,開發(fā)可視化功能,對進駐政務(wù)服務(wù)大廳的窗口業(yè)務(wù)量、業(yè)務(wù)類型進行趨勢圖分析,實現(xiàn)一定的管理分析功能;四是政務(wù)服務(wù)平臺“好差評”功能,面向公眾提供辦件評價功能,督促服務(wù)質(zhì)量改進。
3) 信息共享復用,政務(wù)服務(wù)平臺通過對接市公共數(shù)據(jù)底座平臺,將辦件信息數(shù)據(jù)資源進行編目和掛載共享。通過公共數(shù)據(jù)底座平臺,數(shù)據(jù)可同步至信用信息管理平臺、“互聯(lián)網(wǎng)+監(jiān)管”平臺、基層審批服務(wù)執(zhí)法“三整合”平臺等綜合性的管理系統(tǒng),為數(shù)字化治理提供支撐。各部門對審批辦件信息有需求的也可按需申請共享,以此實現(xiàn)數(shù)據(jù)共享復用。
4.5 統(tǒng)計監(jiān)督功能
對政務(wù)服務(wù)“數(shù)字員工”系統(tǒng)的運行情況,從管理角度設(shè)計以下幾方面功能:一是數(shù)據(jù)匯聚統(tǒng)計,對“數(shù)字員工”處理過的所有數(shù)據(jù),均存入服務(wù)端數(shù)據(jù)庫,建立基于Web服務(wù)的查詢功能,提供按業(yè)務(wù)、時間等維度進行查詢統(tǒng)計,設(shè)計了柱狀圖月度業(yè)務(wù)統(tǒng)計表,如圖6所示,以便管理人員分析業(yè)務(wù)情況;二是服務(wù)監(jiān)督功能,數(shù)據(jù)采集模塊會以腳本批處理方式每日定時運行或是由審批人員觸發(fā)執(zhí)行,系統(tǒng)會根據(jù)業(yè)務(wù)特性設(shè)定一個的時間監(jiān)督閾值,在時間監(jiān)督閾值內(nèi)有采集數(shù)據(jù)入庫,則視為采集模塊正?;钴S,否則視為靜默異常,并在后臺系統(tǒng)界面用警示圖標表示,管理人員可以向前端窗口排查問題,進行應(yīng)用功能恢復。
5 應(yīng)用成效
昆山市政務(wù)服務(wù)中心啟用“數(shù)字員工”系統(tǒng),在市場主體登記、公共衛(wèi)生許可、網(wǎng)約出租車許可、道路運輸許可等業(yè)務(wù)場景進行了試點。2023年8月至2024 年4月,“數(shù)字員工”處理的業(yè)務(wù)辦件情況如圖7所示,累計處理辦件58 524件。從時間效益成本分析,一筆審批業(yè)務(wù),在通過業(yè)務(wù)系統(tǒng)審批操作后,由人工錄入到其他管理系統(tǒng),需要業(yè)務(wù)查詢、信息錄入、核對、提交等操作,平均用時約3分鐘,由此“數(shù)字員工”處理的辦件量折算人工時耗約2 926小時,這部分人工時間成本通過“數(shù)字員工”機器處理方式進行了抵消,極大減輕了審批人員壓力,增加了數(shù)據(jù)錄入的準確性,為審批信息的共享復用提供了高效的途徑,系統(tǒng)的運行在政務(wù)服務(wù)管理方面取得了明顯的成效。
6 結(jié)束語
本文針對政務(wù)服務(wù)領(lǐng)域面臨的辦件信息多次錄入的情況,分析了業(yè)務(wù)場景的特點,介紹了網(wǎng)絡(luò)爬蟲技術(shù)特性,并闡述了基于Python的政務(wù)服務(wù)“數(shù)字員工”系統(tǒng)設(shè)計。系統(tǒng)提供了辦件數(shù)據(jù)抓取功能,實現(xiàn)了自動化和半自動的數(shù)據(jù)填報,并結(jié)合政務(wù)服務(wù)平臺實現(xiàn)了輔助審核功能,同時發(fā)揮政務(wù)服務(wù)平臺樞紐功能,對采集數(shù)據(jù)通過公共數(shù)據(jù)底座向其他管理類系統(tǒng)進行共享,在服務(wù)端設(shè)計了對采集數(shù)據(jù)分類統(tǒng)計和服務(wù)監(jiān)控的功能。系統(tǒng)自投入使用后,極大地緩解了審批人員反復錄入的壓力,促進了辦件數(shù)據(jù)信息的共享復用,發(fā)揮了積極的成效。下一步系統(tǒng)將圍繞數(shù)據(jù)政府建設(shè),聚焦數(shù)據(jù)場景開發(fā)利用,將“數(shù)字員工”投入更多業(yè)務(wù)場景,為數(shù)據(jù)共享發(fā)揮橋梁作用,同時將不斷探索利用OCR技術(shù)來提高對申報材料附件的識別,加強對手寫體識別功能,結(jié)合電子證照應(yīng)用來進一步提升審批服務(wù)的智能化水平。
參考文獻:
[1] 朱龍春.RPA智能機器人:實施方法和行業(yè)解決方案[M].北京:機械工業(yè)出版社,2020:17-18.
[2] 崔慶才.Python 3網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)[M].2版.北京:人民郵電出版社,2021:19-20.
[3] Stephen Cass.The Top Programming Languages 2023[EB/OL].[2023-08-29].https://spectrum.ieee.org/the-top-programminglanguages-2023.
[4] 黎孟雄,李楊.基于Python的MOOC評論情感分析系統(tǒng)的研究與設(shè)計[J].湖南工業(yè)職業(yè)技術(shù)學院學報,2023,23(6):19-25.
[5] 姜秋香,郭偉鵬,王子龍,等.Python語言在水文水資源領(lǐng)域中的應(yīng)用與展望[J].計算機工程與應(yīng)用,2023,59(9):46-58.
[6] 張明杰,王妮,李怡.基于網(wǎng)絡(luò)爬蟲的輿情情感分析系統(tǒng)設(shè)計與實現(xiàn)[J].電腦編程技巧與維護,2023(3):171-173.
【通聯(lián)編輯:梁書】