文/鄭有為 計敏 唐樸謙
上海市公共資源交易中心(以下簡稱“交易中心”)于2020 年12 月24 日正式揭牌成立,標(biāo)志著上海市全市公共資源“一網(wǎng)交易”總門戶開通。上海市成立該公共資源交易中心的目的是進(jìn)一步落實《全國公共資源交易平臺系統(tǒng)評價考核辦法》,全面提升數(shù)據(jù)質(zhì)量,建設(shè)開發(fā)數(shù)據(jù)互聯(lián)互通系統(tǒng),搭建以大數(shù)據(jù)為依托的全新治理體系。自交易中心開通以來,上海市公共資源交易市場上的數(shù)據(jù)質(zhì)量實現(xiàn)了質(zhì)的提升,引領(lǐng)上海市在全國考核中名列前茅。
《全國公共資源交易平臺系統(tǒng)評價考核辦法》(發(fā)改辦法規(guī)〔2018〕8 號)明確指出,全國公共資源交易平臺系統(tǒng)考核評價指標(biāo)可劃分為以下五項一級指標(biāo):上傳數(shù)據(jù)準(zhǔn)確性、上傳數(shù)據(jù)覆蓋面、數(shù)據(jù)上傳及時性、數(shù)據(jù)上傳全面性以及運行維護(hù)情況。
交易中心的首要任務(wù)是與各交易分中心共同建立“全新”的數(shù)據(jù)互聯(lián)互通體系。因此,交易中心必須保證工程建設(shè)分中心、土地交易分中心等四大核心交易領(lǐng)域數(shù)據(jù)互通。2020年7 月,交易中心正式啟動數(shù)據(jù)互聯(lián)互通系統(tǒng)開發(fā)建設(shè)工作,該系統(tǒng)由Java(計算機(jī)編程語言)編寫,簡稱HLHT 系統(tǒng),即互聯(lián)互通的首字母合寫。HLHT系統(tǒng)的數(shù)據(jù)流處理架構(gòu)主要由以下四個組件構(gòu)成(見圖1)。
圖1 HLHT 系統(tǒng)數(shù)據(jù)流架構(gòu)
1. 數(shù)據(jù)文件日志化組件(Logging Module)
各交易分中心在調(diào)用由交易中心提供的互聯(lián)互通數(shù)據(jù)接口的同時,采用《公共資源交易平臺系統(tǒng)數(shù)據(jù)規(guī)范(V2.0)》中的數(shù)據(jù)模型封裝了與每一個數(shù)據(jù)集對應(yīng)的XML 文檔;將采集到的數(shù)據(jù)以XML 格式存儲在非結(jié)構(gòu)化數(shù)據(jù)處理組件的數(shù)據(jù)庫中;將每一次接口請求記錄與XML 文檔的索引統(tǒng)一存放在“交換記錄”(hlht.exchange_record)數(shù)據(jù)集中。
2. 數(shù)據(jù)入庫持久化組件(Persistence Module)
交換記錄是數(shù)據(jù)進(jìn)一步加工處理的重要基礎(chǔ)。通常,數(shù)據(jù)入庫持久化組件會按索引定時抽取交換記錄中各交易分中心的數(shù)據(jù)集,并針對其內(nèi)容分別做配置分發(fā)和數(shù)據(jù)落庫處理,例如:將解析后的XML 文檔落庫于“生產(chǎn)環(huán)境業(yè)務(wù)”(hlht.business_database)數(shù)據(jù)庫;由工程建設(shè)分中心上傳的招標(biāo)項目數(shù)據(jù)集將落庫存放于“招標(biāo)項目”(hlht.tender_project)數(shù)據(jù)集中。
3. 數(shù)據(jù)上報對象化組件(Transaction Module)
數(shù)據(jù)持久化入庫后就可以直接被前端業(yè)務(wù)功能調(diào)用,如發(fā)布官網(wǎng)公告等。而在數(shù)據(jù)通過前置機(jī)上報國家信息中心環(huán)節(jié),HLHT 系統(tǒng)的數(shù)據(jù)上報對象化組件會將業(yè)務(wù)數(shù)據(jù)整合在一起并生成上報對象,再將這些對象的上報記錄統(tǒng)一存放在“國家消息”(hlht.nation_message)數(shù)據(jù)集中。
4.上報同步可控化組件(Sync Module)
“國家消息”應(yīng)做到多維度同步可控,以確保工作人員可以根據(jù)實際需要精準(zhǔn)推送實戰(zhàn)場景。例如,當(dāng)上報對象完成初始化且同步狀態(tài)(nation_message.sync_status) 為0、成功上報至前置機(jī)時,該條記錄的同步狀態(tài)將設(shè)置為1,以實時掌握每一條數(shù)據(jù)的前置機(jī)上報狀態(tài)。
基于HLHT 系統(tǒng),交易中心的數(shù)據(jù)團(tuán)隊在三個月內(nèi)完成了四大核心領(lǐng)域以及兩類新興交易領(lǐng)域(碳排放權(quán)和藥品采購)的全覆蓋任務(wù)。此外,由于交易分中心開發(fā)資源不足,短期內(nèi)無法實現(xiàn)符合國家公共資源數(shù)據(jù)標(biāo)準(zhǔn)要求的接口支持,為更好地完成前置機(jī)遷移的切換上報①將國家信息中心的數(shù)據(jù)前置機(jī)從上海市經(jīng)濟(jì)信息中心遷移至上海市公共資源交易中心。,交易中心果斷增投人力資源,采用非接口直接寫庫的方式進(jìn)行對接。其間,數(shù)據(jù)團(tuán)隊重新編寫了一個數(shù)據(jù)轉(zhuǎn)換模塊以替代數(shù)據(jù)文件日志化模塊,確保后續(xù)三個模塊能夠正常處理數(shù)據(jù)流。2020 年10 月,交易中心順利完成前置機(jī)遷移任務(wù),并在之后的8 個月內(nèi)實現(xiàn)了六類其他交易領(lǐng)域的全覆蓋:公共拍賣、技術(shù)交易、農(nóng)業(yè)要素、無形資產(chǎn)、國企采購以及機(jī)電招標(biāo)。自2021年5 月起,交易中心在覆蓋交易領(lǐng)域的考核中獲得滿分成績并保持至今。
國家信息中心對數(shù)據(jù)上傳全面性的考核非常嚴(yán)格,不僅要考核交易中心的上報數(shù)據(jù),也會同步校驗四大核心領(lǐng)域分中心的數(shù)據(jù)全面性。例如,政府采購分中心在官網(wǎng)上共發(fā)布100 條業(yè)務(wù)數(shù)據(jù)公告,但由于其與交易中心在數(shù)據(jù)業(yè)務(wù)邏輯方面存在差異,最終也許只有98 條數(shù)據(jù)可以完成同步,那么剩余的2 條未同步數(shù)據(jù)就有可能導(dǎo)致交易中心被判定為數(shù)據(jù)全面性不合格(每缺失1 條數(shù)據(jù)扣2 分)。
對于成立不久的交易中心來說,這無疑是一項非常艱巨的挑戰(zhàn)。以政府采購分中心為例,在應(yīng)對考核期間,該分中心正處于從老系統(tǒng)向新系統(tǒng)切換的過渡階段,以致其與交易中心數(shù)據(jù)同步的難度進(jìn)一步增加。因此,自2021 年起,交易中心的數(shù)據(jù)團(tuán)隊就啟動了數(shù)據(jù)底座項目立項前的探索準(zhǔn)備工作。其間,數(shù)據(jù)團(tuán)隊基于數(shù)據(jù)底座的數(shù)據(jù)湖率先啟動了獨立的CACP(全面性自動檢測程序)項目(見圖2)。數(shù)據(jù)團(tuán)隊一方面利用爬蟲工具獲取了各分中心官網(wǎng)公示的所有業(yè)務(wù)數(shù)據(jù);另一方面,利用采集工具入湖各分中心,通過HLHT 系統(tǒng)上報的數(shù)據(jù),實時運行程序進(jìn)行數(shù)據(jù)比對并生成比對結(jié)果。隨后,數(shù)據(jù)底座以郵件的方式自動將比對結(jié)果推送到各分中心數(shù)據(jù)責(zé)任人的郵箱。同時,相關(guān)工作人員也會在微信工作群確認(rèn)缺失數(shù)據(jù)詳情,由分中心在第一時間優(yōu)化數(shù)據(jù)同步邏輯,每日定期匯報進(jìn)展,以此確保相關(guān)數(shù)據(jù)在24 小時內(nèi)能夠及時、全面同步。自CACP 項目上線運行以來,交易中心數(shù)據(jù)上傳全面性滿分成績保持至今,并且在交易中心將CACP 程序逐漸拓展覆蓋至所有交易領(lǐng)域后,其數(shù)據(jù)上傳及時性也在2022 年取得滿分成績。
國家信息中心對上傳數(shù)據(jù)準(zhǔn)確性的考核同樣嚴(yán)格,其中,數(shù)據(jù)采納準(zhǔn)確率是從數(shù)據(jù)元層面考察數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),應(yīng)填必填。數(shù)據(jù)標(biāo)準(zhǔn)則明確了業(yè)務(wù)數(shù)據(jù)應(yīng)向社會公開的必傳屬性,如果必傳屬性為空值,那么交易中心的數(shù)據(jù)采納準(zhǔn)確率就會成為扣分項。數(shù)據(jù)三碼準(zhǔn)確率是在數(shù)據(jù)采納準(zhǔn)確率的基礎(chǔ)上,針對投資項目監(jiān)管碼、統(tǒng)一交易標(biāo)識碼以及統(tǒng)一社會信用碼進(jìn)行專項質(zhì)量考核的重要指標(biāo)。以統(tǒng)一交易標(biāo)識碼為例,交易中心必須采用國家標(biāo)準(zhǔn)規(guī)定的生成規(guī)則,并確保統(tǒng)一社會交易標(biāo)識碼的長度符合規(guī)范要求。
針對數(shù)據(jù)底座,數(shù)據(jù)團(tuán)隊啟動了獨立項目“QD-XSD”,即在數(shù)據(jù)文件日志化組件的上下游同步應(yīng)用XSD(XML 模式定義)技術(shù),使上游實時校驗上報數(shù)據(jù),屏蔽數(shù)據(jù)源不明的垃圾數(shù)據(jù),下游實時生成質(zhì)量報告,進(jìn)而實現(xiàn)數(shù)據(jù)元的質(zhì)量分析與質(zhì)量提升。XSD 是XML生態(tài)系統(tǒng)的重要組成部分,可確保XML 文檔的數(shù)據(jù)結(jié)構(gòu)符合數(shù)據(jù)模型的定義,并校驗文檔內(nèi)容是否符合數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)規(guī)范要求。其間,數(shù)據(jù)團(tuán)隊將每一個XSD 文檔同需要驗證的XML 文檔按照對應(yīng)數(shù)據(jù)集進(jìn)行關(guān)聯(lián),并使用XSD 處理器驗證XML 文檔是否符合規(guī)則。如果驗證結(jié)果顯示XML 文檔符合規(guī)則,那么該文檔有效;否則,XML 文檔的數(shù)據(jù)記錄及相關(guān)屬性就會被程序化地納入質(zhì)量報告及異常明細(xì),以供數(shù)據(jù)團(tuán)隊后續(xù)進(jìn)行數(shù)據(jù)質(zhì)量分析。在QD-XSD 項目中,數(shù)據(jù)質(zhì)量體系的整體架構(gòu)是先按交易領(lǐng)域分類,再按質(zhì)量需求分類,最后聚焦某個交易領(lǐng)域下某類質(zhì)量需求的異常情況進(jìn)行深入分析。如圖3 所示,在三碼準(zhǔn)確率的質(zhì)量檢查提取異常明細(xì)中,與三碼有關(guān)的數(shù)據(jù)集將通過程序自動聚合各交易領(lǐng)域的異常數(shù)量,并按三碼類型進(jìn)行分類統(tǒng)計和可視化分析。統(tǒng)一交易標(biāo)識碼前期由各分中心按照規(guī)則自主生成,數(shù)據(jù)準(zhǔn)確性較為不穩(wěn)定。在交易中心向全市分中心推行一網(wǎng)交易賦碼服務(wù)后,統(tǒng)一交易標(biāo)識碼的數(shù)據(jù)質(zhì)量顯著提升。在HLHT 系統(tǒng)中,統(tǒng)一社會信用碼主要在QD-XSD 項目中發(fā)揮作用,如引入第三方平臺和全國公共資源交易主體查詢接口,進(jìn)行質(zhì)量檢查和質(zhì)量提升等。自QDXSD 項目上線運行以來,交易中心在數(shù)據(jù)上傳準(zhǔn)確性方面的考核已經(jīng)系統(tǒng)性地獲得滿分40分的目的。
本文概述了交易中心數(shù)據(jù)質(zhì)量提升的實踐歷程。由數(shù)據(jù)團(tuán)隊構(gòu)建的HLHT 系統(tǒng)既具有獨特性也具有可借鑒性與通用性,可以為全國非實體整合的省級公共資源交易中心提供參考。其中,融合數(shù)據(jù)底座的CACP 項目為交易中心建立滿足數(shù)據(jù)上傳全面性、數(shù)據(jù)上傳及時性考核要求的一體化質(zhì)量監(jiān)測體系提供了保障;運營數(shù)據(jù)底座的DQ-XSD 項目則為數(shù)據(jù)質(zhì)量實現(xiàn)數(shù)據(jù)上傳準(zhǔn)確性的滿分考核目標(biāo)創(chuàng)造了有利條件。更重要的是,以數(shù)據(jù)底座為基石,由HLHT 系統(tǒng)、CACP 項目以及DQXSD 項目構(gòu)成的三維數(shù)據(jù)治理體系不僅為交易中心數(shù)據(jù)質(zhì)量的提升做出了歷史性貢獻(xiàn),也為數(shù)字化轉(zhuǎn)型驅(qū)動公共資源“一網(wǎng)交易”高質(zhì)量發(fā)展打下了堅實基礎(chǔ)。[1]如圖4 所示,自成立以來,交易中心在國家考核中的排名已經(jīng)由2020 年的近30 位躍升至全國榜首,并持續(xù)保持優(yōu)異成績。
(特別鳴謝:廣聯(lián)達(dá)科技股份有限公司上海團(tuán)隊對數(shù)據(jù)互聯(lián)互通系統(tǒng)開發(fā)的支持與合作;特別鳴謝上海智子信息科技股份有限公司、阮備軍博士和朱建秋博士在聯(lián)交所數(shù)據(jù)底座項目數(shù)據(jù)治理與數(shù)字技術(shù)中給予的大力支持)