付宏燕
(國家信息中心,北京 100045)
公共資源交易是要素市場化配置的重要內(nèi)容,屬于政務(wù)公開范疇。公共資源交易大數(shù)據(jù)來源于地方交易平臺(tái)的交易業(yè)務(wù)活動(dòng),以及各交易領(lǐng)域主管部委的收集或統(tǒng)計(jì)。數(shù)據(jù)要素的特殊屬性,要求加強(qiáng)數(shù)據(jù)資源的開放共享;數(shù)據(jù)越多價(jià)值越大,越分享價(jià)值越大,越跨行業(yè)、區(qū)域價(jià)值越大[1]。推動(dòng)海量公共資源交易數(shù)據(jù)的連接、交互和有序流動(dòng),促進(jìn)多主體、多場景使用,可產(chǎn)生無可限量的經(jīng)濟(jì)和社會(huì)價(jià)值。在國家公共資源交易服務(wù)平臺(tái)的建設(shè)中,用服務(wù)思維代替項(xiàng)目思維,以交易數(shù)據(jù)業(yè)務(wù)特征為出發(fā)點(diǎn),完成全國各地、各部委公共資源交易數(shù)據(jù)的完整歸集和交換共享,按需同步更新,是發(fā)揮數(shù)據(jù)價(jià)值最大化的必要環(huán)節(jié)。作為該政務(wù)大數(shù)據(jù)工程的組織實(shí)施者,本人還原其數(shù)據(jù)交換設(shè)計(jì)思路和實(shí)施難點(diǎn),希望對不同行業(yè)構(gòu)建政務(wù)大數(shù)據(jù)的整合共享提供參考。
在所有應(yīng)用場景中,市場主體是交易活動(dòng)的發(fā)起者、組織者,也是交易行為的直接參與者、實(shí)現(xiàn)者,而交易行為通過不同階段的數(shù)據(jù)體現(xiàn)。因此,公共資源交易數(shù)據(jù)歸集與交換內(nèi)容應(yīng)圍繞市場主體的交易活動(dòng)進(jìn)行,表達(dá)出從入場登記到成交的全周期,覆蓋相對成熟的交易領(lǐng)域,如圖1所示。
圖1 公共資源交易數(shù)據(jù)歸集領(lǐng)域與交換內(nèi)容示意圖
目前國家公共資源交易服務(wù)平臺(tái)正式運(yùn)行,完成了工程建設(shè)招投標(biāo)、政府采購、土地使用權(quán)出讓、礦業(yè)權(quán)出讓、國有產(chǎn)權(quán)交易五個(gè)領(lǐng)域的數(shù)據(jù)從各省和各領(lǐng)域主管部委向國家級(jí)平臺(tái)的歸集,并面向社會(huì)提供服務(wù),進(jìn)一步挖掘交易數(shù)據(jù)的業(yè)務(wù)價(jià)值,如交易信息公開對市場主體招投標(biāo)的參考價(jià)值、數(shù)據(jù)流動(dòng)共享對簡化招投標(biāo)流程的價(jià)值、交易市場主體行為動(dòng)態(tài)趨勢等。
一是源頭多樣業(yè)務(wù)特征明顯,數(shù)據(jù)海量實(shí)時(shí)更新;應(yīng)用驅(qū)動(dòng)數(shù)據(jù)共享內(nèi)容,體系結(jié)構(gòu)動(dòng)態(tài)擴(kuò)展。全國600多個(gè)地市級(jí)交易系統(tǒng)生產(chǎn)的電子化數(shù)據(jù)形態(tài)各異,招標(biāo)公告、中標(biāo)公示等在地市、省、國家各級(jí)媒介均要求數(shù)據(jù)生成當(dāng)天發(fā)布。五交易領(lǐng)域僅2021 年成交的項(xiàng)目數(shù)量已超110 萬個(gè),呈現(xiàn)出逐年遞增趨勢。隨著2019 年底《公共資源交易目錄指引》的印發(fā),以及加強(qiáng)公共資源交易全流程電子化的要求,海洋資源交易、林權(quán)交易、排污權(quán)交易、碳排放權(quán)交易、用能權(quán)交易等越來越多領(lǐng)域納入電子化范圍[2],要求現(xiàn)有公共資源交易數(shù)據(jù)體系具有動(dòng)態(tài)擴(kuò)展能力。
二是數(shù)據(jù)質(zhì)量暫不盡如人意,確權(quán)與定位困難重重;數(shù)據(jù)交換雙向需求不同,多種時(shí)間標(biāo)識(shí)易混難辨。目前源頭提供的數(shù)據(jù)存在各種問題,如金額填成手機(jī)號(hào)碼、萬元與元不分、來源平臺(tái)混亂等,對于后續(xù)應(yīng)用造成很大困擾。數(shù)據(jù)源頭的確權(quán)、錯(cuò)誤數(shù)據(jù)的定位、錯(cuò)誤信息的反饋都有一定難度,閉環(huán)效果不理想[3]。數(shù)據(jù)在國家層面主要支撐宏觀的統(tǒng)計(jì)、分析、對比、決策、監(jiān)督等應(yīng)用,在地方層面多用于簡化微觀的交易業(yè)務(wù)過程;多種時(shí)間標(biāo)識(shí)分別代表不同業(yè)務(wù)含義,如中標(biāo)時(shí)間、發(fā)布時(shí)間、上傳時(shí)間,前兩者表示業(yè)務(wù)交易時(shí)間和公示時(shí)間,后者為校驗(yàn)核對的數(shù)據(jù)時(shí)間戳。
按照“運(yùn)用大數(shù)據(jù)加強(qiáng)公共服務(wù)”的戰(zhàn)略[4],設(shè)計(jì)圖2 所示公共資源交易數(shù)據(jù)交換共享整體架構(gòu),由數(shù)據(jù)來源層、數(shù)據(jù)交換層、數(shù)據(jù)歸集層、數(shù)據(jù)治理管理層、數(shù)據(jù)應(yīng)用層構(gòu)成,從來源逐層逼近公共服務(wù)應(yīng)用,各層均遵循統(tǒng)一的公共資源交易平臺(tái)系統(tǒng)數(shù)據(jù)規(guī)范,以及數(shù)據(jù)安全要求。
圖2 全國公共資源交易數(shù)據(jù)交換共享整體架構(gòu)圖
數(shù)據(jù)來源層包含地方和中央范圍的交易數(shù)據(jù)。地方數(shù)據(jù)由地市級(jí)電子交易系統(tǒng)產(chǎn)生,按數(shù)據(jù)規(guī)范抽取轉(zhuǎn)換后實(shí)時(shí)推送至31省級(jí)電子服務(wù)系統(tǒng),省級(jí)通過數(shù)據(jù)交換層的接口交換實(shí)時(shí)傳輸至國家公共資源交易服務(wù)平臺(tái);中央數(shù)據(jù)由財(cái)政部、自然資源部、商務(wù)部、國資委等通過庫表交換完成。數(shù)據(jù)歸集層完成對國家平臺(tái)緩存庫數(shù)據(jù)的存儲(chǔ)、校驗(yàn)、反饋、考核等事項(xiàng),并將結(jié)果反饋給數(shù)據(jù)來源;數(shù)據(jù)治理管理層對原始數(shù)據(jù)進(jìn)行質(zhì)量提升后形成基礎(chǔ)庫,再結(jié)合交易業(yè)務(wù)需求重新組織數(shù)據(jù)結(jié)構(gòu),形成主題庫、主體庫、共享庫、標(biāo)簽庫等,支撐最上層的服務(wù)應(yīng)用。
地方數(shù)據(jù)的明顯特點(diǎn)是異地來源多樣、數(shù)據(jù)格式多樣、省平臺(tái)技術(shù)架構(gòu)多樣、省側(cè)和國家側(cè)數(shù)據(jù)庫類型多樣。針對以上特點(diǎn),設(shè)計(jì)圖3 所示的地方多來源數(shù)據(jù)接口交換模式,實(shí)現(xiàn)在同一網(wǎng)絡(luò)環(huán)境中多來源數(shù)據(jù)的自動(dòng)采集和校驗(yàn),支持兩側(cè)不同數(shù)據(jù)庫類型,實(shí)時(shí)交換傳輸。
圖3 地方多來源數(shù)據(jù)接口交換模式示意圖
該模式包含接口程序、數(shù)據(jù)交換軟件、前置機(jī)。接口程序多省復(fù)用,根據(jù)省平臺(tái)主流的B/S架構(gòu)、J2EE和.NET提供標(biāo)準(zhǔn)API接口和WebService接口服務(wù),部署在省平臺(tái)側(cè),實(shí)現(xiàn)數(shù)據(jù)校驗(yàn)、上傳、異常反饋、數(shù)據(jù)獲取等功能。省平臺(tái)上傳數(shù)據(jù)時(shí),調(diào)用接口程序先啟動(dòng)數(shù)據(jù)一次校驗(yàn),將長度異常反饋省交換庫告警,并將數(shù)據(jù)打包成XML格式自動(dòng)寫入省前置機(jī),觸發(fā)數(shù)據(jù)交換軟件傳輸?shù)絿仪爸脵C(jī),寫入國家平臺(tái)緩存庫,此時(shí)完成數(shù)據(jù)解析執(zhí)行二次校驗(yàn),攔截不符合規(guī)范的異常數(shù)據(jù)反饋到省前置機(jī),正常數(shù)據(jù)則寫入國家平臺(tái)基礎(chǔ)庫。
接口程序充分利用代碼字典表達(dá)不同信息,如3~4位數(shù)字組合表示不同類型的表,其中第1、2位區(qū)分交易領(lǐng)域,第3 位區(qū)分交易階段,第4 位表示該領(lǐng)域?yàn)樾略觯挥?、1、2 表示數(shù)據(jù)的新增、修改、刪除;用3 位數(shù)字100-999區(qū)分校驗(yàn)異常的不同類型和錯(cuò)誤,用0開頭的4 位數(shù)字組合區(qū)分來源平臺(tái)等,所有代碼組合均滿足擴(kuò)充設(shè)置,支持交易領(lǐng)域的隨時(shí)增加。接口程序可實(shí)時(shí)核查省平臺(tái)某時(shí)間段的數(shù)據(jù)上傳量、成功量、失敗量、失敗原因;數(shù)據(jù)交換軟件可實(shí)時(shí)核查某時(shí)間段省前置機(jī)的數(shù)據(jù)量、國家前置機(jī)的數(shù)據(jù)量,及兩側(cè)的交換數(shù)據(jù)比對。
中央范圍交易數(shù)據(jù)來源于各交易領(lǐng)域主管部委,特點(diǎn)是部委已完成校驗(yàn)治理,數(shù)據(jù)質(zhì)量高,無須轉(zhuǎn)換,但均需從互聯(lián)網(wǎng)擺渡到政務(wù)外網(wǎng),再經(jīng)前置機(jī)交換至國家公共資源交易服務(wù)平臺(tái),部委側(cè)和國家平臺(tái)側(cè)數(shù)據(jù)庫類型不同但數(shù)據(jù)結(jié)構(gòu)一致。針對以上特點(diǎn),設(shè)計(jì)圖4部委來源數(shù)據(jù)的庫表交換模式。這種模式為庫表的點(diǎn)對點(diǎn)交換,以數(shù)據(jù)源側(cè)數(shù)據(jù)為準(zhǔn),接收方不做校驗(yàn)。
圖4 部委來源數(shù)據(jù)庫表交換模式示意圖
該模式復(fù)用每個(gè)部委已配備的整合共享前置機(jī)和數(shù)據(jù)交換軟件。通過配置庫表交換任務(wù),設(shè)置部委交換庫、國家平臺(tái)緩存庫,開通數(shù)據(jù)傳輸端口,由實(shí)時(shí)插入部委交換庫的數(shù)據(jù)觸發(fā)交換任務(wù),進(jìn)行數(shù)據(jù)的自動(dòng)傳輸。交換軟件雙側(cè)表結(jié)構(gòu)必須設(shè)置主鍵和交換時(shí)間字段。主鍵標(biāo)識(shí)數(shù)據(jù)的唯一性,用以監(jiān)測、定位核查;交換時(shí)間應(yīng)設(shè)到秒級(jí),是交換軟件判斷是否自動(dòng)傳輸?shù)臉?biāo)識(shí)字段,也是核對數(shù)據(jù)量的時(shí)間參考。
數(shù)據(jù)下行共享時(shí),國家平臺(tái)向地方提供治理過的主體成交記錄數(shù)據(jù),質(zhì)量高且完全符合規(guī)范。不同省、地市對數(shù)據(jù)的需求、用途各不相同,因此國家平臺(tái)提供rest 接口服務(wù)模式,地方按需調(diào)用或者直接集成在系統(tǒng)中支撐業(yè)務(wù)。該接口服務(wù)支持地市級(jí)交易平臺(tái)直接調(diào)用,也支持通過省級(jí)交易平臺(tái)逐級(jí)調(diào)用,由國家平臺(tái)控制資源使用方的日調(diào)用量和峰值,并監(jiān)測接口運(yùn)行情況。
數(shù)據(jù)規(guī)范是交換共享的依據(jù)和約束,適用于全國公共資源交易平臺(tái)系統(tǒng)間交換共享交易數(shù)據(jù)[5]。為了保障數(shù)據(jù)的一致性和可用性,地方來源數(shù)據(jù)均需在上傳前按照規(guī)范抽取約定的內(nèi)容,完成格式的統(tǒng)一,如字段類型、金額單位、交易時(shí)間的轉(zhuǎn)換,數(shù)值小數(shù)點(diǎn)的取舍等,只有通過國家平臺(tái)按規(guī)范設(shè)置的校驗(yàn)規(guī)則,才能成功交換到國家平臺(tái)存入基礎(chǔ)庫。數(shù)據(jù)規(guī)范體現(xiàn)出不同交易領(lǐng)域的業(yè)務(wù)特性,也具有不同交易領(lǐng)域的通用性和擴(kuò)展性。
為了標(biāo)識(shí)地方數(shù)據(jù)的唯一性和來源省份、交換時(shí)間等特征,接口程序設(shè)計(jì)了由區(qū)域碼、時(shí)間碼、流水號(hào)共25位組成的數(shù)據(jù)交換標(biāo)識(shí)碼,其中二位數(shù)字組合表示31 省和兵團(tuán)的區(qū)域碼,用年、月、日、分、秒、毫秒共17 位數(shù)字表示數(shù)據(jù)傳輸交換的時(shí)間碼,從000001~999999的六位數(shù)字構(gòu)成不重復(fù)交換順序碼。除了交換標(biāo)識(shí)作用,該碼對于數(shù)據(jù)治理管理層、應(yīng)用層的數(shù)據(jù)分類、統(tǒng)計(jì)、多維分析、分省業(yè)務(wù)判斷等也具有重要參考意義。
部委來源數(shù)據(jù)的庫表交換模式中,通過跟蹤數(shù)據(jù)量來判斷交換過程正常與否,通過主鍵定位異常數(shù)據(jù)。交換異常的反饋集中在兩個(gè)環(huán)節(jié),一是部委側(cè)跨網(wǎng)交換,網(wǎng)閘對于大對象的長文本存在傳輸失敗現(xiàn)象,需要定時(shí)跟蹤;二是監(jiān)測環(huán)節(jié)中數(shù)據(jù)量不一致時(shí),應(yīng)從后往前核查,補(bǔ)充丟失數(shù)據(jù)。
從來源層到應(yīng)用層,數(shù)據(jù)安全貫穿始終。網(wǎng)絡(luò)層面,所有數(shù)據(jù)的交換傳輸均通過國家電子政務(wù)外網(wǎng)完成,充分利用政務(wù)外網(wǎng)安全設(shè)備和策略保障。數(shù)據(jù)層面無敏感信息,交易業(yè)務(wù)數(shù)據(jù)均屬公開范圍,但當(dāng)批量數(shù)據(jù)相互關(guān)聯(lián)時(shí)可產(chǎn)生較大的業(yè)務(wù)價(jià)值,故在應(yīng)用層采用了日訪問量限制、每分鐘訪問量限制等反爬策略,若監(jiān)測到某IP 地址訪問次數(shù)達(dá)到上限,列入黑名單自動(dòng)封鎖三小時(shí)。
合理應(yīng)用區(qū)塊鏈的去中心化、防篡改等特點(diǎn),可以解決交易數(shù)據(jù)交換共享中的確權(quán)或溯源問題,推動(dòng)數(shù)據(jù)質(zhì)量提升。然而,區(qū)塊鏈的高資源消耗也應(yīng)充分考慮。作為分布式賬本技術(shù),區(qū)塊鏈要在鏈上多個(gè)節(jié)點(diǎn)的本地存儲(chǔ)完整的歷史數(shù)據(jù),顯然海量且冗余的交易數(shù)據(jù),不宜都上鏈占用大量資源;數(shù)據(jù)上鏈時(shí)的簽名、哈希計(jì)算、打包等,以及對應(yīng)的解析、恢復(fù)等操作,計(jì)算開銷也必不可少。所以,什么數(shù)據(jù)上鏈、上什么鏈、怎么結(jié)合已有基礎(chǔ)設(shè)施是該技術(shù)應(yīng)用的關(guān)鍵。
結(jié)合交易數(shù)據(jù)特點(diǎn),應(yīng)選擇有價(jià)值需求、有共享需求、有協(xié)同處理需求、有審計(jì)需求的數(shù)據(jù)按規(guī)范格式化處理后上鏈。因政務(wù)外網(wǎng)已有級(jí)聯(lián)式網(wǎng)絡(luò),故采用基于政務(wù)外網(wǎng)的地市、省、國家三級(jí)組成的聯(lián)盟鏈;鑒于交易數(shù)據(jù)的海量和區(qū)塊鏈的高資源消耗,采用數(shù)據(jù)上行仍按原模式傳輸合并鏈上監(jiān)測互驗(yàn)、數(shù)據(jù)下行根據(jù)鏈上需求開放共享的模式。
數(shù)據(jù)上行時(shí),地方源頭單位僅選擇監(jiān)測日志和增刪改記錄,將哈希值結(jié)合來源平臺(tái)、簽名打包上鏈傳輸,可完成數(shù)據(jù)的確權(quán)、追溯、變動(dòng)、審核;鏈上日志點(diǎn)對點(diǎn)廣播給對應(yīng)省平臺(tái)和國家平臺(tái)節(jié)點(diǎn),不做全鏈廣播以減少網(wǎng)絡(luò)負(fù)荷。數(shù)據(jù)下行時(shí),將市場主體成交記錄、交換日志的哈希值,由國家平臺(tái)節(jié)點(diǎn)上鏈做全鏈廣播,并將地方節(jié)點(diǎn)的共享需求與應(yīng)用情況同步上鏈,方便數(shù)據(jù)按需流動(dòng)和后期使用跟蹤分析。這種模式將成本、效率和安全取得相對平衡。
截止目前,接口交換和庫表交換模式已在全國形成穩(wěn)定的數(shù)據(jù)動(dòng)態(tài)更新和同步機(jī)制,交換收集公共資源交易數(shù)據(jù)量超2 億條,按年涉及交易項(xiàng)目超100 萬個(gè)、交易額超19萬億元、主體80萬家左右,推動(dòng)了全國公共資源交易數(shù)據(jù)樞紐為社會(huì)需求服務(wù),以及交易數(shù)據(jù)要素在全國范圍的流動(dòng),提升了公共資源交易業(yè)務(wù)協(xié)同效率。強(qiáng)化公共資源交易數(shù)據(jù)業(yè)務(wù)特征的交換共享模式,對于不同行業(yè)實(shí)現(xiàn)政務(wù)大數(shù)據(jù)的整合共享具有一定參考價(jià)值。隨著區(qū)塊鏈等新技術(shù)在交易領(lǐng)域的研究,提升源頭數(shù)據(jù)質(zhì)量的創(chuàng)新交換共享模式將會(huì)帶來更多碰撞。