□ 課題組
數(shù)字化改革是指統(tǒng)籌運用數(shù)字化技術、數(shù)字化思維、數(shù)字化認知,把數(shù)字化、一體化、現(xiàn)代化貫穿到黨的領導和經濟、政治、文化、社會、生態(tài)文明建設全過程各方面,對省域治理的體制機制、組織架構、方式流程、手段工具進行全方位、系統(tǒng)性重塑的過程,從整體上推動省域經濟社會發(fā)展和治理能力的質量變革、效率變革、動力變革,在根本上實現(xiàn)省域整體智治、高效協(xié)同。
公共數(shù)據(jù)是指國家機關、法律法規(guī)規(guī)章授權的具有管理公共事務職能的組織以及燃氣、水務、電力、公共交通、民航、鐵路等公共服務運營單位在依法履行職責和提供公共服務過程中獲取、產生的數(shù)據(jù)資源。
公共數(shù)據(jù)統(tǒng)計化是指利用公共數(shù)據(jù)輔助或完全替代政府統(tǒng)計調查,關鍵是在統(tǒng)計報表制度設計階段將行政記錄等公共數(shù)據(jù)確定為統(tǒng)計調查內容,并保持統(tǒng)計調查指標口徑與行政記錄一致。
首先,公共數(shù)據(jù)融入現(xiàn)代統(tǒng)計數(shù)據(jù)生產體系已成為一個重要命題。黨的十八屆五中全會首次提出實施“國家大數(shù)據(jù)戰(zhàn)略”,同年《促進大數(shù)據(jù)發(fā)展行動綱要》發(fā)布。“十三五”規(guī)劃建議提出“實施國家大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源開放共享?!薄秶医y(tǒng)計局大數(shù)據(jù)應用工作方案(2021年修訂)》提出在核算、工業(yè)、能源、投資等領域廣泛使用部門行政記錄、互聯(lián)網電子化數(shù)據(jù)等大數(shù)據(jù)作為常規(guī)統(tǒng)計調查數(shù)據(jù)的補充。這就提出了一個重要命題:如何將公共數(shù)據(jù)融入現(xiàn)代統(tǒng)計數(shù)據(jù)生產體系,實現(xiàn)與政府統(tǒng)計產品的高度契合。
其次,數(shù)字化改革為釋放公共數(shù)據(jù)的“統(tǒng)計價值”創(chuàng)造了條件。隨著浙江數(shù)字化改革的縱深推進,省市縣數(shù)以億計的公共數(shù)據(jù)向公共數(shù)據(jù)平臺匯聚,為直接或間接應用于統(tǒng)計調查提供了可能。截至目前,已建立全省統(tǒng)一的公共數(shù)據(jù)資源目錄,累計編制目錄數(shù)據(jù)項178.3 萬項。省公共數(shù)據(jù)平臺累計歸集數(shù)據(jù)761.7億條,涉及醫(yī)療衛(wèi)生、社保就業(yè)等20 余個領域。統(tǒng)一建設人口綜合庫、法人綜合庫、電子證照庫、信用信息庫、自然資源和空間地理信息庫等五大基礎庫等。利用一體化智能化公共數(shù)據(jù)平臺大數(shù)據(jù)分析處理能力,以提供數(shù)據(jù)接口和批量共享方式,累計共享調用數(shù)據(jù)471.98 億次。同時,全省已開放1.88 萬個公共數(shù)據(jù)集、57.4 億條數(shù)據(jù)。
同時,公共數(shù)據(jù)統(tǒng)計化意義重大。主要表現(xiàn)為:有利于豐富數(shù)據(jù)獲取來源,甚至替代傳統(tǒng)統(tǒng)計調查方式,比如住戶調查中,可以直接調取樣本中低保戶的低保補助收入;有利于依托行政記錄驗證基層統(tǒng)計數(shù)據(jù),比如可以利用企業(yè)用電量等指標評估制造業(yè)PMI(采購經理指數(shù))與相關經濟指標的擬合度,有利于減輕統(tǒng)計調查負擔,降低工作成本;如直接將行政記錄用于統(tǒng)計調查,有利于提高數(shù)據(jù)的時效性;比如直接利用各地公共數(shù)據(jù)平臺時時更新的房地產交易數(shù)據(jù)。
課題組對國家調查隊系統(tǒng)承擔的各個統(tǒng)計調查專業(yè)開展了問卷調查,經匯總和梳理分析,目前在統(tǒng)計調查各環(huán)節(jié)對公共數(shù)據(jù)均有需求,獲取方式不一。
設定統(tǒng)計調查抽樣框需要相關公共數(shù)據(jù)作為支撐。比如:畜牧業(yè)調查需要使用“農普”數(shù)據(jù)選定抽樣框;住戶調查和勞動力調查需要使用鄉(xiāng)、村行政區(qū)劃設置等數(shù)據(jù)選定抽樣框;企業(yè)調查樣本框更新和擴樣需要使用名錄庫相關數(shù)據(jù)。此類支撐數(shù)據(jù)獲取方式一般由相關部門直接提供或向相關部門索取。
一些公共數(shù)據(jù)可直接成為政府統(tǒng)計產品。比如:房地產價格調查直接使用住宅銷售網簽備案數(shù)據(jù);政府定價或指導定價的規(guī)格品包括水、電、燃氣、教育服務等價格數(shù)據(jù)是消費價格調查數(shù)據(jù)來源。目前,此類數(shù)據(jù)的獲取方式一般有兩種,一是由相關部門直接提供,二是通過調查員直接采集。
評估校驗統(tǒng)計調查數(shù)據(jù)需要引進相關公共數(shù)據(jù)作為“因子”。如糧食調查數(shù)據(jù)評估需要使用耕地面積增減、規(guī)模戶補貼發(fā)放等情況;現(xiàn)有住戶調查評估辦法引入GDP、“兩項薪酬”等作為評估指標;工業(yè)生產者價格調查使用重要生產資料市場價格變動情況等評估價格走勢。此類數(shù)據(jù)獲取方式一般有三種,一是由相關部門直接提供;二是通過公共數(shù)據(jù)平臺等查詢;三是利用生意社、卓創(chuàng)咨詢等網站收集的數(shù)據(jù),比如大宗商品價格走勢等。
統(tǒng)計分析時使用的公共數(shù)據(jù)種類較多,范圍較廣。比如住戶調查統(tǒng)計分析常使用農村電子商務、培訓崗位人數(shù)等數(shù)據(jù);勞動力調查常使用城鎮(zhèn)登記失業(yè)率、高校畢業(yè)生及就業(yè)情況等數(shù)據(jù)。此類數(shù)據(jù)既可通過公共數(shù)據(jù)平臺、網站等各種平臺查詢,也可從統(tǒng)計年鑒、部門內部資料等獲取。
目前浙江省正全面打造并基本建成省市縣一體化智能化公共數(shù)據(jù)平臺。課題組以麗水市為例,選取部分調查專業(yè)的數(shù)據(jù)需求,在公共數(shù)據(jù)平臺發(fā)起數(shù)據(jù)需求申請,測試數(shù)據(jù)獲取路徑,場景化探索公共數(shù)據(jù)在統(tǒng)計調查中的應用。
分別選取公積金中心《住房公積金個人繳存信息》、稅務局《個人所得稅自行納稅申報信息(A表)》、醫(yī)保局《職工醫(yī)保年度賬戶信息》《醫(yī)保待遇報銷信息》共四個數(shù)據(jù)目錄進行需求整理,經比對《住戶收支與生活狀況調查方案》(2021年)發(fā)現(xiàn)相關數(shù)據(jù)可進一步利用。公積金個人繳存數(shù)據(jù)目錄中通過“個人繳存比例”和“個人繳存基數(shù)”測算出的“個人月繳存額”,可應用于“轉移性支出-個人繳納的住房公積金”的數(shù)據(jù)比對;個稅數(shù)據(jù)目錄中應納稅額、減免稅額、應補(退)稅額等指標,可應用于“轉移性支出-繳納所得稅”的數(shù)據(jù)比對;醫(yī)保數(shù)據(jù)目錄中的醫(yī)保支出費用可應用于“轉移性收入-報銷醫(yī)療費”的數(shù)據(jù)比對,通過與醫(yī)保局工作人員對接,相關數(shù)據(jù)可按月統(tǒng)計。(表1)
表1 住戶調查所需的部門數(shù)據(jù)情況
經與以上三個數(shù)源部門對接,均表示相關數(shù)據(jù)目錄有歸集數(shù)據(jù),但由于獲取的是個人賬戶信息,首先需要個人身份授權,后續(xù)還需通過部門內部審批流程才能確定是否能提供。常用的方式有兩種,一是提供住戶調查樣本的身份證件信息,由數(shù)源部門定期將相關數(shù)據(jù)項進行推送;二是讓數(shù)源部門開放相應數(shù)據(jù)查詢接口,通過調用數(shù)據(jù)進行匹配查詢。
選取自然資源局、農業(yè)農村局、氣象局等三個數(shù)源單位進行需求對接。
1.自然資源部門每年利用衛(wèi)星遙感、云計算等技術,統(tǒng)籌利用現(xiàn)有資料,開展遙感監(jiān)測,組織實地調查舉證,更新縣級國土利用數(shù)據(jù)庫,形成年度國土變更調查成果(《土地利用現(xiàn)狀地類圖斑》),這一主題數(shù)據(jù)可以應用到耕地等基礎數(shù)據(jù)核實中。根據(jù)保密要求,使用相關圖斑信息需要簽訂保密協(xié)議,并按照規(guī)定使用。
2.農業(yè)農村局的種子目錄如《種業(yè)直報-冬小麥種子生產供需情況調查信息》《春夏播種子企業(yè)備種情況統(tǒng)計信息》等數(shù)據(jù)可用于糧食產量監(jiān)測調查關于糧食生產總體趨勢變化評估等,且相關數(shù)據(jù)均可獲取并使用。(表2)
表2 糧食產量調查數(shù)據(jù)評估所需的農業(yè)農村部門數(shù)據(jù)情況
3.氣象局目前有《氣象災害預警信號信息》主題接口,可應用于糧食產量調查農情趨勢評估,為糧食單產增減提供參考。該數(shù)據(jù)目錄無條件開放提供,通過數(shù)據(jù)接口的方式自動推送至需求部門相應的業(yè)務系統(tǒng)。(表3)
表3 糧食產量調查數(shù)據(jù)評估所需的氣象部門數(shù)據(jù)情況
選取發(fā)展改革委、商務局相關數(shù)據(jù)目錄進行需求對接。
1.《重點監(jiān)測企業(yè)運行預期指數(shù)信息》主要為季度數(shù)據(jù),該數(shù)據(jù)目錄通過對重點工業(yè)企業(yè)開展問卷調查,形成相關統(tǒng)計數(shù)據(jù)和分析報告。該部門數(shù)據(jù)內容可用于采購經理調查趨勢評估,相關數(shù)據(jù)可提供政府部門內部研究使用,但不對外使用。
2.商務局《商務經濟情況表》中關于進出口總額指標有助于采購經理調查相關指數(shù)趨勢評估,該數(shù)據(jù)目錄為月度數(shù)據(jù),可直接獲取使用。
雖然《統(tǒng)計法》對獲取部門有關統(tǒng)計資料有明確規(guī)定,但是在實際操作中,仍存在不少困難。如《個人信息保護法》第二十三條明確:個人信息處理者向其他個人信息處理者提供其處理的個人信息的,應當向個人告知接收方的名稱或者姓名、聯(lián)系方式、處理目的、處理方式和個人信息的種類,并取得個人的單獨同意。當前,數(shù)據(jù)的價值得到越來越廣泛的重視,人們對個人隱私的重視程度也日益增加,如何界定統(tǒng)計部門可獲取的數(shù)據(jù)范圍,是公共數(shù)據(jù)創(chuàng)新應用的關鍵環(huán)節(jié)和難點所在。
一方面,各個統(tǒng)計部門自成“一派”數(shù)據(jù)采集處理結構方式影響數(shù)據(jù)共享。調查隊系統(tǒng)除農民工監(jiān)測與住戶調查共用調查村(社區(qū))網點外,其余專業(yè)均采用獨立的調查方式以及填報平臺,如同樣是入戶PDA 調查,月度勞動力、農民工等采用不同軟件系統(tǒng)。統(tǒng)計局和調查隊之間聯(lián)網直報平臺重復建設、數(shù)據(jù)未共享的問題更為突出。另一方面,統(tǒng)計部門與其他部門間未形成高效便捷的數(shù)據(jù)共享應用機制。如部門數(shù)據(jù)共享主要通過郵件、浙政釘?shù)确绞?,未實現(xiàn)在線集中安全存放。
各部門的統(tǒng)計分類標準、內涵、體系不盡相同,導致相關數(shù)據(jù)要求和統(tǒng)計口徑不完全統(tǒng)一,造成數(shù)據(jù)互不銜接、公共數(shù)據(jù)無法有效利用。一是不同的取數(shù)方式、取數(shù)時間影響公共數(shù)據(jù)的利用率,如“重點監(jiān)測企業(yè)運行預期指數(shù)”為季度指標,而PMI 是月度指標;二是不同調查方法、報送體系導致相關公共數(shù)據(jù)難以高效利用,如“種業(yè)直報-相關種子信息”數(shù)據(jù)來源方式與統(tǒng)計調查部門的抽樣調查或取數(shù)方式不同;三是部門間數(shù)據(jù)上報時間不同,在數(shù)據(jù)利用時間上會有較大的滯后性。
《個人信息保護法》第十三條規(guī)定:“為履行法定職責或者法定義務所必需的,個人信息處理者可以處理個人信息?!薄督y(tǒng)計法》第二十二條規(guī)定:“縣級以上人民政府有關部門應當及時向本級人民政府統(tǒng)計機構提供統(tǒng)計所需的行政記錄資料?!币獜呢炌ㄟ@兩個法律相關條款出發(fā),以修訂《統(tǒng)計法》為契機,賦予統(tǒng)計部門收集行政記錄的資格、權利和義務,明確相關部門向統(tǒng)計機構提供個人信息等行政記錄的內容和要求。
在統(tǒng)計標準方面,需各級各地各部門嚴格使用《統(tǒng)計分類標準和目錄匯編》,構建跨部門、跨專業(yè)的“大標準”體系,將行政記錄等轉換為標準化數(shù)據(jù),解決數(shù)據(jù)互通性、銜接性問題。在統(tǒng)計制度方法方面,要立足推動行政記錄、文本、圖像、音頻等數(shù)據(jù)的統(tǒng)計應用,修訂統(tǒng)計制度方法。比如,由政府定價或指導價的水電等價格,可修訂制度方法,直接利用數(shù)據(jù)平臺獲取數(shù)據(jù)。
一是探索開展匿蹤私密查詢。在使用個體身份信息從公共數(shù)據(jù)平臺等外部數(shù)據(jù)平臺獲取相關數(shù)據(jù)時,運用不經意傳輸技術(Oblivious Transfer-OT)進行匿蹤私密查詢,實現(xiàn)隱私保護前提下,滿足數(shù)據(jù)需求。二是強化公共數(shù)據(jù)的加密保護。如替換使用安全可靠的https 協(xié)議,使用商用密碼對數(shù)據(jù)進行加密保護,實現(xiàn)傳輸過程數(shù)據(jù)泄露風險最小化。三是廣泛運用多方安全計算、聯(lián)邦學習等前沿信息技術,打消數(shù)據(jù)鏈的不同環(huán)節(jié)對數(shù)據(jù)歸屬、數(shù)據(jù)安全和隱私保護的顧慮。
將國家及地方聯(lián)網直報平臺、省市縣各級公共數(shù)據(jù)平臺等各類數(shù)據(jù)平臺,通過應用接口或多方安全計算等數(shù)據(jù)獲取或分析處理方式,整合各級、各部門統(tǒng)計數(shù)據(jù)資源,通過聯(lián)邦機器學習、人工智能等技術監(jiān)控數(shù)據(jù)質量問題。實現(xiàn)以平臺為依托統(tǒng)一各類統(tǒng)計數(shù)據(jù)口徑,統(tǒng)一應用接口標準,一體化完成統(tǒng)計數(shù)據(jù)處理,并實現(xiàn)數(shù)據(jù)處理全鏈路跟蹤,使各個處理環(huán)節(jié)更加標準化、規(guī)范化、制度化,提高統(tǒng)計數(shù)據(jù)的一致性、可靠性、重用性。
公共數(shù)據(jù)是一座“富礦”,統(tǒng)計調查部門應以推進數(shù)字化改革為導向,以建設統(tǒng)計大數(shù)據(jù)應用中心為契機,加快部署建設統(tǒng)計云。至2025年基本建成綜合統(tǒng)計數(shù)據(jù)應用平臺并與公共數(shù)據(jù)平臺完成對接,逐步轉變單純依靠“我布置、你填報”的傳統(tǒng)數(shù)據(jù)采集方式,部分數(shù)字化程度較高的統(tǒng)計調查專業(yè)優(yōu)先實現(xiàn)完全的公共數(shù)據(jù)統(tǒng)計化;至2035年建成“統(tǒng)計標準全面統(tǒng)一、綜合統(tǒng)計數(shù)據(jù)應用平臺與公共數(shù)據(jù)平臺互聯(lián)互通、各部門各專業(yè)數(shù)據(jù)互相融合”的數(shù)字化、實時化、智能化數(shù)據(jù)采集共享系統(tǒng),各統(tǒng)計調查專業(yè)全面實現(xiàn)公共數(shù)據(jù)統(tǒng)計化,統(tǒng)計工作方式從依靠有目的的調查采集全面轉向對數(shù)據(jù)的分析挖掘。