近年來,浙江省全力推動一體化智能化公共數(shù)據(jù)平臺建設,形成省市縣三級貫通,并與國家平臺實現(xiàn)互聯(lián)的數(shù)據(jù)平臺體系。通過統(tǒng)一的數(shù)據(jù)平臺實現(xiàn)了數(shù)據(jù)生產(chǎn)、存儲、加工、治理、共享、開放的一體化,促進公共數(shù)據(jù)資源“用起來”“動起來”“活起來”
近年來,浙江省全力推動一體化智能化公共數(shù)據(jù)平臺建設,形成省市縣三級貫通,并與國家平臺實現(xiàn)互聯(lián)的數(shù)據(jù)平臺體系。通過統(tǒng)一的數(shù)據(jù)平臺實現(xiàn)了數(shù)據(jù)生產(chǎn)、存儲、加工、治理、共享、開放的一體化。
強大的數(shù)據(jù)平臺是數(shù)據(jù)“用起來”的支撐。目前,數(shù)據(jù)平臺有40 萬—50萬臺PC 機用戶,它們既是數(shù)據(jù)來源,也是數(shù)據(jù)用戶。后臺有接近萬臺物理服務器,整個服務體系服務超過1 億用戶,包括205 萬名浙江省有關工作人員,包括黨委、人大、政府、政協(xié)、公共服務單位人員等。平臺歸集了全省的公共數(shù)據(jù),成為數(shù)據(jù)要素“用起來”“動起來”“活起來”的基礎。數(shù)據(jù)服務,更多是數(shù)據(jù)流服務,是動態(tài)服務,也有靜態(tài)的數(shù)據(jù)產(chǎn)品。但動態(tài)化的數(shù)據(jù)流服務是數(shù)據(jù)服務的主流。研究分析數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務時,要摒棄傳統(tǒng)靜態(tài)化思維,要有數(shù)字化、網(wǎng)絡化的線上思維。
統(tǒng)一的目錄管理體系是數(shù)據(jù)“用起來”的保障。構建全省統(tǒng)一的公共數(shù)據(jù)目錄,將黨委、人大、政府、政協(xié)、兩院、公共事業(yè)等所有單位的數(shù)據(jù)進行歸集,形成“一套目錄、兩級建設、三級運營”數(shù)據(jù)資源管理系統(tǒng),已累計編制目錄數(shù)據(jù)項287.3 萬項,其中省級28.4 萬項、市縣級258.9 萬項,基本實現(xiàn)應編目盡編目,實現(xiàn)全省公共數(shù)據(jù)資產(chǎn)“一本賬”管理。
批量歸集和“數(shù)據(jù)高鐵”是數(shù)據(jù)“動起來”的兩大路徑。一是通過批量共享,按時間、分批量將每個單位的數(shù)據(jù)都歸集到一個數(shù)據(jù)倉庫里,目前集中共享數(shù)據(jù)占數(shù)據(jù)使用場景的一大半。二是建設“數(shù)據(jù)高鐵”,即數(shù)據(jù)實時交換系統(tǒng),任何一個系統(tǒng)出現(xiàn)數(shù)據(jù)變化(包括新增和變化)時,都通過“數(shù)據(jù)高鐵”實現(xiàn)同步更新,有效促進數(shù)據(jù)“動起來”。需要強調的是,數(shù)據(jù)的集中并不一定意味著安全風險的上升,分散的數(shù)據(jù)更容易產(chǎn)生風險。
分級分類是數(shù)據(jù)“用起來”的基礎。數(shù)據(jù)產(chǎn)品與一般產(chǎn)品不同,歸集后不能直接使用,需要針對不同數(shù)據(jù)產(chǎn)品進行分級分類管理。按照全國信安標委《網(wǎng)絡安全標準實踐指南——網(wǎng)絡數(shù)據(jù)分類分級指引》,浙江制定了《數(shù)字化改革 公共數(shù)據(jù)分類分級指南》地方標準,將所有字段按照L1、L2、L3、L4 分成四類。比如人口戶籍數(shù)據(jù)表(如圖1),身份證號碼、姓名等字段列為敏感(L4),泄露之后可能對人的名譽造成傷害的字段列為較敏感(L3)。
圖1 人口戶籍數(shù)據(jù)表
數(shù)據(jù)共享與開放是數(shù)據(jù)“用起來”的核心。數(shù)據(jù)共享主要包括批量共享、接口共享等兩種方式,其中批量共享是定時把更新的數(shù)據(jù)批量共享數(shù)據(jù)需求方,接口共享可以實現(xiàn)數(shù)據(jù)的實時調用。截至目前,浙江省平臺開發(fā)接口5007 個,2022 年1 月至今被調用801.1 億次。數(shù)據(jù)開放主要是依托一體化智能化公共數(shù)據(jù)平臺建設全省統(tǒng)一數(shù)據(jù)開放網(wǎng)站,11 個地市建立數(shù)據(jù)開放分站點,包括注冊實名后即可申請直接下載或接口服務的無條件開放,以及需要申請審核的有條件開放兩種方式。
授權運營是公共數(shù)據(jù)發(fā)揮價值的重要方式。制度層面,浙江省大數(shù)據(jù)局正在積極推動《浙江省公共數(shù)據(jù)授權運營管理暫行辦法》制定工作,將著力解決“誰來授權、授權給誰、怎么授權、授權什么、授權數(shù)據(jù)怎么用、如何安全監(jiān)管和激勵評價”等六方面問題。技術層面,在線使用是數(shù)據(jù)要素與其他商品的重要區(qū)別,目前浙江正在一體化平臺架構體系里開發(fā)建設授權運營域系統(tǒng),包括省、市兩級授權運營域。數(shù)據(jù)交易場所可以在授權運營域中建設節(jié)點,從而實現(xiàn)交易所、用戶與公共數(shù)據(jù)平臺之間的數(shù)據(jù)流通。
數(shù)據(jù)安全是數(shù)據(jù)“用起來”的底線思維。整個數(shù)據(jù)價值利用中最重要的是底線思維,即確保數(shù)據(jù)安全。目前,浙江省大數(shù)據(jù)局正在圍繞“進不來、拿不走、看不懂、改不了、賴不掉”等“五個不”,進行技術能力、管理體系和運營體系的建設。聚焦“五個不”,通過重點數(shù)據(jù)表設置分類分級、權限管控、數(shù)據(jù)加密、數(shù)據(jù)脫敏、數(shù)據(jù)水印等七大能力,推進重點數(shù)據(jù)表全鏈路防護。
公共數(shù)據(jù)平臺在確保公共數(shù)據(jù)安全前提下,實現(xiàn)高質量數(shù)據(jù)供給,促進數(shù)據(jù)受控高效流通使用,推動可信數(shù)據(jù)賦能,激活數(shù)據(jù)要素價值。公共數(shù)據(jù)平臺通過數(shù)據(jù)知識化管理,為政務大模型提供海量高質量數(shù)據(jù)支撐。政務大模型通過提供智能化、多樣化服務,提升公共數(shù)據(jù)平臺智能化水平。
現(xiàn)在大模型火爆發(fā)展,但真正用起來需要解決兩大問題,一是價值觀的對齊,使用不同數(shù)據(jù)訓練出來的模型可能會具有完全不同的價值觀。二是確保數(shù)據(jù)安全,需要進行私有化部署,這其中既涉及新開發(fā)大模型的產(chǎn)權歸屬問題,還涉及公共數(shù)據(jù)運營需要破解的問題。當前的大模型基本都是語言模型,需要經(jīng)過一定時間訓練應用才能真正發(fā)揮作用。直接依據(jù)互聯(lián)網(wǎng)數(shù)據(jù)新開發(fā)的大模型,沒有精準優(yōu)質數(shù)據(jù)的支撐,是無法直接支撐嚴肅的業(yè)務活動的。
下一步,圍繞激活數(shù)據(jù)要素價值,浙江省大數(shù)據(jù)發(fā)展管理局將主要開展兩方面工作。一是以“一機制、四清單”為抓手,完善需求征集分析機制,做好回流數(shù)據(jù)質量治理清單、數(shù)據(jù)產(chǎn)品開發(fā)清單、重點開放數(shù)據(jù)需求清單、數(shù)源單位數(shù)據(jù)治理及業(yè)務數(shù)字化建議清單等“四清單”管理;二是建立健全公共數(shù)據(jù)全鏈路防護體系,依托浙江省公共數(shù)據(jù)平臺建設自然語言處理、知識圖譜兩大能力中心,探索建設政務大模型,提升平臺智能化水平。